原始语料

未分词的语料,建模前需要分词。
同时,也需要去停用词,当前未去停用词,后面可以看下对搜索的影响。

BM25 - 手动造轮子

模型定义

建模

查询

为何相似度出现负数?
因为某些单词,如?,在语料库出现的比较频繁,导致IDF小于0。
如何进行优化:
分词后去停用词。

BM25 - gensim

建模

查询