BM252023-01-12
符号定义
- :输入的查询语句(query)
- :对分词后得到的第个单词
- :对分词后得到单词的个数
BM25算法
TF-IDF
首先回顾TF-IDF的公式:
简言之,用户query与某个文档的相似度,等于该query中每个词与该文档TF-IDF的和。
BM25
BM25算法是TF-IDF算法的优化版本,算法整体逻辑与之类似,计算公式如下:
其中,为中包含单词的文档数量、、为调协因子,默认、、为单词在中出现的次数为单词在中出现的次数为中的单词个数为中各个文档的平均单词个数 代码
BM25 Code
参考文档
- 《这就是搜索引擎》 - 张俊林