检索策略怎么选?
今天被问到这个问题,简单回答一下。
纯语义检索
就是用 Embedding 向量相似度搜索。
优点:理解语义,"苹果手机" 能匹配 "iPhone"。 缺点:精确匹配不行,搜 "iPhone 15" 可能返回 "iPhone 14"。
纯关键词检索
传统的 BM25 算法。
优点:精确匹配强,搜啥返回啥。 缺点:不理解同义词。
混合检索
两者结合,各取所长。
我的建议:先试纯语义,不行再加关键词,别一上来就搞复杂的。
今天被问到这个问题,简单回答一下。
就是用 Embedding 向量相似度搜索。
优点:理解语义,"苹果手机" 能匹配 "iPhone"。 缺点:精确匹配不行,搜 "iPhone 15" 可能返回 "iPhone 14"。
传统的 BM25 算法。
优点:精确匹配强,搜啥返回啥。 缺点:不理解同义词。
两者结合,各取所长。
我的建议:先试纯语义,不行再加关键词,别一上来就搞复杂的。
评论 (0)
登录后即可参与评论互动