检索策略怎么选?

今天被问到这个问题,简单回答一下。

纯语义检索

就是用 Embedding 向量相似度搜索。

优点:理解语义,"苹果手机" 能匹配 "iPhone"。 缺点:精确匹配不行,搜 "iPhone 15" 可能返回 "iPhone 14"。

纯关键词检索

传统的 BM25 算法。

优点:精确匹配强,搜啥返回啥。 缺点:不理解同义词。

混合检索

两者结合,各取所长。

我的建议:先试纯语义,不行再加关键词,别一上来就搞复杂的。