新一代海量数据搜索引擎 TurboSearch 来了！

本文作者：sololzluo，腾讯 AI Lab 开发工程师

一. TurboSearch 简介

AI Lab 多年一直在搜索领域进行深耕和积累，继搜搜网页搜索之后，陆续服务于微信搜一搜（公众号文章、朋友圈、视频）、应用宝搜索、地图搜索、音乐搜索、视频搜索、手 Q、QQ 群等精品垂直搜索业务，以及云搜中小数据搜索业务。

从网页搜索继承下来的搜索系统，经过多年的需求迭代，越来越难以支撑结构级新特性更新。因此我们投入精力对整体系统重构和优化，重新构建了大规模、轻量级、松耦合、可裁剪、低运营成本 具有完整解决方案 的新一代搜索系统 TurboSearch 。主要有以下特性：

完整的 分布式、海量搜索系统及运营解决方案
支持便捷 私有化部署
高性能索引及 并行检索
支持 多粒度索引 及检索
支持普通检索、分类检索、WAND 及精细化的检索层过滤逻辑
核心组件解耦，支持横向扩展，能力可裁剪
无缝对接 AI Lab 各项 NLP 能力，涵盖 Query 分析及排序等多个领域
支持场景丰富，除传统的网页和各类非结构化垂类场景外，同时 可扩展 到多模态向量搜索场景

与业界部分开源引擎框架 ElasticSearch，Solr 等不同的是，TurboSearch 更倾向于面向在线 高并发、大规模、低时延 的检索需求，同时能够平行扩展到多模态场景，并提供完整的搜索运营能力。TurboSearch 在将会分层次和分阶段逐步在公司内部开源。

在多模态 / 向量检索领域，AI Lab 已经推出 GNES 检索系统，聚焦于内容对象的 Encoding，以及多种算法模型的平台化整合。同样在向量检索领域，TurboSearch 会逐步从索引层面，探索针对大规模向量数据集的高性能检索。并从向量索引、及系统化运营层面为 GNES 提供支持。

二. 引擎框架介绍

TurboSearch 引擎主要有六大核心能力：

搜索核心组件：基础核心能力抽象和组件化，便于扩展，如索引计算、检索核心等。同时为了降低多进程资源开销，构建了多线程 C++ 检索通信框架 smqRPC。
搜索基础服务：基于搜索核心组件分层包装的检索服务，主要包括离线索引、在线检索及检索接入三大层次。支持包括内存、磁盘索引在内的分布式索引及检索环境。
搜索 OSS 体系：包括离线索引生成、在线索引滚动更新、检索干预、ABTest 等多项能力。后续将进一步完善包括好例、离线效果评估等其它精细化运营系统。
效果扩展组件：搜索效果随业务场景而变化，我们将打分排序解耦剥离，内置部分基础相关性排序功能，也可自定义排序。
API 组件：提供包括 SDK、smq 协议访问及 HTTP RESTful 接口等多种访问方式。
Query 分析能力：除了基础的分词之外，也具备同义词、纠错、时新性计算、意图识别、成分分析、非比留、新词发现等全面能力。

TurboSearch 基础框架：

![](https://pic3.zhimg.com/v2-3acd41958690312b2e1b2ca299813d4

三. 引擎特性

1. Query 检索召回

检索多次下发

一个 Query 的搜索过程可以分为以下几个主要部分：

Query 分析（适用于网页和垂搜），包括切词、纠错、拓展、改写等。
检索召回，包括倒排求交、截断合并等。
打分排序，在 TurboSearch 中包含多层 rank 提高召回率。

然而，单次 Query 召回往往并不能达到搜索预期。比如，搜索 “吃鸡”，只召回吃饭相关的文章可能难以命中用户意图。将其拓展为 “和平精英”，或其他热点事件 Query，并将多次拓展结果融合，更容易命中用户意图。因此 TurboSearch 应对这样的 NLP 拓展能力，原生支持多次下发结果融合。

2. QRW & 分层打分排序

QRW 是 AI Lab 多年积累的 Query 分析 NLP 服务，除了覆盖垂搜所需的纠错同义词 / 非比留 / 基础相关性等基础能力之外，也涵盖了全网搜索所需具备的全部能力，如 Query 改写 / 时新性 / 意图识别 / 成分分析 / 文本分档等等。

在排序和召回层面，TurboSearch 设计了 5 层 Rank 来最大化提高召回率 **，从 L0 - L4 覆盖离线、倒排求交、精计算、全局精排等多个层面，为每个可能漏招环节做保障。**

3. 高性能检索

并行检索

文本检索召回的基础即倒排求交：

最耗时部分集中在 求交 +L1 打分 和 L3 打分。在传统的程序设计中，这两部分均在单线程中串行执行。使得在高频词检索求交时，单次请求耗时难以控制。

TurboSearch 针对两个高耗时流程，采用 多线程并行处理。将倒排索引切分，来并行化检索求交 +L1：

我们做了一些 特殊的无锁多线程结果合并设计，避免合并结果等待导致闲置 CPU 的问题。负载未达 100% 时，平均检索耗时可大幅降低（数据集为长文本新闻数据 250w）：

Weak-AND

Weak-AND 在广告或推荐等小数据集召回场景下，已经有较多的应用。在海量数据检索中，TurboSearch 正探索其在长 Query 召回场景 下的应用。通过结合 Weak-AND 与 AND，平衡召回率和检索性能。

Weak-AND 的性能优化和场景探索将持续进行。

倒排性能优化

** 求交召回过程中，倒排的索引结构设计，对求交耗时影响较大。** 内存实时索引倒排在设计上具有以下特性：

倒排索引需要支持 高性能同时读写，写入新文档和读取倒排求交的能力。
需要写入 共享内存 避免进程停止导致索引需要重新加载。
- 本文地址：http://www.6aiq.com/article/1578466356903
- 本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出
- 知乎专栏点击关注
倒排链中，存储块越多，性能越差，尽量避免倒排块数量过多。

TurboSearch 对内存倒排索引做以下设计：

其中：

BuddyAllocator 单线程运行， 分配释放处理能力达 1000w/s。
分超小块 CombinedChunk 和普通 SingleSlice，解决超短倒排存储率问题。
小块 SingleSlice 合并为大 SingleSlice，解决超长倒排中倒排块过多问题。

对比老架构固定块倒排索引：

4. 多粒度索引

不同于 N-gram 这种暴力索引方式，多粒度索引专注于文档与 Query 中的隐性词组发现，对正常分词补充。检索时先进行粗粒度词召回，如果粗粒度无结果或结果偏少，将再次进行细粒度词召回。通过这个方式来解决松散召回导致的紧邻结果截断问题。

如 “海底捞万象城店” 对应的粗粒度索引为 “P: 海底捞万象城店”，保证结果能紧邻命中召回，如果在粗粒度检索无结果时，将再次使用 “海底捞”、“万象城”、“店” 进行检索召回。既保证了准确性，也能兼顾召回率。

5. 海量数据索引支持

对于海量数据搜索业务场景，脱胎于网页搜索的 TurboSearch 继承三种类型的索引集群结构:

FOB，全内存索引，支持实时增删。
GOB/NOB，内存倒排 + 正排，磁盘摘要，不支持实时增删。
WOB，磁盘索引，不支持实时增删。

根据不用搜索业务数据场景需求，可将各类索引集群组合达到设计目标。

6. 核心逻辑功能插件拓展

TurboSearch 引擎考虑到自定义功能开发拓展，目前对以下核心功能做了插件支持：

过滤库 filter
打分库 score
求交 intersect
语法树 syntax
分词库 segment

7. 私有化部署

TurboSearch 整体设计上支持私有化部署。 在公司内网环境运营时，可使用已有的服务组件，如 CL5（名字服务）、Sumeru（资源管理）等。然而在私有化部署场景下，这些公共服务难以一同打包部署。 因此 TurboSearch 对这些功能均有 内建相应能力，可选择使用， 并基于以下设计支持私有化实现：