每天超 50 亿推广流量、3 亿商品展现，阿里妈妈

随着深度学习、强化学习、知识图谱、AutoML 等 AI 技术出现更多突破，推荐系统领域的企业和开发者开始将这些技术与传统推荐算法相结合，使得推荐效果得到显著提升。

不过，越来越复杂的场景、用户需求等对推荐系统提出了更高的要求。如今推荐系统已经得以大规模应用，然而掀开技术的外壳，审视推荐系统的内核，我们会发现推荐技术还有很多瓶颈亟待突破。

阿里妈妈资深算法专家朱小强对推荐领域也表达出“当我们越深入，越感觉到现有技术的浅薄”这样类似的感受。这不禁让人思考：推荐系统与流行 AI 技术的结合究竟对优化推荐效果起到了多大的作用？打破推荐系统领域瓶颈的突破口在哪里？怎样做，才能让推荐系统更好地服务用户？

两大关键技术模块取得突破

阿里妈妈隶属阿里巴巴集团，拥有其核心商业数据。它每天有超过 50 亿推广流量，完成超过 3 亿件商品推广展现，覆盖高达 98% 的网民。

面对如此大规模的推广展现任务，阿里妈妈的广告推荐系统起到了至关重要的作用。随着历史的推演，从 2012 年起，阿里妈妈的预估模型也在不断的迭代和创新，每年为公司带来数十亿级的收益提高。

朱小强认为，推荐系统的本质，是海量用户与商品 / 内容之间的信息配对问题。与搜索技术不同的是，推荐系统输入缺乏用户的主动意图表达，因此“听声辨位”是推荐技术的形象描述：“声”即用户的历史行为，这是我们推断用户兴趣的关键线索；“位”即用户当前潜在的兴趣内容，是推荐系统的输出结果。能不能听得真、辨得准，就是推荐技术的核心技能。

定向广告、信息流广告等展示类广告技术，其内核也是系统基于用户的行为偏好进行内容推荐，因此与推荐系统技术异曲同工。

过去的几年时间里，阿里妈妈定向广告团队在推荐技术的两个关键模块上均取得了较大的突破 **：**

匹配召回技术（matching）：在业界首创了第三代基于树结构的深度检索系统 TDM[1]。相比于第一代基于统计规则的协同滤波，第二代基于向量化表达的全库检索，TDM 技术可以使用任意复杂高阶的深度学习模型计算 user 与 item 之间的关系，并且结合 tree-based 的高效索引结构、对全部 item 库进行全局最优匹配。得益于强大的模型能力，TDM 可以对用户进行深层次的理解与刻画，从而召回的结果在多样性、精准性等方面，相比前两代技术都有显著的提升。

预估排序技术（ranking）：阿里妈妈是业界最早一批全面构建、创新自研大规模端到端深度学习模型的团队，尤其是立足于电商场景、针对海量的用户行为数据，阿里妈妈持续发力用户兴趣建模技术，提出了深度兴趣网络 DIN[2]、用户兴趣演化网络 DIEN[3]、用户多兴趣轨道记忆网络 MIMN[4]、基于行为序贯特性的全空间多任务模型 ESMM[5] 等一系列业界领先的深度学习算法。这些建模算法极大地拓宽了业界对于点击率、转化率等推荐系统核心排序技术的认知，被业界各大公司的同行参考，并做了各种进一步的优化改进，形成了该领域的一个全新流派。

除了 matching、ranking 技术的创新外，结合电商场景推荐商品的图文特性，阿里妈妈在商品创意的理解与自动生成方面也做了大量的工作，如大规模图像行为理解与建模技术 CrossMedia[6]、自动文本生成技术 [7]。此外，阿里妈妈还推出了支撑这些工业级复杂深度学习模型的开源训练框架 X-DeepLearning[8]、高性能深度学习在线推理引擎 Blaze[9]，以及结合广告 / 推荐场景深度学习模型特点的稀疏模型压缩、量化与剪枝技术，如基于 Distillation 技术的轻量级模型压缩算法 Rocket Training[10] 等。

这些来自工业实战的独特 AI 技术创新，结合阿里丰富的个性化行为数据，推动了阿里妈妈的广告业务持续、高速的增长。

传统推荐系统 +AI 技术，超百亿收入增量

阿里妈妈能够不断取得突破，与其将传统推荐技术与新兴的 AI 技术结合起来密不可分。从 2010 年左右，阿里妈妈就开始持续发力人工智能技术，用技术的力量来驱动商业的可持续增长。

众所周知，广告业务的投入产出比极高，往往 1% 的提升就对应数亿、数十亿的收入增长。因此，从最初大规模建设的分布式机器学习技术、图像 NLP 技术，到最近的深度学习、强化学习、机器翻译等技术，阿里妈妈很早就已经在工业场景中涉猎并且大力投入创新研发。

朱小强进一步解释，今天阿里妈妈绝大部分核心技术模块基本都构建在深度学习基础之上，强化学习则驱动了阿里妈妈的广告策略机制和智能调控算法的关键升级。构建在这些 AI 技术之上的业务算法，给阿里妈妈直接带来的收入增量超百亿。据统计，仅 DIN/DIEN/MIMN/TDM 等论文中披露的数字显示，核心场景的点击率累计提升就超过 40%。

在推荐系统与 AI 技术结合中，朱小强还特意强调了 ** AutoML 技术 ** 的应用现状。他表示，根据阿里妈妈的经验和与业界同行的交流来看，类似在图像领域中直接通过 AutoML 技术搜索出更优模型结构并取得显著指标提升的可能性不大。不过，AutoML 技术可以用来进行模型精度与算力需求的联合优化，寻找精度不变情况下更低能耗的模型结构。虽然这种技术本身不会直接带来效果提升，但是由于它的助攻，使得离线模型算法的设计可以有更大的自由度，生产化落地有更多的保障手段。

抗住工业级场景压力的“武器”

阿里妈妈本身庞大的业务场景决定了其推荐系统必然需要过硬的技术架构，才能抗住工业级场景下提出的众多挑战。

面对实际业务需求，阿里妈妈从 2015 年左右就开始系统地推进工业级深度学习的探索与研发。朱小强回忆道，最初，阿里妈妈只是把深度学习当成是一种新的建模算法，但很快就在算法实验上取得了突破，他们发现，端到端地训练一个简单的分组全连接深度网络，就比当时线上优化多年，集结了各种调优 trick 的最强 MLR 模型 [11] 具有显著优势。

幸运的是，阿里妈妈很快意识并抓住了这个新技术的突破契机，在 2016 年“ALL-IN”深度学习。

朱小强表示，站在现在看过去，阿里妈妈工业级深度学习的完整体系构建，涵盖了从算法突破点燃的星星之火，到业界首个面向高维稀疏数据场景的工业级深度学习训练框架 X-DeepLearning、大规模分布式 GPU 训练集群、高性能深度学习在线推理引擎 Blaze、端到端实时深度学习树型检索引擎、深度模型训练 / 评估 / 部署的自动化生产链路，后续持续升级的大规模实时深度学习 ODL 架构、面向大规模稀疏深度模型的压缩 / 量化 / 剪枝等效能优化技术，以及最新的结合算力算法与系统架构 co-design 的工业级深度学习 2.0 技术体系构建等等。

这个过程并不是一帆风顺的，阿里妈妈在每个阶段都经历了无数的挑战，包括关键技术路径的争论与判断、核心算法的艰难突破、算力资源的争取，以及来自集团 / 业界的质疑挑战等。所幸，阿里妈妈克服了所有的困难。

不过，他认为真正决定整个技术体系构建成败的关键挑战，是由深度学习引发的新一代技术革新对算法、工程、数据、测试等传统技术工种的融合需求。**

“今天我们清楚地认识到，深度学习是一种新的生产力，它需要我们对整个技术体系进行全面改造，阿里妈妈定向广告团队在这一轮的技术升级过程中之所以能够取得一系列的技术领先优势，除了核心驱动者的超前意识和能力，最大的红利来自于我们可以协同算法、工程等全部力量，以算法创新为内驱，以业务场景和需求为孵化的土壤，不受固有架构的局限，勇于打破与重新定义。”

例如，X-DeepLearning 框架就是由算法团队率先研发，由工程团队续力做进一步抽象形成的；TDM 全新检索系统也是依赖算法与工程团队协同开发才能真正落地；大规模实时深度学习 ODL 架构则是集合了算法 / 工程 / 数据 / 测试全部力量合力打造。

这种跨越工种和团队组织的 co-design 研发模式，在他看来是工业级深度学习体系研发成功背后的关键要素。

工业级深度学习 2.0 时代

此前，朱小强曾发表过这样的观点：接下来工业级深度学习将进入 2.0 时代，这个阶段面临的核心问题，是当前深度学习仍然跑在为上一代大规模机器学习模型需求而构建的系统架构之上，但过去的那套架构已经不太适合如今数据、算法和算力背后的需求。

那么，满足现在工业级场景需求的系统架构理想中应该是什么样的？如何从现有基础上进行改进或重新构建？

朱小强认为，没有最理想的系统架构，只有适应当前算力、算法需求，协同发挥最大收益的合理架构。生产关系和生产力从来都是配对出现的。

以推荐系统为例，当前的系统架构普遍遵循的是计算数量逐级约减、计算复杂度逐级上升的结构。但事实上，深度学习算法本身的特性和 GPU 单点算力的巨大飞跃，已经可以打破这种架构设计，后链路尽可能地放宽计算约减的约束，甚至尽可能减少中间环节、构建更短的端到端系统。

例如，阿里妈妈近期对粗排架构做了一次升级，打破了传统粗排模型广泛采用的双塔结构，引入更加复杂的、但算力可控的全连接结构，同时粗排引擎升级为全实时计算引擎。这种全新的粗排架构，直接为其带来了显著的业务收益，同时为后续拓宽了更大的算法空间。

“架构的演进一定是个循序渐进、各模块独立推进的过程，只不过抽象出背后演进的驱动力，我认为可以有一条主线：如何把单点算力通过新的架构放大、进而承载更复杂更实时的计算。”朱小强称。

另一方面，面向业务场景的需求和数据的特性，需要对算力、算法和系统架构之间做协同设计（co-design），具体应该怎么做？

朱小强告诉 AI 科技大本营，更大体系内的 co-design 设计是一种新的方法论，具体到每个系统模块或者技术环节，都有着不同的做法。举例来说：

TDM 是第三代匹配检索体系，它重新定义了两个技术：1）全库检索模型突破了向量化架构，采用任意复杂的深度模型；2）实时检索引擎，采用 tree-based 新型索引而非传统的正排、倒排索引。事实上，这两个技术单独看都不新鲜，甚至以及在其余技术中广泛采用了。但是当算法与索引结构 co-design 时，形成了全新的技术。Google 在 2017 年推出的基于机器学习的数据库 index learning 技术，与 TDM 有着异曲同工之妙。
MIMN 是阿里妈妈研发的新一代点击率预估模型，在今年的 KDD 会议上已经公开发表。单独看 MIMN 算法，它虽然很精妙，但非常复杂，难以部署到实际生产系统提供实时在线服务。MIMN 是业界首个面向超长用户行为序列建模的技术，对淘宝数亿用户、平均历史行为长度超过 1000 的数据进行建模，离线训练总归不是难事，但是如此长的行为序列数据作为特征提供在线实时服务，系统引擎是远远扛不住的。

为此，朱小强团队结合在线引擎的特点，把计算做了异步拆解，构建了一个单独的用户兴趣服务 UIC，专门用来计算 MIMN 中复杂的长行为序列模型；同时结合记忆网络的特点，采用了实时增量计算技术，破解了在线服务的难题。MIMN+UIC 的 co-design 设计，使得该团队得以成功地把这项最新的算法部署上线，取得显著收益。

然而，朱小强也指出，co-design 的方法论更多的是一种新的技术思考模式，使得我们设计新的技术时可以从更大的视角出发、敢于打破原有约束、重新定义新的体系，而不是什么灵丹妙药。

理想中的推荐系统

最后，朱小强还补充了自己从多年从事推荐系统研发工作的经验中得出的一些思考，“当我们越深入、越感觉到现有技术的浅薄。我心中理想的推荐系统，应该是像相知多年的老友一样，了解你的喜好习性，洞察你此刻的心情，给予贴心甚至惊喜的推荐。它健谈但不聒噪，懂得适可而止。当然，它也一定是让你足够信赖的。我们今天的推荐系统，就像一个恼人的喋喋不休的话痨，你刚开始谈一个话题，它就源源不断地给你轰炸同质的消息，让你审美疲劳。”

正如朱小强所说，推荐系统作为最重要的个性化服务应用之一，它的主要功能是提供服务、吸引更多的用户使用和停留。从这个角度来看，未来推荐技术还有很大的进步空间。