「回顾」阿里妈妈：定向广告新一代点击率预估

配套 PPT 下载，请识别底部二维码关注社区公众号，后台回复【1212】

分享嘉宾：牟娜阿里巴巴高级算法工程师

编辑整理：孙锴

内容来源：DataFun AI Talk《定向广告新一代点击率预估主模型——深度兴趣演化网络》

出品社区：DataFun

注：欢迎转载，转载请注明出处。

概述

本次带给大家分享是阿里妈妈在 2018 年做的模型上的创新——深度兴趣演化网络（Deep Interest Evolution Network），分享将从以下几个方面展开：

1. 提出该模型的背景及原因；

2. 该模型的结构详解；

3. 该模型的最终效果。

背景

1、业务形态

在介绍该模型创新背景之前，先来看一下我们的业务形态：当我们打开淘宝的时候，首先呈现的是一个 banner 形式的广告；在首页猜你喜欢场景下，或者购物链路的其他场景下，会出现一些单品的广告：在推荐的商品浏览列表，即信息流场景下，会在列表中穿插广告投放，且投放位置固定，这些广告将和正常推荐浏览的商品一起呈现出来。

tips：如果广告的形态特别明显，会破坏用户的体验，比如浏览的顺畅感。所以，推荐用户感兴趣的东西，使得用户感觉不到广告的存在，是十分重要的。

在一般的广告建模里，通常根据广告信息、用户信息、上下文信息，去判断用户是否会点击这个广告。区别于搜索广告这种用户带有明显意图的主动的 query 查询行为，在展示广告业务场景下，用户并没有明确的意图。此时，应当如何建模，用户会有什么样的兴趣，了解并解决这些问题，对我们工作非常重要。

2、简单模型

从模型的视角来看，早期的模型形态为：简单模型 + 复杂的人工设计特征。很多公司在初期都是这样的形式：LR 模型 + 非常复杂的特征工程。

而随着计算机的性能的提升，大家能够利用的数据和计算资源也越来越多的时候，我们便尝试把挖掘潜在特征的工作交给模型来做，这就是深度学习出场的过程。

在 LR 时代，我们团队做了一些尝试，其中一个是引入了 MLR 模型，即：把 LR 模型分成多片，每片建模一部分数据，此方式相当于引入一部分非线性能力。在这个过程中，我们发现，与只用 LR 相比，MLR 模型引入的这部分非线性，对我们的最终效果产生了明显的提升。

在 2016 年的时候，我们团队开始尝试引入深度学习来解决 ctr 提升的问题。

3、神经网络

第一代神经网络 ctr 模型如图所示，第一层是非常简单的原生特征，包括：用户特征，候选广告特征，上下文特征。这些特征在经过 lookup 的方式做 embedding 之后, 被 concat 一起，送入多层的 dnn 网络，最后做一个 softmax。这是一个最基础的 ctr 神经网络模型。

在这种最简单的 dnn 模型基础之上，衍生出了非常多的其他的模型，比如 DeepFm，做一些特征之间的交叉；pnn 也是；然后是 deep&wide 模型，其中的 deep 部分可以通过多层 MLP 学习数据中的非线性规律，同时设计了 wide 部分以复用传统浅层模型时代保留下来的丰富的人工设计特征。

tips：模型演进的路线：增强泛化能力、保留记忆能力、挖掘组合关系。

然而上述通用的设计，还不足以应对我们的业务场景，因为淘宝的用户个性化程度非常高，千人千面，每个人看的东西都不一样，每个人的兴趣点也不一样，行为非常丰富，所以一些简单的神经网络模型，单靠增加人工设计的特征或者简单的代数式先验设计，在我们的场景下太过于低效了，还不足以把用户的兴趣挖掘的特别透彻。

如图所示，根据用户的历史行为，我们看到用户的兴趣点是非常宽泛并且杂乱的。此时，在通用的 Embedding&MLP 范式下设计出的模型，是无法针对用户丰富多样的兴趣，做出特别操作的，仅仅是把所有行为的 Embedding sum 在一起作为用户的历史行为表达。而这一操作存在大量信息损失。

tips：这里需要强调的是，用户行为的多样性，反映了用户兴趣的多样性，即每个人感兴趣的物品、种类是很多的，尤其是在淘宝这样综合性的购物网站。

此外，兴趣本身也会随着时间逐渐演化，前面提到的模型对于这种包含演化信息的数据，就更加无能为力了。

tips：大家可以想象一下，自己在网络上购物，比如买衣服的时候，一年前喜欢的风格和现在喜欢的风格可能是不一样的，是存在一个逐渐演变的过程的，如果用前面提出的模型，会把这种逐渐演变的信息丢失掉。

面对这些问题，我们提出了对模型的改造。

4、深度兴趣网络

针对用户的兴趣信息的挖掘，我们迈出的第一步对模型的改造是 DIN（Deep Interest Network），这是我们在 2017 年展开的主要工作

虽然说用户的兴趣是多种多样的，但是我们回过头看一下我们的 ctr 预估要解决的是什么问题。我们是在给定一个候选广告和用户的情况下，去预测点击的结果。当候选广告给定的时候，我们可以用候选广告去反向激活历史行为中的商品，把跟广告相关的商品拉出来，计算用户的兴趣可能是什么。我们利用了候选广告集，最终通过反向激活挖掘出历史行为中与候选广告相关的兴趣。

具体的模型设计如图：通过候选广告，用反向激活的方式，与用户历史行为相关联，按照候选广告与历史点击商品的相关性的高低，来赋予历史行为不同的权重。通过这种方式获取到和当前广告相关的历史行为表达向量以及对应的相关权重，做 weighted sum pooling 之后，就得到了跟候选广告相关的用户兴趣向量表达。这种方式比直接对所有历史行为做 sum pooling 增加了兴趣表达的灵活性，同时，随着候选广告的不同，该方式也会得到不同的兴趣表达。

如图是一个基于 din 所得到不同历史行为中包含的广告的权重的例子。候选广告是羽绒服，我们看到历史行为集中衣服相关的广告权重较高，而杯子之类的广告相关性很低。这个例子我们也可以看到 din 的优点。但是，从刚才的过程中，我们也发现到 din 还是有一些不足，这个模型忽略了兴趣随着时间之间演化这样一个重要的性质。

同样一件羽绒服，你会发现以前喜欢的款式和现在喜欢的款式会发生一些变化。

那么在 2018 年，我们的工作重点就是针对这样一个兴趣随时间演化的特点来进行建模以及模型的改造。

深度兴趣演化网络

由此引出 DIEN（Deep Interest Evolution Netowork）。

首先，用户的兴趣随时间演化这样一个特点，做过深度学习的同学们会容易想到序列建模，即把历史行为按时间序列铺开做序列建模。这样一个直观的想法，我们当然也做过尝试，但是效果并不理想。

如图是一个用户的真实足迹，用户在看窗帘，突然买了别的产品；用户在看旅游产品，突然买了猫咪用品。

tips：选购旅游产品的时间线一般拉的比较长，因此选购期间难免会看一些日常的其他商品。

这样一个行为序列是一个杂乱无章的过程，这样的序列与自然语言处理遇到的有序序列是完全不同的，在这样的场景下，序列被打断是一个常规行为。因此单纯的序列建模在这种场景下会失败就不难理解了。用户的兴趣是隐藏在杂乱无章的行为序列背后的，针对这样的情况，我们提出了新的解决方案。

我们已知：用户的兴趣隐藏在行为之后，虽然行为杂乱无章，透过行为，我们发现，其实兴趣的表达要比行为的表达更为稳定的。

当我们提取了兴趣表达之后，还需要对兴趣随时间演化的趋势进行建模。

因此我们将这些问题归纳、抽象、并最终设计了两个模块：兴趣提取模块、兴趣演化模块。

1、兴趣提取模块

关于兴趣提取模块：

假设用户浏览了一条裤子，那么裤子 id 是一个特征，该特征对于推荐系统来说是一个较为随机的特征，然而这个 id 类特征代表的物品的背后，比如用户是喜欢这个裤子的颜色、样式、功能等某些特点，这些特点是我们希望兴趣提取模块可以获取到的，也即，找到与这些随机特征相关联的泛化特征，并进行建模。

如图我们可以看到，在 embedding 层之后，我们对用户特征，上下文特征，广告特征的处理方式并没有改变。而行为序列特征做 embedding 之后，我们增加了兴趣提取模块。

由于我们的目标是挖掘商品背后的兴趣表达，用户某一时刻的兴趣，不仅与当前的行为相关，也与历史各个时刻的行为相关，因此，我们决定使用 GRU 模型来对历史行为序列建模，并提取兴趣特征。

tips：我们用 GRU 代替 LSTM 是因为在效果相差无几的前提下，前者比后者要节省更多的参数。在神经网络模型整体结构非常复杂的大前提下，我们会尽量将每一个模块简单化、轻量化。

通过 GRU 提取出隐层状态的表达，我们认为这是对用户兴趣的抽象。除了使用 GRU 之外，我们还引入了辅助 loss 的功能，用来辅助提取兴趣表达。

tips：引入辅助 loss 的原因在于：原始的 GRU 所提取的隐层状态的表达，受到最后时刻的兴趣的影响程度更高一些，而历史时刻的兴趣随着时间越来越远，会被模型慢慢遗忘。辅助 loss 将所有历史时刻的 loss 叠加，学习时可以学到更多历史兴趣特征。

并且，由于辅助 loss 的数据的来源是全网的点击信息，而不仅仅是广告样本的点击，这样会增加很多额外的信息，会更好的刻画用户在全网的兴趣。

辅助 loss 的作用有三点：

1. 辅助 loss 利用的 label 反馈是点击序列 pattern 而不仅仅是 ctr 信号；

2. 能有效解决长序列梯度传播问题，因为在现实场景中，用户兴趣序列有可能非常长，若直接用 GRU，没有辅助 loss，则会面临长序列梯度消失问题；

3. 通过点击 pattern 的学习，出来 hidden state 能学的更好，Embedding 通过反向传播也能学到更多语义表达，使得学习更加有效。

辅助 loss 的构建方式：我们将历史行为序列中的有点击行为的样本 label 标记为 1，有曝光无点击行为的样本 label 标记为 0 并进行负采样，组合后送入 GRU 模型，并构建辅助的 loss 信号，与最终的 loss 相加后进行学习。

2、兴趣演化模块

在兴趣演化模块，回想我们的业务场景，有两点值得注意：

1. 用户行为的随机跳转较多，无规律可言；

2. 具体到某个兴趣，存在随时间演化的趋势。

那么我们有没有办法使我们的模型可以有区别对待这些历史行为，然后只关注与候选广告相关性较强演化。这就是兴趣演化模块引入的背景。

现在的状态如下：

1. 由于候选广告已经给定，而我们也只关心跟候选广告相关的兴趣点；

2. 在历史行为序列经过 GRU 之后，用户的兴趣表达已经提取出来了。

此刻，我们开始针对性的对演化过程进行建模。

首先是加入 attention 机制，根据与候选广告的相关性，对历史序列里的商品进行加权；以此得到 attention score。

在 attention 机制之后，再加入一层改进的 GRU，称之为 AUGRU。

tips：引入该模型的原因在于，在 AUGRU 里面，我们使用 attention score 来控制 update 门的权重，这样既保留了原始的更新方向，又能根据与候选广告的相关程度来控制隐层状态的更新力度。

举个极端的例子：假如该时刻的行为与候选广告相关度为 1，我们希望这个行为能更新用户兴趣的隐状态即 h(t)=f(h(t-1), i_t)，而当行为与候选广告不相关的时候我们要保留当前状态，即：h(t)=h(t-1)。

假如我们不采用这种改进的 GRU 方式，而直接把 attention score 乘在每个兴趣向量上作为下一层普通 GRU 的输入的话，这种做法会直接影响了输入的 scale，而不是准确的控制什么时候该更新，更新的程度和方向是怎么样的，因此可能存在信息的损失。

还是举个极端的例子：假如某行为与候选广告不相关，那么隐状态的更新是 h(t)=f(h(t-1), 0), 0 向量并不会不更新，而是会将 hidden state 更新到一个新的地方去，这并不是我们期望的。

通过 attention 机制，我们得以从繁杂的商品中选取相关的兴趣，并通过 AUGRU 模型，最终更精准的得到广告的相关兴趣。

效果

1、离线效果

最后，我们给大家介绍一下实际的效果。这个模型不仅在生产任务上取得了良好的效果，在学术界也取得了不错的成果。

如图，上半部分是我们在公开数据集（来自于亚马逊商城）上所做的实验。我们对电子产品、书籍两个类目的数据用不同的模型做了实验。可以看出来，DIEN 模型的效果是最好的。

图中下半部分是生产任务数据集的实验，我们采用了和公开数据集相同的模型，图中也可以看出，DIEN 在列出的模型中，表现也是最优的，而且相对 base_model，AUC 提升了 1.9 个百分点。

在公开数据集上，我们将不同步骤进行了拆分，可以看到每个模块的提升效果。

2、线上效果

我们通过 A/B test 观察了一个月的数据，平均带来了 17% 的 ecpm 提升，带来了巨大的商业价值。

谢谢大家！

作者介绍

牟娜阿里巴巴高级算法工程师

牟娜，阿里巴巴高级算法工程师。毕业于北京邮电大学，曾在网易有道从事算法研究的相关工作，参与研究和开发了有道翻译的第一代神经网络机器翻译模型，该模型应用于有道词典和有道翻译官，翻译质量取得了阶段性飞跃。现就职于阿里巴巴精准定向广告团队，从事 CTR 预估相关的算法工作，近期研发的兴趣演化模型在定向广告上取得显著提升，带来了巨大的商业价值。