今日头条：AI助力用户推荐（下篇）

在上篇中主要讲了AI助力实现智能推荐的原理流程和方法，在下篇中笔者将通过上手操作，来讨论具体落地的方法。

本篇笔者选择今日头条中的13个类别的信息作为上手对象，如：时尚、旅游、美食、育儿、财经、图片、探索、娱乐、搞笑、直播、体育、科学等，分别通过抽取粉丝数超过百万以上的用户最近的文章、用户标签和分享的图像，最终在13个类别上获取了353个用户的ID号和URL，共爬取13个类别的600 382张图像，118 421条文章和 2378个用户标签作为数据集；然而13个类别的2378个用户标签中有1110个标签重复，所以删除重复之后，最终得到1286个不重复的用户标签。

由于本篇笔者的目的在于展示AI产品如何上手，so“探讨用户分享图、文章和用户标签中的语义概念是否能够表征用户的兴趣倾向，并比较单模型数据和多模型数据的推荐效果”，因此将353个用户分为13个类别，其中图像、文章和标签数据如下图：

文章数据处理过程如下：

主要是将13个类别的353个用户的文本数据获取后。

首先：对每个类别用户的文本进行去停用词；

停用词是指在信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据（或文本）之前或之后会自动过滤掉某些字或词，这些字或词即被称为Stop Words（停用词）。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表。但是，并没有一个明确的停用词表能够适用于所有的工具。甚至有一些工具是明确地避免使用停用词来支持短语搜索的。

接着：再进行分词，笔者所采用的是Python里的jieba分词，分词完毕后对文章进行深度学习，然后得出每个用户下所有文章的64维特征向量，生成353个用户文章的特征向量；

标签数据处理：

再对用户标签数据处理过程主要是将13个类别的353个用户的2378个用户标签数据获取后，将重复的标签删除，最终得到 1286 个兴趣标签，1286 个兴趣标签通过程序生成1286 维度词袋模型；

图像数据处理：

图像数据处理主要使用残差网络（ResNET），ResNet模型获得过图像识别大赛冠军，通过深度残差网络对图像进行识别，在深度和精度上比传统的CNN可以获得更好的语义信息表达。笔者通过使用ResNet模型来构建50层的神经网络，获取1000维特征向量。

最后，将13个兴趣类别的3种数据类型的特征向量进行组合，每位用户生成2350维特征向量。

总结：

在今日头条的产品落地中不仅将用户的文本、标签和图像特征融合进行推荐，也会将将用户的属性特征和社交关系特征融合进行好友推荐；

另外，用户的兴趣是多样性、可变性的，有时推荐系统还会加入情境感知信息，如：时间、情感、场景等。这也是今日头条产品重点迭代的一个方向。

最后：今日头条也好、抖音也好、多闪也好都是字节跳动旗下的明星产品，均为AI赋能助力的产品相信推荐系统会越来越融合跨行业和跨平台的推荐打法，突破数据孤岛。具体系统的知识可以见笔者的畅销书《AI赋能：AI重新定义产品经理》。

升华在以上例子中AI产品经理应该做的事是：

1. 停用词库的构建。

2. 明白关键词术语和意义例如：精确率、召回率及F1值，精确率（Precision），查准率。即正确预测为正的占全部预测为正的比例。个人理解：真正正确的占所有预测为正的比例。召回率（Recall），查全率。即正确预测为正的占全部实际为正的比例。个人理解：真正正确的占所有实际为正的比例。F1值。F1值为算数平均数除以几何平均数。

3. 研究定义产品的分析对象、分析指标、能够应用分析结果。