基于对象特征的推荐系统
(本实验选用数据为真实电商脱敏数据,仅用于学习,请勿商用)
在上一期基于协同过滤的的推荐场景中,我们介绍了如何通过 PAI 快速搭建一个基于协同过滤方案的推荐系统,这一节会介绍一些如何基于推荐对象特征的推荐方法。
首先看下整个业务流程图,这是一个基于对象特征的推荐场景的通用流程:
- 首先把数据导入 Maxcompute,有监督的结构化数据
- 接着做特征工程,在特征工程环节主要做一些数据的预处理以及特征的衍生,特征衍生的作用是扩充数据维度,使得数据能更大限度的表示业务特点
- 接着把数据通过拆分分成两份,一份通过分类算法生成二分类模型,另一份数据对模型效果进行测试
- 最后通过评估组件得到模型效果
一、业务场景描述
通过一份真实的电商数据的 4、5 月份做模型训练生成预测模型,通过 6 月份的购物数据对预测模型进行评估最终选择最优的模型部署为在线 http 服务供业务方调用。
本次实验选用的是 PAI-Studio 作为实验平台,仅通过拖拽组件就可以快速实现一套基于对象特征的推荐系统。本实验的数据和完整业务流程已经内置在了 PAI 首页模板,开箱即用:
二、数据集介绍
数据源:本数据源为天池大赛提供数据,数据按时间分为两份,分别是 7 月份之前的购买行为数据和 7 月份之后的。
具体字段如下:
字段名 | 含义 | 类型 | 描述 |
---|---|---|---|
user_id | 用户编号 | string | 购物的用户 ID |
item_id | 物品编号 | string | 被购买物品的编号 |
active_type | 购物行为 | string | 0 表示点击,1 表示购买,2 表示收藏,3 表示购物车 |
active_date | 购物时间 | string | 购物发生的时间 |
数据截图:
三、数据探索流程
本次实验选用的是 PAI-Studio 作为实验平台,仅通过拖拽组件就可以快速实现一套基于协同过滤的推荐系统,并且支持自动调参以及模型一键部署的服务。
实验流程图:
(1)特征工程
在特征工程的流程中是把最原始的只有 4 个字段的数据通过特种工程的方法进行数据维度的扩充。在推荐场景中有两个方面特征,一方面是所推荐的对象的特征,另一方面是被推荐对象的特征。
在商品推荐这个案例中:
- 被推荐对象为商品(item),扩充的维度为每个 item 被购买量、每个 item 被点击量、每个 item 被点击购买率(购买量除以点击率)
- 推荐对象为用户(user),扩充的维度为每个 user 总的购买量、总的点击量、总的点击购买率(点击数除以购买率,可以得出每点击多少次购买一个产品,可以用来描述用户购物的果断性)
最终数据由原始的 4 个字段变成了 10 个字段:
(2)模型训练
现在已经构建了一个大宽表,有了做完特征工程的结构化数据,现在就可以训练模型了。这个案例中选用了逻辑回归算法,在做模型训练过程中有一个痛点就是如何找到合适的参数,对于逻辑回归参数(如下图)而言,如何调整以下几个参数,使得模型训练能达到最好的效果是一个非常有挑战的任务。
为了解决繁琐的调参工作带来的劳动量问题,PAI 产品内置了 AutoML 引擎帮助调参,在页面上打开 AutoML,只要设置下需要调参的算法的参数范围以及评估标准,后台引擎即可在最小的资源消耗下找到最合理的参数,详见:
(3)模型评估
模型评估模块是用预留的一部分未参与模型训练的数据评估模型质量,通常推荐场景都是二分类实验,可以使用混淆矩阵和二分类评估组件去评估结果。
- 二分类评估:打开组件选择“图表”,会展示下图 ROC 曲线,其中蓝色区域的面积为 AUC 值,面积越大表示模型质量越高
- 混淆矩阵:通过混淆矩阵可以确定具体的预测准确率、召回率、F1-Score 等指标
(4)模型在线部署
模型生成后,如果效果也达到预期,可以使用 PAI-EAS 将模型一键部署为在线服务,通过 http 访问。点击画布上的“部署”按钮,选择“模型在线部署”功能,选择需要部署的模型。
后续流程可以参考在线预测文档:https://help.aliyun.com/document_detail/92917.html
部署成在线服务之后,模型服务可以通过 http 请求访问,这样就可以做到模型跟用户自身的业务结合,完成 PAI 模型训练和业务应用的打通。
时间:2018-12-17 23:32 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]Attention!当推荐系统遇见注意力机制
- [机器学习]机器学习基础图表:概念、原理、历史、趋势和算法
- [机器学习]分析了 600 多种烘焙配方,机器学习开发出新品
- [机器学习]2021年的机器学习生命周期
- [机器学习]物联网和机器学习促进企业业务发展的5种方式
- [机器学习]机器学习中分类任务的常用评估指标和Python代码实现
- [机器学习]机器学习和深度学习的区别是什么?
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
相关推荐:
网友评论: