浅谈：YY直播平台中内容分发、自然语言对话NL

本文是关于在直播平台中内容分发、自然语言对话的人工智能AI应用。主要侧重其定义、作用、实现方式，同时也抛出相关的资讯及案例进行分析。这也是当时面试欢聚YY AI产品经理其中六轮面试中第三轮中一些问题的梳理总结，后面拿下了这个Offer。（由于利益关系去掉了一些内容）对AI产品经理的相关面试和准备有兴趣的小伙伴，欢迎关注收藏，不断更新。

本文目录如下：

1. 内容分发在直播平台中的AI应用

1.1 内容的审核监管

1.1.1先说：问题和风险

1.1.2再看：传统的解决

1.1.3应用改进：AI

1.2 个性化的内容分发

1.2.1背景

1.2.2利用AI挖掘出内容特征

2. 自然语言对话在直播平台中的AI应用

2.1客服机器人

2.1.1现状

2.1.2对话增加情感分析

2.1.3对话增强自我学习

2.14 对话增强意图分析、上下文分析

2.15其他

2.2语音助手

2.3直播间辅助

2.3.1 场景1：语言表达缺陷

2.3.2.场景2：直播环境语音不可用时

2.3.3 场景3：直播间辅助

4. 总结

1. 内容分发在直播平台中的AI应用

首先，根据直播平台的内容，可泛分为三种：内容创作者（主播）、视频直播、小视频；

其次，从内容的“进与出”，可分两大方面：一是内容的审核监管，二是个性化的内容分发。

最后，内容的生产创作方面（这个本文先不讨论，以后单独再发）

1.1 内容的审核监管

该场景聚焦的是：科学管控、提升效率，降低成本。

1.1.1 先说：问题和风险

（1）直播内容监控复杂度高，人工易漏判

违规的直播有多种类型，如涉黄、广告、侵权、赌博、暴力、政治、敏感、屏中屏等，人工以或标准化的审核模型难以精准识别，误判、漏判的概率较高。

（2）网络直播规模庞大，人工审核成本高

监管要求24小时实时进行，虽然违规比例占比不高，但为了做到“无漏网之鱼”，需要投入大量的人力、物力和财力进行监管，运营成本压力增加。

（3）直播流量聚焦夜晚，人工审核效率低

夜晚疲劳，人眼识别精确度降低，出现误判漏判的概率上涨，审核效率降低，难以达到网络直播的内容监管需求。

（4）主播实名及直播实时验证难

一是主播注册的实名验证，若完全依靠人力审核，人力成本增加，难以做到真实有效的审核；二是每次主播直播时，都验证是否属于本人在直播，这又增加一部分人力成本，运营难度上升。

1.1.2 再看：传统的解决

传统的审核方式主要有三种：

纯人工审核：人员“三班倒”工作，人眼鉴别该图片或视频是否违规；
建立MD5数据库：网监建立存储违规图片、视频的MD5数据库，用户上传后自动分析MD5是否合法，则可避免涉黄内容重复分享。
传统的智能审核：如识别色情图像，基本是通过图片 RGB 值识别肤色比例；通过建模识别异常动作、敏感部位等。

弊端：这些审核方式都存在较大的漏洞。“三班倒”的人工容易导致审核效率低、误判漏判多等主观性问题；MD5则非常容易被篡改；传统智能识别色情图片准确率低、经常误报等。同时，对近两年热门的视频直播审核需求更难以满足。

1.1.3 应用改进：AI

基于上述场景与问题，可引入AI技术落地优化。

（1）方案：利用AI识别+人工审核的模式

（2）场景：如举例“鉴黄”：通过鉴黄模型对内容分析的类型为“色情”、“性感”和“正常”三类，并且机器会自动将识别结果分为确定和复审两部分，确认部分的识别精确度达到或超过人工，无需复审，对于复审部分，机器会根据可能性排序，人工再根据概率从高到低来审核。

同样，可延伸至主播封面图等审核任务。

1.2 个性化的内容分发

聚焦：视频直播的推荐结果与用户的心理预期重合度变大，用户在观看直播时的选择更加直观和精准，用户的活跃度明显提高，平台的点击率和留存率明显上涨。

1.2.1 背景

大数据时代，对于电商、内容型产品，个性化推荐已成标配，应用好处不多复述。

此处的内容分发，侧指的是前端的个性化内容排序，即个性化推荐。

目前主流的推荐算法是协同过滤，推荐引擎是多种推荐算法组合的。此处也不对算法层面过多开展，侧重关注的是：无论是何种算法引擎，都是基于用户画像、货物（内容）画像的基础上进行计算。没有这些基础特征是难以开展个性化的内容分发。

产品经理角度浅谈：YY直播平台中内容分发、自然语言对话NLP的人工智能AI

同时，用户画像中的兴趣、行为偏好，往往受内容画像所映射的。如A用户阅读一篇名为“周杰伦最新演唱会定时间了！”，可能会被标上“娱乐偏好”、“周杰伦”等标签，并通过不同的行为给予不同的权重分值。因此，如何识别出内容的特征，是影响着个性化内容分发的效果、效率、体验。

1.2.2 利用AI挖掘出内容特征

此处只针对视频直播进行分析。

利用AI技术从人脸、图像、音乐和语言四个维度对视频直播进行分析和理解，可以对其做出基本的分类，特征化。

（1）从内容看特点

从内容识别难度来看，视频直播比文章、图片的难度要大；
从内容特性来看，直播有互动性、场景性、才艺类型等，甚至还有“主播”调性；
从内容时效来看，直播是实时的；
…….

（2）应用流程

首先，按上述特点，应对视频直播的内容按多种维度划分，利用AI对内容识别，挖掘出丰富内容特征。

其次，由于直播是实时性，是由主播产出，是先有主播再有视频直播内容。因此，此处的对直播内容识别出的特征，应是给主播打上。

最后，可以考虑一种的个性化内容分发是：用户特征+主播特征，进入推荐引擎计算，召回一批符合用户偏好的“主播权重列表”。此时再去查询这些主播是否有开直播、直播开始多久了、亲密程度等等维度进行综合推荐，以达到个性化内容分发。

（3）AI识别维度、内容分发排序

列举一些对内容识别的特征维度（举例一些，不全）：

从直播来看：

互动性：主播与粉丝的互动情况，包括语言交流反馈、问答情况等。
打赏性：打赏刷礼物，直接反应收入状况。有时需考虑业务的干扰，利于平台佣金收入。
时长度：直播的时间长度；
场景：直播的场景，是户外还是户内。如直播间、运动场、健身房、车内等；
物体：货物、摆件，美妆物品等；
离场：是否有离场，频次等。

从主播来看：

行为：唱歌，聊天，表演，魔术，解说，多手势…
声音：甜美系，女汉子系，治愈系…；
才艺：弹琴，唱歌…；
风格：韩系装扮，性感，成熟，绅士，运动阳光，萌妹子…
性别：男，女…
年龄：年龄区间，或XX后，视模型口径；
颜值：….

举例：

风格：一个喜欢做嘟嘴表情的年轻女主播，会有很大可能被打上“萌妹子”的标签（人脸识别）；
颜值：基于颜值模型判断主播的颜值分（人脸识别）
声音：基于模型判断出主播的声音（语音识别）
手势：一个主播常喜欢做比心、爱心、嘟嘴等一连贯的手势肢体动作，可能被打上手势大人、爱互动等标签（动态手势识别）

上面这些的识别基本都需要结合AI技术进行，挖掘出内容特征作为推荐使用。

（4）个性化内容分发的排序-算法

自己YY一下基本的维度：

（5）其他

个性化的内容分发，可以用于多个场景，如搜索结果页、首页、关注页等，基于不同用户分群进行个性化推荐策略。此外，除了在内容特征识别应用AI，在推荐引擎中的深度学习、知识图谱也是AI在支撑。

2. 自然语言对话在直播平台中的AI应用

首先，NLP涉及领域很多，凡是有自然语言（语音、文字）输入的场景，都有可能会使用到。如语义分析、机器翻译等。此处的自然语言对话，侧指智能助理/智能问答/语音服务等方面。个人理解是：即利用AI技术打造出：统一的CUI（对话交互界面）、一站式的整合信息&服务。

其次，若按对话的场景区分有：封闭域对话、开放域对话。通俗的说，前者是”要求用户输入指定地话语才能继续对话”，输入输出是可枚举的、有明确始与终；后者是“用户爱说什么就说什么都可以持续对话”，输入输出无法穷尽、无明确流程。

若按对话内容方式有：文字、语音。（一般情况下，文字可以直接处理，如果是语音，通常情况下需要将语音转换成文字（ASR技术）

一般原理是：是用户输入，引擎内部通过长期积累的知识，首先经过自然语言分析，在通过语义理解、上下文分析进行知识推理，从而生成个性化的答案，输出给用户。整个典型的自然语言对话如下图。

最后，从几个场景去分析，包括有：客服机器人、语音助手、直播间辅助。

2.1 客服机器人

基本原理是：输入的是用户的问题，引擎内部通过长期积累的知识，首先经过自然语言分析，在通过语义理解、上下文分析进行知识推理，从而生成个性化的答案，输出给用户。整个典型的自然语言对话如下图。

2.1.1 现状

客服机器人依据媒体类型分为两种，基于电话语音，基于文本信息。前者如10086的自助语音服务；后者一般是置于应用中，能解决简单而又大量重复问题，以节约成本，如淘宝的小蜜、万象，直播APP里的客服助手等。

从输入方式来看有：语音输入和文字输入，技术上的区别是语音输入要做语音识别，将语音信号转换成文字。目前客服机器人主要是两者都支持。

从输出方式来看有：文字输出、图像输出、语音输出。这个类型视业务需求、产品场景所决定。目前客服机器人主要是文字输出，一般基于用户画像预测问题、热门问题前置等。

如下图的所示，属于能支持自然语言对话（语音+文本）的客服机器人。

产品经理角度浅谈：YY直播平台中内容分发、自然语言对话NLP的人工智能AI

问答机器人其实是在头部问题上实现了综合过滤，然后通过对话的形式反馈给用户，如果用户实在问的是长尾问题，问答机器人回答不了的，此时可走人工客服。满足了用户九成以上问题的直接答复，是问答机器人的核心目标。满足在服务上，缩短服务寻求路径与服务寻得率，从而提升用户自助体验，降低人工入线率，降低运营成本。

2.1.2 对话增加情感分析

即相当于赋予客服机器人EQ，能在对话中对语义进行分析，精准感知用户情绪，并在回复表达中蕴含相应情感，让互动更有温度。

原理是自动识别对话过程的文字或语音，尤其是带有主观描述的进行情感分析，如，可以识别生气、喜悦、失望、着急等多种人类细分情感，对此生成相应带情感的、口语化的表达，若判断精准，能让用户体验佳，不冰冷。

举个例子如下图，JD客服JIMI机器人增加情感分析，从IQ到EQ的升级，用户体验上是有明显差异的：

此外，增加情感分析也可用作对话质量（服务）评估。如根据前来咨询的客户来时的情绪，以及离开时情绪的对比，就能从另一个维度感知此次服务的质量。既可以用以考核客服人员，也可以用来改进客服的服务。

2.1.3 对话增强自我学习

场景：客服机器人无法满足用户需求，出现呼叫人工客服。

在人工沟通-解决的过程，客服机器人应将此对话过程沉淀学习。如记录下：呼叫人工客服前的对话过程、人工对话的过程，分析不足与改进点。若每一次人工解决问题，中间的所有信息都被人工智能所记录，多次学习自我进化，能提升客服机器人对话服务质量。

2.14 对话增强意图分析、上下文分析

场景：客服机器人增加意图推荐模块，当开始对话过程时，能基于用户过往的行为偏好分析，主动预测用户意图，提供相应信息。（非常见热门问题）

场景：对话过程中的上下文，分析预测相应的场景、语境，进而精准服务。

2.15 其他

不能以对话轮数多少相比。

比如，人类用户与小冰的平均每次对话轮数可达到23轮，微软对此也颇为津津乐道，但是，在客服上，如果机器人要与前来咨询的客户对话23轮，才能给出答案，你可以想象客户的反应会是什么。

2.2 语音助手

相比较于客服机器人，语音助手更是起到连接、推荐作用。用户通过输入语音或文字，可调用直播平台内各项功能、服务。整个对话过程是类似开放域的场景。

场景1：如用户输入“我关注的主播有哪些已经开播？”，得到对话可以是告诉有哪些主播在开播，开播多久了，直播间的互动情况，甚至根据用户偏好及其他维度分析，优先推荐哪个直播间；
场景2：如新用户刚来，又没有强目的、强关注的主播等。或许可以通过助手进行对话引导，获取偏好进行直播推荐，甚至是某个主播，并将该主播的一些信息进行描述，让用户多方面了解；
场景3：如猜你喜欢什么主播或直播，那么助手对话过程的引导可以有多种，或许通过用户自拍、发送某些图像信息等，给出相应趣味的关联分析，如性别，年龄等，以此提供个性化推荐服务；
场景4：……

2.3 直播间辅助

自古民间出高人。对于直播的平台是欢迎各大IP入住开播，主播也乐于展显看家本领。而直播更具强调互动性，直播过程中需要通过言语肢体等与粉丝互动，其中，言语表达尤为基础重要。

2.3.1 场景一：语言表达缺陷

有一类人，他们身患绝技、各怀才艺，却有表达缺陷，如哑巴。在如今强调人人是IP、自媒体的时代，他们可能因此而失去一些做主播的机会。

但是，他们本身是懂表达，如唇语、手语。从本质上，一切人类沟通的语言都属于自然语言。因此，能利用AI的技术手段进行识别、跟踪，通过NLU进行理解、翻译，最后输入语音表达。

关于辅助声音，创作者录音通过声音模型学习，尽量拟合原声或差异个性化的。

同时，若声音实现不理想，也可以将唇语或手语识别进行文本翻译，也是一种互动方式。

2.3.2 场景二：直播环境语音不可用时

直播过程中或许存在一些语音不可用的场景，如噪音突然变大、摄像头未配备麦克风（损坏）。这时，若主播调用唇语识别功能，基于以上原理能保持直播间互动正常，避免突然冷场中断、离场等情况。

2.3.3 场景三：直播间辅助

场景：针对现场直播解说类，为主播解说提供辅助。如，体育、游戏等竞技类的比赛直播。

这里的辅助有4个方面：

针对直播视频的信息：能实时提取一些相关的信息。如动作、球员信息，能够识别并输出文字记录，类似对话模式，或许可以供主播对大盘比赛有参考；
针对直播间的互动解说：有时候主播对于粉丝、或者解说某些内容有些疑惑，如想中途插入一些故事或者其他相关情节、解答粉丝的热门问题。此时直播间的助手可以将这些对话记录并分析，根据热门信息或关键词进行寻找，以供主播进行参考以更好解说，或许也能满足粉丝的互动提问，活跃氛围。
针对直播视频，增加虚拟主播解说。如某场球赛直播，在视频中进行识别，如球员头像、动作行为、跑动轨迹等特征，再用语音的方式来为用户解读比赛进程，提供精选球迷评论、分享球星趣事等; 或许用户还可根据兴趣选择喜欢的球星观看，让虚拟主播成为自己专属的机器人解说员。
…..

4. 总结

最近对AI进行学习了解，包括从概念知识、应用领域、AI产品经理的相关工作流程等方面。同时参阅其他资料信息，对于AI PM有一些看法总结，其中这些也是和传统PM差异点：

4.1 需要了解技术现状

这里的现状，侧重是指技术原理、边界。每一项技术都有边界和最优应用场景，尤其目前AI技术相对是不够成熟的，那么了解好技术可能实现的能力范围、所需的成本、当前存在的技术瓶颈…，具备这些基础会更好去沟通、发散和结合。

4.2 需要寻找并定义AI业务场景

正如上述所言，理解技术优劣势的基础上，寻找到可以提供更好用户体验的业务场景。也就是说，如何结合当前现有AI技术与业务场景，为用户提供更好更便捷用户体验的产品。因此其中主要的工作就是：完成当前技术与现有市场需求的映射，侧重对场景的思考。

4.3 多一层评估、多一层挖掘价值

当前AI技术的实现成本相对还是高。也并非有想法就能实现，即使条件+成本都能满足时，也存在较大试错风险。因此还需对场景多思考，充分评估产品定位、用户价值、成本、商业价值等因素是否相匹配。让现有技术所定义的产品价值能够转化为商业价值。

4.4 与互联网产品经理的差异

（1）关注业务的范围不同

互联网PM可能会深入关注局部业务范围的产品优化与用户价值，而AI产品经理可能需要在基于公司业务的整体范围，寻找存在AI优化的场景需求。

（2）多了一种语音交互方式

机器学习促进了语音识别技术的发展，也促进发展了语音交互场景。AI语音交互的设计可能比手机/PC端的交互设计难很多，因为语音交互系统不是限定好的GUI操作界面，而是不便于规范且自由延展的自然语言。会话的开放性意味着 AI 交互设计者必须考虑用户可能采取的几乎无数的选择。要能够理解用户，了解他们的动机，然后合乎逻辑地思考如何引导他们完成一件事情。

（3）更多的理论基础支撑

机器学习的理解、算法模型优化等等。

（码字不易分享可贵！欢迎关注收藏后续再更新….）