行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 人工智能 正文

AI“读唇术”再获突破 准确度超人类专家

    全球数以千万计的听障人士,催生了庞大的助听器市场。接下来,AI的发展可能会全面摧毁这个产业,同时给听障人士带来无比的便利性和更加正常的生活。不过,对于正常人来说,这意味着又多了一个信息泄露的手段。

  对于听障人士来说,读唇无疑是优于手语和助听器的交流方式,既不会阻隔和正常人的交流(手语就不行),也不会给生活带来太大不便(助听器就不行)。唯一的缺点就是,读唇术太难学,而且误差也很大。幸运的是,AI就是专门用来解决这种问题的。

  现在,研究人员正在报告一个新的人工智能程序,它比专业的唇读本和最优秀的人工智能程序要好得多,它的错误率只有以前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都能读懂唇语。

  根据《Science》网站上的一篇文章,国外科研人员开发出了一个新的AI读唇程序,比现有的无论是专业人员还是AI程序,效率和精确性都高得多,它的错误率较现有最佳算法下降了50%。试想,若将这种程序和未来的智能设备,比如AI眼镜相结合,听障人士的日常交流即可畅通无阻。伦敦玛丽皇后大学计算机科学家贝儿(Helen Bear)惊叹:“这是一项了不起的杰作!”

  毫无疑问,让人类自己学会唇语,然后编写成计算机代码,巨大的工作量并非人力所能完成的。在这种情况下,机器学习再次发挥了作用。科学家们只需在系统内存入数千小时的视频和录音,计算机就能自己解决问题。

  因此,研究人员从YouTube下载了14万小时的视频,囊括了人们在各种各样情境下的交谈内容。随后,他们编写程序,用以细致标注不同的口腔运动、读音。随后,这个程序自动过滤掉了非英语的语音、未说话人员、低质量的视频内容和非直接拍摄的内容。然后,他们将剩余长达近4000小时、包括超过12.7万个英语单词的片段保留了下来。

  哥伦比亚大学计算机科学家阿克巴里(Hassan Akbari)评论称,这个过程,以及由此产生的数据集——比当前最大的同类数据集大7倍——对于任何开发类似读唇系统来的人来说,都是“重要而价值连城”的。

  在接下来的开发过程中,近年来逐渐成熟的神经网络系统扮演了重要角色。对于一些简单的计算元素,这种模仿人类神经系统建立的计算系统,可以高效地“思考”和“学习”。而经过剪辑和归类的视频片段,就是这种简单的计算元素。

  如前文所说,当研究小组给程序输入未标注的视频时,程序会自动筛选出一些口腔运动片段。而神经网络提取了这些片段后,可以计算每个视频帧可能的音素和它们的概率,最后利用可能的音素序列生成英语单词序列。这个就是AI的“学习”过程。

  研究人员曾对新AI程序进行过37分钟的测试。据他们提交给arXiv网站的一篇文章,在一段陌生的对话视频中,AI正确识别了41%的唇语内容。这看起来不多,但却是目前的最佳成绩。在同一项研究中,专业唇读者出错率为93%(在现实生活中,有语境和肢体语言的情况下,准确率会大大提高)。

  目前,对已经学习的内容,AI程序已经掌控到非常精细的程度,例如,它可以通过发出“t”时的不同唇形,判断整个词是“boot”还是“beet”,这对于提高准确性大有帮助。

  贝儿表示,除了为听障人士解决交流难题,解读历史上,甚至可以解开世界最大的谜题之一:在2006年的世界杯决赛中,齐达内在听到马特拉齐说的话后,愤怒地用一记头槌撞向马特拉齐胸口,导致自己被罚下场。而马特拉齐到底说了什么?现在仍是个谜。

  这种技术还能用在分析安全视频,甚至可能成为特工装备。可以肯定的是,对于那些看重隐私的人来说,这种技术就是噩梦般的存在。那种走在街上,随便说什么都会被摄像头捕捉到的感觉,也许会让他们很不好受。

 

声明:

凡文章来源标注为"CPS中安网"的文章版权均为本站所有,如需转载请务必注明出处为"CPS中安网",违反者本网将追究相关法律责任。非本网作品均来自互联网并标明了来源,如出现侵权行为,请立即与我们联系,待核实后,我们将立即删除,并向您致歉。

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部