人工智能数据标注基本流程概论
这两天后台有好多小伙伴说想学习数据标注,所以就想写一个系列的文章,来系统的介绍一下数据标注这个事儿,方便大家对数据标注有一个全面的了解。不管是你是想做数据标注工作,还是转行组建公司来做数据标注,都需要对数据标注本身有一个全面的了解。
一.数据标注的起源与发展
由于数据标注与人工智能相伴相生,在研究数据标注的同时,首先需要对人工智能有所了解。人工智能的概念是最早由约翰麦卡锡于1956年在达特茅斯会议上提出的,意指让机器人有像人一般的智能行为。
在人工智能概念提出的60度年里也是大起大落,这次人工智能我们迎来了第三次人工智能浪潮,而第一次浪潮是在会议之后的20年里,当时对于此次人工智能的兴起,专家学者尤为看好,甚至指出,未来十年机器人就能超越人类,然而,就在大家期盼人工智能春天之际,在20世纪70年代后期,人们却逐渐发现过去的理论与模型智能用于解决一些简单的问题,同时运算能力不足,人工智能的第一次浪潮偃旗息鼓,迎来了突如其来的冬天。
此后,经过短暂的消沉后,随着20世纪80年代两层神经元网络(BP网络)的兴起,人工智能开始焕发出新的生机,迎来了第二次发展的浪潮,期间,语音识别、语音翻译以及感知机模式成了典型代表。然而,这些现在看来在寻常不过的应用,彼时离人们的实际生活仍较为遥远,人工智能也随之进入了第二次寒冬。
而第三次浪潮开始于Deep Blue(IBM深蓝)的出现,在1997年战胜了国际象棋冠军,而2006年“神经网络之父”Geoffrey Hinton提出的深度学习技术进一步助推人工智能的发展,该技术于2010年大货,直接带动了第三次浪潮的爆发.
纵观人工智能的发展脉络,在前两次发展浪潮中,人工智能发展起起伏伏,却从未真正走入人们的生活,因此,当时由于量级比较小,为人工智能提供数据的数据标注工作有研究的工程师完成,并不能成为独立的职业。但是随之第三次浪潮的到来,数据标注需求非常多,2011年数据标注的外包市场开启,2017年进入爆发阶段,数据标注才开始慢慢进入人们的视野。
二.涉及到的几个概念
1.数据标注(data annotation)
对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作,为待标注数据增加标签,生产满足机器学习训练要求 的机器可读数据编码。
2.标签(label)
标识数据的特征、类别和属性等,可用于建立数据及机器学习训练要求所定义的机器可读数据编码间的联系。
3.标注任务(annotation task)
按照数据标注规范对数据集进行标注的过程。
4.数据标注员(data labeler)
负责对文本、图像、音频、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等操作的工作人员。
5.标注工具(annotation tool)
数据标注员完成标注任务产生标注结果所需的工具和软件。标注工具按照自动化程度分手动、半自动和自动三种。
三.数据标注分类
1.图像标注
图片标注的场景目前应用还是非常广的,主要的标注方法有,点标、框标、区域标注、3D标注、分类标注等等,应用场景如安防、教育、自动驾驶等等也非常多,目前落地比较成熟的要数人脸识别了,不管是在做一些身份识别验证还是出门做地铁、高铁都有可能用到。
2.语音标注
语音应答交互也是目前重要的分支,所以在此类语音虚拟助理的研发中,基于语音识别、声纹识别、语音合成等建模与测试需要,需要对数据进行发音人角色标注、环境场景标注、多语种标注、ToBBI(Tones and Break Indices)韵律标注、体系标注、情感标注、噪声标注等。
3.文本标注
自然语音处理是人工智能的分支科学,为了满足自然语音处理不同层次的需求,对于文本数据进行标注处理是关键环节。具体而言,通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字字符标注等,可提供高准确率的文本预料。
四.数据标注流程概述
1.数据采集
数据采集与获取整个数据标注流程的首要环节。目前对于数据标注众包平台而言,其数据主要来源于提出标注需求的人工智能公司。对于这些人工智能公司,他们的数据又是从哪来的呢?比较常见的是通过互联网获取公开的数据集与专业数据集。公开数据集是政府、科研机构等对外开放的资源,获取比较简单,而专业数据往往更耗费人力物力,有时需要通过人工采集、购买所得,或者通过拍摄、录制等自主手段所得。
2.数据清洗
在获取数据后,并不是每一条数据都能够直接使用,有些数据是不完整、不一致、有噪声的脏数据,需要通过数据预处理,才能真正投入问题的分析研究中。在预处理过程中,要把脏数据“洗掉”的数据清洗是重要的环境。
在数据清洗中,应对所采集的数据进行筛检,去掉重复的、无关的数据,对于异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性,将数据统一成合适于标注且与主题密切相关的标注格式,以帮助训练更为精确的数据模型和算法。
3.数据标注
数据经过清洗,即可进入数据标注的核心环节。
4.数据质检
无论是数据采集、数据清洗,还是数据标注,通过人工处理数据的方式并不能保证完全准确。为了提高数据输出的准确率,数据质检成为重要的环境,而最终通过质检环节的数据才算是真正的过关。
以上就是数据标注的基本概念和能涉及到的环节,可以对感兴趣的环节进行深入的学习了解,如果有机会可以从事相关行业,也希望可以在这条路上可以给各位小伙伴提供帮助。有人预测未来将有超过500万人会从事数据标注相关的工作,我也希望可以成为这部分人的布道师,相互学习相互进步。
时间:2020-04-19 23:31 来源:可思数据 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: