真实与炒作,发展与失望的一年:数据科学与分
2018行将收尾,2019行将开启,我们将带大家纵览专家们对AI的剖析和预测。我们向专家们提了个问题:你以为2018年数据科学与剖析的主要停顿是什么?2019年会怎样开展?
固然我们讨论的是数据科学和数据剖析,但在大多数答案中AI都是主要内容。这些专家所提到的内容包括人工智能的进步(真实状况和炒作参半);数据科学和数据剖析的民主化,例如自助剖析;以及“万事皆自动化”,例如数据科学,GDPR,AI风险,实时剖析等等。
专家组名单如下:Meta Brown,Tom Davenport,Carla Gentry,Bob E Hayes,Cassie Kozyrkov,Doug Laney,Bill Schmarzo,Kate Strachnyi,Ronald van Loon,Favio Vazquez和Jen Underwood。以下是他们的简介,推特ID以及对这个问题的解答。

“2018年数据科学和数据剖析的主要停顿和2019年开展趋向”问答词云。
Meta Brown(@ metabrown312),《Data Mining for Dummies》(数据发掘入门指南)的作者,A4A Brown.Inc公司总裁,该公司努力于增强管理层和技术人员之间的沟通。

2018年的抢手剖析话题非人工智能(AI)莫属。印象中,人工智能比其他剖析学应用技术惹起了更多的讨论。但令人遗憾的是,大局部讨论并未产生多大价值。
计算机科学的先驱阿兰·图灵(Alan Turing)曾瞻望过,计算机智能将匹敌人类智能,即人们无法辨别是在和计算机对话,还是在和人类对话。
想想我们与如今人工智能应用的交互过程。诸如Siri或Alexa的个人助理固然挺有用,但和它们沟通的觉得,远远无法到达与真人沟通的效果。而在线自助聊天机器人则更令人绝望,假如尝试问一个理想生活中的问题,你将认识到它背后并没有真正的“大脑”。
依照图灵的定义,人工智能尚不存在。纽约大学心理学和神经科学教授加里·马库斯(Gary Marcus)说,人们对人工智能的最大误解就是“我们离人工智能不远了”。
确实,我们理想生活中曾经应用了计算机来停止逻辑运算。固然它们并不像人一样考虑,但它们足够快、且连续性足够强,这些都是极具价值的优势。这些应用赋能机器完成实践工作,例如标志潜在狡诈买卖,操作汽车等。
虽然AI技术的局限显而易见,但群众,以至是科技界都充满着对人工智能不实在际的主张和希冀。这些扭曲的观念在人群中引发了恐惧,同时也让一些人的希冀落空,而我们所见之理想则更令人绝望。
汤姆·达文波特(@tdav),巴布森学院总统信息技术和管理部门的特聘教授,国际剖析研讨所结合开创人,MIT数字经济研讨所的研讨员和Deloitte Analytics公司的高级指导参谋。

我们在国际剖析研讨所对技术年度开展趋向停止了预测剖析,下面是我提出的一些观念:
组织机构对模型部署率关注度不时上升-依据雷克斯数据科学(Rexer Data Science Survey)调查显现,只要10%-15%的公司部署率为“简直总是”,另外50%的公司仅“经常”部署,剩下35% - 40%的公司胜利部署剖析模型的几率只要“偶然或很少”。我曾遇到过一些组织机构表示他们的胜利部署率低于10%。当然,未部署的剖析模型没有任何经济价值。企业需求在2019年评价和进步部署率。
民间数据科学家和商业剖析师会不断存在,且越来越多。可视化和基于搜索剖析的兴起,以及数据科学前端的机器学习愈加自动化,意味着业余喜好者将产出大量的剖析结果。对立这种趋向将失败无疑,所以不如转向赋能,助力其开展。这也意味着从事量化工作的专业人员可以集中留意力于复杂艰难的建模任务,或者转向了解业务,处理组织性革新问题。
Carla Gentry(@ dat_nerd),咨询数据科学家和Analytical-Solution一切者。

2018年是数据剖析和数据科学辉煌开展的一年,但我们也看到了人工智能、神经网络和机器学习的迸发,而并不是一切的主张都有相应的人才和经历支撑。我们也看到了人工智能在医疗范畴和治安范畴的应用增长,但同样的,其背后或许并没有充沛思索成见所带来的风险,以及人才和经历的支撑,同时我以为可能有些人忘掉了一个大准绳:在这些情境下,依托着可穿戴设备和物联网(Google Home,Alexa等),数据就是一切,并且这样的趋向将持续不时。
2019年,业界将继续讨论这些盛行词汇,公司将开端落实它们应用神经网络从数以万计以至亿计的实例中学到的成果,更糟糕的是,每当你想要神经网络辨认新物体时,你必需从头开端(至少时间的耗费是必需的)-而人才是另一个问题。除了 Geoffrey Hinton,Yejin Choi或 Yann LeCun,你真的不是一个神经网络的专家,所以不要希望着一个人才池的存在。
数据科学重点在于收罗各种数据并从中获取洞察,并且在一些状况下,希望本身可以成为AL、机器学习或者神经网络的专家是不正确的,也没有这个必要,因而我们必需仔细研讨差别,并且新入者将不得不重新学习新技术,以在新技术范畴具有一些竞争力。我担忧的是,假如没有真正了解机器如何学习、如何正确应用人工智能,一些公司/算法/企业的弱点将持续暴显露来。
让我们切肤之痛地享用这些新技术吧,但要明白,假如你搞砸了就会有严重结果!
Bob E. Hayes(@ bobehayes),研讨员、作家统筹问,Business over Broadway的出版人,具有工业组织心理学博士学位。

数据科学和数据剖析范畴阅历了机器学习相关一切内容的热潮,包括强化学习、聊天机器人及社会影响研讨。
在2019年,我估计人们会越来越关注人工智能的道德伦理,包括隐私和平安问题。人们越来越强调对算法制定特定决策过程的了解;我们不只需求晓得机器学习有助于我们做出决策,而且也需求晓得它是如何工作的(它是如何做出决策的)。此外,美国公司将重点关注如何运用消费者的个人数据。加利福尼亚州经过了“加利福尼亚州消费者隐私法”(将于2020年1月生效),我等待并且希望其他州能紧随其后。
但同时,我也担忧人工智能/机器学将招致假新闻发明和传播的增加。Deep fakes(人工智能的深度换脸技术)标明,人们可以捏造视频内容,来展现他们从未说过或做过的事情,并且毫无愧疚之意。正如马克斯·泰格马克(Max Tegmark)所说,充沛认识到人工智能的潜在要挟不在于涅佐,而仅仅是“平安工程”。
如今数据从业者有许多渠道能够学习数据科学,诸如集训营、MOOC以及大学课程,但我也希望非数据专从业者(例如,经理和一线员工)可以更多地尝试学习数据剖析课程。
Cassie Kozyrkov(@ quaesita),Google Cloud首席决策工程师。统计学狂热者,人工智能,数据,双关语,艺术,科幻,戏剧,决策科学。

2018年的主要开展之一是数据科学的民主化。应用云技术,人们无需完成建立Kubeflow等工具来构建数据中心,就能够为资源密集型大数据和AI应用程序提供源源不时的动力,从而为没有架构专业学问的人提供可扩展数据科学。这种赋能群众、让一切人都能获取数据科学工具的开展趋向将在2019年加速发酵。
Doug Laney(@ Doug_Laney),Gartner公司副总裁、出色剖析师和首席数据官研讨员,也是《Infonomics》一书的作者。

Gartner公司刚刚发布2019年数据和剖析战略预测报告。其中提到了一个观念:企业战略中明白表示信息是企业的重要资产,而剖析是必不可少的才能。不只IT战略提到了这一点,企业战略和方案也提到了相似的内容。
此外,我们希冀数据扫盲方案将变得成为常态,以协助业务人员和数据剖析专业人员更好地沟通,特别是在当下数据剖析需求愈加复杂的背景之下。随着信息经济学中的准绳和理论得到普遍传播,我们希冀首席数据官可以更频繁地与首席财务官们协作,以正式评价组织的信息资产。这样做能够为许多客户带来重要的信息管理和商业的益处。但剖析和数字伦理依然是一个问题,我们置信组织将开端为他们的数据科学团队引入专业行为原则。
此外,我们估计在将来3-5年内,大多数新业务系统将经过充沛应用实时环境数据以完成持续智能的应用;量子计算的POC项目(概念考证项目)将会使计算机的剖析才能大大超越现状;智能强化和自动化的内局部析洞察将取代绝大多数的预测报告;位置剖析的运用率将增长近10倍;机器学习也将缓解对数据科学家的人才抢夺。
Gregory Piatetsky,@kdnuggets,KDnuggets总裁,数据科学家,KDD会议和SIGKDD的结合开创人,LinkedIn 2018数据科学与剖析范畴顶级发声者排名首位。

2018年的主要开展我以为有:
通用数据维护条例(GDPR)于2018年5月生效,不只仅在欧洲,在美国乃至其他地域都是数据科学界一个重要的里程碑,在其影响下许多公司都更新了其隐私政策。但同时,新条例下的消费者隐私权益维护能否真的能得到改善,或者在新的维护政策下,能否还能像往常一样运用消费者隐私数据以发明价值,还有待察看。
数据科学民主化:随着访问工具和途径的增长,数据科学的民主化仍在继续。AWS reinvent发布的新工具就是其中之一。
人工智能风险:自动驾汽车的第一次致人死亡的事故缘由在于机器未能分辨推着自行车行走的行人。这一事情吸收了社会关于人工智能不可防止风险的关注。与此同时人们需求留意,以零误差作为评价自动驾驶(和自动化AI)的规范是不理想的,正确对待的方式是其使驾驶风险相对如今大大降低。例如,人类驾驶的事故率就十分高,仅在2017年,美国就有37000人丧生于此。
2019年的主要趋向:
数据科学自动化将会加速开展,但至少在近几年内,数据科学家的工作还不会被完整的自动化取代。
人工智能的进步和炒作:虽然人工智能的开展是真实的,但人工智能的炒作增长更为疾速。
中国曾经成为人工智能的主要参与者,许多中国公司正开端停止自主创新研发,而不只仅是从美国复制。
强化学习将在人工智能进步中发挥越来越重要的作用。例如,强化学习算法在为处理Montezuma's Revenge Atari game时,获得了惊人的停顿,到达了史无前例的100级,超越此前人类或计算所能到达的最好记载。
Bill Schmarzo, @schmarzo, Hitachi Vantara 物联网与剖析首席技术官

2018年大数据、数据科学与剖析的主要开展状况:
经过越来越多胜利案例的发布,利益相关者者对机器学习及深度学习的应用潜力有了更深入的认识。
数据湖依然存在投资误区。太多机构将数据湖视为驱赶昂贵的数据仓库及缩减ETL本钱的一种方式,却尚未充沛了解其作为价值发明平台的潜力,以供利益相关者和数据科学团队获取及商业价值驱动。
2019年主要趋向:
关于行业领跑企业而言,开展大数据和数据科学的主要动因应当是来自于业务端,而非IT端。龙头企业将经过辨认,考证,检查,评价和优化业务成果,使大数据,物联网和数据科学(机器学习,深度学习,人工智能)驱动业务开展。
除运用数据科学优化关键业务和运营流程(依然是开端取得诱人的投资报答率的好中央)以外,龙头企业将认识到,躲藏在数据中的客户、产品和运营的洞察将是将来时机变现的驱动要素。
Kate Strachnyi(@ StorybyData),数据可视化专家,《毁坏者:数据科学指导者》和《如何成为数据科学家》的作者;人类数据科学视频播客。

2018年数据科学和剖析的主要开展:
通用数据维护条例(GDPR):2018年5月生效的欧盟法规为,为欧盟公民提供了一套个人数据维护规章制度。这一理论推进了相似规范在其他中央的设置。例如,美国加利福尼亚州经过了本人的数字隐私法案;,这一法案使消费者理解到相关机构正在搜集哪方面的信息,为什么他们要搜集这些数据以及他们与谁共享数据。
自助式商业智能(BI)工具:商业智能剖析工具将在数据剖析师和商业剖析师中变得愈加普遍。但是,这些工具的运用者们能否真的理解这些剖析场景的真实含义,我们尚不明晰。在人们学习运用拖拽工具、制造图表的速度,与人们对真实业务场景的了解之间,尚存在一定差距。
2019年的主要趋向:
数据道德与隐私:在每个数据科学的环节上,运用数据的道德和隐私问题将愈发得到注重。与数据起舞的人,需求对他们所具有的强大权利与他们工作可能带来的普遍影响有明晰的认知。随着全世界数字化进程的推进,这些问题应当从个人,公司及政府层面都得到注重。
流程自动化:公司将继续推进流程自动化,以降低本钱并进步效率。这种自动化还可能招致相应自动化流程的个人面临失业问题。因而在将来,人们需求专注于不时学习新技艺,以便顺应瞬息万变的环境。
Ronald van Loon(@ Ronald_vanLoon),Adversitement(一家协助数据驱动型公司获得胜利的公司)总监,大数据、数据科学、物联网、人工智能十大影响人物之一。

2018年,端到端数据管理增长的同时,公司一边进步剖析才能的成熟度,一边充沛发掘一切数据资源,来获取值得信任的洞见,以及树立顺应于当前数字化经济的根底设备及商业模型。机器学习被群众普遍承受,软件供给商在其处理特定问题的产品应用中,大量援用了机器学习技术。
2019年,为支持愈加复杂、级别更高的深度学习应用,将会呈现更多的集成硬件、软件框架,以促进更普遍的创新。深度学习应用需求全面优化的硬件和软件堆栈,以推进全新现代的AI架构。我们将会看到各行各业供给商开端运用者这种全栈计划,以满足深度学习最佳性能和功用的需求。
随着物联网设备的增长,实时边缘剖析将呈指数级增长,这使得使实时剖析变得愈加容易,也将有助于基于实时洞见获取即时的反应。
Favio Vazquez(@ FavioVaz),数据科学家。物理学家兼计算工程师,Ciencia y Datos开创人

2018年是数据科学(DS)令人惊叹的一年,无论是在理论方面还是理论方面。业界提出了数据科学的几种研讨办法,能够协助将数据科学转换为实践科学。我参与其中的讨论曾经一年多了,也在最近看到了更多的人参与讨论。相对与机器学习,自动化机器学习的内容非常冗杂,其中也包括自动化深度学习。
2019年的主要趋向:
AutoX:我们将看到越来越多的公司在它们的堆叠技术以及函数库中运用自动化机器学习和深度学习的相关技术。这里的X意味着将这个自开工具将扩展到数据摄取,数据集成,数据清算,探究和部署等各个方面。自动化将存在于此。
语义技术:今年我最有趣的发现是数据科学和语义之间的关联性。它不是数据世界中的新范畴,但我发现越来越多的人对语义、本体、学问图及其与数据科学和机器学习的关联性表现出兴味。
编程化繁为简:这是一件很难定义的事情,但是随着数据剖析的每一个流程完成自动化,我们的日常编程工作将越来越少。我们将具有用于创立代码的工具,这些工具将了解我们对自然言语处置的需求,然后将其转换为查询、命令和完好程序。我以为编程依然是十分重要的学习内容,但它很快就会变得更简约容易。
数字化教育:数字化教育每年都在增长,但明年我们将看到比以往更多的人参与到MOOC、数字课程或在线课程之中。有人将其称之为“教育民主化”,我在很大水平上同意这种说法,但我想对一切人说:留意你的学习内容和方式,在投入时间和金钱之前对所学课程停止调查研讨,好的课程将改动你的生活,相反的,它也十分风险。
Jen Underwood(@ idigdata),DataRobot高级总监,Impact Analytix.LLC开创人。

人工智能炒作和转型影响在2018年无处不在。几年前,大数据风行一时,然后是云技术,如今机器学习则占领了主导位置。人工智能在手机应用,机器人和商业智能处理计划方面被吹得过了头。在今天,即使是啤酒,也是人工智能驱动。
今年,我们也看到了自动化市场的急速扩张。往常,许多机器学习处理计划都在推进人工引导的、自动化的数据剖析向整个全生命周期自动化机器学习转化。从简单的拖拽、点击按钮以创立根本模型,到复杂的特征工程、模型检索、参数调整、部署、模型的管理和监控,自动化机器学习的应用范围非常普遍-结果也良莠不齐。
在2019年,对数据科学的公共管理,隐私,成见,道德问题和更深层次的虚假问题将应战我们对人工智能的自信心。区块链等创新技术将开端改动我们存储、共享和跟踪数据的方式。我还等待人工智能将变得愈加公平、愈加透明,并且愈加担任,使得非数据科学家也能了解、解释并信任人工智能。目前,在将数据科学术语转化为普通人能够了解的言语间还存在宏大的差距。许多组织在我们这个不圆满的世界中应用人工智能技术,同时为民间数据科学家的产生提供了温床,更多的人需求成为数据专家,以保证AI方向没有走偏。
相关报道:https://www.kdnuggets.com/2018/12/predictions-data-science-analytics-2019.htm
编译:杨威、周家旭、张南星、Aileen

时间:2018-12-28 22:55 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
相关推荐:
网友评论: