数据目录和机器学习市场的成熟
今天的大数据流不只包括了宏大的容量、多样性和速度,还极端复杂。正如SAS在《大数据的历史和当下的热点》一文中所指出的那样,大数据流的多样性“使得跨系统的衔接、匹配、清算和数据转换变得非常艰难”。
找到有价值的见解不在于简单地搜集尽可能多的数据,而在于可以找到正确的数据问题。而运用手工流程完成一切工作是不可能的。这就是为什么越来越多的企业开端“转向数据目录,以便完成数据访问的民主化,使组织的数据和学问可以得到管理,然后应用数据战略,并快速激活一切具有业务价值的数据”。
这就是数据目录(有时也称为信息目录)的用处所在。正如这里所定义的,它们可用于受权“用户探究所需的数据源并协助其了解所探究的数据,同时协助组织从当前的投资中完成更多的价值”。它完成这一目的的一种办法是,在可以运用或奉献数据的不同类型的用户之间,允许更大水平地访问数据。
信息经济学势在必行
在2017年底,数据目录的需求急剧增长,Gartner将其称为“一种新的潮流”。它被以为是一种快速、经济的处理计划,能够“对组织中日益分散和无序的数据资产停止清点和分类,并映射其信息供给链”。之所以需求这样做,是由于“信息经济学”的兴起,它请求像管理其他商业资产一样,对信息停止细致地跟踪。
Gartner2018年第二季度的机器学习数据目录报告:take jibes with The Forrester Wave显现超越一半的调查参与者表示,他们已方案树立本人的数据目录。可能他们的动机主要在于他们中的每个组织都包括了至少七个数据湖。正如Gartner对数据目录所解释的那样,数据目录关于提取通常以非分类方式留在数据湖中的“数据的上下文、意义和价值”特别有用。
Forrester的报告称,在2017年,超越三分之一的数据和剖析决策者正在处置1000 TB或更多的数据,而前年这一数字仅为往常的10%至14%。管理如此范围的数据确实是一个日益严峻的应战,详细来说,特别是下面的两项应战:
1)将现有业务流程兼并到源数据中,以便剖析和完成洞察力;2)随着数据的增长,对其停止寻源、搜集、管理和管理。
数据目录能够为企业做什么
Gartner指出了数据目录改善组织信息流和消费力的详细方式:
整理和传达组织可用的信息资产清单。
创立通用业务术语表,定义组织数据的语义解释和含义,从而提供中介和处理定义不分歧的办法。
支持动态和矫捷的协作环境,使业务和IT同事可以评论、记载和共享数据。
经过因循和影响剖析来提供数据运用的透明度。
监控、审计和跟踪数据,以支持信息管理流程。
捕获元数据以加强数据运用和重用的内局部析、查询优化和数据认证。
经过捕获、沟通和剖析数据的存在、来源、运用环境、需求它的缘由、流程和系统之间的活动方式、谁对它担任、它的含义以及它的价值,并在业务的运用中对信息停止上下文的关联。
Gartner的报告说,正确辨认数据并让组织中的关键人物可以访问这些数据是很重要的,这不只是为了找到“将数据资产转化为数字业务成果的货币化”办法,也是为了恪守相关法规,无论这些法规是行业内的--如安康保险可移植性和义务法案(HIPAA)或更普通的如通用数据维护法规(GDPR)。
参加机器学习
但是没有什么是白璧无瑕的。关于数据目录,问题在于手动构建它们以及需求放置的一切元数据的过程是迟缓而乏味的。这就是机器学习组件的用武之地。
Forrester所评价的数据目录被称为MLDC,由于它们应用了人工智能的局部组成之一--机器学习的力气。正如一个平台数据博客所解释的那样,这使得“构建一个耐久的元数据存储库,然后应用ML/AI来找出并公开潜在有用的底层数据资产见解”成为了可能。
如何选择
为了协助组织评价应该选择哪一个企业的产品,Forrester对排名前12位的MLDC设置了29个评价点。它肯定了这个市场的指导者为:IBM、Relito、Unifi Software、Alation和Collibra。表现最好的是Informatica、Oracle、Waterline Data、Infogix、Cambridge semantic和Cloudera。而Hortonworks在“竞争者”排名中表现突出。
但是,也不应该只看整体排名。这份报告的确列出了每一种办法的优缺陷。因而,假如一个特定的特性,如研讨和开发,关于一个组织来说十分重要,它能够以为Hortonworks与IBM和Colilbra的实力不相上下,由于这三家公司在这方面的得分最高,都是5分,比Alation和Coloudera高2分,比Cambridge Semantics高4分。
因而,Forrester报告也倡议那些以其报告为指导的人不要想当然地以为排名第一的公司就是每个人的最佳选择。他们应亲密留意评价的细节,找出最契合本人请求的产品。
时间:2019-01-26 11:54 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]论机器学习领域的内卷:不读PhD,我配不配找工
- [机器学习]机器学习基础图表:概念、原理、历史、趋势和算法
- [机器学习]分析了 600 多种烘焙配方,机器学习开发出新品
- [机器学习]2021年的机器学习生命周期
- [机器学习]物联网和机器学习促进企业业务发展的5种方式
- [机器学习]机器学习中分类任务的常用评估指标和Python代码实现
- [机器学习]机器学习和深度学习的区别是什么?
- [机器学习]堪比当年的LSTM,Transformer引燃机器学习圈:它是
- [机器学习]年终总结:2021年五大人工智能(AI)和机器学习(ML)发展趋势
相关推荐:
网友评论:
最新文章
热门文章