行业报告 AI展会 数据标注 标注供求
数据标注数据集
主页 > 大数据 正文

改进数据质量“临时救火”是行不通的

对企业的IT部门来说,提升和维护数据的质量是一个永恒的挑战。与此同时,数据的爆发式增长使这一任务变得越来越困难。此外,企业越来越依赖数据来获取新的见解并为决策提供合理的建议。数据质量,已成为IT部门的一个重要战场。

大数据3

但对于很多IT部门来说,对数据质量的改进往往是被动性的,就像是救火:在数据质量问题出现后,我们才进行响应,从一个危机跳到另一个危机。往往是最大的问题最受关注。如果没有一个积极的数据质量过程,数据问题就会开始增加。所以我们应制定主动数据质量改进计划,其目标是在数据质量问题成为问题之前识别它们。  

数据是任何企业的资产之一,其中的区别在于负责确保整个企业数据质量的团队的规模。很大一部分数据不是闲置的,它们会进入多个不同的数据存储系统。不正确的数据值就像是病毒:一旦出现,它可能就会传播到整个组织的数据报告和其他数据存储中。  

这里有一些建议可以帮助您开始构建一个主动的数据质量改进计划,当然这些建议并不是绝对的,但会帮助你开始思考这个过程。该计划的目标是确保企业数据的准确性和一致性。  

建立一个数据质量理念体系

像所有的组织计划一样,创建一个数据质量改进的理念体系,需要从组织结构的顶部开始,让高层管理人员参与进来至关重要。需要确定负责数据质量的团队成员,并向IT人员和业务部门宣传数据质量改进计划的好处,其目标是将数据质量集成到组织结构中。  

合适的人掌握合适的技能

数据质量专家很难找到,而且成本可能很高,但这并不妨碍你“自我成长”。在公司里找一些对此有兴趣的人员,并为他们提供学习数据质量科学的时间和相关培训。您可以根据预算限制和您所拥有的人力资源来构建相应的项目。  

没钱没工具?没有关系

没有足够的预算来购买主数据管理(MDM)产品或数据质量工具?这当然是个很大的挑战,但不能成为借口。笔者回顾了几家初创公司的数据质量项目,几乎可以称作是文档、流程、程序库和开源产品的大杂烩。如果组织需要,您也可以通过使用一些开源的MDM和数据质量工具,如Talend、Pimcore和OS DQ等等,创建一个强大的、主动的数据质量改进计划。  

数据质量始于产生和获取

为了开发高质量的数据集,您必须在产生或从外部数据源获取数据时遵循最佳实践方法。与信息使用者沟通,确定他们如何使用数据,并确定治理数据的业务策略。然后,您可以开发一个标准,并构建数据定义规则来保证一致性。   大多数数据库提供一组约束来强制执行数据一致性。对于以编程方式执行数据一致性的非数据库平台,建议研究其他一些存储公共代码、数据质量规则和最佳实践的机制。   强烈建议各种规模的组织认真评估MDM产品套件。MDM平台的流程框架和工具将成为数据质量程序的基础,帮助您更快地建立和实施企业范围内的单一事实来源。

维持数据质量

执行前瞻性的数据质量检查,将成为改进计划的核心部分。

其过程应该是(1)识别、(2)优先级、(3)评估、(4)纠正,即:识别数据和主体,对数据的重要性进行优先级排序,评估最重要的数据资产,纠正不准确的数据值。   当您识别出不正确的数据值时,您的目标应该是确定可能造成的影响的严重程度和影响范围,并确定问题的根源。然后采取必要的步骤来修复不正确的数据值,并解决产生问题的根本原因。   目前市面上有许多数据质量产品可以帮助您进行分析,建议在选型之前结合权威机构的调查报告了解每家提供商的优劣。   构建具有前瞻性数据质量计划,永远都不算晚。如果计划合理且完善,就能很大程度上减少数据质量问题,更好地保护和使用企业的数据资产。

 

微信公众号

声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。

网友评论:

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:点击我更换图片
SEM推广服务

Copyright©2005-2028 Sykv.com 可思数据 版权所有    京ICP备14056871号

关于我们   免责声明   广告合作   版权声明   联系我们   原创投稿   网站地图  

可思数据 数据标注

扫码入群
扫码关注

微信公众号

返回顶部