避免数据分析灾难发生的6个技巧
正因为如此,数据分析也继续吞噬着IT预算的很大一部分。据2020年的CIO状况调查显示,37%的IT主管表示,数据分析也将继续推动公司今年的IT投资,是最高的单一类别。
但即使如此也不能保证数据分析的投资一定会有回报。事实上,这门学科可能已经充满了问题,这些问题可能暂时会使这些项目脱轨,或者让它们走向失败。
但避免负面结果是任何想要利用数据分析的公司都能做到的--只要他们投入必要的准备和工作。以下是一些组织可以采取的步骤,以避免数据分析灾难的发生和带来失望。
制定全面的数据管理策略
公司应该采取的第一步是建立一个全面的数据管理策略,以定义数据的收集、处理和分析,IT专业组织CompTIA的技术分析高级主管Seth Robinson说。
“企业已经采取了类似的措施,将网络安全作为了IT的关键业务组件,但数据管理也应该遵循同样的路径,因为数据对企业运营来说已变得如此重要。”Robinson表示。
CompTIA最近发布了一份名为“数据管理趋势”的报告,该报告是基于对美国400名IT专业人士在2019年12月进行的一项在线调查。报告显示,许多企业都处于制定数据管理战略的早期阶段。
在接受调查的组织中,只有25%的人认为他们在公司数据管理方面正处于理想状态。报告称,尽管数据长期以来一直就是IT运营的一部分,但在工作角色或已定义的组件方面并没有受到太多关注。
该战略的一个重要组成部分是拥有正确的数据分析技能,以满足公司的需求。
“数据相关的技能差距是企业在制定数据管理计划时必须面临的(第三大)挑战,它们需要一系列不同的数据技能。”Robinson表示。其中包括了数据库管理、数据分析和数据可视化。“其中的一些技能可以传授给现有的员工,而其他技能则可能需要新的招聘或合作。”他说。
根据CompTIA的数据,只有44%的公司表示,他们内部已经有了专门从事数据管理或数据分析的IT员工。虽然人们关注的是像数据科学家这样的新职位,但依然会有更多传统角色的机会,包括数据库管理员。
“你必须咨询或培训你的业务员工,使其具备数据素养,否则你的团队中可能没有人知道可以如何开始关于数据分析的讨论。”咨询公司West Monroe技术实践的高级架构师Jeremy Wortz补充道。
“不是每个人都需要成为数据科学家,但所有的商业领袖都需要对分析如何驱动价值有一个基本的理解。”
优先考虑数据集成
与数据分析相关的最常见的问题实际上是出现在整个数据流过程的早期,缺乏数据集成,Robinson说。“如果没有将所有的公司数据联系在一起,数据分析就将在寻找联系和洞察力方面受到限制。”他说。
CompTIA的研究发现,整合数据将会是解决问题的关键。公司在其数据管理战略中列举了两个挑战。只有加快数据分析的步伐才能在挑战中名列前茅。
几年来,CompTIA research发现,在技术计划上独立工作的业务部门最终会面临集成方面的挑战。因此,组织正在试图避免影子IT,转而采用协作性的方法,这种方法可以在保持对所有业务系统的包容性视图的同时,仍然给业务部门一些自由。
CompTIA的报告说,将数据收集到一个单一的存储库中将会是这种方法的一部分,另外,对于能够在尽可能广泛的数据集上运行AI计划也是至关重要的。该研究指出,尽管数据集成可能会是最大的挑战,但在被调查者中,数据孤岛问题依旧没有被广泛认为是一个问题。
考虑到82%的公司表示他们有一个高度的或中等程度的数据孤岛,“在数据孤岛方面究竟有多大的问题,以及如何将它们准确地集成到一个公共数据集上,存在明显的脱节。”报告说。
除了数据源的技术集成之外,企业还需要在各个业务部门和IT职能部门之间建立数据共享流程。
“就像其他的许多方面一样,这些组织之间的合作需求也在不断的增长。”Robinson说。“业务部门带来的知识将是最有帮助的见解,而IT团队则拥有交付技术解决方案的专业知识。定期沟通将有助于建立适当的反馈循环,以优化数据分析,为业务提供最佳的服务。”
进行有效的DataOps实践
DataOps(data operations)是一种自动化的、面向流程的方法,数据分析团队可以使用它来提高分析质量和缩短分析周期。它最初只是一组最佳实践,而现在已经成熟为了一种新的、独立的数据分析方法。
该方法适用于从数据准备到报告的整个数据生命周期,并承认了数据分析团队和IT运营之间的内在联系。
与DevOps类似,DataOps整合了敏捷方法,以缩短分析开发的周期,使之能够与业务目标保持一致。DevOps可以通过利用IT资源和自动化测试和部署来持续交付高质量的软件,而DataOps的目标也是为数据分析带来同样的改进。
跨国生物制药公司Amgen的数据战略与运营高级总监James Royster表示,如果企业想要改善分析结果,“全面实施DataOps是至关重要的”。
该公司已经从DataKitchen部署了一个DataOps平台,并取得了“巨大的成功”,Royster说。“DataOps涉及到需要设计一个带有内置错误处理的数据分析,”他说。“数据分析需要使用自动化的方法来测试和控制数据的质量,以便减少错误并避免数据的完整性问题。”
组织经常会遇到数据错误的问题,这些问题可能会危及项目本身,Royster说。这些错误包括了底层数据集的错误。“所以你必须对原始数据进行清理和预处理,”他表示。“错误在任何大型数据集中都是很常见的。”
此外,从具有不同业务规则的不同位置获取相同的数据也可能会产生错误。“同一企业中的不同组织可能会使用不同的算法、工作流或假设来处理相同的数据。”Royster说。
许多公司还不能快速连接和转换数据以满足当前的需求。“市场在迅速发展,业务需求也在变化,”Royster说。“数据团队必须能够更新数据转换,以跟上用户和利益相关者的请求。”
提出正确的数据分析问题
组织需要坚持不懈地关注那些能够通过数据分析传递价值的关键问题,West Monroe的Wortz说。
“事实是,无论你的工具和技术有多先进,你的数据本身都不会带来任何价值,除非你能获得驱动战略结果的洞察力,”Wortz说。所有的分析,包括人工智能和机器学习,都应该产生深刻的见解,他补充道。
实现这一目标的关键是能够提出与价值创造相关的有影响力的问题,Wortz说。“潜在客户需要多长时间才能成为真正的客户?为什么客户会流失?他们什么时候会带来变化?”他说。“一旦你有了基本的答案,你就可以提出与业务相关的假设,然后用新的、更简单的问题重新开始这个过程。”
West Monroe最近在与一个客户合作,进行了一个以销售为中心的人工智能和机器学习项目。
“机器学习模型为组织带来了大量的收入,但是我们在为算法做准备的整个过程中都保持着对数据集的洞察力,”Wortz说。“我们中的许多人都认为,通过在数据中发现普遍适用的洞见(例如基于特定产品的特定地区的特定客户问题),ML的工作所产生的价值与向AI算法所输入的数据一样多。
这给了该组织一个快速增值的机会,因为West Monroe建立了ML系统的长期价值,“同时这也为算法提供了更高质量的数据集,”Wortz说。
只分析干净、准确的数据
这种做法可能是属于构建和执行总体数据管理战略的范畴。但它本身作为一种最佳实践仍然值得一提。如果分析的数据不准确,结果和见解就会受到污染。
“在我看来,最重要的步骤是,在提供任何见解之前,数据必须是可辩护的、可理解的和可接受的,”技术研究和咨询公司ISG的首席数据和分析官Kathy Rudy表示。
“这意味着数据需要是干净的、最新的、有效的,并且来自可信的记录系统,”Rudy说。“干净的数据意味着在进行任何分析之前,你可能已经花了大量时间来检查和清理数据。”这通常会花费相当多的时间,尤其是在跨数据库交付报告的情况下。”
Rudy表示,这会是一个关键的步骤,通常被称为主数据管理。
“管理层必须确认数据的来源、流通和准确性,否则他们就不会接受结果,而你将需要花更多的时间来捍卫数据,而不是交付价值,”Rudy说。“它还会给数据团队带来不必要的周期,可能会让你失去可信度。”
在线学生服务提供商Kaplan Higher Education的首席信息官Pratyush Rai表示,拥有坚实的技术基础非常重要,“尤其是在数据准备方面,而在许多组织中,对底层架构的关注显然不够。”这会导致重复记录和脏数据的产生,使得数据分析更具有挑战性。”
创建一个有凝聚力的协作分析团队
成功的分析以及避免失望需要团队的合作,这通常也意味着必须消除部门的孤立。
“组织通常很难创建和共享数据体验,因为数据往往是存储在多个孤岛上的,并且缺乏用于治理、数据发现、编目的工具,以及工程、分析和业务团队之间的协作,”为能源行业提供分析服务的公司Vortexa的首席技术官Maksym Schipka表示。
“你需要把你的团队组织成多功能的团队,在一个团队中平衡业务分析师、数据工程师、数据科学家、软件工程师和质量保证,”Schipka说。“要避免陷入拥有一个单独的数据科学团队的陷阱。因为这肯定会导致项目的失败。”
Vortex确保了分析团队能够完全掌握它所使用的分析工具的选择,比如来自Lenses.io的数据操作平台和来自Amazon Web services的云服务。
但Schipka表示,无论使用何种分析工具,组织都应该期望在数据分析团队中拥有数据科学家和数据工程师的组合。“确切的比例将取决于需要回答的业务问题的复杂性,以及实现这一目标所需技术的复杂性。”她说。
时间:2020-05-24 17:26 来源: 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关文章:
- [数据挖掘]缓存与数据库双写一致性
- [数据挖掘]揭开AWS的Timestream数据库的面纱
- [数据挖掘]设计bug导致数据被删除,java工程师背锅被开除:
- [数据挖掘]Oracle 行贿 10 万元:中标 1980 万元数据库项目
- [数据挖掘]"存算分离"已成为分布式数据库的主流方
- [数据挖掘]属于 Hadoop 的大数据时代已结束
- [数据挖掘]流数据并行处理性能比较:Kafka vs Pulsar vs Praveg
- [数据挖掘]大数据凉凉了?Apache将一众大数据开源项目束之
- [数据挖掘]卸载Navicat!操作所有的数据库靠它就够了
- [数据挖掘]利用大数据预测,先要避免“冷启动偏差”!|
相关推荐:
网友评论:
最新文章
热门文章