企业选择数据湖架构的5大理由

　　随着大数据的重要性和接受度的提高，人们也越来越需要考虑如何组织和托管大数据。答案之一是数据湖，在数据准备和组织方面最广泛的数据体系结构系统。

　　简单地说，它允许企业首先存储数据，然后在需要时检索数据。就像一个存储单元，你只是把你的东西存储，并在未来需要的时候找出来。

　　这种方法与传统的数据仓库截然不同，传统的数据仓库需要对数据进行结构化，且通常在记录数据之前采用类似表格的形式。数据仓库是一种固定形式的解决方案，它不是敏捷的，同时意味着额外的重新配置成本。但迄今为止，它一直是全球企业的首选。

　　那么，将数据湖作为数据管理选项的主要原因有哪些?

　　削减成本

　　因为在存储数据之前不需要设计数据的模式，所以没有前期的开发费用。且处理数据湖的Hadoop系统是开源的，因此没有额外的软件许可成本。

　　与传统数据仓库的不同之处在于，有了数据湖，ETL阶段就完全没有了。您不必知道存储在湖中的数据类型或者有多少字段。删除ETL过程意味着没有与许可、维护或增长数据结构相关的成本。

　　敏捷性

　　添加新单元或单个新项目可能会改变现有的整个数据结构，从而引发额外的成本。此外，进行这些更改所需的实现时间可能从几天到几周不等。

　　在数据湖中，所有的数据都已经存储，并且只有很少的变化，您可以随时查询。

　　这种方法帮助企业在当今不断变化的数据世界中保持敏捷性。未来几年里可能会出现新的数据格式，其中一些甚至是现在还无法预见的。因此，企业数据存储系统需要足够灵活，在不进行重大结构更改的情况下满足所有既定和突发要求。

　　多种格式

　　数据湖可以处理各种数据格式。即使数据湖中的一些数据看起来与其他数据无关，但从整体的角度进行组合和分析时，它可以提供基本的业务见解。

　　例如，如果一个数据湖包含关于客户的记录，比如姓名、年龄、去年的支出，以及客户在网上商店的行为统计图，很难看出这些细节和销售线索之间的直接联系。然而，把所有的东西放在一起，可以发现一定年龄的客户往往会更快地做出购买决定，这可能会影响销售策略。

　　除了多种格式，还有关于数据源的上下文透视图。最常见的资源包括面向客户的应用程序、BI应用程序、销售日志等。物联网的兴起将增加数据源和格式的数量，使数据湖成为唯一可靠的解决方案。

　　人工智能

　　由于数据湖使用非结构化数据，因此不适合使用传统的基于sql的工具进行查询。相反，由于大多数数据都具有合适的3v(体积、速度、多样性)，因此可以将其视为大数据并用于训练人工智能算法。

　　实际上，拥数据湖的目标是让信息实时(或几乎实时)准备好进行处理。这种动态的方法为公司提供了立即反应的机会。将所有数据放在同一个位置意味着在分析之前检索数据的时间更少。

　　灵活性和规模

　　数据湖最典型的特性可能是其可伸缩性和灵活性，它可以适应企业数据的任何变化，而不需要对基础设施进行重大更改。由于整个架构是基于云的，通常通过按使用量付费的业务模型进行访问，所以任何升级或降级都意味着只需更改您的支付计划。

　　这种灵活性与不能实时修改的遗留系统形成了对比。数据湖可以很容易地添加或合并数据。就像是现实中的湖泊，它可以由多条河流汇集，并且可以随时添加新的河流，而不会干扰之前的设置。与此同时，遗留系统就像一个装水设施，任何改变都需要更多的瓶子、更多的标签和重新安排时间。

　　局限

　　尽管数据湖有很多优势，但也并不是万无一失的解决方案，也绝对不是万能药。数据湖最大的风险在于，它们可能会变成数据沼泽，数据可能会被毫无意义地丢弃。

　　所有保存的数据流都应该与项目中的kpi和业务目标相结合。避免信息瘫痪的一种方法是创建可视化仪表板，通过仪表板，数据可以被正确显示，即使不是数据库学家也可以理解数据。

声明：本站部分作品是由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时修改或删除。

上一篇：24个提高数据技能的终极数据科学项目
下一篇：Python新工具：用三行代码提取PDF表格数据

网友评论：

发表评论