如何首次构建云数据仓库

对很多组织来说，如何首次成功地构建云数据仓库是一个难题，因此需要了解一些知识和技巧。

大数据57

那么组织应该如何进入这个未知领域?第一次构建和使用云数据仓库听起来可能让人望而生畏，但对于希望将其数据更好地分类的组织来说，云数据仓库是一个可行的选择，而且云平台通常允许灵活性和可扩展性。

数据虚拟化提供商Denodo公司最近进行的一项研究发现，56%的组织在云平台中部署了数据仓库技术，并经常发现可以获得很多好处，其中包括有效的工作负载管理和供应商锁定功能。

但是，初次尝试使用这种技术的组织可能想知道从哪里开始，并且如果失误将在时间和费用方面的代价很高。那么，组织应该怎么做才能很大程度地降低风险，并确保获得回报?

1.提高劳动力技能

需要努力解决的一个问题是确保组织的员工技能已为过渡做好准备。

云数据仓库技术的一个主要方面是它提供了大量的数据，并且在监控客户行为方面非常有益，但是如果组织的员工没有足够的技能来知道如何正确地利用它，就无法发挥它的潜力。

SolarWinds公司首席技术官Thomas LaRock说，“在全球范围内建立数据仓库，具有低延迟和巨大的计算能力，已经不再是标准业务无法企及的。在以往花费数百万美元才能实现的工作，如今只需几百美元和一些PowerShell脚本就可以完成。

组织可以轻松利用Microsoft Azure和AWS之类的提供商来为其数据分析需求分配硬件资源。但是，处理需要认真的技能提升，这是毫无疑问的。但是这些新技能将拓宽组织IT专业人员的视野。对数据处理需要有着充分的了解，再加上传统的网络工程，最终将促进IT专业人员的职业发展，因此应被视为一项必要的投资。”

2.建立充分的数据治理

LaRock继续强调说，必须确保以不会产生无用的重复数据或孤立数据的方式管理组织数据的重要性。

他说：“在实现数据仓库时，最常见的陷阱是管理、收集和聚合同一数据的多个副本。企业通常有很多数据仓库，如果它们构成数据仓库的一部分，就会产生冗余。如果要开始构建云数据仓库，则必须考虑建立适当的数据治理策略。有了这样的策略，就可以在实施数据仓库之前确定孤岛。”

3.从小处开始

组织在首次尝试建立云数据仓库时，最好是通过降低期望来最大程度地减少发生错误时的风险。

SnapLogic公司的首席技术官Craig Stewart说：“这将是一个从小事做起的过程，在一个小项目中获得一些经验和价值，然后从中学习。从第一个项目中获得经验，然后就可以逐步获得更多价值。

关于云计算的伟大之处在于，组织可以增加从RedShift和Azure Synapse之类获得的弹性，这确实使组织能够做到这一点。而从小事开始就意味着，如果组织尝试的项目遭遇失败，可以从中学到经验和教训，然后继续进行下一步，而不必付出巨大的成本，无论是资金来源，还是人力成本。

使用自助服务方式的非代码类型工具。这种结合意味着组织可以寻求快速获得价值，学习所做的并没有给组织带来价值，然后也可以快速发展，而不会遇到代价非常昂贵的失败，而失败本身就是一个获得价值的学习过程。”

4.规划新的架构是关键

除了从小处做起，组织还必须通过仔细规划其云数据仓库架构来保持耐心，这一点至关重要。

WhereScape公司副总裁兼欧洲、中东和非洲地区总经理Rob Mellor说：“组织需要注意在研究过程中会听到的一些误导。组织不仅可以将所有数据都放入云平台中，而且无需进行任何设计或架构即可开始对其进行分析。分析环境是经过计划和架构的，因此所有用户都可以理解和使用它。

组织也无需将所有数据仓库迁移到云端，而无需重新设计。组织原有的数据仓库在清理过程中会遇到很多麻烦。

但这是组织清除低效流程，浪费未使用资产(例如原有报表、可视化和分析已不再使用)空间的好时机。这也是使许多流程自动化以提高其效率的绝好机会。”

6.利用现有模型

第一次将数据仓库迁移到云中的决定可能不需要完全的新工作，并且可能需要从需要改进的现有体系结构中吸取教训。

除了其他好处外，这还可以帮助组织满足上述对足够数据治理的需求。

Exasol公司市场情报经理Helena Schwenk表示：“应将迁移视为合理化和修改现有本地数据仓库的机会。组织需要确定可以修改、扩充或添加哪些数据资产和源，并采用渐进式迁移策略，以实现具有凝聚力的云数据仓库平台，包括适当的治理和监督。”

7.确保可能的演变

Schwenk表示，组织需要了解如何使用内部经常使用的数据以外的其他种类数据的重要性。云计算的大数据(尤其是公共云)可以从外部影响的整合中受益。

她说：“组织需要研究公共云如何支持新的数据工作负载或业务用例。例如，考虑通过利用云数据仓库的规模和弹性来支持更多的数据可供分析使用，从而在云数据仓库中支持高级分析和数据科学。那些更新的云原生数据源(例如社交媒体数据和来自传感器的数据)，在提供对业务的更深入，更深刻的理解方面可能会极大地受益。”

8.考虑采用无服务器技术

Unravel Data公司国际区域副总裁Justyn Goodenough建议考虑使用无服务器技术。

他说：“无服务器关系数据库是商业智能应用程序和发布数据以供其他系统使用的常见选择。它们提供了规模，性能以及最重要的是对准备好的数据的基于SQL的访问。

供应商的示例包括AWS Redshift、Google BigQuery和Azure SQL数据仓库。这些对大小适中和相对简单的数据结构非常有用。

对于更高的性能和复杂的关系数据模型，大规模并行处理(MPP)数据库在内存中存储大量数据，并且可以快速发展，但往往代价高昂。”

9.研究和寻求专业知识

最后，首次开始使用云数据仓库技术时应考虑的两个技巧可能适用于任何新的业务活动，甚至是生活中的风险。

Zen Internet公司云计算与托管总经理GM Lyons说，“重要的是要准确地了解组织需要寻找的内容，因为不同的平台在数据类型、分析和处理方面具有不同的优势。例如，有些组织可能会发现多云服务更合适，不要以为从特定提供商那里获得了一项云计算服务，因为它们也将是满足组织其他云计算需求的最佳提供商。

最后，除了开展自己的研究之外，组织还应与具有该领域框架和经验的专家合作。这将有助于最大程度地降低采用云数据仓库的任何风险或挑战，并确保组织获得竞争优势，以充分利用其带来的收益。”