Amazon Redshift简化数据管道背后的技术逻辑
从大数据概念首次提出,到全球经济迈入数智化时代,Amazon Redshift云数仓支撑企业应用走向现代化数据架构,已有十年历史。回顾过去,Redshift围绕数据分析、高可靠、高可用等方向,经历了哪些重要迭代? 2022re:Invent最新推出的Zero-ETL“简化数据管道”理念,背后包含哪些技术逻辑?
接下来,让我们站在新十年的起点,一起去感受以Redshift为核心的数据技术带来的变革!
十年跃迁
“这10年,我们一直从客户需求出发,不断完善产品功能,提升应用性能。比如:客户希望融合湖仓的能力,在仓中能够直接查询S3数据湖中的数据。”亚马逊云科技数据分析专家 潘超,具体介绍了Redshift的演进历程。
早在2017年,Redshift就推出了Redshift Spect,提供了湖仓融合能力。2019年,Redshift推出RA3类型的节点,存储和计算完全分离各自独立扩展,帮助客户节省成本的同时;也给Redshift的架构带来极大的扩展性和灵活性。之后,Redshift DataSharing应运而生,用户可以实现数据的生产和消费分离,可以在不移动数据的情况下实现跨集群、跨账号、跨Region数据的共享。
2021年,Redshift Serverless的发布,带来了云原生数仓的极致体验,客户不用再关注底层计算资源的扩展,可按需付费,简单易用。Redshift Serverless将计算资源抽象为RPU,会根据集群负载弹性伸缩,只在有查询的时候,按照RPU的使用时长计费,不查询不收费。使用起来非常方便,给到用户的就是一个Endpoint,直接链接使用即可。可适用于负载有高有底有波峰、波谷的应用场景等。
2022年的re:invent,Redshift再次成为焦点。Amazon Redshift Multi-AZ(高可用性与高可靠性)、Amazon Glue Data Quality(更好地管理数据湖质量)、Centralized Access Controls for Redshift Data Sharing(简易且安全的数据访问权限管理)、Amazon Redshift auto-copy from S3(简化数据分析与移动)等,与Amazon Redshift相关的新功能,多到数不过来。
那么,这些新功能将为用户带来哪些实际价值呢?
以DataSharing举例,通过DataSharing客户能够做到跨账号跨Region的数据共享,做到读写分离,比如客户想要把RDS数据实时同步到Redshift,做完加工处理后对外提供高并发的实时数据查询,我们可以将RDS数据实时摄入到Redshift的Provision Cluster,之后将元数据Share给Redshift Serverless集群提供BI查询,整个过程只需要在控制台上点击几个按钮就可以实现。
同样,Auto-copy对于客户来说,也是一个令人兴奋的新功能。Auto-Copy简化了从S3数据湖中加载到Redshift的过程,它可以自动监控S3的数据目录的变化,将新增的数据文件自动加载到Redshift中, 无需依赖任何组件,只需要一个SQL语句就可以完成。
Redshift所有功能创新,均源于用户的业务场景。Redshift的应用场景包括四大块:1.常规业务运营与BI分析;2.实时数仓分析;3.查询、报表与数据分析,就是OLAP的一些应用查询;4.机器学习与分析预测。目前,全球有数万用户在使用Redshift进行数据分析,这些用户来自游戏、金融、医疗、互联网等各个行业。
ETL自由
2022年re:invent大会上,Redshift能够C位出道,还有一个重要原因,那就是首次推出了Zero-ETL独特的技术方法。
“通过Zero-ETL,直接实现了从Aurora存储层到Redshift存储层的数据转换,并且无需依赖任何组件,性能和实时性都有更好的保证,这是两个云原生产品的融合。” 潘超进一步解释了Zero-ETL诞生初衷。
对于大多数企业而言,要想让关系数据库的数据实时进入数仓中做AP查询,通常会使用CDC工具实时解析数据,再用计算引擎将数据写入到仓中,同时要更新对数据进行Merge操作,整个过程比较复杂,还要依赖多个组件才能完成,给开发和运维带来了极大挑战。采用云原生产品融合的方式,则可以各自完成自己专业的事情,让数据在分析服务之间无缝流转。
Zero-ETL其实秉承的是亚马逊云科技一直以来的产品理念,那就是化繁为简,实现从0到1的技术突破后,再努力消除从1到0的琐碎。而从云原生数仓层面看,Zero-ETL的本质是,让数据在仓、湖、数据库之间无缝流转,而无需关注复杂的数据管道建设问题,让客户全心投入到业务中去。
深度集成
当数据进入到Redshift,数据分析与交互工作才正式开始,对于有着复杂业务数据逻辑的企业来说,更希望通过Redshift去简化业务流程,同时可以无缝构建和运行Apache Spark应用程序。
“在2022re:Invent大会上,Adam宣布了Amazon Redshift与Apache Spark深度集成,以帮助数据工程师构建和运行Spark应用程序,这些应用程序可以从 Amazon RedShift 集群消费和写入数据。” 潘超强调,聚焦数据战略,亚马逊云科技的产品虽自成一体,但也会拥抱开放,与开源生态深度集成。
首先,Redshift会和自己的托管服务无缝集成,比如:Glue Catalog做统一的元数据管理;Lake Formation做统一的权限管控;Zero-ETL做TP到AP的实时分析。
同时,Redshift也会跟开源、第三方合作伙伴的工具无缝集成。比如:加强了Redshift和Spark的融合,Glue和EMR都集成了最新研发的高性能Spark Redshift Connector,更有效地提供谓词下推、临时文件列存等特性,相比开源Connector有10倍以上的性能提升。
过去,如果你在EMR工作,可以使用Spark 对数据进行分析,但如果你想对 Redshift 中的数据运行Spark查询,你必须将数据迁移到S3,或者配置使用开源的Spark Redshift连接器, 整个过程比较繁琐。最好的方法是,只在Redshift上就能对数据运行Spark查询。
Amazon Redshift 和Apache Spark 的集成后,能最大限度地减少设Spark和Redshift 开源连接器的繁琐过程(且通常是手动过程),并减少了执行分析和ML任务所需的准备时间。比如:你正在使用亚马逊云科技的分析和机器学习 (ML) 服务(Amazon EMR、Amazon Glue 和 Amazon Sagemaker),那么现在可以构建 Apache Spark 应用程序,从 Amazon Redshift 数据仓库中读写数据,而不会影响应用程序的性能或数据的事务一致性。
而在流式数据接入与处理方面,Redshift是通过Amazon Managed Streaming for Apache Kafka (Amazon MSK) Serverless支持快速扩展资源,简化实时数据摄取和流式传输。问题是,这种方式的优势是什么?和Flink技术路线是怎样一种关系?
答案是,二者并不矛盾!很多客户需要更加实时的数据摄入,比如:风险监控及风控指标管理、游戏用户行为分析等等,Streaming Ingestion解决的是通过在Redshift执行一个SQL,即可完成MSK和KDS的数据实时摄入到Redshift,将数据摄入延迟降低到秒级别,减少额外组件维护,减低成本。如果客户需要实时计算,依然可以选择Flink或者无服务器的托管Flink(Amazon Kinesis Data Analytics)。但如果客户是要做实时分析,那么Streaming Ingestion是一个很好的选择。
借助Redshift提供的Streaming Ingestion,用户可以非常方便地可以将消息中心的数据接入到Redshift,中间无需依赖任何组件,执行Redshift标准SQL即可,整个过程自动摄取,降低数据入仓摄入延迟和维护成本。
对于实时查询能力,Redshift有Auto Tuning的功能,比如排序键,分布键,每列的压缩算法,自动物化视图等。Redshift依靠自己内部的机器学习算法,会自动去做一系列的动作,用户不再需要特别关注数仓性能的调优,只关注业务逻辑即可。
Redshift也提供了联邦查询能力,用户可以直接通过Redshift直接查询RDS和Aurora中的数据,获取实时数据,而不需要数据加载过程。
换言之,Redshift具备了实时数仓所需要的数据的实时摄入和实时查询能力,这种简化数据管道以及深度集成的方式,可有效支撑各个业务场景需求,让企业在特定的实时场景下不再需要移动数据,也不再需要构建和管理任何连接器。
总之,在亚马逊云科技整体的数据战略部署中,Redshift占有重要地位。在简单、易用、高性价比优势背后,其实体现的是Redshift一路创新与持续迭代带来的成果。
时间:2022-12-26 01:39 来源:未知 转发量:次
声明:本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,不为其版权负责。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。
相关推荐:
网友评论: