关键字: [Amazon Web Services re:Invent 2023, Amazon Redshift, Data Pipelines, Etl Processes, Amazon Web Services Services, Data Integration, Real-Time Analytics]

本文字数: 1600, 阅读完需: 8 分钟

视频

如视频不能正常播放,请前往bilibili观看本视频。>> https://www.bilibili.com/video/BV1MN411j7Zf

导读

亚马逊云科技上 zero-ETL 的出现正在推动现代亚马逊云科技分析堆栈组成的范式转变。加入本论坛,了解如何使用亚马逊云科技分析服务(例如 Amazon Aurora、Amazon Redshift 和 Amazon Athena)的 zero- ETL 功能实时分析和查询各种数据源,包括流式、事务性、操作性和历史数据存储。还可以了解在不担心数据移动或传统 ETL 管道的复杂性的情况下设计现代数据平台的用例、关键考虑事项和最佳实践。本论坛面向亚马逊云科技合作伙伴。

演讲精华

以下是小编为您整理的本次演讲的精华,共1300字,阅读时间大约是6分钟。如果您想进一步了解演讲内容或者观看演讲全文,请观看演讲完整视频或者下面的演讲原文。

安东尼热情地欢迎与会者们参加关于使用零提取、转换、加载(ETL)架构简化现代数据管道的演讲,这开启了这场富有启发性的虚拟会议。尽管这可能影响到午餐时间,但安东尼希望大约200名数据专业人士能够觉得这些信息足够吸引人,以至于愿意牺牲一些用餐时间。他发现有些参与者选择在会议期间吃午餐,并全力支持这种做法,认为这是营养和知识获取的完美结合。

为了了解会议室的气氛,安东尼向观众提问,询问有多少人认为自己从事的是数据工程师、数据架构师或类似角色。大约三分之二的与会者举起了手,表明这个主题在人群中有着很高的兴趣。安东尼还问谁曾面临过监控复杂ETL管道的挑战,例如不知道故障发生在哪里或需要调试哪些问题。再次,超过一半的与会者举起了手,表明这些都是常见的痛点,本次会议可以帮助解决这些问题。满意地认为自己已经吸引了正确的观众,安东尼承诺演讲将教授如何使用亚马逊云科技服务简化数据管道的方法。

安东尼的同事桑吉特·詹进一步介绍了为什么在当今越来越依赖数据的世界上,ETL管道是必不可少的。其目标是整合和集成来自不同来源的信息,以获得有价值的商业见解,从而推动竞争优势。桑吉特图解了典型的ETL过程,从诸如交易数据库、实时流、社交媒体源和非结构化数据湖等各种数据源开始。数据流入存储的着陆区,然后经历处理和清理。最后,经过清理的数据到达消费层,业务用户可以在此分析并提取见解以指导决策。

然而,Sanjit注意到,尽管ETL管道具有一定的优势,但也存在一些严重的问题。每个数据源都需要定制代码,且必须随着数据量的增长进行维护和扩展。故障可能导致数据不一致或过时,从而降低信任度。管理这些复杂管道需要高度熟练的工程师,这不仅昂贵而且耗时。数据团队通常在应对这些复杂管道时往往感到沮丧。因此,Sanjit提出了一个问题:是否有可能简化这些ETL流程以提高效率?

Anthony阐述了亚马逊云科技如何通过多种关键方式简化ETL流程。预构建连接器消除了对每个数据源进行定制数据提取代码的需求。亚马逊云科技的服务,如Amazon Glue,通过简单的可视化界面而非沉重的编码来处理数据转换。Glue爬虫还可以自动目录元数据,以便在各个服务中加以利用。亚马逊云科技提供了数百种数据连接器以及完全管理的服务,如用于流处理的Kinesis Firehose、用于即席查询的Athena、用于数据准备的SageMaker和用于自动化数据传输的AppFlow。

Glue与亚马逊云科技的其他数据服务,如Aurora、DynamoDB和Redshift,实现了无缝集成。它可以自动编目数据源的表和架构元数据,以便数据可以立即用于下游分析。亚马逊云科技 Redshift Spectrum允许在不移动数据的情况下对亚马逊云科技 S3中的开放文件格式(如JSON、CSV和Parquet)执行查询。亚马逊云科技 Data Exchange帮助用户在集中式目录中共享精选的第三方数据产品。总之,Anthony强调亚马逊云科技通过提供无ETL解决方案,消除了对繁琐的传统ETL过程的需求。

苏迪尔·哈斯比(Sudhir Hassib)深入研究亚马逊云科技上的零ETL功能,旨在简化分析过程。例如,Amazon Aurora现已实现实时复制功能,无需任何ETL作业即可将数据从Amazon Redshift中进行更改。此外,Redshift流式摄取技术可以将数据流(如Kinesis)直接消费至物化视图,跳过ETL阶段。新推出的Redshift自动复制功能能够自动加载新增到S3存储桶的文件,无需编写脚本。联邦查询功能可以在不依赖集中化处理的情况下,跨多个数据来源进行数据统一。数据共享功能则利用亚马逊云科技的湖形成模式,实现在不重复的情况下跨账户和区域发布实时数据。内置的机器学习服务使分析过程民主化,无需执行复杂的ML操作工作流。Athena联邦查询功能通过虚拟访问和统一任何位置的数据来源,避免了ETL的需求。

为了将理论与实践相结合,桑吉特列举了两个成功的客户案例,展示了如何在亚马逊云科技上应用零ETL架构:

1)一家人才招聘公司需要大规模分析多种数据,以支持内部业务团队。他们使用预构建连接器(如Kinesis数据火坑)及亚马逊云科技Glue进行附加转换,将数据摄入到Amazon S3中。Amazon Redshift作为安全的中央数据仓库,用于与业务团队共享数据。这种方案有助于加速开发进程,减少人工干预,并在具备适当安全和治理原则的前提下提供大规模分析。

2)一个大型保险公司每天需要对超过500亿设备日志事件进行实时异常检测,以满足关键的安全需求。他们使用Kinesis数据流将高容量设备日志摄入到Amazon Redshift中,并利用内置的Redshift ML自动标记异常——无需自定义机器学习管道。与DevOps自动化相结合,该解决方案实现了大规模实时推断。如果没有Redshift ML,需要一个涉及ETL和SageMaker的更复杂架构,这将影响关键的安全分析速度。

零ETL的驱动力:简化数据流程、提高洞察力及实现数据一致性

尽管ETL面临的挑战包括定制代码、故障、技能劳动以及挫败感,但亚马逊云科技的服务如连接器、Glue、AppFlow、Athena、Redshift和SageMaker等为解决这些问题提供了支持。通过零ETL功能,Aurora集成、流式传输、自动S3复制、联邦查询、数据共享以及数据库内ML等功能得以实现。这些功能使得Athena连接器能够更好地满足客户需求。例如,在人才分析管道和实时安全分析中,零ETL技术已经取得了显著的成果。此外,通过结合Aurora、Redshift和QuickSight仪表板,足球球员分析也得到了有效的优化。

总之,零ETL技术的应用可以消除ETL瓶颈并实现实时的统一分析。要了解更多关于零ETL的信息,可以查阅博客、文档、培训课程以及在LinkedIn上关注相关资源。

专业的演讲者强调了亚马逊云科技在创新零ETL解决方案方面的优势,该方案旨在简化数据管道并提高洞察力,同时整合各种数据来源以提供全面视图。通过深入的案例分析以及详细的演示,他们展示了零ETL架构如何在各种亚马逊云科技服务(例如Aurora、Redshift、QuickSight、Glue和Kinesis等)上高效运行。与会者对在亚马逊云科技上实施零ETL以实现更强大的实时统一数据分析的驱动力和方法有了更加深入的理解。

下面是一些演讲现场的精彩瞬间:

亚马逊云科技的领导者在观众中寻找数据工程师,因为他曾担任过这个职位。

他提供了一个零售公司的案例研究,展示了如何使用Amazon Aurora、Kinesis和S3来捕获和处理客户数据,从而提供推荐和预测。

这个架构将来自不同来源的数据输入到S3中,通过Glue进行转换后存储在Redshift中作为数据仓库,并在团队间共享以进行分析和洞察。

Redshift的数据共享功能使得跨团队安全地简化数据访问成为可能,从而消除了管理多个集群的开销并提高了决策效率。

保险公司利用亚马逊云科技以大规模、实时、安全地处理敏感的顾客数据。

展示了一张屏幕截图,解释了Amazon Redshift的机器学习功能如何能够从集中式日志中实时检测异常并采取规模化行动。

演讲者谦逊地邀请观众在移动应用中完成活动调查,以提供反馈以改进未来的内容。

总结

演讲者探讨了亚马逊云科技如何优化现代数据管道并实现零ETL架构。他们解析了传统ETL流程所面临的常见问题,包括复杂性、数据不一致性以及对专业技能的依赖。

亚马逊云科技提供了一系列服务来应对这些问题。例如,Glue Catalog用于存储元数据,使得数据能够在各个服务之间被访问。AppFlow和Kinesis Firehose则负责轻松地将数据迁移至亚马逊云科技。Redshift Spectrum和联邦查询则在不移动数据的情况下整合数据。此外,Redshift ML还将机器学习功能引入到了数据仓库中。

他们重点介绍了一些特定功能,如Aurora到Redshift的复制、从Kinesis到Redshift的物质化视图流处理、S3到Redshift的自动复制以及Redshift数据共享。这些功能都消除了对复杂ETL过程的需求。

他们还通过零售、保险等行业的一些实际案例,向观众展示了如何通过这些服务简化数据管道、降低运营成本并加快数据分析速度。演示过程中展示了一个例子,即如何将玩家统计信息输入Aurora,以无服务器方式复制到Redshift,并在QuickSight中进行可视化——整个过程无需进行任何ETL编程。

亚马逊云科技正致力于简化数据管道、统一数据源、实现实时数据分析以及让机器学习变得更加易用——所有这些都旨在消除传统ETL流程的瓶颈。

演讲原文

https://blog.csdn.net/just2gooo/article/details/134811381

想了解更多精彩完整内容吗?立即访问re:Invent 官网中文网站!

2023亚马逊云科技re:Invent全球大会 – 官方网站

点击此处,一键获取亚马逊云科技全球最新产品/服务资讯!

点击此处,一键获取亚马逊云科技中国区最新产品/服务资讯!

即刻注册亚马逊云科技账户,开启云端之旅!

【免费】亚马逊云科技“100 余种核心云服务产品免费试用”

【免费】亚马逊云科技中国区“40 余种核心云服务产品免费试用”

亚马逊云科技是谁?

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者,自 2006 年以来一直以不断创新、技术领先、服务丰富、应用广泛而享誉业界。亚马逊云科技可以支持几乎云上任意工作负载。亚马逊云科技目前提供超过 200 项全功能的服务,涵盖计算、存储、网络、数据库、数据分析、机器人、机器学习与人工智能、物联网、移动、安全、混合云、虚拟现实与增强现实、媒体,以及应用开发、部署与管理等方面;基础设施遍及 31 个地理区域的 99 个可用区,并计划新建 4 个区域和 12 个可用区。全球数百万客户,从初创公司、中小企业,到大型企业和政府机构都信赖亚马逊云科技,通过亚马逊云科技的服务强化其基础设施,提高敏捷性,降低成本,加快创新,提升竞争力,实现业务成长和成功。