通过Amazon Redshift数据共享释放更深层次的洞察力,适用于数据湖表 大数据博客
  • 12

利用 Amazon Redshift 的数据共享深度洞察数据湖表

文章重点

Amazon Redshift 现在支持安全分享数据湖表,增强跨团队和跨组织的协作。数据共享允许在不同的 Redshift 仓库之间无须复制数据。利用红移 Spectrum,无缝集成数据湖与数据仓库,支持多种文件格式。

Amazon Redshift 已经成为一个高度可扩展的全托管云数据仓库,受到成千上万客户的信任,因其卓越的性价比和先进的数据分析能力。以客户反馈为驱动的产品路线图旨在确保 Amazon Redshift 不断发展,以满足用户不断变化的需求。

近年来,这种以客户为中心的方法促成了许多开创性功能的推出,包括零ETL、数据共享、流式摄取、数据湖集成、Amazon Redshift ML、Amazon Q生成性SQL和事务性数据湖能力。最近,Amazon Redshift 的数据共享能力进一步提升了该服务的灵活性和协作潜力。

Amazon Redshift 现在允许安全分享数据湖表也称为外部表或Amazon Redshift Spectrum表,这些表在AWS Glue数据目录中进行管理,同时还支持引用这些数据湖表的 Redshift 视图。这项突破使得数据分析能够覆盖更广泛的可共享数据,让你能够轻松地在不同仓库、帐户和 AWS 区域之间分享本地表和数据湖表,而无需物理移动数据或在每个仓库上重新创建数据湖表和 Redshift 视图的安全策略。

通过使用精细的访问控制,Amazon Redshift 的数据共享帮助数据拥有者严格管理谁可以访问共享的信息。在本文中,我们将探讨如何通过利用这一创新的数据共享功能,增强团队间和跨组织的协作、减少开销并解锁新的洞察力。

快橙加速器

Amazon Redshift 数据共享概述

Amazon Redshift的数据共享允许你安全地与其他 Redshift 仓库分享数据,而无需复制或移动数据。

在仓库之间共享的数据并不需要物理复制或移动相反,数据保留在原始的 Redshift 仓库中,并在一次设置中授予其他授权用户访问权限。数据共享提供了精细的访问控制,允许你控制具体哪些表或视图被共享,以及哪个用户或服务可以访问共享的数据。

因为消费者在原地访问共享数据,所以他们始终可以访问共享数据的最新状态。数据共享甚至允许在建立数据共享后自动共享新创建的表数据。

你可以跨不同的 Redshift 仓库分享数据,无论是同一 AWS 账户内还是跨账户,也可以进行跨区域数据共享。这使得与合作伙伴、子公司或组织内其他部门分享数据成为可能,并支持强大的工作负载隔离用例,如以下图所示。通过 Amazon Redshift 与AWS 数据交换的无缝集成,数据也可以进行货币化并公开分享,公共数据集如人口普查数据只需几步即可添加到 Redshift 仓库。

Redshift Spectrum 和数据湖表概述

在现代数据组织中,数据湖已成为一个集中的存储库最终所有数据在其生命周期的某个时刻都集中在这里。Redshift Spectrum 实现了 Redshift 数据仓库与客户数据湖之间的无缝集成。借助 Redshift Spectrum,你可以直接对存储在Amazon Simple Storage ServiceAmazon S3中的数据进行 SQL 查询,而无需先将数据加载到 Redshift 仓库中。这使你能够保持对数据的全面视图,同时优化成本效率。

Redshift Spectrum 支持多种开放文件格式,包括 Parquet、ORC、JSON 和 CSV,以及诸如 Apache Iceberg 的开放表格式,所有这些都存储在 Amazon S3 中。它通过高性能服务器的专用机群运行这些查询,并与 S3 数据湖保持低延迟连接。

用户在查询本地 Redshift 表与数据湖表时几乎没有差别。以下 SQL 示例展示了如何对本地 Redshift 表和数据湖表进行相同的聚合和转换。此外,使用像 Parquet 这样的列式文件格式并推动查询谓词,可以进一步提升性能。

增加数据湖表到 Redshift 数据共享

在本文中,我们描述了如何将数据湖表或视图添加到 Redshift 数据共享,包括以下两个关键用例:

通过Amazon Redshift数据共享释放更深层次的洞察力,适用于数据湖表 大数据博客向生产者数据共享添加引用数据湖表的晚绑定视图或物化视图将数据湖表直接添加到生产者数据共享

第一种用例提供了更大的灵活性和便利性。消费者可以查询共享的视图,而无须配置细粒度的权限。而配置如在 Amazon S3 中定义权限的工作是由生产者侧完成的。这种方法的另一个好处是,你可以添加视图到数据共享中,连接数据湖表和本地 Redshift 表。当这些视图共享时,你可以将信任的业务逻辑完全保留在生产者一侧。

将引用数据湖表的视图添加到 Redshift 数据共享

创建你希望添加到数据共享的数据湖表时,推荐最常见的方法是添加一个引用数据湖表或表的视图到数据共享中。具体步骤如下:

将 Redshift 视图的模式本地模式添加到 Redshift 数据共享中。将 Redshift 视图本地视图添加到 Redshift 数据共享中。将引用 Redshift 视图的 Redshift 外部模式添加到 Redshift 数据共享中。

在此流程中,第一步是在数据共享生产者上创建数据湖表。要获取有关创建 Redshift Spectrum 对象的更多信息,请参阅Amazon Redshift Spectrum 的外部模式。需要共享的数据湖表可以包括注册在 Lake Formation 中的表和数据目录表。

依此流程继续,消费者可以通过书写 SQL 查询引用他们的共享视图,从而提高了数据使用的灵活性。

结论

在本文中,我们探讨了 Amazon Redshift 增强的数据共享能力,包括支持共享数据湖表和引用这些数据湖表的 Redshift 视图,这使得组织能够通过全面掌握数据资产的潜力来推动先进分析的实现。现在,组织可以无缝地跨仓库、账户和区域分享本地表和数据湖表。

如需进一步的信息,请参考以下资源:

Amazon Redshift 数据共享分享写入数据的访问预览

请随时联系你的 AWS 技术账户经理或 AWS 解决方案架构师,他们会很高兴提供额外的指导和支持。