Google Cloud 提供了广泛的服务来运行数据和分析工作负载,这可能意味着在为您的特定用例选择正确的工具时需要筛选大量信息。每个工作负载都需要一组独特的服务,从数据摄取和处理到存储、治理和编排。为了简化决策过程,谷歌开发了一个方便的决策树,为根据您的特定需求研究和选择最佳服务提供了路线图。

Google Cloud 上数据和分析工作负载的决策树。

在这篇文章中,我们将详细介绍每个工作负载领域以及如何选择合适的 Google Cloud 服务来匹配。

数据摄取

任何数据和分析工作流程的第一步都是将数据输入您的系统。数据摄取可以是作为迁移一部分的首次批量加载,也可以是工作负载启动并运行后的常规摄取需求。根据您获取的数据类型及其来源,您可能需要使用不同的服务。

如果您需要在数据到达时对其进行处理和分析,Pub/Sub 是理想的选择。Pub/Sub 是一项完全托管的消息传递服务,专为实时数据提取而设计,可直接与谷歌的数据处理服务(包括 BigQuery)集成。

对于批量数据摄取,有多种选项可供选择:

·Cloud Storage:将数据导入 Google Cloud 的一种非常方便的方法是使用对象存储桶。您可以使用命令行工具 gsutil,它可以优化从客户端或其他存储桶到 Cloud Storage 存储桶的数据移动,同时最大限度地提高并行度。
·Storage Transfer Service:如果您要从本地或其他云传输大量数据,则可以使用存储传输服务。
·Transfer Appliance:如果您需要通过低带宽传输大量本地数据,Transfer Appliance 使用您运送到 Google Cloud 的物理设备提供了更安全、更高效的选项。
·BigQuery Transfer Service:如果您专门将数据从 SaaS 或第三方应用提取到 BigQuery 数据仓库中,则可以使用 BigQuery Transfer Service,它为流行数据源提供预构建的连接器,以及调度、监控和管理功能。
·Dataflow:借助 Dataflow,您可以可靠地管理数千个源中的大型、复杂和参数化数据摄取,作为其综合数据处理服务的一部分。
·Dataproc:您还可以使用 Dataproc,这是一项完全托管的 Hadoop/Spark 服务,100% 开源。Dataproc 使您能够通过由 Dataproc Serverless 提供支持的现成可配置模板从本地或其他云获取数据。
·Data Fusion:数据融合使您能够通过 150 多个连接器使用点击式界面摄取批量数据(并且还可以进行无代码分析!)。

数据处理

获取原始数据后,您可能需要对其进行处理以使其成为更可用的形式。数据处理可以包括清理、过滤、聚合和转换数据等活动,以使其更易于访问、组织和理解。您为此使用的具体 Google Cloud 工具取决于您希望在何处以及如何处理数据以存储在数据湖、数据库和数据仓库中。

·Dataflow:要使用 Apache Beam 和 Java、Python 和 Go 等编程语言进行批处理和流数据处理的完全托管、无服务器、可扩展且可靠的服务,请前往 Dataflow。
·Dataproc:对于 Apache Hadoop/Spark 工作负载,您可以使用 Dataproc 来处理以不同文件格式存储的大量数据,包括 Delta、Iceberg 或 Hudi 等表格式。
·Data Fusion:如果需要无代码处理,可以使用数据融合,它支持多种转换任务。
·BigQuery:如果您的工作负载可以通过基于 SQL 的 ELT 处理进行管理,您就可以从 BigQuery 的价格与性能优势中受益,BigQuery 是一个无服务器、高度可扩展且经济高效的云数据仓库。
·Cloud Data Loss Prevention:云 DLP 是一项完全托管的服务,可帮助您发现、分类和保护敏感数据。作为数据处理管道的一部分,它可以在迁移、数据工作负载以及实时数据收集和处理中部署去标识化。

数据存储

接下来,是时候安全有效地存储数据,以便在商业智能或机器学习等下游应用程序中轻松访问、分析和使用数据。在 Google Cloud 中存储数据有多种选项,您选择的具体服务将取决于您的使用案例。以下是一些专注于数据和分析工作负载存储的内容:

·Cloud Storage:数据湖存储的一个很好的起点是云存储:一种可扩展、持久且高度可用的对象存储服务,用于存储各种数据,包括结构化、半结构化和非结构化数据。它提供双区域存储,提供低延迟冗余,无需手动复制,并在需要时管理故障转移。
·BigQuery:对于结构化或半结构化(原生 JSON 类型、嵌套字段)数据,将其存储在 BigQuery 中并访问超快速的 SQL 分析。
·Filestore:如果您的用例需要特别高性能和低延迟,例如 I/O 驱动的分析训练工作负载,请考虑使用 Filestore。
·由于您的数据可能存储在 BigQuery、Cloud Storage 甚至其他云中,因此使用 BigLake 统一数据并使其可访问非常重要。BigLake 是一种数据访问引擎,使您能够跨数据湖和数据仓库统一、管理和分析数据。它提供了更高的性能,并允许额外级别的治理和(列级和行级)安全性。

治理

对于公司来说,建立数据管理指南和最佳实践以确保数据准确、一致、受保护且符合法规变得越来越重要。数据治理可以包括数据编目、数据沿袭、数据质量管理、PII 识别和数据访问控制等活动。

Dataplex 可帮助您完成这些任务,并集中管理 Google Cloud 及其他区域中的数据湖、数据仓库和数据集市。在 Dataplex 中,您可以使用完全托管的元数据存储库 Data Catalog 来帮助您发现、理解和丰富数据。

您还会发现直接内置于 Google Cloud 产品中的治理相关功能。例如,BigQuery 支持客户管理的加密密钥 (CMEK) 以及列级和行级安全性。此功能通过 BigLake 表扩展到对象存储。

编排

最后,您需要使用编排来协调和管理工作流程的各个组件。编排可以包括定义管道、调度数据处理作业以及监控数据管道,以确保及时有效地处理数据。

Google Cloud 提供两种编排服务:

·Composer:您可以使用与上述数据处理选项集成的完全托管的 Airflow 服务来编写、计划和监控数据管道。
·Dataform:如果您想使用 SQL 构建和管理 ETL/ELT 数据管道,Dataform 允许您在 BigQuery 中开发和实施可扩展的数据转换管道。

数据消耗

数据工作流程就位后,您就可以将数据带到下一步!

·想要执行快速 SQL 分析吗?前往 BigQuery。
·想要在不移动数据的情况下安全地大规模共享数据和见解吗?使用Analytics Hub。
·想要可视化数据或创建用于报告的仪表板?Looker Studio 是一款强大且直观的 BI 工具。
·想要利用您的数据开发自定义机器学习模型吗?让 Vertex AI 端到端地统一您的机器学习工作流程。

返回全部