Autopilot 重大升级—— GKE 的默认操作模式

为了解决 Kubernetes 操作门槛的难题，谷歌云在2021年推出了 Google Kubernetes Engine（GKE）的 Autopilot 模式。Autopilot 是一种集群操作模式，将 Kubernetes 交到普通人手中。而今 Autopilot 获得了重大晋升——它现在是 GKE 集群操作的默认和推荐模式，在集群创建界面中正式推出。

为什么推荐 Autopilot？

简而言之，我们认为 Autopilot 是大多数 Kubernetes 用例的最佳集群模式。

在本博客文章中，我们将从为客户提供价值的角度解释为什么 Autopilot 是推荐的操作模式。

Autopilot 在以下方面提供了改进：

更快的上市时间
始终保持可靠性
改善安全态势
Kubernetes 的总拥有成本 (TCO) 最低

让我们更深入地了解这些好处中的每一个。

更快的上市时间

GKE Autopilot 简化了 Kubernetes 操作和开发人员的影响，从而实现更快的构建和部署。最近 Forrester Research 分析了使用 Autopilot 的公司，并得出结论，开发人员的生产力提高了45%。使用 Autopilot 的团队能够专注于创造业务价值的活动，而将不同的 Kubernetes 操作繁琐工作留给 Google。

具体来说，Autopilot 通过 compute classes 简化了消费模型，允许开发人员在工作负载定义（podSpec）中直接配置各种资源和 CPU 平台。平台团队可以放心地将这些工作留给开发人员，因为 Autopilot 会自动启动所需的基础设施，并配置所需的污点和容忍度。

无需深入了解 Kubernetes 集群管理专业知识：不那么有经验的团队也能够轻松操作 Autopilot。Autopilot 集群使用合适的默认配置进行配置，适用于大多数生产用例。这极大地降低了 Kubernetes 的学习曲线，使新手客户能够自信地采用它。与竞争平台相比，Autopilot 客户能够将容器化应用程序部署快2.6倍。

Day 2 操作的开销减少：为你管理 Kubernetes 节点池和节点。请花一分钟思考：节点的配置、扩展、维护和安全性都由 Google SRE 为你处理。节点仍然存在于你的项目中，但你无需担心管理它们。

始终保持可靠性

由 Google SRE 支持的工作负载 SLA：除了 GKE 标准模式提供的令人惊叹的 SLA 外，Autopilot 模式还提供了由 Google SRE 支持的 pod（工作负载）级别 SLA。Google 监视整个 Autopilot 集群控制平面、工作节点和核心 Kubernetes 系统组件，并确保你的 pod 始终按计划运行。

自动配置和扩展：通过针对你的工作负载进行优化，Autopilot 自动配置你的工作负载所需的正确资源，因此你无需确定节点的大小和形状。然后，Autopilot 使用你已经熟悉和喜爱的 Kubernetes 工具（如 HPA 和 VPA）扩展工作负载以满足需求。

灵活的维护选项：你保留使用维护窗口和排除...和如何进行节点维护，以避免不适时的中断。

这一切都会为你的工作负载带来更长的正常运行时间和更好的结果。至关重要的是，我们在 Autopilot 上看到了更好的集群和节点健康状况。

改善安全态势

面对现实，Kubernetes 安全性很难确保。平台团队经常花费大量时间创建安全的开发环境。Autopilot 提供了一个安全性为重点的 Kubernetes 版本，具有合理的默认安全设置。这减少了可能的攻击面，最小化了 CVE 和配置错误的影响。

加固的默认集群配置：Autopilot 开箱即用，具有强大的安全最佳实践。这包括许多 Google 在“加固集群安全性”中推荐的做法。

虽然节点是可见的，但工作负载或用户不允许特权访问。在 Kubernetes 上，几乎没有合法的使用情况需要对节点和特权容器进行 root 访问。Autopilot 从一开始就强制执行此规定，同时为允许列出的合作伙伴工作负载提供例外。

屏蔽节点：默认情况下使用 GKE Autopilot，屏蔽节点提供强大的、可验证的节点身份和完整性，以提高 GKE 节点的安全性。

工作负载身份：Autopilot 提供开箱即用的工作负载身份，这是让在 GKE 上运行的工作负载以安全且可管理的方式访问 Google Cloud 服务的推荐方式。

单租户：为了满足治理要求，Autopilot 提供的节点保留在你的项目权限内，确保遵守治理限制，同时提供比多租户架构更大的灵活性。

最低的 Kubernetes TCO

使用传统的托管 Kubernetes，无论利用率如何，你都需要为所有配置的基础设施付费。大多数客户过度配置集群以进行扩展，并且没有有效地“装箱”节点。这一切都会导致你为未使用的基础设施付费。

使用 Autopilot，你只需为使用的部分付费（Pod 定价）。计费基于 podSpec 中的资源请求，不会产生其他基础设施成本。这完全消除了低效装箱的风险！

利用率最大化：传统的托管 Kubernetes 在每个节点上为系统工作负载保留资源，客户仍然需要为此付费。Autopilot 还消除了这种浪费，因为你只需为工作负载资源请求付费，而不是为整个底层 VM 基础架构付费。

降低运营成本：请记住，除了标准模式提供的现有托管控制平面和系统资源之外，Google 还围绕节点配置、扩展和维护进行繁重的第 0 天和第 2 天操作。在开始使用 Autopilot 时，你的团队在特定 Kubernetes 专业知识方面的需求也少得多。

Kubernetes 成本优化通常需要持续努力，因为工作负载流失会在“装箱”中引入碎片。使用 Autopilot，你不再负责装箱，因此也消除了与装箱相关的人工开销。

据 Forrester Research 称，使用 Autopilot 的团队最多可节省 85% 的运营成本。

我可以使用 Autopilot 做什么？

简而言之，几乎任何东西。

GKE Autopilot 从一开始就有一个指导原则：Autopilot is GKE。这意味着做出的每个设计决策都确保 Autopilot 不会偏离 Kubernetes 规范或偏离 GKE 本身。因此，Autopilot 与 Kubernetes 兼容并支持大多数 Kubernetes 工作负载，包括 StatefulSets（带有块存储设备）、DaemonSets（包括来自 Palo Alto Networks、DataDog、Sysdig 等的主要合作伙伴工作负载）以及用于 AI/ML 工作负载的 GPU。它还支持运行工作负载所需的所有好东西，例如 Anthos Service Mesh、IP 伪装、二进制授权、OPA/Gatekeeper、策略控制器、变异网络钩子、Google Managed Prometheus、网络标签等等。

返回全部