您还未登录! 登录 | 注册 | 帮助  

您的位置: 首页 > 软件开发专栏 > 云计算 > 正文

2022年六个要避免的云成本优化问题以及应对方式

发表于:2022-02-09 作者:李睿 来源:51cto

译者 | 李睿

审校 | 孙淑娟 梁策

每到岁末年初,企业或组织都会为未来一年的发展制定计划,例如扩展业务规模或降低云成本。

降低云成本已经连续五年被列为企业业务运营的首要举措。根据调研机构发布的2021年云状况调查报告,60%以上的企业计划优化其云成本。

那么到底出了什么问题,为什么有那么多工程团队在云成本优化方面陷入困境?

以下将介绍一些最常见的导致云计算资源、时间和资金浪费的问题,并找出行之有效的解决方案。

为什么云成本优化如此具有挑战性?

公共云为按使用付费模式,这为工程团队带来了更多的自由,但这种自由也有代价。它可能会像Pinterest等公司的云计算账单所证明的那样数额惊人。

研究表示,大多数企业都在努力应对不断增长的云成本。通常来看,公共云支出平均超出了预算24%。

云支出超出预算的原因有很多。这些问题通常归结为低成本可见性、复杂的云定价以及估计未来需求的问题。所有这些问题都可能会让企业的预算和支出“蒙上阴云”。

采用云计算服务不能完全帮助企业降低成本,而高昂的云成本账单可能会令人生畏。

企业在2022年需要解决的6大云成本优化问题

1.仍受预留和省钱方案(Saving Plans)的诱惑

在考虑节省云计算服务成本时,企业首先想到的是为使用的云计算服务支付更少的费用。企业之所以选择预留或省钱方案,是因为与按需定价模式相比,它们能够获得很大的折扣。而为貌似可预测的云支出预留听起来也挺有道理。

但如果仔细观察就会发现,企业并没有解决问题,只是在成本上获得了些折扣而已。

(1)那么问题出在哪里?

不知人们是否记得,Pinterest曾提前投入1.7亿美元在亚马逊AWS云计算服务上,但随后又不得不再拿2000万美元购买额外资源。

该公司的故事有助于说明一个事实,想知道从现在起一到三年内需要多少容量非常困难。

企业如果长期选择单个供应商服务,其业务也可能会失去灵活性,并不得不为一直变化的需求付出高昂代价。

(2)那省钱方案怎么办呢?

最好的解决方案是完全不选用这种方式。不去提前购买资源,而是考虑怎样解决云计算支出,例如:

  • 调整规模
  • 自动缩放
  • 打包
  • 资源调度

2.陷入过度配置的陷阱

当企业团队选择的资源多于运行工作负载实际所需的资源时,就会发生过度配置。这背后通常是防患于未然的心理引发,因为没人希望应用程序运行受到干扰。

在某些业务设置中,企业的团队习惯获取比工作负载所需更多的资源,“以防万一”。尽管这种方式在提高性能方面对工程师来说具有意义,但会造成云计算浪费和成本提高。

(1)过度配置有什么问题?

简单来说,就会导致云计算浪费以及不必要甚至可能失控的开支。

从长远来看,团队养成过度配置的习惯不是好事。如果只是为了安全考虑而习惯选择大于工作负载所需的实例,那么随着企业和应用程序规模扩张,这种方式将疲于应对,企业将面临一项耗资巨大的账单。

把这笔钱花在更重要的事情上不是更好吗?比如,投入到应对气候危机上去,过度配置恰恰在为气候危机加剧推波助澜。

(2)如何处理过度配置?

通常的做法是投资定制监控和成本管理解决方案。他们对配置规模的调整建议可以帮助企业减少对过度配置资源的依赖,但仍需人工执行。

另一个解决方案是采用自动化解决方案。自动规模调整可以选择最合适的实例类型和大小,在满足应用程序要求的同时降低成本。

每当集群需要额外的节点时,人工智能驱动的实例选择算法就会选择能够实现最高性能的资源。更好的一方面是,团队无需自已动手,因为这一切都是自动进行的。

由于过度配置与许多企业的文化盘根错节,因此必须建立成本优化例程以平衡性能、可靠性和成本。在实现更广泛的企业变革的道路上,自动化可能是向前迈出的重要一步。

3.被孤立的云计算资源困扰

为项目启动一个实例,然后忘记关闭它很容易发生。因此,许多团队都在努力处理没有所有权但仍会继续产生成本的孤立实例。

还记得Adobe公司每天被收取8万美元Azure云平台计划外费用的失误吗?这是企业肯定要避免的问题。

在大型企业中,因为许多计划同时进行,没有集中的资源可见性,这一问题尤其严重。

在IT部门之外和IT部门不知情的情况下管理的计划(影子IT)可能占到企业所有IT支出的40%。此外,研究表明,影子云的使用量可能是已知云服务使用量的10倍。

(1)孤立的云计算资源有什么问题?

孤立的云计算资源代表着资金流失,具有复杂的可持续性影响。

简而言之,数据中心采用大量硬件,并消耗了大量电力,使得整个信息与通信技术行业的碳足迹增加显著。他们需要的能源每四年翻一番,而AWS或Azure等云计算供应商每个新开放的区域都会导致这个问题。

这就是为什么减少云计算浪费是减少不必要支出和相关碳足迹的关键。

(2)如何应对这一挑战?

确保只运行真正需要的资源可能极具挑战性,尤其是在大型企业中。但是,企业如何识别和淘汰未使用的实例?这就是自动化再次发挥作用的地方。

自动化的云优化解决方案可以不断扫描其使用情况,找出效率低的情况,并尽可能减少使用资源。这些方案还可以关闭未使用的实例和进程,以降低企业的云成本。

4.低效管理需求的下降和激增

构建电子商务基础设施的工程师非常了解变化之速度。例如,一位具有影响力的人物在一夜之间就可能带来数百万的销售额,一个网站也可以因流量激增而瘫痪。

随着时间的推移,大多数其他应用程序的使用情况也会发生变化,但在费用和性能之间取得平衡仍然是一个持续的难题。

(1)这有什么问题?

如果企业将标签页保持打开状态,流量激增可能会产生大量且无法预料的云计算账单,或者如果对其资源进行严格限制,则会导致应用程序崩溃。

当需求低时,企业将面临支付成本过高的风险。当需求很高时,企业为客户提供的服务质量可能很差。

企业可以采用云成本管理解决方案监控其使用情况,如果超过设定的水平或有任何异常情况,将会实时提醒。此类工具可以为企业提供有用的建议,帮助企业根据当前需求调整云资源。

但是,人工扩展云容量既困难又耗时。

除了跟踪系统中发生的一切,企业通常还需要注意:

  • 流畅地处理流量高峰和下降——并在其使用的所有服务中为每个虚拟机向上和向下扩展资源;
  • 确保应用于一个工作负载的更改不会对其他工作负载造成任何问题;
  • 自行配置和管理资源组,以确保它们包含适合其工作负载的资源。

(2)如何解决这个问题?

这是云计算自动化可以发挥作用的另一个领域,帮助企业节省大量时间和费用。自动扩展可以自动处理上面列出的所有任务,并控制云成本。如果企业使用容器编排器Kubernetes,可以从三个内置机制中受益。

  • Horizontal Pod Auto-Scaler(HPA)添加或删除pod副本,以匹配应用程序不断变化的使用情况。它监视企业的应用程序以了解其副本的数量是否应该更改,并计算删除或添加它们是否会使当前值更接近目标。
  • Vertical Pod Auto-Scaler(VPA)增加和减少CPU和内存资源请求,以更好地使企业分配的集群资源与实际使用情况保持一致。
  • Cluster Auto-Scaler在支持的平台上更改集群中的节点数。如果它识别出一个节点的pod可以重新调度到集群中其他节点,那么它就会把这些pod逐出并移除备用节点。

在许多解决方案中,企业只需要定义水平自动缩放和垂直自动缩放策略,自主优化工具将为其处理其余部分。

5.没有利用抢占式(Spot)实例的机会

云计算服务提供商以更低的价格出售其未使用的容量,尤其是将成本与他们的常规按需报价进行比较的时候。

在AWS云平台中,抢占式实例最高可享受90%的折扣。

(1)抢占式实例有什么难处?

由于企业竞标备用计算资源,因此永远不知道这些容量能保持多久可用。有些抢占式实例具有预置的持续时间;例如,AWS提供了一种类型,可为企业提供长达6小时的不间断时间保证。

但除此之外,供应商可以回收企业正在使用的抢占式实例,在30秒到2分钟内给你通知。

但人类无法在这么短时间内做出反应。创建一个新的虚拟机也需要比这时间更长,所以将面临潜在的停机风险。

这就是为什么如果你决定使用抢占式实例,你必须要接受中断一定会发生的事实。对于关键或无法容忍这一情况的工作负载,它们显然不是正确的选择。

(2)如何应对这一挑战?

尽管存在风险,但抢占式实例对那些无状态且可以横向扩展的服务(即具有多个副本)非常适合。幸运的是,现代架构中的大多数服务都是无状态的,因为Kubernetes就是为这种类型的设置而设计的。

使用抢占式实例的过程如下所示:

①需要确定工作负载以及它处理中断的能力。

②检查供应商提供的实例,并选择最适合需求的实例。一个经验是选择不太受欢迎的实例,并检查它们的中断频率。

③此时战略性地设置最高出价,以避免价格上涨时可能出现的中断。

④企业可能还需要考虑分组管理抢占式实例,并请求多种类型以增加获得它们的机会。

企业可以人工完成这些步骤,但要使这一切正常进行,需要为大量配置、设置和维护任务做好准备。

自动化此时再次派上用场,除了上述过程之外,当企业需要的抢占式实例暂时不可用时,自动化解决方案可以立即提供帮助。

6.采用自动云优化延迟

本文提到了自动化云优化,这是有原因的。

如果企业已经采用云原生技术,正在运行Kubernetes,甚至可能使用现代DevOps方法——自动化这部分基础设施绝对是一个好主意。

德勤公司将云计算自动化列为2021年及以后的首要趋势之一,尤其是在大型企业环境中,它为IT团队带来了切实的成果。

首先,它减少了企业在配置虚拟机、创建集群、选择正确资源等方面所需的人工工作。这一变化节省了时间,让企业的工程师可以专注于更重要的任务、进行创新并充分利用其云计算基础设施。

更重要的是,自动化工具允许更频繁的更新,这是持续部署理念的关键。它还降低了人为错误的可能性,降低了运营基础设施的成本,提高了系统的安全性和弹性,并增强了备份流程。

最后,自动化使企业能够了解其正在使用的资源,否则这些资源将难以控制。

简而言之,云计算自动化已经成为科技行业的新常态。

(1)延迟云计算自动化有什么问题?

既然云计算自动化有那么多毋庸置疑的好处,且其势不可挡,那么为什么企业不这么做呢?

自动化可能带来许多挑战,比如对新解决方案的抵触,对实施成本过高的担忧,再到需要更新现有流程的问题。

与大多数数字化转型项目一样,成功的关键在于人,企业需要在人员的层面上鼓励变革。而当涉及工作时,麦肯锡公司的研究证明,员工普遍担心被技术取代。

然而,自动化带来的优势远大于风险。例如,这一点在2021年DevOps状况调查报告中表现得很明显,有97%的受访企业认为自动化提高了他们的工作质量。

在2022年延迟云计算自动化等于错过了以下好处:

  • 为企业的应用选择最有效的实例类型和大小;
  • 自动扩展云资源以应对需求高峰和下降;
  • 消除未使用资源以降低成本;
  • 通过管理潜在中断来优化抢占式实例;
  • 减少其他领域的不必要开支,例如存储、备份、安全、配置更改等——所有这些都是实时的,而且成本只是企业人工实施的一小部分。

(2)如何解决这个挑战?

克服人对变革和全新解决方案的抵触问题由来已久。自动化云优化能让团队从重复性任务的负担中解脱,但仅告知团队这一点可能还不够。所以也希望有更多的企业能在2022年采用自动化云优化,并享受到它带来的好处。

原文标题:6 Top Cloud Cost Optimization Issues To Avoid in 2022 and How To Deal With Them,作者:Laurent Gil