当前,千行百业的数字化转型迈向深水区,对算力服务提出了更高要求。随着流量的持续增长与交互方式的转变,在云计算、人工智能等技术带动下,终端用户对于网络内容反应速率要求提升,CDN作为互联网基础设施的重要性进一步凸显。
2023年12月,由众视Tech、亚太CDN产业联盟、全球分布式云联盟承办的数智中国科技周·亚太内容分发大会暨CDN峰会在深圳广播电影电视集团一楼演播厅召开,来自火山引擎、腾讯云、中兴通讯、浪潮云等领域的专家、学者和业界同仁,共同探讨CDN技术的最新发展和应用,推动行业的创新和合作。
12月19日,数智中国科技周·亚太内容分发大会暨CDN峰会·深圳站顺利召开,火山引擎边缘云-多云CDN高级产品经理徐才在本次大会CDN创新论坛发表题为《火山引擎多云CDN应用实践-助力CDN管理降本增效》的精彩演讲。
演讲内容
近年来随着CDN行业的不断发展,行业主流供应商从最开始的两到三家发展至今,获得工信部颁发的CDN许可证企业已超过4400多家,行业可谓百花齐放,产品供给与竞争都十分激烈。与此同时也可以看到一个现象,越来越多企业客户在选择CDN或者是其他云产品时不再绑定在单一的服务商,而是选择多云服务商,以多云的架构满足企业的业务发展。
据近期火山引擎企业调研的结果显示,中国有88%的企业使用多云,造成这一现象的原因比较复杂,既有业务形态与成本管控的原因,也有容量需求与监管要求的原因,但对企业而言,必须有能力能解决好这一分布式多云体系带来的相关挑战。
1、在CDN管理场景,从之前的单家厂商提供整体服务变为多家厂商的状态,运维复杂度不断提升,以前一家厂商就能完成的操作,比如配置、证书、刷新、预热等工作,现在需要重复进行;
2、在质量上,厂商一多,其质量问题触发点会随之扩大,如何通过统一的评测和监控提升SLO的水平,往往需要大量精力和人力的投入,也需要非常长的时间积累;
3、在成本方面,以前一家厂商,主要看商务价格就可以,但现在随着多家厂商共同服务,不同厂商分量的模型、调度的策略对最后的成本也会产生比较大的影响,往往难以确定最优的分量模型和成本控制的方法;
4、最后在运营方面,不同厂商的价格、质量、服务、功能有差异,如何通过量化精细的综合评估提升运营精细化水平,往往也需要通过长期的实践才能建立完善的体系。
这些痛点也是字节跳动长期CDN管理过程中思考、解决的问题。字节跳动成立11多年,整个业务规模快速增长,到现在已经是数百Tbps带宽的规模,加速范围也从国内扩展到全球。CDN作为承载整个字节跳动核心流量的基础设施,累计引入了30多家服务商提供服务,并为此投入数十人的团队解决厂商接入过程中相关的问题,如配置异构、数据集成、安全管控等。对应要满足的是CDN管理上极高的要求,比如在成本上,每年数亿元CDN成本支出的节约,在性能和稳定性上极高的SLO目标;在效率上,减少日常基础运维工作上的人力投入,实现人效的翻倍提升;在运营上,建立完善的量化指标体系,实现精细化的考评与厂商快速的准入、准出机制。
火山引擎多云CDN产品方案
基于字节跳动长期CDN管理实践的积累和系统化构建,火山引擎边缘云打磨出多云CDN这一SaaS产品,为行业面临同样问题的客户提供具体的解决方案。它是多云架构下的CDN运维管理解决方案,提供对不同CDN云服务商资源的统一管理、流量调度与智能运维服务,解决多云CDN场景下的效率、容灾、质量、成本等管理难题。
围绕多云CDN业务的全链路全流程的管理,产品在多云流量调度、多云运维监控、服务管理平台、多云数据数据分析等方面提供对应的功能服务。
从产品架构上可以看到,在最下面的统一接入层,通过对接各家厂商API能力并进行相关的异构和标准化处理,实现各厂商的快速接入。在数据上进行数据的采集和处理,实现融合的数据分析。
在中间层构建了集中的模块化功能,包括像调度中心、成本中心、数据中心、运维监控、加速管理、服务商管理等。
调度上支持不同调度策略及调度方式;成本上提供成本洞察、成本对账、成本分摊等基本能力;数据上能够把各家数据做统一的集成,实现同一个平面上的实时分析,多维度分析能力;运营监控上通过一键告警巡检及时发现业务质量问题;加速管理主要是解决日常运维配置方面配管效率;服务商管理方面,提供服务商的评测,云账号的管理、产品管理等。此外还有应用中心,提供多云拨测、多云证书等在CDN运维场景中的常用功能。
用户在控制台一键开通即可获得相应能力,同时也支持API交付;未来也将推出更多的功能,如基于AI提供智能诊断分析等能力。
相比于常规的云管理平台工具,多云CDN有较多优势特点。聚焦在CDN产品域实现统一管理提升运维效率,打破信息孤岛;全面覆盖支持主流CDN云服务商的接入;安全管控上,在业务、账号等方面都有对应的精细化的权限管理控制;数据融合上提供全网数据统一的标准;全球调度也支持精准、灵活、多种策略的调度方式;在容灾上,通过主动的监控,能够实现快速的故障发现,实现秒级的容灾切换;智能运维上提供了对CDN常见问题的根因分析能力;同时通过成本洞察、预测、优化,提供完善的成本管理能力。
多云CDN管理最佳实践
首先是一站式提升CDN运维效率,这是在多云管理中首先面临的问题。多云CDN相比于单云CDN,最直接的变化是加速域名同时在多家,以往只需在一家进行的域名配置、刷新预热、数据分析、告警监控等,需要在多家CDN厂商重复再来几遍,加上配置比对、数据整理等工作,往往带来运维时间精力多倍的增加,而这些重复性的工作对业务价值并不高。
此时,最有效的方式,还是通过系统化平台实现统一管理,在一个平面上纳管各家不同的CDN资源。所以在火山引擎多云CDN通过对账号、资源、数据等聚合,来实现一站式的管理,日常的数据的报表、证书的更新、配置的部署等都可以在平台上一站完成。
效率问题解决其实只是一个最基础的一步,引入多云更多的考虑还是能够提升整体业务的可用性,避免像以前使用单一厂商时,一旦发现某一家厂商故障,就只能干等着它恢复,无计可施,这种情况主要就是引入多家CDN服务商,能够在故障发生时进行切换,提升整体可用性。
这种情况下一种做法是一个域名在多家厂商配置,常规的流量只在一家上做加速,其他厂商只做备份。但这种情况有一些问题,比如说当发现某家厂商异常的时候要做切换,另外一家厂商可能会因为之前没有缓存,造成“回源”的突增并导致一些业务质量的受损。另外在这个过程中从问题定位到人工切换,过程耗时较长,业务已经受影响了比较长时间。
因此在容灾方面,需要细粒度、智能化的流量调度能力,来满足容灾切换的场景。多云CDN通过全球分布的云拨测节点,进行实时拨测、主动告警,当告警触发后,通过预配置的策略进行智能切换,保障业务及时恢复。通过这样的机制实现了字节跳动内部众多业务,以及客户业务,整体业务可用性的提升。
容灾解决的是可用性的问题,日常运维中关注的还有业务质量。在多云CDN场景下,质量和稳定性的提升其实是需要全流程的解决方案。在稳定性体系建设中,主要围绕SLO目标,最小化故障发现、故障响应、确认、止损时间。在故障恢复之后,通常也需进行故障的取证和影响分析,并对整个故障进行复盘,沉淀相应的运维经验。
CDN作为成本部门经常面临较多成本管理相关工作。在单一CDN厂商时,日常运营工作较简单,厂商也能提供分账能力。但在多云场景下,内部账单分摊并不是直接对账单加和就可以,而是涉及到更复杂的分摊的逻辑和算法,需要能够提供更准确公平的分摊机制。同时在成本优化方面,在多云体系下,有更多的成本优化手段和策略。
客户服务案例
多云CDN从今年4月份正式发布以来目前已经有较多客户使用了该产品并起到了很多的效果,这里介绍几个我们服务不同行业的案例。
第一个是游戏客户,主要是为全球玩家提供精品的IP游戏,游戏公司的特点比较典型,以工作室的方式运营,所以游戏工作室多,开发合作商多,管理的账号自然就多了。
日常人工管理效率比较低,同时带来一些风险,比如出现一些人员变动时出现账号权限调整不及时等隐患。游戏经常需要做些更新,会有非常多需要刷新、预热的资源,通过人工的方式容易出现遗漏。此外,多厂商的模式下,配置一次性的维护难度比较大,容易产生业务风险。
客户通过使用多云CDN实现平台化统一管理,收敛权限,所有云厂商的账号在平台上统一维护、内部的账号在平台上统一做权限的划分,避免整个权限失控的情况;多云CDN的一键刷新预热能力,帮助客户在源站内容更新后自动全网刷新预热,将客户平时需要手动处理的时间节省下来。通过监控巡检的功能实现配置差异的对比,有效的监控能够帮助发现风险隐患。
另一个客户是互联网科技公司,主要是提供一些移动支付的业务,客户对稳定性非常看重,引入了多家CDN服务。但新增厂商可能会使日常的运维投入增加,本身质量的监控手段在比较简单的情况下厂商越多,质量问题来源越广。此外,不同厂商间的调度切换,通过传统方式实效性比较差。
客户在使用多云CDN后,资源全部接入多云CDN统一管理,不仅没有增加整个运维人力的耗时,容灾监控与切换经常能够帮助客户发现一些区域性的问题,及时做调整,让客户更加放心的使用多云模式。
第三个是在线教育公司案例,客户日常会有较多数据分析的工作,期望能够提供统一的数据分析能力。通过多云CDN数据分析的功能,为客户提供多维度的数据分析,帮助客户大大减少日常的工作量。
最后是一个云服务公司的客户案例。
客户成立于2022年,成立的时间比较晚,在这个阶段客户更期望能够轻量化的运营自己的业务,所以提供CDN服务时主要采用融合CDN的方式,通过采用其他云厂商的资源提供给他服务的客户。
在这种情况下CDN是公司非常大的成本支出项,如何把引入进来的客户带宽做合理的调配,实现在CDN用量支出层面尽可能的节约,是影响公司长期发展非常关键的问题,所以客户对整个成本的分析能力非常看重。客户通过多云CDN成本洞察能够实现整体用量的实时跟踪,为调度决策提供相应的决策依据;多云CDN智能调度通过分时段的调度方式帮助客户在现有计费方式下实现综合的成本节约。
徐才在演讲最后表示,接下来的火山引擎多云CDN会持续做更多功能的快速迭代,期待有更多合作伙伴能够一起探索、解决多云CDN运维管理过程中的问题与挑战,欢迎大家后续通过微信公众号、飞书交流群作进一步的交流。