「腾讯云」王淼:对象存储内容分发应用—数据处理实践

2021-06-18 17:17:51来源: 热度:
亚太内容分发大会暨CDN峰会一直致力于推动CDN产业深度融合发展和市场普及,现已成为亚太地区影响力最大的内容分发网络盛会。十年来,在以腾讯云、阿里云、网宿科技等亚太CDN产业联盟成员孜孜不辍的努力下,CDN产业已经成为基础性设施网络,以坚定的基石之姿,支撑起中国成为世界最大的互联网市场。

随着全球数字化、“一带一路”战略的推进,亚太内容分大会暨CDN峰会的影响力正在逐渐向全球延伸,同时也将中国智造CDN及产业链推广向全球每一个角落。

近年来,腾讯云深耕对象存储领域,以技术创新屡次将存储领域推上更高台阶,荣膺亚太内容分发大会对象存储领导力奖。在6月10日下午举办的【对象存储论坛】上,腾讯云存储技术总监 王淼发表了题为《对象存储内容分发应用:数据处理实践》的精彩演讲。

近年来,数据每年以超过30%-40%的速度爆发式增长,对于企业而言如何低成本高效的利用好数据就成为了挑战。数据湖作为一个以原始数据格式为存储的系统,为数据分析、数据处理、机器学习等提供了极大的便利,而云的扩展性、高性能、支持地域的广泛性、以及云上所提供的丰富的数据处理和分析能力,都使其成为数据湖理想的载体。

从对象存储数据治理生态全景图中可以看到,除了对象存储标准接口之外,还可以通过消息队列、结构化存储系统、视频流等多种数据源,将数据快速方便地入湖,湖上也提供了丰富的数据处理和分析能力,消除数据孤岛,实现计算存储分离,由于部署及架构等原因,在业务实践中也遇到了不少挑战:主要体现在IO性能,目录操作以及存算分离需要的大带宽上,针对这些问题,腾讯云对象存储作为数据湖的底座,提供了多级数据加速服务,以满足不同场景的需要。

随后,王淼介绍了腾讯云提供的多级加速服务:GooseFS作为近计算节点的高速缓存,不仅为计算节点提供数据加速,还能将计算节点产生的数据写入缓存,以供二次计算或加速CDN的分发;数据加速器是部署在各个AZ的高速缓存集群,在AZ端为热数据提供加速服务和抗热点数据能力,高速缓存集群采用SSD作为数据盘,与计算集群之间通过高带宽网络连接,为数据应用访问COS对象存储提供Tb级别带宽资源和毫秒级的时延;元数据加速器主要应对文件系统级元数据操作,解决对象存储模拟文件系统的损耗,加速包括list,head的操作以及提供原子性rename接口和一些目录操作相关接口。

对象存储和CDN结合服务客户的过程中,也会遇到数据处理、内容安全和容灾架构等方面的挑战,如何更高效可靠地为用户提供服务,王淼分享了腾讯云的经验。

数据处理-能力建设


 

数据处理的底层是各种原子能力,包括图像处理、视频处理、音频处理、内容审核、文档处理相等。除了对原子能力做持续的迭代和优化,腾讯云也关注业界前沿技术,保持对前沿技术的敏感性,在合适的时机尽快地应用到云上,服务客户企业。

数据处理-流程建设

流程化的演进:之前的工作流系统,主要流转于对象存储和数据处理服务的内部,能解决的问题有限,在实际业务的一些场景中,用户可能需要使用到多个云产品,那么就需要在多个产品间进行繁琐的配置,写很多的接口调用代码,既复杂又容易出错;腾讯云COS通过预置云函数,利用简单的配置,打通多个云产品,实现业务逻辑快速实现。

以视频上传为例,一个视频上传之后可以通过数据处理服务,配置精彩封面、图片瘦身等流程化的操作,可以对视频进行高清、标清转码,同时对视频进行审核,出现违规视频可以进一步进行冻结。

在工作流演进的过程中,对象存储通过对接函数服务,能为客户提供更多可能:比如图片瘦身后,可以通过预热云函数直接将图片预热到CDN节点;审核服务如果发现违规文件,可以通过刷新云函数把CDN节点上的违规数据清理掉,防止对业务造成损害。函数服务也提供自定义函数的能力,可以对接业务系统,对接其他云服务平台,真正让用户少操作,少写代码,少“踩坑”。

智能化演进:智能分层

在对接客户的时候经常遇到一种场景:客户希望根据文件的最后访问时间来判断是否沉降,而对象存储提供的数据沉降、生命周期服务都是以数据上传时间为判断标准,无法满足这种场景的需求。基于这一点COS研发了智能分层服务,可以根据用户文件的访问频次、大小、格式,为数据提供冷热分离自动化机制,降低用户的使用成本。同时,还提供毫秒级的首字节响应能力,在不断变化的访问模式下,首字节响应性能不降低,也不产生费用和其他运营开销。经测算,智能分层服务可以为业务节省20%左右的成本。

智能化演进:平台自适应

平台自适应服务:cos 与 cdn 深度的结合,可以针对不同平台的特性,分发给适合当前平台最优的数据格式,如支持webp图片的平台,服务端可智能返回webp格式图片,如微信小程序平台,可智能返回腾讯云自研的tpg格式图片,让业务能智能的享受到带宽的节省和加载速度的提升。

场景化能力

除了提供原子的处理能力、流程化的任务系统,腾讯云对象存储最近还推出了两个面向垂直场景的服务:针对视频监控场景的明瞳智控和针对网盘相册场景的智能媒资托管服务,后续对象存储还会面向数据湖推出更多贴合业务场景的轻应用能力。

内容安全能力

在内容安全方面主要面临的挑战有以下几个方面:一是面临场景比较复杂,包括图片、音视频、欺诈类的网站、表情包恶搞、病毒程序。二是方式繁多,如隐晦的淫秽涉黄场景,变种文字广告,拆字、干扰符号的谩骂。三是技术对抗增多,如变种绕过策略的手段,AI变脸的对抗。四是产品联动少,用户使用的复杂度高。

内容安全能力建设方面,除了传统的文本、视频、图像、音频的内容审核,腾讯云还在逐步丰富其他场景,比如敏感信息识别,可以识别到文本中是否存在身份证号、用户电话号码等隐私信息;对于一些二进制文件,可以识别是否是病毒或恶意软件。

自动化审核

针对不同的用户、不同的场景,腾讯云不仅可以提供场景化的运营策略,同时也会提供一些自动化的审核流程。

对象存储上的审核,主要分为存量审核和增量审核,对存量数据审核,COS提供一键审核服务,只需控制台配置后,后台就会自动进行审核,审核完成后可以通过控制台下载审核结果;增量审核服务,支持对新上传到对象存储的文件进行自动的异步审核服务,同时还支持对违规文件进行人工复审、自动冻结。

一般会推荐客户采取高召回的审核策略,确保违规的文件不会泄露到外网,因高召回产生的误判文件,会通过专业团队进行人工复审,把误判进行纠正,最大程度保证违规文件不泄露,同时又不误封业务文件、影响业务发展,已经发现的违规文件,有可能在CDN环节被缓存过,COS也支持一键配置,对违规的文件刷新CDN节点。

高可用方案——多AZ

基于腾讯新一代超大规模云存储引擎YottaStore,COS可提供完整的多AZ容灾能力。在多AZ架构中,每个AZ都部署了存储集群、高速缓存集群和数据处理集群,当遇到不可抗力灾害时,统一调度模块就会根据下游的异常,自动剔除不能服务的节点、AZ,通过其他的AZ能够提供稳定可靠的服务。

高可用方案——跨园区

有一些业务,希望能提供地域级别的保障服务,COS也支持跨园区高可用方案:上传请求通过高可用域名写入主站,同时会异步的把数据同步到其他地域的备站,读请求通过CDN节点回源到主站后,主站会把资源及实时处理后的资源异步写入到异地的备站缓存中,确保主站异常,CDN去备站访问时,备站的缓存集群有主站的热缓存数据,能够稳定可靠的为业务提供服务。

值得一提的是跨园区方案是全球可用的,所以在跨国场景下也可以使用这个方案,实现国内外园区间的数据同步,同时国内外CDN也可以配置不同的源站,就近回源,最大程度上提升用户访问速度和体验。

最后,王淼表示,存储是很多服务的基石,未来围绕着存储可以创造出无限的可能!

 

责任编辑:徐晓俊

为您推荐

腾讯云开拓网络视频新时代

近日,腾讯云计算公司对外宣布,推出一体化云视频解决方案,正式涉足具有巨量需求的网络视频市场。腾讯将开放在QQ、腾讯视频等海量业务发展过程中、在音视频领域多年积累的核心技术与优势能力,并集成一体化的云视频解决方案,包括在线教育、视频社交、视频网站新媒体、广电网络电视等应用领域,提供囊括基础网站及数据,内容生产及分发,用户及内容运营的