『声网』唐瀚：声网极速直播场景技术拆解 - 众视网

在数字化转型速度不断提升的今天，大带宽、低时延、高并发的场景不断涌现，终端用户对于网络内容反应速率要求提升，对于CDN的应用需求也在不断攀升。而今正值中国CDN发展十年转型期，提升CDN核心竞争力，以CDN为切入点带动边缘计算、分布式云计算、音视频直播、云游戏等服务，为用户打造更高质量的CDN服务将成为新时代产业竞争的关键所在。

8月25日，以“新征程，耀一起”为主题的2022亚太内容分发大会暨CDN峰会在北京隆重开幕，本届大会由亚太CDN产业联盟、众视Tech联合主办。亚太CDN产业联盟携手阿里云、腾讯云、网宿科技、火山引擎、天翼云、中兴通讯、金山云等内容分发领域头部企业，为行业破旧立新、闪耀新征程发出最强音！

在8月25日下午举办的【视频云技术论坛】上，声网资深技术经理唐瀚也受邀参加视频云技术论坛，带来《声网极速直播场景技术拆解》的主题演讲。

极速直播填补低延时、强同步的轻互动直播方案空白

唐瀚介绍了声网的极速直播解决方案，他表示，“根据实时互动的强弱程度以及对延时的不同要求，声网将互动体验分为四个级别：强互动、中互动、轻互动、弱互动。强互动延时小于 400ms，中互动延时在 400-800ms 之间，轻互动延时在 800ms-3s 之间，弱互动延时在 3s 以上。直播市场主流的直播解决方案主要集中在以声网互动直播为代表的“中互动”直播方案，以及传统 CDN 直播的“弱互动”直播方案。声网的极速直播则填补了轻互动的直播方案空白。”

声网极速直播开创了低延时、强同步的"轻互动"直播场景，并支持连麦。极速直播主要面向对文字、白板等消息互动的延时要求较高，或有低频音视频互动需求的直播场景，主播与观众端延时在 1.5s-2s 之间，相比传统 CDN 直播方案延时降低 80% 以上，同时直播间内 90% 的观众与观众间延时差异小于500ms，可满足电商直播、教育大班课、秀场直播、赛事直播、直播答题、一起看等观众需要强同步场景的需求。

随后唐瀚还从观众端同步性、视频分辨率提升、暗光增强、极速出图、低卡顿率、弱网对抗能力、实时质量监控等多个角度介绍了声网极速直播方案的技术优势。

引领技术创新声网荣获“音视频技术领航奖”

本次大会，声网凭借在实时音视频行业的技术领导力与创新力还荣获了大会颁发的“音视频技术领航奖”，作为全球实时云行业的开创者与引领者，声网持续专注于打磨新的产品与技术，保持研发投入，不断精进自身的专业，以提升实时音视频的技术硬实力，同时也可以满足不同企业的场景创新需求。

1、技术创新赋能丰富场景玩法与体验：声网今年推出“3D 空间音频”和“Lipsync（唇音同步）”两项分别应用于元宇宙等虚拟场景和语音社交场景中的前沿技术。3D 空间音频通过纯软件算法方案，模拟头部球面区域立体声场，使用户在音频听感上具有空间感。当用户操作虚拟人物在虚拟场景里移动，可实现根据虚拟人物的面部朝向、音源朝向、远近距离与上下高度，呈现不同声音效果，完美模拟现实听觉感受。

声网 Lipsync 无需摄像头、无需面部表情捕捉技术，通过深度学习算法中的生成对抗网络，将中英文（或其他语种）发音的嘴型、面部表情智能关联起来，驱动人像模拟真人说话嘴型，支持 2D 人像图片和 3D 人像模型，在语聊房、互动播客、视频会议等场景中具有巨大的应用潜力。

此外，在今年火热的虚拟活动上，声网也实现了单频道高并发人数的技术突破。针对虚拟活动诸如大型会议、会展、演唱会等场景，声网推出 128 人超级互动频道，单个频道可支持多达 128 位用户同时发送音视频流，观众人数无限制，让房间内任何用户都可以随时开麦进行发言交流。

2、加大研发投入，持续提升音视频体验质量：今年声网持续加大研发投入，推出了 AI 降噪、VQA、多倍实时超分等技术，进一步提升了实时音视频的体验质量。例如 AI 降噪技术，兼顾了强降噪与高保真，可以在保证人声无损伤的前提下，更好地抑制噪声和混响，同时避免了丢字及多人讲话时语音被抑制的情况。在视频会议、语聊房、远程问诊、游戏语音等伴有复杂噪声的实时音视频互动场景中，AI 降噪可以消除上百种突发性的背景噪声，带来更纯净的通话体验。

在实时互动场景中，视频画质是影响观众体验的关键指标，如何实时评价视频的画质一直是个行业难题。经过声网视频算法专家的持续钻研，今年正式推出了业内首个可运行于移动设备端的视频画质主观体验 MOS 分评估模型—声网 VQA (Video Quality Assessment)。VQA 是一套“评价主观视频质量体验”的客观指标，声网构建了大规模的视频画质主观评估数据库，并在此基础上训练了业内首个可直接在移动端运行的 VQA 模型，它利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估，解除了传统主观画质评估对人力评分的高度依赖，极大提高视频画质评估效率，使实时的视频质量评估成为可能。

另外，在视频画面质量的提升上，声网也推出了业内首个运行于移动端的多倍实时超分算法，以较小的算法计算量实现视频分辨率的三倍超分，有效增强视频画质，降低视频传输成本。多倍实时超分覆盖机型广，中低端机型也能实时处理，对 CPU 以及 SDK 内存的消耗也很低，可以很好的运用在 IoT 平台的实时互动场景、带宽受限以及视频首帧需要快速清晰出图的实时互动场景。

目前声网已服务泛娱乐、IoT、教育、金融、医疗、企业协作等 20+ 行业赛道，200+ 场景，而在全球 RTE 领域仍然在不断诞生更多的实时互动创新场景，作为全球领先的实时互动技术服务商，也需要保持对创新场景的洞察力，并不断精进自身的技术，在提升技术质量的同时也为开发者与客户提供更契合市场发展,更稳定、更高质的实时互动解决方案。

声网唐瀚