上海交通大学张旭升:4K/全4K演进过程中,内容端的需求点与技术演进路线
11月15日,第五届GFIC2016全球家庭互联网大会在上海国际会议中心正式开幕,本届大会的主题是“重构大屏生态,共筑家庭入口”。在16日举行的智慧家庭峰会暨4K极客论坛上,上海交通大学张旭升代替宋利教授对交大深入的4K以及全4K超分辨技术的研究成果以及实际运用。
图为上海交通大学张旭升
张旭升在演讲中表示,4K视频的维度不仅是4096*2160分辨率,但涉及到全4K,其中还包含另外的纬度,包括更高的帧率,更广的色域以及高动态的三个纬度。只有这些纬度达到一定质量之后,观看者才能在视频质量上达到了一个比较高的阶段性跨越。
随着互联网的发展,通过平板手机观看电视的越来越多,对视频的需求也越来越多,互联网分割下来就三个方面,云、管、端,指的是云端的编辑、编码服务还有视频的传输服务,还有终端的直播、点播服务,交大主要集中研究的方面是第一个方面,就是应用云计算、人工智能、大数据等技术,提供高品质的视听娱乐服务。针对4K视频服务发展的现状,随着4K产业逐步形成,很多视频网站都会有4K视频选项,技术发展比较成熟,所以提供丰富的4K节目是比较紧迫的任务。
作为内容和服务的提供商,一个目前比较可行的方案是把蓝光的影片电视剧等节目,转化为高质量的4K视频,基于现在的条件,一个是,目前市面上大量的蓝光内容,另一方面目前交大正在研究和跟进目前比较先进处理算法,并且一直实验这些算法的性能和可靠性,另外基于云计算的服务,有海量的硬件计算资源可以利用。所以交大的研究方向,主要集中在基于云的增强转码,包括将1080P的分辨率转化为4K的分辨率,将通用的25、30帧增帧率为50-60帧左右,将8bit的为深经过SDR to HDR为的处理。
回过头来看,算法是影响视频处理质量和效率的主要方面,在处理过程中,是整个系统的核心,也是目前全4K系统优势所在。还有一个核心是数据,其中包含两个意义,一个是生产视频的数据,另一个是现在的大数据,基于海量的视频数据,借助机器学习与深度学习达到更好的效果。Maas,4K视频处理系统。在纵向的系统架构上,底层是标准的一些服务器跟工作站,云OS实现硬件虚拟化,包括CPU资源网络资源和存储资源。在上层的就是搭载的分布式计算系统,包括一些视频处理,和优化的深入学习的算法。
在横向的视频处理上,需要经过视频编码的处理,在生成视频之后,还会有质量评价过程,过程分为两个方面,一个是基于VQA的检测,保证最后生成的质量也会进行一些人工的检测。视频处理系统的框架,把整个系统分为三层架构,自己定义的三层架构,第一层Web和API服务层,主要是面向发出视频处理请求的用户,用户可以通过Web界限API定义处理单元和参数,称一个用户下发的处理指令为一个作业。全4K的处理有很多处理步骤,包括一些切片处理。第三层就是任务执行体,是对任务执行的步骤,任务执行的内容可以分为很多的集群,可以说这个图案是集中处理的平台,那个就是其他的集群,可能是linx的平台。
这张图展示了三点信息流,中间是控制流,控制流的主要内容是Task处理节点,利用订阅的特性,可以更加动态,保证动态可伸缩性。状态流是自下而上的,实时报告算子的处理状态,处理状态是写入五内存数据库Redis,重要地方处理的视频是比较大的数据,所以数据领域为了加快数据领域多次的处理速度,使用了Redis来作为进一步的加速方式。
针对一些大型体验的视频,为保证它的稳定性,可能会跟它进行切分,这样会介入一些基于硬盘的存储。而其中下面的展示包含有很多的框架,比如说Redis,Docker,用来做一些部署,还有一些Rabbitmp,包括可以使用Hadopp,这些开源工具的使用,可以保证跟随社区的步伐,对系统进行性能和稳定性的提升。在前端通过Web端方式,实现4K的视频处理展示,可以看到用户只需要设定好参数,就可以进行云端的转码,可以通过转码日志来查看可以下达文件。
系统另外一个应用实力,是一个4K UGC的内容服务平台,由数字工程中心提供用户的自治内容。大部分情况下,可以通过一些工具进行处理,目前的技术演进比较快,根据自己的研究方向提供一些算法级的解决方案。
这边是视频处理的流程,算法主要集中在视频的处理上,比如说超帧率,超分辨率,SDR to HDR,质量检测评价也一直在更新迭代我们的算法。HD to 4K的超分辨率技术,目前是比较先进的超分辨率技术,通过样本的深度学习,获得低分辨率到高分辨率映射关系,这可以认为是一种具有繁华性的内容滤波器,在给低分辨率的输入后,输出的高分辨率图像与原来的高分辨率图像基本吻合。
在超分辨率的规模化生产中,最需要考虑的就是视频质量和视频处理速度之间的平衡关系,超分辨率之后的视频质量太差,那么这件事情就失去了我们的初衷,如果一味的采用高处理质量的算法,那么处理的速度就过慢,需要一周甚至更多的时间,这样达不到规模产生的需求。其中CNN、CSC,A+有着比较好的性能,这个表我们可以看出,CSC,CNN三中算法虽然质量相近,但是速度的差异性较大,CNN和A+是权衡质量和速度后的两种最好的算法。下面给出几张通过Bicubic而双三次插值算法生成的4K图像。
目前大型游戏都是通过GPU进行驱动的,就是因为GPU的图象处理并行化方面有着得天独厚的优势,所以在上述算法基础上,进行了GPU加速的探究,现在在不损失质量的情况下,可以将视频分辨率处理的速度,加速到于H265编码的速度,编码前的处理不再是整个视频处理中的瓶颈。目前我们已经完全了百部节目,现在这个阶段,除了提升分辨率,我们将继续提升帧率,色域,和图象HDR等纬度的质量,这些处理也是相似的原理,比如RNN可以进行超帧率的计算。
HDR技术,和4K视频不足,蓝光视频比较充足的问题是相似的,现在HDR的视频非常短缺,对于现存的1080P的SDR视频进行转换生成4K HDR。SDR To HDR的方法,主要使用的是KO算法和Based算法。这些是HDR的序列,在Sony的显示屏上效果还是比较惊艳的。目前一些4K的广播和4K的电视剧一部分真正拍摄出来的4K视频,另外一部分是通过HD经过超分辨率技术得到称之为伪4K蓝光视频。针对真伪4K系统目前比较先进的算法,就是一些变革的算法,其中这边务出了一个例子,集中频率的变换,下面算法结果,一般叫做EDR,这边的EDR值就是检测工具对视频的计算结果,一般小于3.1认为是源视频。现在算法得出的EDR计算值是3.2,可以看出接近于3.1的算法。
最后张旭升表示,首先来看发展趋势,从SDR到4K,针对发展的过程中,视频内容生产端的需求,交大在架构方面使用了云平台和分布式的计算系统,进行了海量的视频转码,平台之上搭载了开源和自己的视频处理算子,其中有超分辨率技术,SDR TO HDR技术,超帧率技术以及GPU加速技术。谢谢大家。
责任编辑:吴昊