MPEG－4视频编码技术及在多媒体通信中的应用 - 众视网

摘要：本文较为详细地介绍了MPEG－4视频编码的主要技术及其功能与特点，并基于此标准提出了一个基于Internet网络的多媒体通信系统的设计方案。

一、引言

MPEG－4是运动图像专家组（MovingPictureEx－pertGroup）标准家庭中的一员，是国际标准化组织为多媒体通信制定的一种解决方案。当今迅速发展的交互式计算机游戏图像显示、交互式视频点播（VOD）都表明电视正由“纯线性”向“非线性”的方向发展。MPEG－1／2均是以音频帧、视频帧为编码对象的，图像中的AV（Audio、Video）对象所组成的场景不能与人们进行交互。而MPEG－4的主要特点是对图像中的内容进行编码，其具体的编码对象就是图像中的音频和视频信号，称为AV对象。MPEG－4就是围绕着AV对象的编码、存储、传输和组合而制定的。所以，MPEG－4有非线性电视的编码、存储、传输和组合的标准之称。

二、MPEG－4的图像与视频标准的技术结构

1．MPEG－4的图像与视频标准的技术结构

如图1所示，底层是VLBV（VeryLowBitRateVideo）核心，它为5～64kbit／s视频操作和应用提供算法与工具，支持较低的空间分辨率（低于352x288像素）和较低的帧频（低于15 Hz）。VLBV核心支持的专用功能包括实时多媒体应用：支持矩形图像序列的有效编码，具有高编码效率、高精度、高容错度、低延时等特点；以及多媒体数据库应用：支持多媒体数据库的存储、随机存取以及FF／FR（快进／快退）等功能与操作。

MPEG－4的HBV（HighBitRateVideo）空间分辨率支持CIF－HDTV，码率范围在64 kbit／s～4 Mbit／s之间，同样支持上述功能。

三、MPEG－4视频编码标准与MPEG－1／2及其与H．26X的比较

MPEG－1／2／4视频压缩和H．26X视频压缩技术都是以DCT（离散全余弦变换）为基础。但它们又各有不同的特点。

MPEG－1标准制定主要针对1．5Mbps以下数据传输率的数字存储媒质运动图像及其伴音编码的国际标准，它用于在CD－ROM上存储同步和彩色运动视频信号。采用SIF标准交换格式（对于NTSC制式为352×240，对于PAL制式为352×288）的图像进行压缩，每秒能够播放30帧，具有CD音质。

MPEG－2标准追求的是CCIR601建议的图像质量DVB、HDTV和DVD等制定的3～10Mbps高质量的运动图像及其伴音的编码标准。MPEG－2可用于为广播、有线电视网、电缆网络以及卫星直播（DirectBroadcastSatellite）提供广播级的数字视频。

H．261的制定是适用于ISDN网的宽带传输，它提供了P×64kbit／s的视听业务用的视频编解码。

H．263是适用于PSTN（公用电话网）的窄带通信信道的视频编码建议，可用于可视电话极低码率的编解码器，它是H．261的重要发展。

MPEG－4标准提供用于通信的新方式，其核心是基于内容的AV信息存储及操作，支持交互性、高压缩比及能用存储性。同时它在结构上具有适应性和可扩展性，以适应软硬件的迅速发展，及时融入新的技术。由于将内容和交互性作为MPEG－4的核心，就不再把具体的码率范围作为特别的要求，但低码率依然是其一项基本内容，它在极低码率的传输上与H．263具有一定的相似性，但是它也支持高质量的视频语音通信。所以，MPEG－4提供了一个更为广阔的开发平台，更符合于多媒体通信的发展趋势，具有更广阔的应用前景。

四、MPEG－4为标准的多媒体传输系统

1．方案设计

基于以上的各视频编码标准的比较及实际应用的需要，我们设计了一套基于Internet网的多媒体通信系统。该系统的组成如图2所示，主要包括多媒体信息处理模块、TCP／IP通信协议模块、通信接口模块、控制模块、外部设备接口及外部设备模块（摄像头、麦克风、显示器、扬声器）。

2．各模块功能及实现

（1）多媒体信息处理模块

它主要基于MPEG－4标准，根据不同的应用要求对视频和音频数字信号进行不同程度的压缩／解压缩。

1）视频／音频信号的压缩

采用TI公司最新推出的TMS3206415DSP芯片，它支持图像的8bit数据处理的指令。它的运算速度快，最高运行速度高达600MHz，指令周期最短为1．67ns，峰值处理速度达到了3 200～4800 MIPS。在音频／视频应用中，其性能提高15倍。具有先进的超长指令字结构（VLIW），获得当前应用设备所需要的极高性能。内核的8个功能单元能够在每个周期内执行4组16位MAC运算或8组8位MAC运算，以便在处理通信和影像算法中获得最大的并行性。如果用C6415同时完成一个通道的MPEG－2视频编码、一[FS:Page]个通道的MPEG－4视频编码和一个通道的视频解码，其硬件资源还只占用了50％，可见其强大的计算能力。该芯片具有1 056字节片上SRAM的实时分层存储系统，用于加快超高速DSP内核。64通道的增强型存储器直接存取（EDMA）控制器，显示出出色的并行性特点。外部双总线提供了超过1．2 G字节的外部存储器带宽。同时还提供33MHz／32 bit的PCI接口及3个多通道缓冲串行口。这些都为视频、音频信号的实时处理提供了便利的条件。

2）视频压缩模块

采用MPGE－4标准，实现基于内容的编码和编码可分级性，其核心编码器的结构如图3所示：基本层采用的是MPEG－4基本模式编码，并输出基本视频流，增强层的输入信号是原始VOP和帧存（重建）的VOP的差值，并对其差值进行8×8的DCT，然后对DCT系数进行比特平面编码。根据比特平面的重要性，将重要的比特放在码流前端，如一个块的MSB，将次要比特放在后端，比如一个块的LSB，这样在网络发生拥塞时就可以先丢弃部分不重要的比特以减缓网络负载，但解码端对接收码流仍可解码，只是图像质量会有所下降。解码器是编码器的逆过程。

3）采用MPEG－4标准的视频压缩的特点

①传统编码与基于内容编码的统一

MPEG－4视频算法的核心是支持基于内容（Content－based）的编码和解码功能，也就是对场景中使用分割算法抽取的单独的物理对象进行编码和解码。为了实现预想的内容及交互等功能，MPEG－4引进了一个叫做“视频对象面”（VideoObjectPlane，简写为VOP）的概念，如图4所示。图4（a）表示支持MPEG－1和MPEG－2的普通MPEG－4编码器，它把视频图像都认为是一个矩形区，图4（b）表示MPEG－4的甚低码率图像（VLVB）的核心编码器。它是假设每帧图像被分割成许多任意形状的对象，每个对象都有可能覆盖描述场景中感兴趣的物理对象或者内容，这被定义为VOP。然后单独对VOP的形状、运动和纹理信息进行编码和传送构成一个单独的视频对象层（VideoObject Layer，简写为VOL）。此外，还需要标识每个VOL的信息也包含在编码后的比特流（Bitstream）中，也包括各种VOL的视频图像在接收端应该如何进行重新组合的信息，以便重构完整的原始图像序列。这样就可以对每个VOP进行单独解码，提供了管理视频序列的灵活性。

如果输入图像序列只包含标准的矩形图像，就不需要形状编码，在这种情况下，MPEG－4Video使用的编码算法结构也就与MPEG－1和MPEG－2使用的算法结构相同。

②实现编码的连续可分级性

MPEG－4第4版针对Internet视频流式传输的应用，定义了视频图像编码的精细可分级性（FGS，即FineGranularityScalability）及其实现工具。由于FGS编码提出了一个由网络接收端来控制其所接收的码流的概念，使其在Internet上的传输更具适应性。

在视频的分级编码技术中，视频信息被分成多个不同重要性的层，其中基本层包含了视频对象中最重要的基本信息，以此可以保证一个最基本的图像质量，在传输过程中被赋予较高的优先级。增强层的作用是在基本层的基础上进一步提高图像质量，在传输中赋予较低的优先级。这样在网络发生拥塞而丢包时，就可以先丢弃优先级较低的增强层，使得基本层发生丢包或误码的概率比增强层低，从而保证重建图像仍然有一个让人可以接受的质量。

4）语音压缩

采用CELP（CodeExcitedLinearPredication）码激励线性预测技术。传统的CELP编码器提供单一的码率的压缩，而本系统允许多种应用使用一个基本的编码器，在码率和带宽上提供了可扩展性。根据不同应用需要可选择8 kHz和16 kHz 2种采样频率，8 kHz采样频率对应100～3 800 Hz带宽的通信质量，16 kHz采样频率对应50～7 000 Hz带宽的通信质量。

（2）外部设备接口模块

本系统采用的PHILIP公司的视频编码芯片SAA7111，对模拟摄像机的输入模拟视频信号进行亮色分离，再对分离后的信号分别进行8比特采样

设计视频编码传输