未来广播中的音频检索技术 - 众视网

　　作者：陈姗姗江苏广电集团

【摘要】文中提出了一种可应用于未来广播中的基于示例查询的音频检索方法，包括音频特征提取、相似音频检索及音频分类。
　　【关键词】音频检索特征提取音频分类

　　当今广播已步入数字化与网络化时代，音频信息作为广播的内容资源通过网络实现了海量的传输和共享，基于文本的检索方法已不能满足数字化音频信息检索的需要，基于内容的音频检索技术应运而生。

　　由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外，本身仅仅是一种非语义符号表示和非结构化的二进制流，缺乏内容语义的描述和结构化的组织，因而音频检索受到极大的限制。相对于日益成熟的图像与视频检索，音频检索相对滞后。因此，基于内容的音频检索已成为多媒体检索技术的研究热点。

　　基于内容的音频检索技术可应用于未来广播的制作、监控等多个环节。通过音频检索算法对所需音频段内容进行比对，能够快速便捷的从浩如烟海的音频数据库中找出需要的音频信息。另外，随着广播的监控方式趋向智能化，音频检索算法能够实现对播出链路上的音频内容进行实时监控比对。较目前人工巡听的广播内容监控手段，智能化音频检索监控手段能够增强对播出内容的监管力度，有效阻截不良、非法言论等可疑信号的播出。

　　一．基于内容的音频检索技术定义

　　所谓基于内容的音频检索，是指通过音频特征分析，对不同音频数据赋予不同的语义，使具有相同语义的音频在听觉上保持相似。

　　二．音频检索的基本方法

　　音频检索第一步是建立数据库，对音频数据进行特征提取，并通过特征对数据聚类。音频检索主要采用示例查询方式（Querybyexample），用户通过查询界面选择一个查询例子，并设定属性值，然后提交查询。系统对用户选择的示例提取特征，结合属性值确定查询特征矢量，并对特征矢量进行模糊聚类，然后检索引擎对特征矢量与聚类参数集匹配，按相关性排序后通过查询接口返回给用户。

　　三．音频特征提取方法

　　特征提取是指寻找原始音频信号表达形式，提取能代表原始信号的数据。音频特征提取有两种不同的技术线路：一种是从叠加音频帧中提取特征，其原因在于音频信号是短时平稳的，所以在短时提取的特征较稳定；二是从音频片段中提取，因为任何语义都有时间延续性，在长时间刻度内提取音频特征可以更好反映音频所蕴涵的语义信息，一般是提取音频帧的统计特征作为音频片段特征。

　　首先，对音频数据进行加窗处理形成帧，加窗大小在几到几十微秒，相邻帧之间一般有30%～50%的叠加。然后，对每一帧作离散傅立叶变换(DFT)，实际上常用快速傅立叶变换(FFT)，得到傅立叶系数??和频域能量?，其中?，为采样频率。最后应用不同算法计算相应的帧特征，再计算帧特征的标准偏差、数学期望值和方差，把帧特征推广成片段特征。

　　1.短时平均能量指在一个短时音频窗口内采样点信号所聚集的平均能量。

　　假定每个短时帧大小假定为N，?为用Nyquist频率采样后的离散音频信号。对于第m个短时帧，短时平均能量可以使用下面的公式计算短时平均能量可以直接应用到静音检测（Silencedetection）。

　　2．过零率指在一个短时帧内，离散采样信号值由正到负和由负到正变化的次数。,
当??时，；否则。过零率可用来区分语音和音乐两种不同音频信号?。

　　3.频率中心是度量声音亮度(brightness)的指标，计算公式为

　　4．带宽是衡量音频频域范围的指标，其定义为

　　其中FC(Frequencycentroid)为频率中心。一般地，语音的带宽范围为0.3-3.4kHz，而音乐的带宽范围比较宽，可以在22.05kHz左右?。

　　5.Mel对数倒谱系数MFCCMFCC在语音领域中得到广泛的应用。它是音频数据经Z变换和对数处理后得出的结果，一般每段数据取12个系数，可以较好地表现每段的特征?。 [page]

　　四．相似音频例子检索

　　相似音频例子检索是指基于用户提交的查询音频，得到最相似的音频，即计算音频特征的距离。

　　对音频数据提取特征后，假设共N个特征，则形成了一个N维特征矢量的序列。为了缩减数据量而又不失掉每个音频原来的特征，可以对N维特征矢量进行聚类，提取出固定数目的质心来表示音频,即用聚类质心来为音频建立索引。一般采用模糊聚类法，模糊聚类首先要对N维特征矢量进行归一化，一般采用高斯归一化。

　　聚类质心个数假设为K类，那么两个音频之间的相似度也可以通过这K个质心来计算。假设?表示用户提交检索的例子音频request所形成的模糊聚类质心，表示音频检索数据库中与V进行相似度比较的某个音频clip的聚类质心，则用如下方法计算request和clip的相似度：

　　1.对于V中的每个，在W中找到与其最相似的，记为，其中d表示余弦相似度。同理，对于W中的每个V中的每个，在V中找到与其最相似的，记为。

　　2、request和clip之间的相似度

　　这样，由Dis可以求出音频数据库中所有音频与request的相似程度，然后选择若干最相似的音频返回给用户，完成检索?。

　　五.音频分类识别

　　音频分类是判断一个给定样本所在的类别，其任务是通过相似度匹配算法将相似音频归属到一类，属于模式识别的问题。首先应提供适量的训练样本，比如选取足量的音乐文件，然后提取样本特征，类似如上所述进行聚类处理，不同的是将每类的全体文件看成一个音频数据来处理，计算该类的样本模板。

　　判断文件的类别时，与计算音频相似度类似，计算音频的模板与各类模板间的距离，当距离小于某一阈值或为最小距离时，则此时的类即为文件所在的类。

　　六.结语

　　本文阐述了基于示例查询的音频检索方法，包括音频特征提取、相似音频检索及音频分类。此方法具有较高的准确性，对于不同的系统要求，可以有针对性地提取不同的音频特征，从而可以将此系统应用于未来广播系统中，完成对音频信号高效、准确、智能的监测、检索和分类。基于内容的音频检索已成为多媒体检索技术的研究热点，但相对于日益成熟的图像与视频检索，音频检索相对滞后，例如，就连续长音频进行分割识别等仍需进行更深层次的研究。B&P

　　参考文献：
　　[1]卢坚,陈毅松,孙正兴,等.基于隐马尔可夫模型的音频自动分类[J].软件学报,2002,13(8):1593-1597.

　　[2]庄越挺,潘云鹤,吴飞.网上多媒体信息分析与检索[M].北京：清华大学出版社，2002.
　　[3]李国辉，李恒峰.基于内容的音频检索：概念和方法[J].小型微型计算机系统,2000,(11):1173-1177.

广播音频频率