金山云高级技术总监韩博在大会发表主题演讲
AI内容服务随5G同行
5G网络是信息基础设施又一次全面升级,能为跨领域、全方位、多层次的产业深度融合提供坚实支撑。韩博表示,5G将促进数字内容制作、分发、呈现的全产业链升级。AI内容服务作为贯穿视频内容生产全过程的重要“参与者”,已做好了迎接5G时代到来的准备。
以金山云金睛为例,它基于金山云强大的云计算基础资源能力和海量数据积累,专注于图像识别、语音识别、多模态视频分析、文本识别、人脸识别、行人车辆识别等人工智能领域的研究,提供跨行业、多场景的AI解决方案。在AI内容服务方面,已覆盖内容生产、内容风控、内容分发全环节。
“我们的生活不仅是一系列的静态快照,而是随着时间变化在现实世界动态发生事件,视频内容更是如此。内容趋势的变迁,同时也会推动人工智能技术的演进。基于此,金山云金睛在单模态识别的基础上,升级为多模态融合理解,以应对5G时代低延时、高速率、庞大体量的AI内容服务需求。”韩博介绍道。
多模态融合理解带来认知升级
多模态,简单来说是相对于单一的视觉、语音、OCR识别等,将多个模态的信息结合起来,也就是视频中的音视图文内容进行综合判定、理解。相比传统单一的交互模式,多模态融合技术。表达效率和表达的信息完整度更高,是智能交互的发展趋势。
韩博介绍,多模态融合理解技术可以对视频内容进行精准的场景识别、对象跟踪、行为理解、图文联想等。比如基于单模态的图像识别很难判断出直播过程中,主播是在抽烟,还是在吃棒棒糖。但是基于多模态的视频理解,我们可以通过将连贯主播的行为动作进行分析,判断是否有点烟行为,是否有吐烟行为,从而准确的判断主播是否在抽烟。
除此之外,在视频内容的生产过程中,多模态融合理解技术优势明显。例如自动进行语音转写,并且放到指定位置;实现智能BGM功能,根据视频内容自动推荐背景音乐;支持视频特效功能,对应视频场景或者动作,给出视频特效等。
相对于 AI 目前所展示出在图像和语音领域的单一感知能力,视频理解更加复杂,也更加困难,这体现在理解视频是二者的叠加,实现多模态融合理解的背后,需要技术的突破。韩博在现场重点介绍了金山云金睛在多模态理解技术上的突破——AI算法团队通过训练超千万个高质量的短视频,得到的具有很强的泛化能力的内容理解模型和金山云金睛专利时序算法。
多模态融合理解必须全面捕捉视频内容中的时序信息。金山云内容理解模型通过三维时空卷积(3D conv)和三维时空卷积长短时注意力循环神经网络(LSTM and Attention)来精细捕捉视频单帧图片的局部与整体时空信息。受人脑注意力机制的启发,引入“时空注意力机制”,使得模型可以聚焦关键帧、关键位置的信息,降低无关帧对模型性能的影响。整个模型不需要任何人工干预,输入原始视频,就可以得到最终的预测结果,整个模型精度高、速度快。
金山云金睛内容识别已经全面运用多模态视频识别技术进行视频内容处理,可以更加精准的理解视频内容,帮助内容平台快速、精准审核视频内容,以及对视频进行精准的标签分类和特征提取,用于内容推荐和分发。为平台优质内容产出、打通作者和用户间壁垒,实现平台差异化布局夯实了技术基础。
为您推荐
一、现状分析在手机增值业务市场,短信、彩信、彩e等虽然有了交互、24小时不间断等不同于传统媒体的特点,但传输的主要是静态为主的图像和文字内容,影响了其媒体作用的充分发挥。随着最终用户需求的提升,如何更好地融合声音、文字、图像,支持多媒体功能,既发挥短信方便、快捷的优点,又可以弥补短信形式单调的不足,真正使移动用户”振聋发聩",进入一个有声有色、逼真形象的美丽世界成为移动运营商普遍关心的话题。流媒体(StreamingMedia)的出现改变了这种状况。它不需要下载整个文件就可以在向播放器传输的过程中一边下载一边播放,实现了在网上点播或观看电影、电视的梦想。现在,以”流”的形式进行数字媒体的传送,
云端运算所引领的商机无限,各种平台应用大量出炉,因而对高频宽的需求迫切;符合高频宽需求的被动光网路(PON)解决方案因此备受重视,进而带动整体光纤宽频市场的蓬勃发展,包括:光纤到户(Fiber-To-The-Home,FTTH)、光纤到街边(Fiber-To-the-Curb,FTTC),光纤到楼(Fiber-To-The-Building、FTTB)等。凯钰科技多年来致力于开发高频宽光纤通讯类比IC,发挥其最擅长之光纤通讯混合讯号技术,持续开发出光通讯收发模组应用所须之限幅放大器、雷射二极体驱动器与整合型GPONIC等。由于光纤通讯市场之技术进入门槛甚高,凯钰科技算是全球少数几家能够开发光通
尊敬的媒体朋友:最大的独立半导体价值链制造者(valuechainproducer,VCP)eSilicon公司,以及业界标准处理器架构与内核的领导厂商MIPS科技公司共同宣布,已采用GLOBALFOUNDRIES的先进低功率28纳米SLP制程技术,在GLOBALFOUNDRIES位于德勒斯登(Dresden)的Fab1进行高性能、三路微处理器集群的流片,预计明年初正式出货。SoC设计已可立即开始。MIPS科技提供以其先进MIPS32®1074Kf™同步处理系统(C
博通今天宣布推出全球第一款基于IEEE802.11ac标准的5GWi-FiSoC芯片,型号为“BCM43460”,最高数据传输率达1.3Gbps,可满足企业、无线云网络、电信运营商的Gbps级别访问需求。博通宣称,该芯片可让无线设备的传输速度达到目前流行标准802.11n的三倍,能效更是能够超过六倍。BCM43460单芯片完全整合MAC、PHY、Radio等所有模块,支持802.11a