5月28日,第七届中国网络视听大会由金山云承办的以“5G释能 超清视界”为主题的“5G视频应用创新技术论坛”上,金山云高级技术总监韩博发表了题为《多模态理解视频,5G时代的AI认知进阶》的主题演讲。韩博表示,5G时代,AI也要跟上,金山云将运用自身相关的输出和能力真正的解决行业当中遇到的各种问题。
首先,韩博讲到通信技术的发展和内容传播的关系。每一次通信技术的变革对消费者来说感触最大的是信息载体,也就是内容形式上的变化。2G时代使用短信和QQ文字的沟通方式。3G时代是图片时代。人们开始使用图片记录分享生活中的精彩瞬间。进入4G时代,短视频和直播蓬勃发展。14年被称为移动互联网的元年,依托技术涌现了很多非常知名的公司,头条系、快手系、抖鱼、龙珠等等。
5G是一个新时代,首先一定是一个视频时代。5G带来的高带宽、低延时、低成本,大并发的等优势给新的视频形态的产生和传播带来了新的机遇。还有一个方面是物联网。一个单一的基站可以接入上千、上百万的小型的IOT设备,给物联网带来新的繁荣的机会。另外,从内容传输的角度,5G的到来也会真正的把VR/AR代入蓬勃发展期。
5G技术带领视频进入生活智能化时代
回到命题,5G带我们全面进入了视频时代,生活智能化从几个方面体现,一个是5G推动了IOT技术的发展让传播和制作更加方便。再之后是AI赋能生产,人工智能技术已经贯穿了内容生产的全过程,使过程更加高效。最后是内容分发,做高质量的真正的个性化推荐,让内容直接触达用户,这就是AI感知赋能内容生产的全过程。
韩博接下来谈到了用户感知升级。金山云在AI赋能生产方面已经尝试了两年多的时间,从两年前的图片层面到如今感知升级到语义的层面,这是一个视频理解的过程。5G的一个重要的方面是记录生活,生活到底是什么,生活并不仅仅是一系列的快照,而是随着时间变化在现实世界中发生的事情,是一个动词,而不是名词。
随后,韩博谈到单模态理解的局限性,相似的图像会造成误判,韩博举例到一个人拿着一根棒棒糖,单纯看图难以分辨他是在抽烟还是吃糖。如何解决这个问题呢?在多模态的情况下,有前后文,多模态的场景可以很好的解决这个问题。另外脱离场景判断内容,判断是跟场景、其他的信息相关时会更加客观。最后结合文本识别。韩博强调,真正的多模态融合,最终要输出一个跟场景和具体命题相关的整体视频结论。
多模态融合理解助力读懂视频
韩博介绍到在读懂视频这件事情上金山云具体的实现方案分为两个阶段:第一个是感知阶段,第二个是推理阶段。现有的绝大多数技术更多的是局限于前一个阶段,一些低层语义的信息感知上,而且感知的手段是多方面的,可以有音频、视频图像,还可以有字幕,一系列的基础模型,OCR识别、音频识别,人脸识别,可以处理一堆结果,这是相关标签,但是这些标签并不足以支撑最终读懂视频,缺一个推理的过程,最终我们需要一个决策引擎把所有的信息融合在一起。
韩博以内容审核为例,如果你在前面一系列的视频得出的标签,有一女生穿着校服,还有一个场景是封闭的宾馆,那么以现有的知识图谱讲是有一定的危险度场景,需要进一步的判断或者进一步分析。
韩博介绍到多模态的概念,模态是一个生物学的概念,是一个生物通过自己的感觉器官,通过自己的新知识从自然界或者外界的信息中获取信息的一个通道。从计算机科学的角度讲,其实是一个感官或者是信息的通道,从不同的感官上搜集信息,最终做综合的决策。
随后韩博谈到内容生产的几个场景:语音字幕You Tube已经有这样的场景,自动的进行语音的转写。还有智能的BGM,根据视频的内容自动的推荐音乐,可以分析整个视频中的节奏和韵律推荐最合适的音乐。还有视频特效,识别出对应的场景和动作,可以自动添加视频特效,相当于把5G内容生产的门槛进一步降低。多模态融合也存在许多技术难点,主要体现在两个方面:第一个还是特征,第二个是融合。
相对于 AI 目前所展示出在图像和语音领域的单一感知能力,视频理解更加复杂,也更加困难,这体现在理解视频是二者的叠加,是图像到视频的变化。对于一个视频来讲目前的模态区分成以下几个方面,首先是视频截祯,有可能封面或者代表性的图片,还有音频提取或者视频本身。对于音频,一方面用ASR转化成文本,还有一种经过声文的特征,谩骂等等敏感词,会经过声文特征的模型。还有一个文本分析的过程,最终这几类的信息会进入决策引擎,产生AI认知,这是全过程。
最后,韩博介绍了多模态视频理解带来的展望,首先是人机交互的升级,无论是物联网、智能家居,其实都是一个典型的多模态过程。现在用户家中都有智能音箱入口,还有各种各样的传感器感知到周围环境的变化,某种意义上这就是多模态的过程,而且多模态交互最终的诉求是想人机交互会更加自然,使用户感到温度,所以多模态一定是未来5G的大趋势。最终带来的算法技术的革新,新的技术场景一定会推动技术的演进,AI的技术会跟着5G的技术一起成长,一起赋能人类美好生活。
图:金山云高级技术总监韩博
首先,韩博讲到通信技术的发展和内容传播的关系。每一次通信技术的变革对消费者来说感触最大的是信息载体,也就是内容形式上的变化。2G时代使用短信和QQ文字的沟通方式。3G时代是图片时代。人们开始使用图片记录分享生活中的精彩瞬间。进入4G时代,短视频和直播蓬勃发展。14年被称为移动互联网的元年,依托技术涌现了很多非常知名的公司,头条系、快手系、抖鱼、龙珠等等。
5G是一个新时代,首先一定是一个视频时代。5G带来的高带宽、低延时、低成本,大并发的等优势给新的视频形态的产生和传播带来了新的机遇。还有一个方面是物联网。一个单一的基站可以接入上千、上百万的小型的IOT设备,给物联网带来新的繁荣的机会。另外,从内容传输的角度,5G的到来也会真正的把VR/AR代入蓬勃发展期。
5G技术带领视频进入生活智能化时代
回到命题,5G带我们全面进入了视频时代,生活智能化从几个方面体现,一个是5G推动了IOT技术的发展让传播和制作更加方便。再之后是AI赋能生产,人工智能技术已经贯穿了内容生产的全过程,使过程更加高效。最后是内容分发,做高质量的真正的个性化推荐,让内容直接触达用户,这就是AI感知赋能内容生产的全过程。
韩博接下来谈到了用户感知升级。金山云在AI赋能生产方面已经尝试了两年多的时间,从两年前的图片层面到如今感知升级到语义的层面,这是一个视频理解的过程。5G的一个重要的方面是记录生活,生活到底是什么,生活并不仅仅是一系列的快照,而是随着时间变化在现实世界中发生的事情,是一个动词,而不是名词。
随后,韩博谈到单模态理解的局限性,相似的图像会造成误判,韩博举例到一个人拿着一根棒棒糖,单纯看图难以分辨他是在抽烟还是吃糖。如何解决这个问题呢?在多模态的情况下,有前后文,多模态的场景可以很好的解决这个问题。另外脱离场景判断内容,判断是跟场景、其他的信息相关时会更加客观。最后结合文本识别。韩博强调,真正的多模态融合,最终要输出一个跟场景和具体命题相关的整体视频结论。
多模态融合理解助力读懂视频
韩博介绍到在读懂视频这件事情上金山云具体的实现方案分为两个阶段:第一个是感知阶段,第二个是推理阶段。现有的绝大多数技术更多的是局限于前一个阶段,一些低层语义的信息感知上,而且感知的手段是多方面的,可以有音频、视频图像,还可以有字幕,一系列的基础模型,OCR识别、音频识别,人脸识别,可以处理一堆结果,这是相关标签,但是这些标签并不足以支撑最终读懂视频,缺一个推理的过程,最终我们需要一个决策引擎把所有的信息融合在一起。
韩博以内容审核为例,如果你在前面一系列的视频得出的标签,有一女生穿着校服,还有一个场景是封闭的宾馆,那么以现有的知识图谱讲是有一定的危险度场景,需要进一步的判断或者进一步分析。
韩博介绍到多模态的概念,模态是一个生物学的概念,是一个生物通过自己的感觉器官,通过自己的新知识从自然界或者外界的信息中获取信息的一个通道。从计算机科学的角度讲,其实是一个感官或者是信息的通道,从不同的感官上搜集信息,最终做综合的决策。
随后韩博谈到内容生产的几个场景:语音字幕You Tube已经有这样的场景,自动的进行语音的转写。还有智能的BGM,根据视频的内容自动的推荐音乐,可以分析整个视频中的节奏和韵律推荐最合适的音乐。还有视频特效,识别出对应的场景和动作,可以自动添加视频特效,相当于把5G内容生产的门槛进一步降低。多模态融合也存在许多技术难点,主要体现在两个方面:第一个还是特征,第二个是融合。
相对于 AI 目前所展示出在图像和语音领域的单一感知能力,视频理解更加复杂,也更加困难,这体现在理解视频是二者的叠加,是图像到视频的变化。对于一个视频来讲目前的模态区分成以下几个方面,首先是视频截祯,有可能封面或者代表性的图片,还有音频提取或者视频本身。对于音频,一方面用ASR转化成文本,还有一种经过声文的特征,谩骂等等敏感词,会经过声文特征的模型。还有一个文本分析的过程,最终这几类的信息会进入决策引擎,产生AI认知,这是全过程。
最后,韩博介绍了多模态视频理解带来的展望,首先是人机交互的升级,无论是物联网、智能家居,其实都是一个典型的多模态过程。现在用户家中都有智能音箱入口,还有各种各样的传感器感知到周围环境的变化,某种意义上这就是多模态的过程,而且多模态交互最终的诉求是想人机交互会更加自然,使用户感到温度,所以多模态一定是未来5G的大趋势。最终带来的算法技术的革新,新的技术场景一定会推动技术的演进,AI的技术会跟着5G的技术一起成长,一起赋能人类美好生活。
责任编辑:吴昊