NextHuman创始人吴靖仇在大会上发表了题为《超写实3D数字人行业的飞轮模型与发展要素》的精彩演讲。关于在空间计算时代,3D数字人如何以亲民的姿态进入千行百业,吴靖仇在会上重点介绍了超写实3D数字人的飞轮模型和行业发展的两个要素。
演讲内容
吴靖仇介绍道:我们要先对3D数字人下个定义,很多场合下,大家会把3D数字人和2D数字人混同起来,我们对3D数字人的定义是具有三维拓扑结构,能够参与空间计算的数字角色。另外一个就是我们对消费级的定义,一是高品质的用户体验,另外是要有极低的使用门槛,这两个是缺一不可的。如果说我们只追求高品质,但是你的使用的门槛降不下来,就不能变成消费级的体验,反过来也一样。我们认为苹果是消费级的产品,因为品质好,同时使用门槛低。
关于数字人行业存在的一些问题,吴靖仇提出了一下几点问题:第一点,做数字人很贵,尤其是去年的时候,做一个数字人几十万甚至是上百万的成本。第二点,再次使用依旧很贵,因为传统制作管线的成本就是线性的。第三点,就是应用场景比较少,数字人做完了以后我们有一个疑问,就是以后有什么用,花了一两百万做了一个品质很高的数字人有什么用?这个是企业内部包括品牌、政府部门做之前要问自己的问题。其实我们认为并不是缺乏使用场景,而是缺乏一套有效的应用支撑软件来赋能。第四点,就是3D资产复用性低,这就比较专业了,在座很多老朋友,都是3D行业的专家,大家都知道,每一家供应商做的数字人的格式都是不一样的,我们经常碰到一个问题,客户今年花了100万做了很好的3D数字人,只出了一条视频,第二年,尤其是今年,ChatGPT来了,所有的客户会说你能不能让这个数字人给我驱动起来,能不能人机对话?能不能自动直播卖货 ,如果不行,就要换一个供应商,然后第二家供应商要改格式和标准,于是还要花一笔资产重制的钱,这个是行业里面经常存在的问题,很容易被忽略。
吴靖仇提到了飞轮的模型,包括三个维度,“高写实度”,“实时互动”,“持续性运营”,他认为只有这三个维度得分都比较高时,数字人行业才会真正得到普及和应用。他提到:我们很容易用算法驱动一个低面的甚至二次元的数字人,因为嘴型只有几种形状,但是如果你要驱动一个超写实数字人,就没这么容易。那现在的客户需求是,不仅要让超写实的3D数字人能够实时互动起来,同时这个行为要能够在我们的办公环境,甚至自己的家里就能完成,只有这样,才可以持续性的运营。所以这三个维度就是我今天说的数字人飞轮。
那这个飞轮的动力来自于哪里?吴靖仇表示说有两个要素,即两股动力。第一个要素就是基于AIGC的技术创新,第二个要素是要打造一套易用的应用引擎全家桶。
首先AIGC对数字人的赋能是哪些方面?主要是三个方面,第一个是对形象的赋能,就是建模相关的。第二是对交互的赋能,这里一般指的是表现层的多模态交互,比如如何驱动你的嘴唇、表情、动作等等。第三就是大家最清楚的GPT/Agent AI相关,解决了数字人的大脑思维问题,实现更多自动化 。
其中,关于AIGC对建模的支持,吴靖仇展示NextHuman一个技术Photo2NextHuman,它的核心是用三张照片,三四分钟时间出来一个接近自己的数字人的模型,是纯3D的,超写实的PBR材质,具备稳定的拓扑结构,这是AI对建模方面的支持。
在会上,吴靖仇做了示范,展示了三张照片出来的这个实际的结果。从自动建模完成,到在软件里做一键美颜,再在软件里面加上光照,添加衣服,操作非常简单。做这样高品质的超写实数字人,以前是很贵的,AIGC赋能下可以变得比较的简单。随后还示范了科幻的,魔幻的,古典的,未来感的各类数字人。
吴靖仇介绍道:第二点就是交互,这里包含一系列的动画驱动,比如当文字、声音输入进来,如何让数字人的嘴唇更加生动真实的动起来,视频里是我们采集数据进行AI训练的过程。这个过程建立了声音和超写实数字人的肌肉骨骼之间的逻辑关系,这个算法是我们自研的Audio2Mouth,那么最终的效果是什么?
会上,吴靖仇呈现了超写实数字人在文字和声音,基于Audio2Mouth算法,输入文字,就可以实时的把嘴巴的肌肉变化表达出来,甚至颤音也可以表达出来。由于算法上建立的是声音和骨骼/肌肉之间的关系,所以也可以支持唱歌,叫做 Music2Mouth算法,这个体验NextHuman在国内甚至是全球范围都是很领先的,吴靖仇现场展示了上传歌声,自动生成嘴型的效果,可以呈现平滑细腻的嘴型效果,完美匹配了歌声里本身的节奏和韵律。相比起英伟达的Audio2Face,NextHuman的嘴型生成效果更加适合中文和东方脸型。
吴靖仇会上还展示了NextHuman 相关案例,来说明AIGC对大脑的赋能。比如数字人“正义”,是最高人民法院两会工作报告虚拟讲解员,是今年两会期间,委员代表通过手机扫码,通过云渲染,与“正义”进行一对一的自然语言对话,可以咨询最高法今年工作报告相关内容。这是一个很严肃的项目,使用的环境对安全和稳定性都有极高的要求,我们向“正义”输入了大量和法院工作报告相关的材料和知识,进行模型训练,最后效果非常好。吴靖仇说:值得强调的是整个项目从零开始,当时是没有角色形象的,到最后项目上线,我们全链路准备了300路的并发,从ASR到NLP到TTS到云渲染,实现了全链路极低延时,整个项目的执行周期不到15天的时间,非常高效率,这在一般的公司里,是绝对不可能实现的。
另外介绍的案例是结合了GPT4的多模态,数字人“白小绸”作为私人助理,可以对视频图片进行识别和处理,还可以对一些任务进行自动化处理,起到了私人助理的效果。
吴靖仇还介绍了为浙江省联通制作的数字人“如意”,学些了很多和联通业务相关的知识,可以自动卖货,可以作为自动客服,还可以作为主持人,比如“如意”在一次联通内部颁奖典礼的时候,站在全息舱里面,和真人主持人一起主持会议 ,比如真人主持人会问如意:如意如意,你知道今天的活动主题是什么?你知道今天有什么奖项?等等,如意会及时进行对话,实现共同主持。
吴靖仇还展示了“未来前台”数字人,效果惊艳,他说:我们可以不断增强数字人的听觉、视觉,挂载更多的自动代理能力,前端通过自然语言交互来捕获你的意图,后端开始执行对应的任务,可以做员工考勤,可以做客户接待,Agent AI 会是数字人下一个重要的方向 。
第二个要素是工具链,虽然AIGC对数字人建模、交互和大脑方面进行了全面的赋能,但还不够,因为我们希望在自己的工作环境,在自己的家里就能够使用这些AIGC能力,门槛要低,要可以持续,所以必须要有一套易用的、完备的“应用引擎全家桶”,让数字人具备可持续性运营的条件。 开头我们说过 3D行业很容易被客户忽视的一点,就是资产格式不统一带来的成本,很多客户更换了供应商,就需要重新做一遍,升级新的应用场景,也要重新做一遍,客户就很不理解。所以我们强调“应用引擎全家桶”,从做数字人到用数字人,最好不要离开一个格式,不要离开一套引擎。
会上展示了NextHuman 全家桶的五大引擎,覆盖了目前主流的内容输出形式和应用场景,包括:中之人直播引擎,AI直播引擎,3D数字人视频制作引擎,交互式数字人无代码引擎,元宇宙人货场引擎。
吴靖仇专门介绍了3D数字人的AI直播效果,不同于大家常见的2D数字人直播,前者能够发挥出3D的特色,比如可以自动空间切换,比如可以更加灵活的响应弹幕来切换主播服饰和容貌,更加吸引眼球。另外3D数字人视频制作引擎是全球首款针对超写实数字人的分轨式AIGC剪辑器,被大家戏称为3D版剪映。
最后,吴靖仇总结道:超写实数字人想要进入千行百业,真正被用起来,必然少不了这两个要素,一个就是AIGC的能力,一个就是引擎全家桶,两个都具备的时候,飞轮就可以转起来了”。
责任编辑:Johnny