NextHuman创始人吴靖仇：超写实3D数字人行业的飞轮模型与发展要素

2023-08-28 11:09:39来源：热度:

NextHuman创始人吴靖仇在大会上发表了题为《超写实3D数字人行业的飞轮模型与发展要素》的精彩演讲。关于在空间计算时代，3D数字人如何以亲民的姿态进入千行百业，吴靖仇在会上重点介绍了超写实3D数字人的飞轮模型和行业发展的两个要素。

演讲内容

吴靖仇介绍道：我们要先对3D数字人下个定义，很多场合下，大家会把3D数字人和2D数字人混同起来，我们对3D数字人的定义是具有三维拓扑结构，能够参与空间计算的数字角色。另外一个就是我们对消费级的定义，一是高品质的用户体验，另外是要有极低的使用门槛，这两个是缺一不可的。如果说我们只追求高品质，但是你的使用的门槛降不下来，就不能变成消费级的体验，反过来也一样。我们认为苹果是消费级的产品，因为品质好，同时使用门槛低。

关于数字人行业存在的一些问题，吴靖仇提出了一下几点问题：第一点，做数字人很贵，尤其是去年的时候，做一个数字人几十万甚至是上百万的成本。第二点，再次使用依旧很贵，因为传统制作管线的成本就是线性的。第三点，就是应用场景比较少，数字人做完了以后我们有一个疑问，就是以后有什么用，花了一两百万做了一个品质很高的数字人有什么用？这个是企业内部包括品牌、政府部门做之前要问自己的问题。其实我们认为并不是缺乏使用场景，而是缺乏一套有效的应用支撑软件来赋能。第四点，就是3D资产复用性低，这就比较专业了，在座很多老朋友，都是3D行业的专家，大家都知道，每一家供应商做的数字人的格式都是不一样的，我们经常碰到一个问题，客户今年花了100万做了很好的3D数字人，只出了一条视频，第二年，尤其是今年，ChatGPT来了，所有的客户会说你能不能让这个数字人给我驱动起来，能不能人机对话？能不能自动直播卖货，如果不行，就要换一个供应商，然后第二家供应商要改格式和标准，于是还要花一笔资产重制的钱，这个是行业里面经常存在的问题，很容易被忽略。

吴靖仇提到了飞轮的模型，包括三个维度，“高写实度”，“实时互动”，“持续性运营”，他认为只有这三个维度得分都比较高时，数字人行业才会真正得到普及和应用。他提到：我们很容易用算法驱动一个低面的甚至二次元的数字人，因为嘴型只有几种形状，但是如果你要驱动一个超写实数字人，就没这么容易。那现在的客户需求是，不仅要让超写实的3D数字人能够实时互动起来，同时这个行为要能够在我们的办公环境，甚至自己的家里就能完成，只有这样，才可以持续性的运营。所以这三个维度就是我今天说的数字人飞轮。

那这个飞轮的动力来自于哪里？吴靖仇表示说有两个要素，即两股动力。第一个要素就是基于AIGC的技术创新，第二个要素是要打造一套易用的应用引擎全家桶。

首先AIGC对数字人的赋能是哪些方面？主要是三个方面，第一个是对形象的赋能，就是建模相关的。第二是对交互的赋能，这里一般指的是表现层的多模态交互，比如如何驱动你的嘴唇、表情、动作等等。第三就是大家最清楚的GPT/Agent AI相关，解决了数字人的大脑思维问题，实现更多自动化。

其中，关于AIGC对建模的支持，吴靖仇展示NextHuman一个技术Photo2NextHuman，它的核心是用三张照片，三四分钟时间出来一个接近自己的数字人的模型，是纯3D的，超写实的PBR材质，具备稳定的拓扑结构，这是AI对建模方面的支持。

在会上，吴靖仇做了示范，展示了三张照片出来的这个实际的结果。从自动建模完成，到在软件里做一键美颜，再在软件里面加上光照，添加衣服，操作非常简单。做这样高品质的超写实数字人，以前是很贵的，AIGC赋能下可以变得比较的简单。随后还示范了科幻的，魔幻的，古典的，未来感的各类数字人。

吴靖仇介绍道：第二点就是交互，这里包含一系列的动画驱动，比如当文字、声音输入进来，如何让数字人的嘴唇更加生动真实的动起来，视频里是我们采集数据进行AI训练的过程。这个过程建立了声音和超写实数字人的肌肉骨骼之间的逻辑关系，这个算法是我们自研的Audio2Mouth，那么最终的效果是什么？

会上，吴靖仇呈现了超写实数字人在文字和声音，基于Audio2Mouth算法，输入文字，就可以实时的把嘴巴的肌肉变化表达出来，甚至颤音也可以表达出来。由于算法上建立的是声音和骨骼/肌肉之间的关系，所以也可以支持唱歌，叫做 Music2Mouth算法，这个体验NextHuman在国内甚至是全球范围都是很领先的，吴靖仇现场展示了上传歌声，自动生成嘴型的效果，可以呈现平滑细腻的嘴型效果，完美匹配了歌声里本身的节奏和韵律。相比起英伟达的Audio2Face，NextHuman的嘴型生成效果更加适合中文和东方脸型。

吴靖仇会上还展示了NextHuman 相关案例，来说明AIGC对大脑的赋能。比如数字人“正义”，是最高人民法院两会工作报告虚拟讲解员，是今年两会期间，委员代表通过手机扫码，通过云渲染，与“正义”进行一对一的自然语言对话，可以咨询最高法今年工作报告相关内容。这是一个很严肃的项目，使用的环境对安全和稳定性都有极高的要求，我们向“正义”输入了大量和法院工作报告相关的材料和知识，进行模型训练，最后效果非常好。吴靖仇说：值得强调的是整个项目从零开始，当时是没有角色形象的，到最后项目上线，我们全链路准备了300路的并发，从ASR到NLP到TTS到云渲染，实现了全链路极低延时，整个项目的执行周期不到15天的时间，非常高效率，这在一般的公司里，是绝对不可能实现的。

另外介绍的案例是结合了GPT4的多模态，数字人“白小绸”作为私人助理，可以对视频图片进行识别和处理，还可以对一些任务进行自动化处理，起到了私人助理的效果。

吴靖仇还介绍了为浙江省联通制作的数字人“如意”，学些了很多和联通业务相关的知识，可以自动卖货，可以作为自动客服，还可以作为主持人，比如“如意”在一次联通内部颁奖典礼的时候，站在全息舱里面，和真人主持人一起主持会议，比如真人主持人会问如意：如意如意，你知道今天的活动主题是什么？你知道今天有什么奖项？等等，如意会及时进行对话，实现共同主持。

吴靖仇还展示了“未来前台”数字人，效果惊艳，他说：我们可以不断增强数字人的听觉、视觉，挂载更多的自动代理能力，前端通过自然语言交互来捕获你的意图，后端开始执行对应的任务，可以做员工考勤，可以做客户接待，Agent AI 会是数字人下一个重要的方向。

第二个要素是工具链，虽然AIGC对数字人建模、交互和大脑方面进行了全面的赋能，但还不够，因为我们希望在自己的工作环境，在自己的家里就能够使用这些AIGC能力，门槛要低，要可以持续，所以必须要有一套易用的、完备的“应用引擎全家桶”，让数字人具备可持续性运营的条件。开头我们说过 3D行业很容易被客户忽视的一点，就是资产格式不统一带来的成本，很多客户更换了供应商，就需要重新做一遍，升级新的应用场景，也要重新做一遍，客户就很不理解。所以我们强调“应用引擎全家桶”，从做数字人到用数字人，最好不要离开一个格式，不要离开一套引擎。

会上展示了NextHuman 全家桶的五大引擎，覆盖了目前主流的内容输出形式和应用场景，包括：中之人直播引擎，AI直播引擎，3D数字人视频制作引擎，交互式数字人无代码引擎，元宇宙人货场引擎。

吴靖仇专门介绍了3D数字人的AI直播效果，不同于大家常见的2D数字人直播，前者能够发挥出3D的特色，比如可以自动空间切换，比如可以更加灵活的响应弹幕来切换主播服饰和容貌，更加吸引眼球。另外3D数字人视频制作引擎是全球首款针对超写实数字人的分轨式AIGC剪辑器，被大家戏称为3D版剪映。

最后，吴靖仇总结道：超写实数字人想要进入千行百业，真正被用起来，必然少不了这两个要素，一个就是AIGC的能力，一个就是引擎全家桶，两个都具备的时候，飞轮就可以转起来了”。

下一篇：消息称商汤科技多部门裁员，官方回应“根据市场环境变化优化人才结构”上一篇：黑镜科技创始人及董事长陈军宏：想象力变现时代的技术与商业机会—生成式 AI 数字人，开启下一代互联网的钥匙

责任编辑：Johnny

{{i.label}}

NextHuman创始人吴靖仇：超写实3D数字人行业的飞轮模型与发展要素