立体电影利用的是什么原理,立体电影工作原理

2022年10月14日 10:06 • 综合

萧箫发自凹非寺量子位 | 公众号 QbitAI

让3D动画小人做一套丝滑的动作，需要手动渲染多久？

现在交给AI，输入几句话就能搞定（不同颜色代表不同动作）：

看向地面并抓住高尔夫球杆，挥动球杆，小跑一段，蹲下。

此前，AI控制的3D人体模型基本只能“每次做一个动作”或“每次完成一条指令”，难以连续完成指令。

现在，无需剪辑或编辑，只需按顺序输入几条命令，3D人物就能自动完成每一套动作，全程丝滑无bug。

这只新AI的名字叫TEACH，来自马普所和古斯塔夫·艾菲尔大学。

网友们脑洞大开：

这样以后拍3D动画电影，是不是只用剧本就能搞定了？

显然，游戏和仿真行业可以考虑一下了。

那么，这样的3D人物动作神器是怎么来的呢？

用编码器“记住”前一个动作

TEACH的架构，基于团队不久前提出的另一个3D人体运动生成框架TEMOS。

TEMOS基于Transformer架构设计，利用人体真实运动数据进行训练。

它在训练时会采用两个编码器，分别是动作编码器（Motion Encoder）和文本编码器（Text Encoder），同时通过动作解码器（Motion Decoder）输出。

但在使用时，原本的动作编码器就会被“扔掉”、只保留文本编码器，这样模型直接输入文本后，就能输出对应的动作。

与其他输入单一文本、输出确定性动作的AI不同，TEMOS能通过单一文本，生成多种不同的人体运动。

例如“人绕圈”和“站着走几步路停下来”这种单一指令，就能生成好几种不同的运动方式：

△转圈方式、走路步幅都不一样

TEACH的架构正是基于TEMOS设计，动作编码器直接就从TEMOS那儿搬了过来。

但TEACH重新设计了文本编码器，其中包括一个名叫Past Encoder的编码器，它会在生成每一个动作时，提供前一个动作的上下文，以增加动作与动作之间的连贯性。

如果是一系列指令中的第一个动作，就禁用Past Encoder，毕竟没有前一个动作可以学了。

TEACH在BABEL数据集上进行训练，这是一个时长43小时的动捕数据集，包含过渡动作、整体抽象动作、以及每一帧的具体动作。

在训练时，BABEL的这一系列动捕数据会被切分成很多个子集，每个子集中包含一些过渡动作，让TEACH能学会过渡并输出。

至于为什么不用另一个数据集KIT进行训练，作者们也给出了自己的看法。

例如在动词类型上，BABEL出现要比KIT更具体，相比之下KIT更喜欢用do/perform这种“模糊的”词汇。

研究人员将TEACH与TEMOS就连续动作生成效果进行了对比。

比TEMOS效果更好

先来看看TEACH生成一系列动作的效果，连续不重样：

随后，研究人员将TEMOS与TEACH进行了对比。

他们使用两种方法对TEMOS模型进行了训练，并分别将它们称之为Independent和Joint，区别在于训练用的数据上。

其中，Independent直接用单个动作训练，在生成时将前后两个动作用对齐、球面线性插值等方式融合在一起；Joint直接用动作对和分隔开的语言标签作为输入。

Slerp是一种线性插值运算，主要用于在两个表示旋转的四元数之间平滑插值，让变换过程看起来更流畅。

以生成“挥挥右手，举起左手”连续两个动作为例。

Independent的表现效果最差，人物当场坐下了；Joint效果好一点，但人物并没有举起左手；效果最好的是TEACH，在挥动右手后又举起了左手，最后才放下。

在BABEL数据集上测试表明，TEACH的生成误差是最低的，除此之外Independent和Joint的表现都不太好。

研究人员还测了测使用上一个动作的最佳帧数，发现当使用前一个动作的5帧时，生成的过渡动作效果最好。

作者介绍

Nikos Athanasiou，马普所在读研究生，研究方向是多模态AI，喜欢探索人类行动和语言背后的关系。

Mathis Petrovich，在古斯塔夫·艾菲尔大学（Université Gustave Eiffel）读博，同时也在马普所工作，研究方向是基于标签或文字说明产生真实的、多样化人体运动。

Michael J. Black，马克思·普朗克智能系统研究所主任，如今谷歌学术上论文引用次数达到62000+次。

Gul Varol，古斯塔夫·艾菲尔大学助理教授，研究方向是计算机视觉、视频特征学习、人体运动分析等。

目前TEACH已经开源，感兴趣的小伙伴们可以戳下方地址体验了~

GitHub地址：https://github.com/athn-nik/teach

论文地址：https://arxiv.org/abs/2209.04066

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

本文地址：https://www.cknow.cn/archives/615

以上内容源自互联网，由百科助手整理汇总，其目的在于收集传播生活技巧，行业技能，本网站不对其真实性、可靠性承担任何法律责任。特此声明！

如发现本站文章存在版权问题，烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com，我们将及时沟通与处理。

没有光猫只有路由器可以上网吗,光猫、交换机、路由器三者的区别

上一篇 2022年10月14日 10:04

灯遥控器怎么配对,照明遥控器配对教程

下一篇 2022年10月14日 10:08

综合

进网试用和进网许可有什么区别,什么是电信设备进网许可制度

1. 问：什么是电信设备进网许可制度？答：《中华人民共和国电信条例》规定，国家对电信终端设备、无线电通信设备和涉及网间互联的设备实行进网许可制度。接入公用电信网的电信终端设备、无…

2023年3月18日
综合

“意念打字”新方法：每分钟能写近30个字母，错误率仅6.13%

戴上一套特殊装备后，就能把自己的想法在屏幕上展示出来。 ——没错，这位无法说话的瘫痪者正在“意念回复”ing…… 他在脑中默读字母的“代号”*，平均约2秒钟就可以输出一个字母，最终…

2022年12月1日
综合

航旅纵横pro和普通有什么区别,航旅纵横pro在哪个平台买

在今年刚刚过去的11月份，我分享过一篇使用Watch GT3的文章，感兴趣朋友可以点击《作为华为WATCH 3用户，我秒换了华为WATCH GT3》查看，这篇文章以“我要锻炼”为背…

2022年10月23日
综合

旷视科技：安全与盈利，AI难以逾越的两座山？

工业革命促进了技术进步：第一次工业革命把人类带入了工业化时代；第二次工业革命让人学会用电；第三次催生了生物医学等新技术；而目前我们正身处第四次工业革命–计算机和互联网的…

2023年1月16日
综合

求购Neuralink、小红书老股；转让持有Shein、某氢能头部公司股份的基金份额｜资情留言板第66期

“资情留言板”是36氪推出的新栏目。资产交易市场，信息瞬息万变，消息真假难辨，即使买卖双方花费大量的时间、精力，推动成交往往困难重重。为了能够帮助买卖双方更快速链接市场信息和潜在…

2022年10月26日
综合

一波未平一波又起：马斯克解雇多名批评他的Twitter工程师

新浪科技讯北京时间11月15日早间消息，据报道，自称是“绝对言论自由主义者”的埃隆·马斯克（Elon Musk）解雇了多名在社交媒体服务上公开批评他的Twitter公司工程师。 …

2022年11月16日
综合

微信重磅更新，打工人赶紧去升级

距离上次更新已经过去近两个月，微信突然放了个大招，Windows版、Android版双双发布更新。微信 3.8.0 for Windows主要更新如下： 1. 可以提取和翻译图片…

2022年11月13日
综合

躺床上拍照怎么摆才好看,怎样摆姿势照相才是最好看的

人像摄影是一门很有趣的摄影形式，有很多拍摄方式，其中平趴或者平躺拍摄的方式更能表现人物的姿态。本文将为大家推荐几种人像摄影的平趴或者平躺拍摄方法。 1：摄影师的建议平趴或者平躺怎…

2023年3月6日
综合

「实在」的京东电器，品牌的「硬核搭档」

人们开始更关注“必需”的东西了。开年以来，对于3C家电讨论最多的，就是行业整体遇冷。尤其是在线下，整个行业面临着巨大的滞销压力，亟待新的通路撬动消费需求。而在线上，消费者的购物狂…

2022年10月30日
综合

《中国奇谭》全网刷屏，B站动画又行了？

在《三体》动画持续扑街的评价中，2023年元旦开播的一部《中国奇谭》为B站找回了一点面子。这部由B站和上海美术电影制片厂共同出品的动画，由8个独立的故事组成，虽然截至目前仅更新了…

2023年1月12日
综合

Allbirds中国区总经理余俊珺：时尚消费产业链应向减碳方向共同努力｜谈碳

以下是「谈碳」第十七期，36碳独家专访了Allbirds中国区总经理余俊珺。在加入Allbirds之前，余俊珺先后为雷朋、戴森、阿迪达斯等品牌开疆中国市场，有着丰富的本土化运营经验…

2022年11月30日
综合

当代年轻人，困于“出片率”

无论是假期周边游，还是周末约咖啡，当代年轻人最先考虑的或许不是风景如何，咖啡好不好喝，而是“出片率”。在各大社交媒体成为“打卡种草机”后，“打卡文化”和“探店文化”成为了不少年轻…

2022年10月30日

立体电影利用的是什么原理,立体电影工作原理

相关推荐