主页 > W新生活 >MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以 >

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

作者/量子位 方栗子

本文经 AI 新媒体量子位(公众号 ID:QbitAI)授权转载,转载请联繫出处

先提一个可能直击灵魂的问题:你家洗碗槽里的碗,放几天了?

显然,你和她都不想先去洗,那样就是低了头。

让服务机器人出面化解这场僵持,可能还只是想想而已。不过,训练 AI 在虚拟世界里做家事,已经有人在做了。他们还说,教 AI 做虚拟家务,是为了今后能 让机器人全权代理人类的家务工作 。

以麻省理工(MIT)和多伦多大学的研究人员为主的一支 AI 团队,建立起了名为 VirturalHome 的家庭环境模拟器,化为人形的 AI 可以在里面学习大量的生活技能。

事无鉅细模拟器

VirtualHome 由三个部分组成。

一是 家事知识库 ,里面包含了人类在家庭生活里会经历的各种活动。

教 AI 做事情不容易,比如让它看电视,如果不告诉它坐到沙发上、拿起遥控器,它自己并不会去做这些準备动作;所以,不论一项技能多幺日常,都需要把它尽可能拆解成细小的步骤,比如走进厨房,拿起杯子之类。

于是知识库里的每一个任务,都要包含分解动作的文字描述,以及用来执行的脚本。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

二是 3D 模拟器 ,里面有 6 个公寓,以及 4 个人物可以选择。虚拟环境中,案例、语意标籤注解、深度、姿势以及光源,应有尽有。

在这里面,角色可以执行程序给定的任务,生成各种家务活动的影片。

三是 脚本生成模型 ,根据自然语言描述或者视频内容,生成相应任务的执行程序。在模拟器并不十分广阔的天地里,研究人员要训练神经网络的各项家事技能。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

论文里说,这项研究的目标,就是 让 AI 在自然语言和影片的指引之下,自己写出程式来做好家务 。

一步很难登天,那幺,三步怎幺样?

一、数据怎幺搞

要训练出一只可靠的家务 AI,首先就是蒐集各种家务活动的数据,这要分为两个部分。

第一部分,让一群临时工(AMT worker)来提供任务的口头描述。每个人要想出一项日常家庭活动,给出高级名称,比如「做咖啡」,然后 描述它的分解步骤 。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

活动按起始场景分类就有 8 种,客厅、厨房、餐厅、卧室、儿童房、浴室、玄关、书房,每个场景都包含了 350 个物体。

第二部分,临时工们会用图形编程语言, 把这些描述翻译成程式 ,当然也需要详细的步骤(每一步都是一个 block),而且要比描述的还要全面——要让(目前还不存在的)机器人能够贯彻落实。

数据集就这样建好了,里面充满了大大小小的任务所对应的程式。

二、动画化

把数据集里的程式变成动画,首先要看房间里的哪个物体是要操作的对象,同时生成合理的动作。这里,系统需要把一个任务的所有步骤都看过一遍,然后规划一条合理的路径。

比如,执行一项「打开电脑然后敲键盘」的任务,比较理想的流程是,开机之后就在离目标电脑最近的键盘上操作就可以了,不用再确定哪一个才是目标键盘。

这就是 VirtulHome 生成的影片啦。

原子动作动画化

每个任务都是由大量 原子动作(Atomic Actions) 组成的,把它们全部动画化是个不小的工程。

这里用到了 12 种最常见的动作:走/跑、抓取、按键开/关、(物理)打开/关闭、放置、望向、坐下/站起,以及触摸。每种动作的执行方式不唯一,比如开冰箱和开抽屉,姿势就不一样了。

团队用 Unity 引擎里的 NavMesh 来导航;用 RootMotion FinalIK 反向动力学包,把每个动作动画化。另外,跟人物发生交互的物体,也要发生相应的动作。

程序动画化

要让程序里的任务显现成动画,就要先在程序中的物体、和模拟器场景中的物体之间建立映射。然后为程序里的每一步, 计算人物和目标物体的相对位置 ,以及计算其他与动画化相关的数字。

记录动画

模拟器的每个房间里,有 6 到 9 台摄影机,每个公寓平均下来 26 枚。

这些摄影机不需要一直开启,系统根据人物所在的位置来决定启用哪些摄影机。记录下来的影片,下一步可以餵给神经网络, 训练它生成自己的程式 。

三、用影片和自然语言生成程式

给 AI 一段影片,或者一段自然语言,让它自动生成相应的家事执行程式,做一只有觉悟的 AI。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

团队调整了 seq2seq 模型,来适应这个任务,然后用强化学习来训练它。

这里的模型,是由两只 RNN 组成的,一只给输入序列编码,另一只负责解码。神经网络每次可以生成一项家事中的一个步骤。

研究人员用 word2vec 给文本编码;处理影片的话,他们用到了 DilatedNet 和 Temporal Relation Netork,并把每条影片拆成许多个 2 秒长的片段,然后用模型来预测中间帧的样子。

接下来,学习和推断的部分分成两步。

    用交叉熵损失(Cross Entropy Loss)对解码器做预训练。强化学习登场,智能体要学习一下策略 (Policy) ,用来生成程序里面的步骤。
AI 在模拟器里很幸福

数据集的质量如何?动画化的效果怎样?系统生成的程式又能不能指向希望的任务呢?

测试过程请见 论文 。不过在那之前,先看看这个人。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

看电视的任务做得很流畅,他还会找个舒服的姿势坐下来,很悠然。团队也觉得,从生成的影片来看,各种任务的完成度还是不错的。

下一步,就要给 AI 餵真实拍摄的视频了,毕竟模拟器里发生的一切,和物理世界还是不一样的。

是太幸福了吧?

毕竟,模拟器里的家庭环境一成不变,东西都摆在它该在的地方,也没有小朋友跑来跑去。在机器人接手任务之前,AI 可能还需要在更加难以预测的模拟环境里,训练很长时间。

另外,就算环境变化不是问题,真实的家务操作也并不像捡个装备那幺简单,容错率非常低。

MIT 人工智慧团队新目标:让 AI 帮人类做家事,以后可以

比如,端一杯咖啡不可以只有 90% 的準确度,95% 也不太行。因为,百 分之一的差错,会造成百分之百的灾难 。

CVPR 欢迎您

不久以后,研究团队就要怀着激动的心情,登陆 CVPR(IEEE 国际电脑视觉与模式识别会议),在世人面前宣告,他们为了这个宏远的理想,踏出了多幺坚实的一小步。

代码还没放上 Github,不过可以先看看 论文 啊。