有一天,你可能希望你的家用机器人能把一堆脏衣服搬到楼下,并把它们放在地下室最左边角落的洗衣机里。机器人需要结合你的指令和视觉观察来确定完成这项任务应该采取的步骤。 对于 AI 代理来说,这说起来容易做起来难。目前的方法通常利用多个手工制作的机器学习模型来解决任务的不同部分,这需要大量的人力和专业知识来构建。这些方法使用视觉表示直接做出导航决策,需要大量的视觉数据进行训练,而这些数据通常很难获得。 为了克服这些挑战,麻省理工学院和麻省理工学院-IBM Watson AI 实验室的研究人员设计了一种导航方法,将视觉表征转换为语言片段,然后将其输入到一个大型语言模型中,该模型可实现多步导航任务的所有部分。 他们的方法不是将机器人周围环境图像中的视觉特征编码为视觉表征(这需要大量计算),而是创建描述机器人视角的文本字幕。大型语言模型使用这些字幕来预测机器人应采取哪些动作来执行用户的语言指令。 由于他们的方法利用纯粹基于语言的表示,因此他们可以使用大型语言模型来有效地生成大量合成训练数据。 虽然这种方法并不比使用视觉特征的技术更好,但在缺乏足够视觉数据进行训练的情况下,它表现良好。研究人员发现,将基于语言的输入与视觉信号相结合可以提高导航性能。 “通过纯粹使用语言作为感知表征,我们的方法更直接。由于所有输入都可以编码为语言,我们可以生成人类可理解的轨迹,”电气工程和计算机科学 (EECS) 研究生、该方法论文的主要作者 Bowen Pan 说道。 潘的合著者包括他的导师、麻省理工学院施瓦茨曼计算机学院战略行业参与主任、麻省理工学院-IBM 沃森人工智能实验室主任、计算机科学与人工智能实验室 (CSAIL)…
Read More