首页 资讯头条人工智能正文

Google的AI学习如何从有限的数据中导航环境

Google的AI学习如何从有限的数据中导航环境

卡内基·梅隆(Carnegie Mellon),谷歌和斯坦福大学的研究人员在一篇论文中写道,他们已经开发出了使用弱监督的框架-一种AI培训形式,其中的模型从大量有限,不精确或嘈杂的数据中学习-使机器人能够高效探索充满挑战的环境。研究人员说,通过学习仅到达与任务相关的周围区域而不是每个角落的方法,他们的方法可以加快各种机器人操作任务的训练速度。

团队的框架-弱监督控制(WSC)-学习一个语料库,软件代理可以使用该语料库生成自己的目标并进行探索。它包含强化学习,这是一种培训形式,可以刺激特工通过奖励实现目标。但是与传统的强化学习不同,传统的强化学习需要手工计算的奖励才能获得昂贵的计算成本,而WSC则通过提供一种可随数据收集而扩展的监督形式来构架弱监督的学习问题。在强化学习循环中。

在实验中,研究人员试图确定是否需要弱监督来学习解开的状态表示,即受主体行为影响的一组特征。他们为多个模型分配了任务,这些模型具有复杂度各异的基于视觉的,基于目标条件的操纵任务:在一个环境中,特工的任务是将特定物体移动到目标位置,而在另一个环境中,特工必须打开一扇门以匹配一个目标。球门角度。

合著者报告说,WSC的学习速度比以前的最新目标条件强化学习方法要快,尤其是随着代理人各种环境的复杂性的提高。此外,他们说,WSC在潜在目标和最终状态之间获得了更高的相关性,这表明WSC学会了更具解释性的目标条件政策。

但是,研究人员承认,WSC并非没有局限性。它要求用户指出与下游任务相关的因素,这可能需要专业知识,并且仅在预培训期间使用薄弱的监督,这可能会产生无法概括为座席遇到的新交互的表示形式。这就是说,他们希望在未来的工作中能够调查其他形式的薄弱监管,这些薄弱监管可以为代理提供有用的信号,以及其他利用这些标签的方式。

共同作者写道:“鉴于在日益复杂的环境中取得可喜的结果,在现实环境中用机器人评估这种方法是一个令人兴奋的未来方向。” “总体而言,我们认为我们的框架为监督在复杂环境中行动的通用代理的开发提供了新视角。”

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

Copyright © 2020 未知资讯 特别赞助:智慧城市 群晖NAS 苏ICP备19070053号-2