研究人员将发展心理学应用于预测对象关系的AI模型

未知资讯人工智能 2020-04-25 12:04:21 1749

人类可以轻松识别物体并对其行为进行推理，这是他们认知发展的核心。即使是儿童，他们也会根据运动将对象细分为对象，并使用对象持久性，坚固性和连续性的概念来解释发生了什么并想象在其他情况下会发生什么。受此启发，来自MIT-IBM Watson AI实验室，MIT的计算机科学与人工智能实验室，Alphabet的DeepMind和哈佛大学的一组研究人员试图通过引入基准（用于视频表示的CoLlision事件）来简化视觉识别问题。和推理（CLEVRER）–从发展心理学中汲取灵感。

CLEVRER包含由物理引擎生成的20,000多个5秒的碰撞对象视频（三种形状的两种材料和八种颜色）以及300,000多个问题和答案，全部集中在逻辑推理的四个要素上：描述性（例如，“什么颜色” ”，说明性（“造成的原因”），预测性（“接下来会发生什么”）和反事实（“如果发生什么”）。它带有视频中每个对象的真实运动轨迹和事件历史记录，以及表示与每个问题配对的基础逻辑的功能程序。

研究人员分析了CLEVRER，以识别出不仅要在描述性问题上脱颖而出的必要元素，而这些描述性问题是最先进的视觉推理AI模型可以做到的，而且在解释性，预测性和反事实性问题上也是如此。他们发现了三个要素-最重要的三个要素-识别视频中的对象和事件，对对象和事件之间的动力学和因果关系建模以及对问题背后的符号逻辑的理解-他们开发了一个模型-Neuro -符号动态推理（NS-DR）-通过表示将它们明确地结合在一起。

NS-DR实际上是四个模型合而为一：视频帧解析器，神经动力学预测器，问题解析器和程序执行器。给定输入视频，视频帧解析器将检测场景中的对象，并提取其轨迹和属性（即位置，颜色，形状，材质）。这些形成视频的抽象表示，将其发送到神经动力学预测器以预测对象的运动和碰撞。问题解析器接收输入问题以获得代表其逻辑的功能程序。然后，符号程序执行器在动态场景上运行该程序并输出答案。

该团队报告说，在1000个程序下对问题解析器进行训练后，他们的模型达到了88.1％的准确性，优于其他基准模型。在解释性，预测性和反事实性问题上，它取得了“更大的收益”。

研究人员指出：“ NS-DR [将动态规划器纳入视觉推理任务中，可以直接预测未观察到的运动和事件，并为预测性和反事实性任务启用模型。” “这表明动态规划对于基于语言的视觉推理任务具有很大的潜力，NS-DR朝着这个方向迈出了第一步。其次，符号表示为视觉，语言，动力和因果关系提供了强大的共同基础。通过设计，它使模型能够明确捕获视频因果结构和问题逻辑背后的组成。”

研究人员承认，即使培训所需的数据量相对较少，但在实际应用中却很难获得。此外，在需要长期动态预测的任务（例如反事实问题）上，NS-DR的性能下降，他们说这表明需要一种能够生成更稳定和准确轨迹的更好的动态模型。

本文链接：https://x0x8.com/AI/113.html