首页 资讯头条人工智能正文

研究人员挑战AI在Reddit上可以提供建议给人类

2020-04-15_065431.jpg

西雅图的研究人员介绍了他们称为AI的新挑战,即TuringAdvice,该挑战主要集中在创建语言模型上,这些模型使用现实世界的语言为人类提供有用的建议。

TuringAdvice挑战基于动态RedditAdvice数据集。为应对挑战而创建的RedditAdvice是过去两周共享的众包建议数据集,在Reddit子社区中获得最多支持。为了克服挑战,机器必须提供与流行的人类建议一样有用或更好的建议。

作为TuringAdvice发布的一部分,研究人员还发布了静态RedditAdvice 2019数据集,用于训练提供建议的AI模型,其中包括来自Reddit子社区中人们共享的188,000种情况的616,000条建议。

初步分析表明,先进的模型(例如Google的T5,去年秋天推出的具有110亿个参数的模型)仅在9%的案例中发现写建议主持人至少与人工建议一样有用。研究人员还评估了Grover变压器模型和TF-IDF的版本。该研究未评估流行的双向NLP模型,例如Google的BERT,因为通常认为它们在生成文本方面比从左至右的模型差。人类在与机器的关系咨询,法律事务,以及生活在一般的演示中,可在网上。

“今天最大的模型在REDDITADVICE上苦苦挣扎,因此我们很高兴看到开发了什么新模型,”最近发布的有关TuringAdvice的论文中写道。“我们认为存在一个深层的潜在问题:人类如何在现实世界中使用语言,以及我们的评估方法可以衡量的问题之间存在差距。当今的主要范例是研究静态数据集,并通过其输出与预定义正确答案的相似性对机器进行评分。

“但是,当我们使用现实世界中的语言相互交流时(例如当我们提供建议或向某人传授概念时),几乎没有一个普遍正确的答案可以与之相提并论,这只是我们想要实现的一个宽松目标。我们引入了一个框架来缩小基准与实际语言使用之间的差距。”

作者说,在TuringAdvice挑战中创建AI方面的进展可能使AI的创建更好地为人类提供建议或充当虚拟治疗师。

为了确保结果与实际使用的语言保持一致,团队选择了一种动态评估方法,在最近的两周内,他们从Reddit子社区收集了200种情况。他们选择建议作为测试方案,因为它是所有人固有的固有知识,并且与诸如阅读理解之类的NLP核心任务重叠。

TuringAdvice挑战是华盛顿大学和艾伦AI研究所的工作,上周在预印本库arXiv上发表的题为“通过真实世界的语言来评估机器”的研究论文中对此进行了详细说明。华盛顿大学副教授阿里·法哈迪(Ali Farhadi )也是其合著者之一,他的AI初创公司Xnor最近被苹果收购。Farhadi还是艾伦研究所(Allen Institute)PRIOR小组的负责人。

对模型性能的所有评估均来自通过亚马逊的Mechanical Turk雇用的人员。该论文曾经是一种不习惯使用的方法来获取用于训练AI模型的数据,但该论文呼吁雇用Mechanical Turk员工比向需要帮助的人发布自动化机器建议更具道德性,但他承认为完成任务而获得报酬会引入外部动机。倾向于选择机器建议而不是人工建议的工人被放开了。

首席研究员罗文·泽勒斯(Rowan Zellers)告诉VentureBeat,预计第二个月的排行榜结果将在研究人员有机会创建和微调模型以应对TuringAdvice挑战后的几个月内得出。

研究人员说,通过选择Reddit子社区中共享的流行建议,他们试图创造内在动力,例如人类响应Reddit上的求助电话所经历的那种动机。

应对TuringAdvice挑战的一个担忧是价格。评估200条有关Turk的建议的成本约为370美元。TuringAdvice挑战赛的未来参与者将被要求支付Mechanical Turk费用,以便对其模型进行评估或可能出现在TuringAdvice排行榜上。

TuringAdvice是在过去一年中提出的最新挑战,以建立更强大的自然语言模型。去年秋天,华盛顿大学的NLP实验室与来自纽约大学,Facebook AI Research和Samsung Research的研究人员一起介绍了SuperGLUE挑战和排行榜,这是评估性能的一系列更为复杂的任务。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

Copyright © 2020 未知资讯 特别赞助:智慧城市 群晖NAS 苏ICP备19070053号-2