哄一哄能让GPT-3准确率暴涨61谷歌u0026东京大学研究震惊四座

梦晨 明敏 发自 凹非寺

量子位 公众号 QbitAI

一觉醒来,机器学习社区炸了锅。

因为最新研究发现,只要对GPT-3说一句“让我们一步一步地思考”,就能让它正确回答出以前不会的问题。

比如下面这个例子:

16个球中有一半是高尔夫球,这些高尔夫球中有一半是蓝色的,一共有几个蓝色的高尔夫球?

最早把这篇论文转发到社交网络的佐治亚理工学院博士表示,新的all you need增加了。

看到这里,各路大佬纷纷脑洞大开,玩起了梗。

如果鼓励AI“你能行的,我相信你”会怎样?

威胁AI一下说“时间不多了”或者“你头上有把枪”又会如何?

还有人提出,这简直和科幻故事《银河系漫游指南》的剧情一样,实现通用人工智能的关键是知道如何正确地向AI提问。

那么,这种神奇现象究竟怎么回事?

语言大模型是零样本推理者

发现这个现象的是谷歌大脑与东京大学的合作研究,探索了语言大模型在零样本场景下的表现。

论文标题《语言大模型是零样本推理者》还致敬了GPT-3的《语言模型是少样本学习者》。

所用方法属于Chain of Thought Prompting (思维链路提示,以下简称CoT),今年一月刚由谷歌大脑团队提出。

这样做最大的好处是通用,不再需要对不同问题类型提供专用的示例。

论文中对各类问题做了充分实验,包括12项测试:

6个数学问题测试集,SingleEq、AddSub、SVAMP和更有挑战的MultiArith, AQUA-RAT, GSM8K。

2个常识推理测试集,CommonsenseQA和StrategyQA。

2个符号推理测试集,Last Letter Concatenation和Coin Flip。

以及BIG-bench中的日期理解问题、跟踪乱序物体任务。

与普通的零样本学习相比,零样本CoT在其中10项中取得更好效果。

对此,作者之一顾世翔回复表示,其实“咒语”对初始版、改良版的GPT-3都有效果,这些结果在论文中也有体现。

不过值得注意的是,类似这种稍微给AI加点小魔法,提升效果立竿见影的例子已经不稀奇了。

有网友分享,自己用GPT-3时加几个中间命令,确实能得到更满意的结果。

那么“提示词猎人”会成为下一代NLP研究者的外号么?

论文地址:https://arxiv.org/abs/2205.11916

参考链接:[1]https://twitter.com/arankomatsuzaki/status/1529278580189908993[2]https://evjang.com/2021/10/23/generalization.html

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态