受GPT3的小样本学习能力的启发,本文将重点转移到利用GLMs来创建例子,而不是直接推理,并发现语言模型也是优秀的几率生成器。与少量推理范式类似,本文通过提示几个例子和对所需标签的描述来查询模型,模型会生成与标签相一致的例子,同时与给定的样本相类似。有趣的是,本文发现高质量的数据创建不需要监督,因此本文只需要在提示中使用未标记的例子。然后,由模型创建的数据集可以用来微调任何现成的模型。因此,这种方法可以被视为一种零样本学习程序,在整个过程中不需要人类的标签。不同于无监督程序,下游模型仍然需要用合成数据进行训练,然而训练实例的创建不需要人力。
按照这个程序,我们能够建立一个只使用无标签训练数据的系统,因此我们把它称为无监督数据生成(UDG)。实验表明,我们的无监督系统与强大的监督基线相比表现得很有竞争力,并在文本分类和SuperGLUE语言理解基准上取得了新的最先进的少数学习结果。合成的数据可以进一步用于数据增强的目的。当与现有的标记数据相结合时,我们能够实现第一个超人类的SuperGLUE分数。 这些结果表明,用强大的语言模型创建少量的训练数据是一种很有前途的替代方法,可用于少样本推理。
主要介绍背景知识。
数据增强历来是NLP模型质量改进的一种流行技术,尤其是在低资源环境下(Y u等人。2018;Wei和Zou,2019)虽然传统上简单的启发式方法,如token级别的修改被应用于多样化的训练样本,但最近由于语言建模的进展,生成式数据增强得到了普及(Anaby-Tavor等人,2019;Papanikolaou和Pierleoni,2020;Juuti等人,2020;Lee等人,2021;Kumar等人,2021)。然而,他们往往需要标记的例子来微调生成模型,并进行大量的数据清理后处理。
另一方面,我们的方法以完全无监督的方式生成数据,无需对语言模型进行微调,展示了一种新的零标签学习范式。
我们的方法也与大型语言模型的知识检索密切相关。众所周知,这些模型善于从训练数据中记忆事实,并且能够作为开放的知识库来执行(Petroni等人,2019;Wang等人,2020;Roberts等人,2020;Carlini等人,2021)。我们的方法所创造的高质量的训练实例在很大程度上是由模型强大的知识检索能力所保证的,它减少了与所提供的标签无关的无规律的幻觉的机会。