我们的检索器是二元分类器,所以我们还需要选择与q不相关的文档来形成负的微调实例$(q,d^-)$。我们使用一个简单的方法,该方法已被证明对微调检索器是有效的(Pradeep等人,2021)。我们使用BM25,以q作为查询,从集合 $D$ 中检索出1000个文件,我们随机选择其中的一个作为$d^-$,这对$(q,d^-)$形成一个负面的例子。
我们使用一个多阶段的检索架构,包括用词包BM25(ROBERTSON等人,1995)进行初始检索,然后是一个神经强化器。
使用pyserini(Lin等人,2021)对该文集进行索引,并使用BM25检索每个查询的1000个候选文件。
然后,我们使用monoT5对候选文档进行排名,monoT5是Nogueira等人(2020)提出的T5模型(Raffel等人,2020)对文本排名的一种改进。我们对monoT5基础(220M参数)和3B进行微调,学习率恒定为$10^{-3}$,每批大小为128的正反面例子数量相等。
在这项工作中,本文提出了InPars,一种用大型LMs以小样本的方式为IR任务生成合成训练数据的方法。这使人们能够以更有效的方式利用大型模型学到的信息。
本文的实验表明,使用大型LM来生成合成训练数据是神经检索器发展的一个很有前景的方向。然而,在这项工作中还有许多方向没有探索到,本文将其作为未来的工作。