与标准的词袋模型不同,它使用上下文的连续分布式表示。请注意,输入层和投影层之间的权重矩阵以与 NNLM 中相同的方式为所有单词位置共享。
Skip-gram:
第二种架构类似于 CBOW,但它不是根据上下文预测当前单词,而是尝试根据同一句子中的另一个单词最大化对单词的分类。
更准确地说,我们使用每个当前单词作为具有连续投影层的对数线性分类器的输入,并预测当前单词前后一定范围内的单词。我们发现增加范围可以提高结果词向量的质量,但也会增加计算复杂度。由于距离较远的词通常与当前词的相关性低于与当前词的相关性,因此我们通过在训练示例中从这些词中抽取较少的样本来给予较远的词更少的权重。
在本文中,我们研究了由各种模型在一系列句法和语义语言任务上派生的词向量表示的质量。我们观察到,与流行的神经网络模型(前馈和递归)相比,可以使用非常简单的模型架构来训练高质量的词向量。由于计算复杂度低得多,因此可以从更大的数据集中计算非常准确的高维词向量。