该层主要实现将单词转化成词向量作为网络的输入,一句话中的每个单词都对应一个词向量,将句子中的所有词向量依次排列成矩阵,假设句子长度都经过padding处理为长度n,词向量维度为k,则矩阵维度就为n * k(在CNN中可以看作一副高度为n、宽度为k的图像)。这个矩阵的类型可以是静态的(static),也可以是动态的(non static)。静态就是word vector是固定不变的,而动态则是在模型训练过程中,word vector也当做是可优化的参数,通常把反向误差传播导致word vector中值发生变化的这一过程称为Fine tune。(这里如果word vector如果是随机初始化的,不仅训练得到了CNN分类模型,还得到了word2vec这个副产品了,如果已经有训练的word vector,那么其实是一个迁移学习的过程)。
在目前的工作中,我们描述了一系列建立在word2vec之上的卷积神经网络的实验。尽管没有对超参数进行调整,一个简单的带有一层卷积的CNN表现得非常好。我们的结果增加了既定的证据,即无监督的词向量预训练是NLP深度学习的一个重要组成部分。