图片压缩像素不改变图片内容
多层神经网络的隐藏层学习以一种易于预测目标输出的方式来表示网络的输入。
上下文中的每个单词都作为 N 中的一个向量呈现给网络,也就是说,一个组件的值为 1,其余的为 0。在第一层,每个单词创建不同的激活模式,或者词向量。在语言模型中,网络的其他层学习将输入词向量转换为预测下一个词的输出词向量,该输出词向量可用于预测词汇表中任何一个词作为下一个词出现的概率。网络学习包含许多活动组件的词向量,每个活动组件都可以解释为单词的单独特征,正如在学习符号的分布式表示的上下文中首次展示的那样。
在引入神经语言模型之前,语言统计建模的标准方法没有利用分布式表示:它基于对长度不超过 N 的短符号序列(称为 N-gram)的出现频率进行计数。
可能的 N-gram 的数量在 \(V^N\) 的数量级上,其中 V 是词汇量,因此少数单词就可能需要非常大的训练语料库。N-gram 将每个单词视为一个原子单元,因此它们不能泛化语义相关的单词序列,而神经语言模型可以,因为它们将每个单词与一个实值特征向量相关联,并且语义相关的单词最终彼此接近在那个向量空间中。
特点: