014

英文名称: A Neural Probabilistic Language Model

中文名称: 神经概率语言模型

论文地址:

期刊/时间:

前置知识

摘要

  • 问题是什么?
  • 我们要做什么?
  • 大概怎么做的
  • 实验效果

介绍

按照起承转合的思想阅读。

  • 起。做的哪方面工作?
  • 承。相关工作
  • 转。相关工作的不足和转机
  • 合。本文工作

统计语言建模的目的是学习语言中单词序列的联合概率函数。这在本质上是困难的,因为维度的限制:测试模型的词序列很可能与训练期间看到的所有单词序列不同。基于n-grams的传统但有效的方法是通过连接训练集中非常短的重叠序列来获得泛化。我们建议通过学习单词的分布式表示来克服维度的限制,该表示允许每个训练句子向模型告知语义相邻句子的指数数量。该模型同时学习(1)每个单词的分布式表示和(2)单词序列的概率函数,用这些表示形式表达。

之所以能进行泛化,是因为如果一个从未见过的单词序列是由与构成一个已经见过的句子的单词相似的单词组成的,那么这个从未见过的单词序列就具有很高的概率。在合理的时间内训练如此大的模型(具有数百万个参数)本身就是一个重大的挑战。我们报告了使用神经网络进行概率函数的实验,在两个文本语料库上表明,所提出的方法显著改进了最先进的n-gram模型,并且所提出的方法允许利用较长的上下文。

相关工作

主要介绍背景知识。

方法

  • 简要地重复问题
  • 解决思路
  • 必要的形式化定义
  • 具体模型

实验

  • 数据集和实验设置
  • 主实验,提供详尽的实验分析

讨论与总结