- 模型使用编码器解码器架构。使用了一个带有GRU激活的RNN编码器和一个带有条件GRU的RNN解码器
- 一个编码器将单词映射到一个句子矢量,一个解码器用来生成周围的句子。
- 损失函数:
- 通过前(后)句子中t前面的词计算t位置的词。 \(\sum_t \log P\left(w_{i+1}^t \mid w_{i+1}^{<t}, \mathbf{h}_i\right)+\sum_t \log P\left(w_{i-1}^t \mid w_{i-1}^{<t}, \mathbf{h}_i\right)\)
实验
讨论与总结
2022-2023, ironartisan Revision
dcd9b5e