数据集: ACL WMT '14
英文名称: Attention Is All You Need
中文名称: Attention Is All You Need
论文地址: http://arxiv.org/abs/1706.03762
期刊/时间: NIPS 2017
英文名称: GloVe: Global Vectors for Word Representation
中文名称: 基于全局共现信息的词表示
论文地址: https://aclanthology.org/D14-1162.pdf
期刊/时间: EMNLP 2014
第一类方法是基于统计并且依赖矩阵分解 (例如LSA,HAL) 。虽然这类方法有效地利用了全局的信息,它们主要用于捕获单词的相似性,但是对例如单词类比的任务上表现不好。
第二类方法是基于浅层窗口 (例如,Skip-Gram和CBOW 模型) ,这类模型通过在局部上下文窗口通过预测来学习词向量。
Glove利用全局统计量,以最小二乘为目标,预测单词 $j$ 出现在单词 $i$ 上下文中的概率。
英文名称: Skip-Thought Vectors
中文名称: 跳跃思维句表示
论文地址: http://arxiv.org/abs/1506.06726
期刊/时间: NIPS 2015
模型方法:
数据集:
在8个任务上表现SOTA。
英文名称: Convolutional Neural Networks for Sentence Classification
中文名称: 基于卷积神经网络的句子分类
论文地址: http://arxiv.org/abs/1408.5882
期刊/时间: EMNLP 2014
英文名称: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
中文名称: 用于语言理解的深度双向变换器的预训练
论文地址: https://arxiv.org/abs/1810.04805
期刊/时间: NAACL 2019
在11个NLP任务上表现SOTA。
英文名称: Deep Residual Learning for Image Recongnition
中文名称:
论文地址: https://arxiv.org/pdf/1512.03385.pdf
期刊/时间:
深度神经网络很难训练 问题1:神经网络叠的越深,则学习出的效果就一定会越好吗?
但其中一个障碍是常见的梯度消失/爆炸问题,它从一开始就阻碍了收敛。这个问题已经通过归一化初始化和中间归一化层得到了很大程度的解决,例如SGD可以使具有数十层的网络开始收敛,
问题2:随着网络深度的增加,准确性变得饱和,然后迅速下降。
这种退化并不是由过拟合引起的,在适当深度的模型中增加更多的层数会导致更高的训练误差。
英文名称: Informative Text Generation from Knowledge Triples
中文名称:
论文地址: https://arxiv.org/abs/2209.12733
期刊/时间:
研究问题:将一组三元组转换为人类可读的句子。
定义了一种新问题:Informative Text Generation (ITG)
需要模型能检索从memory中自动检索相关知识,生成一些输入三元组并未传递的额外叙述的文本。
模型包含两个部分:信息memory 和 seq2seq
英文名称: Distilling the knowledge in a neural network.
中文名称: 神经网络中的知识蒸馏
论文地址: https://arxiv.org/pdf/1503.02531.pdf
期刊/时间: NIPS 2014
英文名称: A Frustratingly Easy Approach for Entity and Relation Extraction
中文名称:
论文地址: https://arxiv.org/pdf/2010.12812.pdf
期刊/时间:
英文名称: ZS-BERT: Towards Zero-Shot Relation Extraction with Attribute Representation Learning
中文名称:
论文地址: https://arxiv.org/abs/2104.04697
期刊/时间: NAACL 2021
英文名称: Zero-Shot Relation Extraction via Reading Comprehension
中文名称:
论文地址: https://arxiv.org/abs/1706.04115
期刊/时间: CoNLL 2017
英文名称: ZS-BERT: Towards Zero-Shot Relation Extraction with Attribute Representation Learning
中文名称: ZS-BERT:利用属性表征学习实现零样本关系提取
论文地址: https://arxiv.org/abs/2104.04697
期刊/时间: NAACL 2021
代码地址: https://github.com/dinobby/ZS-BERT
在WikiZS和FewRel数据集上表现SOTA。
英文名称: Prompt Consistency for Zero-Shot Task Generalization
中文名称: 零样本任务泛化的提示一致性
论文地址: https://arxiv.org/abs/2205.00049
期刊/时间: 2022
论文地址: https://github.com/violet-zct/swarm-distillation-zero-shot
代码地址: https://github.com/violet-zct/swarm-distillation-zero-shot?utm_source=catalyzex.com
在数据集上表现SOTA。
英文名称: ZEROGEN: Efficient Zero-shot Learning via Dataset Generation
中文名称: 基于数据集生成的高效零样本学习
论文地址: https://arxiv.org/abs/2202.07922
期刊/时间: 2022
代码地址: https://github.com/jiacheng-ye/ZeroGen
ZEROGEN框架分为三个阶段:
在数据集上表现SOTA。
英文名称: InPars: Data Augmentation for Information Retrieval using Large Language Models
中文名称: InPars:使用大型语言模型进行信息检索的数据增强
论文地址: https://arxiv.org/abs/2202.05144
期刊/时间: 2022
代码地址: https://github.com/zetaalphavector/inpars
在数据集上表现SOTA。
使用了一种不同寻常的思路,值得借鉴。、