1.NLP任务总结
想入门NLP,但看了一些论文,仍然对整个总体脉络没有一个清晰了解,不知你是否遇到了这个问题? 本人最近看到了一个网站,并对内容进行了简单总结,该网站包括最常见的 NLP 任务的数据集和当前最先进的技术。希望能帮助到大家!! 具体见仓库地址:https://nlpprogress.com
英文
-
自动语音识别(Automatic Speech Recognition,ASR)
- 组合范畴语法(Combinatory Categorical Grammar,CCG)
- 从逻辑语义学视角看,CCG提供句法与语义转换的接口,将自然语言转换成逻辑结构。
Vinken , 61 years old N , N/N N (S[adj]\ NP)\ NP -
常识(Common sense)
- 常识推理任务旨在要求模型超越模式识别。相反,模型应该使用"常识"或世界知识来进行推论。
- 句法分析(Constituency parsing)
- 句法分析旨在根据短语结构语法从表示其句法结构的句子中提取基于句法的解析树。
Sentence (S) | +-------------+------------+ | | Noun (N) Verb Phrase (VP) | | John +-------+--------+ | | Verb (V) Noun (N) | | sees Bill
- 最近的方法将解析树转换为深度优先遍历之后的序列,以便能够对其应用序列到序列模型。上述解析树的线性化版本如下所示:(S (N) (VP V N))。
- 句法分析旨在根据短语结构语法从表示其句法结构的句子中提取基于句法的解析树。
-
指代消解(Co-reference Resolution)
- 共同引用识别文本片段并将它们与引用同一事物的其他文本片段链接。有时文本片段的长度为零,其中省略了明显的代词或名词。
-
数据到文本生成(Data-to-Text Generation)
- 数据到文本生成 (D2T NLG) 可以描述为从结构化输入生成自然语言。 与其他 NLG任务不同,例如机器翻译或问答(也称为文本到文本生成或 T2T NLG),其中要求使用一些非结构化文本输入生成文本输出,在 D2T NLG 中,要求是从以结构化格式提供的输入,例如:表格;或知识图谱;或 JSON
- 依赖解析(Dependency parsing)
- 依赖解析是提取句子的依存解析的任务,该句子表示其语法结构,并定义"头"词与修改这些头的词之间的关系。
- ``` root | | +——-dobj———+ | | | nsubj | | +——det—–+ | +—–nmod——+ +–+ | | | | | | | | | | | | +-nmod-+| | | +-case-+ |
- | + | + + || + | + | | I prefer the morning flight through Denver ```
- 单词之间的关系在句子上方用从头到依赖的有向标记弧来说明(+ 表示依赖)。
-
对话(Dialogue)
- 对话行为分类是根据话语在对话中的功能(即说话者正在执行的行为)对话语进行分类的任务。对话行为是言语行为的一种
-
领域适应(Domain adaptation)
- Domain Adaptation是为了实现模型在另一个域(target domain)中的表现逼近甚至保持在原域中的效果。即引入某种手段,尽可能减少两个域在特征空间中的差距,尽可能消除Domain shift,使得模型学到更普适,更domain-invariant的特征。
- 实体链接(Entity Linking)
- 实体链接 (EL) 是将命名实体识别(参见命名实体识别)和消除歧义(命名实体消歧)到知识库(例如 Wikidata、DBpedia 或 YAGO)的任务。它有时也简称为命名实体识别和消歧。
- EL 可以分为两类方法:
- 端到端:处理一段文本以提取实体(即命名实体识别),然后将这些提取的实体消歧到给定知识库中的正确条目(例如 Wikidata、DBpedia、YAGO)。
- 仅消歧:与第一种方法相反,此方法直接将黄金标准命名实体作为输入,并且仅将它们消歧到给定知识库中的正确条目。
- 语法错误纠正(Grammatical error correction)
- 语法错误纠正 (GEC) 是纠正文本中不同类型错误的任务,例如拼写、标点、语法和单词选择错误。
- GEC 通常被表述为一个句子校正任务。GEC 系统将潜在的错误句子作为输入,并期望将其转换为正确的版本。请参见下面给出的示例:
- 输入:
She see Tom is catched by policeman in park at last night.
- 输出:
She saw Tom caught by a policeman in the park last night.
-
信息抽取(Information Extraction)
- 信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。
- 意图检测和插槽填充(Intent Detection and Slot Filling)
- 意图检测和槽填充是通过提取意图和相关槽来解释用户命令/查询的任务。
-
Query: What flights are available from pittsburgh to baltimore on thursday morning Intent: flight info Slots: - from_city: pittsburgh - to_city: baltimore - depart_date: thursday - depart_time: morning
-
语言建模(Language modeling)
- 语言建模是预测文档中下一个单词或字符的任务。
- 词汇归一化(Lexical normalization)
- 词汇规范化是将非标准文本翻译/转换为标准文本的任务。
-
new pix comming tomoroe new pictures coming tomorrow
- 对于词法规范化,仅对单词级别的替换进行注释。一些语料库包括 1-N 和 N-1 替换的注释。但是,单词插入/删除和重新排序不是任务的一部分。
-
机器翻译(Machine translation)
- 机器翻译是将源语言中的句子翻译成不同目标语言的任务。
-
缺少元素(Missing Elements)
- 缺少元素是一系列现象的集合,这些现象处理了本意但未在文本中明确提及的事物。有不同种类的缺失元素,它们具有不同的方面和行为。例如,省略号、融合头(Fused-Head)、桥接回指(Bridging Anaphora)等
-
多任务学习(Multi-task learning)
- 多任务学习旨在同时学习多个不同的任务,同时最大限度地提高一项或所有任务的性能。
- 多模态(Multi-modal)
- 多模态情感识别(Multimodal Emotion Recognition)
- 多模态隐喻识别(Multimodal Metaphor Recognition)
- 多模态情感分析(Multimodal Sentiment Analysis)
- 命名实体识别(Named entity recognition)
- 命名实体识别 (NER) 是用相应类型标记文本中实体的任务。方法通常使用 BIO 表示法,它区分实体的开头 (B) 和内部 (I)。 O 用于非实体tokens。
Mark Watney visited Mars B-PER I-PER O B-LOC - 自然语言推理(Natural language inference)
- 自然语言推理是在给定"前提"的情况下确定"假设"是真(蕴含)、假(矛盾)还是不确定(中性)的任务。
Premise Label Hypothesis A man inspects the uniform of a figure in some East Asian country. contradiction The man is sleeping. An older and younger man smiling. neutral Two men are smiling and laughing at the cats playing on the floor. A soccer game with multiple males playing. entailment Some men are playing a sport. - 词性标注(Part-of-speech tagging)
- 词性标记(POS 标记)是用词性标记文本中的单词的任务。词性是具有相似语法属性的一类词。常见的英语词性有名词、动词、形容词、副词、代词、介词、连词等。
Vinken , 61 years old NNP , CD NNS JJ - 复述句生成(Paraphrase Generation)
- 复述句生成是生成输出句子的任务,该句子保留输入句子的含义,但包含单词选择和语法的变化。请参阅下面给出的示例:
Input Output The need for investors to earn a commercial return may put upward pressure on prices The need for profit is likely to push up prices -
问答(Question answering)
- 问答是回答问题的任务。
- 关系预测(Relation prediction)
- 关系预测是识别两个命名语义实体之间命名关系的任务。常见的测试设置是从关系三元组中隐藏一个实体,要求系统根据另一个实体和关系类型来恢复它。
- 例如,给定三元组
<Roman Jakobson,birth-in-city, ?>
,系统需要将问号替换为莫斯科。 - 关系预测数据集通常从两种类型的资源中提取: 知识库:诸如 FreeBase 之类的知识库包含数百或数千种关系类型,这些关系类型与从数百万实体的各种资源中自动或半自动获得的世界知识相关。这些关系包括出生地、国籍、所在(对于地理实体)、部分(对于组织等)等等。 语义图:像 WordNet 这样的 SG 通常是人工策划的语义概念资源,与免费的现实世界知识相比,仅限于更"语言"的关系。最常见的语义关系是上位词,也称为 is-a 关系(例如:<cat, hypernym, feline>)。
-
关系抽取(Relationship Extraction)
- 关系抽取是从文本中抽取语义关系的任务。提取的关系通常发生在特定类型的两个或多个实体之间(例如人、组织、位置),并属于许多语义类别(例如,结婚、受雇、居住)。
-
语义文本相似度(Semantic textual similarity)
- 语义文本相似性处理确定两段文本的相似程度。这可以采取从 1 到 5 分配分数的形式。相关任务是复述句或重复识别。
- 语义解析
- 语义解析是将自然语言翻译成机器可以采取行动的形式意义表示的任务。表示可以是诸如 SQL 之类的可执行语言或更抽象的表示,例如抽象意义表示 (AMR) 和通用概念认知注释 (UCCA)。
- 每个 AMR 都是一个单根有向图。AMR 包括 PropBank 语义角色、句子内共指、命名实体和类型、模态、否定、问题、数量等
- 话语表征结构(DRS)是话语表征理论引入的形式意义表征。DRS 解析是一项复杂的任务,包括其他 NLP 任务,例如语义角色标记、词义消歧、共指解析和命名实体标记。此外,DRS 显示了某些运算符的明确范围,这允许对否定、模态和量化进行更有原则和语言动机的处理,正如在形式语义中所提倡的那样。此外,DRS 可以转换为形式逻辑,允许第三方自动进行推理形式。
- 语义解析是将自然语言翻译成机器可以采取行动的形式意义表示的任务。表示可以是诸如 SQL 之类的可执行语言或更抽象的表示,例如抽象意义表示 (AMR) 和通用概念认知注释 (UCCA)。
- 语义角色标签(Semantic role labeling)
- 语义角色标签旨在模拟句子的谓词-参数结构,通常被描述为回答"谁对谁做了什么"。 BIO 符号通常用于语义角色标签。
Housing starts are expected to quicken a bit from August's pace B-ARG1 I-ARG1 O O O V B-ARG2 I-ARG2 B-ARG3 I-ARG3 I-ARG3 -
情绪分析(Sentiment analysis)
- 情感分析是对给定文本的极性进行分类的任务。
- 浅层语法(Shallow syntax)
- 浅层句法任务在文本的句法结构级别上提供对文本的分析
- 分块,也称为浅层解析,可识别形成句法单元(如名词短语或动词短语)的连续跨度标记。
Vinken , 61 years old B-NLP I-NP I-NP I-NP I-NP - 简化(Simplification)
-
简化包括修改文本的内容和结构,使其更易于阅读和理解,同时保留其主要思想并接近其原始含义。文本的简化版本可以使识字率低的读者、英语学习者、儿童以及失语症、阅读障碍或自闭症患者受益。此外,自动简化文本可以提高其他 NLP 任务的性能,例如解析、摘要、信息提取、语义角色标记和机器翻译。
原句 简化句 Owls are the order Strigiformes, comprising 200 bird of prey species. An owl is a bird. There are about 200 kinds of owls. Owls hunt mostly small mammals, insects, and other birds though some species specialize in hunting fish. Owls' prey may be birds, large insects (such as crickets), small reptiles (such as lizards) or small mammals (such as mice, rats, and rabbits). -
请注意执行的简化转换:
- 解释了不寻常的概念:昆虫(如蟋蟀)、小型爬行动物(如蜥蜴)或小型哺乳动物(如老鼠、大鼠和兔子)。
- 不常见的单词被替换为更熟悉的术语或短语:"comprising" → "There are about"。
- 句法结构由更简单的模式改变。例如,第一句话被分成两部分。
- 删除了一些不重要的信息:第二句中的"虽然有些物种专门捕猎"从句在其简化版本中没有出现。
- 当转换集仅限于用更简单的同义词替换单词或短语时,我们正在处理词汇简化(可以在此处找到该领域的概述)。在本节中,我们考虑尝试开发能够学习尽可能多的文本转换的模型的研究。
-
- 立场检测(Stance detection)
- 立场检测是提取主体对主要参与者提出的声明的反应。它是一套假新闻评估方法的核心部分。
- Source: "Apples are the most delicious fruit in existence"
- Reply: "Obviously not, because that is a reuben from Katz's"
- Stance: deny
- 立场检测是提取主体对主要参与者提出的声明的反应。它是一套假新闻评估方法的核心部分。
-
摘要(Summarization)
- 摘要是生成一个或多个文档的较短版本的任务,该版本保留了输入的大部分含义。
- 分类学习(Taxonomy Learning)
- 分类学习是以自动方式从文本语料库中对概念进行分层分类的任务。构建分类法的过程通常分为两个主要步骤:
- 上位词发现:提取概念的上位词。这可能构成一个研究领域
- 给定一个语料库和一个目标词(下位词),上位词发现的任务包括从语料库中提取一组最合适的上位词。例如,对于输入词"dog",一些有效的上位词将是"canine"、"mammal"或"animal"。
- 分类增强(Taxonomy Enrichment)
- 给定分类中未包含的单词,任务是将每个查询单词与其适当的上位词相关联。例如,给定一个输入词"milk",我们需要提供该词可能附加到的最可能上位词的列表,例如"乳制品"、"饮料"。一个词可能有多个上位词。
- 上位词发现:提取概念的上位词。这可能构成一个研究领域
- 分类学习是以自动方式从文本语料库中对概念进行分层分类的任务。构建分类法的过程通常分为两个主要步骤:
- 时间处理(Temporal processing)
- 文档日期(时间戳)
- 文档日期是根据内容自动预测文档日期的问题。文档的日期,也称为文档创建时间 (DCT),是许多重要任务的核心,例如信息检索、时间推理、文本摘要、事件检测和历史文本分析等。
- 时间信息提取
- 时间信息提取是对时间间隔对应的块/token的识别,以及它们之间时间关系的提取和确定。提取的实体可以是时间表达式(timexes)、事件(events)或支持实体或关系解释的辅助信号。关系可以是时间链接(tlinks),描述事件和时间的顺序,或者是描述模态和其他从属活动的从属链接(slinks),或者是围绕方面性对事件结构的各种影响的方面链接(alinks)。
- 时间表达式归一化
- 时间表达归一化是将时间词汇化到日历日期或其他正式时间表示的基础。
- 文档日期(时间戳)
-
文本分类(Text classification)
- 文本分类是为句子或文档分配适当类别的任务。类别取决于所选的数据集,并且范围可以从主题。
- 词义消歧( Word Sense Disambiguation)
- Word Sense Disambiguation (WSD) 的任务包括将上下文中的单词与它们在预定义词义清单中的最合适的条目相关联。 WSD 中事实上的英语语义清单是 WordNet。
- 例如
"A mouse consists of an object held in one's hand, with one or more buttons."
- 我们会为"mouse"赋予电子设备语义
中文任务
- 指代消解(Co-reference Resolution)
- 共同引用识别文本片段并将它们与引用同一事物的其他文本片段链接。有时文本片段的长度为零,其中省略了明显的代词或名词。
- 输入:
我的姐姐给我她的狗。很喜欢.
- 输出:
[我]0的[姐姐]1给[我]0[她]1的[狗]2。[]0很喜欢[]2.
- 句法分析(Constituency parsing)
- 给定一个句子,句法分析会生成一个分析树,其内部节点是句法,其叶节点是单词。
- 输入:
柴犬是一种像精灵一样的犬种。
- 输出:
(IP (NP-SBJ (NN 柴犬)) (VP (VC 是) (NP-PRD (QP (CD 一) (CLP (M 种))) (DVP (IP (VP (PP (P 像) (NP (NN 精灵))) (VP (VA 一样)))) (DEV 的)) (VP (VA 犬种)))) (PU 。))
- 对话状态管理(Dialogue State Management)
- 在面向任务的对话系统中,对话状态管理(dialogue state management)系统将用户意图 (user intent) 作为输入,与知识库交互,并预测系统的下一个动作 (action)。 自然语言理解组件(NLU)负责分析用户意图,该组件有时与对话状态管理(DM)系统结合成为一个单一的端到端学习组件。 系统的下一个动作 (action) 通常包括两种类型:对话动作类型 (dialogue act type) 和插槽值对 (slot-value pairs)。 给定下一个系统动作,自然语言生成组件(NLG)将生成对用户的回复。
- 情绪分类(Emotion Classification)
- 情绪分类识别作家或演讲者的情绪状态。这与情感分类不同,后者描述了作家对其主题的观点.
- 输入:
讨厌!你骗我!
- 输出:
Angry
- 实体链接(Entity Linking)
- 实体链接识别文本片段并将它们与标准数据库、知识库、地名词典、维基百科页面等中的条目链接。除了专有名称("Bob")之外,提及还可能包括名词("the player")。
- 输入:
美国国防部长马蒂斯说,与首尔举行的名为"秃鹫"的军事演习每年春天在韩国进行,但2019年将"缩小规模"。
- 输出:
[美国]wiki/United_States国防部长[马蒂斯]wiki/Jim_Mattis说,与[首尔]wiki/Seoul举行的名为"秃鹫"的军事演习每年春天在[韩国]wiki/South_Korea进行,但2019年将"缩小规模"。
- 实体标记(Entity Tagging)
- 实体标记识别文本片段("提及")并用诸如人、组织、地缘政治实体、位置等类型标记它们。除了专有名称("Bob")之外,提及还可能包括名词("the player")。
- 输入:
美国国防部长马蒂斯说,与首尔举行的名为"秃鹫"的军事演习每年春天在韩国进行,但2019年将"缩小规模"。
- 输出:
[美国]GPE国防部长[马蒂斯]PER说,与[首尔]GPE举行的名为"秃鹫"的军事演习每年春天在[韩国]GPE进行,但[2019年]TMP将"缩小规模"
。
- 语言建模(Language Modeling)
- 语言模型 (LM) 将概率分配给任何文本字符串或语料库。它的目标是将高概率(或低困惑度)分配给它以前从未观察到的流畅文本字符串,而将低概率分配给其他字符串。
- 输入:
我们体育界是有信心做到为北京2022年冬季奥运会提供坚实的人才基础
- 输出:
60.2 perplexity
- 机器翻译(Machine Translation)
- 机器翻译 (MT) 将文本从一种语言转换为另一种语言。在这里,我们专注于中文的翻译。
- 输入:
美中两国可能很快达成一个贸易协议。
- 输出:
The United States and China may soon reach a trade agreement.
- 多任务学习(Multi-task Learning)
- 多任务学习旨在同时学习多个不同的任务,同时最大限度地提高一项或所有任务的性能。
- 词性 (POS) 标记(Part-of-Speech (POS) Tagging)
- 词性标注是为给定句子中的每个单词分配一个词性标签(来自给定标签集)的任务。
- 输入:
快速 的 棕色 狐狸 跳过 了 懒惰 的 狗
- 输出:
[快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN
- 问答(Question Answering)
- 问答 (QA) 自动提供以自然语言提出的问题的答案。答案可能包含在结构化数据库或非结构化文本集合中。
- 输入:
世界上最大的国家是什么?
- 输出:
俄国
- 关系抽取(Relation Extraction)
- 给定两个提及的实体,识别关系并将它们分类为预定义的类型。
- 输入:
[李晓华]和她的丈夫[王大牛]前日一起去[英国]旅行了。
- 输出:
(entity1: 李晓华, entity2: 王大牛, relation: 夫妻)
- 情感分析(Sentiment Analysis)
- 情感分析检测识别并从文本中提取主观信息
- 输入
总的感觉这台机器还不错,实用的有:阴阳历显示,时间与日期快速转换, 记事本等。
- 输出
Positive
- 简/繁转换(Simplified/traditional Conversion)
- 中文简繁体转换将简体汉字转换为繁体汉字,反之亦然。
- 输入:
苟利国家生死以,岂因祸福避趋之.
- 输出:
苟利國家生死以,豈因禍福避趨之.
- 拼写更正(Spell Correction)
- 拼写纠正器会发现并纠正文本中的印刷错误。这些错误通常发生在外观、发音或两者相似的字符之间。
- 输入:
1986年毕业于国防科技大学计算机应用专业,获学时学位。
- 输出:
1986年毕业于国防科技大学计算机应用专业,获学士学位。(时 -> 士)
- 文本摘要(Text Summarization)
- 文本摘要需要一个长文本文档并创建一个较短的文本文档,该文档是对较长文本文档的流畅准确的摘要。
- 输入:
较早进入中国市场的星巴克, 是不少小资钟 情的品牌。相比在美国的平民形象,星巴克在中国就 显得"高端"得多。用料并无差别的一杯中杯美式咖 啡,在美国仅约合人民币12元,国内要卖21元,相当 于贵了75%。第一财经日报
- 输出:
媒体称星巴克美式咖啡售价中国比美国 贵75%。
- 主题分类(Topic Classification)
- 文本分类根据其主题内容为文本分配标签或类别,通常在标记文档上进行训练。主题有时很广泛,类似于流派(新闻、体育、艺术),但有时与主题标签一样细粒度。
- 输入:
[国足]有信心了 中国国奥队取得热身赛三连胜
- 输出:
Sports
- 音译(Transliteration)
- 音译使用不同字母和声音系统的语言翻译专有名称和技术术语。
- 输入:
约翰伍兹 (yue han wu zi)
- 输出:
John Woods
- 词嵌入(Word Embedding)
- 词嵌入输入大量文本并为每种词类型输出一个 n 维实数向量。该向量捕获有关单词的句法和语义信息,可用于解决各种 NLP 任务。在中文中,编码单元可以是一个字符或一个子字符单元,而不是一个单词。
- 输入:
Large corpus of text
- 输出:
"查询", vec(W) = [-0.059569, 0.126913, 0.273161, 0.225467, -0.185914, 0.018743, -0.18434, 0.083859, -0.115781, -0.216993, 0.063437, -0.005511, 0.276968,…, 0.254486]
- 分词(Word Segmentation)
- 中文是用汉字(汉字)书写的,每个汉字代表一个音节。一个词通常被认为由一个或多个字符标记组成。单词之间没有空格。通常会遇到少于 3500 个不同的字符。分词(或标记化)是将字符序列划分为单词序列的过程。
- 输入:
亲 请问有什么可以帮您的吗?
- 输出:
亲 请问 有 什么 可以 帮 您 的 吗 ?