综合百科

自然语言处理方向

自然语言处理方向

NLP的自然语言处理在人工智能领域中占据重要地位。对于NLPer来说,如何将模型数学公式与实际应用场景相结合,发挥其实效性是一大挑战。

【NLP】一总了自然语言处理的主要研究方向,其中包括文本向量化。文本的向量化可以说是NLP进入深度学习时代的标志。所谓文本的向量化,即将文本表示为一定维度的向量,实现文本的数值化。通过这种方式,文本的语义、句法等特征得以表征,便于下游模型的处理。

在早期,词袋模型是文本向量化的一种尝试,但它无法表征词序特征并带来维度灾难。随后,Yoshua Bengio等人提出了一种网络的方法用于语言模型的计算,其中的词向量作为副产品引起了业界的关注。随着预训练词嵌入的研究工作的出现,词嵌入技术逐渐成为了NLP的主流。尤其是Mikolov等人提出的连续词袋模型CBOW和Skip-Gram模型,通过引入负采样等可行性措施,能够学习高质量的词向量。基于此,ELMO提出了能够根据语境生成不同词向量的模型。这些高质量词向量的获得,结合LSTM、等网络抽取器,使得NER、文本分类以及信息抽取等任务获得了显著的进步。随着预训练模型的流行,BERT、GPT、ALBERT以及XLNET等模型在各种任务中表现出色。

除了文本向量化,序列标注任务也是NLP中的基础和重要任务之一。分词是中文自然语言处理的第一步,而NER则是非常重要的信息抽取任务。早期的序列标注任务主要使用HMM、CRF等机器学习模型。随着深度学习的兴起,LSTM+CRF成为了序列标注任务的主流方法。基于膨胀卷积的序列标注模型也被提出。随着transformer的提出,利用BERT等预训练模型进行NER等任务变得非常流行。

文本分类是另一个重要的NLP任务。它涉及到计算机对输入文本进行分类的问题。实际应用场景包括情感分类、机器人中的意图识别等。随着深度学习的发展,LSTM+softmax/+softmax模型成为了流行的文本分类架构。结合Attention等技巧与概念能够一定程度的提高模型的效果。通过将文本向量化再通过聚类获得类别的文本分类方法也被广泛使用。近年来,BERT在信息抽取方面表现出色,基于BERT和阅读理解任务来做信息抽取是一种非常别致的方式。

在信息提取方面,其目标是将文本信息转化为结构化信息。实体抽取是序列标注问题的一部分,而关系抽取和事件抽取通常转化为分类任务。随着深度学习的快速发展,信息提取技术也开始迅速发展。实体抽取与关系抽取已经从Pipline的方式进化到end-to-end的方式。同时使用的特征抽取器也逐步进化从LSTM/到transformer。在信息抽取领域BERT也表现出色。


自然语言处理方向

你可能也会喜欢...