自然语言处理好就业吗？

传誉 2022年11月07日 16:26:08 75 0

python自然语言处理有没有新的版本

1 缘起

本文试着向读者们介绍自然语言处理（Natural Language Processing）这一领域，通常简称为 NLP。然而，不同于一般只是描述 NLP 重要概念的文章，本文还借助 Python 来形象地说明。对于不熟悉 Python 的读者们，本文也提供了部分参考资料教你如何进行 Python 编程。

2 相关介绍

2.1 自然语言处理

自然语言处理广纳了众多技术，对自然或人类语言进行自动生成，处理与分析。虽然大部分 NLP 技术继承自语言学和人工智能，但同样受到诸如机器学习，计算统计学和认知科学这些相对新兴的学科影响。

在展示 NLP 技术的例子前，有必要介绍些非常基础的术语。请注意：为了让文章通俗易懂，这些定义在语言上就不一定考究。

词例（Token）：对输入文本做任何实际处理前，都需要将其分割成诸如词、标点符号、数字或纯字母数字（alphanumerics）等语言单元（linguistic units）。这些单元被称为词例。

句子：由有序的词例序列组成。

词例还原（Tokenization）：将句子还原成所组成的词例。以分割型语言（segmented languages）英语为例，空格的存在使词例还原变得相对容易同时也索然无味。然而，对于汉语和阿拉伯语，因为没有清晰的边界，这项工作就稍显困难。另外，在某些非分割型语言（non-segmented languages）中，几乎所有的字符（characters）都能以单字（one-character）存在，但同样也可以组合在一起形成多字（multi-characterwords）形式。

语料库：通常是由丰富句子组成的海量文本。

词性标签（Part-of-speech (POS) Tag）：任一单词都能被归入到至少一类词汇集（set of lexical）或词性条目（part-of-speech categories）中，例如：名词、动词、形容词和冠词等。词性标签用符号来代表一种词汇条目——NN（名词）、VB（动词）、JJ（形容词）和 AT（冠词）。Brown Corpus 是最悠久，也是最常用的标注集之一。详情且听下回分解。

剖析树（Parse Tree）：利用形式语法（formal grammar）的定义，可以用树状图来表示给定句子的句法（syntactic）结构。

认识了基本的术语，下面让我们了解 NLP 常见的任务：

词性标注（POS Tagging）：给定一个句子和组词性标签，常见的语言处理就是对句子中的每个词进行标注。举个例子，The ball is red，词性标注后将变成 The/AT ball/NN is/VB red/JJ。最先进的词性标注器[9]准确率高达 96%。文本的词性标注对于更复杂的 NLP 问题，例如我们后面会讨论到的句法分析（parsing）和机器翻译（machine translation）非常必要。

计算形态学（Computational Morphology）：大量建立在“语素”（morphemes/stems）基础上的词组成了自然语言，语素虽然是最小的语言单元，却富含意义。计算形态学所关心的是用计算机发掘和分析词的内部结构。

句法分析（Parsing）：在语法分析的问题中，句法分析器（parser）将给定句子构造成剖析树。为了分析语法，某些分析器假定一系列语法规则存在，但目前的解析器已经足够机智地借助复杂的统计模型[1]直接推断分析树。多数分析器能够在监督式设置（supervised setting）下操作并且句子已经被词性标注过了。统计句法分析是自然语言处理中非常活跃的研究领域。

机器翻译（Machine Translation（MT））：机器翻译的目的是让计算机在没有人工干预的情况下，将给定某种语言的文本流畅地翻译成另一种语言文本。这是自然语言处理中最艰巨的任务之一，这些年来已经用许多不同的方式解决。几乎所有的机器翻译方法都依赖了词性标注和句法分析作为预处理。

2.2 Python

Python 是一种动态类型（dynamically-typed），面向对象的解释式（interpreted）编程语言。虽然它的主要优势在于允许编程人员快速开发项目，但是大量的标准库使它依然能适应大规模产品级工程项目。Python 的学习曲线非常陡峭并且有许多优秀的在线学习资源[11]。

2.3 自然语言工具集（Natural Language Toolkit）

尽管 Python 绝大部分的功能能够解决简单的 NLP 任务，但不足以处理标准的自然语言处理任务。这就是 NLTK （自然语言处理工具集）诞生的原因。NLTK 集成了模块和语料，以开源许可发布，允许学生对自然语言处理研究学习和生产研究。使用 NLTK 最大的优势是集成化（entirely self-contained），不仅提供了方便的函数和封装用于建立常见自然语言处理任务块，而且提供原始和预处理的标准语料库版本应用在自然语言处理的文献和课程中。

3 使用 NLTK

NLTK 官网提供了很棒的说明文件和教程进行学习指导[13]。单纯复述那些作者们的文字对于他们和本文都不公平。因此我会通过处理四个难度系数依次上升的 NLP 任务来介绍 NLTK。这些任务都来自于 NLTK 教程中没有给出答案的练习或者变化过。所以每个任务的解决办法和分析都是本文原创的。

3.1 NLTK 语料库

正如前文所说，NLTK 囊括数个在 NLP 研究圈里广泛使用的实用语料库。在本节中，我们来看看三个下文会用到的语料库：

布朗语料库（Brown Corpus）：Brown Corpus of Standard American English 被认为是第一个可以在计算语言学处理[6]中使用的通用英语语料库。它包含了一百万字 1961 年出版的美语文本。它代表了通用英语的样本，采样自小说，新闻和宗教文本。随后，在大量的人工标注后，诞生了词性标注过的版本。

古登堡语料库（Gutenberg Corpus）：古登堡语料库从最大的在线免费电子书[5]平台古登堡计划（Gutenberg Project）中选择了 14 个文本，整个语料库包含了一百七十万字。

Stopwords Corpus：除了常规的文本文字，另一类诸如介词，补语，限定词等含有重要的语法功能，自身却没有什么含义的词被称为停用词（stop words）。NLTK 所收集的停用词语料库（Stopwords Corpus）包含了来自 11 种不同语言（包括英语）的 2400 个停用词。

3.2 NLTK 命名约定

在开始利用 NLTK 处理我们的任务以前，我们先来熟悉一下它的命名约定（naming conventions）。最顶层的包（package）是 nltk，我们通过使用完全限定（fully qualified）的加点名称例如：nltk.corpus and nltk.utilities 来引用它的内置模块。任何模块都能利用 Python 的标准结构 from . . . import . . . 来导入顶层的命名空间。

3.3 任务 1 ：探索语料库

上文提到，NLTK 含有多个 NLP 语料库。我们把这个任务制定为探索其中某个语料库。

任务：用 NLTK 的 corpus 模块读取包含在古登堡语料库的 austen-persuasion.txt，回答以下问题：

这个语料库一共有多少字？

这个语料库有多少个唯一单词（unique words）？

前 10 个频率最高的词出现了几次？

利用 corpus 模块可以探索内置的语料库，而且 NLTK 还提供了包含多个好用的类和函数在概率模块中，可以用来计算任务中的概率分布。其中一个是 FreqDist，它可以跟踪分布中的采样频率（sample frequencies）。清单1 演示了如何使用这两个模块来处理第一个任务。

清单 1: NLTK 内置语料库的探索.

Python

# 导入 gutenberg 集

from nltk.corpus import gutenberg

# 都有些什么语料在这个集合里？

print gutenberg.fileids()

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt', 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'chesterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt', 'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt', 'shakespeare-macbeth.txt', 'whitman-leaves.txt']

# 导入 FreqDist 类

from nltk import FreqDist

# 频率分布实例化

fd = FreqDist()

# 统计文本中的词例

for word in gutenberg.words('austen-persuasion.txt'):

... fd.inc(word)

...

print fd.N() # total number of samples

98171

print fd.B() # number of bins or unique samples

6132

# 得到前 10 个按频率排序后的词

for word in fd.keys()[:10]:

... print word, fd[word]

, 6750

the 3120

to 2775

. 2741

and 2739

of 2564

a 1529

in 1346

was 1330

; 1290

解答：简奥斯丁的小说 Persuasion 总共包含 98171 字和 6141 个唯一单词。此外，最常见的词例是逗号，接着是单词the。事实上，这个任务最后一部分是最有趣的经验观察之一，完美说明了单词的出现现象。如果你对海量的语料库进行统计，将每个单词的出现次数和单词出现的频率由高到低记录在表中，我们可以直观地发现列表中词频和词序的关系。事实上，齐普夫（Zipf）证明了这个关系可以表达为数学表达式，例如：对于任意给定单词，$fr$ = $k$, $f$ 是词频，$r$ 是词的排列，或者是在排序后列表中的词序，而 $k$ 则是一个常数。所以，举个例子，第五高频的词应该比第十高频的词的出现次数要多两倍。在 NLP 文献中，以上的关系通常被称为“齐普夫定律（Zipf’s Law）”。

即使由齐普夫定律描述的数学关系不一定完全准确，但它依然对于人类语言中单词分布的刻画很有用——词序小的词很常出现，而稍微词序大一点的则较为少出现，词序非常大的词则几乎没有怎么出现。任务 1 最后一部分使用 NLTK 非常容易通过图形进行可视化，如清单 1a 所示。相关的 log-log 关系，如图 1，可以很清晰地发现我们语料库中对应的扩展关系。

NLP自然语言处理

罗素悖论：由所有不包含自身的集合构成的集合

例子：理发师称只给那些不给自己理发的人理发。

基于集合论，理发师无论给自己理发还是不给自己理发都是矛盾的。

因此集合论不是完备的。即使后面冯罗伊德等科学家提出了各种假定条件。

由于上述的原因，集合率无法很好的描述自然语言，科学家发现通过概率模型可以更好的描述自然语言。

深度学习来处理自然语言属于概率模型

证明最小点位于坐标轴上

h = f+c|x|

由于在x = 0处不可导

h-left'(0)*h-right'(0) = (f'+c)*(f'-c)

那么如果c|f'(0)|可得，h在0处左右导数异号

0是最值。

那么在损失函数加入L1正则化后，可以得到某些维度容易为0，从而得到稀疏解

几乎所有的最优化手段，都将适用凸优化算法来解决

P(A|B) = P(A and B) / P(B)

if A and B 独立

=》P(A and B| C) = P(A|C)*P(B|C)

也可以推出

=A(A|B and C) = P(A|C) (B交C不为空)

抛9次硬币，硬币出现正面的概率是0.5，出现k次的概率分布如下如

服从正态分布

x的平均值

E = x*p(x) + ...

x相对于期望的偏离

var = (x-E(x))^2

conv = (x - E(x))*(m - E(m))

描述x,m是否有同分布

按理协方差为0，并不代表x和m没有关系

例如下图

如果点的分布对称的分布，会得到协方差为0，但是其实他们是有关系的。

把每个相关的概率累加，得到联合概率

P(x1=m1,x2=m2...) = n!*P1 m1/m1!*P2 m2/m2!

T(n) = (n-1)!

T(x)用一条曲线逼近n!，进而可以求得非整数的阶乘

由二项式分布推出

P = T(a+b)*x (a-1)*(1-x) (b-1)/(T(a)*T(b))

则正态分布

y为0时，不考虑y‘。y为1时，y'越接近1，越小，越靠近0，越大

把D最小化，迫使y'逼近y

对于一个句子，有若干单词组成。例如

C1: The dog laughs.

C2: He laughs.

那么计算P(C1) = P(The, Dog, laughs)的概率和P(C2) = P(He, laughs)的概率。

根据历史文本的统计学习。

可以得到P(C1)P(C2)

P('I love the game') = P('I')*P('love')*P('the')*P('game')

其中P(work) = 频率/总单词数

计算一篇文章是积极的还是消极的。

P(y|x) = sigmod(wx)

x是文章内每个单词的频率

y表示积极和消极情感

其中P(xk|x1, x2,..xk-1) = frequence(x1, x2 ,, xk)/frequence(x1, x2..xk-1)

2-gram模型例子

把多个gram的模型进行线性整合

P(y|x1, x2, .. xn) = P(y)*P(x1, x2, ... xn|y) / P(x1, x2, ... xn)

y代表是否是垃圾邮件

x代表单词

广州市长寿路 -》广州市长|寿路

广州市长寿路 -》广州市|长寿路

匹配词袋：广州市，广州市长，长寿路

使用最大匹配发，第二个分词更优

通过统计P(A|B)，得出各个option的概率，取最大的概率，则为最后的分词

word = [0, 0 , ... 1, ... 0]

word = [0, 1, 0, 1, 0, ...]

可以解决词相似性问题

计算附近词的频率

word = [0, 3, 0, 1, 0, ...]

w是附近词的one-hot encoding

score是词的one-hot encoding

最后一层通过softmax，取拟合文本

最终中间层则为词向量

输入为词one-hot encoding

输出为附近此的one-hot encoding

最后通过softmax预测附近词

最后中间层则为结果词向量

混合模型是一种统计模型，问题中包含若干个子问题，每个子问题是一个概率分布，那么总问题就是若干个子问题的组合，也就是若干个子分部的组合，这样就形成了混合模型。

有红黑两种硬币，把它们放在盒子里，从盒子里随机抽取一个硬币并投币，抽到红色的概率是p，红色硬币正面的概率是q，黑色硬币正面的概率是m，假设我们没办法看到抽取出的硬币的颜色，只能看到最终是正面或者反面的结果，例如HTTHTTTTHHH (H:正面 T: 反面)。需要估计p,q,m三个参数。

此时可以计算出

通过EM算法迭代如下：

随机p q m

迭代以下过程：

计算上面table

p = (aC(正)+cC(反))/total

q = aC(正)/(aC正+cC正)

m = bC(正)/(bC正 + dC正)

假设有上述数据，需要用混合模型来逼近，通过分析，红色和蓝色数据分别为高斯正态分布，N(u, v)

此时可以得到如下表

p = pN红x/(pN红x+(1-p)N蓝x)

u = pN红x/n

v = pN红(x-u)^2/n

词性转换概率

词性到单词的转换概率

通过EM递归算法，训练以上参数，得到隐马尔可夫模型

PLSA主题模型

只统计词的频率，不计算词的相对位置

计算文档和单词频率的矩阵

进行奇异矩阵分解

得到A矩阵的压缩U，U中的k则为k个主题

通过分析，LSA得到的主题是跟现实无法关联，它只是一个量，而没有明显的意义。

PLSA为了解决此问题，引入概率模型，先确定主题个数

然后通过构建Doc-topic的概率table，和topic-word的概率table。

然后通过EM模型，得到这两个table的所有概率值。

进而得到文档的主题表示

PLSA的缺陷是，对于预测未知的doc，无法计算此文档的相关概率。随着doc数量的增加，PLSA模型的参数会线性增加，从而会造成过拟合。

LDA通过引入先验概率来克服PLSA的问题。

类似于编译原理的上下文无法句法分析，一颗语法树

通过对CFG引入概率参数

有了概率，可以计算每颗语法树的极大似然概率，并取最大概率的树为最终输出

上一个状态中间层的输出作为下一隐层的输入

类似于HMM的2-gram模型。t状态受到t-1时刻输出的影响，受t-k的输出的k越大，影响越小

由于RNN几乎只受到上一时刻的影响，而忽略了久远信息的影响。从而造成了一定的局限性。

LSTM通过引入长短记忆方法，来维持长记忆的信息。

通过训练核内的sigmod函数，使得LSTM可以根据不同的句子，有条件的保留和过滤历史信息，从而达到长记忆的功能。

GRU是LSTM的简化版，它只需要处理两个sigmod函数的训练，而LSTM需要三个sigmod函数的训练，减少了训练的参数，加快了训练的速度，但也损失了一部分模型的复杂，在处理较复杂问题时，没有LSTM那么好。

auto-encoder-decoder的特点是输出的单元数是固定的。对于一般自然语言处理，例如机器翻译，输入的单元个数跟输出单元的个数并不是一一对应的，此时就需要动态的生成输出单元。Seq2Seq通过动态的输出结束符，代表是否输出完成，达到可以动态的根据输入输出不同的单元个数。

seq2seq的缺点是，所有的输入序列都转化为单一的单元c，导致很多信息都将消失，对于不同的输出yi，它可能依赖的输入xj有可能不一样，此时通过加入注意力模型，通过对xi进行softmax处理，并加入到y权重的训练中，可以让不同的y，有不同的x对它进行影响

softmax的输入为输入单元x，和上一个输出单元y，联合产生softmax的权重，进而对不同的序列，对于同一个x，会有不同的注意力到输出

q = Wq(x)

k = Wk(x)

v = Wv(x)

x为词向量

通过训练，得到权重w，从而学习到这一层的softmax注意力参数

R是前一次encoder的输出

通过增加w的数量，产生多个z，并进行堆叠，通过前馈网络，最后产生z

在使用self attention处理句子时，是没有考虑单词在句子中的位置信息的。为了让模型可以加入考虑单词的位置信息，加入了位置编码的向量

计算如下：

pos为单词在句子中的位置

i为词向量的位置