pos有哪些功能模块(常见的NLP任务有哪些?开课吧)

快鱼网 17 0

众所周知NLP技术是人工智能的主要分支,并且在使用文本开发NLP应用程序之前,你通常还需要执行额外的预处理任务。例如,你可能想要从文本中删除停用词,将较长的句子通过分词变为单个词,或者查找所有词的词性标签。

常见的NLP任务有哪些?开课吧

最常见的NLP任务包括以下这些:

分词

分词是指将文档划分为单个单词的列表。你可能想要删除停用词或为句子中的单个词查找词性标签。为此,你首先需要将句子分成单独的单词。

为了分词,你可以使用NLTK库中的word_tokenize()方法来分词。

停用词删除

停用词是常用的词,例如a、is、am、it、he和she。这些词在训练深度学习算法时可能会也可能不会发挥任何作用,具体取决于手头的任务。有时,停用词会从数据集中完全删除。

要删除停用词,你必须首先从NLTK下载停用词列表。接下来,你需要对文本进行分词,然后检查该词是否存在于停用词列表中。如果在停用词列表中找到该词,则忽略该词。否则,将该词添加到不是停用词的词列表中。

常见的NLP任务有哪些?开课吧

词干提取和词形还原

词干化是指将一个词缩减为其词干形式。例如,计算机、计算和计算这个词的词干是“计算”。

要执行词干提取,你可以使用nltk.stem模块中的PorterStemmer。你想要应用词干提取的那个单词会被传递给PorterStemmer对象的stem()函数。

词性标注和命名实体识别

你经常需要查找句子中单词的词性。例如,你可能想要查找一个词是名词、代词还是人名等。使用NLTK,你可以轻松查找一个词是动词、名词、代词还是任何其他词性。

要查找词性和命名实体,你可以使用NLTK模块中的pos_tags功能。你必须将分词后的单词传递给pos_tags函数。这里提供一个例子。

文本语义相似度

语义相似度是指不同文本文档在意义上的相似度。要查找语义相似性,你可以再次使用SpaCy库。Similarity函数返回的是两个文本之间的语义相似度。该方法返回一个介于0和1之间的值,其中1表示100%的相似性。

词义消歧

一个词在不同的语境中可以有不同的含义。例如,当你说“I live on a bank of reiver”时,你指的”bank”是河边。如果你说“I withdraw some money from my bank”,那么在这种情况下,bank这个词是指管理资金的地方。在给定上下文中识别单词正确含义的过程就叫做词义消歧。

要执行词义消歧,你可以使用 pywsd 库,它代表“Python 词义消歧”。

NLP技术的主要研究方向有哪些?开课吧

NLP技术按照语言习惯从上到下分为哪些层面

自然语言处理(NLP)的软件有哪些?开课吧

标签: 用词

抱歉,评论功能暂时关闭!