众所周知NLP技术是人工智能的主要分支,并且在使用文本开发NLP应用程序之前,你通常还需要执行额外的预处理任务。例如,你可能想要从文本中删除停用词,将较长的句子通过分词变为单个词,或者查找所有词的词性标签。
常见的NLP任务有哪些?开课吧
最常见的NLP任务包括以下这些:
分词
分词是指将文档划分为单个单词的列表。你可能想要删除停用词或为句子中的单个词查找词性标签。为此,你首先需要将句子分成单独的单词。
为了分词,你可以使用NLTK库中的word_tokenize()方法来分词。
停用词删除
停用词是常用的词,例如a、is、am、it、he和she。这些词在训练深度学习算法时可能会也可能不会发挥任何作用,具体取决于手头的任务。有时,停用词会从数据集中完全删除。
要删除停用词,你必须首先从NLTK下载停用词列表。接下来,你需要对文本进行分词,然后检查该词是否存在于停用词列表中。如果在停用词列表中找到该词,则忽略该词。否则,将该词添加到不是停用词的词列表中。
常见的NLP任务有哪些?开课吧
词干提取和词形还原
词干化是指将一个词缩减为其词干形式。例如,计算机、计算和计算这个词的词干是“计算”。
要执行词干提取,你可以使用nltk.stem模块中的PorterStemmer。你想要应用词干提取的那个单词会被传递给PorterStemmer对象的stem()函数。
词性标注和命名实体识别
你经常需要查找句子中单词的词性。例如,你可能想要查找一个词是名词、代词还是人名等。使用NLTK,你可以轻松查找一个词是动词、名词、代词还是任何其他词性。
要查找词性和命名实体,你可以使用NLTK模块中的pos_tags功能。你必须将分词后的单词传递给pos_tags函数。这里提供一个例子。
文本语义相似度
语义相似度是指不同文本文档在意义上的相似度。要查找语义相似性,你可以再次使用SpaCy库。Similarity函数返回的是两个文本之间的语义相似度。该方法返回一个介于0和1之间的值,其中1表示100%的相似性。
词义消歧
一个词在不同的语境中可以有不同的含义。例如,当你说“I live on a bank of reiver”时,你指的”bank”是河边。如果你说“I withdraw some money from my bank”,那么在这种情况下,bank这个词是指管理资金的地方。在给定上下文中识别单词正确含义的过程就叫做词义消歧。
要执行词义消歧,你可以使用 pywsd 库,它代表“Python 词义消歧”。
NLP技术的主要研究方向有哪些?开课吧
NLP技术按照语言习惯从上到下分为哪些层面
自然语言处理(NLP)的软件有哪些?开课吧
标签: 用词
②文章观点仅代表原作者本人不代表本站立场,并不完全代表本站赞同其观点和对其真实性负责。
③文章版权归原作者所有,部分转载文章仅为传播更多信息、受益服务用户之目的,如信息标记有误,请联系站长修正。
④本站一律禁止以任何方式发布或转载任何违法违规的相关信息,如发现本站上有涉嫌侵权/违规及任何不妥的内容,请第一时间反馈。发送邮件到 88667178@qq.com,经核实立即修正或删除。