jjzjj

lemmatization

全部标签

php - 使用wordnet获取单词的引理

如何使用Wordnet获取给定单词的引理。我似乎无法在wordnet文档中找到我想要的东西。http://wordnet.princeton.edu/wordnet/man/wn.1WN.html例如,对于单词“books”,我想得到“book”,ashes=>ash,booking=>book,apples=>apple....等我想在命令行中使用wordnet来实现这一点,但我找不到准确的选项来检索这种情况。php解决方案也会有很大帮助,因为我最初打算使用wordnetphpAPI,但他们网站上的当前版本似乎无法正常工作。 最佳答案

java - 避免字典查找的高效 Lemmatizer

我想将“eat”之类的字符串转换为“eating”、“eats”。我搜索并找到了词形还原作为解决方案,但我遇到的所有词形还原工具都使用词表或字典查找。有没有什么词形还原器可以避免查字典,效率高,可能是基于规则的词形还原器。是的,我不是在寻找“词干分析器”。 最佳答案 你可以试试LRBL:基于规则的词形还原器它使用递归首字母缩略词的概念。 关于java-避免字典查找的高效Lemmatizer,我们在StackOverflow上找到一个类似的问题: https:/

java - 使用 apache lucene 进行词形还原

我正在使用apachelucene开发一个文本分析项目。我需要对一些文本进行词形还原(将单词转换为它们的规范形式)。我已经编写了生成词干的代码。使用它,我可以转换以下句子Thestemisthepartofthewordthatneverchangesevenwhenmorphologicallyinflected;alemmaisthebaseformoftheword.Forexample,from"produced",thelemmais"produce",butthestemis"produc-".Thisisbecausetherearewordssuchasproducti

c++ - NLP:使用 lemmaGen c++ 进行词形还原

我正在增强一个聊天机器人,我希望从输入的句子中找到单词的引理。聊天机器人是用C++编写的,我找到了一个名为LemmaGen的免费开源词形还原工具。我下载了适用于C++的2.2版,但没有提供有关如何引用甚至使用它的文档。过去有没有人使用过LemmaGenforc++?任何信息都会有所帮助。非常感谢 最佳答案 我没有使用c++版本,但是我确实使用了C#版本。LemmaGenforC#的使用非常简单直接。首先你用模型文件的参数初始化Lemmatizer类型的对象,然后你可以调用它的公共(public)方法来Lemmatize表示为字符串的

python - Lemmatize 法语文本

关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我有一些法语文本需要以某种方式处理。为此,我需要:首先,将文本标记为单词然后对这些词进行词形还原以避免多次处理同一个词根据我所知,NLTK中的wordnetlemmatizer仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。:) 最佳答案 我找到的最好的解决方

python - Lemmatize 法语文本

关闭。这个问题需要更多focused.它目前不接受答案。想要改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭3年前。Improvethisquestion我有一些法语文本需要以某种方式处理。为此,我需要:首先,将文本标记为单词然后对这些词进行词形还原以避免多次处理同一个词根据我所知,NLTK中的wordnetlemmatizer仅适用于英语。当我给它“voudrais”等时,我想要一些可以返回“vouloir”的东西。由于撇号,我也无法正确标记。任何指针将不胜感激。:) 最佳答案 我找到的最好的解决方

nlp - 词形还原与词干提取有什么区别?

我什么时候使用每个?另外...NLTK词形还原是否依赖于词性?如果是这样不是更准确吗? 最佳答案 短而密:http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.htmlThegoalofbothstemmingandlemmatizationistoreduceinflectionalformsandsometimesderivationallyrelatedformsofawordtoacommonbaseform.However

nlp - 词形还原与词干提取有什么区别?

我什么时候使用每个?另外...NLTK词形还原是否依赖于词性?如果是这样不是更准确吗? 最佳答案 短而密:http://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.htmlThegoalofbothstemmingandlemmatizationistoreduceinflectionalformsandsometimesderivationallyrelatedformsofawordtoacommonbaseform.However

python - 用于 POS 标记和 Lemmatizer 的多语言 NLTK

最近我接触了NLP,我尝试使用NLTK和TextBlob用于分析文本。我想开发一个分析旅行者评论的应用程序,因此我必须管理大量用不同语言编写的文本。我需要做两个主要操作:词性标注和词形还原。我已经看到,在NLTK中,可以像这样为句子标记化选择正确的语言:tokenizer=nltk.data.load('tokenizers/punkt/PY3/italian.pickle')我还没有找到正确的方法来为不同语言的POS标记和Lemmatizer设置语言。如何为意大利语、法语、西类牙语或德语等非英语文本设置正确的语料库/词典?我还看到可以导入“TreeBank”或“WordNet”模块,

python - 如何使用 spacy lemmatizer 将单词转换为基本形式

我是spacy的新手,我想使用它的lemmatizer功能,但我不知道如何使用它,就像我进入单词字符串一样,它将以单词的基本形式返回字符串。例子:'单词'=>'单词''做过'=>'做'谢谢。 最佳答案 上一个答案很复杂,无法编辑,所以这里是一个更传统的答案。#makesureyourdownloadedtheenglishmodelwith"python-mspacydownloaden"importspacynlp=spacy.load('en')doc=nlp(u"Applesandorangesaresimilar.Boots
12