我正在使用WordNet2.1工具并通过JAWSpro-grammatically访问它(Java用于WordNet搜索的API)。今天我遇到了一个名为WordNet域的新事物,它为WordNet中的每个单词分配了DOMAIN标签。链接:-http://wndomains.fbk.eu/labels.html我已经从上面的链接下载了相同的内容。它是一个zip文件。我的问题是:-如何在Java中将“WordNet域”与“WordNet”一起使用? 最佳答案 由于您使用的是java,因此可以将标签加载为HashMap>.根据个人经验,我
我正在使用JAWS访问WordNet.给定一个词,有什么方法可以检测它是否是专有名词?看起来这些同义词集有相当粗略的词汇类别。澄清一下,这些词没有上下文-它们只是单独呈现。如果可以想象一个词可以用作普通名词,那么它是可以接受的。所以“标记”很好,因为虽然它可以是某人的名字,但也可以指代一个点。但是,“非洲”不是。 最佳答案 不幸的是,您无法从WordNet同义词集中可靠地确定专有名词信息。您要找的是NamedEntityRecognition.维基百科页面上有几个可用的Java版本的链接。我个人会推荐StanfordNER或Ling
我有用于使用NLTK的平均perceptron标记的POS标记的代码:fromnltk.corpusimportwordnetfromnltk.stemimportWordNetLemmatizerfromnltkimportpos_tagfromnltk.tokenizeimportword_tokenizestring='dogsrunsfast'tokens=word_tokenize(string)tokensPOS=pos_tag(tokens)print(tokensPOS)结果:[('dogs','NNS'),('runs','VBZ'),('fast','RB')]我尝试过
我正在开展一个项目,该项目需要扫描英文自然文本的段落并检测它们是什么类型的词。该应用程序适用于AJAX、PHP和MySQL。我的应用程序不需要100%准确,只需尝试找到与文本输入匹配的最佳内容。为此,我使用了WordNet数据库的SQL版本,它允许我使用dictView搜索单词及其类型。SELECTlemma,posFROMdictWHERElemma='fool'ORDERBYlemma;以上是数据库看到的示例,但我的PHP实际上根据AJAX调用的文本创建动态绑定(bind)参数,实际上,将包含许多关键字。这将返回一个记录数组,其中包含搜索的每个单词及其类型。然而,我的问题是大多数单
给定一个单词,它可能是也可能不是单数形式的名词,你将如何生成它的复数形式?基于此NLTKtutorial还有这个informallist关于复数规则,我写了这个简单的函数:defplural(word):"""Convertsawordtoitspluralform."""ifwordinc.PLURALE_TANTUMS:#defectivenouns,fish,deer,etcreturnwordelifwordinc.IRREGULAR_NOUNS:#foot->feet,person->people,etcreturnc.IRREGULAR_NOUNS[word]elifwor
总体目标:我正在使用NLTK和Gensim在Python中制作产品评论的LDA模型。我想在不同的n-gram上运行它。问题:unigrams一切都很好,但是当我运行bigrams时,我开始得到包含重复信息的主题。例如,主题1可能包含:['goodproduct','goodvalue'],主题4可能包含:['greatproduct','greatvalue']。对于人类来说,这些显然传达了相同的信息,但显然'goodproduct'和'greatproduct'是不同的二元语法。我如何通过算法确定'goodproduct'和'greatproduct'是否足够相似,以便我可以将其中一
这个问题在这里已经有了答案:HowtogetsynonymsfromnltkWordNetPython(8个答案)关闭6年前。在python中获取一个词的同义词的代码是这样的:fromnltk.corpusimportwordnetdog=wordnet.synset('dog.n.01')printdog.lemma_names>>['dog','domestic_dog','Canis_familiaris']但是dog.n.02给出了不同的词。对于任何单词,我不知道可能有多少个单词。我怎样才能返回一个词的所有同义词?
如何使用nltkPython模块和WordNet查找词域?假设我有像(交易、汇票、支票、存折)这样的词,所有这些词的域都是“BANK”。我们如何在Python中使用nltk和WordNet获得它?我正在尝试通过上位词和下位词的关系:例如:fromnltk.corpusimportwordnetaswnsports=wn.synset('sport.n.01')sports.hyponyms()[Synset('judo.n.01'),Synset('athletic_game.n.01'),Synset('spectator_sport.n.01'),Synset('contact_s
我已经搜索了网络(包括6个链接,这些链接显示了与Heroku、Anaconda等类似的问题,但有共同的根本原因——未找到资源语料库/wordnet)并执行了我所能做的一切,包括但不限于——将下载目录(并随后通过以下3种方法设置nltk_data路径)更改为/usr/lib/nltk_data、/home/ubuntu/nltk_data和/home/ubuntu/quepy/nltk_data3次。通过以下方式更改了路径:(i)在所有三个路径所需的quepy应用程序中更改settings.py中的NLTK_DATA_PATH(ii)对所有三个路径使用nltk.data.path.app
我需要一个包含一个词的输入文本文件。然后我需要使用wordnet找到词的同义词集的引理名称、定义和示例。我已经阅读了这本书:“PythonTextProcessingwithNLTK2.0Cookbook”和“NaturalLanguageProcessingusingNLTK”来帮助我朝这个方向发展。虽然我已经了解如何使用终端来完成此操作,但我无法使用文本编辑器来完成此操作。例如,如果输入文本包含单词“flabbergasted”,则输出需要采用这种方式:目瞪口呆(动词)flabbergast,boggle,bowlover-惊讶地克服;“这令人难以置信!”(形容词)目瞪口呆,目瞪口