jjzjj

pathToExternalBinary

全部标签

java - 使用 Lucene 进行分词和索引,如何处理外部分词和词性?

我想构建我自己的——我不确定是哪一个——分词器(从Lucene的角度来看)或我自己的分析器。我已经写了一个代码,用word标记我的文档(作为List或ListWord>其中Word是一个只有一种容器的类3publicString:word,pos,lemma-pos代表词性标签)。我不确定要索引什么,也许只有“Word.lemma”或类似“Word.lemma+'#'+Word.pos”,可能我会根据词性从停用词列表中进行一些过滤。顺便说一句,这是我的误解:我不确定我应该在哪里插入LuceneAPI,我应该将自己的分词器包装在新的分词器中吗?我应该重写TokenStream吗?我应该认