pathToExternalBinary

我想构建我自己的——我不确定是哪一个——分词器(从Lucene的角度来看)或我自己的分析器。我已经写了一个代码，用word标记我的文档(作为List或ListWord>其中Word是一个只有一种容器的类3publicString:word,pos,lemma-pos代表词性标签)。我不确定要索引什么，也许只有“Word.lemma”或类似“Word.lemma+'#'+Word.pos”，可能我会根据词性从停用词列表中进行一些过滤。顺便说一句，这是我的误解:我不确定我应该在哪里插入LuceneAPI，我应该将自己的分词器包装在新的分词器中吗？我应该重写TokenStream吗？我应该认