jjzjj

offsetsType

全部标签

java - lucene 中的高亮性能非常慢

Lucene(4.6)荧光笔在搜索频繁词时性能非常慢。搜索速度很快(100毫秒),但突出显示可能需要一个多小时(!)。详细信息:使用了很棒的文本语料库(1.5GB纯文本)。性能不取决于文本是否被分割成更多的小块。(也测试了500MB和5MB的片段。)存储位置和偏移量。如果搜索非常频繁的术语或模式,TopDocs检索速度很快(100毫秒),但每次“searcher.doc(id)”调用都非常昂贵(5-50秒),而getBestFragments()非常昂贵(超过1小时).为了这个目的,甚至他们被存储和索引。(硬件:酷睿i7,8GM内存)更大的背景:它将用于语言分析研究。使用了一种特殊的词