2、倒排索引的数据结构倒排索引其实包含了三种数据,分别是倒排表(PostingList)词项字典(TermDictionary)词项索引(TermIndex)这几种文件分别存储了不同的数据其中倒排表包含某个词项的所有id的数据存储了在.doc文件中;词项字典包含了indexfield的所有经过normalizationtokenfilters处理之后的词项数据,最终存储在.tim文件中。所谓normalization其实是一个如去重、时态统一、大小写统一、近义词处理等类似的相关操作;词项索引就是为了加速词项字典检索的一种数据结构,落地文件为.tip。.tip文件和.tim文件的数据结构如下图所