jjzjj

Unigrams

全部标签

python - 从大量 .txt 文件及其频率生成 Ngram(Unigrams、Bigrams 等)

我需要在NLTK中编写一个程序,将语料库(大量txt文件)分解为unigrams、bigrams、trigrams、fourgrams和Fivegrams。我已经编写了代码来将我的文件输入到程序中。输入是300个用英文编写的.txt文件,我想要Ngrams形式的输出,特别是频率计数。我知道NLTK有Bigram和Trigram模块:http://www.nltk.org/_modules/nltk/model/ngram.html但我没有那么先进,无法将它们输入我的程序。输入:txt文件不是单句输出示例:Bigram[('Hi','How'),('How','are'),('are',