jjzjj

websphinx

全部标签

java - 如何抓取整个维基百科?

我试过WebSphinx应用程序。我意识到如果我将wikipedia.org作为起始URL,它不会进一步抓取。因此,如何实际抓取整个维基百科?谁能给我一些指导方针?我是否需要专门去查找那些URL并放置多个起始URL?有人对使用WebSphinx的API的教程有好的网站建议吗? 最佳答案 如果您的目标是爬取整个维基百科,您可能需要查看可用的数据库转储。参见http://download.wikimedia.org/. 关于java-如何抓取整个维基百科?,我们在StackOverflow上