关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。我想知道您是否可以为从网页中提取文本的java库/方法提供任何建议?我还发现了这个产品:http://www.diffbot.com/products/automatic/article/并且想知道您是否认为这是要走的路?如果可以的话,有人可以指点我一个Java实现-似乎找不到