JSoup

java - jsoup可以处理元刷新重定向吗

我在使用jsoup时遇到问题我想做的是从url中获取一个文档，该文档将根据无法正常工作的元刷新url重定向到另一个url，以清楚地解释我是否正在输入名为http://www.amerisourcebergendrug.com的网站url这将根据元刷新url自动重定向到http://www.amerisourcebergendrug.com/abcdrug/但我的jsoup仍然坚持使用http://www.amerisourcebergendrug.com而不是从http://www.amerisourcebergendrug.com/abcdrug/重定向和获取Documentdoc=

java - 用jsoup解析html并去掉标签 block

我想删除标签之间的所有内容。一个示例输入可能是输入:startdeletefrombelowfirstdivhavingthisclasswasteseconddivhavingthisclasswastedeletetillabovethiswillalsoremainend输出将是:startdeletefrombelowdeletetillabovethiswillalsoremainend基本上，我必须删除第一次出现的整个block谢谢，最佳答案您最好遍历找到的所有元素。所以你可以确定a.)所有元素都被移除，并且b.)如

block jsoup div code section java

java - html标签上的Jsoup属性删除

我有一个问题，我想过滤某些可能包含html的文本。我使用jsoup将标签列入白名单并清理标签，效果非常好。我唯一的问题是一些标签可以包含属性，主要是样式或类，但也可能有不同的属性。(名称、目标等)清理时这没问题，因为它们会被很好地剥离，但是当将一些允许的标签列入白名单时，由于这些属性而被阻止。基本的白名单似乎没有涵盖样式或类属性，而且我无法确定我还遇到了什么。因为我想允许相当广泛的标签，但在清理过程中删除了大部分标签，所以我不想为我允许的所有标签添加所有属性。最简单的方法是从所有标签中剥离所有属性，因为我对它们不感兴趣，然后检查带有普通标签的剥离文本是否有效。是否有删除所有属性的函数或

Jsoup java section attToRemove 的

java - 使用 FileOutputStream 时访问被拒绝

我在让它工作时遇到了问题。它接受一个字符串，该字符串由几条信息放在一起组成。但是，当我尝试将字符串写入文件以跟踪程序随时间的变化时，我收到访问被拒绝错误:voidwriteToFile(Stringinput)throwsException{Filefile=newFile("C:\\WeatherExports\\export.txt");if(!file.exists()){file.createNewFile();}BufferedWriterinFile=newBufferedWriter(newFileWriter(file,true));try{inFile.append(

FileOutputStream java Unknown Source jsoup filenotfoundexception access-denied bufferedwriter

java - 我如何使用 Jsoup 遍历 HTML 树？

我认为有人问过这个问题，但我没有找到任何东西。如何从Jsoup中的Document元素遍历HTML内容中的所有元素？我正在阅读文档并考虑使用childNodes()方法，但它只从下面的一个级别获取节点(据我所知)。我想我可以对这种方法使用一些递归，但我想知道是否有更合适/native的方法来做到这一点。最佳答案来自Document(以及任何Node子类)，您可以使用traverse(NodeVisitor)方法。例如:document.traverse(newNodeVisitor(){publicvoidhead(Nodeno

Jsoup java code section traversal

java - 从 HTML 片段中移除空标签对

我有一个用户提交的字符串，其中包含HTML内容，例如"Helloworld"我想转换这个字符串，以便删除空标签对(但保留像这样的空标签)。例如，此转换的结果应将上面的字符串转换为"Helloworld"我想使用JSoup来执行此操作，因为我的类路径中已经有了它，而且在服务器端执行此转换对我来说最简单。最佳答案这是一个例子(使用JSoup):Stringhtml="Helloworld";Documentdoc=Jsoup.parse(html);for(Elementelement:doc.select("*")){if(!el

java HTML lt gt section html-parsing jsoup

java - Jsoup 获取部分页面

我正在尝试抓取投标网站的内容，但无法获取网站的完整页面。我在xulrunner上使用crowbar首先获取页面(因为ajax以惰性方式加载某些元素)，然后从文件中抓取。但是在bidrivals网站的主页上，即使本地文件格式正确，这也会失败。jSoup似乎只是在html代码的中间以“...”字符结尾。如果有人以前遇到过这种情况，请帮忙。以下代码被称为[thislink].Filef=newFile(projectLocation+logFile+"bidrivalsHome");try{f.createNewFile();log.warn("Tryingtofetchmainpageth

Jsoup java 34 strong code web-scraping

为什么jsoup sextsibling（）为null？

Documentdocument=Jsoup.parse("ChapterOneApieceofcomputercodeChapterTwoJavain10minutes");Elementstitles=document.getElementsByTag("strong");for(inti=0;i嗨，大家好，我想在强大之后获得内容，就像我尝试保存第一章并获得“元素标题”一样，但是为什么我的代码什么也没显示，而接下来的话是无效的？谢谢看答案它不起作用，因为每个元素没有任何兄弟姐妹，因为它们是唯一的段落的孩子。根据您的期望，您应该要求父母兄弟姐妹，例如：Documentdocument=Jso

sextsibling 为什么 lt strong code

java - jsoup 白名单放松模式对于所见即所得编辑器来说过于严格

我正在尝试使用jsoup来清理从客户端中的所见即所得发布的html(碰巧是tinymce)relaxed模式似乎不够宽松，因为默认情况下它会去除span元素和任何样式属性。例如Stringtext="foobar";Jsoup.clean(text,Whitelist.relaxed());会输出foobar和foobar将被完全删除。有没有人有过使用Jsoup杜绝XSS攻击的可能性，并且仍然允许上述元素和属性通过的经验？编辑:我已经完成了以下内容。谁能告诉我这有多脆弱？Jsoup.clean(pitch,Whitelist.relaxed().addTags("span").addA

jsoup java section code style security wysiwyg xss

java - 从 Jsoup 获取原始帖子回复

我正在使用Jsoup向网站发布表单，回复是纯文本，但Jsoup不知道内容类型。因此我使用ignoreContentType(true)，这样Jsoup就不会因为未知的内容类型而抛出异常。但是我不知道如何从Jsoup获得原始回复，文本包含一些特殊字符，Jsoup删除，Jsoups还添加了一个正文和html标签-我不需要那个，我只想要原始回复。如何获得原始回复？谢谢! 最佳答案你可以使用Response#body()为了这。例如Stringbody=Jsoup.connect(url).execute().body();或者如果你正在

Jsoup java section body http

1 2 345 6 7