我在使用jsoup时遇到问题我想做的是从url中获取一个文档,该文档将根据无法正常工作的元刷新url重定向到另一个url,以清楚地解释我是否正在输入名为http://www.amerisourcebergendrug.com的网站url这将根据元刷新url自动重定向到http://www.amerisourcebergendrug.com/abcdrug/但我的jsoup仍然坚持使用http://www.amerisourcebergendrug.com而不是从http://www.amerisourcebergendrug.com/abcdrug/重定向和获取Documentdoc=
我想删除标签之间的所有内容。一个示例输入可能是输入:startdeletefrombelowfirstdivhavingthisclasswasteseconddivhavingthisclasswastedeletetillabovethiswillalsoremainend输出将是:startdeletefrombelowdeletetillabovethiswillalsoremainend基本上,我必须删除第一次出现的整个block谢谢, 最佳答案 您最好遍历找到的所有元素。所以你可以确定a.)所有元素都被移除,并且b.)如
我有一个问题,我想过滤某些可能包含html的文本。我使用jsoup将标签列入白名单并清理标签,效果非常好。我唯一的问题是一些标签可以包含属性,主要是样式或类,但也可能有不同的属性。(名称、目标等)清理时这没问题,因为它们会被很好地剥离,但是当将一些允许的标签列入白名单时,由于这些属性而被阻止。基本的白名单似乎没有涵盖样式或类属性,而且我无法确定我还遇到了什么。因为我想允许相当广泛的标签,但在清理过程中删除了大部分标签,所以我不想为我允许的所有标签添加所有属性。最简单的方法是从所有标签中剥离所有属性,因为我对它们不感兴趣,然后检查带有普通标签的剥离文本是否有效。是否有删除所有属性的函数或
我在让它工作时遇到了问题。它接受一个字符串,该字符串由几条信息放在一起组成。但是,当我尝试将字符串写入文件以跟踪程序随时间的变化时,我收到访问被拒绝错误:voidwriteToFile(Stringinput)throwsException{Filefile=newFile("C:\\WeatherExports\\export.txt");if(!file.exists()){file.createNewFile();}BufferedWriterinFile=newBufferedWriter(newFileWriter(file,true));try{inFile.append(
我认为有人问过这个问题,但我没有找到任何东西。如何从Jsoup中的Document元素遍历HTML内容中的所有元素?我正在阅读文档并考虑使用childNodes()方法,但它只从下面的一个级别获取节点(据我所知)。我想我可以对这种方法使用一些递归,但我想知道是否有更合适/native的方法来做到这一点。 最佳答案 来自Document(以及任何Node子类),您可以使用traverse(NodeVisitor)方法。例如:document.traverse(newNodeVisitor(){publicvoidhead(Nodeno
我有一个用户提交的字符串,其中包含HTML内容,例如"Helloworld"我想转换这个字符串,以便删除空标签对(但保留像这样的空标签)。例如,此转换的结果应将上面的字符串转换为"Helloworld"我想使用JSoup来执行此操作,因为我的类路径中已经有了它,而且在服务器端执行此转换对我来说最简单。 最佳答案 这是一个例子(使用JSoup):Stringhtml="Helloworld";Documentdoc=Jsoup.parse(html);for(Elementelement:doc.select("*")){if(!el
我正在尝试抓取投标网站的内容,但无法获取网站的完整页面。我在xulrunner上使用crowbar首先获取页面(因为ajax以惰性方式加载某些元素),然后从文件中抓取。但是在bidrivals网站的主页上,即使本地文件格式正确,这也会失败。jSoup似乎只是在html代码的中间以“...”字符结尾。如果有人以前遇到过这种情况,请帮忙。以下代码被称为[thislink].Filef=newFile(projectLocation+logFile+"bidrivalsHome");try{f.createNewFile();log.warn("Tryingtofetchmainpageth
Documentdocument=Jsoup.parse("ChapterOneApieceofcomputercodeChapterTwoJavain10minutes");Elementstitles=document.getElementsByTag("strong");for(inti=0;i嗨,大家好,我想在强大之后获得内容,就像我尝试保存第一章并获得“元素标题”一样,但是为什么我的代码什么也没显示,而接下来的话是无效的?谢谢看答案它不起作用,因为每个元素没有任何兄弟姐妹,因为它们是唯一的段落的孩子。根据您的期望,您应该要求父母兄弟姐妹,例如:Documentdocument=Jso
我正在尝试使用jsoup来清理从客户端中的所见即所得发布的html(碰巧是tinymce)relaxed模式似乎不够宽松,因为默认情况下它会去除span元素和任何样式属性。例如Stringtext="foobar";Jsoup.clean(text,Whitelist.relaxed());会输出foobar和foobar将被完全删除。有没有人有过使用Jsoup杜绝XSS攻击的可能性,并且仍然允许上述元素和属性通过的经验?编辑:我已经完成了以下内容。谁能告诉我这有多脆弱?Jsoup.clean(pitch,Whitelist.relaxed().addTags("span").addA
我正在使用Jsoup向网站发布表单,回复是纯文本,但Jsoup不知道内容类型。因此我使用ignoreContentType(true),这样Jsoup就不会因为未知的内容类型而抛出异常。但是我不知道如何从Jsoup获得原始回复,文本包含一些特殊字符,Jsoup删除,Jsoups还添加了一个正文和html标签-我不需要那个,我只想要原始回复。如何获得原始回复?谢谢! 最佳答案 你可以使用Response#body()为了这。例如Stringbody=Jsoup.connect(url).execute().body();或者如果你正在