JSoup

java - JSoup 解析带有未闭合标签的无效 HTML

使用包含最新版本1.7.2的JSoup存在一个错误，即解析带有未闭合标签的无效HTML。例子:Stringtmp="LinkErrorlink";Jsoup.parse(tmp);生成的文档是:LinkErrorlink浏览器会生成如下内容:LinkErrorlinkJsoup应该作为浏览器或源代码工作。有什么解决办法吗？查看API，我没有找到任何东西。最佳答案正确的行为是在解析这个无效的HTML时充当其他浏览器。感谢您提交此bug.我已经解决了阻止收养机构将原始属性保留在新节点中的问题。它将在1.7.3中可用，或者您现在可以从

闭合 JSoup lt gt section java html-parsing web-crawler

java - Jsoup 在类中获取 href

我有这段html代码需要解析BestSushiintown我知道有一个jsoup的例子，你可以得到一个页面中的所有链接，例如Elementslinks=doc.select("a[href]");for(Elementlink:links){print("*a:(%s)",link.attr("abs:href"),trim(link.text(),35));}但我需要一段代码可以返回该特定类的href。谢谢大家最佳答案您可以按类选择元素。此示例查找具有sushi-restaurant类的元素，然后获取第一个结果的绝对URL。确

Jsoup java 34 sushi-restaurant section class href

java - 如何使用java填写Excel文件

我有以下代码来填写Excel文件，以及我使用Jsoup从互联网上获得的信息。packageknvbj;importjava.io.FileInputStream;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.util.List;importorg.apache.poi.ss.usermodel.Row;importorg.apache.poi.ss.usermodel.Sheet;importorg.apache.poi.ss.usermodel

java Excel String 34 setCellValue apache-poi jsoup

java - 如何修复 HTTP 错误获取 URL。 Status=500 在 java 中爬行时？

我正在尝试从评论页面抓取用户对imdb电影院电影的评分:(我的数据库中的电影数量约为600,000)。我使用jsoup解析页面如下:(抱歉，我没有在这里写完整的代码，因为它太长了)try{//connectingtomysqldbResultSetres=st.executeQuery("SELECTid,title,production_year"+"FROMtitle"+"WHEREkind_id=1"+"LIMIT0,100000");while(res.next()){..............StringbaseUrl="http://www.imdb.com/search

行时 java code 34 HttpConnection web-crawler jsoup http-error

java - Jsoup - 提取文本

我需要像这样从节点中提取文本:Sometextwithtagsmightgohere.AlsothereareparagraphsMoretextcangowithoutparagraphs我需要构建:Sometextwithtagsmightgohere.AlsothereareparagraphsMoretextcangowithoutparagraphsElement.text仅返回div的所有内容。Element.ownText-不在子元素内的所有内容。两者都错了。遍历children会忽略文本节点。有没有办法迭代元素的内容来接收文本节点。例如文本节点-一些文本节点-带有标签文

Jsoup java Element paragraphs code iteration text-extraction

java - Jsoup : SelectorParseException when colon in xml tag

当xml标签有冒号时抛出异常，异常:org.jsoup.select.Selector$SelectorParseException:无法解析查询“w:r”:“:r”处的意外标记XML:ANJava代码:org.jsoup.nodes.Documentdoc=Jsoup.parse(documentXmlString);这里的documentXmlString有上面指定的xml 最佳答案只需将“:”替换为“|”doc.select("w|r");我正在使用Jsoup1.5.2。关于j

SelectorParseException Jsoup section strong code java xml-parsing

java - 如何使用 Jsoup 解析相对 url？

你好，我有一个关于Jsoup的问题。我抓取了一个页面并获得了很多url。其中一些是相对URL，例如:"../index.php"、"../admin"、"../details.php".我使用attr("abs:href")获取绝对url，但此链接呈现为www.domain.com/../admin.php我想知道这是否是一个错误。有没有办法用jsoup获取真正的绝对路径？我该如何解决这个问题？我也尝试过使用absurl("href")，但没有用。最佳答案还有一个不错的选择是使用abs:href或abs:src属性:String

Jsoup java code section href url

java - 在包含字符串的 ArrayList 中查找索引

通过使用Jsoup，我从网站解析HTML以使用我需要从网站获取的内容填充ArrayList。所以现在我有一个用字符串填充的ArrayList。我想在该列表中找到包含特定字符串的索引。例如，我知道列表中某处的某个索引中有字符串(文字)“Claude”，但我似乎无法编写任何代码来找到包含“Claude”的索引"在ArrayList中...这是我尝试过但返回-1(未找到)的方法:ArrayListlist=newArrayList();Stringclaude="Claude";Documentdoc=null;try{doc=Jsoup.connect("http://espn.go.co

ArrayList java code list text string jsoup indexof

java - 使用用户名和密码发送 POST 请求并保存 session cookie

发送带有用户名和密码的POST请求后，如何使用Jsoup保存cookie？还是我必须先将它们提供给连接对象然后保存？最佳答案假设HTML表单如下所示:您可以按如下方式发布并获取cookies:Responseresponse=Jsoup.connect("http://example.com/login").method(Method.POST).data("username",username).data("password",password).data("login","Login").execute();Mapcooki

session cookie 34 section cookies java authentication jsoup

java - 通过jSoup从Div标签获取属性值

我有一个Div标签，如下所示5days07:14:41如何获取eventTTL的值？我想显示eventTTL的值，即:)“4583476000”。最佳答案 Elementdiv=doc.getElementById("eventTTL");Stringattr=div.attr("eventTTL");System.out.println(attr);更多信息请访问:https://jsoup.org/cookbook/extracting-data/attributes-text-html

jSoup java section eventTTL 34 html-parsing

2 3 456 7 8