jjzjj

java - JSoup 解析带有未闭合标签的无效 HTML

使用包含最新版本1.7.2的JSoup存在一个错误,即解析带有未闭合标签的无效HTML。例子:Stringtmp="LinkErrorlink";Jsoup.parse(tmp);生成的文档是:LinkErrorlink浏览器会生成如下内容:LinkErrorlinkJsoup应该作为浏览器或源代码工作。有什么解决办法吗?查看API,我没有找到任何东西。 最佳答案 正确的行为是在解析这个无效的HTML时充当其他浏览器。感谢您提交此bug.我已经解决了阻止收养机构将原始属性保留在新节点中的问题。它将在1.7.3中可用,或者您现在可以从

java - Jsoup 在类中获取 href

我有这段html代码需要解析BestSushiintown我知道有一个jsoup的例子,你可以得到一个页面中的所有链接,例如Elementslinks=doc.select("a[href]");for(Elementlink:links){print("*a:(%s)",link.attr("abs:href"),trim(link.text(),35));}但我需要一段代码可以返回该特定类的href。谢谢大家 最佳答案 您可以按类选择元素。此示例查找具有sushi-restaurant类的元素,然后获取第一个结果的绝对URL。确

java - 如何使用java填写Excel文件

我有以下代码来填写Excel文件,以及我使用Jsoup从互联网上获得的信息。packageknvbj;importjava.io.FileInputStream;importjava.io.FileOutputStream;importjava.io.IOException;importjava.io.InputStream;importjava.util.List;importorg.apache.poi.ss.usermodel.Row;importorg.apache.poi.ss.usermodel.Sheet;importorg.apache.poi.ss.usermodel

java - 如何修复 HTTP 错误获取 URL。 Status=500 在 java 中爬行时?

我正在尝试从评论页面抓取用户对imdb电影院电影的评分:(我的数据库中的电影数量约为600,000)。我使用jsoup解析页面如下:(抱歉,我没有在这里写完整的代码,因为它太长了)try{//connectingtomysqldbResultSetres=st.executeQuery("SELECTid,title,production_year"+"FROMtitle"+"WHEREkind_id=1"+"LIMIT0,100000");while(res.next()){..............StringbaseUrl="http://www.imdb.com/search

java - Jsoup - 提取文本

我需要像这样从节点中提取文本:Sometextwithtagsmightgohere.AlsothereareparagraphsMoretextcangowithoutparagraphs我需要构建:Sometextwithtagsmightgohere.AlsothereareparagraphsMoretextcangowithoutparagraphsElement.text仅返回div的所有内容。Element.ownText-不在子元素内的所有内容。两者都错了。遍历children会忽略文本节点。有没有办法迭代元素的内容来接收文本节点。例如文本节点-一些文本节点-带有标签文

java - Jsoup : SelectorParseException when colon in xml tag

当xml标签有冒号时抛出异常,异常:org.jsoup.select.Selector$SelectorParseException:无法解析查询“w:r”:“:r”处的意外标记XML:ANJava代码:org.jsoup.nodes.Documentdoc=Jsoup.parse(documentXmlString);这里的documentXmlString有上面指定的xml 最佳答案 只需将“:”替换为“|”doc.select("w|r");我正在使用Jsoup1.5.2。 关于j

java - 如何使用 Jsoup 解析相对 url?

你好,我有一个关于Jsoup的问题。我抓取了一个页面并获得了很多url。其中一些是相对URL,例如:"../index.php"、"../admin"、"../details.php".我使用attr("abs:href")获取绝对url,但此链接呈现为www.domain.com/../admin.php我想知道这是否是一个错误。有没有办法用jsoup获取真正的绝对路径?我该如何解决这个问题?我也尝试过使用absurl("href"),但没有用。 最佳答案 还有一个不错的选择是使用abs:href或abs:src属性:String

java - 在包含字符串的 ArrayList 中查找索引

通过使用Jsoup,我从网站解析HTML以使用我需要从网站获取的内容填充ArrayList。所以现在我有一个用字符串填充的ArrayList。我想在该列表中找到包含特定字符串的索引。例如,我知道列表中某处的某个索引中有字符串(文字)“Claude”,但我似乎无法编写任何代码来找到包含“Claude”的索引"在ArrayList中...这是我尝试过但返回-1(未找到)的方法:ArrayListlist=newArrayList();Stringclaude="Claude";Documentdoc=null;try{doc=Jsoup.connect("http://espn.go.co

java - 使用用户名和密码发送 POST 请求并保存 session cookie

发送带有用户名和密码的POST请求后,如何使用Jsoup保存cookie?还是我必须先将它们提供给连接对象然后保存? 最佳答案 假设HTML表单如下所示:您可以按如下方式发布并获取cookies:Responseresponse=Jsoup.connect("http://example.com/login").method(Method.POST).data("username",username).data("password",password).data("login","Login").execute();Mapcooki

java - 通过jSoup从Div标签获取属性值

我有一个Div标签,如下所示5days07:14:41如何获取eventTTL的值?我想显示eventTTL的值,即:)“4583476000”。 最佳答案 Elementdiv=doc.getElementById("eventTTL");Stringattr=div.attr("eventTTL");System.out.println(attr);更多信息请访问:https://jsoup.org/cookbook/extracting-data/attributes-text-html