jjzjj

htmlunit

全部标签

java - 使用 HTMLUnit 从 url 保存图像

是否可以通过给图像URL来使用HTMLUnit将图像保存到硬盘?如果是怎么办?问候! 最佳答案 如果您使用的是HtmlUnit,那么您应该有一个HtmlPage。在那里你可以获得一个HtmlImage并以这种方式保存文件:HtmlImageimage=page.getFirstByXPath("//img[@src='blah']");FileimageFile=newFile("/path/to/file.jpg");image.saveAs(imageFile);如果您确实有URL...那么我认为您不需要HtmlUnit来下载图

java - gwt 应用程序的爬虫花费太多时间

我有一个gwt应用程序,我需要针对seo进行优化(为google抓取内容),并且我一直在尝试许多不满足我们需求的解决方案(这让我们花费了大量时间来返回html页面),试验是:我尝试使用htmlUnit作为headless浏览器来按需抓取页面,获取html内容大约需要15秒(在审核此时间时,结果80%的时间由等待循环占用后台javascript"while(waitForBackgroundJavaScript>0&&loopCount一种技术,包括在google请求之前抓取页面,然后在google请求时提供保存的快照(但这种解决方案绝对不方便,因为内容变化非常频繁,google可能认为

seo - 如何使用 htmlunit + page.asXml 方法保留我的文档类型

当我使用HtmlUnit运行page.asXml()时,我丢失了页面的文档类型。有变通办法吗?注意:目的是为Google提供DOM。 最佳答案 试着打电话p.getWebResponse().getContentAsString()代替p.asXml()我刚刚针对http://google.com进行了测试,而在前一种情况下,“”保留在输出中。 关于seo-如何使用htmlunit+page.asXml方法保留我的文档类型,我们在StackOverflow上找到一个类似的问题:

ajax - 带有 GWT 应用程序的 HtmlUnit 返回不完整的页面

我正在尝试使用HtmlUnit制作我的GWT应用程序的HTML快照。我的想法是让我的AJAX应用程序可抓取。不幸的是,我正在获取的页面似乎不完整。当我在我的普通浏览器中访问该页面时,它缺少可见的内容。我的HTML快照中只需要文本。这是我的代码:publicclassBrowser{publicstaticvoidmain(String[]args)throwsIOException,InterruptedException{finalWebClientwebClient=newWebClient(BrowserVersion.FIREFOX_10);webClient.setJavaS

ruby-on-rails - 使用 Jruby/Rails 实现 Google 的 hashbang/Ajax 爬网?

从这里开始工作:http://support.google.com/webmasters/bin/answer.py?hl=en&answer=174992建议将页面的html快照用于索引。我怎样才能用watij做到这一点?用htmlunit? 最佳答案 这是我想出的:https://gist.github.com/3702913基本上,我们使用capybara加载然后呈现页面。简单。我首先尝试了WebSpec和HtmlUnit,但运气不佳。(话又说回来,JRuby会使事情复杂化。) 关

ajax - 带有 GWT 的 HtmlUnit 返回不完整的页面

我正在尝试使用HtmlUnit测试我的GWT网站正确加载。不幸的是,我正在获取的页面似乎不完整。当我在我的普通浏览器中访问该页面时,它缺少可见的内容。这是生成此输出的单元测试:WebClientwebClient=newWebClient();webClient.setThrowExceptionOnScriptError(false);webClient.setAjaxController(newNicelyResynchronizingAjaxController());webClient.waitForBackgroundJavaScript(30000);HtmlPagepag

javascript - 如何让 Google 抓取我的 AJAX 内容?

我一直在开发一个大量使用jQuery并通过AJAX加载内容的网站,如下所示:$('#newPageWrapper').load(newPath+'.pageWrapper',function(){//onloadlogic}现在我注意到Google不会通过Javascript为任何动态加载的内容编制索引,因此我一直在寻找解决该问题的方法。我已通读Google的MakingAJAXApplicationsCrawlable似乎记录了100次,但我仍然不明白如何实现它(主要是由于我对服务器的了解有限)。所以我的第一个问题是:是否有您知道的从头到尾记录这一切的体面的分步教程?我尝试用Goog

java - HTMLUnit 和 AppEngine

所以我正在尝试在服务器端解析javascript生成的资源以进行SEO优化。我正在按照在google提供的基于java的服务器上使用HTMLUnit的示例here.我们目前使用应用引擎托管,但我在调用时发现finalWebClientwebClient=newWebClient();我总是收到这个异常,任何人有任何想法:java.lang.ArrayStoreException:com.gargoylesoftware.htmlunit.httpclient.HtmlUnitDomainHandleratcom.gargoylesoftware.htmlunit.httpclient.

java - Google App Engine 上的 Ajax 抓取 - HtmlUnit 是否有效?

http://code.google.com/web/ajaxcrawling/docs/html-snapshot.htmlHtmlUnit可以在AppEngine上运行吗?如果不是,是否有任何其他方法可以让搜索引擎抓取我的GWT应用程序? 最佳答案 HtmlUnit在GAE上工作的补丁正在进行中。HtmlUnit的错误跟踪器issue2962074讨论了如何让HtmlUnit在GAE上工作,并提供了一个初步的补丁来实现这一点。 关于java-GoogleAppEngine上的Ajax

如何在春季配置RETRIES的HTMLUNIT请求数?

我使用htmlunit和春天。我有一个Web服务,它正在接受XML的帖子方法。它运行正常,然后在某个随机场合,它无法与抛出消息的服务器交流目标服务器无法响应。19:32:01.489[main]DEBUGorg.apache.http.impl.conn.PoolingHttpClientConnectionManager-Connectionreleased:[id:5][route:{}->http://][totalkeptalive:0;routeallocated:0of6;totalallocated:0of20]19:32:01.489[main]INFOorg.apache.h