jjzjj

Mechanize

全部标签

ruby - 如何使用 Mechanize/Nokogiri 获取页面源

我使用Mechanize登录到网页/servlet。我有一个页面对象:jobShortListPg=agent.get(addressOfPage)当我使用时:putsjobShortListPg我得到了我不想要的页面的“Mechanize”版本:#如何获取页面的HTML源代码? 最佳答案 使用.body:putsjobShortListPg.body 关于ruby-如何使用Mechanize/Nokogiri获取页面源,我们在StackOverflow上找到一个类似的问题:

ruby - 为什么在 Windows 上使用 Mechanize 访问 SSL 站点失败,但在 Mac 上却可以?

这是我用来连接到SSL站点的代码。require'mechanize'a=Mechanize.newpage=a.get'https://site.com'我正在使用Ruby1.9.3和Mechanize2.1pre1+依赖项。在Mac上,上面的代码工作并返回页面。在运行相同版本的Windows7上,它给我以下错误:OpenSSL::SSL::SSLError:SSL_connectreturned=1errno=0state=SSLv3readservercertificateB:certificateverifyfailed恢复到Mechanize2.0.1似乎解决了这个问题,但我

ruby-on-rails - 如何在 Rails 中为 Mechanize 设置自定义用户代理

我知道你有一组预定义的别名,你可以通过设置agent.user_agent_alias='LinuxMozilla'来使用,但是如果我想设置我自己的用户代理,因为我正在写一个网络爬虫并想要识别它,为了我索引的网站。就像Googlebot。似乎有一个user_agent方法,但我似乎找不到任何关于它的功能的文档。 最佳答案 您可以从别名设置用户代理a=Mechanize.newa.user_agent_alias='MacSafari'可用别名存储在AGENT_ALIASES常量中。pMechanize::AGENT_ALIASES否

javascript - 使用 Python 在链接的 href 中执行 JavaScript

我正在尝试使用Python在站点(http://bibliotecadigitalhispanica.bne.es)上自动下载一些PDF。我试过使用urllib/urllib2/mechanize模块(我一直在其他站点使用这些模块:这包括urlopen、urlretrieve等标准函数),但是在这里,链接的href中嵌入了JavaScript进行一些处理并打开PDF的属性,这些模块似乎无法处理这些模块,至少从我在这里阅读的内容来看是这样。例如,当我执行以下操作时:request=mechanize.Request('theexampleurlbelow')response=mechan

javascript - WWW::Scripter 问题与 window.history

我正在使用perl模块WWW::Scripter(基于WWW::Mechanize)和JavaScript插件,我在基本的JavaScript语句方面遇到了问题。useWWW::Scripter;...my$web=WWW::Scripter->new(agent=>'...',autocheck=>1);...$web->use_plugin('JavaScript');...$web->add_header(Referer=>'http://...');...$web->get($url);其中源代码包含基本的JavaScript语句,例如:varx=window.history.

javascript - JS 更改了 DOM 后如何抓取内容?

我正在使用Mechanize,但如果Mechanize做不到,我愿意接受Nokogiri。我想在加载完所有脚本之后而不是之前抓取页面。我该怎么做? 最佳答案 我认为Nokogiri、Watir和PhantomJs是一个不错的选择:b=Watir::Browser.new(:phantomjs)b.gotoURLdoc=Nokogiri::HTML(b.html)生成的文档将在加载脚本后生成。phantomjs很好,因为不需要加载浏览器。 关于javascript-JS更改了DOM后如何抓

javascript - 是否有与 Perl 的 WWW::Mechanize 等效的 Node.js?

我正在搜索类似于WWW::Mechanize的Node模块对于Perl。或者甚至更好WWW::Mechanize::Firefox.主要功能是按名称查找和提交表单,类或ID。处理cookies的能力会很棒并且处理Javascript的能力将是完美的。如果有人有类似的想法,或者我可以在哪个方向搜索,那将不胜感激。 最佳答案 您正在寻找的是可编写脚本/headless的浏览器。按受欢迎程度降序排列,选项是:GooglePuppeteer-“提供高级API来控制Chrome或Chromium的Node库”Zombie-更轻便;“使用Nod

ruby-on-rails - Nokogiri:解析不规则 "<"

我正在尝试使用nokogiri来解析以下片段TotalWeight0%但是,我认为“ 最佳答案 作为快速修复,我想出了这个方法,使用正则表达式来识别未闭合的标签:deffix_irregular_html(html)regexp=/]*)(在此处查看包括测试在内的完整代码:https://gist.github.com/796571它对我来说效果很好,我感谢任何反馈和改进 关于ruby-on-rails-Nokogiri:解析不规则" https://stackoverfl

python - 使用 lxml,是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误?

我正在使用mechanize/cookiejar/lxml来读取页面,它适用于某些页面但不适用于其他页面。我在其中遇到的错误是标题中的错误。我不能在这里发布页面,因为它们不是SFW,但是有没有办法修复它?基本上,这就是我所做的:importmechanize,cookielibfromlxmlimportetreebr=mechanize.Browser()cj=cookielib.LWPCookieJar()br.set_cookiejar(cj)br.set_handle_equiv(True)br.set_handle_gzip(True)br.set_handle_redire

xml - 给定一个引用表,如何为每个引用反向查找数字对象标识符?

我有一个引用表,其中包括第一作者的姓氏、标题、期刊、年份和每个引用的页码。我已经在GoogleDocs上发布了表格的前几行;它也以CSVfile的形式提供.(请注意,有些记录没有有DOI。)我希望能够查询这些引文中的每一个的DOI。对于标题,最好查询能够处理某种形式的模糊匹配。我该怎么做?该表目前在MySQL中,但以CSV文件开始和结束就足够了,或者,因为我主要使用R,所以使用R数据框。(我将不胜感激从头到尾的回答。) 最佳答案 我不知道有任何完整的包或函数已经做到了这一点,但这是我会使用的一般方法。CrossrefDOI注册机构提