Mechanize

ruby - 如何使用 Mechanize/Nokogiri 获取页面源

我使用Mechanize登录到网页/servlet。我有一个页面对象:jobShortListPg=agent.get(addressOfPage)当我使用时:putsjobShortListPg我得到了我不想要的页面的“Mechanize”版本:#如何获取页面的HTML源代码？最佳答案使用.body:putsjobShortListPg.body 关于ruby-如何使用Mechanize/Nokogiri获取页面源，我们在StackOverflow上找到一个类似的问题：

ruby - 为什么在 Windows 上使用 Mechanize 访问 SSL 站点失败，但在 Mac 上却可以？

这是我用来连接到SSL站点的代码。require'mechanize'a=Mechanize.newpage=a.get'https://site.com'我正在使用Ruby1.9.3和Mechanize2.1pre1+依赖项。在Mac上，上面的代码工作并返回页面。在运行相同版本的Windows7上，它给我以下错误:OpenSSL::SSL::SSLError:SSL_connectreturned=1errno=0state=SSLv3readservercertificateB:certificateverifyfailed恢复到Mechanize2.0.1似乎解决了这个问题，但我

Mechanize Windows code section ruby

ruby-on-rails - 如何在 Rails 中为 Mechanize 设置自定义用户代理

我知道你有一组预定义的别名，你可以通过设置agent.user_agent_alias='LinuxMozilla'来使用，但是如果我想设置我自己的用户代理，因为我正在写一个网络爬虫并想要识别它，为了我索引的网站。就像Googlebot。似乎有一个user_agent方法，但我似乎找不到任何关于它的功能的文档。最佳答案您可以从别名设置用户代理a=Mechanize.newa.user_agent_alias='MacSafari'可用别名存储在AGENT_ALIASES常量中。pMechanize::AGENT_ALIASES否

自定 ruby-on-rails section code agent ruby ruby-on-rails-3 mechanize

javascript - 使用 Python 在链接的 href 中执行 JavaScript

我正在尝试使用Python在站点(http://bibliotecadigitalhispanica.bne.es)上自动下载一些PDF。我试过使用urllib/urllib2/mechanize模块(我一直在其他站点使用这些模块:这包括urlopen、urlretrieve等标准函数)，但是在这里，链接的href中嵌入了JavaScript进行一些处理并打开PDF的属性，这些模块似乎无法处理这些模块，至少从我在这里阅读的内容来看是这样。例如，当我执行以下操作时:request=mechanize.Request('theexampleurlbelow')response=mechan

javascript bibliotecadigitalhispanica section href python mechanize urllib web-crawler

javascript - WWW::Scripter 问题与 window.history

我正在使用perl模块WWW::Scripter(基于WWW::Mechanize)和JavaScript插件，我在基本的JavaScript语句方面遇到了问题。useWWW::Scripter;...my$web=WWW::Scripter->new(agent=>'...',autocheck=>1);...$web->use_plugin('JavaScript');...$web->add_header(Referer=>'http://...');...$web->get($url);其中源代码包含基本的JavaScript语句，例如:varx=window.history.

javascript Scripter code strong section perl mechanize

javascript - JS 更改了 DOM 后如何抓取内容？

我正在使用Mechanize，但如果Mechanize做不到，我愿意接受Nokogiri。我想在加载完所有脚本之后而不是之前抓取页面。我该怎么做？最佳答案我认为Nokogiri、Watir和PhantomJs是一个不错的选择:b=Watir::Browser.new(:phantomjs)b.gotoURLdoc=Nokogiri::HTML(b.html)生成的文档将在加载脚本后生成。phantomjs很好，因为不需要加载浏览器。关于javascript-JS更改了DOM后如何抓

javascript DOM section code Nokogiri ruby screen-scraping mechanize

javascript - 是否有与 Perl 的 WWW::Mechanize 等效的 Node.js？

我正在搜索类似于WWW::Mechanize的Node模块对于Perl。或者甚至更好WWW::Mechanize::Firefox.主要功能是按名称查找和提交表单，类或ID。处理cookies的能力会很棒并且处理Javascript的能力将是完美的。如果有人有类似的想法，或者我可以在哪个方向搜索，那将不胜感激。最佳答案您正在寻找的是可编写脚本/headless的浏览器。按受欢迎程度降序排列，选项是:GooglePuppeteer-“提供高级API来控制Chrome或Chromium的Node库”Zombie-更轻便；“使用Nod

等效 javascript noreferrer noopener nofollow node.js www-mechanize www-mechanize-firefox

ruby-on-rails - Nokogiri:解析不规则 "<"

我正在尝试使用nokogiri来解析以下片段TotalWeight0%但是，我认为“ 最佳答案作为快速修复，我想出了这个方法，使用正则表达式来识别未闭合的标签:deffix_irregular_html(html)regexp=/]*)(在此处查看包括测试在内的完整代码:https://gist.github.com/796571它对我来说效果很好，我感谢任何反馈和改进关于ruby-on-rails-Nokogiri:解析不规则" https://stackoverfl

amp 不规则 section html lt ruby-on-rails xml nokogiri mechanize

python - 使用 lxml，是什么导致 "lxml.etree.XMLSyntaxError: Document is empty"错误？

我正在使用mechanize/cookiejar/lxml来读取页面，它适用于某些页面但不适用于其他页面。我在其中遇到的错误是标题中的错误。我不能在这里发布页面，因为它们不是SFW，但是有没有办法修复它？基本上，这就是我所做的:importmechanize,cookielibfromlxmlimportetreebr=mechanize.Browser()cj=cookielib.LWPCookieJar()br.set_cookiejar(cj)br.set_handle_equiv(True)br.set_handle_gzip(True)br.set_handle_redire

lxml XMLSyntaxError section handle python xml mechanize

xml - 给定一个引用表，如何为每个引用反向查找数字对象标识符？

我有一个引用表，其中包括第一作者的姓氏、标题、期刊、年份和每个引用的页码。我已经在GoogleDocs上发布了表格的前几行;它也以CSVfile的形式提供.(请注意，有些记录没有有DOI。)我希望能够查询这些引文中的每一个的DOI。对于标题，最好查询能够处理某种形式的模糊匹配。我该怎么做？该表目前在MySQL中，但以CSV文件开始和结束就足够了，或者，因为我主要使用R，所以使用R数据框。(我将不胜感激从头到尾的回答。) 最佳答案我不知道有任何完整的包或函数已经做到了这一点，但这是我会使用的一般方法。CrossrefDOI注册机构提

给定反向 gt lt code xml r web-scraping mechanize doi

2 3 456 7 8