jjzjj

ruby - 使用 open-uri 和 nokogiri 在完全加载之前读取 HTML

我正在使用open-uri和nokogiri以及ruby​​来进行一些简单的网络爬虫。有一个问题,有时html在完全加载之前就被读取了。在这种情况下,我无法获取加载图标和导航栏以外的任何内容。告诉open-uri或nokogiri等待页面完全加载的最佳方法是什么?目前我的脚本是这样的:require'nokogiri'require'open-uri'url="https://www.the-page-i-wanna-crawl.com"doc=Nokogiri::HTML(open(url,ssl_verify_mode:OpenSSL::SSL::VERIFY_NONE))puts

ruby-on-rails - 在 Rails 中使用主机和多个路径字符串创建 URL

我想使用端点和路径或主机和路径创建URL。不幸的是URI.join不允许这样做:pry(main)>URI.join"https://service.com","endpoint","/path"=>#pry(main)>URI.join"https://service.com/endpoint","/path"=>#我想要的是:"https://service.com/endpoint/path"。我怎样才能在Ruby/Rails中做到这一点?编辑:由于URI.join有一些缺点,我很想使用File.join:URI.join("https://service.com",File.j

Ruby URI - 如何在 URL 之后获取完整路径

给定以下内容,如何获取URL的完整路径uri=URI("http://foo.com/posts?id=30&limit=5#time=1305298413")我只想要posts?id=30&limit=5#time=1305298413我试过uri.path并返回/posts和ui.query返回'id=30&limit=5' 最佳答案 您要找的方法是request_uriuri.request_uri=>"/posts?id=30&limit=5"如果需要,您可以使用任何您想要删除前导/的方法。编辑:要获取#符号后的部分,请使用

ruby - 在 Ruby 中,如何替换字符串中的问号字符?

在Ruby中,我有:require'uri'foo="ettu,brutus?"bar=URI.encode(foo)#=>"et%20tu,%20brutus?"我试图让bar等于“et%20tu,%20brutus%3f”(“?”替换为“%3F”)当我尝试添加这个时:bar["?"]="%3f"“?”匹配所有内容,我得到=>"%3f"我试过了bar["\?"]bar['?']bar["/[?]"]bar["/[\?]"]还有一些其他的东西,都不起作用。 最佳答案 需要'cgi'并调用CGI.escape

ruby - URI 响应代码

我想使用Ruby的OpenURI检查该URL是否可以正常访问。所以我想查看它的响应代码(4xx或5xx表示错误等)是否可以找到? 最佳答案 您可以使用status方法返回包含状态代码和消息的数组。require"open-uri"open("http://www.example.org")do|f|putsf.base_uri#=>http://www.example.orgputsf.status#=>["200","OK"]end 关于ruby-URI响应代码,我们在StackOve

ruby-on-rails - Ruby:强制 open-uri 返回 IPv4 地址

在我们的Rails应用中,我们有一个ControllerAction,它打开一个外部URL,并将它作为JSON返回给我们的前端使用。今天,我收到以下错误:Errno::EAFNOSUPPORT:协议(protocol)不支持地址族-socket(2)我们的开发人员建议,如果地址同时返回IPv6响应和IPv4响应,这就是错误。我们不支持IPv6,所以这可以解释它。这是触发请求的方法:defmedline_responseopen("http://apps.nlm.nih.gov/medlineplus/services/mpconnect_service.cfm?mainSearchCr

Ruby Open-URI 库在 404 HTTP 错误代码中中止

我使用OpenURI库。object=open("http://example.com")如果http://example.com服务器代码响应等于200我的程序按预期运行。但是如果http://example.com服务器响应代码等于400(或其他),然后脚本中止并显示OpenURI::HTTPError:404NotFound。如果我使用“开始救援”构造并处理“HTTPError异常”,我可以避免这种情况。这是正确的方法吗?我应该使用Net/Http库而不是OpenURI来处理所有情况吗? 最佳答案 挽救OpenURI::HTT

ruby - 从 ruby​​ 中的字符串中删除子域

我正在遍历一系列URL并想清理它们。我有以下代码:#Parseurltoremovehttp,pathandcheckformato_url=URI.parse(node.attributes['href'])#Removewwwnew_url=o_url.host.gsub('www.','').strip我如何扩展它以删除某些URL中存在的子域? 最佳答案 我刚刚编写了一个名为Domainatrix的库来执行此操作。您可以在这里找到它:http://github.com/pauldix/domainatrixrequire'ru

css - Ruby/Rails - 在 css 中使用转义 uri

在我的应用程序中,用户上传了一张图片,然后我将其放在S3上。该图像稍后用作div的背景,使用以下样式div#id{background:url('')no-repeat;}创意网址类似于:http://myhost.s3-website-us-east-1.amazonaws.com/27/display/608-(rec'd_021014)_user_image.jpg?1392767029如上所述,问题在于creative.url可以包含特殊字符(引号、括号等),并且根据http://www.w3.org/TR/CSS2/syndata.html#value-def-uri,它需要

ruby-on-rails - OAuth2::Error,invalid_request:redirect_uri 与应用程序配置不匹配

我正在开发一个使用BungieOAuth使用thisgem进行身份验证的Rails应用程序.我在initializers/devise.rb中的配置如下:config.omniauth:bungie,ENV['CLIENT_ID'],ENV['CLIENT_SECRET'],ENV['X_API_KEY'],ENV['REDIRECT_URL']Bungie的开发人员门户需要使用HTTPS的重定向URL,因此我将我的应用程序推送到Heroku并使用了aredirect强制身份验证返回本地主机进行测试。使用这种方法,一切正常。但是,当我将应用程序推向生产环境时,Bungie对我的应用程序