jjzjj

ruby - Ruby 中可用的网页抓取 gem /工具

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut

javascript - JSON Scraping - 通过 Javascript 将军事时间转换为标准时间

我正在从url中抓取JSON数据。时间是军用时间,我想知道在客户端检索后是否有办法将其转换为标准时间。这是JSON:[{SaturdayClose:"21:00",SaturdayOpen:"10:00",SundayClose:"12:00",SundayOpen:"18:00",WeekdayClose:"21:00",WeekdayOpen:"10:00"}]这是我的index.html:Sun:${SundayOpen}a-${SundayClose}pMon-Sat:${SaturdayOpen}a${SaturdayClose}p这会返回这种类型的丑陋:周日:上午18:00

xml - 如何在 XQuery 中获取节点值的总和?

在下面的xml中,有两类与零件和订单相关的信息。XML:LandBeforeTimeI200319.9920Bottle23.002LandBeforeTime32022.0022Cycle2021.00221967-08-171967-08-131050821968-08-141968-08-111000021995-02-141995-02-13100001105082105093需求:我想通过XQuery获取订单1022的商品总价。我在下面写了xquery来获取第1022号订单的零件价格总和。X查询:for$oin/mo/orders/order,$pin/mo/parts/pa

php - 在 HTML 表格中抓取特定的 <td>

我正在尝试使用PHP抓取表格,问题是我已经设法抓取了它,但我得到了网页表格上的一切。我不确定如何指定要抓取的TD和/或TR。这是PHP代码find('tabletr')as$row){$cell=$row->find('td',0);echo$row;}?>我想要得到的(如果您查看thewebsite)是:俱乐部名称、出场、获胜、失败、进球、失球、净胜球和积分。我得到的是表格中的所有内容,包括折叠的团队信息。看起来像这样(不确定图片是否是发布它的最佳方式,但我不确定如何以其他方式显示它,我突出显示了我真正想要抓取的部分): 最佳答案

PHP Scraped 内容在底部加载

请考虑以下网页代码:");$table=substr($output,$start,($end-$start));echo($table);?>!!!!!!!!我希望页面按此顺序加载,但它似乎加载为:!!!!!!!TablefromURL现在我明白从另一个URL中提取内容比简单地呈现一些'!!!!'需要更长的时间,但是由于PHP在服务器端运行并且我相信同步运行我无法解释为什么会发生这种情况。如果有人可以解释情况并提出解决方案,我将不胜感激。编辑:我现在通过做一些Jquery来重新调整文档准备好的div的顺序来解决这个问题。感觉很老套,我不喜欢它,但现在它必须这样做。如果有人能找到更好的

php - 使用 Simple HTML DOM 抓取 HTML 并计算 child 数

我正在尝试从网站收集数据,并想计算另一个元素中元素的数量。针对不同的DOM元素工作正常,但由于某些原因,下面示例中的$count变量保持为“0”。我可能错过了一些非常愚蠢的东西,但我似乎找不到它。网站的HTML如下:这是我正在使用的php:$array=array();foreach($html->find('#list_options.list_mtgdef_option')as$element){$count=0;foreach($element->find('.list_mtgdef_stock',0)->childNodes(1)->childNodesas$node){if(

php - 如何使用 cURL 抓取 iframe 内容

目标:我想使用cURL在iframe中抓取“巴黎”一词。假设您有一个包含iframe的简单页面:Curlintothispageiframe页面:FranceTheCapitalofFranceis:Paris我的cURL脚本://1.initialize$ch=curl_init();//2.TheURLcontainingtheiframe$url="http://localhost/test/index.html";//3.settheoptions,includingtheurlcurl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,

php - Facebook Scraped URL 404 欢迎使用 Nginx 错误 [Ningx + PHP-FPM]

只是我的问题是:当我在Facebook上分享我的网站url时,它显示“404NotFound”标题或“WelcometoNingx”标题。我是Ningx的新手,我正在使用DebainLinux(Ningx+PHP-FPM)配置。此服务器上托管的所有站点都存在Facebook抓取信息的问题(开放图谱)https://developers.facebook.com/tools/debug/og/object?q=http%3A%2F%2Fopenspeedtest.com%2Fog:urlhttp://openspeedtest.com/og:typewebsiteog:titleWelc

php - 谷歌搜索 : Scrape results page in PHP for total results

是否可以使用PHP抓取Google搜索结果页面以提取找到的搜索结果总数?如果是这样,我该怎么做呢?谢谢 最佳答案 尝试使用phpsimplehtmlparser$search_query='google';$url=sprintf('http://www.google.com/search?q=%s',$search_query);$html=file_get_html($url);$results=$html->find('#resultStats/b',2)->innertext;echosprintf('Googlefound

php - 使用 XPath 远程抓取页面并获取最相关的图像标题或描述

我正在做的事情与Tweet按钮或Facebook分享/点赞按钮所做的本质上是一样的,那就是抓取页面和最相关的数据片段标题。我能想到的最好的例子是当你在一个有很多文章的网站的首页上,你点击了一个FacebookLike按钮。然后它将获得与(最近的)“赞”按钮相关的帖子的正确信息。有些网站有OpenGraph标签,但有些没有,但它仍然有效。由于这是远程完成的,我只能控制我想要定位的数据。在这种情况下,数据是图像。而不是只检索在页面的顶部,我希望以某种方式从每个图像的起点反向遍历dom,并找到最近的“标题”。问题是并非所有标题都出现在图像之前。然而,在这种情况下,图像出现在标题之后的可能性似