Scrape

ruby - Ruby 中可用的网页抓取 gem /工具

关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut

xml - 如何在 XQuery 中获取节点值的总和？

在下面的xml中，有两类与零件和订单相关的信息。XML:LandBeforeTimeI200319.9920Bottle23.002LandBeforeTime32022.0022Cycle2021.00221967-08-171967-08-131050821968-08-141968-08-111000021995-02-141995-02-13100001105082105093需求:我想通过XQuery获取订单1022的商品总价。我在下面写了xquery来获取第1022号订单的零件价格总和。X查询:for$oin/mo/orders/order,$pin/mo/parts/pa

何在 XQuery lt gt partNumber xml scrape

php - 在 HTML 表格中抓取特定的 <td>

我正在尝试使用PHP抓取表格，问题是我已经设法抓取了它，但我得到了网页表格上的一切。我不确定如何指定要抓取的TD和/或TR。这是PHP代码find('tabletr')as$row){$cell=$row->find('td',0);echo$row;}?>我想要得到的(如果您查看thewebsite)是:俱乐部名称、出场、获胜、失败、进球、失球、净胜球和积分。我得到的是表格中的所有内容，包括折叠的团队信息。看起来像这样(不确定图片是否是发布它的最佳方式，但我不确定如何以其他方式显示它，我突出显示了我真正想要抓取的部分): 最佳答案

amp HTML code section php html-table simple-html-dom scrape

php - 使用 Simple HTML DOM 抓取 HTML 并计算 child 数

我正在尝试从网站收集数据，并想计算另一个元素中元素的数量。针对不同的DOM元素工作正常，但由于某些原因，下面示例中的$count变量保持为“0”。我可能错过了一些非常愚蠢的东西，但我似乎找不到它。网站的HTML如下:这是我正在使用的php:$array=array();foreach($html->find('#list_options.list_mtgdef_option')as$element){$count=0;foreach($element->find('.list_mtgdef_stock',0)->childNodes(1)->childNodesas$node){if(

HTML Simple gt span class php dom web-scraping simple-html-dom scrape

php - 如何使用 cURL 抓取 iframe 内容

目标:我想使用cURL在iframe中抓取“巴黎”一词。假设您有一个包含iframe的简单页面:Curlintothispageiframe页面:FranceTheCapitalofFranceis:Paris我的cURL脚本://1.initialize$ch=curl_init();//2.TheURLcontainingtheiframe$url="http://localhost/test/index.html";//3.settheoptions,includingtheurlcurl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,

iframe cURL curl_setopt php regex parsing scrape

php - 谷歌搜索 : Scrape results page in PHP for total results

是否可以使用PHP抓取Google搜索结果页面以提取找到的搜索结果总数？如果是这样，我该怎么做呢？谢谢最佳答案尝试使用phpsimplehtmlparser$search_query='google';$url=sprintf('http://www.google.com/search?q=%s',$search_query);$html=file_get_html($url);$results=$html->find('#resultStats/b',2)->innertext;echosprintf('Googlefound

results Scrape section search_query php

php - 使用 XPath 远程抓取页面并获取最相关的图像标题或描述

我正在做的事情与Tweet按钮或Facebook分享/点赞按钮所做的本质上是一样的，那就是抓取页面和最相关的数据片段标题。我能想到的最好的例子是当你在一个有很多文章的网站的首页上，你点击了一个FacebookLike按钮。然后它将获得与(最近的)“赞”按钮相关的帖子的正确信息。有些网站有OpenGraph标签，但有些没有，但它仍然有效。由于这是远程完成的，我只能控制我想要定位的数据。在这种情况下，数据是图像。而不是只检索在页面的顶部，我希望以某种方式从每个图像的起点反向遍历dom，并找到最近的“标题”。问题是并非所有标题都出现在图像之前。然而，在这种情况下，图像出现在标题之后的可能性似

XPath php html section code facebook html-parsing scrape

将页面从scrape-it npm分配给变量返回的结果承诺{＆lt; pending＆gt; }

我正在尝试将Scrape-IT用作我今天早些时候从NPM下载的依赖性。我能够收回我想要的内容，但需要将结果存储在变量中，而不是通过回调来处理它们。使用Scrape-It文档中的“示例”，当我尝试以下操作时：varmyVar=scrapeIt("http://ionicabizau.net",{title:".headerh1",desc:".headerh2",avatar:{selector:".headerimg",attr:"src"}}).then(page=>{returnpage;});console.log(myVar);我得到结果：Promise{＆lt;dending＆gt;

变量 scrape-it code myVar 异步

php - vbulletin 使用 CURL 和 PHP 发布帖子

我需要通过CURL和PHP在vbulletin上发布论坛帖子，这似乎不是一项艰巨的工作，但它必须有图像，我可以上传一张图像，但一旦我添加第二张图像图像，它似乎只是重定向到我要发布到的论坛中的顶部线程？这是我的代码，似乎发布第二张图片只是更改图片的路径..但它不起作用？$post=array('st'=>'0','act'=>'Post','s'=>'','f'=>'157','auth_key'=>$this->scrape->fetchBetween("scrape->result),'removeattachid'=>'0','MAX_FILE_SIZE'=>'0','CODE'=

vbulletin CURL 39 gt scrape php

重定向后的 PHP Curl

我试图变得有点自以为是，作为学习过程的一部分，尝试提高我的页面抓取技能。我遇到但尚未解决的一件事是，某些网站会使用内部链接，然后重定向到外部链接。我想做的是修改一些curl代码以跟随重定向，直到它们停止，然后获取最终的安息之地URL。有人为我推荐一些代码吗？我目前有这个，但目前没有正确遵循重定向。$opts=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>true,CURLOPT_FOLLOWLOCATION=>true);$curl=curl_init();curl_setopt_array($

Curl PHP CURLOPT curl_setopt scrape

12 3