关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题?更新问题,以便editingthispost可以用事实和引用来回答它.关闭9年前。Improvethisquestion我正尝试在我正在处理的Ruby脚本中抓取网页。该项目的目的是展示哪些ETF和股票共同基金最符合值(value)投资理念。我想抓取的一些页面示例是:http://finance.yahoo.com/q/pr?s=SPY+Profilehttp://finance.yahoo.com/q/hl?s=SPY+Holdingshttp://www.marketwatch.com/tools/mut
在下面的xml中,有两类与零件和订单相关的信息。XML:LandBeforeTimeI200319.9920Bottle23.002LandBeforeTime32022.0022Cycle2021.00221967-08-171967-08-131050821968-08-141968-08-111000021995-02-141995-02-13100001105082105093需求:我想通过XQuery获取订单1022的商品总价。我在下面写了xquery来获取第1022号订单的零件价格总和。X查询:for$oin/mo/orders/order,$pin/mo/parts/pa
我正在尝试使用PHP抓取表格,问题是我已经设法抓取了它,但我得到了网页表格上的一切。我不确定如何指定要抓取的TD和/或TR。这是PHP代码find('tabletr')as$row){$cell=$row->find('td',0);echo$row;}?>我想要得到的(如果您查看thewebsite)是:俱乐部名称、出场、获胜、失败、进球、失球、净胜球和积分。我得到的是表格中的所有内容,包括折叠的团队信息。看起来像这样(不确定图片是否是发布它的最佳方式,但我不确定如何以其他方式显示它,我突出显示了我真正想要抓取的部分): 最佳答案
我正在尝试从网站收集数据,并想计算另一个元素中元素的数量。针对不同的DOM元素工作正常,但由于某些原因,下面示例中的$count变量保持为“0”。我可能错过了一些非常愚蠢的东西,但我似乎找不到它。网站的HTML如下:这是我正在使用的php:$array=array();foreach($html->find('#list_options.list_mtgdef_option')as$element){$count=0;foreach($element->find('.list_mtgdef_stock',0)->childNodes(1)->childNodesas$node){if(
目标:我想使用cURL在iframe中抓取“巴黎”一词。假设您有一个包含iframe的简单页面:Curlintothispageiframe页面:FranceTheCapitalofFranceis:Paris我的cURL脚本://1.initialize$ch=curl_init();//2.TheURLcontainingtheiframe$url="http://localhost/test/index.html";//3.settheoptions,includingtheurlcurl_setopt($ch,CURLOPT_URL,$url);curl_setopt($ch,
是否可以使用PHP抓取Google搜索结果页面以提取找到的搜索结果总数?如果是这样,我该怎么做呢?谢谢 最佳答案 尝试使用phpsimplehtmlparser$search_query='google';$url=sprintf('http://www.google.com/search?q=%s',$search_query);$html=file_get_html($url);$results=$html->find('#resultStats/b',2)->innertext;echosprintf('Googlefound
我正在做的事情与Tweet按钮或Facebook分享/点赞按钮所做的本质上是一样的,那就是抓取页面和最相关的数据片段标题。我能想到的最好的例子是当你在一个有很多文章的网站的首页上,你点击了一个FacebookLike按钮。然后它将获得与(最近的)“赞”按钮相关的帖子的正确信息。有些网站有OpenGraph标签,但有些没有,但它仍然有效。由于这是远程完成的,我只能控制我想要定位的数据。在这种情况下,数据是图像。而不是只检索在页面的顶部,我希望以某种方式从每个图像的起点反向遍历dom,并找到最近的“标题”。问题是并非所有标题都出现在图像之前。然而,在这种情况下,图像出现在标题之后的可能性似
我正在尝试将Scrape-IT用作我今天早些时候从NPM下载的依赖性。我能够收回我想要的内容,但需要将结果存储在变量中,而不是通过回调来处理它们。使用Scrape-It文档中的“示例”,当我尝试以下操作时:varmyVar=scrapeIt("http://ionicabizau.net",{title:".headerh1",desc:".headerh2",avatar:{selector:".headerimg",attr:"src"}}).then(page=>{returnpage;});console.log(myVar);我得到结果:Promise{<dending>
我需要通过CURL和PHP在vbulletin上发布论坛帖子,这似乎不是一项艰巨的工作,但它必须有图像,我可以上传一张图像,但一旦我添加第二张图像图像,它似乎只是重定向到我要发布到的论坛中的顶部线程?这是我的代码,似乎发布第二张图片只是更改图片的路径..但它不起作用?$post=array('st'=>'0','act'=>'Post','s'=>'','f'=>'157','auth_key'=>$this->scrape->fetchBetween("scrape->result),'removeattachid'=>'0','MAX_FILE_SIZE'=>'0','CODE'=
我试图变得有点自以为是,作为学习过程的一部分,尝试提高我的页面抓取技能。我遇到但尚未解决的一件事是,某些网站会使用内部链接,然后重定向到外部链接。我想做的是修改一些curl代码以跟随重定向,直到它们停止,然后获取最终的安息之地URL。有人为我推荐一些代码吗?我目前有这个,但目前没有正确遵循重定向。$opts=array(CURLOPT_URL=>$url,CURLOPT_RETURNTRANSFER=>true,CURLOPT_HEADER=>true,CURLOPT_FOLLOWLOCATION=>true);$curl=curl_init();curl_setopt_array($