Php cURL 网页抓取

coder 2024-04-14 原文

我想从网站 url 中抓取手机的价格:http://www.flipkart.com/apple-iphone-5s/p/itmdv6f75dyxhmt4?pid=MOBDPPZZDX8WSPAT

如果查看代码，价格放在下面的SPAN

<div class="pricing line">
        <div class="prices" itemprop="offers" itemscope="" itemtype="http://schema.org/Offer">
                    <div>
                        <span class="selling-price omniture-field" data-omnifield="eVar48" data-eVar48="37500">Rs. 37,500</span> // Fetch this price
                    </div>
                    <span class="sticky-message">Selling Price</span>
            <meta itemprop="price" content="37,500"> 
            <meta itemprop="priceCurrency" content="INR">
        </div>
</div>

到目前为止，我获取它的代码是:

<?php
$curl = curl_init('http://www.flipkart.com/apple-iphone-5s/p/itmdv6f75dyxhmt4?pid=MOBDPPZZDX8WSPAT');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);

$page = curl_exec($curl);

if(!empty($curl)){ //if any html is actually returned

    $pokemon_doc->loadHTML($curl);
    libxml_clear_errors(); //remove errors for yucky html

    $pokemon_xpath = new DOMXPath($pokemon_doc);

    //get all the h2's with an id
    $pokemon_row = $pokemon_xpath->query('//h2[@id]');

    if($pokemon_row->length > 0){
        foreach($pokemon_row as $row){
            echo $row->nodeValue . "<br/>";
        }
    }
}

else
    print "Not found";
?>

这显示了一个错误:

Fatal error: Call to a member function loadHTML() on a non-object in D:\xampp\htdocs\jiteen\php-scrape\phpScrape.php on line 9

怎么办，查不到错误

最佳答案

首先，您忘记了实例化 DOMDocument 类(至少在您在这个问题中的代码上)。

$curl = curl_init('http://www.flipkart.com/apple-iphone-5s/p/itmdv6f75dyxhmt4?pid=MOBDPPZZDX8WSPAT');
curl_setopt($curl, CURLOPT_RETURNTRANSFER, TRUE);
curl_setopt($curl,CURLOPT_USERAGENT,'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.13) Gecko/20080311 Firefox/2.0.0.13');

$page = curl_exec($curl);

if(!empty($curl)) { //if any html is actually returned

    $pokemon_doc = new DOMDocument;
    libxml_use_internal_errors(true);
    $pokemon_doc->loadHTML($page);
    libxml_clear_errors();

    $pokemon_xpath = new DOMXPath($pokemon_doc);

    $price = $pokemon_xpath->evaluate('string(//div[@class="prices"]/meta[@itemprop="price"]/@content)');
    echo $price;

    $rupees = $pokemon_xpath->evaluate('string(//div[@class="prices"]/div/span)');
    echo $rupees;
}
else {
    print "Not found";
}

Sample Output

关于Php cURL 网页抓取，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28169042/

cURL Php 34 pokemon html xpath web-scraping domdocument

有关Php cURL 网页抓取的更多相关文章

ruby - 我需要从 facebook 游戏中抓取数据——使用 ruby - 2
修改(澄清问题)我已经花了几天时间试图弄清楚如何从Facebook游戏中抓取特定信息；但是，我遇到了一堵又一堵砖墙。据我所知，主要问题如下。我可以使用Chrome的检查元素工具手动查找我需要的html-它似乎位于iframe中。但是，当我尝试抓取该iframe时，它是空的(属性除外):如果我使用浏览器的“查看页面源代码”工具，这与我看到的输出相同。我不明白为什么我看不到iframe中的数据。答案不是它是由AJAX之后添加的。(我知道这既是因为“查看页面源代码”可以读取Ajax添加的数据，也是因为我有b/c我一直等到我可以看到数据页面之后才抓取它，但它仍然不存在)。发生这种情况是因为
RUBY - 网页抓取 - (OpenURI::HTTPError) - 2
我正在尝试用ruby编写一个简单的网络抓取代码。它一直工作到第29个url，然后我收到此错误消息:C:/Ruby193/lib/ruby/1.9.1/open-uri.rb:346:in`open_http':500InternalServerError(OpenURI::HTTPError)fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:775:in`buffer_open'fromC:/Ruby193/lib/ruby/1.9.1/open-uri.rb:203:in`blockinopen_loop'fromC:/Ruby193/lib/r
ruby-on-rails - 如何使用 JSON 的 Nokogiri 中的 XPath 从 eBay 和亚马逊抓取图像 - 2
我正在尝试使用Nokogiri和XPath从网站上抓取图像，但到目前为止收效甚微。对于其HTML具有img和src的典型网站，我可以使用:tmp2=Nokogiri::HTML(open(site_url))tmp2.xpath("//img/@src").eachdo|src|...dowhateverend但是，某些网站(如Amazon和eBay)仅使用JavaScript触发特定图像。如果我查看代码，我可以看到数组中的数据。例如，来自Amazon:P.when('jQuery','cf').execute(function($,cf){P.load.js('http://z-ec
ruby - Heroku 和网络抓取 - 2
我有一个nokigiri网络抓取工具，它发布到我试图发布到heroku的数据库。我有一个sinatra应用程序前端，我想从数据库中获取它。我是Heroku和Web开发的新手，不知道处理此类问题的最佳方法。我是否必须将上传到数据库的网络爬虫脚本放在sinatra路由下(如mywebsite.com/scraper)，并让它变得如此模糊以至于没有人访问它？最后，我想让sinatra部分成为一个从数据库中提取的restapi。感谢大家的参与最佳答案您可以采用两种方法。第一个是通过控制台使用herokurunYOURCMD运行scrap
ruby-on-rails - 在 Model 类方法中指定当前抓取的记录 - 2
我有一个类方法，我想在其中修改当前由ActiveRecord::Relation对象抓取的记录。但是我不知道如何在类方法中引用当前范围。self不会这样做。例子:classUser我会这样使用它:User.some_scope.modify_those_records所以User.some_scope会返回给我一个ActiveRecord::Relation，其中包含一堆User记录。然后我想在该类方法中修改这些记录，然后返回它们。问题是:我不知道如何在类方法中明确引用“那组记录”。最佳答案您可以使用current_scope:
ruby - open-uri 从以 iso-8859 编码的网页返回 ASCII-8BIT - 2
我正在使用open-uri读取一个声称以iso-8859-1编码的网页。当我读取页面内容时，open-uri返回一个以ASCII-8BIT编码的字符串。open("http://www.nigella.com/recipes/view/DEVILS-FOOD-CAKE-5310"){|f|pf.content_type,f.charset,f.read.encoding}=>["text/html","iso-8859-1",#]我猜这是因为网页中的字节(或字符)\x92不是有效的iso-8859字符。http://en.wikipedia.org/wiki/ISO/IEC_8859-
网页设计期末作业，基于HTML+CSS+JavaScript超酷超炫的汽车类企业网站(6页) - 2
🎉精彩专栏推荐💭文末获取联系✍️作者简介:一个热爱把逻辑思维转变为代码的技术博主💂作者主页:【主页——🚀获取更多优质源码】🎓web前端期末大作业：【📚毕设项目精品实战案例(1000套)】🧡程序员有趣的告白方式：【💌HTML七夕情人节表白网页制作(110套)】🌎超炫酷的Echarts大屏可视化源码：【🔰Echarts大屏展示大数据平台可视化(150套)】🔖HTML+CSS+JS实例代码：【🗂️5000套HTML+CSS+JS实例代码(炫酷代码)继续更新中…】🎁免费且实用的WEB前端学习指南：【📂web前端零基础到高级学习视频教程120G干货分享】🥇关于作者:💬历任研发工程师，技术组长，教学总监；
ruby - 如何使用 ruby 和 unix 服务器截取网页的屏幕截图？ - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭7年前。Improvethisquestion我正在尝试以编程方式创建大量网页的缩略图，这些网页托管在我自己的基于ruby/rails的网站上。我希望能够编写一个独立的ruby代码，看起来像这样:require'awesome-screenshot-maker'items.eachdo|id|url="http://foo.com/bar/#{id}"shooter=AwesomeScreenshotMa
ruby - 如何使用 Nokogiri 解析和抓取 URL 的元标记？ - 2
我正在使用Nokogiri来拉取和标签，但我无法获得这些:我有这个代码:url='https://en.wikipedia.org/wiki/Emma_Watson'page=Nokogiri::HTML(open(url))putspage.css('title')[0].textputspage.css('h1')[0].textputspage.css('description')putsMETADESCRIPTIONputsMETAKEYWORDS我查看了文档，但没有找到任何内容。我会使用正则表达式来执行此操作吗？谢谢。最佳答案
ruby - 如何打开网页并将其写入 ruby 文件？ - 2
如果我使用OpenURI运行一个简单的脚本，我可以访问网页。结果写入终端。通常我会使用bash重定向将结果写入文件。如何使用ruby将OpenURI调用的结果写入文件？最佳答案 require'open-uri'open("file_to_write.html","wb")do|file|URI.open("http://www.example.com/")do|uri|file.write(uri.read)endend注意:在Rubyopen(url)而不是URI.open(url)。参见https://bugs.ruby

Php cURL 网页抓取

有关Php cURL 网页抓取的更多相关文章

随机推荐