jjzjj

scraping

全部标签

php - 如何使用简单的 html dom 解析器从 scrape 中抓取特定数据

我正在尝试从网页中抓取数据,但我需要获取thislink中的所有数据.include'simple_html_dom.php';$html1=file_get_html('http://www.aktive-buergerschaft.de/buergerstiftungen/unsere_leistungen/buergerstiftungsfinder');$info1=$html1->find('b[class=[whattoenterherer]',0);我需要从thissite中获取所有数据.BürgerstiftungLebensraumAachenrechtsfähige

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点,它本质上只是现有数据库的Web前端。可以理解,我的客户非常热衷于防止任何人能够复制数据库中的数据,但同时希望所有内容都公开可用,甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击,但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接,从理论上讲,有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中,从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

php - 从网站数据库中避免 'data scraping' 的顶级技术

我正在使用PHP和MySQL建立一个站点,它本质上只是现有数据库的Web前端。可以理解,我的客户非常热衷于防止任何人能够复制数据库中的数据,但同时希望所有内容都公开可用,甚至希望有一个“查看全部”链接来显示数据库中的每条记录。虽然我已采取一切措施来防止诸如SQL注入(inject)攻击之类的攻击,但没有什么可以阻止任何人以html格式查看所有记录并运行某种脚本将此数据解析回另一个数据库。即使我要删除“查看全部”链接,从理论上讲,有人仍然可以使用自动化过程逐条检查每条记录并将它们编译到一个新数据库中,从根本上掌握所有信息。有没有人有任何好的策略来防止甚至只是阻止他们可以分享。

PHP Scrape 文章摘录,如可读性

我看过thisquestion,但它并不能真正满足我正在寻找的东西。该问题的答案是:从元描述标签中提取,第二个是为您已有正文的文章生成摘录。我想做的实际上是获取一篇文章的前几句,就像Readability所做的那样。最好的方法是什么?HTML解析?这是我目前正在使用的,但这不是很可靠。functionguessExcerpt($url){$html=file_get_contents_curl($url);$doc=newDOMDocument();@$doc->loadHTML($html);$metas=$doc->getElementsByTagName('meta');for(

php - 如何从页面源中获取 'scrape' 内容?

关闭。这个问题需要更多focused.它目前不接受答案。想改进这个问题吗?更新问题,使其只关注一个问题editingthispost.关闭7年前。Improvethisquestion我有这段代码可以获取页面的HTML源代码:$page=file_get_contents('http://example.com/page.html');$page=htmlentities($page);我想从中抓取一些内容。例如,假设页面的源代码包含以下内容:technorati.comConnectionfailedPingingicerocket.comConnectionfailedPingin

iphone - 在 iOS 中解析 XML/'screen scraping' 的最佳方法是什么? UIWebview 还是 NSXMLParser?

我正在创建一个需要从网页获取一些数据的iOS应用程序。我的第一个方法是使用NSXMLParserinitWithContentsOfURL:并使用NSXMLParser委托(delegate)解析HTML。然而,这种方法似乎很快就会变得痛苦(例如,如果HTML发生变化,我将不得不重写解析代码,这可能很尴尬)。当我加载网页时,我也查看了UIWebView。看起来UIWebView可能是可行的方法。stringByEvaluatingJavaScriptFromString:似乎是一种非常方便的提取数据的方法,并且允许将javascript存储在单独的文件中,如果HTML更改,该文件将很容

python - 新手 : How to overcome Javascript "onclick" button to scrape web page?

这是我要抓取的链接:http://www.prudential.com.hk/PruServlet?module=fund&purpose=searchHistFund&fundCd=MMFU_U“英文版”选项卡位于右上角,以显示网页的英文版。为了阅读网页上的资金信息,我必须按下一个按钮。如果不是,View将被阻止,并且使用scrapyshell总是结果为空[]。Confirmed而AgreeClick的功能是:functionAgreeClick(){varcookieKey="ListFundShowDisclaimer";SetCookie(cookieKey,"true",nu

web-scraping - Scrapy Shell 和 Scrapy Splash

我们一直在使用scrapy-splashmiddleware通过在docker容器内运行的Splashjavascript引擎传递抓取的HTML源。如果我们想在蜘蛛中使用Splash,我们配置几个requiredprojectsettings并产生一个Request指定特定的metaarguments:yieldRequest(url,self.parse_result,meta={'splash':{'args':{#setrenderingargumentshere'html':1,'png':1,#'url'isprefilledfromrequesturl},#optional

html - 赢32。 : How to scrape HTML without regular expressions?

近期blogentrybyaJeffAtwood说你永远不应该使用正则表达式解析HTML-但没有给出替代方案。我想抓取搜索搜索结果,提取值:...............[MakeAndModel]...[Kilometers][Price]Location:[Location]...............anditrepeats您可以看到我要提取的值,[括在括号中]:网址MakeAndModel公里价格地点假设我们接受解析HTML的前提:通常是个坏主意rapidlydevolvesintomadness有什么办法呢?假设:原生Win32松散的html假设说明:nativeWin32

python - 用于 Selenium Scraping 的 Mozilla Firefox 命令行安装

您好,我有一个在本地运行的爬虫,但是当尝试使用Vagrant机器将其启动到AWSEC2linux环境时,我遇到了以下问题。当我通过在Linux上运行对其进行测试时,我能够直接下载linux和Firebug,然后运行我的Seleniumwebdriver。在这种情况下,我正在编写一个包含必要安装的文件。但是,由于无法直接从命令行(连同firebug)安装firefox,我遇到了麻烦。这是我的工作人员的错误的样子(它在我安装了firefox的本地机器上运行良好,在安装了它的linux上运行良好):[worker]"Pleasespecifythefirefoxbinarylocationo