jjzjj

scrapyd及gerapy的使用及docker-compse部署

一、scrapyd的介绍scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSONAPI(也即是webapi)来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们scrapyd的安装scrapyd服务端:pipinstallscrapydscrapyd客户端:pipinstallscrapyd-client启动scrapyd服务在scrapy项目路径下启动scrapyd的命令:sudoscrapyd或scrapyd。启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面点击

mongodb - pymongo.errors.ConnectionFailure : timed out from an ubuntu ec2 instance running scrapyd

所以...在关注这篇文章后,我正在我的ubuntuec2实例上运行scrapyd:http://www.dataisbeautiful.io/deploying-scrapy-ec2/但是我想我无法让pymongo连接到我的MongoLabsmongo数据库,因为ubuntuec2scrapyd日志说pymongo.errors.ConnectionFailure:timedout在后端方面,我是一个真正的菜鸟,所以我真的不知道是什么导致了这个问题。当我从本地主机运行我的scrapyd时,它工作得很好,并将抓取的数据保存到我的MongoLabs数据库中。对于在ec2实例上运行的scra

python - Scrapy 的 Scrapyd 调度蜘蛛太慢

我正在运行Scrapyd,同时启动4个爬虫时遇到了一个奇怪的问题。2012-02-0615:27:17+0100[HTTPChannel,0,127.0.0.1]127.0.0.1--[06/Feb/2012:14:27:16+0000]"POST/schedule.jsonHTTP/1.1"20062"-""python-requests/0.10.1"2012-02-0615:27:17+0100[HTTPChannel,1,127.0.0.1]127.0.0.1--[06/Feb/2012:14:27:16+0000]"POST/schedule.jsonHTTP/1.1"200

python - 从 Django View 启动 Scrapy

我对Scrapy的使用经验有限,每次使用都是通过终端的命令。如何从我的django模板中获取我的表单数据(要抓取的url)以与scrapy通信以开始抓取?到目前为止,我只想到从django的View中获取表单返回的数据,然后尝试进入scrapy目录中的spider.py,将表单数据的url添加到蜘蛛的start_urls中。从那里开始,我真的不知道如何触发实际的爬行,因为我习惯于通过我的终端使用“scrapycrawldmoz”之类的命令严格执行它。谢谢。微小的编辑:刚刚发现了scrapyd...我想我可能正朝着正确的方向前进。 最佳答案

python - Scrapyd 和单蜘蛛的并行/性能问题

上下文我正在运行scrapyd1.1+scrapy0.24.6和一个“selenium-scrapyhybrid”蜘蛛,它根据参数在许多域上爬行。托管scrapyd实例的开发机器是一个4核的OSXYosemite,这是我当前的配置:[scrapyd]max_proc_per_cpu=75debug=onscrapyd启动时的输出:2015-06-0513:38:10-0500[-]Logopened.2015-06-0513:38:10-0500[-]twistd15.0.0(/Library/Frameworks/Python.framework/Versions/2.7/Resou

python - 使用 scrapyd 一次运行多个 scrapy 蜘蛛

我正在使用scrapy对于一个我想抓取多个站点(可能是数百个)的项目,我必须为每个站点编写一个特定的蜘蛛。我可以在部署到scrapyd的项目中安排一个蜘蛛,使用:curlhttp://localhost:6800/schedule.json-dproject=myproject-dspider=spider2但是我如何一次安排一个项目中的所有蜘蛛?非常感谢所有帮助! 最佳答案 我一次运行200多个蜘蛛的解决方案是为项目创建一个自定义命令。参见http://doc.scrapy.org/en/latest/topics/command

python - Scrapy 蜘蛛内存泄漏

我的蜘蛛有严重的内存泄漏。运行15分钟后,它的内存为5gb,scrapy告诉(使用prefs())有900k个请求对象,仅此而已。如此大量的生活请求对象的原因可能是什么?请求只会上升不会下降。所有其他对象都接近于零。我的蜘蛛看起来像这样:classExternalLinkSpider(CrawlSpider):name='external_link_spider'allowed_domains=['']start_urls=['']rules=(Rule(LxmlLinkExtractor(allow=()),callback='parse_obj',follow=True),)def

python - ScrapyRT 与 Scrapyd

我们一直在使用Scrapydservice到现在为止。它为一个scrapy项目及其蜘蛛提供了一个很好的包装器,允许通过HTTPAPI控制蜘蛛:ScrapydisaserviceforrunningScrapyspiders.ItallowsyoutodeployyourScrapyprojectsandcontroltheirspidersusingaHTTPJSONAPI.但是,最近,我注意到另一个“新鲜”包-ScrapyRT根据项目描述,这听起来很有前途,类似于Scrapyd:HTTPserverwhichprovidesAPIforschedulingScrapyspidersa

python - ScrapyRT 与 Scrapyd

我们一直在使用Scrapydservice到现在为止。它为一个scrapy项目及其蜘蛛提供了一个很好的包装器,允许通过HTTPAPI控制蜘蛛:ScrapydisaserviceforrunningScrapyspiders.ItallowsyoutodeployyourScrapyprojectsandcontroltheirspidersusingaHTTPJSONAPI.但是,最近,我注意到另一个“新鲜”包-ScrapyRT根据项目描述,这听起来很有前途,类似于Scrapyd:HTTPserverwhichprovidesAPIforschedulingScrapyspidersa

python - 找不到 scrapyd-client 命令

我刚刚在virtualenv中安装了scrapyd-client(1.1.0),并成功运行命令“scrapyd-deploy”,但是当我运行“scrapyd-client”时,终端显示:commandnotfound:scrapyd-客户。根据自述文件(https://github.com/scrapy/scrapyd-client),应该有一个'scrapyd-client'命令。我已经检查了路径'/lib/python2.7/site-packages/scrapyd-client',文件夹中只有'scrapyd-deploy'。命令“scrapyd-client”现在被删除了吗?
12