jjzjj

Scraping

全部标签

Haskell http-conduit web-scraping daemon 崩溃并出现内存不足错误

我在Haskell中编写了一个守护程序,它每5分钟从网页中抓取一次信息。该守护程序最初运行了大约50分钟,但随后因内存不足(请求1048576字节)而意外死亡。每次我运行它时,它都会在相同的时间后死亡。将其设置为仅休眠30秒,它反而在8分钟后死亡。我意识到抓取网站的代码非常低效(从sleep时的大约30M到解析9M的html时的250M),所以我重写了它,现在它在解析时只使用了大约15M的额外内存。以为问题已解决,我连夜运行守护程序,当我醒来时,它实际上使用的内存比那天晚上少。我以为我已经完成了,但在它启动大约20小时后,它又因同样的错误而崩溃。我开始研究ghc分析,但我无法让它发挥作

python - Python 3 Web Scraping 中的问题 HTTP 错误 403

我试图抓取一个网站进行练习,但我不断收到HTTP错误403(它认为我是机器人吗)?这是我的代码:#importrequestsimporturllib.requestfrombs4importBeautifulSoup#fromurllibimporturlopenimportrewebpage=urllib.request.urlopen('http://www.cmegroup.com/trading/products/#sortField=oi&sortAsc=false&venues=3&page=1&cleared=1&group=1').readfindrows=re.co
12