首先,我认为值得一提的是,我知道有很多类似的问题,但没有一个对我有用...我是Python、html和网络爬虫的新手。我正在尝试从需要先登录的网站上抓取用户信息。在我的测试中,我使用来自github的刮板我的电子邮件设置作为示例。主页是'https://github.com/login'并且目标页面是'https://github.com/settings/emails'这是我尝试过的方法列表#####################################Method1importmechanizeimportcookielibfromBeautifulSoupimportB
所以我正在尝试使用node.jsX射线抓取框架来抓取一些内容。虽然我可以从单个页面获取内容,但我不知道如何跟踪链接并一次性从子页面获取内容。X射线github配置文件上有一个示例,但如果我将代码更改到其他站点,它会返回空数据。我已经简化了我的代码,并让它爬取了这个示例的SO问题。以下工作正常:varXray=require('x-ray');varx=Xray();x('http://stackoverflow.com/questions/9202531/minimizing-nexpectation-for-a-custom-distribution-in-mathematica',
CrawlingLinkedInwhileauthenticatedwithScrapy所以我在Scrapy中通过经过身份验证的会话通读了Crawling并且我被挂断了,我99%确定我的解析代码是正确的,我只是不相信登录正在重定向并且正在成功。我也遇到了check_login_response()的问题,不确定它正在检查哪个页面。虽然"退出"是有道理的。======已更新======12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758
CrawlingLinkedInwhileauthenticatedwithScrapy所以我在Scrapy中通过经过身份验证的会话通读了Crawling并且我被挂断了,我99%确定我的解析代码是正确的,我只是不相信登录正在重定向并且正在成功。我也遇到了check_login_response()的问题,不确定它正在检查哪个页面。虽然"退出"是有道理的。======已更新======12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758