jjzjj

python - 使用 tor 和 python 抓取谷歌学术搜索

我正在从事一个分析期刊文章被引用方式的项目。我有一个很大的期刊文章名称文件。我打算将它们传递给GoogleScholar,看看每个都有多少引用。这是我遵循的策略:使用http://www.icir.org/christian/scholar.html中的“scholar.py”.这是一个预先编写的python脚本,用于搜索googlescholar并以CSV格式返回第一次命中的信息(包括引用次数)Googlescholar在搜索一定次数后屏蔽你(我有大约3000篇文章标题要查询)。我发现大多数人使用Tor(Howtomakeurllib2requeststhroughTorinPyth

python - 如何通过 TOR 上的 Polipo 使用 Scrapy 连接到 https 站点?

不完全确定这里的问题是什么。运行Python2.7.3和Scrapy0.16.5我创建了一个非常简单的Scrapy蜘蛛来测试连接到我的本地Polipo代理,这样我就可以通过TOR发送请求。我的爬虫基本代码如下:fromscrapy.spiderimportBaseSpiderclassTorSpider(BaseSpider):name="tor"allowed_domains=["check.torproject.org"]start_urls=["https://check.torproject.org"]defparse(self,response):printresponse.