Mechanize

Python Mechanize 不会打开这些站点

我正在使用Python的Mechanize模块。我遇到了3个不同的网站，这些网站无法直接通过mechanize打开:en.wikipedia.org/wiki/Dog(新用户，不能发布超过2个链接T-T)https://www.google.com/search?num=100&hl=en&site=&q=dog&oq=dog&aq=f&aqi=g10&aql=1&gs_sm=e&gs_upl=618l914l0l1027l3l2l0l0l0l0l173l173l0.1l1l0http://www.cpsc.gov/cpscpub/prerel/prhtml03/03059.htmli

python - 在迭代所有形式时选择正确的形式

我想使用mechanize在多个网站上提交表单。通常我无法确切知道表单名称或表单ID，但我知道我要提交的输入名称。假设有一个网站，里面有几个表单。我的代码应该检查所有表单，如果其中一个表单有一个名为“email”的输入值，它将提交该表单。如果有多个表单，它将全部提交。我正在测试的网站有两种形式。其中一个是登录表单，另一个是订阅表单。他们都有“电子邮件”输入值。所以我的代码应该同时提交这两种形式。我试图用这个代码块来实现它:forformsinbr.forms():ifnotforms.find_control(name="email"):continuebr.select_form(n

python 形式 code section email mechanize

php - 是否有任何语言只是 "perfect"用于网络抓取？

按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭10年前。我使用了3种语言来进行Web抓取——Ruby、PHP和Python，老实说，它们似乎都不能完美地完成这项任务。Ruby具有出色的Mechanize和XML解析库，但对电子表格的支持非常差。PHP具有出色的电子表格和HTML解析库，但它没有WWW:Mechanize的等价物。Python有一个非常糟糕的Mechanize库。我遇到了很多问题，但仍然无法解决

amp perfect section notice Mechanize php python ruby web-scraping

Python Mechanize 登录 Facebook cookie 错误

几天后，我无法再使用我的脚本登录facebook。Facebook登录页面报错:需要Cookie，您的浏览器未启用Cookie。我不知道为什么会出现这个错误，因为我在脚本中接受了cookie。我希望有人能帮助我，我已经用谷歌搜索并尝试了不同的cookie方法。importcookielibimporturllib2importmechanizebr=mechanize.Browser()cookiejar=cookielib.LWPCookieJar()br.set_cookiejar(cookiejar)br.set_handle_equiv(True)br.set_handle_g

Mechanize Facebook section 34 br python cookies

python - 在 mechanize 中提交表单

我在提交表单提交结果时遇到问题(我可以提交表单，但我无法在第一个页面之后的页面上提交表单)。我有:browser=mechanize.Browser()browser.set_handle_robots(False)browser.open('https://www.example.com/login')browser.select_form(nr=0)browser.form['j_username']='username'browser.form['j_password']='password'req=browser.submit()这是有效的，因为printreq结果是`Note

mechanize python code browser section forms

Python， Mechanize ，设置多个 header 的正确语法？

我似乎找不到如何做到这一点，我正在尝试使用python的mechanize模块设置多个header，例如:br.addheaders=[('user-agent','Mozilla/5.0(X11;U;Linuxi686;en-US;rv:1.9.2.3)Gecko/20100423Ubuntu/10.04(lucid)Firefox/3.6.3')]br.addheaders=[('accept','text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8')]但它似乎只需要最后一个br.addheaders..所

Mechanize Python section header addheaders http-headers webautomation

python - 在 mechanize 中禁用 ssl 证书验证

我是python的新手，我正在尝试使用mechanize访问网站。br=mechanize.Browser()r=br.open("https://172.22.2.2/")这给了我以下错误:Traceback(mostrecentcalllast):File"",line1,inbr.open("https://172.22.2.2/")File"/home/freeza/.local/lib/python2.7/site-packages/mechanize/_mechanize.py",line203,inopenreturnself._mech_open(url,data,ti

mechanize python open ssl

javascript - 如何单击具有 javascript :__doPostBack in href? 的链接

我正在使用模块“mechanize”在python中编写屏幕抓取脚本，我想在href中具有javascript:__doPostBack的链接上使用mechanize.click_link()方法。我相信我尝试解析的页面正在使用AJAX。注意:mech就是mechanize.Browser()>>>next_link.__class__.__name__'Link'>>>next_linkLink(base_url='http://www.citius.mj.pt/Portal/consultas/ConsultasDistribuicao.aspx',url="javascript:

javascript doPostBack 39 section python mechanize

python - 如何在 Scrapy 中发送启用的 JavaScript 和 Cookies？

我正在使用Scrapy抓取一个网站，这需要启用cooking和java脚本。我认为我不必实际处理javascript。我只需要假装启用了javascript。这是我尝试过的:1)通过以下设置启用CookieCOOKIES_ENABLED=TrueCOOKIES_DEBUG=True2)为cookies使用下载中间件DOWNLOADER_MIDDLEWARES={'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware':400,'scrapy.contrib.downloadermiddleware.cooki

何在 JavaScript code 39 section python screen-scraping mechanize scrapy

python - 使用 mechanize 和 pythonanywhere 获取 "error Tunnel connection failed: 403 Forbidden"

我使用python、mechanize和flask编写了一个小型网络应用程序。当我在本地运行它时，它工作得很好。在pythonanywhere.com上部署时，我收到“内部服务器错误”和以下堆栈跟踪:Traceback(mostrecentcalllast):File"/usr/local/lib/python2.7/dist-packages/flask/app.py",line1687,inwsgi_appresponse=self.full_dispatch_request()File"/usr/local/lib/python2.7/dist-packages/flask/ap

pythonanywhere connection dist-packages mechanize python web-applications flask

4 5 678 9 10