jjzjj

python - 再次 urllib.error.HTTPError : HTTP Error 400: Bad Request

喂!我试图打开通常在浏览器中打开的网页,但python只是发誓并且不想工作。importurllib.request,urllib.errorf=urllib.request.urlopen('http://www.booking.com/reviewlist.html?cc1=tr;pagename=sapphire')另一种方式importurllib.request,urllib.erroropener=urllib.request.build_opener()f=opener.open('http://www.booking.com/reviewlist.html?cc1=tr

python - 在 Python 中使用和关闭文件

我读过,这样打开的文件在离开withblock时会自动关闭:withopen("x.txt")asf:data=f.read()dosomethingwithdata然而当从网络打开时,我需要这个:fromcontextlibimportclosingfromurllib.requestimporturlopenwithclosing(urlopen('http://www.python.org'))aspage:forlineinpage:print(line)为什么以及有什么区别?(我使用的是Python3) 最佳答案 细节有点

Python urllib urlopen 不工作

我只是想通过使用urllib模块从实时网络中获取数据,所以我写了一个简单的例子这是我的代码:importurllibsock=urllib.request.urlopen("http://diveintopython.org/")htmlSource=sock.read()sock.close()print(htmlSource)但是我得到了这样的错误:Traceback(mostrecentcalllast):File"D:\test.py",line3,insock=urllib.request.urlopen("http://diveintopython.org/")Attrib

Python selenium 测试卡在 urlopen 中

我的应用依赖于:python3Django1.8轻松打印Selenium它在开发和生产环境中完美运行,但在使用selenium进行测试时却不是。使用weasyprint,我从HTML创建一个PDF,这个库使用urllib下载CSS(例如http://localhost:8081/static/lib/bootstrap/css/bootstrap.min.css),但它在打开这些时挂起(没有错误,只是卡住了)。如果我在挂起时直接在浏览器中输入此url,则会显示CSS。使用的命令:./manage.pytesttests.test_account.HomeNewVisitorTest测试

python - 为不同的响应模拟 urllib2.urlopen().read()

我正在尝试以某种方式模拟urllib2.urlopen库,以便我应该对传递给函数的不同url获得不同的响应。我现在在我的测试文件中的做法是这样的@patch(othermodule.urllib2.urlopen)defmytest(self,mock_of_urllib2_urllopen):a=Mock()a.read.side_effect=["response1","response2"]mock_of_urllib2_urlopen.return_value=aothermodule.function_to_be_tested()#thisisthefunctionwhich

python - urllib.request.urlopen 出现 500 错误

以下代码:req=urllib.request.Request(url=r"http://borel.slu.edu/cgi-bin/cc.cgi?foirm_ionchur=im&foirm=Seol&hits=1&format=xml",headers={'User-Agent':'Mozilla/5.0(WindowsNT6.1;WOW64;rv:12.0)Gecko/20100101Firefox/12.0'})handler=urllib.request.urlopen(req)给我以下异常:Traceback(mostrecentcalllast):File"C:/User

python - 带有身份验证的 urllib.request.urlopen(url)

这几天一直在玩美汤和解析网页。我一直在使用一行代码,它是我编写的所有脚本中的救星。代码行是:r=requests.get('some_url',auth=('my_username','my_password')).但是...我想用(打开一个带有身份验证的URL)做同样的事情:(1)sauce=urllib.request.urlopen(url).read()(1)(2)soup=bs.BeautifulSoup(sauce,"html.parser")(2)我无法打开url并读取需要身份验证的网页。我如何实现这样的目标:(3)sauce=urllib.request.urlopen

python - 为什么urllib.urlopen.read()与源码不对应?

我正在尝试获取以下网页:importurlliburllib.urlopen("http://www.gallimard-jeunesse.fr/searchjeunesse/advanced/(order)/author?catalog[0]=1&SearchAction=1").read()结果与我在使用GoogleChrome检查网页源代码时看到的结果不一致。您能告诉我为什么会发生这种情况以及我如何改进我的代码来解决这个问题吗?感谢您的帮助。 最佳答案 您从urlopen获得的是原始网页,这意味着没有执行javascript没

Python urllib2.urlopen() 很慢,需要一个更好的方法来读取多个 url

正如标题所示,我正在开发一个用python编写的网站,它会多次调用urllib2模块来读取网站。然后我用BeautifulSoup解析它们。由于我必须阅读5-10个站点,因此页面需要一段时间才能加载。我只是想知道是否有一种方法可以同时阅读所有站点?或者任何让它更快的技巧,比如我应该在每次阅读后关闭urllib2.urlopen还是保持打开状态?已添加:此外,如果我只是切换到php,从其他站点获取和解析HTML和XML文件会更快吗?我只是想让它加载得更快,而不是目前需要大约20秒 最佳答案 我正在使用threading和Queue等现

python - 使用 urllib2 加载 URL 时如何设置 TCP_NODELAY 标志?

我正在使用urllib2加载网页,我的代码是:httpRequest=urllib2.Request("http:/www....com")pageContent=urllib2.urlopen(httpRequest)pageContent.readline()如何获取套接字属性以设置TCP_NODELAY?在普通套接字中我会使用函数:socket.setsockopt(socket.IPPROTO_TCP,socket.TCP_NODELAY,1) 最佳答案 如果您需要访问所用套接字上的此类低级属性,则必须重载一些对象。首先,您