学习一时爽,一直学习一直爽!
大家好,我是 Connor,一个从无到有的技术小白。上一次我们说到了什么是HTTP协议,那么这一次我们就要动手,来真正的了解如何使用Python访问一个网站了。今天我们要说的是Python自带的标准库,Urllib与Urllib3。
1.urllib库
1.1urllib的简介
urllib`是Python中请求url连接的官方标准库,在Python2中主要为urllib和urllib2,在Python3中整合成了urllib。urllib中一共有四个模块,分别是 request,error,parse,robotparser,下面我们就来看一下urllib怎么使用吧。
1.2 urllib.request库
urllib.request模块定义了在复杂世界中帮助打开URLs (主要是HTTP )的函数和类——基本和摘要认证、重定向、cookies等等,这个模块主要负责构造和发起网络请求,并在其中加入Headers、Proxy等。
1.2.1 发起 GET 请求
如果你想打开一个网页,那么使urlopen()
方法来发起请求无疑是正确的选择,你可以这样做:
- from urllibimport request
-
resp= reqeust.urlopen('https://www.baidu.com')
- print(resp.read().decode())
在urlopen()
方法中,直接写入要访问的url地址字符串,该方法就会主动的访问目标网址,然后返回访问结果,返回的访问结果是一个http.client.HTTPResponse
对象,使用该对象的read()
方法即可获取访问网页获取的数据,这个数据是二进制格式的,所以我们还需要使用decode()
方法来将获取的二进制数据进行解码,转换成我们可以看的懂得字符串。
1.2.2 发起 POST 请求
在urlopen()
方法中,urlopen()
默认的访问方式是GET,当在urlopen()
方法中传入data参数时,则会发起POST请求。注意:传递的data数据需要为bytes格式,你可以这样做:
- from urllibimport reuqest
-
resp= request.urlopen('http://httpbin.org/post', data=b'word=hello')
- print(resp.read().decode())
1.2.3 Request对象
在urlopen()
中不止可以传入字符串格式的url,也可以传入Request
对象来实现功能的拓展,Request
对象如下所示:
- classurllib.request.Request(url, data=None, headers={},
-
origin_req_host=None,
-
unverifiable=False, method=None)
1.2.4 其它参数
当我们需要模拟一些其他的参数的时候,简单的urlopen()
方法已经无法满足我们的需求了,这个时候我们就需要使用urllib.request
中的Request
对象来帮助我们实现一些其它参数的模拟,这些需要模拟的其它参数有如下几种:
- Headers:
通过urllib发起请求的时候会有一个默认的Headers,这个Headers是"User-Agent": “Python-urllib/3.x”,如果网站设有UA验证,那么我们的程序无法访问成功,这个时候我们就需要伪装UA来进行访问,直接使用Request对象来添加Headers即可:
- from urllibimport request
-
url='http://httpbin.org/get'
-
headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
- # 需要使用url和headers生成一个Request对象,然后将其传入urlopen方法中
-
req= request.Request(url, headers=headers)
-
resp= request.urlopen(req)
- print(resp.read().decode())
- Cookie:
有时候当我们访问一些网站的时候需要进行翻页或者跳转等其它操作,为了防止无法访问我们想要的数据,需要让网站识别我们是同一个用户。这个时候我们就需要带上cookie进行访问。
在设置cookie的时候由于urllib并没有很好的处理cookie的对象,所以在这里我们需要用到一个别的库,即http库,并使用里面的cookiejar来进行cookie的管理:
- from httpimport cookiejar
- from urllibimport request
-
url='https://www.baidu.com'
- # 创建一个cookiejar对象
-
cookie= cookiejar.CookieJar()
- # 使用HTTPCookieProcessor创建cookie处理器
-
cookies= request.HTTPCookieProcessor(cookie)
- # 并以它为参数创建Opener对象
-
opener= request.build_opener(cookies)
- # 使用这个opener来发起请求
-
resp= opener.open(url)
- # 查看之前的cookie对象,则可以看到访问百度获得的cookie
- for iin cookie:
- print(i)
在上述的方法中我们还用到了一个新的东西,即request.build_opener()
方法,其实urlopen()
就是一个构造好了的opener对象,在这里我们使用request.build_opener()
方法重构了一个opener()
对象,我们可以通过这个对象实现urlopen()
实现的任何东西。
当然,如果把这个生成的opener使用install_opener方法来设置为全局的,那么这个opener就是全局的,之后的每次访问都会带上这个cookie。
- # 将这个opener设置为全局的opener
-
request.install_opener(opener)
-
resp= request.urlopen(url)
- Proxy:
使用爬虫来爬取数据的时候,如果过于频繁的访问,而且网站还设有限制的话,很有可能会禁封我们的ip地址,这个时候就需要设置代理,来隐藏我们的真实IP,代理需要创建一个代理处理器,使用request.ProxyHandler
来生成一个代理处理器,你应该这样做:
- from urllibimport request
-
url='http://httpbin.org/ip'
-
proxy={'http':'218.18.232.26:80','https':'218.18.232.26:80'}
-
proxies= request.ProxyHandler(proxy)# 创建代理处理器
-
opener= request.build_opener(proxies)# 创建opener对象
-
resp= opener.open(url)
- print(resp.read().decode())
1.2.5 请求中需要注意的事情
decode()
方法中,如果你不写解码格式,那么它会自动的将二进制格式转码成当前编辑器环境的格式,通常为UTF-8
,当然,有些网站的编码格式并不会使用utf-8
格式来编写网站,这个时候就需要你指定解码格式,如果你不清楚网站的解码格式的话,可以尝试查看网页源代码,ctrl + F
来查找charset
属性,这时候直接指定解码格式即可,当然如果网站中并没有写明charset
属性的话,那就只有多试几次了…urlopen()
,opener的open()
中的data数据是二进制的,一定要先将它们用encode()
方法转换成二进制数据中再进行发送。
1.3 urllib.response
在使用urlopen()
方法或者opener的open()
方法发起请求后,获得的结果是一个response
对象。
这个对象有一些方法和属性,可以让我们对请求返回的结果进行一些处理。
read()
获取响应返回的数据,只能使用一次。
getcode()
获取服务器返回的状态码。
getheaders()
获取返回响应的响应报头。
geturl()
获取访问的url。
1.4 urllib.parse
urllib.parse`是urllib中用来解析各种数据格式的模块。这之中有我们常用的两个方法,所以我们只着重说两个方法:
1.4.1 urllib.parse.quote
再url中,只能使用ASCII中包含的字符,也就是说,ASCII不包含特殊字符,包括中文,韩语,日语等各种字符,这些字符都无法在url中进行使用,而我们有的时候又需要将一些中文字符加入到url中,例如百度的搜索:
?
之后的wd参数,就是我们搜索的关键词。我们实现的方法就是将特殊字符进行url编码,转换成可以使用url传输的格式,urlib中可以使用quote()
方法来实现这个功能。
-
In[1]:from urllibimport parse
-
In[2]: parse.quote('底特律')
-
Out[2]:'%E5%BA%95%E7%89%B9%E5%BE%8B'
这样我们就把中文字符串转换成了url能够识别的形式了,但是有的时候你会发现你明明进行了转码,但是访问的时候还是会无法访问,原因在于你的编码格式和网站指定的编码格式并不相符。
urllib.parse.quote
(string,safe=’/’,encoding=None,errors=None)
在上面的方法中不难看到,quote拥有多个参数,你可以通过指定编码格式的方法来确保你转码后获得的数据是正确的。
-
In[1]:from urllibimport parse
-
In[2]: parse.quote("底特律", encoding='utf-8')
-
Out[2]:'%E5%BA%95%E7%89%B9%E5%BE%8B'
-
In[3]: parse.quote("底特律", encoding='gbk')
-
Out[3]:'%B5%D7%CC%D8%C2%C9'
效果还是很明显的,明显的指定不同格式后的字符串编码是不同的。当然,如过你需要解码的时候,你也可以使用unquote()
方法来解码:
-
In[1]:from urllibimport parse
-
In[2]: parse.unquote('%E5%BA%95%E7%89%B9%E5%BE%8B',encoding='utf-8')
-
Out[2]:'底特律'
1.4.2 urllib.parse.urlencode
在访问url时,我们常常需要传递很多的url参数,而如果用字符串的方法去拼接url的话,会比较麻烦,所以urllib
中提供了urlencode
这个方法来拼接url参数,该方法同样支持指定编码格式。
-
In[1]:from urllibimport parse
-
In[2]: paramers={'address':'底特律','phone':'123456789','name':'Connor'}
-
In[3]: parse.urlencode(paramers)
-
Out[3]:'address=%E5%BA%95%E7%89%B9%E5%BE%8B&phone=123456789&name=Connor'
-
In[4]: parse.urlencode(paramers,encoding='utf-8')
-
Out[4]:'address=%E5%BA%95%E7%89%B9%E5%BE%8B&phone=123456789&name=Connor'
-
In[5]: parse.urlencode(paramers,encoding='gbk')
-
Out[5]:'address=%B5%D7%CC%D8%C2%C9&phone=123456789&name=Connor'
1.5 urllib.error
在urllib
中主要设置了两个异常,一个是URLError
,一个是HTTPError
,HTTPError
是URLError
的子类。
HTTPError
还包含了三个属性:
- code:请求的状态码
- reason:错误的原因
- headers:响应的报头
例子:
-
In[1]:from urllib.errorimport HTTPError
-
In[2]:try:
- ...: request.urlopen('https://www.jianshu.com')
- ...:except HTTPErroras e:
- ...:print(e.code)
- 403
2.urllib3
其实我原本放弃写urllib3的打算了,因为相比requests来说,urllib和urllib3都显得太繁琐了,乱七八糟的功能导致几乎没有人写urlib3的说明,现有的urllib3几乎都是出自一人之手,大家相互抄都抄烂了… 我就简单的写一点吧,不见得比抄烂了的好,大家见谅吧。
2.1 urllib3 简介
urllib3是一个功能强大,对SAP健全的 HTTP客户端。许多Python生态系统已经使用了urllib3,你也应该这样做。 ——来自官方的自述
urllib一共有两个子包和八个模块,包几乎用不到,八个模块中并不是所有的都是我们常用的东西,大概有六个左右是我们经常用的,下面我们来看一下这几个模块吧
2.2 urllib3 PoolManager对象
2.2.1 urllib3.PoolMagent
如果你想通过urllib3访问一个网页,那么你必须先构造一个PoolManager对象,然后通过PoolMagent中的request方法来访问一个网页。
- classurllib3.poolmanager.PoolManager(num_pools=10,headers=None,**connection_pool_kw )
这是生成一个PoolMaager所需要的参数:
num_pools
代表了缓存的池的个数,如果访问的个数大于num_pools
,将按顺序丢弃最初始的缓存,将缓存的个数维持在池的大小。headers
代表了请求头的信息,如果在初始化PoolManager
的时候制定了headers
,那么之后每次使用PoolManager
来进行访问的时候,都将使用该headers来进行访问。** connection_pool_kw
是基于connection_pool 来生成的其它设置,这里我们不细述
2.2.2 request() 和 urlopen() 方法
当生成了一个PoolManager之后,我们就可以开始访问我们需要访问的网页了。
你可以通过urlopen()
方法或者request()
方法来访问一个网页,当你访问完成之后,将会返回一个HTTPREsopnse对象给你,你可以通过如下的方法来读取获取的响应内容:
- import urllib3
-
http= urllib3.PoolManager(num_pools=5, headers={'User-Agent':'ABCDE'})
-
resp1= http.request('GET','http://www.baidu.com', body=data)
- print(resp1.data.decode())
当然,你也可以使用urlopen()
方法来打开一个网页,他们两者几乎没有任何区别:
- import urllib3
-
http= urllib3.PoolManager(num_pools=5, headers={'User-Agent':'ABCDE'})
-
resp2= http.urlopen('GET','http://www.baidu.com', body=data)
- print(resp2.data.decode())
除了普通的 GET 请求之外,你还可以使用request()
进行 POST 请求:
- import urllib3
- import json
-
data= json.dumps({'abc':'123'})
-
http= urllib3.PoolManager(num_pools