在request中,所有的请求都可以用以请求名称命名的方法来调用:
r = requests.get('https://www.baidu.com/' ) r = requests.post('http://httpbin.org/post' ) r = requests.put('http://httpbin.org/put' ) r = requests.delete('http://httpbin.org/delete' ) r = requests.head('http://httpbin.org/get' ) r = requests.options('http://httpbin.org/get' )
1 GET请求
利用params 参数,构造字典来传递GET参数。请求的链接自动被构造成了|http://httpbin.org/get?age=22&name=germey
|:
import requests data = { 'name' : 'germey' , 'age' : 22 } r = requests.get("http://httpbin.org/get" , params=data) print(r.text)
另外,网页的返回类型实际上是str类型,但是它很特殊,是JSON格式的。所以,如果想直接解析返回结果,得到一个字典格式的话,可以直接调用json()方法:
import requests r = requests.get("http://httpbin.org/get" ) print(type(r.text)) print(r.json()) print(type(r.json())) <class 'str '> {'headers': {'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.10.0'}, 'url': 'http://httpbin.org/get', 'args': {}, 'origin': '182.33.248.131'} <class 'dict '>
1.1 抓取网页
以爬取知乎为例,读取页面内容,并用正则表达式匹配相应内容。注意爬去知乎必须要修改User-Agent,否则知乎拒绝访问。
import requestsimport reheaders = { 'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36' } r = requests.get("https://www.zhihu.com/explore" , headers=headers) pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>' , re.S) titles = re.findall(pattern, r.text) print(titles)
1.2 抓取二进制数据
图片、视频、音频等都是以二进制数据存储的。要抓去它们必须拿到它们的二进制码。
下面以抓取GitHub图标为例:
import requestsr = requests.get("https://github.com/favicon.ico" ) print(r.text) print(r.content)
下面的代码读取图片,在本地打开一个favicon.ico的文件,wb表示以bytes格式写入。然后将图片的字节流写入文件,该文件打开后就是抓取到的图片。
import requestsr = requests.get("https://github.com/favicon.ico" ) with open('favicon.ico' , 'wb' ) as f: f.write(r.content)
2 POST请求
import requestsdata = {'name' : 'germey' , 'age' : '22' } r = requests.post("http://httpbin.org/post" , data=data) print(r.text)
3 响应
import requestsr = requests.get('http://www.jianshu.com' ) print(type(r.status_code), r.status_code) print(type(r.headers), r.headers) print(type(r.cookies), r.cookies) print(type(r.url), r.url) print(type(r.history), r.history)
下面的代码中,状态码200可以用requests.codes.ok 来比对;404可以用requests.codes.not_found 来比对等等:
import requestsr = requests.get('http://www.jianshu.com' ) exit() if not r.status_code == requests.codes.ok else print('Request Successfully' )
4 高级用法
4.1 文件上传
import requestsfiles = {'file' : open('favicon.ico' , 'rb' )} r = requests.post("http://httpbin.org/post" , files=files) print(r.text)
4.2 Cookies
代码中,items()将字典中的每一对键值转化为元组,返回一个多个元组组成的列表:
import requestsr = requests.get("https://www.baidu.com" ) print(r.cookies) for key, value in r.cookies.items(): print(key + '=' + value)
4.3 会话维持
设想这样一个场景,第一个请求利用post()方法登录了某个网站,第二次想获取成功登录后的自己的个人信息,你又用了一次get()方法去请求个人信息页面。实际上,这相当于打开了两个浏览器,是两个完全不相关的会话,能成功获取个人信息吗?那当然不能。
利用Session 便可以实现这个功能,维持同一个会话。
import requestss = requests.Session() s.get('http://httpbin.org/cookies/set/number/123456789' ) r = s.get('http://httpbin.org/cookies' ) print(r.text)
4.4 SSL证书验证
对于证书没有被官方CA机构信任的网站,直接访问会报错;
把verify 参数设置为False 即可:
import requests response = requests.get('https://www.12306.cn' , verify=False ) print(response.status_code)
4.5 代理设置
import requestsproxies = { "http" : "http://10.10.1.10:3128" , "https" : "http://10.10.1.10:1080" , } requests.get("https://www.taobao.com" , proxies=proxies)
若代理需要使用HTTP Basic Auth,可以使用类似|http://user:password@host:port
|这样的语法来设置代理,示例如下:
import requestsproxies = { "http" : "http://user:password@10.10.1.10:3128/" , } requests.get("https://www.taobao.com" , proxies=proxies)
除了基本的HTTP代理外,requests还支持SOCKS协议的代理。
首先,需要安装socks这个库:
pip3 install 'requests[socks]'
import requestsproxies = { 'http' : 'socks5://user:password@host:port' , 'https' : 'socks5://user:password@host:port' } requests.get("https://www.taobao.com" , proxies=proxies)
4.6 超时设置
i
mport requests r = requests.get("https://www.taobao.com" , timeout = 1 ) print(r.status_code)
4.7 身份认证
import requests r = requests.get('http://localhost:5000' , auth=('username' , 'password' )) print(r.status_code)
4.8 Prepared Request
在requests中也可以将请求表示为数据结构,这个数据结构称为Prepared Request
这里我们引入了Request,然后用url、data和headers参数构造了一个Request对象,这时需要再调用Session的prepare_request()方法将其转换为一个Prepared Request对象,然后调用send()方法发送即可:
from requests import Request, Sessionurl = 'http://httpbin.org/post' data = { 'name' : 'germey' } headers = { 'User-Agent' : 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36' } s = Session() req = Request('POST' , url, data=data, headers=headers) prepped = s.prepare_request(req) r = s.send(prepped) print(r.text)
有了Request这个对象,就可以将请求当作独立的对象来看待,这样在进行队列调度时会非常方便。