Python3爬虫笔记-requests
  • 在request中,所有的请求都可以用以请求名称命名的方法来调用:
r = requests.get('https://www.baidu.com/')
r = requests.post('http://httpbin.org/post')
r = requests.put('http://httpbin.org/put')
r = requests.delete('http://httpbin.org/delete')
r = requests.head('http://httpbin.org/get')
r = requests.options('http://httpbin.org/get')

1 GET请求

  • 利用params参数,构造字典来传递GET参数。请求的链接自动被构造成了|http://httpbin.org/get?age=22&name=germey|:
import requests

data = {
'name': 'germey',
'age': 22
}
r = requests.get("http://httpbin.org/get", params=data)
print(r.text)

另外,网页的返回类型实际上是str类型,但是它很特殊,是JSON格式的。所以,如果想直接解析返回结果,得到一个字典格式的话,可以直接调用json()方法:

import requests

r = requests.get("http://httpbin.org/get")
print(type(r.text))
print(r.json())
print(type(r.json()))

#运行结果:
<class 'str'>
{'headers': {'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Host': 'httpbin.org', 'User-Agent': 'python-requests/2.10.0'}, 'url': 'http://httpbin.org/get', 'args': {}, 'origin': '182.33.248.131'}
<class 'dict'>

1.1 抓取网页

  • 以爬取知乎为例,读取页面内容,并用正则表达式匹配相应内容。注意爬去知乎必须要修改User-Agent,否则知乎拒绝访问。
import requests
import re

headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
r = requests.get("https://www.zhihu.com/explore", headers=headers)
pattern = re.compile('explore-feed.*?question_link.*?>(.*?)</a>', re.S)
titles = re.findall(pattern, r.text)
print(titles)

1.2 抓取二进制数据

  • 图片、视频、音频等都是以二进制数据存储的。要抓去它们必须拿到它们的二进制码。
  • 下面以抓取GitHub图标为例:
import requests

r = requests.get("https://github.com/favicon.ico")
print(r.text)
print(r.content)

#第一行会输出乱码,因为text()输出字符串,而抓取的是图片数据
#第二行会输出bytes数据,content()输出bytes数据
  • 下面的代码读取图片,在本地打开一个favicon.ico的文件,wb表示以bytes格式写入。然后将图片的字节流写入文件,该文件打开后就是抓取到的图片。
import requests

r = requests.get("https://github.com/favicon.ico")
with open('favicon.ico', 'wb') as f:
f.write(r.content)

2 POST请求

import requests

data = {'name': 'germey', 'age': '22'}
r = requests.post("http://httpbin.org/post", data=data)
print(r.text)

3 响应

import requests

r = requests.get('http://www.jianshu.com')
print(type(r.status_code), r.status_code)
print(type(r.headers), r.headers)
print(type(r.cookies), r.cookies)
print(type(r.url), r.url)
print(type(r.history), r.history)
  • 下面的代码中,状态码200可以用requests.codes.ok来比对;404可以用requests.codes.not_found来比对等等:
import requests

r = requests.get('http://www.jianshu.com')
exit() if not r.status_code == requests.codes.ok else print('Request Successfully')

4 高级用法

4.1 文件上传

import requests

files = {'file': open('favicon.ico', 'rb')}
r = requests.post("http://httpbin.org/post", files=files)
print(r.text)

4.2 Cookies

  • 代码中,items()将字典中的每一对键值转化为元组,返回一个多个元组组成的列表:
import requests

r = requests.get("https://www.baidu.com")
print(r.cookies)
for key, value in r.cookies.items():
print(key + '=' + value)

4.3 会话维持

  • 设想这样一个场景,第一个请求利用post()方法登录了某个网站,第二次想获取成功登录后的自己的个人信息,你又用了一次get()方法去请求个人信息页面。实际上,这相当于打开了两个浏览器,是两个完全不相关的会话,能成功获取个人信息吗?那当然不能。
  • 利用Session便可以实现这个功能,维持同一个会话。
import requests

s = requests.Session()

#设置了浏览器的cookie
s.get('http://httpbin.org/cookies/set/number/123456789')

#可以直接获取到cookie,因为是在同一个会话中
r = s.get('http://httpbin.org/cookies')
print(r.text)

4.4 SSL证书验证

  • 对于证书没有被官方CA机构信任的网站,直接访问会报错;
  • verify参数设置为False即可:
import requests

response = requests.get('https://www.12306.cn', verify=False)
print(response.status_code)

4.5 代理设置

import requests

proxies = {
"http": "http://10.10.1.10:3128",
"https": "http://10.10.1.10:1080",
}

requests.get("https://www.taobao.com", proxies=proxies)
  • 若代理需要使用HTTP Basic Auth,可以使用类似|http://user:password@host:port|这样的语法来设置代理,示例如下:
import requests

proxies = {
"http": "http://user:password@10.10.1.10:3128/",
}
requests.get("https://www.taobao.com", proxies=proxies)
  • 除了基本的HTTP代理外,requests还支持SOCKS协议的代理。
  • 首先,需要安装socks这个库:
pip3 install 'requests[socks]'
  • 然后就可以使用SOCKS协议代理了,示例如下:
import requests

proxies = {
'http': 'socks5://user:password@host:port',
'https': 'socks5://user:password@host:port'
}
requests.get("https://www.taobao.com", proxies=proxies)

4.6 超时设置

i

mport requests

r = requests.get("https://www.taobao.com", timeout = 1)
print(r.status_code)

4.7 身份认证

import requests

r = requests.get('http://localhost:5000', auth=('username', 'password'))
print(r.status_code)

#auth=()实际上是调用了 requests.auth.HTTPBasicAuth 库中的 auth=HTTPBasicAuth('username', 'password')

4.8 Prepared Request

  • 在requests中也可以将请求表示为数据结构,这个数据结构称为Prepared Request
  • 这里我们引入了Request,然后用url、data和headers参数构造了一个Request对象,这时需要再调用Session的prepare_request()方法将其转换为一个Prepared Request对象,然后调用send()方法发送即可:
from requests import Request, Session

url = 'http://httpbin.org/post'
data = {
'name': 'germey'
}
headers = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36'
}
s = Session()
req = Request('POST', url, data=data, headers=headers)
prepped = s.prepare_request(req)
r = s.send(prepped)
print(r.text)
  • 有了Request这个对象,就可以将请求当作独立的对象来看待,这样在进行队列调度时会非常方便。
文章作者: Alston
文章链接: https://lizitong67.github.io/2020/02/21/Python3%E7%88%AC%E8%99%AB%E7%AC%94%E8%AE%B0-requests/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 Alston's blog