Python爬虫Requests库的使用详情
目录
一、Requests库的7个主要的方法
1.request()
|
构造请求,支撑以下的基础方法
|
2.get()
|
获取HTML页面的主要方法,对应于http的get
|
3.head()
|
获取HTML页面的头部信息的主要方法,对应于http的head
|
- 以很少的流量获取索要信息的概要内容
|
|
4.post()
|
向HTML提交post请求的方法,对应于http的post
|
- 向URLpost一个字典将自动编码为form(表单)
|
|
- 向URLpost一个字符串自动编码为data
|
|
5.put()
|
向HTML提交put请求的方法,对应于http的put
|
6.patch()
|
向HTML提交局部修改的请求,对应于http的patch
|
7.delete()
|
向HTML提交删除请求,对应于http的delete
|
以下代码是描述的request方法中的13个控制访问参数:
二、Response对象的属性
status_code
|
HTTP请求的返回状态码,200表示成功,400表示失败
|
text
|
HTTP响应内容的字符串形式,即URL对应的页面内容
|
encoding
|
从HTTPheader中猜测的响应内容编码方式
|
- 如果header中不存在charset,则认为编码是ISO-8859-1
|
|
apparent_encoding
|
从内容中分析出的响应内容编码方式(备选编码方式)
|
- 从内容中分析出可能的编码形式
|
|
content
|
HTTP响应内容的二进制形式
|
直接解析会出现乱码,将字符设为apparent_encoding时会结局问题。
三、爬取网页通用代码
作用:r.raise_for_status()函数
判断当前请求返回状态码,当返回状态码不为200时,产生异常并能够被except捕获
四、Resquests库的常见异常
requests.ConnectionError
|
网络连接错误异常,如DNS查询失败、拒绝连接等
|
requests.HTTPError
|
HTTP错误异常
|
requests.URLRequired
|
URL缺失异常
|
requests.TooManyRedirects
|
超过最大重定向次数,产生重定向异常
|
requests.ConnectTimeout
|
连接远程服务器超时异常
|
requests.Timeout
|
请求URL超时,产生超时异常
|
五、Robots协议展示
六、案例展示
1.爬取京东商品信息
在爬取后,我们发现在控制台中返回了带有login?
的一个href,并没有具体的信息内容。但是在爬取主页时,可以直接获取主页具体信息。个人认为是由于无法识别是否已经登陆而导致的,后续学习中会跟进知识点及解决方法。(若有大佬会的,感谢评论!)
2.爬取网上图片并保存
到此这篇关于Python爬虫Requests库的使用详情的文章就介绍到这了,更多相关Python Requests库内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!