首页 Python python爬虫入门—第四篇:网站对爬虫的限制及突破测试

python爬虫入门—第四篇:网站对爬虫的限制及突破测试

大部分网站对网络爬虫都有限制,限制方式有两种:一、Robots协议;二、网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截第一种限制是书面限制,第二种是强制性阻拦限制。那我们如何去突破第二种限制呢?首先我们要爬取一个网站大部

大部分网站对网络爬虫都有限制,限制方式有两种:

一、Robots协议;二、网站通过判断对网站访问http的头部信息来查看是否是爬虫,并对爬虫做相关拦截

第一种限制是书面限制,第二种是强制性阻拦限制。那我们如何去突破第二种限制呢?

首先我们要爬取一个网站大部分会使用requests库的get()方法,而get()方法返回的response对象中包含了我们对网站的请求信息。例如:

url = <span style=”color: #800000″>'<span style=”color: #800000″>https://www.cnblogs.com/huwt/<span style=”color: #800000″>'<span style=”color: #000000″>

res =<span style=”color: #000000″> requests.get(url)

<span style=”color: #0000ff”>print(res.request.headers)———————————————–输出结果:{‘User-Agent’: ‘python-requests/2.19.1′,’Accept-Encoding’: ‘gzip,deflate’,’Accept’: ‘/‘,’Connection’: ‘keep-alive’}

通过请求的头部信息我们可以看到一个键值对:’User-Agent’: ‘python-requests/2.19.1’,而强制性的限制就是通过判断’User-Agent’的值来判断是否为爬虫,

只要我们将请求对象中’User-Agent’的值修改为浏览器的’User-Agent’即可,例如:

url = <span style=”color: #800000″>'<span style=”color: #800000″>https://www.cnblogs.com/huwt/<span style=”color: #800000″>'<span style=”color: #000000″>

res = requests.get(url,headers = {<span style=”color: #800000″>'<span style=”color: #800000″>User-Agent<span style=”color: #800000″>’:<span style=”color: #800000″>'<span style=”color: #800000″>Mozilla/5.0<span style=”color: #800000″>'<span style=”color: #000000″>})

<span style=”color: #0000ff”>print(res.request.headers)

-----------------------------------------------输出结果:{'User-Agent': 'Mozilla/5.0','Connection': 'keep-alive'}

我们可以看到通过修改get()方法的参数就能将’User-Agent’的值被修改为’Mozilla/5.0’,此时我们的爬虫模拟成了Mozilla/5.0浏览器,

这样就可以不被识别的去访问一些有所限制的网站了。

提醒:

以上方法只供实验测试使用,任何一名爬虫使用者都应遵守Robots协议,文明爬取网站。

本文来自网络,不代表青岛站长网立场。转载请注明出处: https://www.0532zz.com/html/kaifa/python/20200802/7815.html
上一篇
下一篇

作者: dawei

【声明】:青岛站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

为您推荐

返回顶部