目前位置: 首页 » python »正文

python爬虫伪装成浏览器访问

python爬虫技术中重要的一项就是伪装,如果你直接用python中requests或者urllib这些库去请求网站内容,是很容易被拒绝的,这时候你能得到的基本上都是一个408或者其他错误的提示。

为什么?因为爬虫来访基本上是爬取网站内容的,而且还会消耗服务器资源,没有哪个网站会喜欢。

伪装就变得相当重要了,有了伪装技术,一个爬虫大佬基本上可以做到无所不爬,任凭你有什么反爬技术。

今天给大家说一下爬虫入门的伪装技术:伪装成浏览器访问

伪装成浏览器,只要做一件事就行了,就是在你的请求头信息里面,添加一个User-Agent信息就行了。

问题是这个user-agent信息如何找到呢?

我们下面来举个例子:伪装成使用谷歌浏览器访问百度的爬虫

步骤如下:

我们先在自己电脑上安装一个谷歌浏览器,然后打开百度首页

点击右键,点击“检查”

然后按下图,依次点击左边的链接,再点击上面的“network”、 “headers”

buhuo

然后再往下面拉,不出意外你就可以看到一条user agent的信息,那个冒号后面对应的就是你的谷歌浏览器的信息啦

useragent

 

把这个条信息复制下来。

接下来你就可以写一条这样的爬虫,它就是伪装成浏览器进行爬取网站内容的。

python3.10

import requests

webl=r"http://baidu.com"
#复制来的信息就放在下面的括号里面
headers={
	"user-agent":Mozilla/5.0 (Windows NT 6.1) AppleWeb\
Kit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36
}
r=requests.get(webl,headers=headers)

刚才上面就说了,这种操作只能算是爬虫的入门操作,如果有网站真的做了反爬设置,我们还需要做很多的调整,在请求头headers里面添加更多的参数信息才行。

要伪装在手机访问也是可以的,可以看下怎么获取手机浏览器user-agent,还可以添加代理ip之类的。

推荐阅读