2024 一天掌握python爬蟲【基礎篇】 涵蓋 requests、beautifulsoup、selenium:
https://www.bilibili.com/video/BV1Ju4y1Y7k6/
很多網(wǎng)站和應用都有反爬蟲策略,我們頻繁的訪問,一旦觸發(fā)反爬蟲策略,我們的IP就會被封掉。
我們?yōu)榱藨獙Ψ磁老x,可以使用代理。
代理IP能劃分成高度匿名代理(以下簡稱:高匿)、普通匿名代理(以下簡稱:普匿)和透明代理三類,通過名字相信大家也猜出了每個級別的匿名程度是:高匿 > 普匿 > 透明。
1. 透明代理IP:顧名思義,服務器知道你在使用代理IP,并且也知道你的真實IP。
2. 普匿代理IP:普匿代理IP要比透明代理IP好一些,但是對方服務器仍然會知道你使用了代理。
3. 高匿代理IP:高匿代理IP不僅可以保護你的IP地址,并且不會改變你的訪問請求,讓對方服務器毫無察覺,不知道你使用了代理。因此,高匿代理的效果是最好的。
所以我們使用代理IP,建議用高匿代理IP,效果好。
推薦一個不錯的代理IP商-快代理 https://www.kuaidaili.com/
他們提供了一些免費的代理IP,鋒哥測試了幾個,都不能用。所以花錢買了,果然好用。
測試代碼:
import requests
url = "http://www.cip.cc/"
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36'
}
proxy = {
"http": "c612.kdltps.com:15818"
}
r = requests.get(url=url, headers=headers, proxies=proxy)
r.encoding = "utf-8"
print(r.status_code)
print(r.text)
with open('proxy.html', 'w', encoding='utf-8') as fp:
fp.write(r.text)
生成的proxy.html里會顯示代理IP地址。