2024 一天掌握python爬蟲(chóng)【基礎(chǔ)篇】 涵蓋 requests、beautifulsoup、selenium:
https://www.bilibili.com/video/BV1Ju4y1Y7k6/
我們以谷歌瀏覽器為例講解。首先我們要去下載谷歌瀏覽器驅(qū)動(dòng)。
谷歌瀏覽器驅(qū)動(dòng)下載地址:https://vikyd.github.io/download-chromium-history-version
查看谷歌瀏覽器版本 右上角三個(gè)點(diǎn) - > 幫助 - > 關(guān)于
我們下載解壓后的驅(qū)動(dòng),放到項(xiàng)目代碼同級(jí)目錄即可,方便測(cè)試。
安裝下selenium模塊
pip install selenium -i https://pypi.tuna.tsinghua.edu.cn/simple
測(cè)試代碼:
import time
from selenium import webdriver
# 創(chuàng)建瀏覽器操作對(duì)象
browser = webdriver.Chrome()
url = "https://www.csdn.net/"
browser.get(url)
time.sleep(5)
content = browser.page_source
print(content)
自動(dòng)彈出谷歌瀏覽器,并且提示"Chrome 正受到自動(dòng)測(cè)試軟件的控制", 說(shuō)明驅(qū)動(dòng)配置OK。
代碼休眠5秒,是為了讓js完成渲染,然后獲取網(wǎng)頁(yè)源碼,我們能找到我們需要的資訊數(shù)據(jù)