Python知識(shí)分享網(wǎng) - 專(zhuān)業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Python網(wǎng)絡(luò)爬蟲(chóng)介紹
發(fā)布于:2023-10-27 10:34:10

2024 一天掌握python爬蟲(chóng)【基礎(chǔ)篇】 涵蓋 requests、beautifulsoup、selenium

https://www.bilibili.com/video/BV1Ju4y1Y7k6/

 

什么是網(wǎng)絡(luò)爬蟲(chóng)?

網(wǎng)絡(luò)爬蟲(chóng)(又稱(chēng)為網(wǎng)頁(yè)蜘蛛,網(wǎng)絡(luò)機(jī)器人,在FOAF社區(qū)中間,更經(jīng)常的稱(chēng)為網(wǎng)頁(yè)追逐者),是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動(dòng)索引、模擬程序或者蠕蟲(chóng)。

比如百度 www.baidu.com 搜索引擎的所有檢索內(nèi)容,都是百度的很多蜘蛛去萬(wàn)維網(wǎng)上去抓取,以及進(jìn)行持久化存儲(chǔ),用戶通過(guò)百度搜索框,輸入想要搜索的內(nèi)容,百度服務(wù)器再通過(guò)算法檢索出最相關(guān),最佳的內(nèi)容顯示給搜索結(jié)果頁(yè)面給用戶展示。

 

網(wǎng)絡(luò)爬蟲(chóng)的核心工作內(nèi)容

網(wǎng)絡(luò)爬核心工作內(nèi)容是去目標(biāo)站點(diǎn)爬取網(wǎng)頁(yè),將網(wǎng)頁(yè)中我們需要的內(nèi)容進(jìn)行解析,最后保存,比如保存到Excel,數(shù)據(jù)庫(kù)等。

 

網(wǎng)絡(luò)爬蟲(chóng)的用途

應(yīng)用場(chǎng)景1:搜索引擎抓取網(wǎng)頁(yè)信息。 不知道大家對(duì)于Google、百度這種搜索引擎的工作原理都了解多少,搜索引擎的首要工作流程就是利用網(wǎng)絡(luò)爬蟲(chóng)去爬取各個(gè)網(wǎng)站的頁(yè)面。以百度蜘蛛為例,一旦有網(wǎng)站的頁(yè)面更新了,百度蜘蛛就會(huì)出動(dòng),然后把爬取的頁(yè)面信息搬回百度,再進(jìn)行多次的篩選和整理。最終在大家搜索相關(guān)信息的時(shí)候,通過(guò)排名呈現(xiàn)給大家??梢哉f(shuō),沒(méi)有網(wǎng)絡(luò)爬蟲(chóng),我們使用搜索引擎查詢資料的時(shí)候,就不會(huì)那么便捷、全面和高效。

應(yīng)用場(chǎng)景2:爬取需要數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。 冷數(shù)據(jù)啟動(dòng)時(shí)豐富數(shù)據(jù)的主要工具,新業(yè)務(wù)開(kāi)始時(shí),由于剛起步,所以沒(méi)有多少數(shù)據(jù),此時(shí)就需要爬取其他平臺(tái)的數(shù)據(jù)來(lái)填充我們的業(yè)務(wù)數(shù)據(jù)。比如說(shuō),如果我們想做一個(gè)類(lèi)似大眾點(diǎn)評(píng)這樣的平臺(tái),一開(kāi)始沒(méi)有商戶等信息,就需要去爬取大眾,美團(tuán)等商家的信息來(lái)填充數(shù)據(jù),比如天眼查,企查查,西瓜數(shù)據(jù)等等。

應(yīng)用場(chǎng)景3:出行類(lèi)軟件通過(guò)爬蟲(chóng)搶票。 如果問(wèn)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)應(yīng)用最多的領(lǐng)域是什么?那一定是出行行業(yè)。相信每逢春運(yùn)或是節(jié)假日,大家都用過(guò)一些搶票的軟件,就為了獲得一張機(jī)票或者是一張火車(chē)票,而這種出行類(lèi)軟件正是運(yùn)用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)來(lái)達(dá)到搶票的目的。像搶票軟件這樣的網(wǎng)絡(luò)爬蟲(chóng),會(huì)不停地爬取交通出行的售票網(wǎng)站,一旦有票就會(huì)點(diǎn)擊拍下來(lái),放到自己的網(wǎng)站售賣(mài)。如果一定時(shí)間內(nèi)沒(méi)有人購(gòu)買(mǎi),就又會(huì)自動(dòng)退票。然后又通過(guò)網(wǎng)站爬蟲(chóng)把票拍下來(lái),到時(shí)間又繼續(xù)退票,如此反復(fù)循環(huán)。

應(yīng)用場(chǎng)景4:聚合平臺(tái)整合信息進(jìn)行比較。 如今,出現(xiàn)了很多比價(jià)平臺(tái)、聚合電商還有返利平臺(tái)等等給,這類(lèi)聚合平臺(tái)的本質(zhì)都是提供橫向數(shù)據(jù)比較,聚合服。比如說(shuō)電商中經(jīng)常需要有一種比價(jià)系統(tǒng),從各大電商平臺(tái),如拼多多,淘寶,京東等抓取同一個(gè)商品的價(jià)格信息,以給用戶提供最實(shí)惠的商品價(jià)格,這樣就需要利用網(wǎng)絡(luò)爬蟲(chóng)從各大電商平臺(tái)爬取信息。

應(yīng)用場(chǎng)景5:爬取個(gè)人信用信息 黑產(chǎn),灰產(chǎn),風(fēng)控等,比如我們要向某些資金方申請(qǐng)授信,在資金方這邊首先要部署一道風(fēng)控,來(lái)看你的個(gè)人信息是否滿足授信條件,這些個(gè)人信息通常是某些公司利用爬蟲(chóng)技術(shù)在各個(gè)渠道爬取而來(lái)的,當(dāng)然了這類(lèi)場(chǎng)景還是要慎用,不然正應(yīng)了那句話“爬蟲(chóng)用的好,監(jiān)牢進(jìn)得早”。

 

Python的爬蟲(chóng)技術(shù)

爬蟲(chóng)的總流程可以理解為:蜘蛛要抓某個(gè)獵物-->沿著蛛絲找到獵物-->吃到獵物;即爬取-->解析-->存儲(chǔ);

在爬取數(shù)據(jù)過(guò)程中所需參考工具如下:

請(qǐng)求庫(kù):urllib、requests、selenium

解析庫(kù):正則、xpath、jsonpath、beautifulsoup、pyquery

存儲(chǔ)庫(kù):文件、MySQL、Mongodb、Redis……

爬蟲(chóng)框架:Scrapy

轉(zhuǎn)載自: