Python知識(shí)分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
pythonscrapy爬蟲實(shí)例Python爬蟲Scrapy實(shí)例 PDF 下載
發(fā)布于:2024-02-28 10:34:50
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

pythonscrapy爬蟲實(shí)例Python爬蟲Scrapy實(shí)例 PDF 下載 圖1

 

 

 

資料內(nèi)容:

 

、創(chuàng)建Scrapy項(xiàng)?
似乎所有的框架,開始的第?步都是從創(chuàng)建項(xiàng)?開始的,Scrapy也不例外。在這之前要說明的是Scrapy項(xiàng)?的創(chuàng)建、配置、運(yùn)?……默認(rèn)
都是在終端下操作的。不要覺得很難,其實(shí)它真的?常簡(jiǎn)單,做填空題?已。如果實(shí)在是?法接受,也可以花點(diǎn)?思配置好Eclipse,在這
個(gè)萬能IDE下操作。推薦還是在終端操作?較好,雖然開始可能因?yàn)椴皇煜?出現(xiàn)很多錯(cuò)誤,錯(cuò)多了,通過排錯(cuò)印象深刻了,也就?然學(xué)會(huì)
了。打開Putty連接到Linux,開始創(chuàng)建Scrapy項(xiàng)?。執(zhí)?命令:
cd
cd code/scrapy/
scrapy startproject todayMovie
tree todayMovie
執(zhí)?結(jié)果如圖1所?。
圖1 創(chuàng)建todayMovie項(xiàng)?
tree命令將以樹形結(jié)構(gòu)顯??件?錄結(jié)構(gòu)。tree命令默認(rèn)情況下是沒有安裝的,可以執(zhí)?命令apt-get install tree來安裝這個(gè)命令。
這?可以很清楚地看到todayMovie?錄下的所有??件和??錄。?此Scrapy項(xiàng)?todayMovie基本上完成了。按照Scrapy的提?信息,
可以通過Scrapy的Spider基礎(chǔ)模版順便建??個(gè)基礎(chǔ)的。相當(dāng)于把填空題打印到試卷上,等待填空了。當(dāng)然,也可以不?Scrapy命令建?
基礎(chǔ),如果?要體驗(yàn)?下DIY也是可以的。這?我們還是怎么簡(jiǎn)單怎么來吧,按照提?信息,在該終端中執(zhí)?命令:
cd todayMovie
scrapy genspider wuHanMovieSpider mtime.com
執(zhí)?結(jié)果如圖2所?。
圖2 創(chuàng)建基礎(chǔ)爬?
?此,?個(gè)最基本的項(xiàng)?已經(jīng)建?完畢了,它包含了?個(gè)Scrapy所需的基礎(chǔ)?件。到這?步可以說填空題已準(zhǔn)備完畢,后?的?作就純粹
是填空了。圖2中第???字scrapy genspider是?個(gè)命令,也是Scrapy最常?的?個(gè)命令之?,它的使??法如圖3所?。
圖3 scrapy genspider命令幫助
因此,剛才的命令意思是使?scrapy genspider命令創(chuàng)建?個(gè)名字為wuHanMovieSpider的爬?腳本。這個(gè)腳本搜索的域?yàn)?
mtime.com。
2、Scrapy?件介紹
Scrapy項(xiàng)?的所有?件都已經(jīng)到位了,如圖2所?,下?來看看各個(gè)?件的作?。?先最頂層的那個(gè)todayMovie?件夾是項(xiàng)?名,這個(gè)沒
什么好說的。
在第?層中是?個(gè)與項(xiàng)?同名的?件夾todayMovie和?個(gè)?件scrapy.cfg,這?與項(xiàng)?同名的?件夾todayMovie是模塊(也可以叫做包
的),所有的項(xiàng)?代碼都在這個(gè)模塊(?件夾或者叫包)內(nèi)添加。?scrapy.cfg?件,顧名思義它是整個(gè)Scrapy項(xiàng)?的配置?件。來看看這個(gè)
?件?有些什么。Scrapy.cfg?件內(nèi)容如下: