資料內(nèi)容:
什么是抓包
不論?哪種?式去寫爬?代碼,對于 下載 來說,具體要請求?
站 url 是什么,調(diào)?什么 api 接?,傳遞什么 參數(shù) ,以及獲取到數(shù)據(jù)
后,?什么規(guī)則提取出需要的數(shù)據(jù)等等內(nèi)容,都需要事先去分析和研究清
楚,這個(gè)抓取?絡(luò)請求的數(shù)據(jù)包的過程,?般叫做: 抓包
即:
下載
需要訪問的?? url 地址或 api接? 是什么
以及傳遞什么 參數(shù)
提取
對于返回?cái)?shù)據(jù),需要抓取具體哪?部分
對應(yīng)的數(shù)據(jù)的 提取規(guī)則 是什么
提示:
雖然對于爬?的核?流程是先要抓包分析搞清楚邏輯,然后才能去寫爬?
代碼,不過實(shí)際上很多時(shí)候,是邊分析,邊寫代碼的。
尤其是對于?些復(fù)雜的?站或app來說,往往是分析的同時(shí),也要寫?些
代碼去驗(yàn)證和測試抓取的邏輯是否?得通的。
總之,對于爬?的流程:
邏輯上是:先抓包分析,再寫爬?代碼
實(shí)際上(往往)是:邊抓包分析,邊寫代碼
抓包的難度
普通?? :抓包分析,?般?較簡單
復(fù)雜?站 :對于需要登錄才能獲取到數(shù)據(jù),且加了驗(yàn)證碼等做了其
他反爬措施和?段的?站和app,抓包分析起來,?般都很復(fù)雜
復(fù)雜?站的抓包分析和破解,往往?(之后的,單純的)寫爬?
去 下載+提取+保存,要難多了