Python知識分享網(wǎng) - 專業(yè)的Python學(xué)習(xí)網(wǎng)站 學(xué)Python,上Python222
Python BeautifulSoup用法詳解 PDF 下載
發(fā)布于:2024-06-03 10:54:41
(假如點(diǎn)擊沒反應(yīng),多刷新兩次就OK!)

Python BeautifulSoup用法詳解 PDF 下載 圖1

 

 

資料內(nèi)容:

一、引言
BeautifulSoup 是一個(gè) Python 的 HTML/XML 解析庫,它可以從 HTML 或 XML 文件中提取數(shù)據(jù)。
BeautifulSoup 能夠很好地處理不規(guī)范或有錯(cuò)誤的 HTML/XML 文檔,并提供了簡單且省力的方
式從網(wǎng)頁抓取數(shù)據(jù)。下面,我們將對 BeautifulSoup 的用法進(jìn)行詳細(xì)的解析。

 

二、安裝與導(dǎo)入
首先,你需要在 Python 環(huán)境中安裝 BeautifulSoup 庫??梢酝ㄟ^ pip 命令進(jìn)行安裝:
```bash
pip install beautifulsoup4
``` 安裝完成后,你可以在你的 Python 腳本中導(dǎo)入 BeautifulSoup 庫:
```python
from bs4 import BeautifulSoup
```

三、基本用法
1. **讀取 HTML 文檔** 你可以通過打開本地 HTML 文件或通過網(wǎng)絡(luò)請求獲取 HTML 內(nèi)容。例如,使用`open`函數(shù)讀
取本地文件:
```python
with open('test.html', 'r', encoding='utf-8') as f:
html_doc = f.read()
``` 或者使用`requests`庫獲取網(wǎng)頁內(nèi)容:
```python
import requests
url = 'http://example.com' response = requests.get(url)
html_doc = response.text
```

2. **解析 HTML 文檔**
使用 BeautifulSoup 解析 HTML 文檔,你需要?jiǎng)?chuàng)建一個(gè) BeautifulSoup 對象,并傳入 HTML 文
檔字符串和解析器。默認(rèn)的解析器是`html.parser`,但你也可以選擇其他解析器,如`lxml`或
`html5lib`。
```python
soup = BeautifulSoup(html_doc, 'html.parser')
```

3. **遍歷解析樹** BeautifulSoup 將 HTML 文檔解析為一個(gè)嵌套的節(jié)點(diǎn)樹,你可以通過遍歷這個(gè)樹來獲取你需要的信息。每個(gè)節(jié)點(diǎn)都是一個(gè)對象,具有一些屬性和方法。
* `Tag.name`:返回標(biāo)簽的名字。
* `Tag.attrs`:返回標(biāo)簽的屬性鍵值對,是一個(gè) dict 對象。
* `Tag[attr]`:獲取屬性值。如果屬性在 HTML 中是多值屬性,則返回 list 對象,否則返回 str
對象。
* `Tag.string`:返回標(biāo)簽內(nèi)的第一個(gè)文本節(jié)點(diǎn)。如果標(biāo)簽內(nèi)部有多個(gè)文本節(jié)點(diǎn),則返回 None。
* `Tag.strings`:返回標(biāo)簽內(nèi)所有文本節(jié)點(diǎn),生成器類型。
* `Tag.contents`:返回子節(jié)點(diǎn)列表,是 list 對象。