Python知識分享網(wǎng) - 專業(yè)的Python學習網(wǎng)站 學Python,上Python222
Python BeautifulSoup用法詳解 PDF 下載
匿名網(wǎng)友發(fā)布于:2024-06-03 10:54:41
(侵權舉報)
(假如點擊沒反應,多刷新兩次就OK!)

Python BeautifulSoup用法詳解 PDF 下載 圖1

 

 

資料內容:

一、引言
BeautifulSoup 是一個 Python 的 HTML/XML 解析庫,它可以從 HTML 或 XML 文件中提取數(shù)據(jù)。
BeautifulSoup 能夠很好地處理不規(guī)范或有錯誤的 HTML/XML 文檔,并提供了簡單且省力的方
式從網(wǎng)頁抓取數(shù)據(jù)。下面,我們將對 BeautifulSoup 的用法進行詳細的解析。

 

二、安裝與導入
首先,你需要在 Python 環(huán)境中安裝 BeautifulSoup 庫??梢酝ㄟ^ pip 命令進行安裝:
```bash
pip install beautifulsoup4
``` 安裝完成后,你可以在你的 Python 腳本中導入 BeautifulSoup 庫:
```python
from bs4 import BeautifulSoup
```

三、基本用法
1. **讀取 HTML 文檔** 你可以通過打開本地 HTML 文件或通過網(wǎng)絡請求獲取 HTML 內容。例如,使用`open`函數(shù)讀
取本地文件:
```python
with open('test.html', 'r', encoding='utf-8') as f:
html_doc = f.read()
``` 或者使用`requests`庫獲取網(wǎng)頁內容:
```python
import requests
url = 'http://example.com' response = requests.get(url)
html_doc = response.text
```

2. **解析 HTML 文檔**
使用 BeautifulSoup 解析 HTML 文檔,你需要創(chuàng)建一個 BeautifulSoup 對象,并傳入 HTML 文
檔字符串和解析器。默認的解析器是`html.parser`,但你也可以選擇其他解析器,如`lxml`或
`html5lib`。
```python
soup = BeautifulSoup(html_doc, 'html.parser')
```

3. **遍歷解析樹** BeautifulSoup 將 HTML 文檔解析為一個嵌套的節(jié)點樹,你可以通過遍歷這個樹來獲取你需要的信息。每個節(jié)點都是一個對象,具有一些屬性和方法。
* `Tag.name`:返回標簽的名字。
* `Tag.attrs`:返回標簽的屬性鍵值對,是一個 dict 對象。
* `Tag[attr]`:獲取屬性值。如果屬性在 HTML 中是多值屬性,則返回 list 對象,否則返回 str
對象。
* `Tag.string`:返回標簽內的第一個文本節(jié)點。如果標簽內部有多個文本節(jié)點,則返回 None。
* `Tag.strings`:返回標簽內所有文本節(jié)點,生成器類型。
* `Tag.contents`:返回子節(jié)點列表,是 list 對象。