PTT數位生活區 / Python

[問題] 用urllib.request抓網頁的問題

看板Python作者percentage (九)時間13年前 (2013/05/06 12:44)推噓0(0推 0噓 2→)

留言2則, 1人參與討論串1/1

各位大大好，小弟最近剛接觸python沒多久最近嘗試使用urllib.request來抓取網站資料... 打算抓下來之後，再利用lxml等package來分析內容，看網頁有無變化。然而，我照最基本的教學練習時，就卻出現了以下的狀況。 =================================================== 先利用這段script抓網頁 =================================================== import urllib.request as url fh = url.urlopen('http://www.python.org') content = fh.read().decode('utf8') with open('test', 'w') as fd: fd.write(content) =================================================== 再利用lxml監控內容 =================================================== import lxml.etree as ET tree = ET.parses('test') ^^^^^^ 每次一做到這行的時候，就會出現lxml.etreeSyntaxError, ndash not defined ... ... ... 想請問各位大大，遇到網頁裡有特殊字元的時候，是要如何處理呢？又或是大大們有建議別的、更好的監控網頁變化的方法？謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.18.213

→

05/06 13:23, , 1^F

05/06 13:23, 1^F

→

05/06 13:24, , 2^F

05/06 13:24, 2^F

‣ 返回看板[ Python ] 程設

‣ 更多 percentage 的文章

文章代碼(AID): #1HXpKZHO (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

6

21

[情報] 傳Intel將於2027推出Raptor Lake Next

[ PC_Shopping ]

5小時前, 06/16

4

13

[賣/北中/皆可] kingston KC3000 2TB

[ HardwareSale ]

7小時前, 06/15

4

23

[討論] 我這樣聽覺是正常的嗎?

8小時前, 06/15

7

17

[購機] 12K左右輕巧手機

9小時前, 06/15

3

8

[賣/台中/面交] 華碩TUF 5070TI顯卡已刪文

[ HardwareSale ]

9小時前, 06/15

-2

12

[問題] 請問我的SSD是intel 660P還是760P？

[ Storage_Zone ]

11小時前, 06/15

11

15

[心得] [心得]SONY XPERIA 1 VIII 簡短拍照感受

11小時前, 06/15

17

82

[討論] 哪個廠牌型號會自動下載APP？

11小時前, 06/15

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 percentage 的文章

文章代碼(AID): #1HXpKZHO (Python)