[問題] 用urllib.request抓網頁的問題

看板Python作者 (九)時間12年前 (2013/05/06 12:44), 編輯推噓0(002)
留言2則, 1人參與, 最新討論串1/1
各位大大好,小弟最近剛接觸python沒多久 最近嘗試使用urllib.request來抓取網站資料... 打算抓下來之後,再利用lxml等package來分析內容,看網頁有無變化。 然而,我照最基本的教學練習時,就卻出現了以下的狀況。 =================================================== 先利用這段script抓網頁 =================================================== import urllib.request as url fh = url.urlopen('http://www.python.org') content = fh.read().decode('utf8') with open('test', 'w') as fd: fd.write(content) =================================================== 再利用lxml監控內容 =================================================== import lxml.etree as ET tree = ET.parses('test') ^^^^^^ 每次一做到這行的時候,就會出現lxml.etreeSyntaxError, ndash not defined ... ... ... 想請問各位大大,遇到網頁裡有特殊字元的時候,是要如何處理呢? 又或是大大們有建議別的、更好的監控網頁變化的方法? 謝謝! -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.18.213

05/06 13:23, , 1F
特殊字元 : errors = 'ignore' 無視錯誤
05/06 13:23, 1F

05/06 13:24, , 2F
很多的html就不是合法的xml,可是瀏覽器還是可以,所以..
05/06 13:24, 2F
文章代碼(AID): #1HXpKZHO (Python)
文章代碼(AID): #1HXpKZHO (Python)