[問題] 用urllib.request抓網頁的問題
各位大大好,小弟最近剛接觸python沒多久
最近嘗試使用urllib.request來抓取網站資料...
打算抓下來之後,再利用lxml等package來分析內容,看網頁有無變化。
然而,我照最基本的教學練習時,就卻出現了以下的狀況。
===================================================
先利用這段script抓網頁
===================================================
import urllib.request as url
fh = url.urlopen('http://www.python.org')
content = fh.read().decode('utf8')
with open('test', 'w') as fd:
fd.write(content)
===================================================
再利用lxml監控內容
===================================================
import lxml.etree as ET
tree = ET.parses('test')
^^^^^^
每次一做到這行的時候,就會出現lxml.etreeSyntaxError, ndash not defined
...
...
...
想請問各位大大,遇到網頁裡有特殊字元的時候,是要如何處理呢?
又或是大大們有建議別的、更好的監控網頁變化的方法?
謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.112.18.213
→
05/06 13:23, , 1F
05/06 13:23, 1F
→
05/06 13:24, , 2F
05/06 13:24, 2F
Python 近期熱門文章
PTT數位生活區 即時熱門文章