[問題] lxml抓資料有錯誤

看板Python作者 (cc)時間13年前 (2012/04/02 17:17), 編輯推噓2(203)
留言5則, 3人參與, 最新討論串1/1
我想用lxml中的xpath語法從imdb的中抓出演員演過的電影 演員名演過的電影名單那段的原始碼是 <div style="display:block;"> <div class="filmo-row odd" style=""> ... </div> <- Actor裡第一部電影 <div class="filmo-row even" style=""> ... </div> ... </div> 但是我用下面的抓法 url = 'http://www.imdb.com/name/nm0000226/' f = lxml.html.parse(url) f.xpath('//div[@style="display:block;"]/div') 永遠都只能抓到第一部電影的資料 不知道是哪裡搞錯了? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 98.208.56.49

04/02 17:52, , 1F
我猜是這個 <div class="clear"/></div>
04/02 17:52, 1F

04/02 17:53, , 2F
多一個 / 讓那個 div 被誤認成空元素
04/02 17:53, 2F

04/02 17:54, , 3F
出現在 filmo-row even 的上幾行…
04/02 17:54, 3F

04/02 18:38, , 4F
真的是這樣 感謝!!!! 我卡了很久 T_T
04/02 18:38, 4F

04/03 10:41, , 5F
因為HTML是很鬆散的~所以瀏覽器能顯示也不代表是正確的
04/03 10:41, 5F
文章代碼(AID): #1FUMwg53 (Python)
文章代碼(AID): #1FUMwg53 (Python)