[問題] 抓取網頁遇到的問題2

看板Python作者 (arlu)時間15年前 (2010/08/27 15:45), 編輯推噓1(102)
留言3則, 2人參與, 最新討論串1/2 (看更多)
大家好, 另外有一個問題想請教各位。 假設我要用HTMLParser抓網頁的資料, 我知道其內建有幾個函數可以使用,像是handle_startendtag、handle_starttag、 handle_endtag、handle_data…等。 假設我想要抓的是以下"span title="symbol"後面的configuration(即data) <span title="symbol">configuration</span> 應該要如何操作? 因為我發現handle_starttag好像只單純處理tag, 而handle_data又是單純處理tag之間的data, 有沒有辦法依據我想要的tag樣式去存data呢? 謝謝! Best Regards -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 60.251.19.66

08/27 16:44, , 1F
http://0rz.tw/e250z 用lxml的xpath
08/27 16:44, 1F

08/27 16:45, , 2F
tree.xpath("//span[@title='symbol']/text()")
08/27 16:45, 2F

08/30 10:24, , 3F
喔喔!!感謝,努力研究 lxml中~
08/30 10:24, 3F
文章代碼(AID): #1CTsqqh9 (Python)
文章代碼(AID): #1CTsqqh9 (Python)