[問題] 請問抓網頁標籤有哪些推薦的 lib

看板Python作者 (FreedomKnight)時間13年前 (2013/01/10 02:15), 編輯推噓5(506)
留言11則, 7人參與, 最新討論串1/1
今天我試著要用 HTMLParser 去抓網頁的標籤 可是我怎麼覺得 HTMLParser 也根本還是土法煉鋼呀? 他頂多是幫忙了拆掉角括弧還有幫我記錄 tag_name tag_attr 之類的 可是好像無法直接抓 tag id 去對照裡面的資料 我今天有用了一會 Beautiful Soup 很不賴,還會幫我做tree 還可以用 find 去找 tag 不過對他們用的結構還是有點不太了解,以為 find 到了還可以找到他的 sub tag 跟 sibling 這種 parser 好像比較好用,所以我查了一下 lxml 好像也可以抓 html 不知道兩者之間如何,還有我是否誤會了 HTMLParser 該不會其實還需要搭配內建的 xml parser? (還有個小需求, support python3 佳) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.34.40.224

01/10 08:08, , 1F
HTMLParser 在比較輕量, 就這樣而已
01/10 08:08, 1F

01/10 08:11, , 2F
XML 有一個內建的叫 ElementTree, 不過還是比不上 lxml
01/10 08:11, 2F

01/10 09:53, , 3F

01/10 09:54, , 4F
beautiful soup 要再加上 soupselect 就會超好用了
01/10 09:54, 4F

01/10 11:33, , 5F
我還是覺得當字串比較方便~還是不信任HTML的結構~哈哈
01/10 11:33, 5F

01/10 23:54, , 6F
HTMLParser 比較輕量是指他功能根本也不多嗎?
01/10 23:54, 6F

01/11 12:55, , 7F
PyQuery
01/11 12:55, 7F

01/11 15:35, , 8F
各方面都很弱(可能除了速度)的意思XD
01/11 15:35, 8F

01/12 14:34, , 9F
這題目可大可小...
01/12 14:34, 9F

01/12 14:38, , 10F
我會從最弱的lib開始試,接著慢慢加強藥效
01/12 14:38, 10F

01/18 14:28, , 11F
推lxml
01/18 14:28, 11F
文章代碼(AID): #1GxREiBd (Python)
文章代碼(AID): #1GxREiBd (Python)