[問題] 請問抓網頁標籤有哪些推薦的 lib
今天我試著要用 HTMLParser 去抓網頁的標籤
可是我怎麼覺得 HTMLParser 也根本還是土法煉鋼呀?
他頂多是幫忙了拆掉角括弧還有幫我記錄 tag_name tag_attr 之類的
可是好像無法直接抓 tag id 去對照裡面的資料
我今天有用了一會 Beautiful Soup 很不賴,還會幫我做tree
還可以用 find 去找 tag
不過對他們用的結構還是有點不太了解,以為 find 到了還可以找到他的 sub tag
跟 sibling
這種 parser 好像比較好用,所以我查了一下 lxml 好像也可以抓 html
不知道兩者之間如何,還有我是否誤會了 HTMLParser
該不會其實還需要搭配內建的 xml parser?
(還有個小需求, support python3 佳)
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 114.34.40.224
→
01/10 08:08, , 1F
01/10 08:08, 1F
→
01/10 08:11, , 2F
01/10 08:11, 2F
推
01/10 09:53, , 3F
01/10 09:53, 3F
→
01/10 09:54, , 4F
01/10 09:54, 4F
→
01/10 11:33, , 5F
01/10 11:33, 5F
→
01/10 23:54, , 6F
01/10 23:54, 6F
推
01/11 12:55, , 7F
01/11 12:55, 7F
→
01/11 15:35, , 8F
01/11 15:35, 8F
推
01/12 14:34, , 9F
01/12 14:34, 9F
推
01/12 14:38, , 10F
01/12 14:38, 10F
推
01/18 14:28, , 11F
01/18 14:28, 11F
Python 近期熱門文章
PTT數位生活區 即時熱門文章