[問題] 詢問關於解析網頁的觀念–如何去html碼

看板Python作者 (busystudent)時間9年前 (2016/04/04 13:25), 9年前編輯推噓4(406)
留言10則, 8人參與, 最新討論串1/1
最近幾日在做爬蟲網頁,步驟如下: Step1輸入網址 Step2擷取網頁 Step3去html碼(text cleaning) 我的目標是取得網頁內文,後分析,例如,切出網頁內文前十常出現的字詞。 唯獨去html碼(text cleaning)一直讓我頭痛,我使用正規化去銷html碼,如下所示 import re TAG_RE = re.compile(r'<[^>]+>') def remove_tags(text): return TAG_RE.sub('', text) 如果只有一兩個網頁,效果不錯,因為我可以手動檢查網頁是否有內文,而不是入口網站 ya 我想請問幾個觀念 1. 使用正規化去除html碼是足夠有效的嗎? 2. 當一次面對上百筆網頁時,是前期step1時就要先(手動或自動)分析好網頁,去 除? 3. 還是想打聽,大家都是怎麼處理這方面的問題 -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.224.116 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1459747552.A.3BB.html

04/04 13:54, , 1F
BeautifulSoup?
04/04 13:54, 1F

04/04 13:54, , 2F
BeautifulSoup?
04/04 13:54, 2F
感謝提供,之前推文是我功課不足,還請見諒

04/04 14:07, , 3F
如果不想另外裝東西, 你需求內建的 html parser 就夠了
04/04 14:07, 3F
※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:47:23 感謝提醒,我馬上去 找相關資料,謝謝 ※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:48:32

04/05 00:32, , 4F
不太懂你意思耶,但我用bs4.getText方法來去除tag覺得還蠻
04/05 00:32, 4F

04/05 00:32, , 5F
好用的呀
04/05 00:32, 5F
馬上找相關資料,感謝 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 10:32:21

04/05 16:32, , 6F
所以你還不知道怎麼用beautifulsoup就回推文了嗎?
04/05 16:32, 6F
Sorry BeautifulSoup 我還以為只有指定位置抓內文的功能,去查才知道自己功課做不足,觀點不對 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:09:53 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:11:55 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:24:31

04/05 18:03, , 7F
lxml也很好用,可以試試
04/05 18:03, 7F

04/05 23:43, , 8F
推 lxml 我也習慣用 lxml 來做
04/05 23:43, 8F

04/07 01:18, , 9F
我也喜歡用 lxml
04/07 01:18, 9F

04/09 02:40, , 10F
自從用了lxml考試都考100分
04/09 02:40, 10F
文章代碼(AID): #1N0VhWEx (Python)
文章代碼(AID): #1N0VhWEx (Python)