[問題] 詢問關於解析網頁的觀念–如何去html碼

看板Python作者busystudent (busystudent)時間10年前 (2016/04/04 13:25)推噓4(4推 0噓 6→)

留言10則, 8人參與討論串1/1

最近幾日在做爬蟲網頁，步驟如下： Step1輸入網址 Step2擷取網頁 Step3去html碼(text cleaning) 我的目標是取得網頁內文，後分析，例如，切出網頁內文前十常出現的字詞。唯獨去html碼(text cleaning)一直讓我頭痛，我使用正規化去銷html碼，如下所示 import re TAG_RE = re.compile(r'<[^>]+>') def remove_tags(text): return TAG_RE.sub('', text) 如果只有一兩個網頁，效果不錯，因為我可以手動檢查網頁是否有內文，而不是入口網站 ya 我想請問幾個觀念 1. 使用正規化去除html碼是足夠有效的嗎? 2. 當一次面對上百筆網頁時，是前期step1時就要先(手動或自動)分析好網頁，去除? 3. 還是想打聽，大家都是怎麼處理這方面的問題 -- Sent from my Windows -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.224.116 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1459747552.A.3BB.html

→

yeh6

04/04 13:54, , 1^F

04/04 13:54, 1^F

→

yeh6

04/04 13:54, , 2^F

04/04 13:54, 2^F

感謝提供，之前推文是我功課不足，還請見諒

→

uranusjr

04/04 14:07, , 3^F

04/04 14:07, 3^F

※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:47:23 感謝提醒，我馬上去找相關資料，謝謝 ※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:48:32

推

htc812

04/05 00:32, , 4^F

04/05 00:32, 4^F

→

htc812

04/05 00:32, , 5^F

04/05 00:32, 5^F

馬上找相關資料，感謝 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 10:32:21

推

PRAM

04/05 16:32, , 6^F

04/05 16:32, 6^F

Sorry BeautifulSoup 我還以為只有指定位置抓內文的功能，去查才知道自己功課做不足，觀點不對 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:09:53 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:11:55 ※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:24:31

→

gozule

04/05 18:03, , 7^F

04/05 18:03, 7^F

推

aweimeow

04/05 23:43, , 8^F

04/05 23:43, 8^F

→

s860134

04/07 01:18, , 9^F

04/07 01:18, 9^F