[問題] 詢問關於解析網頁的觀念–如何去html碼
最近幾日在做爬蟲網頁,步驟如下:
Step1輸入網址
Step2擷取網頁
Step3去html碼(text cleaning)
我的目標是取得網頁內文,後分析,例如,切出網頁內文前十常出現的字詞。
唯獨去html碼(text cleaning)一直讓我頭痛,我使用正規化去銷html碼,如下所示
import re
TAG_RE = re.compile(r'<[^>]+>')
def remove_tags(text):
return TAG_RE.sub('', text)
如果只有一兩個網頁,效果不錯,因為我可以手動檢查網頁是否有內文,而不是入口網站
ya
我想請問幾個觀念
1. 使用正規化去除html碼是足夠有效的嗎?
2. 當一次面對上百筆網頁時,是前期step1時就要先(手動或自動)分析好網頁,去
除?
3. 還是想打聽,大家都是怎麼處理這方面的問題
--
Sent from my Windows
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.224.116
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1459747552.A.3BB.html
→
04/04 13:54, , 1F
04/04 13:54, 1F
→
04/04 13:54, , 2F
04/04 13:54, 2F
感謝提供,之前推文是我功課不足,還請見諒
→
04/04 14:07, , 3F
04/04 14:07, 3F
※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:47:23 感謝提醒,我馬上去
找相關資料,謝謝
※ 編輯: busystudent (223.140.224.116), 04/04/2016 14:48:32
推
04/05 00:32, , 4F
04/05 00:32, 4F
→
04/05 00:32, , 5F
04/05 00:32, 5F
馬上找相關資料,感謝
※ 編輯: busystudent (223.140.224.116), 04/05/2016 10:32:21
推
04/05 16:32, , 6F
04/05 16:32, 6F
Sorry BeautifulSoup 我還以為只有指定位置抓內文的功能,去查才知道自己功課做不足,觀點不對
※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:09:53
※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:11:55
※ 編輯: busystudent (223.140.224.116), 04/05/2016 17:24:31
→
04/05 18:03, , 7F
04/05 18:03, 7F
推
04/05 23:43, , 8F
04/05 23:43, 8F
→
04/07 01:18, , 9F
04/07 01:18, 9F
推
04/09 02:40, , 10F
04/09 02:40, 10F
Python 近期熱門文章
PTT數位生活區 即時熱門文章