[問題] 新手問ptt政黑版爬蟲
大家好,小弟我目前已經把ptt政黑版爬蟲給爬完了,目前的狀況是標題,時間,發文id
,內容,推文,都可以爬下來
想要進階到正則表達式把內文作者或是來源給抓出來,不知道這是否可行?因為政黑版的
發文格式相當混亂,
像是是
新聞來源:xx
新聞:xx
xxx 報導
xxxx ooo 綜合報導
或是什麼都沒有
不曉得是否能夠寫出把這些單獨抓出來的正則表達式,因為也怕寫了會抓到其他的字就是
了....
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.26.228.210
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1544328708.A.3FB.html
→
12/09 12:36,
6年前
, 1F
12/09 12:36, 1F
→
12/09 16:55,
6年前
, 2F
12/09 16:55, 2F
推
12/10 14:59,
6年前
, 3F
12/10 14:59, 3F
謝謝回覆 看來的確是一個一個用個案去寫了 感恩大大
※ 編輯: askdrlin (110.26.228.210), 12/11/2018 14:45:58
Python 近期熱門文章
PTT數位生活區 即時熱門文章