[問題] 新手問ptt政黑版爬蟲

看板Python作者 (中央氣象局)時間6年前 (2018/12/09 12:11), 6年前編輯推噓1(102)
留言3則, 3人參與, 6年前最新討論串1/1
大家好,小弟我目前已經把ptt政黑版爬蟲給爬完了,目前的狀況是標題,時間,發文id ,內容,推文,都可以爬下來 想要進階到正則表達式把內文作者或是來源給抓出來,不知道這是否可行?因為政黑版的 發文格式相當混亂, 像是是 新聞來源:xx 新聞:xx xxx 報導 xxxx ooo 綜合報導 或是什麼都沒有 不曉得是否能夠寫出把這些單獨抓出來的正則表達式,因為也怕寫了會抓到其他的字就是 了.... -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 110.26.228.210 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1544328708.A.3FB.html

12/09 12:36, 6年前 , 1F
ㄜ...你自己回答自己了,可以啊
12/09 12:36, 1F

12/09 16:55, 6年前 , 2F
沒有乾淨的資料只有無盡的苦功...
12/09 16:55, 2F

12/10 14:59, 6年前 , 3F
推二樓 你只能case by case 了
12/10 14:59, 3F
謝謝回覆 看來的確是一個一個用個案去寫了 感恩大大 ※ 編輯: askdrlin (110.26.228.210), 12/11/2018 14:45:58
文章代碼(AID): #1S39O4Fx (Python)
文章代碼(AID): #1S39O4Fx (Python)