[問題] 爬蟲剔除不必要標籤
小弟是爬蟲新手
想請問各位前輩
我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈)
使用find_all("th", attrs={"data-XXXXXX: ""})
最後可以爬到如下圖之資訊
https://imgur.com/a/8FTeXMM
但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time
試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會
得到
----------
Time
(S)
----------
想請問:
(1) 以目前狀態來看我是不是只能自己去處理 Time 換行 (s) 的這串資料,可能自己剔
除換行符號之後的資訊?
(2) 有沒有更好的解法可以直接拿到 Time呢?
find_all("th", attrs={"data-XXXXXX: ""})
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.249.60.124
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552359457.A.082.html
推
03/12 11:33,
6年前
, 1F
03/12 11:33, 1F
→
03/12 11:33,
6年前
, 2F
03/12 11:33, 2F
推
03/12 13:57,
6年前
, 3F
03/12 13:57, 3F
推
03/12 22:26,
6年前
, 4F
03/12 22:26, 4F
Python 近期熱門文章
PTT數位生活區 即時熱門文章