[問題] 爬蟲剔除不必要標籤

看板Python作者 (八八里阿巴)時間6年前 (2019/03/12 10:57), 編輯推噓3(301)
留言4則, 3人參與, 6年前最新討論串1/1
小弟是爬蟲新手 想請問各位前輩 我目前已經針對網頁爬到如附圖之資訊了(利用 find + find_all 搭配for迴圈) 使用find_all("th", attrs={"data-XXXXXX: ""}) 最後可以爬到如下圖之資訊 https://imgur.com/a/8FTeXMM 但因<th>包住<span>,但<span>的內容我不需要,我只需要 Time 試過如果我在這個時候直接print find_all("th", attrs={"data-XXXXXX: ""}).text 會 得到 ---------- Time (S) ---------- 想請問: (1) 以目前狀態來看我是不是只能自己去處理 Time 換行 (s) 的這串資料,可能自己剔 除換行符號之後的資訊? (2) 有沒有更好的解法可以直接拿到 Time呢? find_all("th", attrs={"data-XXXXXX: ""}) -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 60.249.60.124 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1552359457.A.082.html

03/12 11:33, 6年前 , 1F
find_all("th" attrs=lambda x: x and "whatever" in x)
03/12 11:33, 1F

03/12 11:33, 6年前 , 2F
沒測過... 不過常用類似的方法去篩選抓回來的東西
03/12 11:33, 2F

03/12 13:57, 6年前 , 3F
直接給網址
03/12 13:57, 3F

03/12 22:26, 6年前 , 4F
使用.contents[0]看看
03/12 22:26, 4F
文章代碼(AID): #1SXo0X22 (Python)
文章代碼(AID): #1SXo0X22 (Python)