[問題] 請教爬蟲bs4如何去除標籤?
import requests
from bs4 import BeautifulSoup
import re
url = 'https://tw.appledaily.com/new/realtime'
res = requests.get(url)
soup = BeautifulSoup(res.text,'lxml')
tags = soup.find('ul',attrs={'class':'rtddd slvl'})
titles = tags.find_all('h1')
for title in titles:
print(title.text)
我爬蘋果日報標題
title.text 會將文字 <span>數字</span> 合併
但我只想要文字部分 數字不要
請問如何提取呢
感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 101.12.179.219
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1545751765.A.6F6.html
推
12/26 09:26,
6年前
, 1F
12/26 09:26, 1F
感謝回覆 有試過 但反而很多標題消失了
※ 編輯: nini200 (114.33.71.129), 12/26/2018 20:29:52
→
12/26 23:32,
6年前
, 2F
12/26 23:32, 2F
看來只能用lxml 它的text()不會撈到旁邊span的數字
→
12/26 23:33,
6年前
, 3F
12/26 23:33, 3F
→
12/26 23:33,
6年前
, 4F
12/26 23:33, 4F
→
12/26 23:34,
6年前
, 5F
12/26 23:34, 5F
感謝^ ^
推
12/26 23:39,
6年前
, 6F
12/26 23:39, 6F
之前有試過 'NoneType' object has no attribute 'decompose' 但會報錯
推
12/26 23:44,
6年前
, 7F
12/26 23:44, 7F
有試過 但很多標題都消失了
※ 編輯: nini200 (114.33.71.129), 12/27/2018 00:45:45
※ 編輯: nini200 (114.33.71.129), 12/27/2018 00:48:28
Python 近期熱門文章
PTT數位生活區 即時熱門文章