[問題] 如何移除tag保留裡面內容呢?

看板Python作者 (你好)時間9年前 (2016/05/10 18:49), 編輯推噓1(105)
留言6則, 5人參與, 最新討論串1/1
小弟是python新手 最近剛開始學習爬蟲 但是最近遇到一個問題 就是怎麼都移除不了<li> 以下部分是程式碼 import urllib.request import re from bs4 import BeautifulSoup as bs4 page = urllib.request.urlopen('http://health.udn.com/disease/sole/185'); html = str(page.read(),'utf-8') soup = bs4(html, 'html.parser') s = soup.select('.outbreak > ul') s = s[0] print(s) 輸出結果為: <ul><li>隨年齡增長而提高。男性大於45歲,女性大於55歲,又男性發生率高於女性。 </li><li>患有高血壓、糖尿病、高血脂等疾病者。尤其糖尿病患常合併有三高,加上多 重代謝異常,壞膽固醇容易囤積在血管內,造成大規模阻塞病變。</li><li>情緒容易緊 張、易怒、憂慮和恐慌者。</li><li>過度勞累、生活壓力大者。</li><li>缺乏規律運動 習慣者。</li><li>膽固醇、血脂肪及三酸甘油脂數值過高者。</li><li>菸癮者,因抽煙 會加速粥狀動脈硬化。</li><li>冠狀動脈心臟病患者,或有冠狀動脈心臟病家族史者。 患者因動脈硬化血管腔狹窄,很容易造成阻塞。</li></ul> 煩請各位高手指點了 謝謝大家 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.90.103 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1462877377.A.7DC.html

05/10 19:49, , 1F
請看 beautifulsoup 的官方文件,裡面有寫
05/10 19:49, 1F

05/10 21:30, , 2F
看你是要全部抓一起還是一個個抓,全部抓一起用s.text
05/10 21:30, 2F

05/10 21:35, , 3F
分開抓用s.strings或s.elements.text
05/10 21:35, 3F

05/11 04:55, , 4F
print s.text
05/11 04:55, 4F

05/12 01:41, , 5F
你乾脆用regex自己把tag移除掉
05/12 01:41, 5F

05/12 15:44, , 6F
謝謝各位。已經解決了
05/12 15:44, 6F
文章代碼(AID): #1NCRp1VS (Python)
文章代碼(AID): #1NCRp1VS (Python)