[問題] 網路爬蟲後的資料分析
大家好
小弟近來自學python的網路爬蟲
抓取網頁的html檔後用beautifulsoup資料分析
我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆)
目前發現一個問題無法解決(也google不到)
因為我要抓的網頁資料在原始碼上的編排有做手腳
我要抓的title它有些是編排為: "標題"
有些是:"標題
"
因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致
請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致?
謝謝
小弟的程式如下:
for item in range (0, 50):
title = soup.findAll('a',{'class':'t'})[item].get_text().strip()
date_t = soup.findAll('span',{'class':'date'})[item].get_text()
print date_t,".",title
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.197.38
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449038152.A.43F.html
推
12/02 20:14, , 1F
12/02 20:14, 1F
→
12/03 09:12, , 2F
12/03 09:12, 2F
→
12/03 22:50, , 3F
12/03 22:50, 3F
→
12/03 22:50, , 4F
12/03 22:50, 4F
→
12/04 09:05, , 5F
12/04 09:05, 5F
Python 近期熱門文章
PTT數位生活區 即時熱門文章