[問題] 網路爬蟲後的資料分析

看板Python作者 (笑笑生)時間10年前 (2015/12/02 14:35), 編輯推噓1(104)
留言5則, 3人參與, 最新討論串1/1
大家好 小弟近來自學python的網路爬蟲 抓取網頁的html檔後用beautifulsoup資料分析 我的目的在於要抓取關鍵字搜索後的資料(一頁有50筆) 目前發現一個問題無法解決(也google不到) 因為我要抓的網頁資料在原始碼上的編排有做手腳 我要抓的title它有些是編排為: "標題" 有些是:"標題 " 因為這個雙引號位置的關係,使得我抓出來的資料編排就不一致 請問各位先進 我要如何修改我的程式才能讓我抓出來的資料編排一致? 謝謝 小弟的程式如下: for item in range (0, 50): title = soup.findAll('a',{'class':'t'})[item].get_text().strip() date_t = soup.findAll('span',{'class':'date'})[item].get_text() print date_t,".",title -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.109.197.38 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449038152.A.43F.html

12/02 20:14, , 1F
Did you try regexp already?
12/02 20:14, 1F

12/03 09:12, , 2F
not yet, but I'll try it. THX.
12/03 09:12, 2F

12/03 22:50, , 3F
有時某些空格用strip()也消不掉 可以試"".join(s.split())
12/03 22:50, 3F

12/03 22:50, , 4F
其中s是你要拆解的string
12/03 22:50, 4F

12/04 09:05, , 5F
謝謝z大 我會試試看的 感謝
12/04 09:05, 5F
文章代碼(AID): #1MNf58G_ (Python)
文章代碼(AID): #1MNf58G_ (Python)