[問題] 網頁抓資料特殊符號處理
大家好
小弟最近使用python抓取網頁資料
在網頁原始檔中有td標籤如下的
<td align="right" width="56">
755
</td>
都能順利讀取其值 755
使用方法是SGMLParser
但現在有個問題
<td align="middle" class="12red" width="61">
<font color="red">
▲+8
</font>
這種的td標籤雖然有3個attrs,若沒有下面的font標籤,我想也不難抓取值
但現在不只有font標籤,而且"▲"這個要怎處理?
小弟現在以parse標籤帶三個屬性的方式硬處理,結果未能抓取其值(或抓取到空白?)
因為print出來似乎是一個空格而已
希望板上大大能幫忙解惑,感恩~
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.96.28.93
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1422323070.A.CE6.html
※ 編輯: zilong308 (140.96.28.93), 01/27/2015 09:45:04
Python 近期熱門文章
PTT數位生活區 即時熱門文章