[問題] 網頁抓資料特殊符號處理

看板Python作者 (派大星)時間10年前 (2015/01/27 09:44), 10年前編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
大家好 小弟最近使用python抓取網頁資料 在網頁原始檔中有td標籤如下的 <td align="right" width="56"> 755 </td> 都能順利讀取其值 755 使用方法是SGMLParser 但現在有個問題 <td align="middle" class="12red" width="61"> <font color="red"> ▲+8 </font> 這種的td標籤雖然有3個attrs,若沒有下面的font標籤,我想也不難抓取值 但現在不只有font標籤,而且"▲"這個要怎處理? 小弟現在以parse標籤帶三個屬性的方式硬處理,結果未能抓取其值(或抓取到空白?) 因為print出來似乎是一個空格而已 希望板上大大能幫忙解惑,感恩~ -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.96.28.93 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1422323070.A.CE6.html ※ 編輯: zilong308 (140.96.28.93), 01/27/2015 09:45:04
文章代碼(AID): #1Knkr-pc (Python)
文章代碼(AID): #1Knkr-pc (Python)