Re: [問題] 一個抓資料的問題

看板Python作者 (阿真)時間14年前 (2011/11/02 20:55), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/4 (看更多)
前文吃光光 在cmd下看到的都是亂碼 無論用big5 utf-8 cp950去對number做decode或是encode都沒用 想請問怎麼會這樣呢? 是因為re無法處理中文嗎? 煩請大大們解惑 謝謝! cmd是指黑底的嗎?? 黑底的應該比較容易正常說 雖然都轉成unicode就沒事了 我測試直接urllib2抓網頁 有下面的結果 http://dl.dropbox.com/u/24628527/TEST.PNG
用unicode來看都還蠻正常的 ( 用str不正常就不提了... windows oooos) 然後我也用了re (想學一直沒空 我抄你的程式碼) 有以下的結果 http://dl.dropbox.com/u/24628527/test2.PNG
當然在黑底的cmd也是沒問題 上面是在 windows xp python 2.5.4 測試的 蠻好奇你怎麼抓不出來@_@a -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.27.129

11/01 00:19,
先說你是在哪個系統做吧? windows or linux
11/01 00:19

11/01 00:26,
推樓上XD
11/01 00:26

11/01 02:21,
應該是windows吧,cmd下unicode會是亂碼沒錯
11/01 02:21
不好意思忘記講 我是用windows XP python 2.5

11/01 03:47,
我猜是text editor的關係
11/01 03:47
我是用notepad++ 請問text editor如何影響這部份呢?

11/01 10:40,
先encode成latin再decode成cp950試試看
11/01 10:40
不行耶 用latin去encode會失敗 ※ 編輯: poopoo888888 來自: 218.166.198.127 (11/01 19:24)

11/01 21:57,
我用WINDOW7 Python2.5.4 urllib2 在cmd下正常 idle下亂碼
11/01 21:57

11/01 21:58,
可是decode("big5","ignore") 就可以了 你要不要試試?
11/01 21:58

11/01 22:10,
再問一下 是只要是中文都亂碼??
11/01 22:10
很謝謝你 但出來還是亂碼耶 只有抓這個網頁是亂碼 其他地方的中文都沒問題 ※ 編輯: poopoo888888 來自: 61.231.27.37 (11/02 19:10) -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.112.63.202
文章代碼(AID): #1EiJs_9g (Python)
文章代碼(AID): #1EiJs_9g (Python)