PTT數位生活區 / Python

Re: [問題] 一個抓資料的問題

看板Python作者poopoo888888 (阿川)時間14年前 (2011/11/03 08:40)推噓0(0推 0噓 5→)

留言5則, 2人參與討論串3/4 (看更多)

: cmd是指黑底的嗎?? 黑底的應該比較容易正常說雖然都轉成unicode就沒事了 : 我測試直接urllib2抓網頁有下面的結果 : http://dl.dropbox.com/u/24628527/TEST.PNG

: 用unicode來看都還蠻正常的 ( 用str不正常就不提了... windows oooos) : 然後我也用了re (想學一直沒空我抄你的程式碼) 有以下的結果 : http://dl.dropbox.com/u/24628527/test2.PNG

: 當然在黑底的cmd也是沒問題 : 上面是在 windows xp : python 2.5.4 測試的 : 蠻好奇你怎麼抓不出來@_@a 謝謝各位大大的幫忙！我學KSJ大直接用re去處理fetch到的網頁原始碼甚至不需要decode就可以正確顯示那些中文字 response = urllib.urlopen(url) page = response.read() number = re.findall(u"frmlist.no.value='(.+)';frmlist.foreigner.value", page) for n in number: print n （其實這邊我滿疑惑的　我沒做decode　表示收到的是網頁原始的big5編碼資料　在windows XP用cp950編碼的cmd模式下為什麼可以正確顯示？）至於我用BeautifulSoup先parse再做re而遇到的問題　則出在這裡： page = response.read() u_page = page.decode('big5') tags = BeautifulSoup(u_page).findAll('a') 這樣decode時會出錯改成u_page = page.decode('big5', 'ignore')就可以了但我卻有了新的疑問為什麼要加上'ignore'參數？是叫它忽略掉看不懂的byte嗎又為什麼會有看不懂的byte呢　是因為big5看不懂某些中文字嗎？不好意思　新手上路　問題有點多謝謝大家 P.S. KSJ大　我找到一份不錯的學re資源跟您分享 http://www.diveintopython.net/regular_expressions/index.html -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 218.166.194.46 ※ 編輯: poopoo888888 來自: 218.166.194.46 (11/03 08:46)

→

11/03 10:22, , 1^F

11/03 10:22, 1^F

→

11/03 10:23, , 2^F

11/03 10:23, 2^F

→

11/03 10:23, , 3^F

11/03 10:23, 3^F

→

11/03 10:24, , 4^F

11/03 10:24, 4^F

→

11/03 13:25, , 5^F

11/03 13:25, 5^F

‣ 返回看板[ Python ] 程設

‣ 更多 poopoo888888 的文章

文章代碼(AID): #1EiUBw3A (Python)

討論串 (同標題文章)

本文引述了以下文章的的內容：

Re: [問題] 一個抓資料的問題

14年前, 11/02

以下文章回應了本文：

0

1

Re: [問題] 一個抓資料的問題

14年前, 11/03

完整討論串 (本文為第 3 之 4 篇)：

排序：最新先 | 最舊先 | 留言數

0

1

Re: [問題] 一個抓資料的問題

14年前, 11/03

0

5

Re: [問題] 一個抓資料的問題

14年前, 11/03

Re: [問題] 一個抓資料的問題

14年前, 11/02

3

10

[問題] 一個抓資料的問題

14年前, 11/01

在新視窗開啟完整討論串 (共4篇)

Python 近期熱門文章

1

1

[問題] python 3.14 free thread build

1周前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

2周前, 10/22

4

7

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

1月前, 10/09

4

21

[閒聊] Python 3.13 版本是不是很爛啊！？

3月前, 07/19

14

22

[閒聊] 各位現在用os.path 還是用pathlib.Path

3月前, 07/17

5

10

[閒聊] 2024年的自我python學習

3月前, 07/17

1

2

[問題] 用Whisper AI幫我下載字幕（有酬）

7月前, 04/01

1

3

[問題] selenium 有辦法做檔案上傳嗎?

9月前, 02/03

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

11

37

[情報] 京東 9800X3D 13024元 9700X 7063元

[ PC_Shopping ]

2小時前, 11/10

7

17

[問題] 這是被盜還是什麼?

4小時前, 11/10

5

9

[心得] 9070XT RCOm7 純Win環境AI跑圖心得後續-1

[ PC_Shopping ]

6小時前, 11/10

17

77

Re: [新聞] 4G吃到飽時代結束了，電信業者聯合下架？

8小時前, 11/10

13

23

[請益] ［菜單］看動畫的喇叭

[ PC_Shopping ]

9小時前, 11/10

7

22

Re: [閒聊] 老黃的鍋似乎不只12V爛接頭的問題

[ PC_Shopping ]

9小時前, 11/10

8

15

iphone14換pixel 9pro會有升級感嗎？

9小時前, 11/09

3

11

[請益] 求解想把xlr平衡線帶去公司用但沒孔可用

10小時前, 11/09

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 poopoo888888 的文章

文章代碼(AID): #1EiUBw3A (Python)