PTT數位生活區 / Python

[問題] 一個抓資料的問題

看板Python作者poopoo888888 (阿川)時間14年前 (2011/11/01 00:01)推噓3(3推 0噓 7→)

留言10則, 6人參與討論串1/4 (看更多)

我現正在抓一個網頁上的資料 http://service.moj.gov.tw/lawer/associList.asp?associName=%A5x%ABn%AB%DF%AEv%A4%BD%B7| 網頁有大量像這樣的原始碼 <td width='16%'><font size='4' face='標楷體' color='#000080'> <a href='data1.asp' onclick="javascript:event.returnValue=false;frmlist.name.value='尤挹華 ';frmlist.no.value='(81)臺檢證字第1951號 ';frmlist.foreigner.value='';frmlist.action=this.href;frmlist.submit();"'>尤挹華</a></font> </td> 我的目標是把其中的「(81)臺檢證字第1951號」給抓出來本以為用re會輕鬆解決　卻怎麼抓都是亂碼我的code如下 tags = BeautifulSoup(page).findAll('a') #page為網頁的source code for tag in tags: number = re.search("frmlist.no.value='(.+)';frmlist.foreigner.value", str(tag)).group(1) print number 在cmd下看到的都是亂碼無論用big5 utf-8 cp950去對number做decode或是encode都沒用想請問怎麼會這樣呢？是因為re無法處理中文嗎？煩請大大們解惑謝謝！ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 61.231.27.129

→

11/01 00:19, , 1^F

11/01 00:19, 1^F

推

11/01 00:26, , 2^F

11/01 00:26, 2^F

→

11/01 02:21, , 3^F

11/01 02:21, 3^F

不好意思忘記講我是用windows XP python 2.5

推

11/01 03:47, , 4^F

11/01 03:47, 4^F

我是用notepad++　請問text editor如何影響這部份呢？

推

11/01 10:40, , 5^F

11/01 10:40, 5^F

不行耶　用latin去encode會失敗 ※ 編輯: poopoo888888 來自: 218.166.198.127 (11/01 19:24)

→

11/01 21:57, , 6^F

11/01 21:57, 6^F

→

11/01 21:58, , 7^F

11/01 21:58, 7^F

→

11/01 22:10, , 8^F

11/01 22:10, 8^F

很謝謝你但出來還是亂碼耶只有抓這個網頁是亂碼其他地方的中文都沒問題 ※ 編輯: poopoo888888 來自: 61.231.27.37 (11/02 19:10)

→

11/03 05:00, , 9^F

11/03 05:00, 9^F

→

11/03 10:21, , 10^F

11/03 10:21, 10^F

‣ 返回看板[ Python ] 程設

‣ 更多 poopoo888888 的文章

文章代碼(AID): #1EhiPi9c (Python)

討論串 (同標題文章)

完整討論串 (本文為第 1 之 4 篇)：

排序：最新先 | 最舊先 | 留言數

0

1

Re: [問題] 一個抓資料的問題

14年前, 11/03

0

5

Re: [問題] 一個抓資料的問題

14年前, 11/03

Re: [問題] 一個抓資料的問題

14年前, 11/02

3

10

[問題] 一個抓資料的問題

14年前, 11/01

在新視窗開啟完整討論串 (共4篇)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

8

52

Re: [新聞] 不演了！極客灣踢爆中國手機全造假中共

3小時前, 06/14

6

19

[問題] 台哥大1399一定有手機

3小時前, 06/14

9

23

Re: [情報] Xiaomi 17T 系列首銷購機優惠整理

8小時前, 06/14

10

34

[請益] 請教關於舊電腦顯卡升級

[ PC_Shopping ]

10小時前, 06/13

4

35

[問題] 有人Air4也升級了27 Beta嗎

11小時前, 06/13

1

22

[菜單] 40K模擬器、輕度遊戲機

[ PC_Shopping ]

11小時前, 06/13

-8

53

Re: [新聞] 不演了！極客灣踢爆中國手機全造假中共

11小時前, 06/13

-2

17

[估價] DDR5 6000 CL30 金士頓雙參數16G*2

[ HardwareSale ]

11小時前, 06/13

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 poopoo888888 的文章

文章代碼(AID): #1EhiPi9c (Python)