PTT數位生活區 / Python

[問題] 爬蟲抓下資料Decoding問題

看板Python作者atedps (苦哈哈)時間10年前 (2015/12/13 14:48)推噓1(1推 0噓 4→)

留言5則, 2人參與討論串1/2 (看更多)

大家好,鍵盤小弟最近因為研究需求需要北捷各站點間通勤時間的資料，而台北市政府的Open Data好像也沒有找到這方面的資料。因此想說自己寫了一隻爬蟲去抓這些資料，但抓下來的資料在中文站名的部分總會變成亂碼，我大概知道這是Encoding或Decoding 相關的問題，但是礙於自己這方面知識沒有很充足，所以昨天 Google了很久還是找不到答案，因此決定來問問版上的大大們。我是使用最基本的方式用request抓下html檔案後再用BeautifulSoup去分析，但取出來的中文text會變成一個unicode的type的物件如u'\xe5\x8d\x97\xe4\xba\xac\xe5\xbe\xa9\xe8\x88\x88' 但如果我手動把這個物件引號部分的資料複製出來當作一個字串再用utf8去decode的話就可以順利跑出中文字。如: tex = '\xe5\x8d\x97\xe4\xba\xac\xe5\xbe\xa9\xe8\x88\x88' msg = tex.decode('utf8') print msg 南京復興因此我想問的是，有沒有什麼方式是可以把我原本unicode物件裡面引號的部分取出來的，因為我也不可能每次都用手動去複製貼上ＱＱ。或者是有沒有辦法讓我一開始抓下來的中文字不要變成unicode物件，而直接是一個單純字串。我試過str()的方式，裡面的文字會變成另外一個編碼，造成decode出來跟原本的文字會不一樣先感謝各位了 >_< -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 180.176.98.254 ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1449989317.A.555.html

推

12/13 16:29, , 1^F

12/13 16:29, 1^F

→

12/13 16:29, , 2^F

12/13 16:29, 2^F

→

12/13 16:29, , 3^F

12/13 16:29, 3^F

→

12/13 16:29, , 4^F

12/13 16:29, 4^F

→

12/13 16:30, , 5^F

12/13 16:30, 5^F

‣ 返回看板[ Python ] 程設

‣ 更多 atedps 的文章

文章代碼(AID): #1MRHJ5LL (Python)

討論串 (同標題文章)

以下文章回應了本文：

7

9

Re: [問題] 爬蟲抓下資料Decoding問題

10年前, 12/13

完整討論串 (本文為第 1 之 2 篇)：

排序：最新先 | 最舊先 | 留言數

7

9

Re: [問題] 爬蟲抓下資料Decoding問題

10年前, 12/13

1

5

[問題] 爬蟲抓下資料Decoding問題

10年前, 12/13

在新視窗開啟完整討論串 (共2篇)

Python 近期熱門文章

3

13

[問題] vscode的debug模式不用考慮中文路徑

1周前, 02/01

1

1

[問題] python 3.14 free thread build

3月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

3月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

4月前, 10/09

4

21

[閒聊] Python 3.13 版本是不是很爛啊！？

7月前, 07/19

15

23

[閒聊] 各位現在用os.path 還是用pathlib.Path

7月前, 07/17

6

11

[閒聊] 2024年的自我python學習

7月前, 07/17

1

2

[問題] 用Whisper AI幫我下載字幕（有酬）

10月前, 04/01

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

2

12

[請益] XV272U V3 螢幕支架選購

[ PC_Shopping ]

17小時前, 02/14

9

54

[討論] 沒有播放器如何去耳機店試聽有線耳機？

20小時前, 02/13

5

6

[情報] Bluesky Frame Rate Converter 5.1.0

[ PC_Shopping ]

22小時前, 02/13

7

17

[新聞] 新 Siri 開發遇困難部份功能或延至iOS 26.5 及 iOS 27 發佈

23小時前, 02/13

20

47

[閒聊] 想找找設計比較特別的機殼

[ PC_Shopping ]

23小時前, 02/13

4

8

[情報] 有便宜的Mytek Manhattan ii出清

1天前, 02/13

3

17

[討論] 三創看手機後的感想

1天前, 02/13

6

16

[光纖] 網路卡卡，想了解可能的原因

1天前, 02/13

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 atedps 的文章

文章代碼(AID): #1MRHJ5LL (Python)