PTT數位生活區 / Python

Re: [問題] xml 編碼問題

看板Python作者Reylod (Reylod)時間14年前 (2012/08/07 22:54)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串1/1

這是HTML escape sequence 使用HTMLParser來解碼 from HTMLParser import HTMLParser hp = HTMLParser() s = hp.unescape('Hélène') ※ 引述《sandwichC (沒回應=掛站)》之銘言： : 我想 parse 一個 xml 檔，該檔的編碼方式未知 : 該檔中有這樣的文字： : Hélène : 它代表的是：Helene : 其中第一個e上面有右上到左下的斜線，第二個e上面是左上到右下的斜線 : 也就是說，é 和 è 分別代表兩個特別的字元 : 用以下命令得知我的 terminal 輸出是 utf8 : $ echo $LANG : en_US.UTF-8 : 我在 Python 試過下面的方式但都印不出正確的字元 : > n = 'Hélène' : > print n.decode('iso-8859-1') : Hélène : > print n.decode('iso-8859-1').encode('utf8') : Hélène : 請問，讀入這個字串後，該怎麼在螢幕上印出正確的字元呢？ : 謝謝 : ---- : UPDATE: : 我發現把 é 換成 \xe9， è 換成 \xe8後，可正確輸出 : > n = 'H\xe9l\xe8ne' : > print n.decode('iso-8859-1').encode('utf8') : Helene : 第一個和第二個 e 的上面有正確顯示斜線 : 這意思是我要自己 prase string 把 &#x???; 代換成 \x?? 嗎 : 感覺應該有更好的解法吧…？ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 123.205.239.47

推

08/07 23:29, , 1^F

08/07 23:29, 1^F

‣ 返回看板[ Python ] 程設

‣ 更多 Reylod 的文章

文章代碼(AID): #1G8Im_IK (Python)

Python 近期熱門文章

2

11

[問題] openpyxl到底能不能調整全局Font？

1月前, 05/07

7

21

[問題] super() 與MRO 鏈斷裂問題

3月前, 02/24

3

13

[問題] vscode的debug模式不用考慮中文路徑

4月前, 02/01

1

15

[問題] skimage.io.imread()讀圖檔底色是黃色？

5月前, 12/28

2

4

[閒聊] 有人要合購股票pythony資料庫finlab嗎?

5月前, 12/23

1

1

[問題] python 3.14 free thread build

7月前, 10/29

1

13

[問題] 關於正規表示法的r'\1'?

7月前, 10/22

6

9

[問題] 請問有人用過OMIA PLUS影音平台自學嗎?

8月前, 10/09

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

4

9

Re: [討論] 對岸已有測評被依網路規範要求道歉

20分鐘前, 06/15

28

66

[閒聊] 中國廠商用網路規範對測評博主大清算

[ PC_Shopping ]

5小時前, 06/15

21

98

[討論] 對岸已有測評被依網路規範要求道歉

5小時前, 06/15

5

14

Re: [討論] 手機評測跑分終究是圖一樂而已

8小時前, 06/15

1

22

[問題] 買二手機/福利品推薦網購還是實體店？

9小時前, 06/15

4

10

Re: [討論] 手機評測跑分終究是圖一樂而已

9小時前, 06/15

8

35

[問題] 選擇Sony A7R5 or A7M5?

10小時前, 06/14

3

6

[心得] Headamp cfa3 deluxe雜感

10小時前, 06/14

更多即時熱門文章 >>

‣ 返回看板[ Python ] 程設

‣ 更多 Reylod 的文章

文章代碼(AID): #1G8Im_IK (Python)