[問題] 中文字內容的utf-8編碼xml檔之處理
各位大大 晚安
有一個cd_catalog.xml檔案(以utf-8編碼)如下
<CATALOG>
<CD>
<ARTIST>周杰倫</ARTIST>
</CD>
</CATALOG>
上面是某設備的輸出檔案cd_catalog.xml(以utf-8編碼)
以Windows 10的筆記本notepad打開,看到是上面unicode編碼方式
我不知道第一個字元周,為何不是\u5468的unicode編碼表示方式?
上面unicode編碼處是下面的"周杰倫"
<CATALOG>
<CD>
<ARTIST>周杰倫</ARTIST>
</CD>
</CATALOG>
有讀過python的xml處理的書
也問過bing copilot(chatGPT)
還是不了解用筆記本打開cd_catalog.xml是上面第一種編碼方式,如何用python程式碼
Windows notepad打開可轉成上面第二種中文字顯示的unicode檔
decoded_string = bytes(unicode_string, "utf-8").decode("unicode_escape")
除此之外,上面程式碼也不了解
再請各位大大指引方向,我再去看相關資料
謝謝大大
-----------------------------------------------------------------------
補充下面Python執行結果:
s=u'中文字串'
print(type(s))
<class 'str'>
print(s.encode('utf8'))
b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe4\xb8\xb2'
print(s.encode('utf8').decode('utf8'))
中文字串
s2='中文字串'
print(type(s2))
<class 'str'>
print(s2.encode('utf8'))
b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe4\xb8\xb2'
print(s2.encode('utf8').decode('utf8'))
中文字串
-----------------------------------------------------------------------
最後遭遇問題是,上面是unicode string '中文字串'的'中'轉成\xe4\xb8\xad
但'中'的xml unicode是 之類的
不曉得有無xml encode()函數,可進行上面的轉換??
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.92.107 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Python/M.1702048816.A.DCB.html
→
12/08 23:36,
11月前
, 1F
12/08 23:36, 1F
→
12/09 11:06,
11月前
, 2F
12/09 11:06, 2F
※ 編輯: kino818 (36.230.92.107 臺灣), 12/09/2023 11:34:07
→
12/09 15:23,
11月前
, 3F
12/09 15:23, 3F
→
12/09 15:23,
11月前
, 4F
12/09 15:23, 4F
→
12/09 15:23,
11月前
, 5F
12/09 15:23, 5F
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
Python 近期熱門文章
PTT數位生活區 即時熱門文章