[問題] 中文字內容的utf-8編碼xml檔之處理已刪文

看板Python作者kino818 (要運動)時間2年前 (2023/12/08 23:20)推噓0(0推 0噓 5→)

留言5則, 2人參與討論串1/2 (看更多)

各位大大晚安有一個cd_catalog.xml檔案(以utf-8編碼)如下 <CATALOG> <CD> <ARTIST>周杰&#x502b</ARTIST> </CD> </CATALOG> 上面是某設備的輸出檔案cd_catalog.xml(以utf-8編碼) 以Windows 10的筆記本notepad打開，看到是上面unicode編碼方式我不知道第一個字元&#x5468，為何不是\u5468的unicode編碼表示方式? 上面unicode編碼處是下面的"周杰倫" <CATALOG> <CD> <ARTIST>周杰倫</ARTIST> </CD> </CATALOG> 有讀過python的xml處理的書也問過bing copilot(chatGPT) 還是不了解用筆記本打開cd_catalog.xml是上面第一種編碼方式，如何用python程式碼 Windows notepad打開可轉成上面第二種中文字顯示的unicode檔 decoded_string = bytes(unicode_string, "utf-8").decode("unicode_escape") 除此之外，上面程式碼也不了解再請各位大大指引方向，我再去看相關資料謝謝大大 ----------------------------------------------------------------------- 補充下面Python執行結果: s=u'中文字串' print(type(s)) <class 'str'> print(s.encode('utf8')) b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe4\xb8\xb2' print(s.encode('utf8').decode('utf8')) 中文字串 s2='中文字串' print(type(s2)) <class 'str'> print(s2.encode('utf8')) b'\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe4\xb8\xb2' print(s2.encode('utf8').decode('utf8')) 中文字串 ----------------------------------------------------------------------- 最後遭遇問題是,上面是unicode string '中文字串'的'中'轉成\xe4\xb8\xad 但'中'的xml unicode是&#xe4b8 之類的不曉得有無xml encode()函數,可進行上面的轉換?? -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 36.230.92.107 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Python/M.1702048816.A.DCB.html