[問題] unicode->bytes->unicode的編碼

看板Python作者os653 (allstar)時間12年前 (2013/09/26 00:00)推噓6(6推 0噓 17→)

留言23則, 3人參與討論串1/1

想讓 python2 跟 python3 的程式交換資料，但在 unicode 這部分遇到點麻煩請問有沒有 codec 能符合下列條件？ 1. 能將字元範圍從 \u0000 ~ \uFFFF 的 unicode 字串轉成 bytes 再轉回 unicode 且不會出錯或遺失資料 2. 在 python2 和 python3 下，同樣的 unicode 字串編碼後得到的 bytes 結果相同 3. 在 python2 和 python3 下，同樣的 bytes 解碼後得到的 unicode 結果相同 4. 速度快且編碼後的 bytes 體積小舉例來說，u'\ud800\udc00' 這段字串因為不是合法的 unicode 編解碼上就會出現各種奇怪的問題，不曉得有沒有解？ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 114.46.145.28

推

AstralBrain

09/26 00:27, , 1^F

09/26 00:27, 1^F

utf32 不行耶... python2 >>> u'\ud800\udc00'.encode('utf32') '\xff\xfe\x00\x00\x00\x00\x01\x00' python3 >>> u'\ud800\udc00'.encode('utf32') b'\xff\xfe\x00\x00\x00\xd8\x00\x00\x00\xdc\x00\x00'

推

AstralBrain

09/26 00:45, , 2^F

09/26 00:45, 2^F

應該是字元寬度的關係，windows python2 預設 ucs2，python3 則是 ucs4

推

AstralBrain

09/26 00:49, , 3^F

09/26 00:49, 3^F

→

uranusjr

09/26 00:51, , 4^F

09/26 00:51, 4^F

→

uranusjr

09/26 00:55, , 5^F

09/26 00:55, 5^F

推

AstralBrain

09/26 00:56, , 6^F

09/26 00:56, 6^F

→

AstralBrain

09/26 00:57, , 7^F

09/26 00:57, 7^F

所以很難搞...基本上那轉換結果也不能說錯，可是就會出現 s.encode('utf-8').decode('utf-8') != s 這種不直覺的東西

→

uranusjr

09/26 00:58, , 8^F

09/26 00:58, 8^F

→

uranusjr

09/26 01:00, , 9^F

09/26 01:00, 9^F

土炮有效能問題，自從用了 python，就再也沒再裝過 c++ 了 XD 目前是 utf-7 頂著用，他們似乎不認為 utf-7 編的是文字所以沒擋 surrogate 不過遇到像上面舉的那個例子一樣會爆炸 orz...

推

AstralBrain

09/26 01:12, , 10^F

09/26 01:12, 10^F

→

AstralBrain

09/26 01:12, , 11^F

09/26 01:12, 11^F

這個一樣有可能會出現不直覺的結果 python3 >>> s = u'\ud800\udc00' >>> s.encode('unicode_internal') b'\x00\xd8\x00\xdc' >>> s.encode('unicode_internal').decode('unicode_internal') '\U00010000\x27' >>> s.encode('unicode_internal').decode('unicode_internal') == s False

推

AstralBrain

09/26 01:31, , 12^F

09/26 01:31, 12^F

其實跟 OS 沒啥關係啦...

→

uranusjr

09/26 10:49, , 13^F

09/26 10:49, 13^F

→

uranusjr

09/26 10:50, , 14^F