[問題] 如何把字母轉換成 ascii values

看板Python作者 (huggie)時間17年前 (2008/05/05 19:43), 編輯推噓9(9023)
留言32則, 6人參與, 最新討論串1/2 (看更多)
我有一些 utf-8 資料,我想要知道某個字元是否是英文字母 (而非中文字), 要如何做最好?我想過要轉成 ascii code 再比大小,結果不知道怎麼轉。 現在我的作法就是去看現在這個字元是否是 string.ascii_letters 的子字串。 這樣會不會太笨了點... -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.129.160.62

05/05 20:28, , 1F
用regular expression ?
05/05 20:28, 1F

05/05 21:38, , 2F
如果懶得爬文的話,等我 blog 好後再通知你去看 :p
05/05 21:38, 2F

05/05 22:23, , 3F
ord 或直接比
05/05 22:23, 3F

05/05 23:24, , 4F
剛剛試了一下,的確直接比就可以了 :)
05/05 23:24, 4F

05/05 23:26, , 5F
另外英文字母的unicode剛好跟Ascii是一樣的,雖byte數不同
05/05 23:26, 5F

05/08 09:18, , 6F
ntf-8 跟 ascii 在 ascii 部份 byte 數應該是一樣的吧
05/08 09:18, 6F

05/08 09:19, , 7F
我爬文爬不到.. 現在這樣比要比很多字母.效率應該不高
05/08 09:19, 7F

05/08 09:20, , 8F
轉成unsigned-int比大小我以為會比較快..
05/08 09:20, 8F

05/12 20:56, , 9F
Python 的 Unicode 字元應該不是用 utf8 來存...
05/12 20:56, 9F

05/13 08:15, , 10F
我讀檔的檔案是 utf-8 所以..有人知道怎麼轉了沒有
05/13 08:15, 10F

05/13 08:59, , 11F
string.isalpha()
05/13 08:59, 11F

05/13 09:00, , 12F
libref 就有解答了
05/13 09:00, 12F

05/13 09:00, , 13F
如果問題是在不知道怎麼轉 UTF-8 -> Unicode
05/13 09:00, 13F

05/13 09:01, , 14F
則洽 string.decode/string.encode
05/13 09:01, 14F

05/13 09:05, , 15F
不是..問題是想要知道是否是英文字或者是中文字
05/13 09:05, 15F

05/13 09:05, , 16F
不需要轉
05/13 09:05, 16F

05/13 09:10, , 17F
isalpha()可以區分數字還是中文字嗎?
05/13 09:10, 17F

05/13 09:12, , 18F
islapha() 中文字如果是 false 就跟數字分不開
05/13 09:12, 18F

05/13 09:12, , 19F
如果是 True 就跟英文字分不開..
05/13 09:12, 19F

05/13 09:13, , 20F
我需要把英文逗點/句號給改成中文逗點/句號,因此需要判斷
05/13 09:13, 20F

05/13 09:13, , 21F
前面一個字元是中文字還是英文字。
05/13 09:13, 21F

05/13 09:22, , 22F
喔我找到二樓講的ord了..囧..好像就是我要的
05/13 09:22, 22F

05/13 09:22, , 23F
ord()
05/13 09:22, 23F

05/13 09:23, , 24F

05/13 09:23, , 25F
Unicode code point of the character 是什麼意思?
05/13 09:23, 25F

05/13 23:53, , 26F
前面有 unicode 討論串,請爬文...
05/13 23:53, 26F

05/14 00:17, , 27F
把 utf-8 轉成 unicode 後,再來處理,會簡單很多
05/14 00:17, 27F

05/14 00:51, , 28F
為什麼 utf-8 不是 unicode???
05/14 00:51, 28F

05/14 03:23, , 29F
視 unicode 的定義而定;utf-8 是一種外碼
05/14 03:23, 29F

05/14 03:24, , 30F
不過 Python 的 unicode 物件存 code point,不用外碼
05/14 03:24, 30F

05/14 03:25, , 31F
如果你說 utf-8 是否為 unicode 的一種編碼?是
05/14 03:25, 31F

05/14 03:25, , 32F
但對 Python unicode 物件來說,並不是這麼回事
05/14 03:25, 32F
文章代碼(AID): #187lBkmf (Python)
文章代碼(AID): #187lBkmf (Python)