[轉錄]Re: 有關 PTT 是否能輸入韓文的問題

看板Programming作者 (TINNMINN/RBSAUD)時間17年前 (2008/02/29 06:58), 編輯推噓1(1054)
留言55則, 2人參與, 最新討論串5/6 (看更多)
※ [本文轉錄自 HANGUKMAL 看板] 作者: but (←殺千刀的UAO始作俑者) 看板: HANGUKMAL 標題: Re: 有關 PTT 是否能輸入韓文的問題 時間: Thu Feb 28 10:28:04 2008 : 不過,BIG-5 的推出相當倉促,很多重要的問題完全沒有考量到 : 例如:沒有包含日文假名、沒有包含簡體字、沒有包含許多人名用字等等 連台灣的地名用字都狂缺 日本制定JIS一、二水準時經過全國地理用字普查 BIG-5因為是民間製作,只能拿教育部公佈常用、次常用字集參考 偏偏這兩套字也是在辦公室裡做出來的理想標準 並不是實務用字範圍 : 造成 Windows 系統上的 BIG-5 是無法處理日文、俄文等等文字碼 : 這個問題,到了 Windows XP 甚至是 Vista 也仍然沒有解決 即使Big5-2003公佈了 微軟還是不想理 不像中國有法令強制作業系統編碼必須合乎國家標準 其實長痛不如短痛 我覺得Windows的ANSI狀態實在該改用UTF-8...... 就是不知道Windows為什麼一直要用Big5 才讓事情一直無法解決 : 這個東西就是 Unicode 補完計畫,它的原理很簡單,就是去修改對照表 : 把原本微軟沒有放進去的日文假名的轉換部分把它加上,這樣 BIG-5 就多了日文了 : 而後,這些搞 Unicode 補完計畫的人食髓知味,把腦筋又動到了簡體字頭上 這就是內部每個人主張不同了 本來是只有一個始作俑者,只想做日文假名 雖然並不常有加入簡體字的需求 但許多人都在問能不能加入日本國字 (無中文對應的日本漢字) 以及喆、堃之類的漢字 後來加入中文化聯盟後,每個人都有自己想法 有人主動就試作中國海字集版 一起解決漢字問題 反正那個年代中國海字集還滿多人用,討論後想想也好,就這樣公開了 接下來因為太多單向對應的字,在檔案系統造成很多難懂的現象 所以討論決定減少單向對應 清點了以後,發現GB2312範圍、SJIS範圍內的漢字,已經只剩幾百字了 索性就全部對應下去 做到 GB2312、SJIS、Big5-HKSCS 漢字部份全面一對一對應 : BIG-5 裡面有留一些區域,稱為「使用者造字區」,可以讓人自行造字來用 本來造字區約 6000 字 到這個階段已經剩下不到 1000 字了 : 你現在應該可以想到,PTT 使用的是 BIG-5 編碼,為何你可以看到假名和簡體字? : 沒錯,就是 Unicode 補完計畫作祟!什麼?你說沒裝過 Unicode 補完計畫? : 事實上,許多 BBS 連線軟體,例如 Open PCMan、PieTTY 等,直接內建了補完計畫 PTT 的 UTF-8 模式也是使用補完計畫的 table 在轉 (就是登入時加個 . 那種) PTT 的資料還是都存成 Big5 所以就算用 UTF-8 模式登入 PTT 在補完計畫裡沒有對應碼位的字仍無法正常儲存 : 方案一:要求 Unicode 補完計畫加入韓文的對應 : 韓文很科學,只有 24 個字母,可惜它的編碼一點也不科學 雖然聽說常用韓字只有2600個 但 Unicode 1.0 就收了 6000 個韓字 在惡名昭彰的韓字大移動後 Unicode 2.0 整整收了 11172 個完整排列組合 日本JIS跟大陸GB2312收的漢字還沒有這些韓字多 只有Big5 13060字有給他比較多一點 : 簡單的排列組合可以算算,韓文需要的碼很是驚人 : 少說五六千個碼位是跑不掉的 : 但是呢,BIG-5 使用者造字區的位置有限 : 加上一堆簡體字和日本國字已經佔掉很多的位置了 : 目前看來,剩下的碼位要能容納可能使用到的韓文字是不大可能了 以目前剩餘1000字不足來說,這顯然是收不完 : 而且,要進行韓文對應的工作,可能也要許多熟悉韓文的人來參與 : 再者,改完編碼之後,還得要更新 PCMan 等程式的內建對照表 : 這,不能不說是一個大工程 如果只要放入 U+1100~U+11FF 的 Hangul Jamo 是有可能 不過UAO 2.5穩定版已經維持多年 現在改版還有多少人願意採用也是問題 尤其是 Firefox 這種改表格又要大費周章提案的..... : 方案二:放棄 BIG-5,全面改用 UTF-8 (Unicode 衍生出的一種編碼) : 這是一勞永逸的方法,Unicode 本來就有包括中日韓文 : 不過,需要做二件事情才能辦到 : 第一、PTT 要修改程式,全面改用 UTF-8 進行儲存和傳輸 : 第二、所有的 PTT 使用者要改用全新的能夠支援 UTF-8 的連線程式 : 第一點可能 PTT 有能力辦到,第二點看起來是個不可能的任務 不然就讓資料存 UTF-8 碰到 ANSI client 時用補完字碼表去轉 Big5 了 如果 PTT 願意的話XD -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.132.164.65 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 221.169.215.127

02/29 07:02, , 1F
雖然我不太懂..可是由文章看來..客滿了
02/29 07:02, 1F

02/29 07:03, , 2F
改ptt,改windows 又不知道要等多久...
02/29 07:03, 2F

02/29 07:08, , 3F
windows 早就是utf-8在跑了啊, 又不是95
02/29 07:08, 3F

02/29 07:09, , 4F
再說, unicode也早就將中日韓漢字統一了
02/29 07:09, 4F

02/29 07:20, , 5F
我不太懂了..只希望有人能幫忙...
02/29 07:20, 5F

02/29 07:20, , 6F
希望能協助albyu移植windows的版本..
02/29 07:20, 6F

02/29 07:42, , 7F
很抱歉技術細節我都不太懂..
02/29 07:42, 7F

02/29 07:43, , 8F
我只是系統面能用就很感激不盡了..
02/29 07:43, 8F

02/29 08:12, , 9F
No solution, 上面已經講得很清楚了.
02/29 08:12, 9F

02/29 08:20, , 10F
只要能夠輸入韓文.同時顯示中韓文的就可
02/29 08:20, 10F

02/29 08:23, , 11F
pietty可以做到輸入韓文顯示韓文..
02/29 08:23, 11F

02/29 08:24, , 12F
只是不能同時顯示韓文跟中文..
02/29 08:24, 12F

02/29 08:25, , 13F
我想技術上應該是有方案的..
02/29 08:25, 13F

02/29 08:28, , 14F
我只是使用者通通不懂.對何種方案沒有偏好
02/29 08:28, 14F

02/29 08:35, , 15F
由各種文章顯示..表格是比較好的做法..
02/29 08:35, 15F

02/29 08:36, , 16F
但是已經客滿了..所以不可行...
02/29 08:36, 16F

02/29 08:37, , 17F
那區塊顯示目前看起來應該還是可以..
02/29 08:37, 17F

02/29 08:38, , 18F
我的原意是如此.希望大家能幫忙第二條路..
02/29 08:38, 18F

02/29 08:39, , 19F
若因為我沒說明清楚..若造成您誤解.
02/29 08:39, 19F

02/29 08:40, , 20F
實在很抱歉.
02/29 08:40, 20F

02/29 14:38, , 21F
看來你沒看懂上文的意思, 簡單的講就是
02/29 14:38, 21F

02/29 14:39, , 22F
要套中文造字區, 現在所剩不足韓文用了
02/29 14:39, 22F

02/29 14:39, , 23F
要全面用unicode, 但ptt又只存big5
02/29 14:39, 23F

02/29 14:40, , 24F
故, 沒招<==得證
02/29 14:40, 24F

02/29 16:07, , 25F
上面我已看懂.現在albyu的方向是另一種
02/29 16:07, 25F

02/29 16:08, , 26F
你應該仔細看看我轉的第一篇
02/29 16:08, 26F

02/29 16:08, , 27F
使用者才不管用啥方式..能打能看就是好貓
02/29 16:08, 27F

02/29 16:11, , 28F
也就是使用者要的是能再bbs上同時看到韓文
02/29 16:11, 28F

02/29 16:12, , 29F
與中文.至於用什麼方式就超出使用者的能力
02/29 16:12, 29F

02/29 16:12, , 30F
看來你們不懂本文作者的講法, 重點不在
02/29 16:12, 30F

02/29 16:13, , 31F
於client 能否顯示, 問題是在於ptt 的存
02/29 16:13, 31F

02/29 16:13, , 32F
檔方式, 例如, 現在只剩一千字給韓文
02/29 16:13, 32F

02/29 16:14, , 33F
我已經講懂了啊....
02/29 16:14, 33F

02/29 16:14, , 34F
另外一千字呢? 必定會跟其它造字區的字
02/29 16:14, 34F

02/29 16:15, , 35F
重疊
02/29 16:15, 35F

02/29 16:15, , 36F
你注意看我轉這篇不是請求要再已塞暴的表
02/29 16:15, 36F

02/29 16:16, , 37F
格中多塞東西...請你連著幾篇看好吧
02/29 16:16, 37F

02/29 16:17, , 38F
如果像albyu的做法, 用escape tag 來處
02/29 16:17, 38F

02/29 16:18, , 39F
理, 不過要選好escape tag
02/29 16:18, 39F

02/29 16:19, , 40F
對啊...我的意思為此..這裡高手多...
02/29 16:19, 40F

02/29 16:19, , 41F
至於輸入韓文一事, 只要改成unicode
02/29 16:19, 41F

02/29 16:19, , 42F
一定會有利害的人可以給albyu關於tag規劃
02/29 16:19, 42F

02/29 16:20, , 43F
的意見..
02/29 16:20, 43F

02/29 16:20, , 44F
輸入就好了, 吃unicode, 再自行mapping
02/29 16:20, 44F

02/29 16:24, , 45F
話說回來這個問題有點像硬體上記憶體空間
02/29 16:24, 45F

02/29 16:25, , 46F
的處理..
02/29 16:25, 46F

02/29 16:26, , 47F
留一些記憶體位置來做分頁.就可以存取
02/29 16:26, 47F

02/29 16:27, , 48F
高過直接存取的範圍..表格我想也可以同樣
02/29 16:27, 48F

02/29 16:28, , 49F
只不過這樣要大家有取得共識恐怕很難.
02/29 16:28, 49F

02/29 16:31, , 50F
tag的方式雖然不是最佳法..但是我覺得維持
02/29 16:31, 50F

02/29 16:32, , 51F
與舊有bbs的相容性是很大的優點...
02/29 16:32, 51F

02/29 17:06, , 52F
hint: iso8859-1 處理中文字的方式
02/29 17:06, 52F

02/29 19:25, , 53F
希望有空閒的人可以去HANGUKMAL看看
02/29 19:25, 53F

02/29 19:26, , 54F
最新的進展..一直轉文可能很佔版面
02/29 19:26, 54F

02/29 19:27, , 55F
在此先謝謝大家喔..
02/29 19:27, 55F
文章代碼(AID): #17npo6Au (Programming)
文章代碼(AID): #17npo6Au (Programming)