[問題] Unicode到底該怎麼玩= ="

看板Programming作者 (Victor)時間18年前 (2007/02/07 23:09), 編輯推噓1(100)
留言1則, 1人參與, 最新討論串1/5 (看更多)
最近在寫網路爬蟲,遇到了不少問題= =" 編碼就是一個很大的問題..... 爬蟲會遇到各種不同編碼的網頁... 硬生生地吞進去肯定會消化不良 還得讓它看清楚什麼東西再吃 老實說...寫程式那麼久以來 從來沒寫過Unicode的程式 感覺上....Unicode好像很複雜的樣子 什麼字面什麼鬼的一大堆 然後呢...名稱又百百種 搞得我不知道什麼東西是什麼東西 接著,寫Unicode的東西好像要架構在一些莫明奇妙的函式庫上面 也不知道它怎麼轉的 然後隨便一個處理字串的函式 似乎要花很大的時間跟他奮戰 = =|| 總覺得很不安的感覺 跟ASCII那幾個字而已不一樣 orz... 所以....unicode到底該怎麼玩阿? 轉碼應該要有個對照表吧? 那對照表要去哪裡生? 轉又是怎麼個轉法? 有沒有介紹Unicode programming的書? 還是有什麼比較據體的東西可以參考嗎? ------------------------------------------------- 順代一提 我的爬蟲在測試時不小心吃到有笨蛋在留言版網址列打中文生出來的連結 XD 結果又遇到我自己寫的轉小寫函式... 不小心把中文的一個字元轉成小寫 = =|| (抱怨一下... 大小寫轉換那麼常用 C++標準就是不提供 (/‵Д′)/~ ╧╧ 還好Boost裡面好像有 有沒有人用過?不知道會不會像我那個一樣吃到中文) MySQL因為沒設定網址的字集,結果也消化不良 吐出來 告訴我字集有問題 不過我發現一件有趣的事,就是在FireFox指著中文連結會出現一串怪怪的編碼 我起初還以為是那個被錯編成亂碼,直到我想起一件事 就是中文網址,似乎有個標準,可以將中文 (或其它語言?) 轉換成特定形式的編碼,換算成正統的domain name 那個的編碼方式要去哪裡找? 我覺得還蠻有趣的 XDDD 只是......看那個樣子= =|| 那種中文網址應該是冷門到哭出來 XDDDD 隨便打個最常用的中文字 + .com做網址都是廣告頁面 XDDD 真是可憐..... 當初投資的人應該會哭死 XDDD -- VICTOR工作室 | PTT遊戲設計版隆重開幕! | 不管是新手老手,程式美工音樂企劃.... URL : http://www.kinmen.info/vic/ | 都歡迎來遊戲設計版參與討論 XD | 戰略高手> C/C++ | GameTopics> Visual Basic 6.0 | GameDesign -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 59.116.64.97

02/08 02:09, , 1F
可以參考看看PHP的mbstring lib source
02/08 02:09, 1F
文章代碼(AID): #15oUl1SW (Programming)
文章代碼(AID): #15oUl1SW (Programming)