[請益]請問如何將HTML裡面的Unicode Decimal轉 …
請問各位板上的先進高手,
我想要抓取一個Big5編碼HTML裡面的資料,
可是裡面有很多Unicode字元使用了Decimal的方法來表示,
像是這樣: 葉
我目前是先用系統裡面的iconv把它轉成UTf-8的格式,
system("iconv -f big5 -t UTF-8 file1 > file2");
這時候裡面那些葉的Unicode還沒有變動,
然後用HTML::TreeBuilder跟HTML::Element去處理,
也有use Encode; use utf8;
把抓到的資料print出來以後,
很神奇的發現那些Unicode Decimal有些被轉回正確的日文假名了,
但是有些卻變成了亂碼,
想請問各位,有沒有什麼方法能把檔案內的所有葉這類的Unicode,
轉回UTF-8格式的字元?
我想這樣再丟給HTML::TreeBuilder應該就不會出問題了Orz
--
▄▄A WM Should Not Know Anger, ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄▄▄▄▄▄▄▄▄ Nor Hatred,▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄▄▄▄▄▄▄▄▄▄▄Nor Love. ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄ My home: ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
▄ http://kidwm.net/ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.113.244.94
※ 編輯: WandererM 來自: 140.113.244.94 (02/09 01:37)
推
02/09 16:24, , 1F
02/09 16:24, 1F
→
02/09 22:39, , 2F
02/09 22:39, 2F
Perl 近期熱門文章
PTT數位生活區 即時熱門文章