[請益]請問如何將HTML裡面的Unicode Decimal轉 …

看板Perl作者 (WM)時間17年前 (2008/02/09 01:35), 編輯推噓1(101)
留言2則, 2人參與, 最新討論串1/1
請問各位板上的先進高手, 我想要抓取一個Big5編碼HTML裡面的資料, 可是裡面有很多Unicode字元使用了Decimal的方法來表示, 像是這樣: 葉 我目前是先用系統裡面的iconv把它轉成UTf-8的格式, system("iconv -f big5 -t UTF-8 file1 > file2"); 這時候裡面那些葉的Unicode還沒有變動, 然後用HTML::TreeBuilder跟HTML::Element去處理, 也有use Encode; use utf8; 把抓到的資料print出來以後, 很神奇的發現那些Unicode Decimal有些被轉回正確的日文假名了, 但是有些卻變成了亂碼, 想請問各位,有沒有什麼方法能把檔案內的所有葉這類的Unicode, 轉回UTF-8格式的字元? 我想這樣再丟給HTML::TreeBuilder應該就不會出問題了Orz -- ▄▄A WM Should Not Know Anger, ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄ Nor Hatred,▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ ▄▄▄▄▄▄▄▄▄▄▄Nor Love. ▄▄▄▄▄▄▄▄▄▄▄▄ My home: ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ http://kidwm.net/ ▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄▄ -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.113.244.94 ※ 編輯: WandererM 來自: 140.113.244.94 (02/09 01:37)

02/09 16:24, , 1F
HTML::Entities
02/09 16:24, 1F

02/09 22:39, , 2F
感謝in2姐姐的回答XD
02/09 22:39, 2F
文章代碼(AID): #17h9BZ8O (Perl)
文章代碼(AID): #17h9BZ8O (Perl)