Re: [問題] 中文網頁的問題

看板Perl作者時間15年前 (2009/11/04 09:02), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串2/2 (看更多)
※ 引述《abcg5 (nothing)》之銘言: : 有點白癡的問題 : 就是我抓了中文wikipedia的網頁 (編碼 UTF8 : 但是print 在螢幕上就一直是亂碼 : 試了很多種編碼! : 目前效果最好 也應該是正確的是下面的轉碼方式 : encode("gb2312", decode("utf8", XXX)) ---- A : encode("big5", decode("utf8", XXX)) ---- B : 還是有些問題 : 主要是網頁是繁中簡中參半(html code才看得出來 : EX: : 假設網頁中有 : Wikipedia:免责声明 這兩個字串 : 免責聲明 : 分別使用A和B兩種方式 結果如下 : Wikipedia:轎孮汒隴 : 免責聲明 : 都使用B方式 : Wikipedia:免??明 : 免責聲明 : 只用A就不用說了...根本是失敗!! : 我已經知道抓到的資料哪些是簡中哪些是繁中 : 所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!! 試著使用 Encode::HanConvert 來作繁簡的轉換吧,假設您只是要做 漢字間的轉換。在輸出上可使用同一種編碼方式。不同大小的字元集 之間作轉換,就可能發生對應問題。 ==== han.pl ================================================ #!/usr/bin/perl -w # use strict; use warnings; use LWP::UserAgent; use Encode; use Encode::HanConvert; my $str = ""; my $ua = LWP::UserAgent->new; $ua->env_proxy; #my $response = $ua->get('http://zh.wikipedia.org/zh-tw/'); my $response = $ua->get('http://zh.wikipedia.org/'); if ( $response->is_success ) { $str = $response->content; print trad_to_big5( Encode::HanConvert::trad( decode( 'utf-8', $str ) ) ); } -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.114.64.130
文章代碼(AID): #1AyDAtXI (Perl)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
文章代碼(AID): #1AyDAtXI (Perl)