Re: [問題] 中文網頁的問題
※ 引述《abcg5 (nothing)》之銘言:
: 有點白癡的問題
: 就是我抓了中文wikipedia的網頁 (編碼 UTF8
: 但是print 在螢幕上就一直是亂碼
: 試了很多種編碼!
: 目前效果最好 也應該是正確的是下面的轉碼方式
: encode("gb2312", decode("utf8", XXX)) ---- A
: encode("big5", decode("utf8", XXX)) ---- B
: 還是有些問題
: 主要是網頁是繁中簡中參半(html code才看得出來
: EX:
: 假設網頁中有
: Wikipedia:免责声明 這兩個字串
: 免責聲明
: 分別使用A和B兩種方式 結果如下
: Wikipedia:轎孮汒隴
: 免責聲明
: 都使用B方式
: Wikipedia:免??明
: 免責聲明
: 只用A就不用說了...根本是失敗!!
: 我已經知道抓到的資料哪些是簡中哪些是繁中
: 所以想請教 如何能避免這種奇怪的錯誤?? 謝謝!!
試著使用 Encode::HanConvert 來作繁簡的轉換吧,假設您只是要做
漢字間的轉換。在輸出上可使用同一種編碼方式。不同大小的字元集
之間作轉換,就可能發生對應問題。
==== han.pl ================================================
#!/usr/bin/perl -w
#
use strict;
use warnings;
use LWP::UserAgent;
use Encode;
use Encode::HanConvert;
my $str = "";
my $ua = LWP::UserAgent->new;
$ua->env_proxy;
#my $response = $ua->get('http://zh.wikipedia.org/zh-tw/');
my $response = $ua->get('http://zh.wikipedia.org/');
if ( $response->is_success ) {
$str = $response->content;
print trad_to_big5( Encode::HanConvert::trad( decode( 'utf-8', $str ) ) );
}
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.114.64.130
討論串 (同標題文章)
Perl 近期熱門文章
PTT數位生活區 即時熱門文章
10
113