PTT數位生活區 / Perl

Re: [問題] 抓回來的網頁去除html標籤後出現部份亂碼

看板Perl作者jjt (jet)時間17年前 (2007/12/19 00:59)推噓1(1推 0噓 0→)

留言1則, 1人參與討論串2/3 (看更多)

※ 引述《redmist (....N )》之銘言： : 寫了一支程式到網路上抓資料，用HTML::FormatText模組去除html標籤後會出現部份 : 亂碼(不是全部，甚至只有一小部份)，是什麼原因呢？ : code如下 : use LWP::UserAgent; : use HTML::Parse; : use HTML::FormatText; : my $ua = LWP::UserAgent->new; : $ua->agent("MyApp/0.1 "); : my $word = '生氣'; : my $response = $ua->post( : 'http://www.sinica.edu.tw/ftms-bin/scripts/look_for_sym.pl', : [ : 'kw0' => $word : ], : ); : if ($response->is_success) { : my $res = $response->content; : #$res =~s/\r\n/\n/; : $ascii = HTML::FormatText->new->format(parse_html($res)); : print $ascii; : } : else { : die $response->status_line; : } : 印出來的部份結果如下 : (1) 書卷氣 : (2) 書生氣 : 共有2茼P義詞 : 為何會有小部份奇怪的亂碼呢？好久沒有回問題了回一下XD 2個同義詞 hex= 32 ad d3 a6 50 b8 71 b5 fc 2茼P義詞 hex= 32 d3 a6 50 b8 71 b5 fc ad在處理中被吃掉了 hex ad = '-' 雖然不知道為什麼會這樣還有有方法可以解決 1.在最前面加上 use Encode; 2.修改內文 if ($response->is_success) { my $res = decode('big5',$response->content); $ascii = HTML::FormatText->new->format(parse_html($res)); $ascii = encode('big5',$ascii); print $ascii; } 只要是中文問題用這招通常都有效:P -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.121.197.133 ※ 編輯: jjt 來自: 140.121.197.133 (12/19 01:00)

推

12/19 12:38, , 1^F

12/19 12:38, 1^F

‣ 返回看板[ Perl ] 程設

‣ 更多 jjt 的文章

文章代碼(AID): #17P_nx8W (Perl)

討論串 (同標題文章)

本文引述了以下文章的的內容：

[問題] 抓回來的網頁去除html標籤後出現部份亂碼

17年前, 12/18

以下文章回應了本文：

Re: [問題] 抓回來的網頁去除html標籤後出現部份亂碼

16年前, 07/30

完整討論串 (本文為第 2 之 3 篇)：

排序：最新先 | 最舊先 | 留言數

Re: [問題] 抓回來的網頁去除html標籤後出現部份亂碼

16年前, 07/30

1

1

Re: [問題] 抓回來的網頁去除html標籤後出現部份亂碼

17年前, 12/19

[問題] 抓回來的網頁去除html標籤後出現部份亂碼

17年前, 12/18

在新視窗開啟完整討論串 (共3篇)

Perl 近期熱門文章

2

15

[問題] 如何改善大文件的讀寫效能

11月前, 07/12

1

2

Re: [問題] 參照變數宣告及記憶體位置問題

2年前, 02/13

1

2

[問題] 參照變數宣告及記憶體位置問題

2年前, 02/07

3

5

Learing Perl 第八版中文版出版了

3年前, 06/22

2

4

[請益] 請教terminal 餵正規表示法給perl問題

4年前, 04/10

1

9

[問題] 是不是要放棄perl了

4年前, 03/02

1

1

[問題] 請問如何建立新的Row？(代po)

4年前, 11/23

1

1

[問題] regexp的replace？

4年前, 11/03

更多近期熱門文章 >>

PTT數位生活區即時熱門文章

4

12

Re: [情報] 德亞映眾5080未稅31k台幣

[ PC_Shopping ]

48分鐘前, 06/30

8

17

[心得] 泰坦軍團 G27T8W 第四代QD-OLED

[ PC_Shopping ]

1小時前, 06/30

7

24

[問題] 長輩手機遺失，line如何轉移原帳號？

2小時前, 06/30

8

25

[討論] iphone17pro 傳聞可能會有均熱板大家會

3小時前, 06/30

10

18

[心得] STAX SR-X9000 雖遲但到

3小時前, 06/30

25

114

[菜單] 這次降階29k菜單煩請幫審閱

[ PC_Shopping ]

4小時前, 06/30

3

6

[心得] Sivga p-ii 溫暖的萬元平板木殼

4小時前, 06/30

7

11

[請益] 到底要不要ROON下去？

5小時前, 06/30

更多即時熱門文章 >>

‣ 返回看板[ Perl ] 程設

‣ 更多 jjt 的文章

文章代碼(AID): #17P_nx8W (Perl)