[問題] 中文文件中標點符號的取代
請教另一個問題:
假設我有一個編碼為big5的中文文件,其中有許多標點符號,
如,。…!?
那麼我應該如何把所有標點符號統一為'。'呢?
目前試過s/,/。/g或是s/','/'。'/g都行不通,感謝
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 140.117.169.190
code
#!/usr/bin/perl
open(INITXT, "< $ARGV[0]") or die "cant write";
open(OUTTXT, "> $ARGV[1]") or die "cant write";
while($line2=<INITXT>)
{
chomp($line);
($init,$current);
$init=0;
$end=0;
$current=-1;
$current2=-1;
until(init==-1)
{
$init=index($line,'init',$current+1);
$end=index($line,'end',$current2+1);
$part=substr($line,$init,$end-init);
if($init!=-1)
{
$part=~s/,/。/g;
}
$current2=$end;
$current=$init unless($init==-1);
}
}
※ 編輯: firegsh 來自: 140.117.169.190 (09/20 16:48)
example類似這樣
一二三四五六七,
七六五四三二一。
一二三四:
四三二一;
一二三四五…
希望得到的結果為
一二三四五六七。
七六五四三二一。
一二三四。
四三二一。
一二三四五。
※ 編輯: firegsh 來自: 140.117.169.190 (09/20 16:53)
※ 編輯: firegsh 來自: 140.117.169.190 (09/20 17:01)
討論串 (同標題文章)
完整討論串 (本文為第 1 之 2 篇):
Perl 近期熱門文章
PTT數位生活區 即時熱門文章