[問題] 中文文件中標點符號的取代

看板Perl作者 (~\cite{yaranaiga})時間13年前 (2011/09/20 16:16), 編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/2 (看更多)
請教另一個問題: 假設我有一個編碼為big5的中文文件,其中有許多標點符號, 如,。…!? 那麼我應該如何把所有標點符號統一為'。'呢? 目前試過s/,/。/g或是s/','/'。'/g都行不通,感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 140.117.169.190 code #!/usr/bin/perl open(INITXT, "< $ARGV[0]") or die "cant write"; open(OUTTXT, "> $ARGV[1]") or die "cant write"; while($line2=<INITXT>) { chomp($line); ($init,$current); $init=0; $end=0; $current=-1; $current2=-1; until(init==-1) { $init=index($line,'init',$current+1); $end=index($line,'end',$current2+1); $part=substr($line,$init,$end-init); if($init!=-1) { $part=~s/,/。/g; } $current2=$end; $current=$init unless($init==-1); } } ※ 編輯: firegsh 來自: 140.117.169.190 (09/20 16:48) example類似這樣 一二三四五六七, 七六五四三二一。 一二三四: 四三二一; 一二三四五… 希望得到的結果為 一二三四五六七。 七六五四三二一。 一二三四。 四三二一。 一二三四五。 ※ 編輯: firegsh 來自: 140.117.169.190 (09/20 16:53) ※ 編輯: firegsh 來自: 140.117.169.190 (09/20 17:01)
文章代碼(AID): #1EU4lArb (Perl)
文章代碼(AID): #1EU4lArb (Perl)