Re: [問題] 中文文件中標點符號的取代

看板Perl作者 (可愛中央處理器)時間14年前 (2011/09/20 09:13), 編輯推噓2(200)
留言2則, 1人參與, 最新討論串2/2 (看更多)
Code: #!/usr/bin/perl open(INITXT, "< $ARGV[0]") or die "cant write"; open(OUTTXT, "> $ARGV[1]") or die "cant write"; while($line=<INITXT>){ $line =~ s/,|?|!|:|;|…/。/g; print OUTTXT $line; } --------------- Sample input: 一二三四五六七, 七六五四三二一。 一二三四: 四三二一; --------------- Sample output: 一二三四五六七。 七六五四三二一。 一二三四。 四三二一。 ※ 引述《firegsh (~\cite{yaranaiga})》之銘言: : 請教另一個問題: : 假設我有一個編碼為big5的中文文件,其中有許多標點符號, : 如,。…!? : 那麼我應該如何把所有標點符號統一為'。'呢? : 目前試過s/,/。/g或是s/','/'。'/g都行不通,感謝 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 210.59.164.109

09/20 17:18, , 1F
It works! thx 4 help:)
09/20 17:18, 1F

09/21 13:40, , 2F
btw補充這必須在utf8編碼環境下才能執行成功
09/21 13:40, 2F
文章代碼(AID): #1EU5adgn (Perl)
文章代碼(AID): #1EU5adgn (Perl)