看板 [ Perl ]
討論串[問題] 如何把utf8所有的標點符號取代掉?
共 6 篇文章
首頁
上一頁
1
2
下一頁
尾頁

推噓1(1推 0噓 0→)留言1則,0人參與, 最新作者jackieku (Jackie)時間16年前 (2009/04/28 21:16), 編輯資訊
0
0
1
內容預覽:
utf8裡面是不會有落單的 \xB0 的. utf8裡面單位元的字元只有 \x00 - \x7F (ASCII). 雖然Unicode的(U+00B0)確實是那個符號.... 但是它在utf8裡面應該是 \xC2\xB0 (雙位元). 所以你的input顯然不是合法的UTF-8. 你或許能夠試試下面
(還有364個字)

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者piglon (宣)時間16年前 (2009/04/28 20:50), 編輯資訊
0
0
0
內容預覽:
這兩天照著你提供的方向試了. 可是在讀檔的時候出現下面的訊息. utf8 "\xB0" does not map to Unicode at. E:\doc\20090325Program_jdwang\Program\test2.pl line 23, <FILEHANDLE> line 668.
(還有259個字)

推噓2(2推 0噓 0→)留言2則,0人參與, 最新作者kornelius (c9s)時間16年前 (2009/04/22 00:34), 編輯資訊
0
0
0
內容預覽:
請 $ file your_file 一下,看一下 encoding 為何. 如果你是用 windows 的筆記本,很有可能還是 big5 encoding.. 假設你的檔案已經是 utf8 , 可以在開檔就指定以 utf8 讀入. open my $fh, '<:encoding(UTF-8)',
(還有132個字)

推噓6(6推 0噓 6→)留言12則,0人參與, 最新作者kornelius (c9s)時間16年前 (2009/04/21 18:50), 編輯資訊
0
0
0
內容預覽:
does this solve your problem ?. use utf8;. my $str = 'bbbb-=,;aaaa,。aaaa';. $str =~ s/\p{IsPunct}//g;. --. --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 60.248.1

推噓0(0推 0噓 0→)留言0則,0人參與, 最新作者piglon (宣)時間16年前 (2009/04/21 18:20), 編輯資訊
0
0
0
內容預覽:
可能我沒有說清楚. 我現在想要把$abstract中所有的標點符號用#字號取代只剩下中文字. 英文及數字都去除. 看了之前的文章 可以使用\p{P} 可是出來的結果卻還有全型的"。"之類的符號. --. 發信站: 批踢踢實業坊(ptt.cc). ◆ From: 120.108.60.84.
首頁
上一頁
1
2
下一頁
尾頁