[請益] 只擷取網頁中的中文字
我只想要擷取網頁中的中文字和中文的標點符號
想要把原始網頁檔案的所有標籤去掉
想說用preg_replace() 把所有英文和數字還有特殊符號通通弄掉
$pattern = "[A-Za-z...]" ; //會擺上所有英文和數字還有特殊符號
$html = "...";//放上我要的網頁
$string = file_get_contents($html);
echo preg_replace($pattern,"",$string);
結果跑出部分中文和部分亂碼- -" 那網頁編碼是big5
請問要怎麼改進? 或是有其他比較好的方式嗎?
--
不好意思 功力不夠 連發兩篇
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 124.12.5.191
→
04/10 15:58, , 1F
04/10 15:58, 1F
→
04/10 15:59, , 2F
04/10 15:59, 2F
→
04/10 15:59, , 3F
04/10 15:59, 3F
→
04/10 15:59, , 4F
04/10 15:59, 4F
→
04/10 16:50, , 5F
04/10 16:50, 5F
→
04/10 19:13, , 6F
04/10 19:13, 6F
→
04/10 19:13, , 7F
04/10 19:13, 7F
推
04/11 13:40, , 8F
04/11 13:40, 8F
推
04/12 14:22, , 9F
04/12 14:22, 9F
PHP 近期熱門文章
PTT數位生活區 即時熱門文章