[請益] 只擷取網頁中的中文字

看板PHP作者 (大頭)時間14年前 (2011/04/10 15:17), 編輯推噓2(207)
留言9則, 4人參與, 最新討論串1/1
我只想要擷取網頁中的中文字和中文的標點符號 想要把原始網頁檔案的所有標籤去掉 想說用preg_replace() 把所有英文和數字還有特殊符號通通弄掉 $pattern = "[A-Za-z...]" ; //會擺上所有英文和數字還有特殊符號 $html = "...";//放上我要的網頁 $string = file_get_contents($html); echo preg_replace($pattern,"",$string); 結果跑出部分中文和部分亂碼- -" 那網頁編碼是big5 請問要怎麼改進? 或是有其他比較好的方式嗎? -- 不好意思 功力不夠 連發兩篇 -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 124.12.5.191

04/10 15:58, , 1F
$pattern寫法不對 PCRE要加delimiter
04/10 15:58, 1F

04/10 15:59, , 2F
然後Big5不是ASCII-safe, 第二個byte有的會被刪掉
04/10 15:59, 2F

04/10 15:59, , 3F
簡單的方式還是轉成UTF-8處理完再轉回來
04/10 15:59, 3F

04/10 15:59, , 4F
或是自己刻一個funtion一個一個byte自己判斷處理
04/10 15:59, 4F

04/10 16:50, , 5F
恩pattern是我忘了 我試試看你說的編碼處理
04/10 16:50, 5F

04/10 19:13, , 6F
我找到strip_tags()這個function可以用了 只是java scrip
04/10 19:13, 6F

04/10 19:13, , 7F
的文字還要自行處理
04/10 19:13, 7F

04/11 13:40, , 8F
如果網頁只有單純文字的話 file_get_contents() 應該也可以
04/11 13:40, 8F

04/12 14:22, , 9F
如果直接讀取html,把<>標籤都拆掉呢?
04/12 14:22, 9F
文章代碼(AID): #1DeLbjZJ (PHP)
文章代碼(AID): #1DeLbjZJ (PHP)