[請益] 有一個關於字串處理的問題..
目前打算用 file_get_contents()函式加上preg_match()及REGEXP來做scraping,
問題在於使用file_get_contents()讀出來的字串不是連續的(會有換行的跟TAB),
有方法可以使file_get_contents()讀出來的字串(HTML TAG)變成一串連續的文字嗎?
也就是我需要取得某二個TAG中間的所有文字(包含HTML TAG)
EX..
<A>
123
<C>
321
<B>
在我想要得到在<A>和<B>之間的所有內容像是
123
<C>
321
或者是
123<C>321
都可接受,
目前寫出來都只能在單行上面尋找,
因此若由file_get_content()內讀出的字串可以連成一個無分行的字串便能處理,
請教各位有較好的方法嗎?
因為來源的HTML格式有可能更動,所以盡量以REGEXP的方式來做比較好改,
或是請各位前輩指點更好的方式,謝謝!
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.118.4.206
→
10/30 00:16, , 1F
10/30 00:16, 1F
推
10/30 00:32, , 2F
10/30 00:32, 2F
推
10/30 00:41, , 3F
10/30 00:41, 3F
→
10/30 00:49, , 4F
10/30 00:49, 4F
→
10/30 00:49, , 5F
10/30 00:49, 5F
推
10/30 01:05, , 6F
10/30 01:05, 6F
→
10/30 01:18, , 7F
10/30 01:18, 7F
→
10/30 01:18, , 8F
10/30 01:18, 8F
→
10/30 01:19, , 9F
10/30 01:19, 9F
推
10/30 01:22, , 10F
10/30 01:22, 10F
推
10/31 09:18, , 11F
10/31 09:18, 11F
PHP 近期熱門文章
PTT數位生活區 即時熱門文章