[問題] 抓取網頁資訊
看板RegExp (正規表示式 Regular Expression)作者MrAshan (一輩子)時間16年前 (2008/10/30 00:26)推噓0(0推 0噓 6→)留言6則, 2人參與討論串1/2 (看更多)
<li class=g><h3 class=r><a
href="http://mi.nou.edu.tw/workshop/workshop_910718.htm"
以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁
我表示式寫成
(?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
沒辦法抓取我要的網頁
但若我改成
(?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來
我只要單一乾淨的主網頁 不要子網頁
有沒有 辦法??
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 202.132.194.89
→
11/02 00:29, , 1F
11/02 00:29, 1F
→
11/02 03:22, , 2F
11/02 03:22, 2F
→
11/02 03:41, , 3F
11/02 03:41, 3F
→
11/02 03:42, , 4F
11/02 03:42, 4F
→
11/02 03:44, , 5F
11/02 03:44, 5F
→
11/07 00:28, , 6F
11/07 00:28, 6F
討論串 (同標題文章)
RegExp 近期熱門文章
PTT數位生活區 即時熱門文章