Re: [問題] 抓取網頁資訊

看板RegExp (正規表示式 Regular Expression)作者 (小a)時間16年前 (2008/11/02 03:51), 編輯推噓1(101)
留言2則, 2人參與, 最新討論串2/2 (看更多)
※ 引述《MrAshan (一輩子)》之銘言: : <li class=g><h3 class=r><a : href="http://mi.nou.edu.tw/workshop/workshop_910718.htm" : 以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁 : 我表示式寫成 : (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] : 沒辦法抓取我要的網頁 : 但若我改成 : (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>] : 是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來 : 我只要單一乾淨的主網頁 不要子網頁 : 有沒有 辦法?? #!/usr/bin/perl while(<>) { while(s/<li class=g><h3 class=r><a href="([^"]+)//) { print $1 . "\n"; } } -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 118.232.236.185

11/05 18:59, , 1F
請問一下 我是用java的 這個也能拿來使用java嗎??
11/05 18:59, 1F

11/05 23:05, , 2F
Java我不懂... /RegExp/ 應該都一樣吧~
11/05 23:05, 2F
文章代碼(AID): #193BDQvG (RegExp)
討論串 (同標題文章)
本文引述了以下文章的的內容:
完整討論串 (本文為第 2 之 2 篇):
文章代碼(AID): #193BDQvG (RegExp)