Re: [問題] 抓取網頁資訊
看板RegExp (正規表示式 Regular Expression)作者giacch (小a)時間16年前 (2008/11/02 03:51)推噓1(1推 0噓 1→)留言2則, 2人參與討論串2/2 (看更多)
※ 引述《MrAshan (一輩子)》之銘言:
: <li class=g><h3 class=r><a
: href="http://mi.nou.edu.tw/workshop/workshop_910718.htm"
: 以上是我想要抓取的 條件是有class=g 跟 class=r時 才抓取網頁
: 我表示式寫成
: (?s)class=g><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 沒辦法抓取我要的網頁
: 但若我改成
: (?s)class=r><a\\s+href\\s*=\\s*\"?(.*?)[\"|>]
: 是有辦法 可是在google網頁中 它會連庫存網頁也會抓進來
: 我只要單一乾淨的主網頁 不要子網頁
: 有沒有 辦法??
#!/usr/bin/perl
while(<>) {
while(s/<li class=g><h3 class=r><a href="([^"]+)//) { print $1 . "\n"; }
}
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 118.232.236.185
推
11/05 18:59, , 1F
11/05 18:59, 1F
→
11/05 23:05, , 2F
11/05 23:05, 2F
討論串 (同標題文章)
RegExp 近期熱門文章
PTT數位生活區 即時熱門文章