[問題] 網頁資料抓取
看板RegExp (正規表示式 Regular Expression)作者filiaslayers (司馬雲)時間10年前 (2014/03/03 15:18)推噓0(0推 0噓 9→)留言9則, 2人參與討論串1/1
/* 聽說註明使用的語言、環境
* 問題有可能較容易被解決...
*/
我寫了一個script想要抓取一個網頁上的檔案列表
這個網頁是用apache做index,也就是會把目錄下的檔案自動生成一個列表
我有上網google到一個方法,不過他寫的我實在看不懂...
有人可以教我怎麼分析嗎?
wget --spider --recursive --no-verbose --output-file=wgetlog.txt $url
sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@"
第一行我知道,不過第二行就不看太懂了
而且linux下的sed不是應該要用'而不是"嗎?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 220.135.113.202
→
03/03 19:23, , 1F
03/03 19:23, 1F
→
03/03 19:23, , 2F
03/03 19:23, 2F
→
03/03 21:04, , 3F
03/03 21:04, 3F
→
03/03 21:44, , 4F
03/03 21:44, 4F
→
03/03 21:44, , 5F
03/03 21:44, 5F
→
03/03 21:47, , 6F
03/03 21:47, 6F
→
03/03 21:47, , 7F
03/03 21:47, 7F
→
03/03 21:48, , 8F
03/03 21:48, 8F
→
03/03 21:48, , 9F
03/03 21:48, 9F
懂了,非常謝謝你
還可以再請問一下,裡面的@是什麼用意嗎?
※ 編輯: filiaslayers 來自: 1.34.109.207 (03/04 08:02)
RegExp 近期熱門文章
PTT數位生活區 即時熱門文章