[問題] 網頁資料抓取

看板RegExp (正規表示式 Regular Expression)作者 (司馬雲)時間10年前 (2014/03/03 15:18), 編輯推噓0(009)
留言9則, 2人參與, 最新討論串1/1
/* 聽說註明使用的語言、環境 * 問題有可能較容易被解決... */ 我寫了一個script想要抓取一個網頁上的檔案列表 這個網頁是用apache做index,也就是會把目錄下的檔案自動生成一個列表 我有上網google到一個方法,不過他寫的我實在看不懂... 有人可以教我怎麼分析嗎? wget --spider --recursive --no-verbose --output-file=wgetlog.txt $url sed -n "s@.\+ URL:\([^ ]\+\) .\+@\1@p" wgetlog.txt | sed "s@&@\&@" 第一行我知道,不過第二行就不看太懂了 而且linux下的sed不是應該要用'而不是"嗎? -- ※ 發信站: 批踢踢實業坊(ptt.cc) ◆ From: 220.135.113.202

03/03 19:23, , 1F
誰跟你說一定要用'了? "只是要考慮shell的一些特殊符號
03/03 19:23, 1F

03/03 19:23, , 2F
要記得跳脫比較麻煩而已
03/03 19:23, 2F

03/03 21:04, , 3F
所以是都可以嗎?我看所有的教學文都用'才覺得奇怪
03/03 21:04, 3F

03/03 21:44, , 4F
兩者的差別 你可以分別跑 echo '$PATH' 和 echo "$PATH"
03/03 21:44, 4F

03/03 21:44, , 5F
差異很明顯
03/03 21:44, 5F

03/03 21:47, , 6F
然後回一下你問了 第二行的話 很簡單
03/03 21:47, 6F

03/03 21:47, , 7F
就是從wgetlog.txt裡面抓出URL:後面的部分
03/03 21:47, 7F

03/03 21:48, , 8F
(就是WGET輸出檔案中 檔案的部分
03/03 21:48, 8F

03/03 21:48, , 9F
抓出來之後再把&換成& (HTML的特殊字元跳脫)
03/03 21:48, 9F
懂了,非常謝謝你 還可以再請問一下,裡面的@是什麼用意嗎? ※ 編輯: filiaslayers 來自: 1.34.109.207 (03/04 08:02)
文章代碼(AID): #1J52oers (RegExp)
文章代碼(AID): #1J52oers (RegExp)