[問題] 批量儲存網站原始碼(已解決)

看板Web_Design作者 (Dipole)時間8年前 (2016/08/29 16:15), 8年前編輯推噓4(401)
留言5則, 4人參與, 最新討論串1/1
大家好, 我想要存取一些網站的原始本到記事本裡面。 由於不會寫程式的關係, 所以先將一個網址(http:\\ooo..xxx) 變成(view-source:http:\\ooo.xxx)開啟後, 全選複製到記事本儲存。 嘗試使用開啟大量網址的小工具URL Lister, 但它似乎只能辨識http開頭來做執行。 請問什麼好方法可以一次開啟數個網站的原始碼, 達到快速存取這些原始碼到記事本裡, 以利後續的分析,謝謝。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 61.231.188.188 ※ 文章網址: https://www.ptt.cc/bbs/Web_Design/M.1472458504.A.C2D.html

08/29 19:50, , 1F
隨便舉一種 不寫程式的話可以在命令列使用 curl
08/29 19:50, 1F
感謝提供方法, 下載curl包後使用cmd執行curl.exe, 指令:curl.exe -o 位置:\輸出檔案名稱.txt 網址, 就能成功取得該網站的原始碼, 目前遇到一個問題就是輸出文件的格式, 不曉得如何調整成unicode, 這邊還在尋找找答案, 感謝回應! ※ 編輯: yak2573 (61.231.188.188), 08/29/2016 21:13:35

08/30 09:04, , 2F
可以用iconv轉換編碼之後再輸出
08/30 09:04, 2F
感謝提供方法, 下載iconv包後使用cmd執行iconv.exe, 指令: iconv.exe -f utf-8 -t utf-16le 1.txt 2.txt 成功將記事本的編碼從utf-8轉成unicode, 好奇的是,找不到unicode編碼這個東西, 而是要用utf-16le這個東西來代表, 感謝回應! ※ 編輯: yak2573 (61.231.188.188), 08/30/2016 10:37:09

08/30 11:58, , 3F
08/30 11:58, 3F
原來寫在這,感謝指點! 我沒看仔細的壞習慣得好好改善。 目前參考別人的程式碼使用C#-HttpWebResponse的方式, 將原始碼串流進字串然後存檔, 同時發現可以直接用xxx.Replace(字串A,字串B)先做處理, 省了不少步驟。 目前又有新的課題,有些網站需要登入後才可以訪問, 看了一些教學,需要取得cookie以及token等等的資訊, 並且發送給伺服器端後才可訪問, 這部分還需要多了解。 謝謝諸位解惑! ※ 編輯: yak2573 (61.231.188.188), 08/30/2016 19:24:08

09/01 22:38, , 4F
像 ptt 可以用 curl -b "over18=1" 來設定 cookie 。
09/01 22:38, 4F

09/01 22:39, , 5F
而且網頁一般都是 utf8 吧?
09/01 22:39, 5F
文章代碼(AID): #1Nm-y8mj (Web_Design)
文章代碼(AID): #1Nm-y8mj (Web_Design)