Re: [-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.89

看板Browsers (瀏覽器)作者 (道可道非常道)時間3年前 (2020/11/13 21:57), 3年前編輯推噓2(203)
留言5則, 1人參與, 3年前最新討論串2/2 (看更多)
很幸運地,總算研究出還可以接受的做法, 0.92 版開始支援深層擷取了! 不過目前的做法還比較陽春, 由於現代網頁變複雜,加上 WebExtension 架構變動及考量支援觸控/手機版, 短期內大概無法支援像傳統 ScrapBook (X) 那樣隨時暫停/恢復及增減下載頁面, 只能用預先設定好的網址篩選規則過濾要深層擷取的網頁。 另外,也還沒有實做傳統 ScrapBook (X) 的站台地圖功能, 其中一個考量也是沿續傳統的站台地圖寫法可能會衍生出一些問題, 此外我也有點懷疑是不是真的還有人在使用這功能... 有在用的可否舉個手及分享一下心得XD 如果沒有其他特別計畫,就準備出 1.0 了~~~ ^_^ -- 《終結內容農場》瀏覽器套件 Chrome: http://bit.ly/CFTGC Firefox: http://bit.ly/CFTFx (桌機 & Android 手機) 真相1: http://bit.ly/CFTss1 真相2: http://bit.ly/CFTss2 詳細介紹:http://bit.ly/CFTinfo -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.3.56 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1605275841.A.459.html ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/13/2020 21:58:27

11/14 09:07, 3年前 , 1F
我想要(瀏覽器看)網站全索引頁面,不一定要sitemap.xml.
11/14 09:07, 1F
能否說明你所謂的網站全索引頁面是指什麼? 目前 WSB 的站台地圖就是按深層擷取爬到的頁面畫出來的, 如果要原網站的站台地圖,除非原網站有提供且 WSB 爬到的頁面有連結, 否則 WSB 無法知道網站總共有哪些頁面... ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 12:27:19

11/14 13:54, 3年前 , 2F
11/14 13:54, 2F

11/14 13:55, 3年前 , 3F
一般瀏覽可能是開index.html; 但也可以開sitemap.xml
11/14 13:55, 3F

11/14 13:56, 3年前 , 4F
如果擷取的層次很深,sitemap.xml比較方便瀏覽.
11/14 13:56, 4F

11/14 13:57, 3年前 , 5F
WSB 的站台地圖是index.json?
11/14 13:57, 5F
是我筆誤,「『傳統 ScrapBook 的站台地圖』就是按深層擷取爬到的頁面畫出來的」, 你說的 sitemap.xml 就是我前面說的站台地圖, WSB 目前並未實做。至於 index.json 只是資源列表, 相當於傳統 ScrapBook 的 sb-file2url.txt 和 sb-url2name.txt。 沒實做的原因一來是新架構不好寫, 二來是以往的 XML + XSL 在現代瀏覽器會受限於同源政策導致在本地無法正常開啟, (用後端伺服器是沒問題,但靜態站台就會有問題), 三來是目前在規劃合併擷取功能(擷取新頁面併入及交互連結), 這樣可能會有多個起點,更難畫出站台地圖(至少是不能用原來的畫法)。 如果先不考慮三,或許可以把站台地圖儲存在 index.json, 然後瀏覽器套件另外做一個瀏覽站台地圖的介面, 但是這樣就不能自訂站台地圖樣式,也不支援靜態站台。 ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 16:07:00 0.94 版初步完成了合併擷取功能, 不過目前還沒想出 GUI 怎麼設計, 暫時只能從批次擷取器修改 JSON 操作。 在合併擷取的情況下,站台地圖可能會有多個起點, 可能要每次擷取時額外加入起始網址的記錄才能重建出站台地圖了@@... ※ 編輯: danny0838 (59.115.3.56 臺灣), 11/15/2020 23:10:36
文章代碼(AID): #1Vhf31HP (Browsers)
文章代碼(AID): #1Vhf31HP (Browsers)