Re: [-Fx-][-GC-] 網頁剪貼簿 (WebScrapBook) 0.89
很幸運地,總算研究出還可以接受的做法,
0.92 版開始支援深層擷取了!
不過目前的做法還比較陽春,
由於現代網頁變複雜,加上 WebExtension 架構變動及考量支援觸控/手機版,
短期內大概無法支援像傳統 ScrapBook (X) 那樣隨時暫停/恢復及增減下載頁面,
只能用預先設定好的網址篩選規則過濾要深層擷取的網頁。
另外,也還沒有實做傳統 ScrapBook (X) 的站台地圖功能,
其中一個考量也是沿續傳統的站台地圖寫法可能會衍生出一些問題,
此外我也有點懷疑是不是真的還有人在使用這功能...
有在用的可否舉個手及分享一下心得XD
如果沒有其他特別計畫,就準備出 1.0 了~~~ ^_^
--
《終結內容農場》瀏覽器套件
Chrome: http://bit.ly/CFTGC
Firefox: http://bit.ly/CFTFx (桌機 & Android 手機)
真相1: http://bit.ly/CFTss1
真相2: http://bit.ly/CFTss2
詳細介紹:http://bit.ly/CFTinfo
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.3.56 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1605275841.A.459.html
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/13/2020 21:58:27
推
11/14 09:07,
3年前
, 1F
11/14 09:07, 1F
能否說明你所謂的網站全索引頁面是指什麼?
目前 WSB 的站台地圖就是按深層擷取爬到的頁面畫出來的,
如果要原網站的站台地圖,除非原網站有提供且 WSB 爬到的頁面有連結,
否則 WSB 無法知道網站總共有哪些頁面...
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 12:27:19
推
11/14 13:54,
3年前
, 2F
11/14 13:54, 2F
→
11/14 13:55,
3年前
, 3F
11/14 13:55, 3F
→
11/14 13:56,
3年前
, 4F
11/14 13:56, 4F
→
11/14 13:57,
3年前
, 5F
11/14 13:57, 5F
是我筆誤,「『傳統 ScrapBook 的站台地圖』就是按深層擷取爬到的頁面畫出來的」,
你說的 sitemap.xml 就是我前面說的站台地圖,
WSB 目前並未實做。至於 index.json 只是資源列表,
相當於傳統 ScrapBook 的 sb-file2url.txt 和 sb-url2name.txt。
沒實做的原因一來是新架構不好寫,
二來是以往的 XML + XSL 在現代瀏覽器會受限於同源政策導致在本地無法正常開啟,
(用後端伺服器是沒問題,但靜態站台就會有問題),
三來是目前在規劃合併擷取功能(擷取新頁面併入及交互連結),
這樣可能會有多個起點,更難畫出站台地圖(至少是不能用原來的畫法)。
如果先不考慮三,或許可以把站台地圖儲存在 index.json,
然後瀏覽器套件另外做一個瀏覽站台地圖的介面,
但是這樣就不能自訂站台地圖樣式,也不支援靜態站台。
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/14/2020 16:07:00
0.94 版初步完成了合併擷取功能,
不過目前還沒想出 GUI 怎麼設計,
暫時只能從批次擷取器修改 JSON 操作。
在合併擷取的情況下,站台地圖可能會有多個起點,
可能要每次擷取時額外加入起始網址的記錄才能重建出站台地圖了@@...
※ 編輯: danny0838 (59.115.3.56 臺灣), 11/15/2020 23:10:36
討論串 (同標題文章)
完整討論串 (本文為第 2 之 2 篇):
Browsers 近期熱門文章
PTT數位生活區 即時熱門文章