Re: [-GC-] 請問有哪款插件能按鏈結存成mhtml

看板Browsers (瀏覽器)作者 (道可道非常道)時間3年前 (2021/04/07 08:34), 3年前編輯推噓2(203)
留言5則, 2人參與, 3年前最新討論串2/2 (看更多)
※ 引述《wingflys (月風)》之銘言: : 最近要收集很多網頁的資料分析, : 但每存一個目標就要把網頁開啟來才能選擇存成mhtml, : 過程不但耗資源又慢, : 有沒有直接在鏈結上面右鍵就能將鏈結目標的網頁存成mhtml格式的插件? MHT 現在是 Chromium 內建儲存功能, 不過 Chromium 並未提供 API 供瀏覽器套件操作, 所以你要求的功能是無法的, 頂多是本來在做網頁擷取的瀏覽器套件主動提供儲存成 MHT 的功能, 而就我所知,Chromium 上沒有這種套件。 對於儲存網頁做分析, 基本上我寫的 WebScrapBook 已經涵蓋了網頁忠實擷取、 加註、編輯、全文搜尋等功能。 著眼於資料的長期保存和方便使用, WebScrapBook 支援的幾種格式 (資料夾、HTZ、MAFF、單一 HTML) 基本上都比較推薦。 之前分析過後決定不打算支援 MHT, 原因是此格式肥大且支援性差,幾乎沒啥優點。 連結按右鍵儲存的功能 WebScrapBook 有提供, 但要注意現在很多網頁是動態腳本載入的, 也就是要在瀏覽器打開, 甚至要經過使用者操作才會載入內容(比如捲軸向下拉才會載入圖片), 這種網頁如果直接用右鍵儲存會有不完整的問題。 如果遇到這種網頁,還是乖乖打開來再儲存吧。 -- 《終結內容農場》瀏覽器套件 Chrome: http://bit.ly/CFTGC Firefox: http://bit.ly/CFTFx (桌機 & Android 手機) 真相1: http://bit.ly/CFTss1 真相2: http://bit.ly/CFTss2 詳細介紹:http://bit.ly/CFTinfo -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 223.140.115.144 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1617755671.A.F19.html ※ 編輯: danny0838 (223.140.115.144 臺灣), 04/07/2021 08:35:15 ※ 編輯: danny0838 (223.140.115.144 臺灣), 04/07/2021 08:35:49

04/07 11:48, 3年前 , 1F
MHTML本身是email格式搬過來用 所以用7bit編碼封裝資源
04/07 11:48, 1F

04/07 11:49, 3年前 , 2F
副作用就是檔案容量增加 比起原先純文字+資源檔還更大
04/07 11:49, 2F

04/07 11:50, 3年前 , 3F
但似乎也沒有新rfc規格有提供壓縮的 總之就放著
04/07 11:50, 3F
我知道 MHTML 是 RFC,可以和 .eml 互換,以前還號稱跨平台, IE、Opera、Firefox、Chrome 都支援, 但現在也不曉得瀏覽器開發商怎麼想的, 除了 Chromium 以外似乎都一致懶得折騰去實做對這套標準的支援 (Safari、舊 Edge 都不做,Firefox 改套件系統後也不願意提供相關 API 支援), 而 email client 通常對網頁標準支援度不足,有些還不支援直接開啟 .eml 檔案…… 除了瀏覽器或 email client 支援以外,各程式語言很難找到相關的 lib, 瀏覽器套件開發者如要支援 MHT,得重頭到尾實做整套 RFC,光看就累死orz... 相較之下,MAFF 雖非 RFC,好歹也是開放規格, 雖然沒有瀏覽器直接支援,但是基於極為泛用的 ZIP, 寫個介接程式即時解壓餵給瀏覽器也不難; 就算找不到好的閱讀器,找個軟體 unzip 一下就變成網頁檔案包, 可以順利開啟,無痛降級很ok。 MHT 的編碼方式則讓人類幾乎無法閱讀,若找不到閱讀器, 想用純文字編輯器看都不可行,只能望檔興嘆。 除此之外,ZIP 可以壓縮檔案,而 MHTML 讓檔案肥大;MAFF 還支援包裝多個網頁。 如果要推標準,我想 MAFF 明顯是比較好的選擇。

04/07 15:26, 3年前 , 4F
ㄟㄟ,你這樣工商一波對嗎(開玩笑
04/07 15:26, 4F
只給箭頭不給推對嗎?(#‵︿′ㄨ) ※ 編輯: danny0838 (36.227.217.238 臺灣), 04/09/2021 08:16:07

04/09 08:46, 3年前 , 5F
推推 XDDDD
04/09 08:46, 5F
文章代碼(AID): #1WRFuNyP (Browsers)
文章代碼(AID): #1WRFuNyP (Browsers)