[-Fx-][-GC-] 終結內容農場 5.7.0
終結內容農場 5.7 出來了
可到新官網下載:
https://danny0838.github.io/content-farm-terminator/
這回有幾個比較重大的改動:
* 再次改良演算法。
現在普通網域規則、萬用字元規則、正規表示式規則的比對速度
都超越了線性時間複雜度。
許多技術細節都是參(ㄔㄠ)考(ㄒㄧˊ)自 uBO,感恩贊嘆雷蒙大師。
* 支援新的灰名單功能。
灰名單的作用是消除網路黑名單中的相同規則。
有些網路黑名單作者比較激進,會設一些地圖砲規則,比如 wordpress.com,
有時候訂閱者並不想要這些規則,
但是用白名單也不妥,因為如果把 wordpress.com 加到白名單,
那麼一些可能想封鎖的網站如 bad.wordpress.com, sex.wordpress.com
就會因為白名單而無法被封鎖。
想解決這種問題,要嘛是退訂整份網路黑名單,或者把內容複製下來自己管理;
要嘛得在白名單寫入複雜的正規表示式規則,
才能既維持 bad.wordpress.com, sex.wordpress.com 封鎖又不致誤鎖其他網站。
這種問題用灰名單就很容易解決,
在灰名單加入 wordpress.com 可以讓 wordpress.com 這條黑名單規則失效,
但是它不會對 wordpress.com 網站本身有任何保護作用,
所以其他像 bad.wordpress.com, sex.wordpress.com 還是可以封到想封的,
而如果是 wordpress*.com, *wordpress.com 也還是可以封鎖 wordpress.com 本身。
* 強化情境查詢功能。
從封鎖頁面進入選項頁面時,會顯示封鎖規則及出自哪個黑名單,
這樣會比較容易搞清楚該網站大概是因為什麼理由被加入黑名單。
如果不想要這條規則,直接複製新增到灰名單即可。
從一般網頁或封鎖頁面進入選項頁面時,也會顯示該網頁的重導向來源,
方便糾出一些轉址農場。
技術廚還可以寫個書籤小工具,就能做到一鍵把網站和重導向來源一起加進黑名單。
* 取消一次檢視所有黑名單的功能,改為可分別檢視已快取的黑名單。
已快取黑名單列表也會顯示快取的時間,可以看出是否有明顯過期的項目。
* 支援多層次快取,減少重新載入的運算量,
加快名單重新載入的速度,減少啟動瀏覽器、更動選項等情況的延遲。
* 縮短解鎖冷卻時間:
經過之前的討論,我認為目前的解鎖設計大方向上應無太大問題,
只是有人反映等待時間久得太誇張,因此稍作調整,
基本上還是要等,還是要強迫看警告及輸入驗證碼,
不過等待時間不會像以前那麼慘無人道的久。
有用新版的歡迎提供心得和回饋^^XD
其他相關:
* 更新官網,網址即開頭所示。應該有比較簡潔易懂一些?XD
* 網路黑名單現在用腳本做後設管理,可以更快提供更豐富的名單,
並且同步產生 uBO、uBlacklist 等其他格式的版本。
一些黑名單現在也會自動聚合其他可靠黑名單來源,格式不一定,
目前最多的是來自 uBlacklist 的黑名單。
並且增加了幾個黑名單(詳見官網後台資料庫頁面):
* 擴充內容農場清單:自動聚合許多大大提供的網路黑名單,
有些可能會比較激進……不過現在應該都可以用灰名單解決。
* 劣質複製農場清單:一些複製維基百科、GitHub 之類的網站,
由於這些網站基本是採 CC 等開放授權,所以複製它們未必構成侵權,
但是有些網站就只是複製或機翻,沒提供多少有價值的東西,
某方面是可以視為內容農場。
但這個部分比較有爭議,而且目前有不少大大專門提供了這類機翻複製站的名單,
所以就獨立成一個黑名單以方便使用,並且自動聚合那些大大提供的資料。
注意:以上許多是 5.7.0 的新功能,
Google 不知最近吃錯了什麼藥,新版上傳後一直等待審核不給過,現在還是 5.4 ...
想用新版就慢慢等,或暫時改用 Firefox 或 Edge 吧XD
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.43.121 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1665497284.A.2E0.html
推
10/11 22:46,
2年前
, 1F
10/11 22:46, 1F
推
10/12 08:14,
2年前
, 2F
10/12 08:14, 2F
推
10/12 09:13,
2年前
, 3F
10/12 09:13, 3F
推
10/12 10:04,
2年前
, 4F
10/12 10:04, 4F
推
10/12 10:56,
2年前
, 5F
10/12 10:56, 5F
推
10/12 15:49,
2年前
, 6F
10/12 15:49, 6F
→
10/12 16:09,
2年前
, 7F
10/12 16:09, 7F
Edge 目前到 5.6.0,5.7.* 也還在審,不過至少比較新一點。XD
其實以往通常 Chrome 商店幾個小時就審查完成,Edge 則常常要好幾天到一週,
最近例外就是了...
※ 編輯: danny0838 (59.115.43.121 臺灣), 10/12/2022 20:28:13
推
10/12 21:31,
2年前
, 8F
10/12 21:31, 8F
推
10/12 22:41,
2年前
, 9F
10/12 22:41, 9F
大會報告: Edge 已通過最新版 5.7.1 的審核。
Chrome 商店目前已通過 MV3 測試版 5.7.0.1 的審核(測試版後面會加個 .1),
(所以正式版審那麼久是花生甚魔術?_?)
如果用 Chrome 可以考慮先用這個。
不過 5.7.0.1 版還有個未修正的小 bug 就是。
關於 MV3 版本的細節請參見: #1Z95K-T7
※ 編輯: danny0838 (59.115.43.121 臺灣), 10/13/2022 17:17:13
推
10/14 11:56,
2年前
, 10F
10/14 11:56, 10F
→
10/14 11:56,
2年前
, 11F
10/14 11:56, 11F
R18本身不是列為內容農場的理由,目前有封鎖的看起來是中國某幾家大型供應商,
除了大量分身網域以外,也可見填塞關鍵詞和惡性轉址,
(簡單說就是搜尋引擎查到看起來正常的標題和摘要,進去卻轉到R18)
這種就是內容農場行為了,
這和某些博奕網站、盜版網站情況類似。
最初有標R18是為了方便辨識,但後來似乎有人誤會我們會把一律R18視為內容農場,
就刪掉了。
其實這個我目前也有點困擾,因為就算有大量分身網域和塞關鍵詞,
是否有明顯到足以影響一般搜尋體驗也不好說。
或許這些都回絕或放在類農場比較不會有爭議……
※ 編輯: danny0838 (59.115.43.121 臺灣), 10/14/2022 16:41:54
推
10/14 17:36,
2年前
, 12F
10/14 17:36, 12F
大會報告:
Chrome 商店終於通過 5.7.1 最新版審核了,
不過那是我有寄信去「溝通」,
如果沒有就不知道會怎樣了...
(原信當然是英文,以下簡單摘要大意)
第一封信:「我的套件審了快二週仍未通過。過去通常只須審核1~2天,
是否有什麼問題?」
客服回覆:「您的套件目前在審核中,基於安全理由我們不能加速進行,請耐心等候。」
第二封信:「此套件的MV3測試版本最近才提交,也是審1-2天就通過,
二者原始碼幾乎沒有差異。如果真的有重大問題需要較長的審核時間,
按理也該發生在MV3測試版上,這讓我懷疑此套件的審核過程有問題,
比如或許是因系統錯誤導致並未被審核?
我並未要求加速,只是想確認目前是正常審核中,
能否協助確認本套件確實有受指派的人員正在按程序審核?」
然後客服回覆:「我們很抱歉就審核您的套件造成延遲。
經檢查您的套件符合我們的政策,因此已被批準並且將上架……」
這讓我不得不懷疑 Google 是不是像之前的 #1WbG6iRX 一樣,
不曉得是哪個 AI 還是哪個人員吃錯藥把套件當作違規之類……。
但是違規就違規,總可以寄信聯絡作者吧?
現在是直接放置play要開發者等到天荒地老?
啊不就還好我剛好有另外提交測試版,然後測試版又剛好沒被吃錯藥地擋下?= ="
→
10/15 03:32,
2年前
, 13F
10/15 03:32, 13F
→
10/15 03:40,
2年前
, 14F
10/15 03:40, 14F
→
10/15 03:50,
2年前
, 15F
10/15 03:50, 15F
不太懂所謂用庫頁存檔過濾是什麼意思。也不曉得你說的反例是指什麼XD
不過最近調查發現瀏覽器套件的 API 可以滿有效追蹤網頁轉址情形,
所以就順手加在新版 5.8.0 了,以後從轉址的頁面進到選項頁時會顯示查詢連結,
可以查詢分頁最近幾個網路請求的轉址或重導向情形,
這樣應該可以比較方便把相關垃圾網域一起撈出來。
介面大概像這樣:
https://i.imgur.com/Q2s2UXZ.png
5.8.0 在 Firefox 已上架,Chrome 和 Edge 照慣例可能還要等一陣子。XD
※ 編輯: danny0838 (59.115.43.121 臺灣), 10/16/2022 12:36:47
→
10/16 14:25,
2年前
, 16F
10/16 14:25, 16F
→
10/16 14:25,
2年前
, 17F
10/16 14:25, 17F
→
10/16 14:25,
2年前
, 18F
10/16 14:25, 18F
→
10/16 14:28,
2年前
, 19F
10/16 14:28, 19F
→
10/16 14:54,
2年前
, 20F
10/16 14:54, 20F
→
10/16 14:54,
2年前
, 21F
10/16 14:54, 21F
→
10/16 14:54,
2年前
, 22F
10/16 14:54, 22F
→
10/16 14:54,
2年前
, 23F
10/16 14:54, 23F
原來如此,我完全搞不清楚 Google 到底什麼時候會提供庫頁存檔,
最近的經驗是有無庫頁存檔並無參考價值。XD
如果要查以前的狀態,用 Wayback machine 比較有機會。
然後如前所述,色情博奕這些本身雖不是理由,
但如果有洗關鍵詞、惡意重導向等影響搜尋體驗的行為,
還是會列入黑名單的。
※ 編輯: danny0838 (59.115.43.121 臺灣), 10/16/2022 16:41:57
推
10/25 19:06, , 24F
10/25 19:06, 24F
Browsers 近期熱門文章
PTT數位生活區 即時熱門文章