[-Fx-][-GC-] 終結內容農場 5.7.0

看板Browsers (瀏覽器)作者 (道可道非常道)時間2年前 (2022/10/11 22:08), 2年前編輯推噓11(11013)
留言24則, 11人參與, 最新討論串1/1
終結內容農場 5.7 出來了 可到新官網下載: https://danny0838.github.io/content-farm-terminator/ 這回有幾個比較重大的改動: * 再次改良演算法。 現在普通網域規則、萬用字元規則、正規表示式規則的比對速度 都超越了線性時間複雜度。 許多技術細節都是參(ㄔㄠ)考(ㄒㄧˊ)自 uBO,感恩贊嘆雷蒙大師。 * 支援新的灰名單功能。 灰名單的作用是消除網路黑名單中的相同規則。 有些網路黑名單作者比較激進,會設一些地圖砲規則,比如 wordpress.com, 有時候訂閱者並不想要這些規則, 但是用白名單也不妥,因為如果把 wordpress.com 加到白名單, 那麼一些可能想封鎖的網站如 bad.wordpress.com, sex.wordpress.com 就會因為白名單而無法被封鎖。 想解決這種問題,要嘛是退訂整份網路黑名單,或者把內容複製下來自己管理; 要嘛得在白名單寫入複雜的正規表示式規則, 才能既維持 bad.wordpress.com, sex.wordpress.com 封鎖又不致誤鎖其他網站。 這種問題用灰名單就很容易解決, 在灰名單加入 wordpress.com 可以讓 wordpress.com 這條黑名單規則失效, 但是它不會對 wordpress.com 網站本身有任何保護作用, 所以其他像 bad.wordpress.com, sex.wordpress.com 還是可以封到想封的, 而如果是 wordpress*.com, *wordpress.com 也還是可以封鎖 wordpress.com 本身。 * 強化情境查詢功能。 從封鎖頁面進入選項頁面時,會顯示封鎖規則及出自哪個黑名單, 這樣會比較容易搞清楚該網站大概是因為什麼理由被加入黑名單。 如果不想要這條規則,直接複製新增到灰名單即可。 從一般網頁或封鎖頁面進入選項頁面時,也會顯示該網頁的重導向來源, 方便糾出一些轉址農場。 技術廚還可以寫個書籤小工具,就能做到一鍵把網站和重導向來源一起加進黑名單。 * 取消一次檢視所有黑名單的功能,改為可分別檢視已快取的黑名單。 已快取黑名單列表也會顯示快取的時間,可以看出是否有明顯過期的項目。 * 支援多層次快取,減少重新載入的運算量, 加快名單重新載入的速度,減少啟動瀏覽器、更動選項等情況的延遲。 * 縮短解鎖冷卻時間: 經過之前的討論,我認為目前的解鎖設計大方向上應無太大問題, 只是有人反映等待時間久得太誇張,因此稍作調整, 基本上還是要等,還是要強迫看警告及輸入驗證碼, 不過等待時間不會像以前那麼慘無人道的久。 有用新版的歡迎提供心得和回饋^^XD 其他相關: * 更新官網,網址即開頭所示。應該有比較簡潔易懂一些?XD * 網路黑名單現在用腳本做後設管理,可以更快提供更豐富的名單, 並且同步產生 uBO、uBlacklist 等其他格式的版本。 一些黑名單現在也會自動聚合其他可靠黑名單來源,格式不一定, 目前最多的是來自 uBlacklist 的黑名單。 並且增加了幾個黑名單(詳見官網後台資料庫頁面): * 擴充內容農場清單:自動聚合許多大大提供的網路黑名單, 有些可能會比較激進……不過現在應該都可以用灰名單解決。 * 劣質複製農場清單:一些複製維基百科、GitHub 之類的網站, 由於這些網站基本是採 CC 等開放授權,所以複製它們未必構成侵權, 但是有些網站就只是複製或機翻,沒提供多少有價值的東西, 某方面是可以視為內容農場。 但這個部分比較有爭議,而且目前有不少大大專門提供了這類機翻複製站的名單, 所以就獨立成一個黑名單以方便使用,並且自動聚合那些大大提供的資料。 注意:以上許多是 5.7.0 的新功能, Google 不知最近吃錯了什麼藥,新版上傳後一直等待審核不給過,現在還是 5.4 ... 想用新版就慢慢等,或暫時改用 Firefox 或 Edge 吧XD -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 59.115.43.121 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/Browsers/M.1665497284.A.2E0.html

10/11 22:46, 2年前 , 1F
難怪GC商店一直重整都是5.4 看到注意了XD
10/11 22:46, 1F

10/12 08:14, 2年前 , 2F
水啦! 辛苦大大了!!! 還好主力是firefox Orz
10/12 08:14, 2F

10/12 09:13, 2年前 , 3F
10/12 09:13, 3F

10/12 10:04, 2年前 , 4F
google搜尋引擎都淪陷了 農場文連結都高掛排名前面
10/12 10:04, 4F

10/12 10:56, 2年前 , 5F
感謝更新
10/12 10:56, 5F

10/12 15:49, 2年前 , 6F
pixnet也是啊 每次搜尋都看到作假時間+一堆重複垃圾
10/12 15:49, 6F

10/12 16:09, 2年前 , 7F
我進Egde商店還是5.6耶
10/12 16:09, 7F
Edge 目前到 5.6.0,5.7.* 也還在審,不過至少比較新一點。XD 其實以往通常 Chrome 商店幾個小時就審查完成,Edge 則常常要好幾天到一週, 最近例外就是了... ※ 編輯: danny0838 (59.115.43.121 臺灣), 10/12/2022 20:28:13

10/12 21:31, 2年前 , 8F
感謝更新
10/12 21:31, 8F

10/12 22:41, 2年前 , 9F
10/12 22:41, 9F
大會報告: Edge 已通過最新版 5.7.1 的審核。 Chrome 商店目前已通過 MV3 測試版 5.7.0.1 的審核(測試版後面會加個 .1), (所以正式版審那麼久是花生甚魔術?_?) 如果用 Chrome 可以考慮先用這個。 不過 5.7.0.1 版還有個未修正的小 bug 就是。 關於 MV3 版本的細節請參見: #1Z95K-T7 ※ 編輯: danny0838 (59.115.43.121 臺灣), 10/13/2022 17:17:13

10/14 11:56, 2年前 , 10F
請問列入r18的標準是啥?為何有的網站列入 但測試其他更大的
10/14 11:56, 10F

10/14 11:56, 2年前 , 11F
網站如pronhub、xvideo卻沒在裡面 話說為何要擋r18阿?
10/14 11:56, 11F
R18本身不是列為內容農場的理由,目前有封鎖的看起來是中國某幾家大型供應商, 除了大量分身網域以外,也可見填塞關鍵詞和惡性轉址, (簡單說就是搜尋引擎查到看起來正常的標題和摘要,進去卻轉到R18) 這種就是內容農場行為了, 這和某些博奕網站、盜版網站情況類似。 最初有標R18是為了方便辨識,但後來似乎有人誤會我們會把一律R18視為內容農場, 就刪掉了。 其實這個我目前也有點困擾,因為就算有大量分身網域和塞關鍵詞, 是否有明顯到足以影響一般搜尋體驗也不好說。 或許這些都回絕或放在類農場比較不會有爭議…… ※ 編輯: danny0838 (59.115.43.121 臺灣), 10/14/2022 16:41:54

10/14 17:36, 2年前 , 12F
瞭解 感謝說明!
10/14 17:36, 12F
大會報告: Chrome 商店終於通過 5.7.1 最新版審核了, 不過那是我有寄信去「溝通」, 如果沒有就不知道會怎樣了... (原信當然是英文,以下簡單摘要大意) 第一封信:「我的套件審了快二週仍未通過。過去通常只須審核1~2天, 是否有什麼問題?」 客服回覆:「您的套件目前在審核中,基於安全理由我們不能加速進行,請耐心等候。」 第二封信:「此套件的MV3測試版本最近才提交,也是審1-2天就通過, 二者原始碼幾乎沒有差異。如果真的有重大問題需要較長的審核時間, 按理也該發生在MV3測試版上,這讓我懷疑此套件的審核過程有問題, 比如或許是因系統錯誤導致並未被審核? 我並未要求加速,只是想確認目前是正常審核中, 能否協助確認本套件確實有受指派的人員正在按程序審核?」 然後客服回覆:「我們很抱歉就審核您的套件造成延遲。 經檢查您的套件符合我們的政策,因此已被批準並且將上架……」 這讓我不得不懷疑 Google 是不是像之前的 #1WbG6iRX 一樣, 不曉得是哪個 AI 還是哪個人員吃錯藥把套件當作違規之類……。 但是違規就違規,總可以寄信聯絡作者吧? 現在是直接放置play要開發者等到天荒地老? 啊不就還好我剛好有另外提交測試版,然後測試版又剛好沒被吃錯藥地擋下?= ="

10/15 03:32, 2年前 , 13F
惡性轉址的,我只能從有沒有頁庫存檔來過濾
10/15 03:32, 13F

10/15 03:40, 2年前 , 14F
不曉得這兩者關聯性有沒有強到可以直接擋也不會誤殺
10/15 03:40, 14F

10/15 03:50, 2年前 , 15F
(說完已經找到反例了: tomshardware.com/reviews)
10/15 03:50, 15F
不太懂所謂用庫頁存檔過濾是什麼意思。也不曉得你說的反例是指什麼XD 不過最近調查發現瀏覽器套件的 API 可以滿有效追蹤網頁轉址情形, 所以就順手加在新版 5.8.0 了,以後從轉址的頁面進到選項頁時會顯示查詢連結, 可以查詢分頁最近幾個網路請求的轉址或重導向情形, 這樣應該可以比較方便把相關垃圾網域一起撈出來。 介面大概像這樣: https://i.imgur.com/Q2s2UXZ.png
5.8.0 在 Firefox 已上架,Chrome 和 Edge 照慣例可能還要等一陣子。XD ※ 編輯: danny0838 (59.115.43.121 臺灣), 10/16/2022 12:36:47

10/16 14:25, 2年前 , 16F
之前是搜尋一些商品名吧,會有一些似是而非的文章,
10/16 14:25, 16F

10/16 14:25, 2年前 , 17F
像機器亂湊的,而且網域名很奇怪,又沒有頁庫存檔,
10/16 14:25, 17F

10/16 14:25, 2年前 , 18F
點開果然是惡性轉址的。
10/16 14:25, 18F

10/16 14:28, 2年前 , 19F
反例是有的正牌網站搜尋結果,也沒有小三角頁庫存檔
10/16 14:28, 19F

10/16 14:54, 2年前 , 20F
搜尋對岸色情網站特定長字串,才會出現大量沒有實體
10/16 14:54, 20F

10/16 14:54, 2年前 , 21F
頁面/頁庫存檔的結果,我03:32講的是搜尋這些的時候
10/16 14:54, 21F

10/16 14:54, 2年前 , 22F
自己分辨哪些不要點。但我現在瞭解到色情、博弈網站
10/16 14:54, 22F

10/16 14:54, 2年前 , 23F
不視為內容農場
10/16 14:54, 23F
原來如此,我完全搞不清楚 Google 到底什麼時候會提供庫頁存檔, 最近的經驗是有無庫頁存檔並無參考價值。XD 如果要查以前的狀態,用 Wayback machine 比較有機會。 然後如前所述,色情博奕這些本身雖不是理由, 但如果有洗關鍵詞、惡意重導向等影響搜尋體驗的行為, 還是會列入黑名單的。 ※ 編輯: danny0838 (59.115.43.121 臺灣), 10/16/2022 16:41:57

10/25 19:06, , 24F
感恩分享
10/25 19:06, 24F
文章代碼(AID): #1ZHNZ4BW (Browsers)
文章代碼(AID): #1ZHNZ4BW (Browsers)