Re: [新聞] 蘋果將偵測兒童色情影像 用戶上傳iCloud就舉報

看板MobileComm (行動通訊)作者 (function(){})()時間3年前 (2021/08/08 01:09), 編輯推噓13(13052)
留言65則, 13人參與, 3年前最新討論串5/8 (看更多)
: - Hash 值: 每個檔案都有一個唯一的 Hash 值 (指紋的概念) 科學家用數學保證他幾乎不會重複 : 每個雲端空間基本上都會在你上傳檔案的時候計算 Hash 值 : 為了要避免他們儲存太多重複的檔案 : 有兩個用戶上傳一樣hash的檔案可以只存一份就好 : (例如 lol.exe 一百個用戶上傳到自己的帳號 存一百份根本是浪費空間) 用檔案 hash 比對圖片實在太不可靠了,改個 1 bit 資料就可以讓 hash 不同 我覺得蘋果不會做這種智障系統,否則這系統根本沒用 所以去翻了一下相關文件 https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf 看起來是用蘋果自己開發的新演算法 NeuralHash 看名字就知道一定跟神經網路有關 大意是說用一個神經網路訓練過的模型,去計算照片的描述特徵 最後再把特徵用 locality-sensitive hash (LSH) 算出雜湊值 LSH 與一般 hash 算法不同的地方在於普通 hash 會將差異最大化 以避免相似的資料產生一樣的 hash LSH 則否,越相似的資料產生相同 hash 的機率越高 以上述文件的範例來說,直接把照片灰階化處理也可以得到一樣的 NerualHash 是很厲害的技術 -- 至於在哪裡計算與比對、以及如何找出異常,都有超級複雜的處理方式 算是可以看出蘋果對用戶隱私的用心啦 至於有沒有用、使用者買不買單就是另外一回事囉 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.91.34.68 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/MobileComm/M.1628356150.A.9BC.html

08/08 01:13, 3年前 , 1F

08/08 01:19, 3年前 , 2F
誤判的後續處理是否會侵害隱私呢?或是擾民?
08/08 01:19, 2F

08/08 01:20, 3年前 , 3F
樓上 他有一個 threshold number
08/08 01:20, 3F

08/08 01:21, 3年前 , 4F
基本上你要iCloud裡面有一堆這種類型的照片
08/08 01:21, 4F

08/08 01:21, 3年前 , 5F
超過那個 threshold number 他才會轉人工檢測
08/08 01:21, 5F

08/08 01:21, 3年前 , 6F
一張兩張 有可能是誤判 可是你有100張都被確診
08/08 01:21, 6F

08/08 01:21, 3年前 , 7F
那就合理懷疑你是有問題的
08/08 01:21, 7F

08/08 01:21, 3年前 , 8F
100只是我隨便設一個 threshold number
08/08 01:21, 8F

08/08 01:24, 3年前 , 9F
白皮書裡面有說 他們不會去學習不在那個資料庫內的
08/08 01:24, 9F

08/08 01:24, 3年前 , 10F
特徵
08/08 01:24, 10F

08/08 01:24, 3年前 , 11F
很大程度要去降誤差帶來的問題
08/08 01:24, 11F

08/08 01:25, 3年前 , 12F
你的兒童色情圖片不在 CSAM 資料庫中
08/08 01:25, 12F

08/08 01:25, 3年前 , 13F
在蘋果這套偵測機制下 是不會被抓出來的
08/08 01:25, 13F

08/08 01:29, 3年前 , 14F
所以在訓練這個模型的同時他們也有大量的兒童色情
08/08 01:29, 14F

08/08 01:29, 3年前 , 15F
資料囉
08/08 01:29, 15F

08/08 01:31, 3年前 , 16F
如果只是單純訓練模型的話,不用用有問題的圖片下去
08/08 01:31, 16F

08/08 01:32, 3年前 , 17F
訓練。那個只是要取圖片特徵,所以大概是比較廣泛的
08/08 01:32, 17F

08/08 01:32, 3年前 , 18F
資料下去訓練的
08/08 01:32, 18F

08/08 01:33, 3年前 , 19F
白皮書裡面有寫 誤判率大概是 1 in 1 trillion
08/08 01:33, 19F

08/08 01:39, 3年前 , 20F
不是用有色情去訓練,那我今天拍兒女的生活照片,
08/08 01:39, 20F

08/08 01:39, 3年前 , 21F
是不是也會被抓兒童色情拿去人工審核呢,隱私呢?
08/08 01:39, 21F

08/08 01:42, 3年前 , 22F
你是要談模型訓練還是比對?模型已經訓練好了當然不
08/08 01:42, 22F

08/08 01:42, 3年前 , 23F
會拿你的照片下去訓練,至於比對是一定會做的,不爽
08/08 01:42, 23F

08/08 01:42, 3年前 , 24F
不要用
08/08 01:42, 24F

08/08 01:48, 3年前 , 25F
他有說不會訓練 CSAM 提供以外的
08/08 01:48, 25F

08/08 01:48, 3年前 , 26F
CSAM 資料庫基本上就是一個兒童色情犯罪的檔案庫
08/08 01:48, 26F

08/08 01:48, 3年前 , 27F
你女兒的裸照並不會無緣無故被拿去訓練
08/08 01:48, 27F

08/08 01:49, 3年前 , 28F
除非你兒女的裸照曾經被用於犯罪用途
08/08 01:49, 28F

08/08 01:49, 3年前 , 29F
才有機會被列進去 CSAM 資料庫
08/08 01:49, 29F

08/08 01:51, 3年前 , 30F
更正是 NCMEC 資料庫
08/08 01:51, 30F

08/08 01:51, 3年前 , 31F
然後 NCMEC 提供的貌似也只有 hashes 值而已
08/08 01:51, 31F

08/08 01:51, 3年前 , 32F
所以很有可能 Apple 也碰不到原始圖片
08/08 01:51, 32F

08/08 01:52, 3年前 , 33F
using a database of known CSAM image hashes prov
08/08 01:52, 33F

08/08 01:52, 3年前 , 34F
ided by NCMEC and other child-safety organizatio
08/08 01:52, 34F

08/08 03:18, 3年前 , 35F
當然可以不爽不要用啊,我就是對他們的訓練跟審核
08/08 03:18, 35F

08/08 03:18, 3年前 , 36F
方式提出質疑啊,訓練方式樓上解答了,這部分就沒
08/08 03:18, 36F

08/08 03:18, 3年前 , 37F
有疑問了,那審核呢,你蘋果說懷疑就懷疑,直接就
08/08 03:18, 37F

08/08 03:18, 3年前 , 38F
可以翻別人的資料再轉給司法部門甚至是第三人?當
08/08 03:18, 38F

08/08 03:18, 3年前 , 39F
然你合約可以這樣定,但是否過度擴權或是與法律保
08/08 03:18, 39F

08/08 03:18, 3年前 , 40F
障的權利抵觸。不過確實在這篇討論這件事跟你本文
08/08 03:18, 40F

08/08 03:18, 3年前 , 41F
離題了,本來應該只聚焦在訓練模型的方式上,拍謝
08/08 03:18, 41F

08/08 03:18, 3年前 , 42F
拍謝
08/08 03:18, 42F

08/08 18:59, 3年前 , 43F
把幾個熱門名詞結合在一起就能當新的feature出來賣
08/08 18:59, 43F

08/08 19:00, 3年前 , 44F
這個應該最合理 可是這個hash是在客戶端計算?
08/08 19:00, 44F

08/08 19:01, 3年前 , 45F
他們應該是用FBI提供數據來訓練吧
08/08 19:01, 45F

08/08 19:30, 3年前 , 46F
美國就爛啊 長臂管轄 侵害個人自由
08/08 19:30, 46F

08/08 19:30, 3年前 , 47F
但一般人又能拿他怎麼辦 真的只能不爽不要用
08/08 19:30, 47F

08/08 19:32, 3年前 , 48F
不過這樣看起來不也跟Google用AI去辨認沒兩樣嗎
08/08 19:32, 48F

08/08 19:33, 3年前 , 49F
一樣都是讓模型去讀取照片 哪裡比Google好了
08/08 19:33, 49F

08/08 21:49, 3年前 , 50F
08/08 21:49, 50F

08/09 00:20, 3年前 , 51F
這篇正解
08/09 00:20, 51F

08/09 01:35, 3年前 , 52F
如果是這篇寫的這樣,似乎對人權和隱私的侵犯就有
08/09 01:35, 52F

08/09 01:35, 3年前 , 53F
降到最低限度?並且不至於將非兒童色情誤報為兒童
08/09 01:35, 53F

08/09 01:35, 3年前 , 54F
色情,必須高度符合特徵,才會被判定並得到通報?
08/09 01:35, 54F

08/09 01:35, 3年前 , 55F
例如色情內容但不確定是否未成年,或未成年但不確
08/09 01:35, 55F

08/09 01:35, 3年前 , 56F
定是否色情,這個系統頂多通報交由人工複查?
08/09 01:35, 56F

08/09 01:36, 3年前 , 57F
但一切還是要當事企業自己說明清楚,否則只能期望
08/09 01:36, 57F

08/09 01:36, 3年前 , 58F
歐盟出手,依GDPR展開調查。
08/09 01:36, 58F

08/09 08:28, 3年前 , 59F
樓上 他不會去「判定」色情內容跟是否成年
08/09 08:28, 59F

08/09 08:29, 3年前 , 60F
他一切都以NCMEC提供的圖片特徵碼為主
08/09 08:29, 60F

08/09 08:30, 3年前 , 61F
你就算偷拍一千張蘿莉(比喻),只要沒有散出去被
08/09 08:30, 61F

08/09 08:30, 3年前 , 62F
NCMEC資料庫(通常是被當犯罪資料送進去),在這
08/09 08:30, 62F

08/09 08:31, 3年前 , 63F
機制下是不會被糾出來的
08/09 08:31, 63F

08/09 17:14, 3年前 , 64F
也就是說這些照片就是已經通報失蹤或受虐的兒童啊
08/09 17:14, 64F

08/09 20:26, 3年前 , 65F
那icloud滿了還會傳嗎?
08/09 20:26, 65F
文章代碼(AID): #1X3huscy (MobileComm)
討論串 (同標題文章)
文章代碼(AID): #1X3huscy (MobileComm)