[分享] iPhone計算攝影05-計算攝影部分技術說明已刪文

看板DC (數位相機)作者 (看X100VI評測Q我)時間4月前 (2024/07/26 14:03), 2月前編輯推噓0(000)
留言0則, 0人參與, 最新討論串1/1
======================= iPhone 攝影時代 | 計算攝影 關於計算攝影部分技術說明 ======================= https://www.mobile01.com/topicdetail.php?f=257&t=6781820 上面是M01原文... 這裡舉例的處理器是最新的, 或許各位手上有舊機,那麼處理器能力就沒那麼好, 如安卓舊機可能還會拍完後等轉圈圈。 但是因為目前處理器已經慢慢到位(還沒完全到位) 新的機器不管是Live View的準確度,還是拍攝後無需等待就可以看照片等, 都會更加的優秀。 這裡所說明的,都是以最新的技術為主。先看下面的圖, https://i.imgur.com/NME0Tm3.png
由此圖可以得知,並非單眼這種陽春且暴力的疊圖。 計算管線每個圖層都有不同意義,然後交給AI做細節處理。 每個步驟都是為了升高畫質,取得畫面細節,沒有一個步驟是多餘的。 =========== <1> 如何作業 ===== 這是計算攝影按下快門"當下" 就將以上的畫面進行多畫面合成~ 上面共有12個圖層,在計算攝影裡面這是即時拍攝跟演算的~ 也可以看到語意分割的圖層~ 因為都採取電子快門,也因為要擷取多張,所以多張快門速度都是不一樣的 但基本上都是以高速快門為主,然後進行合併出高細節的照片。 所以不可能有一個"單一"的快門速度.... (這就是為什麼我說看EXIF根本不準的原因) 要做到即時的多張畫面分析跟擷取, 就需要依靠極快的電子快門跟光達以及CPU/GPU/NPU同時運作~ 圖像處理/AI單元都是全力作用。 當然如果快門壓下才擷取這麼多照片,基本上是來不及的, 也就是說當一打開相機,就開始進行拍攝了...(不停地進行拍攝照片) 這些都是放在緩衝裡面~ 當使用者構圖好,按下快門的當下,就馬上取出緩衝的照片進行縫合輸出~ (或者將縫合好的直接做輸出)。然後這是一個鏡頭的處理..12幀影像 可是其實像3鏡頭的狀況, 為了保證使用者3顆鏡頭無論怎麼用都可以順暢變焦 跟有縫合準確以及白平衡做統一。 (因為3顆鏡頭不同焦段甚至不同感光元件, 可能還不同公司的產品,當然有各自的"本身發色") 而手機就以1顆鏡頭當作準則 (如主鏡頭模組), 然後進行另外2顆鏡頭模組的影像發色平衡... 所以每個鏡頭都是一直在拍攝12幀影像並且隨時在處理。 3顆鏡頭就是需要同時處理36幀影像 也就是說,就算是Snapdragon 8 Gen 2可以同時處理30幀影像畫面, 那麼3顆鏡頭就是每顆鏡頭只能及時處理10幀... https://i.imgur.com/UDM0LFF.jpeg
(圖片來源: https://www.cool3c.com/article/191315 ) 高通有示意圖 30幀並非1/30s... 而是一次可以立即處理30個畫面的演算... 為了讓使用者不會有按下快門後卻在等成片...處理器是全速背景運算的..... 而可一次拆解成 8 個圖層的意思是指語意分析去分割時, 最多可以將上面30 幀影像的合成處理後的單張影像再弄出8個圖層去處理。 https://i.imgur.com/lsOqod8.jpeg
==========計算攝影EXIF沒有任何意義============== 所以我一直說明的就是 : 看單張快門速度沒有意義..(因為早拍了一堆快門速度不同的照片下去處理) 看分區測光沒有意義 (最基本的測光早就做好了.重點是之後的語意分割下去處理) 看單一白平衡準不準確沒有意義(語意分割早就分開處理了) 所以按下快門的單一張照片, 其實早就進行了十幾張拍攝後再來分割處理,進行複雜的演算後的結果 這也就是為什麼當打開相機app時,雖然一直沒有拍攝動作, 但發燙的程度卻跟玩大型遊戲一樣的燙.... 這也就是為什麼拍沒幾張照片,也就很快沒電了 所以處理器越新,使用體驗會越好, 舊機跟舊處理器,可以處理的張數就少的可能...(還無法三鏡頭連動) 不管是快門延遲或者是拍攝成果,都會遠遠不如新處理器.... 30禎是指最大擷取量 而總共有三組鏡頭跟三組感光元件,也就是平均每一組就是10禎.... 這是分開計算但同時可完成的。 可以想像這是三組相機跟鏡頭同時拍攝, 每台相機跟鏡頭當然是分開各自拍攝的.... 而這拍攝速度極快...跟傳統的曝光思維完全不一樣。 單鏡頭模組立即處理10禎的畫面就是控制電子快門速度更快使之瞬間完成... 也就是會以高速快門為主取得採取清晰的影像.... 然後合併取得更多細節... 以及之前所說的圖像分割然後加以作更精確的曝光跟白平衡。 (而且都是RAW演算) 如果這種處理方式會造成什麼模糊或詭異畫面的困擾, 這種技術早就被捨棄了,而不是越來越多廠商採用。 而夜景模式的演算更為複雜, 除非自己手持十分不穩,不然出來的相片也不會有什麼詭異狀況.... (手持小不穩也根本不影響) 用手機拍攝的人何其多,這麼多人用了這個技術去拍攝照片... 說穿了如果有模糊還是不清晰問題會被使用者上網抱怨。 (沒所謂的叠成拉絲的照片) 這技術都用很久了.....所以本身技術是很穩定的。 =========== <2> 與分區測光之差異 ===== 計算攝影常用的圖像分割: 圖像分割是指將圖像分成多個區域,每個區域都有其特定的特徵, 例如顏色、紋理等,這些特徵可以用來識別圖像中的物體。 分割後再來對切割的物體進行不同曝光調整跟白平衡處理。 傳統單眼常用的分區測光: 分區測光是一種測光模式,將畫面分成數個區域, 各自獨立運算後再統合整理, 取得一個完整曝光值(最後還是產生一個"單一"的曝光數據) 手機採用二種合併的方式進行測光跟調整。 先分區測光有個基準再來處理語意分割後的曝光。 也就是說影像分割並非純粹還原現場光線。 而是為了增加各分割影像的細節個別調整曝光值, 也因為語意分析後,所以可以去讓曝光更合適。這樣就可以避免分區測光的缺點。 =========== <3>圖像分割/語意分割 ====== Image Segmentation Semantic Segmentation 這是基於深度學習後的效果。例如常用的單眼可以簡單辨識人臉跟動物等 例如可以獨立提亮臉部曝光跟人臉白平衡。這是目前單眼晶片可以做到的部分。 而手機可以辨識分割的更多,也就是會更加精細。 這是高通語意分割的示意圖 https://i.imgur.com/oGzoR4m.jpeg
這是目前手機處理器的能力 確實準確辨識出物體的位置跟種類,然後加以分別處理不同曝光跟白平衡, 讓整體畫面更平衡。 也就是說並非單純還原現場色調, 而是讓晶片知道各語意分割區的場景去做最適合的白平衡。 下面這張圖可以得知,iPhone語意分割做到有多極致 https://i.imgur.com/mmZUIzj.png
不僅分割前景跟後景,還分割了不同的人種以及膚色跟衣服。 做不同的曝光跟白平衡調整。 =========== <4> ProRAW ===== 簡單說明ProRAW (這邊簡單念念規格,隔壁版有人有做實測) https://i.imgur.com/XaA0ZaN.jpeg
ProRAW採取了DNG 1.6的格式. 4800萬像素 色彩深度最大到12bit,寬容度14.5級~ 將CPU、GPU、ISP、NPU的各種資料整合~ 並加下面參數獨立出來,進行調整時不動到底層~ ProRAW的細節則是已經經過演算過的DeepFusion結果.. 已經去除雜訊並且加強細節 不僅動態範圍非常高,還帶有影像分割遮罩.... 簡單而言,就是會把人跟背景等輪廓影像分割... 這樣編輯時就可以讓後製調整更加方便... 可以對人像以及背景不同調整,不會互相干擾~ 並且ProRAW因為無壓縮, 所以影像柔和並沒有加入銳化。方便讓使用者進行後製創作。 ============ <5> 拍攝可以手動介入相機RAW管線的攝影創作 ====== 由上面可以知道,手機隨時拍攝12張以上相片進行處理。 這個管線如果不能進行創作,那就失去攝影的樂趣了。 所以從最簡單的EV到明調/對比以及色溫都可以直接介入計算攝影管線中調整。 可以依照場景去調出適合的風格, 因為是直接介入計算攝影管線,所以畫質不受影響。 以下是實作範例,因為如果按照正常曝光跟對比色溫, 將會導致此張照片整體光線明亮,會失去主題性。 所以將之控制在對比強烈色溫溫暖的設定下, 然後降EV後,剩下交給計算攝影... https://i.imgur.com/cDcLINM.jpeg
@直出 攝影風格計算管線介入 EV-1.47 @iphone 14 pro 24mm 此時就會產生有氣氛且主題葉子明確的照片,享受攝影創作的樂趣。 如果不想那麼銳利,想要有更多細節。並且在軟體後製時可以減少畫質損失。 可以選擇拍攝ProRAW。 =========== <6> 真正所見即所得 ====== 使用單眼最大的困擾就是那片低劣的LCD螢幕, 不僅無法確實知道拍攝效果,色準也跑掉,色溫也跑掉, 大太陽底下還沒辦法看清楚來取景..... 但手機仰賴處理器的高效能, 所以可以由螢幕Live View馬上看出實際拍出的效果。 並且加上高規格的螢幕,高亮度的螢幕,在大太陽下能夠用大螢幕明亮的取景, 高達2000尼特的亮度,Delta-E 為0.26非常足夠使用。 而且由於螢幕色彩準確度高, 所以不太用擔心從螢幕看到的色彩會跟進校色螢幕看的色彩差距過多.... 跟傳統相機那片螢幕的色準跟亮度比起來,無疑是天壤之別。 所見即所得,是手機的優勢。 =========== <7> HEIF/HEIC 格式優勢,以及手機可處理高動態RAW檔編輯跟輸出。 ===== 目前用手機杜比視野的高規螢幕編輯相機RAW檔的效能是蠻OK的。 而且手機可以拍攝RAW檔好像也不是新知了。 如果是手機拍攝的HDR RAW檔更是大約60MB-100MB。 在手機RAW檔下,不會有HEIF這種被加強的色調跟被加強的銳化效果。 會是很柔和的影像。 手機很早就可以選擇不要拍攝JPEG了。 HEIF/HEIC已經是主流格式了。 adobe這篇有分析HEIC優點跟JPG差異。 https://reurl.cc/8X4jWd 我手機很久就沒拍過Jpeg這種老格式了。 不知道HEIF的優點我這邊有引用說明一下。 HEIF格式的特性 1、當相機以HEIF格式錄製影像時,它們與JPEG影像的畫質相同, 但是所需的檔案大小較小,因為HEIF壓縮效率大約比JPEG高兩倍。 因此,相機可以非常有效率地儲存及傳輸資料。 2、HEIF格式可以用豐富的10位元色彩深度層次壓縮來錄製影像, 而且對於重現色調變化平順的天空漸層非常有效。 3、HEIF格式支援以4:2:2色彩取樣來錄製,並具備高度色彩重現。 因此,當需要高畫質時,您可以使用4:2:2色彩取樣。 4、當您使用相機的[HLG靜態影像]功能時, 透過使用相當於HLG(混合對數迦瑪:HDR影像標準)的迦瑪特性, 您可以拍攝具有寬廣動態範圍與BT.2020相容的寬廣色域的靜態影像。 拍攝的HEIF具有上述特點。 引用來源 https://support.d-imaging.sony.co.jp/support/ilc/heif/02/zh-hant/index.html 基本上iPhone上面拍攝的HEIF是可以用手機直接顯示HDR的完整動態範圍。 並且可以做HDR的編輯跟輸出。 (本文所說的手機都是以最新的高階機功能為主) 相對傳統相機的儲存檔案格式選擇就很少。 通常僅僅是JPG+RAW為大部分。 (幸好全片幅SONY/Canon等都開始支援HEIF) 手機當然也可以進行批次複製同樣參數貼上。做批次編輯跟輸出。 https://i.imgur.com/YHZQPns.jpeg
=========== <8> DeepFusion 深度融合 ====== 屬於增加細節的技術,新款iPhone已經是全時開啟, 這裡就不多提了,直接看過往iPhone 11的影片介紹就好了, 反正知道現在可以全時開啟就好。 這套系統是跟SmartHDR相輔相乘的技術。最一開始的影片有提到了。 下面這個影片久了一點,但卻是有不錯的DeepFusion技術介紹 https://www.youtube.com/watch?v=UPUqzfOVhsk
當時iPhone11還沒有ProRAW.. 可以看出最原始RAW檔是完全無法光靠後製出細節的 也就是說,原始RAW檔已經到了不可用程度。 別忘了,小片幅的原始動態範圍也是非常低的。 https://i.imgur.com/WNKEGWY.png
https://i.imgur.com/qQUXaOq.png
手機是這樣一步一步的慢慢技術累積,才有現今的攝影市場。 而這些技術都是來自於傳統攝影。脫離不了光學。 =========== <9> Google 2019年有透漏的計算攝影技術部分 ====== 很難得google有提到計算攝影是靠什麼原理去處理的。 在2019年文章裡面, Marc Levoy (史丹佛大學電腦科學榮譽退休教授, 負責教導電腦繪圖學、數位攝影學和藝術科學) (Google HDR+模式、肖像模式與夜視功能開發團隊 工程師) 所提到的部分 (下面引用自https://today.line.me/tw/v2/article/P2gZ88) 因為目前蘋果跟三星以及google所提到的方法都不多,大都是保密的。 所以只能就過往google有透露出來的方法去知道計算攝影怎麼運作。 有點匪夷所思,但都是真實細節資訊。 Google甚至靠手震去取得更多細節。 其實上面引用網址已經是精簡過的了,我有看過更詳細的技術文章過。 我這邊引用文章摘要,喜歡的話就自己去爬文 === HDR+ === 通常一般手機的作法,是把不同曝光時間的照片合成, 達到亮部、暗部都清楚。但這樣做 其實每張照片都像是不同的、難以合成, 長曝時也容易手震造成模糊,成功率並不高。 Google是捕捉相同短曝時間的連拍影像, 再把連拍影像中每個像素取平均色調合成。 因為是短曝不會受到手震影響、暗部雜訊較少, 相同曝光值合成時也容易校準。連拍張數夠多 也可降低噪點,雖然會犧牲整體色調和對比度,但效果相對較佳。 === 肖像模式 === 利用「雙像素(Dual pixels)」對焦技術解決。 雙像素對焦在較新的單眼相機中也會用 到,是將感光元件中的每顆像素分成左右兩半, 左右兩半像素透過鏡頭取得的影像會有極小差距, 剛好用來達成雙鏡頭的效果,算出深度圖。 === 高解析變焦 === 高解析變焦利用手持拍照時一定會發生的手震, 在手震期間連拍多張照片,取得放大影像後遺失的像素。 也就是說用來填補的像素都是物體原本的像素,並非模擬出來的像素, 因此可以重建細節。 對於放在三腳架上的手機, 也可以藉由強制開啟手機內的OIS防手震來製造搖晃。 這樣的方式當然也不能放大到太大, Google表示至少可與2倍光學變焦不相上下。 === 夜視模式 === 「移動測量(motion metering)」, 連拍時依據畫面的移動程度自動調整適當的曝光時間。 如果手機在很穩定的狀態,例如裝在腳架上, 曝光時間最長會採取1秒內連拍6張畫面合成; 如果手機很不穩定或是被攝物移動, 曝光時間最短會採取1秒內連拍15張畫面合成 ,連拍張數視偵測到的移動程度分佈於6張至15張之間。 連拍完成之後,Pixel 1及Pixel 2手機會使用HDR+技術合成這些照片, Pixel 3則是用高解析變焦技術來合成, 因為高解析變焦也是分析多張照片合成,有降低雜訊的效果。 === AI訓練部分 === Google使用約100萬張人物照片訓練機器學習模型, 辨認影像中的內容例如人物、帽子、眼鏡、冰淇淋等, 將人物與配件、背景區隔開。 再透過數學計算中的「邊緣感知雙邊求解器(Edge-aware Bilateral Solver)」 對人物輪廓邊緣細化調整。優化之後,即使是人物的髮絲、 手上拿的杯子也都可以正確識別出來,清楚的與背景區隔。 為了訓練機器學習模型辨識這些細小差異來估計距離, Google將五支手機拼起來,拍了成千上萬具有微小差異的的照片組來訓練。 因為處理的資料量太大, 又在Pixel 3手機中加入Visual Core處理晶片提升運算速度。 最後的結果就是Pixel 3肖像模式拍出來的照片不但景深誤差更小, 還包含了豐富的景深資訊,拍出來之後可以更改對焦點, 改變前景、背景模糊程度。 在低光源的情況下自動白平衡效果不佳,Google又用機器學習, 以大量照片來訓練模型判斷正確的顏色。 另外又發生一個問題,當照片拍得很清楚時, 反而讓人不知道這是一張白天的照片還是晚上的照片, 為此Google還參考歷史上知名畫家的呈現方式,特地把拍出來 的照片又調整成一般人認知的夜景。 ========== <10> 簡單總結 ===== 由上面可知手機的晶片是加強以往單眼晶片的不足。加以優化攝影成果。 這才能夠以極小片幅的尺寸,突破極小片幅跟塑膠鏡片的先天劣勢。 在不同場景下做最好的畫質輸出。 其實攝影技術層面很多,我只能帶出一點點手機內容。 其餘有興趣的可以自己去爬google。 就知道小片幅高畫質廠商下了多大努力。 -- 飄下的絲線.敲出叮咚的音符.圍繞著冷列的空氣.像是紛亂的情緒. 20070403 本文未經允許,禁止無斷轉載。 -- ※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 103.124.176.189 (臺灣) ※ 文章網址: https://www.ptt.cc/bbs/DC/M.1721973819.A.E2D.html ※ 編輯: eyecolor (223.138.74.128 臺灣), 09/26/2024 16:42:27
文章代碼(AID): #1cepmxuj (DC)
文章代碼(AID): #1cepmxuj (DC)