https://ift.tt/2wLgCVN
本文:
最近幾年人工智慧技術大幅成長,許多應用也如雨後春筍冒出,能自動判斷錄影時機的 Google Clips 攝影機,就是在人工智慧與機械學習的協助下,讓演算法辨識鏡頭下的人、微笑、寵物、日落、地標等景色,但演算法如何進一步判斷攝影時機,仍是個艱困的挑戰。
透過真人評分
Google Clips 是款不需額外操作,就能自動判斷錄影時機的攝影機,設計理念有三大要點,首先開發團隊希望所有運算能在 Clips 完成,並保有長效電池續航力與降低攝影延遲,優點是不需上傳任何資料到伺服器,不但更能保障使用者隱私,也能在沒有網路連線的環境使用。
再者開發團隊規劃以拍攝短片為主,而非靜態照片,不但有助於記錄歡樂時光的氛圍,也能透過較長的影片彌補單張照片不易抓到完美時機的缺陷。最後,Clips 只專注透過內容的趣味性判斷錄影的起迄時間,並不考慮構圖、光線、色調等攝影技巧。
接下來的問題,就是如何訓練 Clips 演算法,讓它知道怎樣的場景有趣。如同一般機械學習,開發團隊著手建立數千部不同主題影片構成的資料庫,並讓攝影與影片剪輯專家評定影片優劣,讓演算法能以此衡量影片趣味的素材為何。然而這樣又會產生新的問題,那就是我們該如何將影片有系統、平順地 0~100 分中評分。
為了解決這個問題,開發團隊準備了第二套資料庫,他們將影片切割為許多片段,隨機挑選 2 片段,詢問受測者(人類)比較喜歡哪段。讓受測者以「2 選 1」評定,比直接為影片定分數容易許多,且受測者給予的答案也相當接近,當分析 1,000 支影片切出的 5,000 萬片段「2 選 1」數據後,就能透過計算方式得到整部影片(而非片段)的分數(對,數字沒錯。靠人類分析 5,000 萬筆片段是相當累人的工作)。
▲ Clips 是款輕巧並搭載人工智慧的攝影機。(Source:Google)
▲ 收集大量資料後,就可以推算出整部影片的分數。
將資料庫交給類神經網路
有了評分的資料後,接下來開發團隊要定義「影片有趣的原因」,於是他們假設影片中如人物、動物、樹木等景物可能是吸引人的元素,並從 Google 圖像資料庫超過 27,000 筆不同的標籤挑選數百種重要的標籤,用於辨識影片中的景物。
再使用伺服器級的電腦訓練後,開發團隊為運算效能有限的裝置,打造了較小巧的 MobileNet Image Content Model 演算法模型,並挑選更關鍵的標籤,以利將運算能力集中於刀口。
訓練的最後一步,就是將 Image Content Model 演算法模型計算出的數據,與人類評定的分數互相比較,如此一來演算法就知道哪些特徵是人類覺得有趣的部分。如此一來操作過程中,即便畫面景物從未出現於訓練資料,但系統仍可以判斷哪些是人類覺得有趣的部分,進而自行判斷最佳拍攝時機。
▲ Image Content Model 演算法模型可以計算每張畫格的分數,並經分段式線性回歸(Piecewise Linear Regression)後取平均,就可以統計出影片的「趣味分數」。
開發團隊也提到,由於 Clips 並不像自駕車那類裝置有移動能力,需要使用者放於特定位置或配戴在身上,因此「喬角度」就需依賴使用者的人肉智慧。
Clips 很慷慨的解釋演算法的實際製作過程,其實其他更複雜的更強效的應用也不過如此,一開始利用人類的分類讓機器去紀錄特徵,最後再由電腦做機率分布。
沒有留言:
張貼留言