泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

​ACG愛好者+程序員產生的無盡能量。

自從絆愛在2016年末發布了第一個視頻之後,這場名為虛擬偶像的大火就越燒越旺。

虛擬偶像被稱為vtuber,v是虛擬(virtual)的縮寫,而tuber則揭示了她們與正常人認知中偶像的區別:虛擬偶像主要的活動場所是在Youtube上,她們的頭像是虛擬的,身高體重等等人設都是虛擬的,只有背後的主播(又被稱為中之人)是真實的。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

自稱“世界第一名虛擬主播”的絆愛

​今天,在互聯網上活躍著成千上萬的虛擬偶像。她們有些隸屬於較大的企業,有專門的畫師負責製作人物的模型,發展比較好的還會有3D建模的支持;有些則隸屬於個人,很難得到3D模型,但是也得有具體的畫師在背後提供足以進行面部捕捉的人物立繪。

畫師,這個職業造就了虛擬偶像這個產業,也構成了“成為虛擬偶像”的基本門檻。即使早就有了Facerig這種簡易又方便的面部捕捉軟件,但是做一個能用的3D臉部模型對絕大多數沒有相關經驗的人來說還是太過困難

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

Facerig標誌性的小浣熊

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

但是面部捕捉的模型(即使只有個頭)並不簡單

​即使在Vtuber行業發達的日本,同時掌握3D建模和角色設計的人才也不算多。這點反映在市場價格上就是:在網上一個能用的3D虛擬偶像模型出價近4萬人民幣,更多的個人Vtuber都選擇了簡單的2D圖像疊加,這樣人物只能做出簡單的動作,比如擺頭或者眨眼——就算這樣,也需要幾千元人民幣的維護費用。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

2D圖像疊加而成的簡易Vtuber

​帕魯克·昆古恩(Pramook Khungurn)是一位在谷歌地圖日本分部工作的軟件工程師(不過他本人是一位畢業於美國康奈爾大學的泰國人)。之前他主要研究的領域是計算機圖形學,還對算法和機器學習有所涉獵。而在所有這些個人簡歷性質的描述之外,這位泰國程序員還是一位喜歡ACG文化的人。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

昆古恩在一篇自我介紹網誌中使用了長門有希作為封面圖片

​一直以來,他把自己計算機圖形學上的能力運用到了對ACG的個人興趣上,比如參與到雙葉頻道對計算機系統的擬人化。最近,他(就像日本很多ACG愛好者一樣)迷上了虛擬偶像。這位程序員當然也不會畫畫,但他找到了別的方式來“成為偶像”。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

昆古恩的工作成果

​昆古恩將虛擬偶像的模型交給深度神經網絡進行學習,讓AI學會瞭如何處理動漫人臉上的各個部分,就像上面那張圖一樣,通過調整“左眼”、“脖子”的參數,控制人臉的運動。他希望在此基礎上輸入任何一張人臉,都能做到如此自然地運動,就像下面這樣。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

奧巴馬與彩虹社的Vtuber們

​昆古恩的構想源於自動生成動漫人物的GAN圖庫以及衍生出的一系列動漫人物相關的圖片生成網絡。昆古恩覺得,既然深度學習的人工智能是未來動漫創作的重要工具,那麼深度學習是不是也能幫助創建Vtuber內容?

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

GAN自動生成動漫小姑娘的過程

​昆古恩先從簡單的2D模型下手,他先是截下了彩虹社(一個虛擬偶像企業)諸多vtuber做出不同姿勢(眨眼、轉頭)時的截圖,給定每種姿勢一個編號,導入到能自我學習的神經網絡中去——先教會AI識別這些人物的不同姿勢。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

絆愛的眨眼

​在系統有了一定的辨別能力後,昆古恩將GAN圖庫中的8000個模型加以處理後導入到神經網絡中。經過處理,這些看起來各不相同的動漫人物頭像其實都可以被拆分成多個部分,用算法生成她們沒有被畫出來的諸多姿勢。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

絆愛的側面拆解圖

​當然,拆分動漫人物的各種部位也不簡單。昆古恩發現現在大部分成熟的圖像識別技術都是用於真人的,而動漫人物和真人有很大的區別——比如動漫人物的頭往往很奇怪,有誇張的頭髮和誇張的尺寸。這一度成為一個嚴重的問題,昆古恩在博客裡寫道:“最大的問題是,我不知道她們的頭到底在哪……”為此他專門創建了一個識頭工具,這個工具能排除頭髮和帽子的干擾,準備判斷出人物的“頭骨”(也就是天靈蓋)。

最後,昆古恩完成了基本可用的“根據動漫圖自動生成Vtuber”學習網絡,這個網絡花了16小時分析了100萬張來源於GAN圖庫的圖片。現在,這個系統可以根據輸入的任何一張動漫圖片,來生成圖片中人物的諸多動作。使用者可以通過調整參數改變人物的表情,也可以直接導入到面部追蹤軟件中,讓軟件根據攝像頭捕捉到的真人表情自動調整參數。

泰國程序員開發VTuber形像生成系統,人人都能當虛擬偶像

昆古恩放出的可用模型

​唯一令人遺憾的是,昆古恩還沒能將這套系統開源並把它放到網上。在論述研究過程的論文末尾,他提到,由於他和谷歌日本的合同,谷歌方面有權要求獲得這項系統的專利權,他正在嘗試通過內部審查來將軟件、系統和神經網絡數據的版權分配給自己。

希望有朝一日自己上傳圖片當虛擬偶像的朋友可以關注昆古恩的Github頁面。

參考來源

喜歡這篇文章嗎?立刻分享出去讓更多人知道~