人工智能算法與Python大數據 致力于提供深度學習、機器學習、人工智能干貨文章,為AI人員提供學習路線以及前沿資訊
22篇原創內容
公眾號
點上方人工智能算法與Python大數據獲取更多干貨
在右上方 ··· 設為星標 ★,第一時間獲取資源
僅做學術分享,如有侵權,聯系刪除
轉載于 :新智元
英偉達的藝術家神器GauGAN最近發布了第二代,生成風景畫的能力進一步提升,原來還需要自己指定一些材料合成圖像,現在只需要一句話即可生成你想要的風景畫,甚至季節等常識他也懂!
最近,英偉達發布了實時繪畫工具GauGAN的第二代,主要特性是支持輸入文本來生成圖像。在新版本中,GauGAN2集成了segmentation mapping, inpainting和text-to-image生成技術,用戶可以生成一些在現實生活中并不存在的風景。GauGAN2的目標是創造一種混合文字和圖像的一種攝像技術!與專門用于文本到圖像或圖像到圖像分割應用的最新模型相比,GauGAN2背后的神經網絡模型能夠產生了更加多樣、質量更高的圖像。用戶不必繪制想象場景中的每一個元素,只需要輸入一個簡短的短語就能夠快速生成圖像的關鍵特征和主題,例如輸入雪山,就能夠生成一個雪山的草圖。然后以這個草圖為起點,進行下一步的圖像修改,例如把山變高,加幾棵樹,換一個天空等等,可以說是十分方便了!GauGAN這個名字的靈感來自于印象派畫家保羅·高更(Paul Gaugin),他死后作品才開始名聲大噪。他是印象派的代表人物,除去繪畫之外,在雕塑、陶藝、版畫和寫作上也有一定的成就。他對色彩的使用導致了綜合主義的產生,加上分隔主義的影響,也為原始主義的產生鋪平了道路。從2019年開始,Nvidia就給GauGAN系統喂了超過100萬張公共Flickr圖片進行模型訓練。2019年3月,在加州圣何塞舉行的GPU技術大會(GTC)上,Nvidia揭開了GauGAN的面紗,這是一種生成對抗性AI系統,可以讓用戶創建實際并不存在的逼真風景圖像。GauGAN測試版在Playground平臺上發布后的第一個月,就已經生成了50萬張圖片,包括電影、視頻游戲等概念藝術領域均有應用。Nvidia表示,GauGAN已經被一家醫療保健組織用于探索性治療工具使用,動畫建模師Colie Wertz也在使用GauGAN,他的作品包括《星球大戰》、《變形金剛》和《復仇者聯盟》等。GauGAN的首次公開使用是在GANPaint Studio中,這是一個公開的人工智能工具,可讓用戶上傳任何照片并編輯所描繪的建筑物,植物群和固定裝置的外觀。在其他地方,生成機器學習模型已被用于通過觀看YouTube剪輯,從自然語言標題創建圖像和故事板,以及使用包含人類語音的音頻剪輯來動畫和同步面部運動來生成逼真的視頻。與GauGAN的第一代一樣,GauGAN2知道雪、樹、水、花、灌木、山和山等物體之間的關系,例如降水類型隨季節變化這種常識在圖像生成中也能夠保持。GauGAN和GauGAN2同樣還是基于對抗生成網絡(GAN),模型中包含一個生成器和判別器。生成器用來接收輸入樣本(一個文本和一個圖像)然后預測出這個文本描述是否和風景圖像內容能對應上。生成器的訓練過程是通過試圖欺騙判別器,使其無法分辨生成圖片和現實場景的圖片。雖然GAN在初期生成的質量很差,一眼假,但它的生成器會隨著判別器的反饋而不斷變強。在第一代基礎上,GauGAN2接收了超過1000萬張圖片的訓練,已經能夠很好地將自然語言轉換為風景圖像。例如輸入「海灘上的日落」就會產生一對應的風景圖,在這基礎上添加諸「落基山海灘上的日落」或將「日落」替換為「下午」或「雨天」等形容詞也會立即生成修改后的圖片。使用GauGAN2,用戶可以生成一個分割圖(segmentation map),能夠顯示場景中物體位置。用戶可以將生成的圖像切換到繪圖模式,用天空、樹、巖石和河流等標簽將場景繪制成粗糙的草圖,并能夠使用畫筆將涂鴉嵌入圖像中。GauGAN2和OpenAI的DALL-E差不多,DALL-E也是根據文本提示來生成圖像。這類系統本質上是視覺創意的創造器,在電影、軟件、視頻游戲、產品、時尚和室內設計方面有潛在的應用場景。Nvidia聲稱,GauGAN的第一個版本已經被用來創造電影和視頻游戲的概念藝術。并且與第一版相同,Nvidia計劃在GitHub上開源GauGAN2 的代碼,并在Playground上進行交互式演示,Playground是Nvidia AI和深入學習研究的網絡中心。但,像GauGAN2這樣的生成模型的一個缺點是可能存在模型偏見。在Dall-E的生成樣例中,OpenAI使用了一個特殊的模型CLIP來提高圖像質量,用到的方法是在DALL-E生成的每條樣本中把頂層樣本給覆蓋掉,換成其他的提示圖。但是一項研究發現,CLIP錯誤分類的黑人個人照片的比例更高,并且它會認為從事諸如保姆、和家政工人等職業是和婦女相關的。在相關新聞材料中,Nvidia并沒有說明他們的研發團隊如何審核GauGAN2中的社會偏見。但Nvidia發言人在郵件中說過,該模型有超過1億參數,并使用風景數據集中訓練了一個月。這個專用的模型完全專注于風景景觀,研究人員審計以確保在訓練圖像中沒有人物的出現。目前來說,GauGAN2只是一個研究演示。另一個GauGAN的應用是Nvidia Canvas,能夠讓創作者通過材料而不是顏色來繪畫。這個程序能夠實時現實繪畫結果,而不需要等待完整的繪畫。用戶首先用現實世界的材料,如草地或云彩,畫出簡單的形狀和線條。人工智能模型然后立即填充屏幕顯示停止的結果。四個快速的形狀和一個驚人的山脈出現。再多幾條線就會形成一片美麗的田野。NVIDIA canvas也提供了多種材料可供使用。NVIDIA畫布有九種風格,修改的外觀和感覺的繪畫和15種不同的材料,從天空和山脈,河流和石頭。在不同的圖層上繪制,使元素保持分離。從頭開始,或啟動和修改應用程序的預制場景之一,以獲得更完美的靈感提示。在池塘里畫畫,附近的元素如樹木和巖石就會出現在水中的倒影。換一種材料,把雪變成草,整個形象就從一個冬天的仙境變成了一個熱帶的天堂。該工具允許藝術家使用樣式過濾器,改變生成的圖像,以采用特定的畫家的風格。不僅僅是把其他圖片拼接起來,或者剪切和粘貼紋理,而是創造全新的圖像,就像藝術家一樣。參考資料:
https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/
本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請
點擊舉報。