只不過,更新後的 GPT-4o 影像生成器雖然獲得外界一致好評,但是算圖速度過慢以及經常當機、無法順利產出圖片等問題,卻也引來眾多使用者抱怨。長期以來,相對於單純處理文字輸入、輸出的大型語言模型(LLM),AI 算圖始終需要消耗大量算力以及足夠的生成時間,才能兼顧品質跟精確度。
對此,MIT 麻省理工學院和 NVIDIA 的研究人員,即聯手開發出了全新方法,結合市面上最常見的兩種 AI 影像生成方式,即「擴散模型」(diffusion model)及「自我迴歸模型」(autoregressive model),並擷取各自的主要優點打造出兼顧高品質影像細節,同時又成功縮短圖片生成時間的技術「HART」,有望開創 AI 媒體製作領域的全新未來。
採納「擴散模型」與「自我迴歸模型」優點
傳統上,擴散模型能夠創造出令人驚豔的逼真影像,例如由 OpenAI 所研發的 Dall-E,以及開創過往 AI 生圖熱潮的 Stable Diffusion 等,其背後運作都採用擴散模型技術,但是對於許多 AI 應用來說,擴散模型的運算量過大,進而導致圖片生成速度太慢,即是最為受到詬病的缺點。
另一方面,為 ChatGPT 等大型語言模型提供動力的自我迴歸模型,雖然處理速度更快,但它們產生出來的圖像品質卻比較差,而且經常充滿錯誤,令使用者於實際應用上難以恭維。
於是,麻省理工學院和 NVIDIA 研究人員,即嘗試整合了上述兩種 AI 影像生成方法,打造出一套混合式的全新工具 HART:它首先會透過自我迴歸模型,快速描繪出圖片的大致樣貌,接著再使用小型擴散模型,將影像品質精細化。
所需算力減少 31%,手機、筆電離線也能跑
根據研究人員說法,全稱「Hybrid Autoregressive Transformer」的 HART,不僅能夠產出跟最先進擴散模型相同等級、品質上甚至有所超越的 AI 影像,速度也比傳統方式快了約 9 倍,效果令人十分經驗。
更加令研究人員感到振奮之處在於,HART 跟傳統擴散模型相比,生成圖片所消耗的運算資源最多可降低 31%,資料吞吐量更能提升 7 倍,即便使用者是透過消費級筆記型電腦或手機,仍可輕鬆於本機離線運行,且同樣只需要利用自然語言輸入提示詞,即可輕鬆產生 AI 影像。
HART 技術論文共同第一作者 Haotian Tang 表示,傳統上 AI 如果要畫一幅風景畫,有點像是把整個畫布均勻塗抹過一遍,勾勒出一個大概樣貌,這就會導致圖片的最終效果不是很好,但如果在勾勒出整體畫面之後,再以較小的筆觸精細描繪,產出作品就會好看得多,這就是 HART 的基本運作邏輯。
生圖步驟降低至 8 次,主動修正錯誤細節
在技術實作方面,HART 使用自我迴歸模型來預測壓縮的「離散影像標記」,然後再使用小型擴散模型來預測殘留標記的內容,並補上離散標記所遺漏的細節,彌補自我迴歸模型模型運算時損失的資訊。
Haotian Tang 說,HART 成功為影像品質提升帶來巨大進步,它可以藉助離散標記學習,補上非常複雜的圖片細節,例如物件的邊緣、人的頭髮、眼睛或嘴巴等,這些都是過往 AI 影像生成技術容易出現錯誤的地方。
至於 HART 加速影像生成的方式,則是由於小型擴散模型僅在自我迴歸模型先全部運算過一遍後,才預測剩餘的圖片細節,因此只需經歷 8 次步驟(step)即可生成影像,而不是傳統擴散模型通常要求的 30 個甚至是更多步驟;這讓 HART 保留了自我迴歸模型的生成速度優勢,同時大幅提升產生複雜影像細節的進階能力。
在 HART 開發過程中,研究人員在如何整合擴散模型,並增強自我迴歸模型運算能力上遇到了挑戰;團隊發現,要是在自我迴歸模型運算的早期階段就協同擴散模型運作,影像的準確度誤差就會不斷累積,因此才轉為透過離散影像標記進行處理,並把該作業擺在生成步驟的最後,藉此有效改善圖片品質。
方便整合多模態 AI,自駕車環境模擬也適用
目前研究人員為 HART 採用了擁有 7 億個參數的自我迴歸模型,搭配利用 3,700 萬個參數進行訓練的小型擴散模型,嘗試進行圖片生成及品質比較,最終能夠獲得跟擁有 20 億個參數的擴散模型,十分接近的影像品質,速度卻快上了約 9 倍,算力消耗也減少了約 31%。
此外,由於 HART 使用自我迴歸模型來完成大部分的工作,跟傳統上的大型語言模型沒有太大差異,因此更適合與次世代的多模態 AI 模型進行整合,藉此解決生活中常見且需要視覺導引的問題,比方說讓 AI 生成組裝家具時的中間過程,而不是單純參考步驟簡略的說明書。
研究人員表示,大型語言模型是各種 AI 應用的良好介面,無論是多模態或推理模型,都可以在新型、高品質、快速且高效率的影像生成器幫助下,釋放出無限多的運用可能性。
不僅如此,讓 AI 快速產生高品質影像的能力,對於重現逼真的模擬環境至關重要,甚至可用於訓練自動駕駛汽車,先行以避開難以預測的危險,從而使其在真實街道上行駛更加安全。
技術示範網站上線,開放使用者親身體驗
未來,研究人員也希望透過 HART 技術打造出視覺語言模型(VLM),並且應用於視訊、音訊生成等,更加複雜與豐富的 AI 任務。
對於 HART 有興趣的讀者,目前已經可以透過麻省理工學院所架設的示範網站,親身體驗這項技術帶來的嶄新體驗。
雖然 HART 仍無可避免會出現傳統 AI 影像生成工具經常發生的缺陷,例如透視失敗或物理上的錯誤描繪,但其運算效率、速度和延遲方面的巨大優勢,確實令外界感到非常期待。
本文授權自科技報橘,原文見此。