本報電(記者劉峣)近日,北京智源人工智能研究院正式發布原生多模態世界模型Emu3。該模型實現了視頻、圖像、文本三種模態的統一理解與生成,成功驗證了基于下一個token(詞元)預測的多模態技術范式,釋放其在大規模訓練和推理上的潛力。
據了解Emu3只基于下一個token預測,無需擴散模型或組合式方法,把圖像、文本和視頻編碼為一個離散空間,在多模態混合序列上從頭開始聯合訓練一個Transformer。
智源研究院院長王仲遠表示,Emu3為構建多模態通用人工智能提供了廣闊的技術前景,有機會將基礎設施建設收斂到一條技術路線上,為大規模多模態訓練和推理提供基礎。未來,多模態世界模型將促進機器人大腦、自動駕駛、多模態對話和推理等場景應用。