
那么,機器是否也能夠像人類一樣,同時處理和學習多種模態的信息呢?這就是多模態人工智能(multimodal AI)的研究目標。多模態人工智能是人工智能的一個子領域,它旨在開發能夠同時處理和學習圖像、文本、音頻等多種模態數據的模型。多模態人工智能有助于提升機器對人類世界的理解和生成能力,從而實現更自然、更流暢、更高效的人機交互。
多模態人工智能的核心技術之一是多模態預訓練大模型(multimodal pre-trained large model)。這種模型利用海量的無標注或弱標注數據進行自監督學習,從而學習到不同模態數據之間的共性和關聯性,并形成一個統一的知識表示空間。在這個空間中,不同模態的數據可以相互轉換和生成,比如從圖像生成文本描述,或者從文本生成語音播報。這種模型可以有效地降低對數據標注的依賴性,同時提高對不同場景和任務的泛化性。
近年來,隨著計算資源和數據規模的增長,多模態預訓練大模型取得了令人矚目的進展。國內外的研究機構和企業紛紛推出了各自的多模態大模型,并在各種應用場景中展示了其強大的性能和潛力。例如:
中國科學院自動化研究所發布了“紫東太初”跨模態通用人工智能平臺1,該平臺以三模態(視覺-文本-語音)預訓練大模型為核心,可支撐全場景AI應用。該平臺首次實現了“以圖生音”和“以音生圖”的功能,對視頻配音、語音播報、標題摘要、海報創作等多元媒體業務場景提供了技術支撐。
阿里達摩院發布了萬億參數AI大模型M62,該模型是國內首個實現商業化落地的多模態大模型。M6已經作為AI助理設計師正式上崗阿里新制造平臺犀牛智造2,通過結合潮流趨勢進行快速設計、試穿效果模擬,有望大幅縮短快時尚新款服飾設計周期。
谷歌推出了CLIP和DALL-E兩個多模態大模型,分別實現了從圖像到文本和從文本到圖像的轉換和生成。CLIP可以根據文本提示從海量圖像中檢索出最相關的圖像,或者給出圖像的文本描述。DALL-E可以根據任意的文本輸入生成逼真的圖像,甚至可以創造出一些不存在的事物,比如“一個穿著西裝的鱷梨”或者“一個長著貓耳朵的蛋糕”。
這些多模態大模型不僅展示了機器對多種模態數據的理解和生成能力,也體現了機器具有一定的認知和創造能力。這些能力是通向通用人工智能(AGI)的重要步驟,也是人工智能領域的前沿探索。多模態人工智能的未來必將風光無限,讓我們拭目以待!