11月26日,在湖北武漢舉行的2024東湖國(guó)際人工智能高峰論壇上,“紫東太初”大模型3.0全球首發(fā)。
2021年發(fā)布的“紫東太初”大模型1.0是全球首個(gè)圖文音三模態(tài)大模型,由中國(guó)科學(xué)院自動(dòng)化研究所聯(lián)合武漢人工智能研究院研發(fā)。2023年,“紫東太初”大模型2.0發(fā)布,其在原有三模態(tài)基礎(chǔ)上,進(jìn)一步融入視頻、信號(hào)、3D點(diǎn)云等多種模態(tài)數(shù)據(jù),具備全模態(tài)理解能力、生成能力和關(guān)聯(lián)能力。
日前在2024年世界科技與發(fā)展論壇期間發(fā)布的《2024年人工智能十大前沿技術(shù)趨勢(shì)展望》中,“全模態(tài)大模型:打破數(shù)據(jù)壁壘”被列入其中。與多模態(tài)大模型相比,全模態(tài)大模型有何不同之處?它將為相關(guān)行業(yè)帶來(lái)哪些變化?科技日?qǐng)?bào)記者就這些問(wèn)題采訪了相關(guān)專家。
延伸升級(jí)多模態(tài)
全模態(tài)大模型是一個(gè)綜合性概念,指的是一種能夠處理、理解和生成多種模態(tài)數(shù)據(jù)的人工智能模型。中國(guó)科學(xué)院自動(dòng)化研究所紫東太初大模型研究中心常務(wù)副主任、武漢人工智能研究院院長(zhǎng)王金橋解釋,多種模態(tài)包括但不限于文本、圖像、音頻、視頻、傳感器數(shù)據(jù),以及結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)等。
“全模態(tài)大模型的核心目標(biāo)是通過(guò)統(tǒng)一架構(gòu),完成多模態(tài)數(shù)據(jù)的感知、理解、生成和推理任務(wù),提供通用解決方案,而無(wú)需針對(duì)特定模態(tài)單獨(dú)開(kāi)發(fā)模型。”北京科技大學(xué)智能科學(xué)與技術(shù)學(xué)院副教授王耀祖介紹,全模態(tài)大模型致力于實(shí)現(xiàn)模態(tài)間的無(wú)縫交互與信息融合,構(gòu)建一個(gè)統(tǒng)一的智能體系。
相比于全模態(tài)大模型,多模態(tài)大模型這一概念似乎更廣為人知。“從單模態(tài)到多模態(tài),再到全模態(tài)是人工智能大模型技術(shù)發(fā)展的必然趨勢(shì)。”王金橋認(rèn)為,全模態(tài)大模型在多模態(tài)大模型的基礎(chǔ)上,進(jìn)一步融合了更多種類(lèi)的模態(tài)數(shù)據(jù),提升了模型的認(rèn)知、理解和創(chuàng)作能力。因此,全模態(tài)大模型可以被視為多模態(tài)大模型的延伸和升級(jí)。
王耀祖解釋,傳統(tǒng)的人工智能系統(tǒng)需要為每種模態(tài)開(kāi)發(fā)單獨(dú)的模型,造成數(shù)據(jù)孤立和互通困難。而全模態(tài)大模型通過(guò)統(tǒng)一的表征學(xué)習(xí),將不同模態(tài)的數(shù)據(jù)映射到同一個(gè)語(yǔ)義空間,能夠消除模態(tài)隔閡,實(shí)現(xiàn)數(shù)據(jù)的跨模態(tài)融合和協(xié)作。
全模態(tài)大模型還可提升數(shù)據(jù)利用效率。在傳統(tǒng)架構(gòu)中,數(shù)據(jù)通常以模態(tài)為單位獨(dú)立存儲(chǔ)和處理,可能造成數(shù)據(jù)重復(fù)存儲(chǔ)和浪費(fèi)。而全模態(tài)大模型則允許系統(tǒng)以更加集約化的方式處理多模態(tài)數(shù)據(jù)。
“全模態(tài)大模型有望解決‘?dāng)?shù)據(jù)孤島’問(wèn)題。”王耀祖介紹,在醫(yī)療、工業(yè)制造、金融等行業(yè),數(shù)據(jù)常以模態(tài)為劃分依據(jù),彼此孤立。全模態(tài)大模型能夠作為橋梁,連接這些“孤島”,并挖掘出它們深層次的關(guān)聯(lián)。
促進(jìn)智能化發(fā)展
目前,一些國(guó)產(chǎn)大模型不斷提升多模態(tài)能力,在眾多領(lǐng)域落地。今年6月,華為云盤(pán)古大模型5.0發(fā)布,在全系列、多模態(tài)、強(qiáng)思維三個(gè)方面全新升級(jí)。盤(pán)古大模型5.0能更好更精準(zhǔn)地理解物理世界,包括文本、圖片、視頻、雷達(dá)、紅外、遙感等更多模態(tài)。盤(pán)古大模型已在30多個(gè)行業(yè)、400多個(gè)場(chǎng)景中落地,在政務(wù)、金融、制造、醫(yī)藥研發(fā)、煤礦、鋼鐵、鐵路、自動(dòng)駕駛、工業(yè)設(shè)計(jì)、建筑設(shè)計(jì)、氣象等領(lǐng)域發(fā)揮積極作用。王耀祖舉例說(shuō),湖南鋼鐵集團(tuán)與湖南移動(dòng)、華為合作聯(lián)合開(kāi)發(fā)的湘鋼盤(pán)古大模型,實(shí)現(xiàn)全廠關(guān)鍵設(shè)備在線監(jiān)測(cè)、提前預(yù)警和智能診斷,生產(chǎn)作業(yè)率提高20%;實(shí)現(xiàn)產(chǎn)品質(zhì)量在線判定、一鍵追溯和一鍵分析,分析效率提升60%。
“紫東太初”大模型在多領(lǐng)域發(fā)力,持續(xù)賦能行業(yè)智能化發(fā)展。在該大模型加持下,武漢人工智能研究院與華工科技打造的智能焊接智能體直接支持25種焊接工藝自動(dòng)化焊接;與九州通合作研發(fā)的智慧系統(tǒng),支持1萬(wàn)多種醫(yī)療骨科器械和耗材自動(dòng)化的管理;與國(guó)家體育總局推出面向奧運(yùn)人才體教融合的大模型……
王耀祖說(shuō),在現(xiàn)有大模型的基礎(chǔ)上,未來(lái)的全模態(tài)大模型可以整合更加多樣的數(shù)據(jù)類(lèi)型,讓分析更準(zhǔn)確、決策更智能、控制更精準(zhǔn)。
王金橋認(rèn)為,在醫(yī)療領(lǐng)域,全模態(tài)大模型可以更高效處理各種模態(tài)的海量病歷數(shù)據(jù),進(jìn)行臨床癥狀描述并檢驗(yàn)檢查結(jié)果,為醫(yī)生提供更加全面、精準(zhǔn)的診斷建議;在交通領(lǐng)域,它將進(jìn)一步助力智能交通系統(tǒng)建設(shè),提升交通運(yùn)輸效率和安全性,有效緩解交通擁堵;在教育領(lǐng)域,它能為每個(gè)學(xué)生量身定制學(xué)習(xí)方案,提高學(xué)習(xí)效果和學(xué)生滿意度……
“憑借超大規(guī)模參數(shù)和復(fù)雜計(jì)算結(jié)構(gòu),全模態(tài)大模型在多個(gè)行業(yè)中展現(xiàn)出巨大應(yīng)用潛力,未來(lái)能夠助力許多行業(yè)實(shí)現(xiàn)智能化、高效化和個(gè)性化發(fā)展。”王金橋說(shuō)。
開(kāi)發(fā)仍面臨難題
受訪專家認(rèn)為,全模態(tài)大模型有利于進(jìn)一步拓展人工智能的應(yīng)用場(chǎng)景,但這并不意味著全模態(tài)大模型將完全替代多模態(tài)大模型。王金橋說(shuō),在某些特定應(yīng)用場(chǎng)景下,多模態(tài)大模型已經(jīng)能滿足需求,這種情況就無(wú)需引入全模態(tài)大模型。
王耀祖也認(rèn)為,多模態(tài)大模型通常針對(duì)特定模態(tài)組合進(jìn)行優(yōu)化,適用于特定領(lǐng)域應(yīng)用。全模態(tài)大模型雖然通用性強(qiáng),但可能在某些領(lǐng)域表現(xiàn)不如專門(mén)設(shè)計(jì)的多模態(tài)大模型。同時(shí),全模態(tài)大模型對(duì)計(jì)算資源的需求遠(yuǎn)高于多模態(tài)大模型。對(duì)于許多中小型企業(yè)或資源受限的場(chǎng)景而言,多模態(tài)大模型仍是更為實(shí)際的選擇。
“全模態(tài)大模型的開(kāi)發(fā)與應(yīng)用,本身還面臨著一系列挑戰(zhàn),涉及技術(shù)、數(shù)據(jù)、資源、行業(yè)接受度等多個(gè)方面。”王金橋說(shuō),全模態(tài)大模型需要大量高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,收集、整理和標(biāo)注這些數(shù)據(jù)可能耗費(fèi)大量資源。數(shù)據(jù)的質(zhì)量和多樣性對(duì)大模型的性能有很大影響,而某些領(lǐng)域的數(shù)據(jù)可能難以獲得或獲取成本過(guò)高。
王耀祖還提到,大模型容易受到數(shù)據(jù)偏差的影響,可能生成帶有偏見(jiàn)或有害的內(nèi)容。此外,大模型在處理隱私信息時(shí)也存在一定風(fēng)險(xiǎn)。因此,開(kāi)發(fā)全模態(tài)大模型時(shí),還需要進(jìn)一步研究、監(jiān)測(cè)大模型中的潛在偏見(jiàn),并且在訓(xùn)練過(guò)程中引入隱私保護(hù)機(jī)制,以保護(hù)用戶數(shù)據(jù)安全。
“未來(lái),我們需要優(yōu)化數(shù)據(jù)采集與處理、簡(jiǎn)化模型結(jié)構(gòu)、加強(qiáng)行業(yè)合作與定制化開(kāi)發(fā)、建立倫理和監(jiān)管框架,逐步克服難題,推動(dòng)全模態(tài)大模型在更多領(lǐng)域應(yīng)用。”王金橋說(shuō)。