一、行業(yè)相關(guān)定義
多模態(tài)(Multimodality)是指集成和處理兩種或兩種以上不同類(lèi)型的信息或數據的方法和技術(shù)。在機器學(xué)習和人工智能領(lǐng)域,多模態(tài)涉及的數據類(lèi)型通常包括但不限于文本、圖像、視頻、音頻和傳感器數據。多模態(tài)系統的目的是利用來(lái)自多種模態(tài)的信息來(lái)提高任務(wù)的性能,提供更豐富的用戶(hù)體驗,或者獲得更全面的數據分析結果。
多模態(tài)大模型就是一種能夠理解和處理多種類(lèi)型的機器學(xué)習模型——而類(lèi)型也被叫做模態(tài),包括文本,圖片,音頻,視頻等。這種模型可以融合多種不同模態(tài)的信息,執行更復雜和智能的任務(wù);如視覺(jué)問(wèn)答(AI 面試官),圖文生成,語(yǔ)音識別與合成等。
二、行業(yè)市場(chǎng)規模
根據觀(guān)研報告網(wǎng)發(fā)布的《中國多模態(tài)大模型行業(yè)現狀深度研究與發(fā)展前景分析報告(2025-2032年)》顯示,多模態(tài)模型通過(guò)融合語(yǔ)言模態(tài)與圖像模態(tài),將語(yǔ)言模態(tài)包含的文本理解與思維鏈能力投射在圖像模態(tài)上,賦予了模型圖像理解與生成功能。從 AI 技術(shù)范式來(lái)看,多模態(tài)技術(shù)通過(guò)預訓練+調參的方式顛覆了傳統機器視覺(jué)小模型 CNN 高度定制化的業(yè)務(wù)模式,模型的泛用性大幅度提高。
在市場(chǎng)需求的增長(cháng)以及政策支持的背景下,我國大模型市場(chǎng)規模將不斷增長(cháng),預計到2025年市場(chǎng)規模將突破300億元。而多模態(tài)大模型作為AI模型的發(fā)展方向,在各項相關(guān)技術(shù)愈發(fā)成熟下,其應用領(lǐng)域也將愈發(fā)廣泛,比如說(shuō)商業(yè)定制、游戲和影視等。2024年上半年,國內多模態(tài)大模型行業(yè)市場(chǎng)規模為33.33億元,具體如下:
資料來(lái)源:觀(guān)研天下數據中心整理
三、行業(yè)供應規模
2023年生成式人工智能概念興起至今,國產(chǎn)生成式人工智能大模型如雨后春筍般涌現。截至目前,我國已初步構建了較為全面的人工智能產(chǎn)業(yè)體系,相關(guān)企業(yè)超過(guò)4500家,核心產(chǎn)業(yè)規模已接近6000億元人民幣,產(chǎn)業(yè)鏈覆蓋芯片、算法、數據、平臺、應用等上下游關(guān)鍵環(huán)節。
產(chǎn)品數量方面,生成式人工智能產(chǎn)品在我國百花齊放。截至2024年7月,我國完成備案并上線(xiàn)、能為公眾提供服務(wù)的生成式人工智能服務(wù)大模型已達190多個(gè),我國以大模型為代表的人工智能普及率達16.4%。
產(chǎn)業(yè)融合方面,生成式人工智能與各行各業(yè)的融合正在我國加速落地。生成式人工智能與制造業(yè)、農業(yè)、醫療、教育等傳統行業(yè)深度融合,推動(dòng)產(chǎn)業(yè)轉型升級,促進(jìn)新業(yè)態(tài)、新模式的不斷涌現。尤其在2024年,隨著(zhù)生成式人工智能技術(shù)的日趨成熟,各大科技企業(yè)的模型調用價(jià)格顯著(zhù)下降,從而明顯降低了其他行業(yè)對生成式人工智能技術(shù)的應用成本。
截至2024年11月,我國共有309個(gè)生成式人工智能產(chǎn)品完成備案,北京、上海、廣東三省的生成式人工智能備案產(chǎn)品數量占比分別達到31.1%、27.2%和11.7%。
生成式人工智能產(chǎn)品完成備案數量(截止2024年11月)
屬地 | 數量 | 屬地 | 數量 |
北京 | 96 | 上海 | 84 |
廣東 | 36 | 浙江 | 25 |
江蘇 | 18 | 四川 | 9 |
貴州 | 5 | 湖南 | 4 |
山東 | 4 | 天津 | 4 |
河北 | 3 | 重慶 | 3 |
海南 | 2 | 安徽 | 1 |
福建 | 1 | 河南 | 1 |
黑龍江 | 1 | 湖北 | 1 |
江西 | 1 | 遼寧 | 1 |
寧夏 | 1 | 陜西 | 1 |
云南 | 1 | 國資委 | 6 |
資料來(lái)源:中國互聯(lián)網(wǎng)絡(luò )信息中心,觀(guān)研天下數據中心整理
2024年以來(lái), 國內Al 大模型Q技術(shù)和應用逐漸從文本擴展至更多模態(tài)。隨著(zhù)OpenAI發(fā)布GPT-4系列多模態(tài)版本,掀起了國內外多模態(tài)理解大模型的研發(fā)熱潮和廣泛應用。
市場(chǎng)主流多模態(tài)大模型產(chǎn)品
模型名稱(chēng) | 所屬團隊 | 屬地 | 類(lèi)型 |
ChatGPT-4o-latest | OpenAI | 海外 | 閉源 |
GPT-4o-2024-05-13 | OpenAI | 海外 | 閉源 |
Step-1V-8k | 階躍星辰 | 國內 | 閉源 |
hunyuan-vision | 騰訊 | 國內 | 閉源 |
SenseChat-Vision 5.5 | 商湯 | 國內 | 閉源 |
Claude-3.5-Sonnet | Anthropic | 海外 | 閉源 |
InternVL2-40B | 上海人工智能實(shí)驗室 | 國內 | 開(kāi)源 |
Gemini-1.5-Pro | 海外 | 閉源 | |
ERNIE-4-Turbo | 百度 | 國內 | 閉源 |
Qwen2-VL-72B | 阿里云 | 國內 | 開(kāi)源 |
GLM-4V-Plus | 智譜AI | 國內 | 閉源 |
MiniCPM-V2.6 | 面壁智能 | 國內 | 開(kāi)源 |
GPT-4Turbo-0409 | OpenAI | 海外 | 閉源 |
海螺AI | MiniMax | 國內 | 閉源 |
Yi-Vision | 零一萬(wàn)物 | 國內 | 閉源 |
DeekSeek-VL-7b-chat | 深度求索 | 國內 | 開(kāi)源 |
Phi-3.5-vision-Instruct | 微軟 | 海外 | 開(kāi)源 |
資料來(lái)源:SuperCLUE-V,觀(guān)研天下數據中心整理
四、行業(yè)細分市場(chǎng)分析
1、C端市場(chǎng)
在面向C端用戶(hù)的,通用行政辦公類(lèi)應用和消費服務(wù)應用受AI大模型影響的智能化升級節奏更快,產(chǎn)品化落地較快,其主因是在數據可采集的渠道更加豐富且受監管的要求較低。2024年上半年中國多模態(tài)大模型toC市場(chǎng)規模約為20.00億元左右,具體如下:
資料來(lái)源:觀(guān)研天下數據中心整理
2、B端市場(chǎng)
面向B端用戶(hù)的,專(zhuān)業(yè)化程度較高的領(lǐng)域,例如醫療、金融、工業(yè)等行業(yè)的智能化升級需要更多專(zhuān)業(yè)領(lǐng)域的數據訓練,相應的商業(yè)化節奏較慢,其主因是行業(yè)的特殊性導致數據安全要求較高、試錯成本高、受監管要求較高等。2024年上半年中國多模態(tài)大模型toB市場(chǎng)規模約為13.33億元左右,具體如下:
資料來(lái)源:觀(guān)研天下數據中心整理
五、行業(yè)競爭格局
在大模型領(lǐng)域,國際巨頭布局大模型較早,或投資或自研(微軟作為 OpenAI 最大股東、谷歌自研 Gemini 系列、以及 Meta 自研 Llama 系列等),并利用大模型賦能各自原有的強勢業(yè)務(wù)線(xiàn),做產(chǎn)業(yè)升級。比如微軟用 GPT-4 賦能 Azure 云服務(wù)、Office365、搜索業(yè)務(wù)等;谷歌和 Meta 利用大模型生成創(chuàng )意廣告文案/圖片賦能廣告主,抑或是在廣告業(yè)務(wù)的多個(gè)環(huán)節提升精準度和效率。該模式常見(jiàn)于大廠(chǎng),大模型+原有業(yè)務(wù)即利用大模型的語(yǔ)言能力提升傳統業(yè)務(wù)的智能化水平,同時(shí)利用傳統業(yè)務(wù)積累的龐大數據資源反哺大模型持續迭代。
國內大模型的性能加速追趕海外。OpenCompass 于 2023 年 7 月由上海人工智能實(shí)驗室推出,構建了一套中英文雙語(yǔ)評測基準,旨在系統性分析國內外大模型的綜合客觀(guān)性能。通過(guò)其 24 年 1 月的榜單,我們觀(guān)測到智譜清言 GLM-4、阿里巴巴 Qwen-Max 和百度文心一言 4.0 具有較為全面的性能,在語(yǔ)言和知識等基礎能力維度上可比肩 GPT-4 Turbo。
目前,多模態(tài)是主流的迭代路徑,互聯(lián)網(wǎng)大廠(chǎng)利用生態(tài)優(yōu)勢將多模態(tài)能力融進(jìn)具體使用場(chǎng)景。和海外相似,國內大模型的迭代方向也能捕捉到多模態(tài)的趨勢。如百度文心一言的多模態(tài)體現在 toB 平臺“智能云千帆”,幫企業(yè)將大模型運用到需要文生圖、文生視頻的場(chǎng)景;訊飛星火則將多模態(tài)能力落地在教師助手、口語(yǔ)訓練等教育場(chǎng)景。多模態(tài)的訓練對參數規模和算力支持要求更高,芯片供給側的緊缺也一定程度上成為各平臺算力擴張的阻礙。
國內大模型規格對比
模型名稱(chēng) | 參數 | 模態(tài) | 上下文窗口 (tokens) | 是否開(kāi)源 | 所屬公司 |
文心一言 4.0 | 超萬(wàn)億 | 多模態(tài)(文本、視頻、圖像、音頻) | 約 2.8 萬(wàn)字 | 否 | 百度 |
ChatGLM-6B | / | 多模態(tài)(文本、圖像) | 12.8 萬(wàn) | 是 | 智譜 AI |
Qwen-72B | 720 億 | 多模態(tài)(文本、視頻、圖像、音頻) | 3 萬(wàn) | 是 | 阿里 |
盤(pán)古 3.0 | 100/380/710/1000 億(四個(gè)版本) | 多模態(tài)(文本、圖像) | - | 否 | 華為 |
星火開(kāi)源-13B | 130 億 | 多模態(tài)(文本、視頻、圖像、音頻) | - | 是 | 科大訊飛 |
資料來(lái)源:觀(guān)研天下數據中心整理
總體上,目前,我國多模態(tài)大模型企業(yè)不斷發(fā)展,如百度、騰訊、阿里巴巴、字節跳動(dòng)、華為等,憑借強大的技術(shù)實(shí)力、海量的數據資源、充足的資金支持以及豐富的行業(yè)經(jīng)驗,在多模態(tài)大模型領(lǐng)域占據重要地位。例如,百度的文心大模型在 2024 年 11 月的日均 tokens 調用量超過(guò) 1.5 億次,用戶(hù)規模達 7000 萬(wàn);騰訊的混元大模型上線(xiàn)視頻生成能力,引發(fā)關(guān)注;字節跳動(dòng)的豆包視覺(jué)理解模型以低價(jià)格吸引眾多客戶(hù)。
人工智能創(chuàng )業(yè)公司方面,以智譜 AI 為代表的初創(chuàng )企業(yè),通過(guò)技術(shù)創(chuàng )新和產(chǎn)品差異化,在市場(chǎng)中脫穎而出,獲得了一定的市場(chǎng)份額和用戶(hù)認可。如智譜 AI 完成 30 億元人民幣的新一輪融資,其 C 端產(chǎn)品 “清言” 用戶(hù)數達 2500 萬(wàn),商業(yè)化收入實(shí)現超 100% 的增長(cháng)。
科研院所和高校方面,像北京智源研究院、清華大學(xué)等,在大模型評測等方面取得優(yōu)秀成果,為行業(yè)發(fā)展提供了技術(shù)支持和理論指導,推動(dòng)了多模態(tài)大模型技術(shù)的進(jìn)步。(WWTQ)

【版權提示】觀(guān)研報告網(wǎng)倡導尊重與保護知識產(chǎn)權。未經(jīng)許可,任何人不得復制、轉載、或以其他方式使用本網(wǎng)站的內容。如發(fā)現本站文章存在版權問(wèn)題,煩請提供版權疑問(wèn)、身份證明、版權證明、聯(lián)系方式等發(fā)郵件至kf@chinabaogao.com,我們將及時(shí)溝通與處理。