精品在线综合视频,黑人巨大精品欧美视频一区

AI“百模大戰(zhàn)”風向變了？360、美圖先后出招視覺大模型上演“神仙打架”-當前消息

2023-06-22 12:44:20 華夏時報

隨著AI大模型研發(fā)應用熱潮持續(xù)高漲，記者注意到，賽道內的玩家開始將重心從語言大模型轉向視覺大模型。近期，Adobe、Meta、360、美圖等多家國內外互聯(lián)網(wǎng)頭部企業(yè)紛紛發(fā)表大模型成果，為本就火熱異常的AI市場再添了一把火。

“人工智能在視頻領域的應用越來越受到重視?！敝袊ㄐ殴I(yè)協(xié)會兩化融合委員會副會長吳高斌向《華夏時報》記者表示，這些大型AI模型的發(fā)布為企業(yè)間的競爭帶來了新的動力。企業(yè)之間的競爭將促進技術創(chuàng)新和進步，同時也將帶來更好的產品和服務。競爭還將促進企業(yè)間的合作和共享資源，從而更好地滿足市場需求。

(資料圖)

海內外視覺大模型“神仙打架”

在鱗次櫛比的語言大模型、多模態(tài)大模型紛紛涌現(xiàn)之后，“視覺大模型”成為又一個兵家必爭之地。日前，美圖發(fā)布AI視覺大模型MiracleVision，一同發(fā)布的還有AI視覺創(chuàng)作工具WHEE、AI數(shù)字人生成工具DreamAvatar、美圖AI助手RoboNeo等7款產品。

據(jù)介紹，MiracleVision具有強大的視覺表現(xiàn)力和創(chuàng)作力，能從繪畫、設計、影視、攝影、游戲、3D、動漫等視覺創(chuàng)作場景反推技術演化。與市面上其他大模型不同，它尤其擅長亞洲人像攝影、國風國潮、商業(yè)設計等生成方向。

美圖公司創(chuàng)始人、董事長兼首席執(zhí)行官吳欣鴻在接受《華夏時報》記者采訪時表示：“美圖大模型的核心優(yōu)勢是‘懂美學’，C端用戶基礎足夠大，大模型冷啟動的獲客成本低，美圖目前有2.43億的月活用戶，全球VIP會員數(shù)為719萬，能在短時間去驗證產品成功與否。不同于其他廠商，美圖大模型聚焦于美學（畫面畫質設計等），未來如果非要競爭，會在美學上面去‘卷’?！?/p>

無獨有偶，360也日前正式發(fā)布“360智腦－視覺大模型”。 360創(chuàng)始人周鴻祎表示，大語言模型是構建視覺大模型的基礎，多模態(tài)能力增強的核心是借助了大語言模型的認知、推理、決策能力。同時，視覺大模型也是“360智腦”的重要能力組成，能夠看懂圖片，未來還能看懂視頻、聽懂聲音。

海外企業(yè)也已經開始在視覺大模型上布局。日前，社交媒體巨頭Meta宣布，將向研究人員開放一個名為I-JEPA的“類人”人工智能模型的部分組件，該模型可以比現(xiàn)有模型更準確地分析和完成未完成的圖像，而不是像其他生成式人工智能模型那樣，只根據(jù)附近的像素進行推斷。

Meta公司首席人工智能科學家楊立昆曾公開指出，當前的GPT自回歸模型存在缺乏規(guī)劃、推理的能力，未來GPT系統(tǒng)或將被拋棄，并給出了他認為的正確答案——世界模型。據(jù)稱I-JEPA是第一個基于其愿景關鍵組成部分的AI模型，能比現(xiàn)有模型更準確地分析和完成未完成的圖像。

除此之外，Meta還發(fā)布了語音生成AI模型“Voicebox”，支持從文本中生成語音，能夠根據(jù)僅兩秒長的樣本匹配音頻風格，并將文本樣本轉換為另一種語言，在給定單獨的語音樣本的情況下，并能夠以說話者的原始語音朗讀翻譯后的文本內容，目前支持六種語言：英語、法語、德語、西班牙語、波蘭語和葡萄牙語。

而早在今年4月，Adobe便將其Adobe Firefly功能（類ChatGPT產品）集成在Premiere Pro、After Effects、Audition、Remix等音視頻產品矩陣中，為用戶提供一鍵生成內容、剪輯、調色、更換音樂等功能。

從“語言大模型”到“視覺大模型”

《中國人工智能大模型地圖研究報告》顯示，從全球已發(fā)布的大模型數(shù)量及分布來看，中國和美國大幅領先，超過全球總數(shù)的80%。同時，歐洲、俄羅斯、以色列等越來越多的研發(fā)團隊也在投入大模型研發(fā)。但值得注意的是，我國在計算機視覺等領域的大模型還較少。

究其原因，北京智源研究院訪問首席科學家顏水成向《華夏時報》記者表示：“現(xiàn)在視覺模型發(fā)展稍微滯后的主要原因，是因為視覺大模型吃算力吃得比文本要大很多，所以我們也期待芯片更快速的發(fā)展，甚至有可能把非GPU其他的芯片融合在一起來做?，F(xiàn)在大家見到的模型一般千卡級比較常見，但可能明年就有人會用萬卡級來做?！?/p>

而在北京智源人工智能研究院院長黃鐵軍看來，視覺領域是大模型領域下一個浪潮的重點。他指出，視覺大模型和語言大模型背后的思想方法和基本路線是異曲同工的，只是輸入的數(shù)據(jù)變成了圖像和視頻，訓練出來的模型則具有一定的通用視覺語言能力，一種是之前提到的AIGC（人工智能自動生成內容），可以生成圖像和藝術品，“還有一種更基本的能力，就是看到世界之后，得首先能把這個世界（萬物）分清?！?/p>

對于視覺大模型的發(fā)展，不少機構也表達出看好的態(tài)度。中金研究發(fā)布的研報認為，計算機視覺未來有望實現(xiàn)更高程度的自動化、高精度和低功耗，進一步豐富元宇宙的內容生態(tài)，降低進入門檻。計算機視覺的進步引領了三維重建和動捕技術快速成熟，并逐漸在各自的領域積累技術進步。計算機視覺未來有望迎來更高程度的自動化、更高的精度，以及更低的功耗，逐漸在移動端實現(xiàn)更好的視覺效果，被應用在大量下游行業(yè)，逐漸邁向連接物理世界和數(shù)字世界的長期愿景。

中信證券研究也表示，在設計領域，大模型引領數(shù)字設計走向智能設計，相關工業(yè)設計軟件結合GPT等技術，可應用在設計規(guī)劃、布局優(yōu)化、插件助手、草圖繪制等場景，工業(yè)設計軟件有望在AI升級的大趨勢下迎來新一輪生產力革命。

（文章來源：華夏時報）

關鍵詞：