世界信息:海天瑞聲擬定增募資不超7.9億元 投向AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)等項(xiàng)目
2023-06-21 21:41:14    證券時(shí)報(bào)·e公司

海天瑞聲(688787)6月21日晚間公告,擬定增募資不超7.9億元,用于投資AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目、數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目。


【資料圖】

公告顯示,海天瑞聲主要從事AI訓(xùn)練數(shù)據(jù)的研發(fā)設(shè)計(jì)、生產(chǎn)及銷售業(yè)務(wù)。公司通過(guò)設(shè)計(jì)數(shù)據(jù)集結(jié)構(gòu)、組織數(shù)據(jù)采集、對(duì)取得的原料數(shù)據(jù)進(jìn)行加工,最終形成可供AI算法模型訓(xùn)練使用的專業(yè)數(shù)據(jù)集,用軟件形式向客戶交付。

本次募集資金兩項(xiàng)投資項(xiàng)目,將全部圍繞海天瑞聲主營(yíng)業(yè)務(wù)展開(kāi)。

其中,AI大模型訓(xùn)練數(shù)據(jù)集建設(shè)項(xiàng)目是通過(guò)建設(shè)應(yīng)用于通用和特定垂直領(lǐng)域的AI大模型訓(xùn)練數(shù)據(jù)集,提升行業(yè)內(nèi)面向大模型訓(xùn)練數(shù)據(jù)集的類別和質(zhì)量。

公開(kāi)資料顯示,雖然中國(guó)數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,以及大量數(shù)據(jù)無(wú)法在市場(chǎng)上自由流通等原因,優(yōu)質(zhì)中文數(shù)據(jù)集仍然稀缺。

以ChatGPT為例,其模型訓(xùn)練數(shù)據(jù)中,中文數(shù)據(jù)來(lái)源不足千分之一。目前,國(guó)內(nèi)頭部科技企業(yè)主要基于公開(kāi)數(shù)據(jù)集以及自身特有的數(shù)據(jù)進(jìn)行大模型訓(xùn)練,但由于中文優(yōu)質(zhì)數(shù)據(jù)質(zhì)量以及數(shù)據(jù)資源的制約,國(guó)內(nèi)大模型的能力與以ChatGPT為代表的國(guó)際大模型相比仍存在一定差距。

而在本項(xiàng)目建成后,將提供可供大模型訓(xùn)練和評(píng)測(cè)的不少于10個(gè)品類的專業(yè)數(shù)據(jù)集,顯著提升行業(yè)內(nèi)面向大模型訓(xùn)練數(shù)據(jù)集的類別和質(zhì)量,協(xié)助實(shí)現(xiàn)公共數(shù)據(jù)、社會(huì)數(shù)據(jù)等各類高價(jià)值數(shù)據(jù)資源匯聚,實(shí)現(xiàn)基于大模型通用能力和垂直領(lǐng)域數(shù)據(jù)的訓(xùn)練學(xué)習(xí)。

海天瑞聲表示,將基于過(guò)往的數(shù)據(jù)服務(wù)經(jīng)驗(yàn),結(jié)合行業(yè)前沿需求,積極拓展大模型訓(xùn)練數(shù)據(jù)服務(wù)領(lǐng)域,力爭(zhēng)將大模型訓(xùn)練數(shù)據(jù)等創(chuàng)新業(yè)務(wù)打造成為具有潛在高增長(zhǎng)價(jià)值的新型業(yè)務(wù)板塊。

此外,截至2022年底,海天瑞聲累計(jì)服務(wù)客戶數(shù)量已達(dá)到810家,包括阿里巴巴、騰訊、百度、科大訊飛、??低暋⒆止?jié)跳動(dòng)、微軟、亞馬遜、三星、中國(guó)科學(xué)院、清華大學(xué)等全球主流企業(yè)、教育科研機(jī)構(gòu)以及政企機(jī)構(gòu)。

海天瑞聲的存量客戶與新業(yè)務(wù)的客戶重合程度較高,且存量客戶群中的部分頭部企業(yè)已輸出或計(jì)劃輸出其大模型產(chǎn)品與服務(wù),為公司該項(xiàng)新業(yè)務(wù)拓展提供了客戶資源基礎(chǔ)。

根據(jù)德勤數(shù)據(jù),2022年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為45億元,2027年規(guī)模將達(dá)到130-160億元,年復(fù)合增長(zhǎng)率為23.6%-28.9%。

數(shù)據(jù)生產(chǎn)垂直大模型研發(fā)項(xiàng)目建設(shè)目標(biāo)則是通過(guò)大模型基礎(chǔ)研究,研發(fā)海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型,并以海天瑞聲數(shù)據(jù)生產(chǎn)垂直大模型為核心,升級(jí)海天瑞聲一體化技術(shù)支撐平臺(tái)。

公告稱,數(shù)據(jù)集生產(chǎn)能力和一體化技術(shù)支撐平臺(tái)是海天瑞聲核心技術(shù)的重要體現(xiàn)。目前 ChatGPT等模型執(zhí)行通用生成任務(wù)的效果證明了大模型可具備數(shù)據(jù)生成能力。

本項(xiàng)目的建設(shè)將基于海天瑞聲在深度學(xué)習(xí)階段數(shù)據(jù)集生產(chǎn)所積累的know-how,自主研發(fā)數(shù)據(jù)生產(chǎn)垂直大模型,構(gòu)建大模型數(shù)據(jù)處理技術(shù)通用化解決方案能力,實(shí)現(xiàn)完整、可持續(xù)迭代的大模型數(shù)據(jù)技術(shù)框架和數(shù)據(jù)策略,進(jìn)一步提高公司在人工智能基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)域的智能化水平。

海天瑞聲表示,本次募集資金投資項(xiàng)目是公司在現(xiàn)有主營(yíng)業(yè)務(wù)基礎(chǔ)上,結(jié)合市場(chǎng)需求和未來(lái)發(fā)展趨勢(shì),加大對(duì)公司核心主業(yè)重點(diǎn)產(chǎn)品及重要研究方向投資力度的體現(xiàn),符合國(guó)家大力支持人工智能發(fā)展的產(chǎn)業(yè)政策以及公司整體戰(zhàn)略發(fā)展方向。

(文章來(lái)源:證券時(shí)報(bào)·e公司)

關(guān)鍵詞: