證券時報記者 周春媚
“大模型對數據采集、搖錢標注等方面的樹還獸大數據商要求都非常高。以前大家還在卷價格,吞金pg電子官方網站但現在處理一條數據,模型成本甚至能達到幾百塊錢??简灐痹谝粓龃竽P驼Z料數據推介會中,服務北京晴數智慧科技有限公司(下稱“晴數智慧”)的搖錢數據專家喬天說道。
作為一家數據服務公司,樹還獸大數據商晴數智慧主要為人工智能研發企業和科研機構提供高質量的吞金AI訓練數據集及專業咨詢服務。喬天的模型感受并不是個例。證券時報記者采訪多家AI數據服務商發現,考驗今年以來大模型的服務火熱,為一批AI數據服務商帶來了更多訂單需求,搖錢卻也極大提升了數據產品和服務的樹還獸大數據商成本。
大模型時代,吞金機遇與挑戰并存。布局大模型是為未來種下一棵確定的“搖錢樹”,還是在養一只“錢”景不明的“吞金獸”?隨著三季報盡數出爐,部分上市公司的業績也透露出一個信號:AI數據服務商業績承壓,正面臨成本考驗。
收益——
需求井噴帶來更多訂單
算力、數據、算法,被稱為支撐AI大模型的pg電子官方網站三駕馬車。在今年的世界人工智能大會上,中信智庫專家委員會主任、中信建投證券研究所所長武超則表示,一個模型的好壞,20%由算法決定,80%由數據質量決定,未來高質量的數據將是提升模型性能的關鍵。
訓練大模型需要大量高質量的數據。如果將大模型比作一個學習者,那唯有提供優質的“學習材料”,才能讓其更有效地掌握知識,提升智力水平。隨著預訓練大模型技術的發展,對數據的質量和數量的要求也越來越高。根據德勤預測,2027年AI預訓練數據服務的市場規模有望達到160億元,5年復合增速為28.9%。
而且,目前大模型加速應用于千行百業,對于垂直領域高質量數據集的需求更是呈現井噴的狀態。記者梳理發現,A股主要的AI數據服務公司最近一段時間紛紛宣布,已與大模型公司或科研機構達成了合作。
比如,國內AI訓練數據龍頭海天瑞聲近期宣布與北京智源人工智能研究院正式簽署戰略合作協議,在大模型數據處理、大模型評測、數據集研發、人工智能標準研制等方面開展合作。拓爾思日前在投資者互動平臺表示,公司已與人工智能企業和國家級實驗室簽訂銷售合同,為其提供高質量、多元化的數據,作為大模型預訓練數據集。
“我們的一個明顯感受是,大模型在場景端實現了真正的爆發?!鄙虾祹炜萍际紫萍脊俨芊逶诮邮苡浾卟稍L時說。作為一家數據科技公司,數庫科技在金融及產業領域積累了龐大的數據產品與系統服務。曹峰告訴記者,如今客戶會基于大模型的能力提出許多以往技術達不到的需求,例如對現有研報和公告進行深度解析,將對上市公司調研的訪談內容形成文字并自動提取要點等等。
場景應用的多元化以及信息加工的深度化,都意味著更多和更復雜的數據需求。據介紹,這些數據有些需要借助大模型來生產,有些則是作為垂直領域大模型的訓練語料或者生成內容時的參考資料。
成本——
算力與人力開銷
水漲船高
雖然大模型橫空出世以前,AI數據服務商已經積累了不少成熟的數據產品,然而很多并不契合訓練大模型的要求?!按竽P凸揪拖駨N師,數據服務商就像菜農,廚師下單的一些‘食材’,是菜農之前沒有見過的?!必斀浶畔⒎丈田w迪科技創始人丘慧慧向記者做了一個生動的比喻。
“廚師”提出了定制化的、更高端的食材需求,“菜農”只能投入更多的精力、花費更高的成本去制作。這帶來的一個直觀影響,就是數據產品和服務的成本變高了。
具體是哪些地方需要花更多的錢呢?一名人工智能研究人員告訴記者,更高的成本主要體現在兩個方面——算力和人力。算力方面,由于大模型需對數據進行更深度、精細的挖掘,離不開更強大的算力支持,數據服務商往往需要租賃或者采購更多的芯片、顯卡等硬件資源。
人力方面,在過去相當長的一段時間里,AI數據服務,尤其是數據標注服務被視為勞動密集型產業,是臟活、苦活、低附加值的活。以數據標注為例,一些科技大廠和數據服務商常常在經濟欠發達的地區設立數據標注團隊,助力當地群眾就業的同時降低人力成本。然而在大模型時代,數據質量要求大大提升,數據處理難度變大,過往依賴低成本勞動力、“價低走量”的模式不再成立。
“以前中專生或高中生就可以滿足數據標注的要求,如今需要招聘大學生,甚至是碩士生、博士生,處理指定行業的垂直類數據?!币幻鸄I數據服務商向記者表示。據媒體報道,一家頭部大模型廠商建立的數據標注基地,第一批標注員的本科率達到了100%。毫無疑問,至少在現階段,大模型讓數據標注員的學歷卷起來了,人力成本自然也水漲船高。
除此以外,將數據“喂”給大模型之前可能需要對其進行初加工和預處理,需要搭建新的平臺。對于AI數據服務商而言,則需要布局數據存儲和處理的硬件設備,同時也必然伴隨著更多算法工程師的人力投入。而且在大模型浪潮下,一些積累了高質量行業數據的數據商已經不滿足于提供數據服務,而是自己下場搭建行業大模型——而這則是更大的一筆投資。
因此,布局大模型注定是一項“燒錢”的業務。反映在二級市場上,多家開展數據業務的A股上市公司發布了定增募資方案,以滿足大模型的研發投入。6月,海天瑞聲發布了向特定對象發行A股股票預案,擬募資不超過7.90億元,用于AI大模型訓練數據集建設項目、數據生產垂直大模型研發項目;7月,星環科技發布了向特定對象發行A股股票預案,擬募資不超過15.21億元,用于數據分析大模型建設項目、智能量化投研一體化平臺建設項目等;8月,拓爾思發布了向特定對象發行股票預案,擬募集資金不超過18.45億元,用于拓天行業大模型研發及AIGC應用產業化項目。
考驗——
AI數據服務商
業績普遍承壓
今年以來大模型持續火熱,點燃了一二級市場的投資熱情,但市場亦有質疑的聲音,擔憂高額的投資能否產生相應的回報。值得注意的是,在海天瑞聲和星環科技發布定增募資預案后,兩家公司均收到了監管部門的問詢函,要求就募資的必要性、公司的現有業務及相關市場前景等問題進行具體說明。
海天瑞聲9月對問詢函的回復中提到,目前已面世的大模型產品以通用大語言模型為主,垂直領域及多模態領域的大模型數量仍然較少,數據需求尚未充分釋放。鑒于公司下游大模型相關客戶的產品尚處于首代產品發布初期或研發階段,市場尚未大范圍應用,相關數據需求將在產品投放市場后進一步釋放,公司大模型業務相關收入未來有望進一步提升。
星環科技9月對問詢函的回復中提到,基于當前人工智能行業的發展趨勢以及市場競爭狀況,公司若不開展大模型相關研發,未來可能在相關領域無法繼續維持市場競爭優勢。
在新技術浪潮滾滾而來時,每一個人都害怕被潮流拋棄,因而加速布局新的業績增長點。然而,從三季度財務報表來看,AI數據服務商的業績普遍面臨不小的壓力。
記者還注意到,海天瑞聲于10月25日發布了定增調整方案,募資額由7.90億元下降至6.66億元,原計劃投向數據生產垂直大模型研發項目的擬投入募資金額縮水23.51%,原計劃投入AI大模型訓練數據集建設項目的擬投入募資金額縮水7.38%。
AI數據服務商業績承壓,押注大模型會否是一場危險的豪賭?這個問題或許還問得太早。一名券商人士向記者分析,搶占大模型商業化應用必然面臨高額的投入,但相關產業目前還在發展的初期,大模型尚需要時間下沉到更多的應用場景中,數據需求釋放也不是一朝一夕的事,無法以現階段的營收數據判斷未來的情況。
“做數據本身就是一項長跑,數據產業是一個長周期行業,需要提前布局和一些耐心?!鼻鐢抵腔蹌撌既藦埱缜缯f。她告訴記者,公司過去一直聚焦對話式的場景,積累了很多高質量的語音數據,其中就包括多說話人48kHz高采樣率的語音數據。最近,網絡上很多名人說地道外語或方言的AI合成視頻廣泛流傳,“視頻口譯”成為了很熱門的一項應用,支撐這項應用的關鍵技術之一的語音復刻技術,正是使用了多說話人高采樣率的數據實現的?!白罱蛭覀儐栐兊膹S商非常多,但前提是我們在這個方向默默耕耘了7年,一直在沉淀和積累這種數據?!睆埱缜缯f。
財通證券近期的一份研報指出,場景應用的落地成為AI大模型新一輪的發展動能,AI預訓練數據需求有望伴隨場景應用的落地而快速增長。研報進一步指出,隨著行業進入快速發展期,行業逐漸向多模態、合規化、半自動化演變,科技巨頭和專業預訓練數據服務商具備更強的研發優勢,有望形成資源整合和研發技術的壁壘,切分更多市場增量份額。
AI數據服務商有一個行業共識:大模型的出現對于數據產業是一個利好,2023年是數據產業高質量發展的元年。一位作家曾寫道,“你做三四月的事,在八九月自有答案?!盇I數據服務商們在元年種下的這顆種子,未來能夠開出怎樣的花、結出多少果,或許也唯有時間能給我們答案。
下一篇:谷歌專利暗示Pixel Watch 3有望使用“壓感觸控”,擠壓外殼交互
上一篇:東北大雪漫天飛,廣東空調直線吹!寒潮來襲,北方需防止這類中毒