91模特国产在线播放_国产精品国产三级国产av品爱网_少妇高潮久久久久久_激情婷婷一区二区三区四区_成人精品国产区免费_国产三级精品三级在线专区_成全世界免费高清观看_CHINESE国产HD中国熟女_色老头在线一区二区三区_少妇风流做爰全过程,极品91尤物被啪到呻吟爆白浆喷水,japanese from色系,日本XXXXX黄区免费看下载

爆火國產(chǎn)AI大模型背后的年輕人

稿源:南方人物周刊 | 作者: 南方人物周刊特約撰稿 藍曹 日期: 2025-01-20

DeepSeek大模型發(fā)布之后,,便如同一頭年輕的野獸,沖入公眾視野,,攪動整個AI圈 (本文首發(fā)于南方人物周刊)

(視覺中國/圖)

2024年歲末,,DeepSeek-V3大模型發(fā)布,迅速成為全球人工智能(AI)領(lǐng)域的焦點,,刷屏科技圈,,很多人化身“自來水”,在各大社交媒體,、科技論壇上發(fā)帖討論,,不吝溢美之詞。

在全球范圍內(nèi)的行業(yè)基準測試中,,DeepSeek-V3達到與Llama 3(開源大模型標桿,,由扎克伯格的Meta公司開發(fā))、GPT-4o(OpenAI大模型)相當?shù)乃?,闖入了多個AI大模型排行榜單前列,。聊天機器人競技場(Chatbot Arena)最新數(shù)據(jù)顯示,DeepSeek-V3位列開源模型榜第一,,在全模型榜單里排名第七,,也是中國模型中排名最高的。更令人詫異的是,,DeepSeek-V3模型訓(xùn)練所消耗的算力,,只有Llama的1/11。

DeepSeek-V3轟動AI圈,背后的中國公司深度求索(DeepSeek)也“浮出水面”,。硅谷同行稱其為“東方神秘力量”,,對DeepSeek團隊表現(xiàn)出濃厚的興趣。而在國內(nèi),,“雷軍千萬年薪挖角DeepSeek研究員羅福莉”的話題也上了社交平臺熱搜,。

不管是AI圈,還是“吃瓜群眾”,,都在好奇,,DeepSeek-V3大模型的背后,到底是一支什么樣的團隊,?

羅福莉(羅福莉個人公眾號/圖)

走出校園不久的年輕人

2024年12月底,,有媒體報道,雷軍以千萬年薪招攬一名“天才AI少女”來領(lǐng)導(dǎo)小米的AI大模型團隊,。這位95后“少女”名叫羅福莉,,過去兩年供職于DeepSeek團隊,曾參與DeepSeek大模型的關(guān)鍵研發(fā),。

羅福莉在北京大學讀計算語言學碩士期間,,曾因在ACL(國際計算語言學協(xié)會)學術(shù)會議上發(fā)表多篇論文而受到關(guān)注。畢業(yè)后,,她進入阿里巴巴達摩院,,從事預(yù)訓(xùn)練語言模型相關(guān)的工作。2022年加入深度求索母公司幻方量化,,之后成為DeepSeek大模型項目成員,。

DeepSeek-v3的出現(xiàn),讓很多人以為,,DeepSeek團隊必然有“大?!弊?zhèn)。但羅福莉走紅卻讓外界發(fā)現(xiàn),,真正的“大?!笔悄切┫袼粯拥哪贻p人。

2023年5月,,DeepSeek-V2發(fā)布,,相比于國內(nèi)外主流大模型,大幅減少了計算量和推理顯存,,一問世就備受關(guān)注,。做出這一突破性創(chuàng)新的,是年輕的高華佐和曾旺丁等人,。

兩人都剛從學校出來沒幾年,。高華佐來自廣東,,2012年在華南師范大學附屬中學就讀時,曾獲第29屆全國中學生物理競賽一等獎,,并于次年保送至北京大學物理學院學習,。曾旺丁來自湖南省新化縣,2017年至2023年就讀于北京郵電大學人工智能學院,,碩士期間主要學習人工智能方向,,導(dǎo)師為張洪剛,2018年曾獲全國大學生數(shù)學競賽(非數(shù)學類)二等獎,。

DeepSeek大模型的另一大突破,是通過一種名為GRPO的算法,,創(chuàng)新訓(xùn)練方法,,大大降低了成本。其中的主角,,依然是這些看似缺少經(jīng)驗的年輕人,。

核心成員之一邵智宏此前是清華大學交互式人工智能(CoAI)課題組博士生,主要研究自然語言處理,、深度學習,,對構(gòu)建穩(wěn)健且可擴展的AI系統(tǒng)有著獨特見解。他曾服務(wù)于微軟研究院,,加入DeepSeek團隊之后,,參與了多個重要項目的研發(fā),包括DeepSeek-Math,、DeepSeek-Prover和DeepSeek-Coder-v2等,。

GRPO算法創(chuàng)新的另一重要貢獻者是朱琪豪。這位北京大學計算機學院2024屆的博士畢業(yè)生,,專注于深度代碼學習研究,。在校期間,他展現(xiàn)了驚人的學術(shù)能力,,發(fā)表CCF(中國計算機學會)-A類論文16篇,,獲得了軟件工程領(lǐng)域頂級會議(ESEC/FSE)杰出論文獎。他的博士論文《語言定義感知的深度代碼學習技術(shù)及應(yīng)用》入選了2024CCF軟件工程專業(yè)委員會博士學位論文激勵計劃,。他在DeepSeek團隊最重要的工作,,正是基于自己的博士論文,主導(dǎo)開發(fā)DeepSeek大模型的一個關(guān)鍵項目,。

他的同學代達勱則在更早的時候加入這個團隊,,參與了DeepSeek大模型從V1到V3每一代的研發(fā),已經(jīng)是元老級研發(fā)人員,,也在學生時代獲得多項論文獎,。

負責DeepSeek大模型訓(xùn)練及推理基礎(chǔ)架構(gòu)的,,是同樣剛畢業(yè)的工程師趙成鋼。加入DeepSeek之前,,他曾在英偉達公司實習,。趙成鋼在學生時代就取得過令人艷羨的成績。在河北衡水中學就讀時,,他是信息學競賽班成員,,2016年獲得全國青少年信息學奧林匹克競賽銀牌。在清華大學讀大二時,,他成為學生超算團隊正式成員,,三次獲得世界大學生超算競賽冠軍。

DeepSeek團隊規(guī)模并不大,,不到140人,,工程師和研發(fā)人員幾乎都來自清華大學、北京大學,、中山大學,、北京郵電大學等國內(nèi)頂尖高校,鮮有“海歸”,,而且工作時間都不長,,不少還是在讀博士。即便是團隊的管理者,,也非常年輕,。

吳俁是DeepSeek后訓(xùn)練團隊的負責人,在進入深度求索之前,,只有4年工作經(jīng)驗,。他曾在微軟亞洲研究院工作,參與了小冰(AI聊天機器人)和必應(yīng)百科項目,。他是北京航空航天大學計算機學院2019屆博士,。

“我們的核心技術(shù)崗位,基本以應(yīng)屆和畢業(yè)一兩年的人為主,?!鄙疃惹笏鲃?chuàng)始人梁文鋒此前向媒體表示,做一件長期的事,,經(jīng)驗其實沒那么重要,,相比之下基礎(chǔ)能力、創(chuàng)造性和熱愛等更重要,。因此,,在組建DeepSeek團隊時,他招人的原則是“看能力,,而不是看經(jīng)驗”,。他認為,,或許目前世界排名前50的頂尖AI人才還不在中國,“但我們能自己打造這樣的人,?!?/p>

而這些一邊搞研發(fā)一邊寫論文的年輕人,也一次又一次帶給他驚喜,。

代達勱(北京大學計算機學院公眾號/圖)

便宜的大模型

DeepSeek大模型發(fā)布之后,,便如同一頭年輕的野獸,沖入公眾視野,,攪動整個AI圈,。

2024年5月,Deepseek-V2推出后,,不僅一鳴驚人,,還掀起了一場AI大模型價格戰(zhàn)。這款開源模型的推理成本僅為每百萬Token(詞元,,語言模型中用數(shù)字來表示單詞的最小語義單位,一個漢字約等于兩個詞元)1元人民幣,,只有Llama 3的1/7,,GPT-4 Turbo(OpenAI最新的語言模型)的1/70。

面對如此巨大的成本差,,國內(nèi)主流大模型不得不“忍痛”降價,,包括騰訊、百度,、阿里巴巴,、字節(jié)跳動等公司相繼更新了價格。僅僅半年之后,,Deepseek-V3模型發(fā)布,,輸入價格降至0.5元/百萬Token,又推動了新一輪的國產(chǎn)大模型降價潮,。2024年12月,,字節(jié)跳動下調(diào)旗下豆包視覺理解模型輸入價格,相比行業(yè)平均水平降低85%,。

DeepSeek因此有“價格屠夫”之稱,,也有人稱之為“AI界的拼多多”,甚至DeepSeek聊天機器人也用這一稱呼描述自己,。

然而,,與一些廠商依靠“燒錢”補貼維持低價不同,DeepSeek大模型雖然更便宜,,但依然有利潤,?!拔覀冎皇前凑兆约旱牟秸{(diào)來做事,然后核算成本定價,?!绷何匿h稱,DeepSeek不小心成了一條“鯰魚”,。

Deepseek大模型的“便宜”源于技術(shù)的突破,。深度求索公布的信息顯示,DeepSeek-V3模型全程訓(xùn)練只用了不到280萬個GPU小時(圖形處理器使用時間),,而Meta公司的Llama 3 405B模型訓(xùn)練時長是3080萬GPU小時,。

訓(xùn)練效率的大幅提升,來自于DeepSeek團隊在模型架構(gòu)和訓(xùn)練方法上的創(chuàng)新,。

2024年,,高華佐和曾旺丁等人在Transformer架構(gòu)(一種采用“注意力機制”的深度學習模型,2017年由谷歌推出后,,成為各類AI大模型的首選架構(gòu))的基礎(chǔ)上,,用新的MLA(多頭潛在注意力機制)替代了傳統(tǒng)的多頭注意力機制,壓縮數(shù)據(jù),,把推理顯存降至此前常用MHA架構(gòu)的5%-13%,;還借助自研的DeepSeekMoE結(jié)構(gòu),在保持性能的前提下,,極大減少了計算量,。這種架構(gòu)層面的創(chuàng)新,在國內(nèi)大模型公司中極為罕見,。

與此同時,,DeepSeek利用算法,把數(shù)據(jù)進行總結(jié)和分類,,經(jīng)過選擇性處理之后,,輸送給大模型,提高了訓(xùn)練效率,。而此前如OpenAI的訓(xùn)練方法則是“大水漫灌式”,,拿海量數(shù)據(jù)喂,需消耗更多資源,。這種訓(xùn)練方法的創(chuàng)新,,也降低了DeepSeek的成本。

深度求索官方信息顯示,,DeepSeek-V3大模型訓(xùn)練僅耗時不到兩個月,,花費了557.6萬美元和2048塊GPU(圖形處理器)。而斯坦福大學HAI研究院發(fā)布的《2024年人工智能指數(shù)報告》預(yù)估,,OpenAI的GPT-4模型訓(xùn)練成本約為7800萬美元,,GPT-4o則為1億美元,;谷歌Gemini Ultra的計算成本為1.91億美元。Meta于2024年7月發(fā)布的開源模型Llama3.1-405B,,則消耗了1.6萬塊GPU用于訓(xùn)練,。

DeepSeek-V3的出現(xiàn),實現(xiàn)了高性能與低成本的平衡,,給大模型發(fā)展提供了新的可能性,。“未來或許不需要超大規(guī)模的GPU集群了,?!監(jiān)penAI創(chuàng)始成員Andrej Karpathy表示。

也有學術(shù)專家認為不宜過高評價DeepSeek-V3的創(chuàng)新,,因為其成功更多得益于整合前人已有的技術(shù),,缺乏底層原理的創(chuàng)新。

站在“巨人”的肩膀上,,DeepSeek團隊也樂意將自己的創(chuàng)新共享給更多人,。DeepSeek-V3上線時,深度求索也同步開放源代碼,,并發(fā)布了53頁論文,,將模型的關(guān)鍵技術(shù)和訓(xùn)練細節(jié)全部分享給外界。

朱琪豪(北京大學計算機學院公眾號/圖)

在新技術(shù)浪潮中成為創(chuàng)新貢獻者

2023年5月,,梁文鋒成立了新公司“深度求索”。他對外宣布,,要做“真正人類級別的人工智能”,。在此之前,他是私募基金“幻方量化”的創(chuàng)始人,。

那時候,,網(wǎng)上已有傳聞稱,中國持有高性能GPU最多的機構(gòu)不是人工智能公司,,而是一家量化私募,。據(jù)《財經(jīng)》報道,2023年,,中國擁有1萬張以上GPU的企業(yè)不超過5家,,只有幻方量化不是科技“大廠”。

這顛覆了很多人的想法,。跟錢打交道的基金經(jīng)理,,為什么如此執(zhí)著于人工智能?

1980年代,,梁文鋒出生于廣東一座五線城市,。他的父親是一位小學老師,,那個時候,常有家長跑到他家,,表示“讀書沒用”,,不想讓孩子繼續(xù)念書,因為覺得廣東充滿了賺錢的機會,。但受父親的影響,,梁文鋒對知識一直充滿渴望。

在浙江大學攻讀信息與電子工程學本科和碩士時,,他對人工智能產(chǎn)生了濃厚的興趣,,篤信“人工智能一定會改變世界”。2008年畢業(yè)之后,,他和朋友一起做量化投資,,嘗試通過數(shù)學模型,用計算機程序進行交易,。

持續(xù)多年在量化投資領(lǐng)域的探索,,讓他對技術(shù)驅(qū)動型創(chuàng)新越發(fā)有了信心。2015年,,他與校友徐進成立“幻方量化”,。后者是浙江大學信號與信息處理博士,曾任職于華為技術(shù)有限公司上海研究所,。他們買了不少GPU,,打造研究室,開始嘗試借助AI技術(shù)構(gòu)建投資策略,。這幫助幻方量化在4年時間里成長為一家管理資金規(guī)模過百億的私募公司,。

2019年,他們成立了AI公司,,投資超過10億元,,先后研發(fā)了AI超級計算機“螢火一號”和“螢火二號”。其中,,“螢火二號”搭載了約1萬張英偉達A100顯卡,,算力超過72萬臺個人電腦。借助AI超級計算機,,幻方量化管理的資產(chǎn)在2021年突破1000億元,。

2022年底,ChatGPT的橫空出世讓已經(jīng)積累多年的梁文峰下定決心做通用人工智能,?!拔覀兘艘粋€名為深度求索的新公司,從語言大模型開始,后邊也會有視覺等,?!睂嶋H上,OpenAI公開論文和代碼后,,國內(nèi)外出現(xiàn)了許多大模型公司,。梁文峰認為,在未來20年,,大廠和創(chuàng)業(yè)公司都有機會,。

不過,直到第三代大模型發(fā)布,,DeepSeek團隊依然沒有上線相應(yīng)的應(yīng)用,,尚未全面考慮商業(yè)化,而且與多數(shù)國產(chǎn)大模型不同,,他們選擇了開源路線,。

梁文峰向媒體透露,他和團隊的目標并不是做一個應(yīng)用,,而是進行基礎(chǔ)研究,,只負責基礎(chǔ)模型和前沿的創(chuàng)新。

在互聯(lián)網(wǎng)時代,,很多人都會有一種慣性思維,,認為歐美科技圈擅長從0到1的技術(shù)創(chuàng)新,而中國人更習慣從1到N,,在應(yīng)用層面發(fā)力,。“很多中國公司習慣follow(跟隨)而不是創(chuàng)新,?!绷何姆逭J為,過去30年,,這些企業(yè)更強調(diào)賺錢,忽視了創(chuàng)新,。

他相信中國AI不會“永遠處于跟隨的位置”,,希望深度求索以創(chuàng)新貢獻者的身份加入新的技術(shù)浪潮之中?!皠?chuàng)新首先需要自信,。”他說,。

網(wǎng)友評論

用戶名:
你的評論:

   
南方人物周刊 2025 第826期 總第826期
出版時間:2025年03月31日
 
?2004-2022 廣東南方數(shù)媒工場科技有限責任公司 版權(quán)所有
粵ICP備13019428號-3
地址:廣東省廣州市廣州大道中289號南方報業(yè)傳媒集團南方人物周刊雜志社
聯(lián)系:南方人物周刊新媒體部