<button id="kwo0m"><tbody id="kwo0m"></tbody></button>
  • <button id="kwo0m"><input id="kwo0m"></input></button>
    <code id="kwo0m"><acronym id="kwo0m"></acronym></code>
  • <sup id="kwo0m"><tbody id="kwo0m"></tbody></sup>
    新華通訊社主管

    首頁 >> 正文

    DeepSeek顛覆了什么?——大模型“國產之光”破局的啟示
    2025-02-07 記者 張漫子 來源:經濟參考報

      一家人工智能初創(chuàng)企業(yè)淺淺扇動兩下翅膀,即掀起全球科技界的一陣“海嘯”。

      短短30天,中國初創(chuàng)企業(yè)深度求索(DeepSeek)先后發(fā)布兩款性能比肩GPT-4o的大模型,“1/18的訓練成本、1/10的團隊規(guī)模、不分伯仲的模型性能”令硅谷大受震撼。

      最新一期《經濟學人》封面文章第一時間讓位給這一土生土長的國產大模型:《低成本中國模型的成功動搖美國科技優(yōu)勢》。很快,華爾街也同樣感受到了這種被動搖的震感。

      事實上,這匹黑馬的貢獻絕非“低成本”這一個標簽所能概括。它不僅重新定義了大模型的生產函數,還將重新定義計算。

      不論開源與閉源未來的優(yōu)勢如何,這股沖擊波都將迫使全球科技界重新思考:當“規(guī)模定律”與“生態(tài)壁壘”不再絕對,什么才是下一賽季AI競爭的核心?或許我們能從中獲得新的啟示。

      擊穿三大定式

      1月下旬,DeepSeek在中區(qū)、美區(qū)蘋果App Store下載榜單中登頂,超越ChatGPT、谷歌Gemini等全球頂尖科技巨頭研發(fā)的模型產品。具體而言,它顛覆了什么?

      ——打破“越強越貴”的成本詛咒

      價格感人是讓DeepSeek快速出圈的第一個標簽。DeepSeek-R1的API服務定價為每百萬輸入tokens 1元(緩存命中)/4元(緩存未命中),每百萬輸出tokens 16元,而o1模型上述三項服務的定價分別是55元、110元、438元。

      凡是使用過幾款大模型的用戶很快就能形成這樣一個共識:就推理能力而言,DeepSeek直逼OpenAI的o1、Meta的Llama-3等一流模型,甚至在回答問題之前還能給出它的推理過程和思考鏈路。AI投資機構Menlo Ventures負責人Deedy對比谷歌Gemini和DeepSeek-R1后表示,DeepSeek-R1更便宜、上下文更長、推理性能更佳。低成本比肩o1模型,令硅谷的“燒錢模式”一時間遭到猛烈質疑。

      然而在過去,大模型服務是標準的“一分錢一分貨”,想要用上更優(yōu)性能的產品必須支付更高昂的費用,以覆蓋整個模型訓練過程中更高算力成本的支出。

      ——超越“性能-成本-速度”的不可能三角

      當硅谷仍在為GPU萬卡集群豪擲千億資金時,一群土生土長的中國年輕人用557.6萬美元證明:AI大模型的比拼或許并不只靠規(guī)模,更重要的是看實際效果。有句話形象地概括出DeepSeek的優(yōu)勢:“不是GPT用不起,而是DeepSeek更具性價比。”

      傳統(tǒng)模型訓練,需要在性能、成本、速度之間權衡,其高性能的獲得,需要極高的成本投入、更漫長的計算時間。而DeepSeek重構了大模型的“成本-性能”曲線,同時壓縮了計算周期。

      根據DeepSeek技術報告,DeepSeek-V3模型的訓練成本為557.6萬美元,訓練使用的是算力受限的英偉達H800 GPU集群。相比之下,同樣是開源模型的Meta旗下Llama-3.1模型的訓練成本超過6000萬美元,而OpenAI的GPT-4o模型的訓練成本為1億美元,且使用的是性能更加優(yōu)異的英偉達H100 GPU集群。而使用過程中,DeepSeek給出反饋的時長也大部分控制在5秒至35秒之間,通過算法輕量化、計算效率最大化、資源利用率優(yōu)化,成功壓縮了計算時間,降低了延遲。

      ——走出“參數膨脹”陷阱

      ChatGPT橫空出世后700多天里,全球人工智能巨頭不約而同走上了一條“大力出奇跡”的“暴力美學”路線,參數越“煉”越大,給算力、數據、能耗帶來了極大壓力。很長一段時間,參數幾乎成為大模型廠商比拼的最大焦點。

      而另辟蹊徑的DeepSeek恰巧處于對角線的另一端:并不盲目追求參數之大,而是選擇了一條通過探索更高效訓練方法以實現(xiàn)性能提升的“小而精”路線,打破了“參數膨脹”的慣性。

      例如DeepSeek-R1(4B參數)在數學推理、代碼生成等任務上具有比肩70B參數模型(如Llama-2)的能力,通過算法優(yōu)化、數據質量提升,小參數模型一樣能實現(xiàn)高性能,甚至能夠“四兩撥千斤”。

    潘悅 制圖

      實現(xiàn)三大躍升

      “DeepSeek出圈,很好地證明了我們的競爭優(yōu)勢:通過有限資源的極致高效利用,實現(xiàn)以少勝多。中國與美國在AI領域的差距正在縮小。”面壁智能首席科學家劉知遠說。

      算力封鎖下的有力破局,得益于DeepSeek技術架構、數據策略、工程實踐三方面的關鍵突破。

      ——技術架構:重新定義參數效率

      大模型的千億參數不應是冰冷的數字堆砌,而應是巧奪天工般地重組整合。

      傳統(tǒng)大模型Transformer架構好比一條承載車輛的高速公路,當車輛(數據)數量足夠多的時候,每輛車必須和前后所有車溝通完成才能繼續(xù)行駛(計算),導致堵車(計算慢、能耗高)。而DeepSeek創(chuàng)新的架構則把一條串行的高速路,變成了一個輻射狀的快遞分揀中心,先把貨物(數據)按類型分類打包,再分不同路線同時出發(fā)開往不同目的地,每輛貨車(計算)只需選擇最短路徑。因此既能提高速度又能節(jié)約能耗。

      ——數據策略:質量驅動的成本控制

      DeepSeek研發(fā)團隊相信,用“煉數據”取代“堆數據”,能使訓練更具效率。

      傳統(tǒng)的數據策略好比去農場隨便采撿,常有價值不高的爛菜葉(低質量數據)。而DeepSeek創(chuàng)新的數據蒸餾技術,有針對性地篩選掉質量不高的爛菜葉:一方面自動識別高價值數據片段(如代碼邏輯推理鏈),相比隨機采樣訓練效率提升3.2倍,另一方面通過對抗訓練生成合成數據,將高質量代碼數據獲取成本從每100個tokens的0.8元降低至0.12元。

      ——工程實踐:架起“超級工廠”流水線

      大模型傳統(tǒng)的訓練方式好比手工造車,一次只能裝配一臺,效率低下。而DeepSeek的3D并行相當于一方面通過流水線并行把造車流程拆分為10個步驟,同時組裝10輛車(數據分塊處理),另一方面通過張量并行,把發(fā)動機拆成零件,分給10個工廠同時生產(模型分片計算)。

      至于推理過程,傳統(tǒng)模型好比現(xiàn)點現(xiàn)做的餐廳,客戶等菜時間長,推理過程慢。而DeepSeek采用的INT4量化,能把復雜菜品提前做成預制菜,加熱(計算)時間減半,口味損失不到5%,實現(xiàn)了大模型的低成本工業(yè)化。

      超越技術的啟示

      拆解DeepSeek的成功公式不難發(fā)現(xiàn),通過底層架構創(chuàng)新降低AGI成本,同時以開源策略構建生態(tài)護城河,提供了中小型機構突破算力限制的可行路徑。此外,我們還能從中得到一些超越技術的啟示。

      一直以來,驅動DeepSeek的目標并非利潤而是使命。“探索未至之境”的愿景也指向一種與之匹配的極簡且清爽的組織架構。

      一名人工智能科學家表示,在人工智能大模型領域,大廠、高校、傳統(tǒng)科研機構、初創(chuàng)公司在資源稟賦上其實各有優(yōu)勢,但結構性的局限很難扭轉。DeepSeek這種類型的初創(chuàng)公司能很好地彌補其中的一個缺位——具有大工程能力、不受制于短視商業(yè)邏輯的創(chuàng)新定力、創(chuàng)業(yè)團隊扁平化組織機制帶來的絲滑流暢的協(xié)作度。

      據不具名人士透露,其V3模型的關鍵訓練架構MLA就源于一位年輕研究員的個人興趣,經過研判后DeepSeek組建了專項團隊開展大規(guī)模驗證與攻關。而R1模型果斷調整強化學習路線,領先于其他機構實現(xiàn)了近似o1的推理能力,核心原因之一也歸功于其青年團隊對前沿技術的敏銳嗅覺與大膽嘗試。

      “我們創(chuàng)新缺少的不是資本,而是信心,以及組織高密度人才的能力,調動他們高效地進行創(chuàng)造力與好奇心驅動的創(chuàng)新。”DeepSeek創(chuàng)始人梁文鋒說。

      在DeepSeek身上,我們看到了皮克斯動畫工作室的影子。這個年輕的中國初創(chuàng)企業(yè)與那個創(chuàng)作27部長片有19部獲得奧斯卡最佳動畫、同樣以創(chuàng)新為鮮明標簽的組織,有著不謀而合的組織機制與范式選擇,以及由此帶來的高企的創(chuàng)新成功率與人才留存率。

      不同于先發(fā)者略顯封鎖的護城堡壘,DeepSeek贏得贊譽的還有它的開源路線。將代碼、模型權重和訓練日志全部公開,不僅需要格局,更需要勇氣與實力。

      “在顛覆性技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”梁文鋒這樣解釋選擇開源的原因,“開源、發(fā)論文,其實并不會失去什么。對于技術人員來說,被follow(追隨模仿)是很有成就感的事。”

      從技術到愿景,DeepSeek堅定選擇的始終是一條難且正確的路。這也是為什么,即便別國在人工智能領域已坐享先發(fā)優(yōu)勢,后發(fā)者依然有機會憑借技術創(chuàng)新、成本革命打破大模型競爭的傳統(tǒng)邏輯,打破人工智能行業(yè)競爭格局,打破“他國更擅長從0到1的原始創(chuàng)新,而中國更擅長從1到10的應用創(chuàng)新”的成見,重塑競爭優(yōu)勢的奧秘。

      北京時間2月1日凌晨,在OpenAI發(fā)布其推理系列最新模型o3-mini時,我們從中看到了一個熟悉的字眼:“Deep research”。這是否是國產之光“被follow”的開端盡管不好斷言,但我們至少身體力行走出了一條“大力出奇跡”之外,另一條具有自主創(chuàng)新基因的制勝之道。

      正如梁文鋒此前接受采訪時所說,“中國要逐步成為貢獻者,而不是一直‘搭便車’。”

    凡標注來源為“經濟參考報”或“經濟參考網”的所有文字、圖片、音視頻稿件,及電子雜志等數字媒體產品,版權均屬《經濟參考報》社有限責任公司,未經書面授權,不得以任何形式刊載、播放。獲取授權

    《經濟參考報》社有限責任公司版權所有 本站所有新聞內容未經協(xié)議授權,禁止轉載使用

    新聞線索提供熱線:010-63074375 63072334 報社地址:北京市宣武門西大街57號

    JJCKB.CN 京ICP備18039543號

    1000部羞羞禁止免费观看视频,国产真实乱子伦精品视,最近国语视频在线观看免费播放,欧美性色一级在线观看
    <button id="kwo0m"><tbody id="kwo0m"></tbody></button>
  • <button id="kwo0m"><input id="kwo0m"></input></button>
    <code id="kwo0m"><acronym id="kwo0m"></acronym></code>
  • <sup id="kwo0m"><tbody id="kwo0m"></tbody></sup>
    主站蜘蛛池模板: 天堂成人一区二区三区| 蜜臀91精品国产免费观看 | 国产色婷婷精品综合在线| 免费一级欧美片在线观免看| 亚洲色欲久久久久综合网| 亚洲午夜精品一区二区| 91精品国产91久久久久青草| 波多野结衣手机在线视频| 天天5g天天爽永久免费看欧美| 免费一级一片一毛片| a级成人毛片久久| 狠狠躁日日躁夜夜躁2022麻豆| 女人与zozo| 亚洲香蕉在线观看| 91香蕉国产线在线观看免费| 美女把尿口扒开让男人桶| 欧美成人中文字幕dvd| 国产美女在线免费观看| 午夜精品久久久久久| 亚洲av无码精品色午夜果冻不卡| 一本一本久久aa综合精品| 精品一区二区三区AV天堂| 日本妇乱子伦视频| 国产精品亚洲аv无码播放| 亚洲va欧美va天堂v国产综合| 黄色香蕉视频网站| 日本护士handjob| 国产av人人夜夜澡人人爽麻豆 | 欧美美女黄色片| 巨肉超污巨黄h文小短文| 免费少妇荡乳情欲视频| 99在线精品一区二区三区| 美女扒开内裤无遮挡网站| 婷婷五月深深久久精品| 国产chinasex对白videos麻豆| 中文字幕亚洲专区| 高龄五十路中出| 最近最新中文字幕完整版免费高清 | 另类重口100页在线播放| 久久久国产精华液| 美国式禁忌免费看|