華為晶片無法完成訓練 DeepSeek新AI模型延後發布
(中央社北京14日綜合外電報導)英媒報導,中國人工智慧(AI)新創公司深度求索(DeepSeek)因無法利用華為晶片進行訓練,因此延後推出新模型。此事凸顯北京致力取代美國技術的努力面臨侷限。
英國「金融時報」(Financial Times)引述3名消息人士說法報導,DeepSeek今年1月推出R1模型後,在當局鼓勵下,採用華為昇騰晶片,而非輝達(Nvidia)晶片。
不過,知情人士透露,Deepseek在利用昇騰晶片訓練R2模型過程中持續遇到技術問題,因此改採輝達晶片進行訓練,並僅在推理(Inference)階段使用華為晶片。
熟悉內情人士表示,上述技術問題就是R2模型預定5月發布卻延後的主因,DeepSeek因此在競爭中落後對手。
訓練(Training)意指讓模型透過大量資料集進行學習;推理則是讓已完成訓練的模型預測或生成回應,例如聊天機器人回答用戶提問。
DeepSeek的困境顯示,中國晶片在關鍵任務上仍落後美國對手,也凸顯中國在追求科技自主上面臨挑戰。
金融時報本週披露,北京當局要求中國科技公司說明採購輝達H20晶片的理由,藉此推動企業採用華為及寒武紀(Cambricon)等國產替代方案。
根據業界人士,中國晶片存在穩定性問題、晶片間連接速度較慢,且相較於輝達產品,軟體表現較為落後。
據2名知情人士,華為曾派出工程師團隊前往DeepSeek辦公室駐點,協助利用昇騰晶片開發R2模型。儘管如此,DeepSeek仍無法在昇騰晶片上完成訓練。
消息人士稱,DeepSeek目前仍持續與華為合作,希望模型能在推理階段與昇騰晶片相容。
DeepSeek創辦人梁文峰向內部透露,他對R2的進展感到不滿,並積極要求團隊投入更多時間,以打造可鞏固公司AI領先地位的先進模型。
另名消息人士說,R2推出之所以延宕,也是因為資料標註工作耗時超過預期。中國媒體近期報導,R2可望於未來數週內發布。
加州大學柏克萊分校(University of California, Berkeley)AI研究員古普塔(Ritwik Gupta)指出:「模型本身就是可以輕易更換的商品。現在許多開發者都在使用阿里巴巴的Qwen3,這款模型功能強大又具彈性。」
古普塔指出,Qwen3採用DeepSeek的核心概念,例如讓模型具備推理能力的訓練演算法,但在使用效率上有所提升。
研究華為AI生態系的古普塔說,華為在利用昇騰晶片訓練模型方面正歷經「成長陣痛」。儘管如此,他預期這家中國指標性企業終究可以調適。
古普塔說:「現在沒看到頂尖模型使用華為晶片訓練,不代表未來不會發生,只是時間早晚的問題而已。」
DeepSeek與華為皆未回應金融時報提出的置評請求。(譯者:劉淑琴/核稿:施施)1140814
延伸閱讀
- 保護令也沒用! 追愛不成駕車3度撞女 恐怖男送辦2025/08/24
- 控枕頭繡有「監獄」字樣 業者:另有經營相關風格民宿2025/08/24
- 扯! 男公園遊戲場旁吸菸 家長勸阻遭安全帽猛K毆傷2025/08/24
- 夏令營油鍋翻燙傷學童 中原大學致歉:難辭其咎2025/08/24
- 3天搶通!桃園台7線33K落石阻路 83遊客受困獲救2025/08/24
- 萬大溪地景多樣豐富 水利署:開車擅闖違法開罰2025/08/24
- YT出狠招徹底封殺「數位移民」! 9月取消跨區會員2025/08/24
- 轎車墜塔塔加200米深谷 1家4口受困獲救2025/08/24
- 高雄18歲騎士闖紅燈急煞 連人帶車空翻再撞騎士2025/08/24
- 小琉球海域遊艇故障 海巡疾馳救援17名遊客返港2025/08/24
- 中秋未到先搶翻!蛋黃酥名店電話忙線 現場爆代排亂象2025/08/24
- 金融時報:Spotify將調漲價格 推出新服務2025/08/24








