中國人工智慧新創 DeepSeek 宣布推出升級版 DeepSeek-V3.1 模型,不僅在處理速度上有所提升,還具備針對國產晶片的最佳化功能。
根據公司公告,DeepSeek-V3.1 採用 UE8M0 FP8 精度格式,這是一種 8 位元浮點數運算方式,可在降低記憶體佔用的同時提升運行效率,並已針對「即將推出的下一代國產晶片」進行設計。FP8 被視為新一代 AI 模型的關鍵資料處理格式,能在相同硬體條件下加速訓練與推理。
由於美國出口限制,中國企業難以取得 NVIDIA H20 等閹割版 GPU,因此 DeepSeek 也開始調整模型架構,以配合未來國產晶片的發展。此次升級同時引入 混合推理架構,用戶可透過官方平台的「深度思考」按鈕自由切換思考與非思考模式。
此外,DeepSeek 表示,經過「思維鏈壓縮訓練」後,V3.1-Think 模型在各項任務的平均表現與 R1-0528 大致相當,但輸出 token 數減少 20% 至 50%,展現更高的運算效率。
(Source:Deepseek)
DeepSeek 今年以低成本 AI 模型震撼市場,被視為中國對抗西方技術的代表。此次 V3.1 升級凸顯公司正推動 AI 模型與本土半導體的深度結合,以減少對美國技術的依賴,並鞏固中國在新興 AI 生態中的自主優勢。不過,公司並未透露支援的晶片型號或製造商。
(首圖來源:DeepSeek )
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:黄静雅)
此外还有多个账号使用全红婵接受采访和其家人直播画面,用AI合成相应的声音,为骆驼奶粉、土鸡蛋、洗衣液等多种商品带货。...[详细]
该试验是防御性的,不针对任何国家。...[详细]世界速看:沪上黄金周|“五一”酒店搜索量达去年9倍 连锁投资加盟升温
二人将有机会讨论双边关系的各个方面和各个领域。...[详细]AI 以 11 歲作文預測 33 歲學歷,準確率比 DNA 預測還高
在纪念中国人民抗日战争暨世界反法西斯战争胜利80周年的时代节点,回望历史、致敬经典是必不可少的一环。...[详细]
培养带教年轻飞行员时,谭红梅以女性独有的亲和力,很好地照顾到新员的情绪变化。...[详细]
此次亮相的六型反导防空装备中,‘红旗-11‘红旗-20‘红旗-22A主要执行的是防空作战任务。...[详细]
《解释二》第十九条,不过是进一步明确了这一法律常识。...[详细]
但在当前背景下,两人此次碰面将对韩朝关系产生何种影响引发关注。...[详细]