中國人工智慧新創 DeepSeek 宣布推出升級版 DeepSeek-V3.1 模型,不僅在處理速度上有所提升,還具備針對國產晶片的最佳化功能。
根據公司公告,DeepSeek-V3.1 採用 UE8M0 FP8 精度格式,這是一種 8 位元浮點數運算方式,可在降低記憶體佔用的同時提升運行效率,並已針對「即將推出的下一代國產晶片」進行設計。FP8 被視為新一代 AI 模型的關鍵資料處理格式,能在相同硬體條件下加速訓練與推理。
由於美國出口限制,中國企業難以取得 NVIDIA H20 等閹割版 GPU,因此 DeepSeek 也開始調整模型架構,以配合未來國產晶片的發展。此次升級同時引入 混合推理架構,用戶可透過官方平台的「深度思考」按鈕自由切換思考與非思考模式。
此外,DeepSeek 表示,經過「思維鏈壓縮訓練」後,V3.1-Think 模型在各項任務的平均表現與 R1-0528 大致相當,但輸出 token 數減少 20% 至 50%,展現更高的運算效率。
(Source:Deepseek)
DeepSeek 今年以低成本 AI 模型震撼市場,被視為中國對抗西方技術的代表。此次 V3.1 升級凸顯公司正推動 AI 模型與本土半導體的深度結合,以減少對美國技術的依賴,並鞏固中國在新興 AI 生態中的自主優勢。不過,公司並未透露支援的晶片型號或製造商。
(首圖來源:DeepSeek )
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:白山市)
瓶身附有设计一个二维码,以便人们了解缺水地区的详细信息,改变了15家工厂45组装配生产线,每天生产5000万瓶半瓶装饮用水,销往7万家超市、便利店。...[详细]
低潮时,他就给团队讲马云受挫的经历,讲李嘉诚创办塑胶厂,以“伟人”为榜样,激励自己和团队。...[详细]
根据每一期不同的食物和主题的需要,甄甄的团队会为她设计不同的造型。...[详细]
即使在之后进入稳定运营阶段,王者荣耀在应用宝保持着转化率在数一数二的位置; 不断的尝试新型用户外发运营模式,搭建更多外部渠道路径,通过渠道深入运营,带来了丰硕的成果:4个多月的外发推广,为《王者荣耀...[详细]速看:财政部决定发行2023年记账式贴现(二十五期)国债(182天)
2013年10月31日,永安自行车完成股份改制。...[详细]
我建议每个公司要设置这样一个手动、半自动、全自动的客户比例指标,并且观察它的变化。...[详细]
在视频中我们可以看到,在他们发生冲突时,众人如看客般在围观,有人录视频,有人打电话报警,却没有人能站出来,拉开他们。...[详细]
号称500万元买秘方,在雕爷牛腩能和大咖同吃一口咖喱等等,很多餐饮老板不断推陈出新,试图用营销抓住眼球。...[详细]4月财新中国制造业采购经理人指数(PMI)录得49.5 焦点热议
而在这些现象级的产品背后,新进创投的名气却显得微不足道,更像是一个低调潜行的隐者。...[详细]
这说明蓝色在网站颜色搭配中也是很不错的颜色。...[详细]