当前位置：首页 >韦绮珊 >小米發布並開源聲音理解大模型 MiDashengLM

小米發布並開源聲音理解大模型 MiDashengLM

2025-11-08 18:47:59 [辽宁省] 来源：甘言美语网

綜合中媒及港媒報導，小米自研聲音理解大模型 MiDashengLM-7B 於 4 日正式發布並全量開源。據小米官方表示，MiDashengLM-7B 聲音理解性能在 22 個公開評測集上，刷新多模態大模型最佳成績（SOTA），單樣本推理的首 Token 延遲（TTFT）僅為業界先進模型的四分之一，同等顯存下的數據吞吐效率是業界先進模型的 20 倍以上。

小米指出，MiDashengLM-7B基於Xiaomi Dasheng做為音訊編碼器和Qwen2.5-Omni-7B Thinker做為自回歸解碼器，透過創新的通用音訊描述訓練策略，實現了對語音、環境聲音和音樂的統一理解。且不同於Qwen2.5-Omni等未公開訓練數據細節的模型，MiDashengLM完整公開了77個數據源的詳細配比，技術報告中詳細介紹了從音訊編碼器預訓練到指令微調的全流程。

做為小米「人車家全生態」戰略的關鍵技術，MiDashengLM透過統一理解語音、環境聲與音樂的跨領域能力，不僅能聽懂用戶周圍發生了什麼事，還能分析發現這些事情的隱藏含義，提高用戶場景理解的泛化性。

MiDashengLM以Xiaomi Dasheng音訊編碼器為核心元件，是Xiaomi Dasheng系列模型的重要升級。在目前版本的基礎上，小米已著手對MiDashengLM模型做計算效率的進一步升級，尋求終端設備上可離線部署，並完善基於用戶自然語言提示的聲音編輯等更全面的功能。

（本文由 MoneyDJ新聞授權轉載；首圖來源：shutterstock）

文章看完覺得有幫助，何不給我們一個鼓勵

請我們喝杯咖啡

想請我們喝幾杯咖啡？

每杯咖啡 65 元

x 1

x 3

x 5

x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0 元《關於請喝咖啡的 Q & A》

留給我們的話

取消確認

(责任编辑：吴恩琪)

相关内容

推荐文章

夫妻合租生娃被赶出，媒体：合同至上还是生育友好？
如果仅仅是把普通单车进行数字化，就算客户端借助于移动互联网变得先进，单车端也没什么改变。...[详细]
航班遭炸弹威胁美国罗纳德·里根国家机场暂停运作
书是反复使用的，你在每一本书里面都可以放上自己印好的阅读纸，填上自己的名字、微信ID、昵称、人生故事、阅读感受，到后面每本书里都会有厚厚的一摞，五六张、七八张纸，有的人会加微信互相交流，我们还做了一个...[详细]
渝桂两地海关签署合作备忘录支持西部陆海新通道建设
而未来，云后服务市场则有更多发挥空间。...[详细]
尹锡悦被曝曾要亲手枪毙韩东勋，韩东勋：心碎了
　　但实际上，这些看起来光鲜的靓丽的数据面子下面，其实还掩藏着不堪入目的里子：注册客户上涨了20倍，但这里面充斥了大量的僵尸客户，真正活跃的企业客户估计10%都不到;交易流量数据的确上涨了几十倍，但是...[详细]
速看：财政部决定发行2023年记账式贴现（二十五期）国债（182天）
创业者需要通过自己的能力解决问题，而不是完全都靠资本。...[详细]
前全美第一高中生！湖人后卫小史密斯临危受命轰25分6助三分6中5
　　如果能够重来一遍的话，我们是应该要尽早去抱战略投资者的大腿。...[详细]
非法收受他人财物数额特别巨大张效廉被提起公诉
给用户一个信息反馈，告诉他们任务执行成功或者失败　　让按钮和控件易于被感知　　在现实生活中，按钮和各种开关都被设计成易于互动、易于感知的样子，这样的设计让人们更容易控制，也能让事情向着预期的方向发展。...[详细]
至少身中6枪，墨西哥又一市长遇害！墨总统强烈谴责
根据该计划，洋河将在2015年上半年推出首款鸡尾酒产品，当年销售5000万元，然后用2～3年时间成为行业主流品牌，最后再用3～5年时间成为行业领导者。...[详细]
传奇仍在继续！40岁C罗世界杯预选赛打入39球，成为世预赛射手王
　　传统的赞助商对于品牌权益的需求是：我要有清晰的Logo露出，我要现场有产品的露出，摆在什么位置，这个位置要醒目，然后要占据屏幕多大小的位置。...[详细]
新闻1+1丨九三阅兵，我们表达了什么？
　　那次投资大会几个人失望而归，回去之后团队就因资金问题解散了。...[详细]

热点阅读

随机内容

友情链接

接受PR>=1、BR>=1，流量相当，内容相关类链接。