歷史悠久、規模盛大的國際數學奧林匹亞競賽(International Mathematical Olympiad,IMO),今年不只有天資聰穎的各國學生參賽,還有 OpenAI 以尚未公開的實驗性推理模型加入挑戰,為自家 AI 發展增添重要里程碑。
從事大型語言模型和推理研究的 OpenAI 科學家 Alexander Wei 在 X 發文表示,OpenAI 最新推理模型解出今年 IMO 競賽 6 道題目中的 5 題。模型對每道數學題目提交作答證明,並由 3 名前 IMO 獎牌得主獨立評分,取得一致共識確認最終分數。滿分 42 分的前提下,OpenAI 總共得到 35 分,足以獲得金牌。
面對 IMO 需要提交難以驗證、長達多頁的作答證明,OpenAI 以強化學習,打造出能夠撰寫複雜且能嚴謹論證、媲美數學家的模型。
OpenAI 與學生選手遵照相同規則,在 2 場各 4.5 小時的考試,由模型讀取數學題目說明,以自然語言方式產生作答證明,而且不得使用網路或其他工具。
IMO 題目要求持續的創造性思考,遠遠超越過往的基準測試。在推理所需時間上,OpenAI 的模型從基準測試 GSM8K(頂尖人才需約 0.1 分鐘)、MATH(約 1 分鐘)、AIME(約 10 分鐘)再到這次 IMO(約 100 分鐘),持續有所突破。
實際上,IMO 競賽讓各國派出最多 6 名學生參賽,挑戰極具難度的數學題目。今年有 630 名參賽者,僅 67 人獲頒金牌。
值得一提的是,Alexander Wei 談到 OpenAI 很快將會推出 GPT-5,期待大家試用。他也補充,IMO 金牌級模型屬於實驗性研究模型,暫不打算在未來數個月釋出具有強大數學能力的產品。
we achieved gold medal level performance on the 2025 IMO competition with a general-purpose reasoning system! to emphasize, this is an LLM doing math and not a specific formal math system; it is part of our main push towards general intelligence.
when we first started openai,… https://t.co/X46rspI4l6
— Sam Altman (@sama) July 19, 2025
▲ 挑戰 IMO 取得佳績,OpenAI 執行長強調這是以大型語言模型作答數學題目,並非採用特定數學系統,這也是 OpenAI 推動通用智慧成就之一。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:李双江)
网友发现,车牌号1945的检阅车立麦前是空着的,这一细节全网刷屏。...[详细]
张军社认为,这些海上无人装备的列装应用,将显著提高我军海上防御作战能力,丰富我军维护国家主权、捍卫领土完整的手段。...[详细]全球要闻:“五一”假期客流量大 北京移动运用大数据赋能城市管理
美联社称,来自南亚的嘉宾包括巴基斯坦总理夏巴兹、尼泊尔总理奥利和马尔代夫总统穆伊兹。...[详细]江西省政府工作报告提出推进国家技术标准创新基地(江西绿色生态)建设
歼-35A主要采用侧杆驾驶员操纵装置,更突出空中飞行或作战特征...[详细]
他表示和平万岁,铭记历史,吾辈自强。...[详细]青海省市场监管系统持续推动“个转企”工作 助力市场主体发展壮大
【环球网报道】据俄罗斯卫星通讯社、英国天空新闻网等外媒报道,俄罗斯总统普京在即将结束为期4天的访华行程之际,于9月3日晚在北京举行新闻发布会。...[详细]
特别是面对境外间谍情报机关通过金钱、美色、情感、恐吓等手段开展的拉拢、策反活动,要牢记这些诈骗公式,提高警惕、谨防中招。...[详细]
外部的变化会倒逼我们调整,内部的能量也会影响外部的价值判断,在这个逻辑里,企业所践行的文化不仅仅是内部约束,更是对外界的一种姿态。...[详细]
国家安全机关提示境外间谍情报机关人员为窃取我国家秘密、危害我国家安全,往往无所不用其极,将目标人员拉入精心编织的罪恶之网。...[详细]
这种准备,不是仓促之间的动作,而是一种长期的积累和沉淀。...[详细]