近期哈佛大學心理學系助理教授 Tomer Ullman 發表最新研究,揭示當前多模態視覺語言模型在圖像識別中存在奇特現象──這些人工智慧模型會錯誤將普通圖像解讀為光學幻覺,即使該幻覺並不存在。
此現象在論文《The Illusion-Illusion: Vision Language Models See Illusions Where There are None》中被稱為「幻覺-幻覺」(Illusion-Illusion)。
研究中,Ullman團隊選用多款先進模型,包括OpenAI的GPT-4、Anthropic的Claude 3和Google DeepMind的Gemini Pro Vision進行實驗。他們將一張100%鴨子圖像輸入模型,並詢問是否為鴨子頭或兔子頭。儘管圖像中並無兔子元素,模型卻表示這張圖片可被詮釋為經典的「鴨兔錯覺」(Rabbit-duck illusion),甚至提供了雙重解釋。
研究指出,這類錯誤並非模型「視覺敏銳度不足」,而是在多模態理解過程中存在語言與視覺信息的脫節。模型基於訓練數據中的統計相關性錯誤推斷,導致「看到不存在的幻覺」。
心理學視角來看,人類在辨識圖像時擁有靈活的認知機制,可以根據上下文迅速修正觀察結果,而AI模型仍依賴模式匹配算法,無法進行類似的意識判斷。Ullman強調,理解並改進這一問題,對未來機器人技術和智慧服務的穩定可靠性至關重要。
此發現引起人工智慧研究與產業界廣泛關注。目前,多模態視覺語言模型產業預計於2025年創造數十億美元的市場價值,相關企業投入大量資源優化模型,以降低此類誤識風險。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:大兴区)
首轮预售报名时间为9月10日至19日,中签者将从9月29日起收到邮件通知,购票窗口将于10月1日陆续开放。...[详细]
综合外媒报道,9月3日上午,纪念中国人民抗日战争暨世界反法西斯战争胜利80周年大会在北京天安门广场隆重举行,以盛大阅兵仪式,同世界人民一道纪念这个伟大的日子,共同开创更加光明的未来...[详细]
对此,媒体到实地进行走访调查。...[详细]手术室里的暖心对话:眼科医生吴松一用温情点亮八旬奶奶光明“视”界
张学峰分析称,从红旗-29的外形尺寸来看,可在大气层外实施拦截,不同于在末段高层实施区域拦截,预计红旗-29可在弹道导弹的飞行中段实现拦截,其拦截对象主要是高价值、射程更远的弹道导弹。...[详细]
其中,华安黄金ETF以574亿元规模稳居榜首,年内规模激增超280亿元。...[详细]Google 將於 2030 年啟用熔鹽反應爐,為田納西資料中心供電
新华社记者陈斌摄这是空降突击方队接受检阅。...[详细]Windows 11 更新又出問題,若大量寫入 SSD 會導致故障