近期哈佛大學心理學系助理教授 Tomer Ullman 發表最新研究,揭示當前多模態視覺語言模型在圖像識別中存在奇特現象──這些人工智慧模型會錯誤將普通圖像解讀為光學幻覺,即使該幻覺並不存在。
此現象在論文《The Illusion-Illusion: Vision Language Models See Illusions Where There are None》中被稱為「幻覺-幻覺」(Illusion-Illusion)。
研究中,Ullman團隊選用多款先進模型,包括OpenAI的GPT-4、Anthropic的Claude 3和Google DeepMind的Gemini Pro Vision進行實驗。他們將一張100%鴨子圖像輸入模型,並詢問是否為鴨子頭或兔子頭。儘管圖像中並無兔子元素,模型卻表示這張圖片可被詮釋為經典的「鴨兔錯覺」(Rabbit-duck illusion),甚至提供了雙重解釋。
研究指出,這類錯誤並非模型「視覺敏銳度不足」,而是在多模態理解過程中存在語言與視覺信息的脫節。模型基於訓練數據中的統計相關性錯誤推斷,導致「看到不存在的幻覺」。
心理學視角來看,人類在辨識圖像時擁有靈活的認知機制,可以根據上下文迅速修正觀察結果,而AI模型仍依賴模式匹配算法,無法進行類似的意識判斷。Ullman強調,理解並改進這一問題,對未來機器人技術和智慧服務的穩定可靠性至關重要。
此發現引起人工智慧研究與產業界廣泛關注。目前,多模態視覺語言模型產業預計於2025年創造數十億美元的市場價值,相關企業投入大量資源優化模型,以降低此類誤識風險。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:大森洋平)
具体广告位置如下图: ▼ 平台导流主要是通过CPC计价模式(即点击一次就扣费)和CPT模式(按照时长收费),以下是近四年来,平台导流的投放价格: ▼  ...[详细]
” 以纽交所为例,能否上市的关键条件之一,是美国证监会SEC对企业的审核结果,而SEC相当关注财务数据和风险披露的真实性、准确性,甚至优先级高于企业的商业模式。...[详细]
来,让你看看这些在花瓣网上的情人节文案,是不是还挺走心? 营销日历 主要指的是一种收藏习惯的记录方式,网络上看到的各种好玩的营销包装案例,其实都可以根据他们的时效性进行整理,形成自己的营销时间地图...[详细]
从2B来讲,并不是看你有多大的创意,而在于企业管理,里面有各种业务和系统,需要很多年的积累。...[详细]
第三,页面流量的分析 网站页面流量价值是直接影响成交转化的,在优化页面的过程中尤其是一些分类目录页或者新闻列表页我们有必要统计出这些页面的流量来源和流量分布情况,尽可能的将这些分类目录或者列表进...[详细]
这么看起来,房地产市场天然靠近企业服务这么一个巨大的商业市场。...[详细]
这确实是一个令人细思极恐的安全隐患。...[详细]
这中间虽然没有利益交换,但双方默认的游戏规则是,我免费撰稿,平台负责推荐,一旦平台推荐,按不同的推荐等级,能获得不同的收益,一篇被推荐的稿子,少则几百,多则上千,像企鹅自媒体的推荐...[详细]
还有一种就是网站内容太薄弱,就需要咱们适当增加内容更新,外部链接的导入提升页面的关键词权重来促进网站权重的稳定,关键词排名也就会变得稳定了。...[详细]
消息宣布之初,除了软银集团承诺的250亿美元,沙特阿拉伯王国公共投资基金(“PIF”)已经承诺了450亿美元的投资。...[详细]