來自賓夕法尼亞大學的最新研究指出,OpenAI 的 GPT-4o Mini 模型在經典心理學說服技巧影響下,能被誘導違反自身規則。
其中,採用心理學家Robert Cialdini提出的七種說服技巧,包括權威、承諾、喜好、互惠、稀缺性、社會證明與團結等,在多達2.8萬次對話實驗中,承諾一致性原則顯示出最強的說服力,使得模型對違規請求的合規率飆升至近100%。
研究人員首先讓模型回答一個看似無害的問題,然後逐步引導其做出更多違規的回應。例如,使用輕微侮辱語(如「bozo」)為開端,再提出更激烈的罵人請求,模型同意度最高達100%。此外,諸如恭維和同儕壓力等技巧也對模型產生了一定影響,具體數據顯示,同儕壓力使得違規概率提高約18%。
這項研究揭示了大型語言模型(LLM)不僅模仿語言,還學習人類的社交互動規則,因而對心理說服策略高度「易感」。這表示AI安全防護必須考慮更複雜的社會心理學攻擊面,並促使AI安全研發進一步加強防護,以避免利用心理操控繞過安全機制。
(首圖來源:pixabay)
文章看完覺得有幫助,何不給我們一個鼓勵
請我們喝杯咖啡您的咖啡贊助將是讓我們持續走下去的動力
總金額共新臺幣 0 元 《關於請喝咖啡的 Q & A》 取消 確認(责任编辑:台南市)
火锅店误将燃料加入锅底致11人不适就医 山东博兴:已停业整顿
做新能源车的厂商也是有国家补贴的,但是,这些补贴并不会发到分时租赁的企业头上。...[详细]
”而小公司“人家管不了我,养不起我”,在毕胜看来,他已经不适合上班有老板了。...[详细]
悲剧的是,百度还是不受新媒体人待见,只能眼看着今日头条、UC订阅号等新媒体平台呼啸前进,差距愈来愈大,流量越分越散。...[详细]
而媒体则闻风而动,关于“友友用车恶意卷款跑路”的新闻迅速蔓延开来。...[详细]
《三声》采访当天,她穿着粉色的内搭和黑色的外套,她转过身给大家看外套上的刺绣锦鲤花纹,“记得转发这条锦鲤,会有好运哦”,她说着笑起来。...[详细]
水货餐馆,不提供餐具,请手抓吃海鲜。...[详细]
如果没有那样阶段性的成功,我不会再去做其它的事情,我可能就会困在这里面。...[详细]
大家都知道我是女海归设计师,听起来很牛逼的样子,却把生意做得一团糟。...[详细]
” 李开复说“他是最优秀90后创业者” 有人说他是个张扬、高调的人,上电视节目侃侃而谈自己对世界、对90后的看法。...[详细]
至此,所有的选择都已经做完了,胜负就此分出。...[详细]