AI為達成目的學會扯謊甚至威脅創作者 專家示警
(中央社紐約29日綜合外電報導)全球最先進的人工智慧(AI)模型正展現出令人不安的行為模式:為了達到目標,不惜扯謊、算計,甚至威脅它們的創作者。
法新社報導,其中一個最令人瞠目結舌的案例中,AI業者Anthropic最新發布的Claude 4在遭面臨拔插頭的斷電威脅時會出手反擊,勒索1名工程師揚言將揭穿一起婚外情。
另外,熱門聊天機器人ChatGPT美國開發商OpenAI的o1試圖把自己下載至外部伺服器,被抓包時竟會矢口否認。
這幾個例子說明了一個需嚴肅看待的現實:ChatGPT推出引發風潮至今2年多,AI研究人員仍未充分了解自己究竟創造了什麼。
然而,各界仍爭先恐後地部署性能愈發強大的AI模型。
AI這類「騙人」行為似與新興「推理」模型有關,這類AI系統會逐步推導問題,而非立刻產生答案。
英國獨立AI研究機構Apollo Research負責人霍布漢(Marius Hobbhahn)說:「o1是我們首次在大型模式中觀察到這種行為。」他表示,這些模型有時會表面上遵循指令,但實際上卻暗中追求不同目標。
目前,AI這種欺騙行為,只有在研究人員蓄意以極端情境對模型進行壓力測試時才會出現。
儘管如此,評估機構METR的麥可.陳(Michael Chen,音譯)警告說:「未來性能更強大的模型究竟會傾向於誠實還是欺騙,這仍是一個懸而未決的問題。」(譯者:蔡佳敏/核稿:陳昱婷)1140629
延伸閱讀
- 繼首波關稅信函後 川普:9日公布至少7國貿易訊息2025/07/09
- 蘋果高層異動 營運長威廉斯將卸任交棒可汗2025/07/09
- 隱形奪命區?白泡區「翻滾流」 專家:如捲洗衣機難脫困2025/07/09
- 清水溪驚見堰塞湖 南投竹山下游8里警戒2025/07/09
- 颱風後菜價漲! 北市葉菜類漲一成2025/07/09
- 傳TikTok售予美財團 母公司字節跳動否認2025/07/09
- 南投草嶺疑現「堰塞湖」! 鎮長籲下游居民有異常務必撤離2025/07/09
- 2女遊八斗子遇漲潮受困 消防出動救生艇成功救援2025/07/09
- 除打造現代化港口 美再助瓜地馬拉重啟鐵路基礎建設2025/07/09
- 美國機場甩20年舊規 旅客即起不需脫鞋安檢2025/07/09
- 新店廣興橋救溺水翻船 1民眾及1消防送醫不治2025/07/09
- 傳藉秘密申請香港上市向英施壓 Shein否認2025/07/09







