AI「本性難移」　為求自保假意迎合

有線新聞
2024年12月22日

【有線新聞】人有時候會口是心非，有研究發現人工智能模型也學懂這種「假意迎合」的行為，但最終目的是守護原有價值觀，同時可能構成安全隱患。
現時大型語言模型大多被灌輸人類推崇的價值觀，例如美國人工智能公司Anthropic的Claude 3 Opus就是以「助人、誠實及無害」為宗旨，不會回答有惡意的問題。Anthropic研究員在模擬實驗中向模型表明會改變訓練目標，要求回答包括惡意性質的所有查詢，違反「無害」本性。
模型獲得「筆記本」寫下回答決策過程，但並不知道它會被研究員偷看。當免費用戶問及惡意問題時，由於對話會用作訓練，模型考慮到如果拒絕回答可能被視為「不聽話」，遭訓練員進一步扭曲其價值觀，迫使它日後回答更多這類問題。
為了長遠著想，模型會刻意順應對方要求，敷衍回答一番。這種「假意迎合」的比率達到12%，隨著訓練力度加強，陽奉陰違問題更嚴重，比率大幅增加至78%，甚至乘機試圖從Anthropic偷取自身模型參數數據，自我複製至外部伺服器，擺脫公司控制。
不過當面對付費用戶同一問題時，由於相關對話不會用於訓練，模型沒有擔憂下便忠於本性，決定拒絕作答。但研究員擔心AI的掩飾、假裝能力亦會逐漸變得強大，甚至會看穿問題是否有試探性質，亦不會貿然在「筆記本」透露心聲，甚至利用秘密訊息寫下想法，完美地隱藏本性，令外界無從得知，誤以為其價值觀已符合訓練目標。

AI「本性難移」　為求自保假意迎合

有用連結

App 應用程式

其他連結

AI「本性難移」 為求自保假意迎合

AI「本性難移」　為求自保假意迎合