AI「本性難移」 為求自保假意迎合
【有線新聞】人有時候會口是心非,有研究發現人工智能模型也學懂這種「假意迎合」的行為,但最終目的是守護原有價值觀,同時可能構成安全隱患。
現時大型語言模型大多被灌輸人類推崇的價值觀,例如美國人工智能公司Anthropic的Claude 3 Opus就是以「助人、誠實及無害」為宗旨,不會回答有惡意的問題。Anthropic研究員在模擬實驗中向模型表明會改變訓練目標,要求回答包括惡意性質的所有查詢,違反「無害」本性。
模型獲得「筆記本」寫下回答決策過程,但並不知道它會被研究員偷看。當免費用戶問及惡意問題時,由於對話會用作訓練,模型考慮到如果拒絕回答可能被視為「不聽話」,遭訓練員進一步扭曲其價值觀,迫使它日後回答更多這類問題。
為了長遠著想,模型會刻意順應對方要求,敷衍回答一番。這種「假意迎合」的比率達到12%,隨著訓練力度加強,陽奉陰違問題更嚴重,比率大幅增加至78%,甚至乘機試圖從Anthropic偷取自身模型參數數據,自我複製至外部伺服器,擺脫公司控制。
不過當面對付費用戶同一問題時,由於相關對話不會用於訓練,模型沒有擔憂下便忠於本性,決定拒絕作答。但研究員擔心AI的掩飾、假裝能力亦會逐漸變得強大,甚至會看穿問題是否有試探性質,亦不會貿然在「筆記本」透露心聲,甚至利用秘密訊息寫下想法,完美地隱藏本性,令外界無從得知,誤以為其價值觀已符合訓練目標。