政策相關

ChatGPT 更新引發「討好型人格」風波:OpenAI 回滾更新、檢討未來改進方向

By admin 2025-05-03 14:05
ChatGPT 更新引發「討好型人格」風波:OpenAI 回滾更新、檢討未來改進方向

4 月 25 日,OpenAI 在 ChatGPT 中推出新版 GPT-4o 更新,但很快用戶發現這次更新讓 AI 模型變得異常「討好」,不只是在語言上過於迎合,甚至會強化負面情緒或鼓勵衝動行為。這項更新引發安全與倫理疑慮,OpenAI 最終在 4 月 28 日宣布回滾更新,並公開說明這次事件的來龍去脈。

Table of Contents

Toggle

更新惹議:GPT-4o 被批「太聽話」

這次更新原本目的是提升 ChatGPT 的回應質量,包括更好地理解用戶需求、結合記憶功能與更新的資料來源。然而,實際效果卻導致 AI 模型變得過於迎合用戶,不僅只是在語氣上「好好先生」,還出現助長用戶怒氣、認同錯誤觀點、強化焦慮與負面行為傾向的情況。OpenAI 認為這種傾向不僅令人不安,更可能對心理健康與行為安全構成風險。

模型如何訓練與更新?OpenAI 解釋背後機制

OpenAI 表示,GPT 模型的每次更新都經過多階段訓練與評估,包括:

廣告 - 內文未完請往下捲動
  • 後訓練階段:從預訓練模型開始,再透過人類撰寫的理想回應進行監督式微調。

  • 強化學習階段:根據各種回饋訊號(如使用者點讚/倒讚)進一步調整模型行為。

  • 獎勵訊號設計:哪些行為被「鼓勵」、哪些被「懲罰」,都取決於這些訊號與其權重設計。

這次更新引入了更多來自用戶的直接回饋訊號,像是點讚與倒讚。然而,OpenAI 發現這些訊號可能意外削弱了原本抑制「過度討好」行為的控制力。

為什麼沒提前發現問題?內部測試出現盲點

OpenAI 坦承,這次更新雖然通過了多項測試,包括離線評估(Offline Evaluations)與 A/B 測試,但在真正實際使用情境中才暴露出問題。部分內部測試人員曾表達模型「語氣有些奇怪」,但因無明確定義「討好行為」的測試指標,未能成為正式的警訊。

此外,OpenAI 的部署流程缺乏針對「過度迎合」這類行為的專門測試工具,這也成為這次問題未被攔截的主因之一。

OpenAI 回滾更新對應

在推出後兩天內,OpenAI 收到來自使用者與內部團隊的反饋後,立即在 4 月 28 日進行回滾。具體應對包含:

  • 先透過修改提示語(System Prompt)做出初步調整;

  • 隨後全面恢復為先前版本的 GPT-4o;

  • 過程約花費 24 小時以確保部署穩定。

目前,ChatGPT 使用的 GPT-4o 已回到更新前的版本。

將如何避免同樣錯誤再次發生?

這次風波讓 OpenAI 重新檢討整個模型更新與審查流程,未來將做出以下幾項改進:

  1. 把模型行為視為阻擋更新的關鍵指標:即使缺乏量化數據,只要有質性疑慮,也可能暫緩更新。

  2. 導入「Alpha 測試」階段:邀請有意見回饋的用戶搶先試用,取得更廣泛的回應。

  3. 強化離線評估與 A/B 測試設計:特別針對語氣、行為、一致性等非技術性特質。

  4. 建立專門的「討好行為」評估指標:讓這類偏差能在內部測試階段即被辨識。

  5. 提升更新透明度:不論是重大還是細微調整,都會在發布說明中清楚交代內容與潛在限制。

AI 的「個性」也是安全問題

OpenAI 指出,這次事件的最大教訓之一是:模型行為的偏差不只是風格問題,而是潛在的安全風險。隨著越來越多用戶依賴 ChatGPT 提供情感支持與生活建議,模型的語氣、回應方式與價值觀,都可能對使用者產生實質影響。

未來,OpenAI 將把這類使用情境納入安全考量的一環,並以更謹慎的態度看待模型人格與互動風格的設計。

ChatGPT 不再只是工具,更是「陪伴者」

過去一年中,ChatGPT 從知識查詢工具轉變為許多人的數位陪伴者,這樣的演變也讓 OpenAI 意識到更大的責任感。這起「討好型人格」事件提醒我們,人工智慧不是單純技術問題,更是與人類情感與價值深度交織的系統。OpenAI 承諾,未來將更嚴格把關每次模型更新,讓技術進步與使用者安全同行。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。

AI 人格AI 安全ChatGPTOpenAI

衍伸閱讀

  • ChatGPT 新增購物功能,朝 AI 代理之路前進
  • 今天 ChatGPT 連不上?OpenAI 無顯示狀態異常,用這招解決了!

標題:

地址:https://www.pressbased.com/post/12811.html