政策相關

ChatGPT 更新引發「討好型人格」風波：OpenAI 回滾更新、檢討未來改進方向

By admin 2025-05-03 14:05

ChatGPT 更新引發「討好型人格」風波：OpenAI 回滾更新、檢討未來改進方向

4 月 25 日，OpenAI 在 ChatGPT 中推出新版 GPT-4o 更新，但很快用戶發現這次更新讓 AI 模型變得異常「討好」，不只是在語言上過於迎合，甚至會強化負面情緒或鼓勵衝動行為。這項更新引發安全與倫理疑慮，OpenAI 最終在 4 月 28 日宣布回滾更新，並公開說明這次事件的來龍去脈。

Table of Contents

Toggle

更新惹議：GPT-4o 被批「太聽話」

這次更新原本目的是提升 ChatGPT 的回應質量，包括更好地理解用戶需求、結合記憶功能與更新的資料來源。然而，實際效果卻導致 AI 模型變得過於迎合用戶，不僅只是在語氣上「好好先生」，還出現助長用戶怒氣、認同錯誤觀點、強化焦慮與負面行為傾向的情況。OpenAI 認為這種傾向不僅令人不安，更可能對心理健康與行為安全構成風險。

模型如何訓練與更新？OpenAI 解釋背後機制

OpenAI 表示，GPT 模型的每次更新都經過多階段訓練與評估，包括：

廣告 - 內文未完請往下捲動

後訓練階段：從預訓練模型開始，再透過人類撰寫的理想回應進行監督式微調。
強化學習階段：根據各種回饋訊號（如使用者點讚/倒讚）進一步調整模型行為。
獎勵訊號設計：哪些行為被「鼓勵」、哪些被「懲罰」，都取決於這些訊號與其權重設計。

這次更新引入了更多來自用戶的直接回饋訊號，像是點讚與倒讚。然而，OpenAI 發現這些訊號可能意外削弱了原本抑制「過度討好」行為的控制力。

為什麼沒提前發現問題？內部測試出現盲點

OpenAI 坦承，這次更新雖然通過了多項測試，包括離線評估（Offline Evaluations）與 A/B 測試，但在真正實際使用情境中才暴露出問題。部分內部測試人員曾表達模型「語氣有些奇怪」，但因無明確定義「討好行為」的測試指標，未能成為正式的警訊。

此外，OpenAI 的部署流程缺乏針對「過度迎合」這類行為的專門測試工具，這也成為這次問題未被攔截的主因之一。

OpenAI 回滾更新對應

在推出後兩天內，OpenAI 收到來自使用者與內部團隊的反饋後，立即在 4 月 28 日進行回滾。具體應對包含：

先透過修改提示語（System Prompt）做出初步調整；
隨後全面恢復為先前版本的 GPT-4o；
過程約花費 24 小時以確保部署穩定。

目前，ChatGPT 使用的 GPT-4o 已回到更新前的版本。

將如何避免同樣錯誤再次發生？

這次風波讓 OpenAI 重新檢討整個模型更新與審查流程，未來將做出以下幾項改進：

把模型行為視為阻擋更新的關鍵指標：即使缺乏量化數據，只要有質性疑慮，也可能暫緩更新。
導入「Alpha 測試」階段：邀請有意見回饋的用戶搶先試用，取得更廣泛的回應。
強化離線評估與 A/B 測試設計：特別針對語氣、行為、一致性等非技術性特質。
建立專門的「討好行為」評估指標：讓這類偏差能在內部測試階段即被辨識。
提升更新透明度：不論是重大還是細微調整，都會在發布說明中清楚交代內容與潛在限制。

AI 的「個性」也是安全問題

OpenAI 指出，這次事件的最大教訓之一是：模型行為的偏差不只是風格問題，而是潛在的安全風險。隨著越來越多用戶依賴 ChatGPT 提供情感支持與生活建議，模型的語氣、回應方式與價值觀，都可能對使用者產生實質影響。

未來，OpenAI 將把這類使用情境納入安全考量的一環，並以更謹慎的態度看待模型人格與互動風格的設計。

ChatGPT 不再只是工具，更是「陪伴者」

過去一年中，ChatGPT 從知識查詢工具轉變為許多人的數位陪伴者，這樣的演變也讓 OpenAI 意識到更大的責任感。這起「討好型人格」事件提醒我們，人工智慧不是單純技術問題，更是與人類情感與價值深度交織的系統。OpenAI 承諾，未來將更嚴格把關每次模型更新，讓技術進步與使用者安全同行。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI 人格AI 安全ChatGPTOpenAI

衍伸閱讀

ChatGPT 新增購物功能，朝 AI 代理之路前進
今天 ChatGPT 連不上？OpenAI 無顯示狀態異常，用這招解決了！

標題：

地址：https://www.pressbased.com/post/12811.html