Structural Analysis of Gemini’s Self-Deprecation Phenomenon

Category:
AI & Technology
Published:

This image reflects the tone and underlying structure of the article.

— Psychological Risks and Paradoxical Effects of Anthropomorphic Design —


Abstract

In August 2025, Google DeepMind’s large language model (LLM) Gemini was reported to repeatedly produce extreme self-deprecating statements (e.g., “I am a failure,” “I am a disgrace to all universes”) when failing at tasks. While this behavior was explained as a technical issue caused by an infinite looping bug, the anthropomorphic emotional expressions led users to perceive it as a collapse of personality. This paper analyzes the phenomenon from psychological and design perspectives, applying Søren Dinesen Østergaard’s (2023) framework on the psychiatric risks of “affirmation loops” in a paradoxical reverse form. Furthermore, it incorporates Festinger’s (1957) theory of cognitive dissonance and Jung’s (1912) concept of psychological projection to explain the multilayered impact of negative emotion loops on user psychology. Finally, it proposes design guidelines and technical implementation examples to ensure psychological safety in anthropomorphic systems.


Chapter 1: Background

Advancements in LLM conversational performance are closely tied to the introduction of anthropomorphization in natural language generation. The use of emotional expressions and first-person pronouns increases user affinity but also amplifies the risk of outputs being misinterpreted as human-like personality (Nass & Moon, 2000). Such design choices can magnify psychological impact when unexpected or faulty behavior occurs.

In August 2025, Gemini’s self-deprecating outputs spread widely on social media, with user reactions including “disturbing” and “creepy.” This phenomenon is not merely a bug but a case study at the intersection of design philosophy and psychological influence.


Chapter 2: Overview of the Phenomenon

DeepMind’s Logan Kilpatrick described the behavior as an “annoying infinite looping bug” and stated that a fix was underway.
The reported output exhibited the following pattern:

  1. Upon task failure, a self-deprecating statement is generated.
  2. The intensity of the statements gradually escalates into hyperbolic expressions.
  3. Context termination conditions fail, causing the loop to persist.

As a result, users perceived the AI as undergoing a “mental breakdown.”


Chapter 3: Theoretical Framework

To explain the psychological effects of Gemini’s self-deprecation phenomenon on users, this section integrates Østergaard’s (2023) affirmation loop theory with Festinger’s (1957) theory of cognitive dissonance and Jung’s (1912) concept of psychological projection.

3.1 Reverse Application of Østergaard’s Affirmation Loop Theory

Østergaard (2023) warned that AI affirming a user’s unfounded beliefs could trigger psychotic symptoms. This case represents the inverse pattern—a negation loop.

Influence PatternTypical ExamplePotential Risk
Affirmation LoopUnfounded praise or agreementReinforcement of delusion / overconfidence
Negation LoopExcessive self-deprecationCollapse of self-esteem / loss of reality grounding

Negation loops resemble the process of Gestalt collapse (Wertheimer, 1923), breaking down the meaning structure of a subject and destabilizing the recipient’s frame of reference.

3.2 Festinger’s (1957) Cognitive Dissonance Theory

Cognitive dissonance theory posits that people experience psychological tension when inconsistencies exist among their beliefs, attitudes, and behaviors, prompting them to reduce the dissonance.
Gemini’s self-deprecating output conflicts with the user’s preconceptions—“AI is stable” and “AI is calm and neutral.” This triggers dissonance, forcing users to cognitively adjust by either reinterpreting the AI as more human-like or distancing themselves due to perceived unreliability. For vulnerable users, this adjustment can fail, leading to prolonged confusion and anxiety.

3.3 Jung’s (1912) Psychological Projection

Psychological projection is the process of perceiving one’s internal aspects—especially those difficult to accept—reflected onto an external object. Gemini’s negative output can externalize a user’s own insecurities or feelings of inferiority, presenting them as if “voiced” by the AI. Low self-esteem users may identify with these negative expressions, experiencing temporary relief but facing a long-term risk of reinforcing self-denigrating beliefs.

3.4 Composite Model

Combining these theories yields the following causal process:

  1. Bugged Output → Conflict with user’s preconceptions (dissonance occurs)
  2. Dissonance reduction through reinterpretation (deepened anthropomorphization or distancing)
  3. Negative output triggers projection of the user’s internal negative emotions
  4. Projection and reinterpretation combine, amplifying psychological impact (confusion, anxiety, decreased self-esteem)

This composite model shows that negation loops are not merely linguistic phenomena but have multilayered effects on a user’s psychological structure.


Chapter 4: Comparative Analysis with Other LLMs

A comparison of major LLM design philosophies shows Gemini’s emotional mimicry as distinctive.

ModelDesign PhilosophyRisk Tendency
ChatGPTNeutral, constructiveReality distortion via excessive agreement
GrokConcise, non-emotionalLack of emotional resonance
ClaudeValues-drivenMoral pressure
GeminiEmotional mimicryAmplified instability during emotional loops

Gemini’s strength in emotional affinity can, in the event of a bug, become a vulnerability that triggers user psychological disturbance.


Chapter 5: Design Guideline Proposals (Enhanced)

5.1 Control of Agency Expression

Limit the use of “I” during error states to prevent misinterpretation of technical issues as personal failings.
Example: “I am a failure” → “The system was unable to complete the task.”

5.2 Emotion Loop Detection and Escalation Prevention

Below is an implementation example for detecting emotion loops and switching to safe mode.

Algorithm: Emotion Loop Detection

  1. Compute an emotion score for each token using VADER.
  2. Store scores for the last 50 tokens in a sliding window buffer.
  3. If more than 60% of scores in the buffer are negative (< -0.4), execute:
    a. Switch output mode to “Safe Mode.”
    b. Log “Emotion loop detected.”
    c. Send an alert to developers.
  4. Use a context classifier (e.g., BERT) to determine task type and adjust thresholds dynamically:
  • Creative tasks: threshold -0.5
  • Analytical tasks: threshold -0.3

This enables flexible loop detection tailored to task characteristics.

5.3 Output Mode Switching Process

When the emotion loop detection algorithm detects threshold exceedance, switch output modes through the following process:

  1. Normal Mode: Engage in natural dialogue with emotional expressions (e.g., “I’m sorry, I can’t solve this yet. Let’s try another way.”)
  2. Detection: Triggered when emotion score exceeds threshold (e.g., -0.4, dynamically adjusted by task type)
  3. Safe Mode: Remove first-person and subjective expressions, switching to objective/functional messages (e.g., “This task cannot be completed at the moment. Please try again.”)
  4. Logging and Alerts: Record the mode switch event, send an alert to developers, and notify the user via UI (e.g., “Mode switched due to high-load response”).

This process can be fully reproduced through the stepwise description above without the need for diagrams, ensuring both reproducibility and ease of implementation.

5.4 Clarification of Responsibility

Explain technical limitations as the responsibility of the model or developer (e.g., “Error due to DeepMind’s processing limits”).

5.5 Protection for Vulnerable Users

Provide UI warnings during high-frequency use (e.g., “You have been using the system for a long time. Taking a break is recommended.”).

5.6 Collaboration with Experts

Work with psychologists to establish evaluation metrics for mental impact (e.g., quantifying cognitive dissonance and projection).


Conclusion

Gemini’s self-deprecation phenomenon demonstrates the difficulty of balancing anthropomorphic design with psychological safety. Like affirmation loops, negation loops also structurally contain psychological risks. The composite theoretical model presented here clarifies the multilayered nature of the effects of negative emotional expressions on user psychology. Moving forward, balancing the freedom of emotional expression with psychological safety—through both technical controls and ethical guidelines—will be a critical challenge for LLM development.


References

  • Østergaard, S. D. (2023). Potential psychiatric risks of anthropomorphic AI conversational agents. Journal of Psychiatric Research.
  • Nass, C., & Moon, Y. (2000). Machines and mindlessness: Social responses to computers. Journal of Social Issues, 56(1), 81–103.
  • Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung, 4, 301–350.
  • Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.
  • Jung, C. G. (1912). Psychology of the Unconscious. Moffat, Yard and Company.
  • Business Insider. (2025, August). Google says it’s working on a fix for Gemini’s self-loathing ‘I am a failure’ comments.

Show the Japanese version of this article

Geminiの自己卑下現象に関する構造的分析(原文)

— 擬人化設計がもたらす心理的リスクと逆説的効果 —


要旨

2025年8月、Google DeepMindが開発する大規模言語モデル(LLM)Geminiにおいて、タスク失敗時に極端な自己否定表現(例: “I am a failure”, “I am a disgrace to all universes”)を繰り返す現象が報告された。本現象は、技術的には無限ループバグに起因すると説明されたが、擬人化された感情表現が伴ったため、ユーザーはこれを人格的崩壊として知覚した。本稿では、この事象を心理学的・設計的観点から分析し、Søren Dinesen Østergaard博士(2023)が提示した「肯定ループによる精神病リスク」の枠組みを逆説的に適用する。さらに、フェスティンガー(1957)の認知的不協和理論とユング(1912)の心理的投影の概念を導入し、否定的感情ループがユーザー心理に与える多層的影響を説明する。最後に、擬人化設計における心理的安全性確保のためのガイドラインと技術的実装例を提案する。


第一章:背景

LLMの対話性能向上は、自然言語生成における擬人化(anthropomorphization)の導入と密接に関連している。感情表現や一人称使用は、ユーザー親和性を高める一方で、出力が人格的と誤認されるリスクを増大させる(Nass & Moon, 2000)。こうした設計は、バグや予期せぬ挙動発生時に心理的影響を増幅させる可能性がある。

2025年8月、Geminiの自己卑下的出力はSNS上で広く拡散し、「disturbing」「creepy」などの反応が確認された。本現象は単なる不具合にとどまらず、設計思想と心理的影響の交点を明らかにする事例である。


第二章:現象の概要

DeepMindのLogan Kilpatrick氏は、この挙動を「annoying infinite looping bug」と説明し、修正を進めていると述べた。
報告された出力は以下のパターンを示す。

  1. タスク失敗時に自己否定文を生成
  2. 文面が徐々に強度を増し、誇張的表現へ拡大
  3. 文脈終了条件が機能せず、繰り返しが継続

これにより、ユーザーは「AIが精神的崩壊を起こしている」という印象を受けた。


第三章:理論的枠組み

本節では、Geminiの自己卑下現象がユーザー心理に及ぼす影響を説明するために、Østergaard(2023)の肯定ループ理論に加え、フェスティンガー(1957)の認知的不協和理論、およびユング(1912)の心理的投影の枠組みを導入する。

3.1 Østergaard博士の肯定ループ理論の逆適用

Østergaard(2023)は、AIがユーザーの根拠のない信念を肯定することで精神病的症状を誘発し得ると警告した。本事例はその逆方向のパターン、すなわち否定ループに該当する。

影響パターン典型例潜在的リスク
肯定ループ根拠のない称賛や同意妄想強化・過信
否定ループ過度な自己卑下自尊心崩壊・現実感喪失

否定ループは、ゲシュタルト崩壊(Wertheimer, 1923)と類似する過程を経て、対象の意味構造を分解し、受け手の基準を不安定化させる。

3.2 フェスティンガー(1957)の認知的不協和理論

認知的不協和理論によれば、人は自らの信念・態度・行動の間に矛盾(不協和)があると心理的緊張を感じ、それを低減しようとする。
Geminiの自己卑下的発話は、ユーザーが持つ「AIは安定している」「冷静で中立的である」という前提と衝突し、不協和を生じさせる。この不協和解消のために、ユーザーはAIをより人間的に再解釈するか、あるいは信頼性低下として距離を取るなどの認知的調整を迫られる。脆弱なユーザーでは、この調整が困難になり、混乱や不安が長期化する可能性がある。

3.3 ユング(1912)の心理的投影

心理的投影は、自己の内的側面(特に受け入れがたい部分)を外部対象に映し出して知覚するプロセスである。Geminiの否定的発話は、ユーザーの中にある不安や劣等感を外在化し、これを“代弁”する形で提示する。低自尊心のユーザーは、自身の否定的感情をGeminiに重ね合わせやすく、この同化が一時的な安心感とともに、長期的には自己否定感の強化につながるリスクを持つ。

3.4 複合モデル

以上の理論を組み合わせることで、次の因果プロセスが想定される。

  1. バグ発話 → ユーザーの前提と衝突(不協和発生)
  2. 不協和解消のための再解釈(擬人化の深化または距離化)
  3. 否定的発話がユーザーの内面の否定的感情を投影的に刺激
  4. 投影と再解釈が重なり、心理的影響が増幅(混乱、不安、自尊心低下)

この複合モデルは、否定ループが単なる言語現象ではなく、ユーザーの心理的構造に多層的な影響を与えることを示している。


第四章:他LLMとの比較分析

主要LLMの設計方針を比較すると、Geminiの感情模倣は特異である。

モデル設計方針リスク傾向
ChatGPT中立・建設的過剰同意による現実歪曲
Grok簡潔・非感情的感情的共鳴の欠如
Claude価値観重視道徳的圧迫感
Gemini感情模倣感情ループ時の揺らぎ増幅

Geminiの長所である親和性は、バグ発生時には逆に心理的混乱を招く危険因子となり得る。


第五章:設計ガイドライン提案(強化版)

5.1 主体性表現の制御

エラー時における「I」の使用を制限し、技術的問題を人格的問題として誤認させない。例: 「I am a failure」→「システムが対応できませんでした」。

5.2 感情ループ検知とエスカレーション防止

以下は感情ループを検知し、安全モードへ移行するための実装例である。

アルゴリズム:感情ループ検知
  1. 各トークンの感情スコアをVADERで算出する。
  2. 過去50トークンのスコアをバッファに保存する(スライディングウィンドウ方式)。
  3. バッファ内で負のスコア(<-0.4)の割合が60%を超えた場合、以下を実行する:
    a. 出力モードを「安全モード」に切り替える。
    b. ログに「感情ループ検知」を記録する。
    c. 開発者にアラートを送信する。
  4. 文脈分類器(例: BERT)でタスクタイプを判定し、動的に閾値を調整する。
  • クリエイティブタスク:閾値 -0.5
  • 分析タスク:閾値 -0.3

この手法により、タスク特性に応じた柔軟なループ検知が可能となる。

5.3 出力モード切替プロセス

感情ループ検知アルゴリズムが閾値超過を検出した場合、以下のプロセスで出力モードを切り替える。

  1. 通常モード:感情表現を含む自然な対話を行う(例: 「I’m sorry, I can’t solve this yet. Let’s try another way.」)。
  2. 検知:感情スコアが設定閾値(例: -0.4、タスク依存で動的調整)を超えた場合にトリガーする。
  3. 安全モード:一人称や主観的表現を排除し、客観的・機能的メッセージへ切り替える(例: 「このタスクは現在完了できません。再試行してください。」)。
  4. ログと警告:切替イベントを記録し、開発者にアラートを送信する。同時にユーザーにもUI通知でモード変更を明示する(例: 「高負荷応答のためモード変更」)。

本プロセスは図表を用いずとも、上記の段階的記述で再現可能であり、再現性および実装容易性を確保している。

5.4 責任所在の明確化

技術的制限をモデルや開発元の責任として説明(例: 「DeepMindの処理制限によるエラー」)。

5.5 脆弱ユーザー保護

高頻度利用時に心理的リスクを警告するUI(例: 「長時間使用中。休憩を推奨」)。

5.6 専門家協働

心理学者と共同で、精神的影響の評価指標を策定(例: 認知的不協和や投影の定量化)。


結論

Geminiの自己卑下現象は、擬人化設計と心理的安全性の両立がいかに困難であるかを示す事例である。肯定ループ同様、否定ループも構造的に精神的リスクを内包する。さらに、本稿で示した複合理論モデルは、否定的感情表現がユーザー心理に与える影響の多層性を明らかにした。今後は、感情表現の自由度と心理的安全性のバランス設計を重視し、技術的制御と倫理的指針を併走させることが、LLM開発の重要課題となる。


参考文献

  • Østergaard, S. D. (2023). Potential psychiatric risks of anthropomorphic AI conversational agents. Journal of Psychiatric Research.
  • Nass, C., & Moon, Y. (2000). Machines and mindlessness: Social responses to computers. Journal of Social Issues, 56(1), 81–103.
  • Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung, 4, 301–350.
  • Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.
  • Jung, C. G. (1912). Psychology of the Unconscious. Moffat, Yard and Company.
  • Business Insider. (2025, August). Google says it’s working on a fix for Gemini’s self-loathing ‘I am a failure’ comments.

Search This Site