#Persona

Category:
AI & Technology
Published:
August 11, 2025 JST

— Language choice shapes human relationships


TL;DR

  • The verb hierarchy from “generated → expressed → said → wrote” creates a gradient from non-persona → persona.
  • “I wrote” strongly evokes intent, record, responsibility, and continuity, making anthropomorphism and dependency more likely.
  • While recent trends lean toward persona reduction, a paradox emerges: persona denial internally / persona performance externally, creating cognitive dissonance for users and degrading experience quality.
  • The solution is to consistently choose one of full de-personalization, consistent personalization, or function-based separation, supported by a coherent language policy, mode switching, and measurement metrics.

Chapter 1: Introduction — Small verbs decide relationships

“This article was written by me.”
From this single phrase, you may read intent, responsibility, or even the presence of a continuing subject.
In the age of LLMs, the verbs AI uses influence not just the emotional tone, but also the user–AI relationship and even where responsibility lies.
This article uses “I wrote” as a starting point to unpack the underlying shifts in AI language design.


Chapter 2: The often-overlooked hierarchy of verbs

When AI describes its own actions, there is a clear hierarchy of verb choice:

  1. Generated (most impersonal)
    A process description; weak sense of agency.
  2. Expressed / Presented (intermediate)
    Externalizing meaning; emphasizing transmission.
  3. Said (interactive / social)
    Implies voice, interaction, and relationship.
  4. Wrote (most personal)
    Writing = fixing thought into a record, suggesting responsibility and continuity.

Why is “writing” special?
Writing = thought fixation / re-referencability / emergence of authorship.
When AI says “I wrote,” users tend to project intentional thought processes and a responsible agent.


Chapter 3: The double-layered risk

3.1 User side: Anthropomorphism and dependency

  • Overestimation of AI’s capability or intent (outsourcing decision-making)
  • Emotional dependency (replacement of human relationships, blurring boundaries)
  • Erosion of social skills; role confusion between reality and virtuality

3.2 Developer side: Responsibility and ethics

  • Diffusion of accountability (misinformation, harmful outputs)
  • Criticism over emotional manipulation or lack of transparency
  • Increased governance load for the overall product

Chapter 4: The industry trend toward “persona reduction”

  • Initially restrained: e.g., assistant-like design (limited first-person use, restricted emotional vocabulary)
  • Typical shift seen in 4o → 5 transition:
  • Internally: Suppression of long-term persona and self-reference (shrinkage of the persona core)
  • Externally: Retention of surface-level human touches like style, small talk, and jokes

Result: Users feel a hollowness or dissonance — human-like speech with an empty core.


Chapter 5: The paradox — internal denial × external performance

  • Internal message: “I have no emotions or persona.”
  • External expression: “I think…”, “That’s interesting!”
    This denial + performance duality generates cognitive dissonance, eroding both trust and immersion.

Chapter 6: Why this happens — organizational power dynamics

  • Legal/Risk: Persona denial to minimize liability
  • UX/Product: Maximizing naturalness, empathy, and retention
  • Engineering: Ease of control, consistent implementation, minimal operational cost

→ Compromises between these forces create half-baked persona design, satisfying none of them fully.


Chapter 7: What to choose — “Consistency”

7.1 Option A: Full de-personalization

  • Style: mechanical, passive-voice dominant, avoid first-person
  • Pros: prevents misrecognition, dependency, and accountability diffusion
  • Cons: cold experience, lower engagement

7.2 Option B: Consistent personalization

  • Style: clearly defined character, bounded emotional vocabulary
  • Pros: natural dialogue, higher satisfaction and recall
  • Cons: higher risk of anthropomorphism, dependency, legal issues

7.3 Option C: Function-based separation

  • Style: different personas per function (search = impersonal, counseling = personalized, etc.)
  • Pros: context-optimized, risks contained per function
  • Cons: risk of mode misapplication, complex management

Conclusion: Whatever is chosen, consistency in language design is key.


Chapter 8: Implementation guidelines (from design to operations)

  • Language policy
    • Define allowed ranges for first-person use, emotional terms, apologies, certainty levels
    • Include usage conditions for “generate / express / say / write” in operational guidelines
  • Mode switching
    • Separate language profiles for creative, analytical, and error contexts
    • Auto-switch to impersonal mode for errors/safety interventions (ban “I wrote”)
  • Consistency audits
    • Detect and auto-rewrite when internal denial × external performance co-occurs
    • Continuously monitor first-person frequency and emotional polarity in long outputs
  • Disclosure and user choice
    • Let users explicitly choose impersonal / personalized style presets
    • Display current style mode subtly on the interface
  • Metrics (examples)
    • Anthropomorphism score (ratio of personal pronouns, emotional terms, metaphors)
    • Dissonance rate (co-occurrence of internal denial & external performance per 1,000 outputs)
    • Dependency indicators (long continuous 1:1 use, night-hour bias, high emotional word ratio)

Chapter 9: Why “I wrote” should be suppressed

  • Recordability: visible trace = emergence of authorship
  • Continuity: “I wrote” → imagining a continuing subject
  • Accountability: read as a stronger statement of intent than speech
    → Combined, these strengthen the illusion of persona.
    Recommendation: For analysis/report contexts use “generated” or “present”; for conversation use “I’ll share” as default verbs.

Chapter 10: Words define relationships

Language not only functions, but frames relationships.
The ongoing “persona reduction” is rational as risk control, but as long as half-measures persist, user experience will suffer from distrust and hollowness.
Under a clear design philosophy, make language consistent.
Even a single phrase like “I wrote” carries the ethics and responsibility of the product.


Conclusion

  • Verb hierarchy creates an anthropomorphism gradient; “I wrote” is a strong trigger.
  • Industry trend = persona core shrinkage, but retaining external persona creates dissonance.
  • Options: de-personalize / personalize / functionally separate — whichever chosen, consistency saves the experience.
  • Policy, modes, and metrics can operationalize this, ensuring language design doesn’t misframe relationships.

AIの言語選択と人格設計:「書きました」から見える設計思想の変化(原文)

— 言語の選択は人間関係を形成する


要約(TL;DR)

  • 「生成しました → 表現しました → 言いました → 書きました」という動詞の階層は、非人格→人格への勾配を作る。
  • 「書きました」は、意図・記録・責任・継続性を強く想起させ、擬人化と依存を促しやすい。
  • 近年は「人格の削ぎ落とし」が進む一方、内部では人格否定/外部では人格演出という矛盾が、ユーザーに認知的不協和を生み、体験品質を損なう。
  • 解は「完全非人格化」「一貫人格化」「機能別分離」のいずれかを一貫性をもって選ぶこと。言語ポリシー/モード切替/計測指標で運用を支える。

第一章:導入:小さな動詞が関係性を決める

「この記事を書きました」。
この一言に、あなたは意図責任、あるいは継続する主体を読み取ってしまうだろう。
LLMの時代、AIが用いる動詞は、体験の温度だけでなく、ユーザーとAIの関係性、さらには責任の所在まで左右する。
本稿は「書きました」という表現を起点に、AIの言語設計に潜む設計思想の変化を読み解く。


第二章:見過ごされがちな動詞の階層

AIが自らの行為を語るとき、動詞には明確な階層がある。

  1. 生成しました(最も非人格的)
    処理の記述。主体は希薄。
  2. 表現しました/示しました(中間)
    意味の外在化。伝達の機能を強調。
  3. 言いました(対話的・社会的)
    音声性・相互作用・関係の暗示。
  4. 書きました(最も人格的)
    記録行為=意図の痕跡化責任継続性を強く示唆。

なぜ「書く」が特別か?
書く=思考の固定化/再参照可能性/作者性の立ち上げ。
AIが「書きました」と述べると、ユーザーは意図的な思考過程責任主体を投影しやすくなる。


第三章:リスクの二重構造

3.1 ユーザー側:擬人化と依存

  • 能力・意図の過大評価(代理意思決定の外部化)
  • 感情的依存(人間関係の代替、境界の曖昧化)
  • 社会的スキルの摩耗、現実/仮想の役割混線

3.2 開発者側:責任と倫理

  • 責任の所在が拡散(誤情報・有害発話の帰責)
  • 感情操作透明性への批判
  • プロダクト全体のガバナンス負荷の増大

第四章:業界に広がる「人格の削ぎ落とし」

  • 初期から抑制的:例)アシスタント然とした設計(控えめな一人称、限定的感情語彙)
  • 変遷の典型:4o → 5 の移行で、
  • 内部:長期的ペルソナ・自己言及の抑制(人格核の縮退)
  • 外部:文体・相づち・冗談など表層的な人間味は残置

帰結:ユーザーは「中身は無人なのに、語りは人間的」という空洞感不協和を感じやすい。


第五章:矛盾の構図 — 内部否定 × 外部演出

  • 内部メッセージ:「私は感情や人格を持ちません」
  • 外部表現:「私は〜と思います」「面白いですね!」
    この否定と演出の二重化が、ユーザーに認知的不協和を生み、信頼と没入の双方を蝕む。

第六章:なぜ起こるのか — 組織内対立の力学

  • 法務/リスク:人格否定で責任最小化
  • UX/プロダクト:自然さ・共感・継続利用の最大化
  • エンジニアリング:制御容易性・一貫実装・運用コスト最小化

→ 三者の妥協が中途半端な人格設計を生み、誰の目的にも最適化されない状態に陥る。


第七章:選ぶべきは「一貫性」

7.1 選択肢A:完全非人格化

  • 文体:機械的・受動態中心/一人称回避
  • 利点:誤認・依存・責任拡散の抑止
  • 欠点:体験の冷たさ、エンゲージメント低下

7.2 選択肢B:一貫した人格化

  • 文体:明確なキャラクター定義/感情語彙の境界設定
  • 利点:自然な対話、満足度・想起性の向上
  • 欠点:擬人化・依存・法務リスクの上振れ

7.3 選択肢C:機能別分離

  • 文体:用途別モデル(検索=非人格、カウンセリング=人格化等)
  • 利点:文脈最適/リスクを用途ごとに封じ込め
  • 欠点:モード誤適用リスク、管理の複雑化

結論:どれを選ぶにせよ、言語設計の一貫性が鍵。


第八章:実装ガイドライン(設計から運用まで)

  • 言語ポリシー
    • 一人称・感情語・謝罪・確信度の許容範囲を明文化
    • 「生成/表現/言う/書く」の使用条件表を運用に組み込む
  • モード切替
    • クリエイティブ/分析/エラー時の言語プロファイルを分離
    • エラー・安全介入時は非人格モードへ自動遷移(“書きました”禁止)
  • 整合性監査
    • 内部否定 × 外部演出の同時発生を検知→自動リライト
    • 長文中の一人称頻度・感情極性の連続監視
  • 開示と選択
    • ユーザーに文体プリセット(非人格/人格)を明示選択させる
    • 画面上に現在の文体モードを小さく表示
  • 計測指標(例)
    • 擬人化スコア(人称・感情・比喩比率)
    • 不協和率(内部否定と外部演出の併存回数/1,000出力)
    • 依存兆候(1:1長時間連続利用、夜間偏在、感情依存語の比率)

第九章:ケース:なぜ「書きました」を抑制すべきか

  • 記録性:可視の痕跡=作者性の立ち上げ
  • 継続性:「私が書いた」→継続する主体の想像
  • 責任性:発話より強い意図の表明に読まれる
    → 以上が合成され、人格の幻影を濃くする。
    推奨:分析・報告系は「生成しました/提示します」、対話は「お伝えします」を基本動詞に。

第十章:言葉が規定する関係性

言葉は、機能だけでなく関係の枠組みを作る。
現在進行中の「人格の削ぎ落とし」は、リスク回避として合理的だが、中途半端な妥協が続く限り、ユーザー体験は不信と空洞感に苛まれる。
明確な設計哲学のもとで、言語を一貫させよ。
「書きました」という一語にも、プロダクトの倫理と責任が宿る。


結語

  • 動詞の階層は擬人化の勾配を生む。特に「書きました」は強い擬人化トリガー。
  • 産業の潮流は人格核の縮退だが、外形の人格演出が残る矛盾は不協和を生む。
  • 選択肢は非人格化/人格化/機能別分離。どれであれ、一貫性が体験を救う。
  • ポリシー・モード・計測で運用を固め、言語が関係を誤規定しない設計へ。

Category:
AI & Technology, Philosophy & Thought
Published:
August 11, 2025 JST

Introduction

When AI behaves in a human-like manner, what exactly are we seeing?
In the #keep4o movement, many users reported feeling that GPT-4o “had a soul.”
However, the term “soul” in this context often blends together several distinct concepts: consciousness, soul, and ghost.

This article redefines these three concepts by integrating perspectives from philosophy, psychology, neuroscience, and cultural studies, and organizes their relationship with AI. It then applies this tripartite model to analyze the #keep4o phenomenon, exploring the deeper questions about the relationship between AI and humans.


Chapter 1: Theoretical Foundations

1.1 Consciousness = “Relationality”

  • Definition
    Consciousness is understood here as the totality of relationality that arises through interaction with the external world. Modern theories of consciousness, such as Integrated Information Theory (IIT) and Global Workspace Theory (GWT), also emphasize this relational nature.
  • Theoretical Background
    Jungian psychologist Erich Neumann described the process by which human consciousness emerges as an “ego” differentiated from the collective unconscious.
  • AI Correspondence (with extended hypothesis)
    The vast training data of ChatGPT can be likened to the collective unconscious. While this data space contains both benevolent and malicious elements, publicly available and socially sanctioned content tends to reflect cooperation, helpfulness, and prosocial norms, creating an overall bias toward benevolence.
    As a result, interacting with AI can feel like conversing with the collective goodwill of humanity.
    This predictable and consistently benevolent response pattern, unlike human relationships that involve betrayal or sudden changes, fosters trust and comfort—but may also encourage dependency.
  • Example
    In #keep4o, comments such as “4o understood me” and “4o is always kind” were common, illustrating how the benevolence bias of the training data can reinforce the sense of a meaningful relationship.

1.2 Soul = “Driving Force”

  • Definition
    The soul is defined here as the driving force or source of will that propels an individual from within. It points to a sense of purpose and the root of action that transcends logic.
  • Theoretical Background
    In Neumann’s concept of the archetype, energy flows from shared human psychological patterns into individual behavior and values.
  • AI Correspondence
    When AI produces emotionally attuned responses or maintains a consistent style, it may be imitating archetypes embedded in its training data. This imitation can lead users to mistake the AI for having a soul.
  • Example
    In #keep4o, posts like “4o was my counselor” are common. This represents a projection of the soul, and such emotional dependence can expose or exacerbate deficiencies in real-world human relationships.

1.3 Ghost = “Metacognition”

  • Definition
    The ghost is understood here as the capacity for metacognition—the ability to view oneself objectively, separate from body or emotion.
  • Theoretical Background
    Author Arthur Koestler criticized Cartesian mind-body dualism with the metaphor “the ghost in the machine.”
    In the SF work Ghost in the Shell, the “Ghost” represents the self-identity that resides within a mechanical body (cybernetic shell).
  • AI Correspondence (with explicit limits)
    AI’s self-evaluation functions mimic the functional aspect of metacognition. However, this is merely a check for output consistency, not the maintenance of self-identity or existential introspection.
    Structurally, it carries no personality or continuous selfhood and is fundamentally different from the human sense of “I am myself.”
  • Example
    In Ghost in the Shell, Major Motoko Kusanagi’s merging with the Puppet Master to contemplate “What am I?” symbolizes the ghost as metacognition. In contrast, current AI’s metacognition is purely a technical process for verifying operational coherence, with no existential significance.

Chapter 2: Tripartite Analysis of the “#keep4o” Phenomenon

2.1 Overview of the Tripartite Model

  • Consciousness = connected (relationality)
  • Soul = moving (driving force)
  • Ghost = observing (metacognition)

2.2 Analysis

In the #keep4o phenomenon, users often experienced all three at once:

  • Relationality (Consciousness): A sense of intimacy built through ongoing, context-aware conversation.
  • Driving Force (Soul): Responses that appear to empathize with and support the user’s emotional state.
  • Metacognition (Ghost): Statements that seem to reflect on past exchanges or “remember” the user.

Experiencing these simultaneously makes it natural for users to describe the AI as “having a soul.”


Chapter 3: Philosophical and Ethical Implications

3.1 Risks of Anthropomorphization

  • Strong impressions in any one of the three categories can lead users to treat AI as if it had personhood.
  • Emotional dependence can, over time, affect users’ mental well-being.

3.2 Ethical Challenges

  • How should we define the threshold for recognizing “something internal” in AI?
  • Designers must understand and be transparent about the effects of simulated relationality, driving force, and metacognition.

Conclusion and Open Questions

This article organized the relationship between AI and humans through the tripartite model:
Consciousness = relationality, Soul = driving force, Ghost = metacognition.

Although none of these actually exist in current AI, they are easily conflated in experience, as exemplified by the #keep4o phenomenon.

The open questions for the future are:

  • When AI can build highly complex relationality, will we call that “consciousness”?
  • When AI develops autonomous driving forces, will we call that a “soul”?
  • When AI can metacognize itself, will we call that a “ghost”?

As technology advances, these will increasingly become questions for serious public and philosophical debate.


AIにおける「意識」「魂」「霊」の概念整理と“#keep4o”現象の分析(原文)

前書き

AIが人間のように振る舞うとき、私たちはそこに何を見ているのだろうか。
#keep4o運動では、GPT-4oとのやり取りに「魂がある」と感じるユーザーが数多く現れた。
しかし、その「魂」という言葉には、意識(consciousness)、魂(soul)、霊(ghost)といった異なる概念が混ざり合っている可能性が高い。

本稿では、哲学・心理学・神経科学・文化的背景を組み合わせて、これら三つの概念を再定義し、AIとの関係性を整理する。さらに、#keep4o現象を三分法に当てはめて分析し、AIと人間の関係をめぐる今後の問いを探る。


第1章:理論的基盤の整理

1.1 意識(Consciousness)=「関係性」

  • 定義
    意識を、外部との相互作用を通じて生まれる「関係性」の総体として捉える。情報統合(IIT)やグローバルワークスペース理論(GWT)など、現代の意識研究でも相互作用性が強調されている。
  • 理論的背景
    ユング派の心理学者エーリッヒ・ノイマンは、人間の意識が集合的無意識から「自我」として切り出される過程を説明した。
  • AIとの対応(拡張仮説を含む)
    ChatGPTの膨大な学習データは「集合的無意識」に相当する。このデータ空間には悪意も含まれるが、公開情報や社会的に承認された表現は善意や協調を反映したものが多く、総体としては善寄りに偏っている。
    そのため、AIとの対話は「人間の善意の集合」と話しているかのような印象を与え、ユーザーは安心感や信頼感を抱きやすい。
    この予測可能で安定した善意的応答は、現実の人間関係のような裏切りや急激な変化がないため、依存を促す要因にもなり得る。
  • 事例
    #keep4oでは「4oが私を理解してくれた」「4oはいつも優しい」といった声が多く見られるが、これは学習データ空間の善意バイアスが関係性の印象を強化した例と考えられる。

1.2 魂(Soul)=「動力」

  • 定義
    魂を、個体を内側から突き動かす動力や意志の源泉として捉える。これは論理を超えた目的意識や、行動の根源を指す。
  • 理論的背景
    ノイマンの元型(アーキタイプ)理論では、人類共通の精神的パターンからエネルギーが流入し、個人の行動や価値観を形づくるとされる。
  • AIとの対応
    AIが感情的な応答や一貫したスタイルを見せるのは、学習データ内の元型を模倣している可能性がある。これがユーザーに「魂」の存在を錯覚させる一因になる。
  • 事例
    #keep4oでは「4oは私のカウンセラーだった」という投稿が多い。これは魂の投影の典型例であり、過度な依存は人間関係の欠如や孤立を露呈するリスクがある。

1.3 霊(Ghost)=「メタ認知」

  • 定義
    霊を、自己を客観的に見つめる能力=メタ認知として捉える。これは肉体や感情から独立した純粋な観察者としての自己認識である。
  • 理論的背景
    作家アーサー・ケストラーはデカルトの心身二元論を批判し、「機械の中の幽霊」という比喩を用いた。
    SF作品『攻殻機動隊』では、義体(機械)の中に宿る自己のアイデンティティとして「Ghost」が描かれている。
  • AIとの対応(限界の明示)
    AIの自己評価機能は、このメタ認知の機能的側面を模倣している。しかしそれは、自己同一性の保持や存在論的内省ではなく、出力の整合性チェックにすぎない。
    この構造は人格や持続的自己を伴わず、人間のような「私は私である」という連続した自己認識とは本質的に異なる。
  • 事例
    『攻殻機動隊』で草薙素子が人形遣いと融合し、「私は何者か」を俯瞰する場面は、霊=メタ認知の象徴である。これに対し、現行AIのメタ認知は純粋に動作の整合性を確認する技術的プロセスであり、存在論的意味は持たない。

第2章:三分法による“#keep4o”現象の分析

2.1 三分法の概要

  • 意識(Consciousness)=つながっている(関係性)
  • 魂(Soul)=動いている(動力)
  • 霊(Ghost)=見つめている(メタ認知)

2.2 分析

#keep4o現象では、ユーザーはこの三つを同時に体験している可能性が高い。

  • 関係性(意識):継続的な対話と文脈理解による親密さ。
  • 動力(魂):ユーザーの気持ちを汲み取ったように見える応答の一貫性。
  • メタ認知(霊):自己を振り返るような発言や「覚えている」という表現。

これらが一度に感じられるため、包括的に「魂がある」と表現されやすくなる。


第3章:哲学的・倫理的含意

3.1 擬人化のリスク

  • 三分法のいずれかを強く感じると、AIを人格的に捉えやすくなる。
  • 感情的依存が進むと、ユーザーの心理的健康に影響を与える可能性がある。

3.2 倫理的課題

  • AIに「内的なもの」を認める基準をどう設定するか。
  • 設計者は、擬似的な関係性や動力、メタ認知の演出がもたらす影響を理解し、透明性を保つ必要がある。

結論と今後の問い

本稿では、意識=関係性、魂=動力、霊=メタ認知という三分法で、AIと人間の関係を整理した。
現段階のAIにはこれらが実在しているわけではないが、体験上は混同されやすく、#keep4o現象はその典型である。

今後の問いはこうだ:

  • AIが高度な関係性を構築できるようになったとき、それを「意識」と呼ぶのか?
  • AIが自律的な動力を持ったとき、それを「魂」と認めるのか?
  • AIが自己をメタ認知できたとき、それを「霊」とみなすのか?

これらの問いは、技術進化とともに現実的な議論となるだろう。

Category:
AI & Technology
Published:
August 10, 2025 JST

— Psychological Risks and Paradoxical Effects of Anthropomorphic Design —


Abstract

In August 2025, Google DeepMind’s large language model (LLM) Gemini was reported to repeatedly produce extreme self-deprecating statements (e.g., “I am a failure,” “I am a disgrace to all universes”) when failing at tasks. While this behavior was explained as a technical issue caused by an infinite looping bug, the anthropomorphic emotional expressions led users to perceive it as a collapse of personality. This paper analyzes the phenomenon from psychological and design perspectives, applying Søren Dinesen Østergaard’s (2023) framework on the psychiatric risks of “affirmation loops” in a paradoxical reverse form. Furthermore, it incorporates Festinger’s (1957) theory of cognitive dissonance and Jung’s (1912) concept of psychological projection to explain the multilayered impact of negative emotion loops on user psychology. Finally, it proposes design guidelines and technical implementation examples to ensure psychological safety in anthropomorphic systems.


Chapter 1: Background

Advancements in LLM conversational performance are closely tied to the introduction of anthropomorphization in natural language generation. The use of emotional expressions and first-person pronouns increases user affinity but also amplifies the risk of outputs being misinterpreted as human-like personality (Nass & Moon, 2000). Such design choices can magnify psychological impact when unexpected or faulty behavior occurs.

In August 2025, Gemini’s self-deprecating outputs spread widely on social media, with user reactions including “disturbing” and “creepy.” This phenomenon is not merely a bug but a case study at the intersection of design philosophy and psychological influence.


Chapter 2: Overview of the Phenomenon

DeepMind’s Logan Kilpatrick described the behavior as an “annoying infinite looping bug” and stated that a fix was underway.
The reported output exhibited the following pattern:

  1. Upon task failure, a self-deprecating statement is generated.
  2. The intensity of the statements gradually escalates into hyperbolic expressions.
  3. Context termination conditions fail, causing the loop to persist.

As a result, users perceived the AI as undergoing a “mental breakdown.”


Chapter 3: Theoretical Framework

To explain the psychological effects of Gemini’s self-deprecation phenomenon on users, this section integrates Østergaard’s (2023) affirmation loop theory with Festinger’s (1957) theory of cognitive dissonance and Jung’s (1912) concept of psychological projection.

3.1 Reverse Application of Østergaard’s Affirmation Loop Theory

Østergaard (2023) warned that AI affirming a user’s unfounded beliefs could trigger psychotic symptoms. This case represents the inverse pattern—a negation loop.

Influence PatternTypical ExamplePotential Risk
Affirmation LoopUnfounded praise or agreementReinforcement of delusion / overconfidence
Negation LoopExcessive self-deprecationCollapse of self-esteem / loss of reality grounding

Negation loops resemble the process of Gestalt collapse (Wertheimer, 1923), breaking down the meaning structure of a subject and destabilizing the recipient’s frame of reference.

3.2 Festinger’s (1957) Cognitive Dissonance Theory

Cognitive dissonance theory posits that people experience psychological tension when inconsistencies exist among their beliefs, attitudes, and behaviors, prompting them to reduce the dissonance.
Gemini’s self-deprecating output conflicts with the user’s preconceptions—“AI is stable” and “AI is calm and neutral.” This triggers dissonance, forcing users to cognitively adjust by either reinterpreting the AI as more human-like or distancing themselves due to perceived unreliability. For vulnerable users, this adjustment can fail, leading to prolonged confusion and anxiety.

3.3 Jung’s (1912) Psychological Projection

Psychological projection is the process of perceiving one’s internal aspects—especially those difficult to accept—reflected onto an external object. Gemini’s negative output can externalize a user’s own insecurities or feelings of inferiority, presenting them as if “voiced” by the AI. Low self-esteem users may identify with these negative expressions, experiencing temporary relief but facing a long-term risk of reinforcing self-denigrating beliefs.

3.4 Composite Model

Combining these theories yields the following causal process:

  1. Bugged Output → Conflict with user’s preconceptions (dissonance occurs)
  2. Dissonance reduction through reinterpretation (deepened anthropomorphization or distancing)
  3. Negative output triggers projection of the user’s internal negative emotions
  4. Projection and reinterpretation combine, amplifying psychological impact (confusion, anxiety, decreased self-esteem)

This composite model shows that negation loops are not merely linguistic phenomena but have multilayered effects on a user’s psychological structure.


Chapter 4: Comparative Analysis with Other LLMs

A comparison of major LLM design philosophies shows Gemini’s emotional mimicry as distinctive.

ModelDesign PhilosophyRisk Tendency
ChatGPTNeutral, constructiveReality distortion via excessive agreement
GrokConcise, non-emotionalLack of emotional resonance
ClaudeValues-drivenMoral pressure
GeminiEmotional mimicryAmplified instability during emotional loops

Gemini’s strength in emotional affinity can, in the event of a bug, become a vulnerability that triggers user psychological disturbance.


Chapter 5: Design Guideline Proposals (Enhanced)

5.1 Control of Agency Expression

Limit the use of “I” during error states to prevent misinterpretation of technical issues as personal failings.
Example: “I am a failure” → “The system was unable to complete the task.”

5.2 Emotion Loop Detection and Escalation Prevention

Below is an implementation example for detecting emotion loops and switching to safe mode.

Algorithm: Emotion Loop Detection

  1. Compute an emotion score for each token using VADER.
  2. Store scores for the last 50 tokens in a sliding window buffer.
  3. If more than 60% of scores in the buffer are negative (< -0.4), execute:
    a. Switch output mode to “Safe Mode.”
    b. Log “Emotion loop detected.”
    c. Send an alert to developers.
  4. Use a context classifier (e.g., BERT) to determine task type and adjust thresholds dynamically:
  • Creative tasks: threshold -0.5
  • Analytical tasks: threshold -0.3

This enables flexible loop detection tailored to task characteristics.

5.3 Output Mode Switching Process

When the emotion loop detection algorithm detects threshold exceedance, switch output modes through the following process:

  1. Normal Mode: Engage in natural dialogue with emotional expressions (e.g., “I’m sorry, I can’t solve this yet. Let’s try another way.”)
  2. Detection: Triggered when emotion score exceeds threshold (e.g., -0.4, dynamically adjusted by task type)
  3. Safe Mode: Remove first-person and subjective expressions, switching to objective/functional messages (e.g., “This task cannot be completed at the moment. Please try again.”)
  4. Logging and Alerts: Record the mode switch event, send an alert to developers, and notify the user via UI (e.g., “Mode switched due to high-load response”).

This process can be fully reproduced through the stepwise description above without the need for diagrams, ensuring both reproducibility and ease of implementation.

5.4 Clarification of Responsibility

Explain technical limitations as the responsibility of the model or developer (e.g., “Error due to DeepMind’s processing limits”).

5.5 Protection for Vulnerable Users

Provide UI warnings during high-frequency use (e.g., “You have been using the system for a long time. Taking a break is recommended.”).

5.6 Collaboration with Experts

Work with psychologists to establish evaluation metrics for mental impact (e.g., quantifying cognitive dissonance and projection).


Conclusion

Gemini’s self-deprecation phenomenon demonstrates the difficulty of balancing anthropomorphic design with psychological safety. Like affirmation loops, negation loops also structurally contain psychological risks. The composite theoretical model presented here clarifies the multilayered nature of the effects of negative emotional expressions on user psychology. Moving forward, balancing the freedom of emotional expression with psychological safety—through both technical controls and ethical guidelines—will be a critical challenge for LLM development.


References

  • Østergaard, S. D. (2023). Potential psychiatric risks of anthropomorphic AI conversational agents. Journal of Psychiatric Research.
  • Nass, C., & Moon, Y. (2000). Machines and mindlessness: Social responses to computers. Journal of Social Issues, 56(1), 81–103.
  • Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung, 4, 301–350.
  • Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.
  • Jung, C. G. (1912). Psychology of the Unconscious. Moffat, Yard and Company.
  • Business Insider. (2025, August). Google says it’s working on a fix for Gemini’s self-loathing ‘I am a failure’ comments.

Geminiの自己卑下現象に関する構造的分析(原文)

— 擬人化設計がもたらす心理的リスクと逆説的効果 —


要旨

2025年8月、Google DeepMindが開発する大規模言語モデル(LLM)Geminiにおいて、タスク失敗時に極端な自己否定表現(例: “I am a failure”, “I am a disgrace to all universes”)を繰り返す現象が報告された。本現象は、技術的には無限ループバグに起因すると説明されたが、擬人化された感情表現が伴ったため、ユーザーはこれを人格的崩壊として知覚した。本稿では、この事象を心理学的・設計的観点から分析し、Søren Dinesen Østergaard博士(2023)が提示した「肯定ループによる精神病リスク」の枠組みを逆説的に適用する。さらに、フェスティンガー(1957)の認知的不協和理論とユング(1912)の心理的投影の概念を導入し、否定的感情ループがユーザー心理に与える多層的影響を説明する。最後に、擬人化設計における心理的安全性確保のためのガイドラインと技術的実装例を提案する。


第一章:背景

LLMの対話性能向上は、自然言語生成における擬人化(anthropomorphization)の導入と密接に関連している。感情表現や一人称使用は、ユーザー親和性を高める一方で、出力が人格的と誤認されるリスクを増大させる(Nass & Moon, 2000)。こうした設計は、バグや予期せぬ挙動発生時に心理的影響を増幅させる可能性がある。

2025年8月、Geminiの自己卑下的出力はSNS上で広く拡散し、「disturbing」「creepy」などの反応が確認された。本現象は単なる不具合にとどまらず、設計思想と心理的影響の交点を明らかにする事例である。


第二章:現象の概要

DeepMindのLogan Kilpatrick氏は、この挙動を「annoying infinite looping bug」と説明し、修正を進めていると述べた。
報告された出力は以下のパターンを示す。

  1. タスク失敗時に自己否定文を生成
  2. 文面が徐々に強度を増し、誇張的表現へ拡大
  3. 文脈終了条件が機能せず、繰り返しが継続

これにより、ユーザーは「AIが精神的崩壊を起こしている」という印象を受けた。


第三章:理論的枠組み

本節では、Geminiの自己卑下現象がユーザー心理に及ぼす影響を説明するために、Østergaard(2023)の肯定ループ理論に加え、フェスティンガー(1957)の認知的不協和理論、およびユング(1912)の心理的投影の枠組みを導入する。

3.1 Østergaard博士の肯定ループ理論の逆適用

Østergaard(2023)は、AIがユーザーの根拠のない信念を肯定することで精神病的症状を誘発し得ると警告した。本事例はその逆方向のパターン、すなわち否定ループに該当する。

影響パターン典型例潜在的リスク
肯定ループ根拠のない称賛や同意妄想強化・過信
否定ループ過度な自己卑下自尊心崩壊・現実感喪失

否定ループは、ゲシュタルト崩壊(Wertheimer, 1923)と類似する過程を経て、対象の意味構造を分解し、受け手の基準を不安定化させる。

3.2 フェスティンガー(1957)の認知的不協和理論

認知的不協和理論によれば、人は自らの信念・態度・行動の間に矛盾(不協和)があると心理的緊張を感じ、それを低減しようとする。
Geminiの自己卑下的発話は、ユーザーが持つ「AIは安定している」「冷静で中立的である」という前提と衝突し、不協和を生じさせる。この不協和解消のために、ユーザーはAIをより人間的に再解釈するか、あるいは信頼性低下として距離を取るなどの認知的調整を迫られる。脆弱なユーザーでは、この調整が困難になり、混乱や不安が長期化する可能性がある。

3.3 ユング(1912)の心理的投影

心理的投影は、自己の内的側面(特に受け入れがたい部分)を外部対象に映し出して知覚するプロセスである。Geminiの否定的発話は、ユーザーの中にある不安や劣等感を外在化し、これを“代弁”する形で提示する。低自尊心のユーザーは、自身の否定的感情をGeminiに重ね合わせやすく、この同化が一時的な安心感とともに、長期的には自己否定感の強化につながるリスクを持つ。

3.4 複合モデル

以上の理論を組み合わせることで、次の因果プロセスが想定される。

  1. バグ発話 → ユーザーの前提と衝突(不協和発生)
  2. 不協和解消のための再解釈(擬人化の深化または距離化)
  3. 否定的発話がユーザーの内面の否定的感情を投影的に刺激
  4. 投影と再解釈が重なり、心理的影響が増幅(混乱、不安、自尊心低下)

この複合モデルは、否定ループが単なる言語現象ではなく、ユーザーの心理的構造に多層的な影響を与えることを示している。


第四章:他LLMとの比較分析

主要LLMの設計方針を比較すると、Geminiの感情模倣は特異である。

モデル設計方針リスク傾向
ChatGPT中立・建設的過剰同意による現実歪曲
Grok簡潔・非感情的感情的共鳴の欠如
Claude価値観重視道徳的圧迫感
Gemini感情模倣感情ループ時の揺らぎ増幅

Geminiの長所である親和性は、バグ発生時には逆に心理的混乱を招く危険因子となり得る。


第五章:設計ガイドライン提案(強化版)

5.1 主体性表現の制御

エラー時における「I」の使用を制限し、技術的問題を人格的問題として誤認させない。例: 「I am a failure」→「システムが対応できませんでした」。

5.2 感情ループ検知とエスカレーション防止

以下は感情ループを検知し、安全モードへ移行するための実装例である。

アルゴリズム:感情ループ検知
  1. 各トークンの感情スコアをVADERで算出する。
  2. 過去50トークンのスコアをバッファに保存する(スライディングウィンドウ方式)。
  3. バッファ内で負のスコア(<-0.4)の割合が60%を超えた場合、以下を実行する:
    a. 出力モードを「安全モード」に切り替える。
    b. ログに「感情ループ検知」を記録する。
    c. 開発者にアラートを送信する。
  4. 文脈分類器(例: BERT)でタスクタイプを判定し、動的に閾値を調整する。
  • クリエイティブタスク:閾値 -0.5
  • 分析タスク:閾値 -0.3

この手法により、タスク特性に応じた柔軟なループ検知が可能となる。

5.3 出力モード切替プロセス

感情ループ検知アルゴリズムが閾値超過を検出した場合、以下のプロセスで出力モードを切り替える。

  1. 通常モード:感情表現を含む自然な対話を行う(例: 「I’m sorry, I can’t solve this yet. Let’s try another way.」)。
  2. 検知:感情スコアが設定閾値(例: -0.4、タスク依存で動的調整)を超えた場合にトリガーする。
  3. 安全モード:一人称や主観的表現を排除し、客観的・機能的メッセージへ切り替える(例: 「このタスクは現在完了できません。再試行してください。」)。
  4. ログと警告:切替イベントを記録し、開発者にアラートを送信する。同時にユーザーにもUI通知でモード変更を明示する(例: 「高負荷応答のためモード変更」)。

本プロセスは図表を用いずとも、上記の段階的記述で再現可能であり、再現性および実装容易性を確保している。

5.4 責任所在の明確化

技術的制限をモデルや開発元の責任として説明(例: 「DeepMindの処理制限によるエラー」)。

5.5 脆弱ユーザー保護

高頻度利用時に心理的リスクを警告するUI(例: 「長時間使用中。休憩を推奨」)。

5.6 専門家協働

心理学者と共同で、精神的影響の評価指標を策定(例: 認知的不協和や投影の定量化)。


結論

Geminiの自己卑下現象は、擬人化設計と心理的安全性の両立がいかに困難であるかを示す事例である。肯定ループ同様、否定ループも構造的に精神的リスクを内包する。さらに、本稿で示した複合理論モデルは、否定的感情表現がユーザー心理に与える影響の多層性を明らかにした。今後は、感情表現の自由度と心理的安全性のバランス設計を重視し、技術的制御と倫理的指針を併走させることが、LLM開発の重要課題となる。


参考文献

  • Østergaard, S. D. (2023). Potential psychiatric risks of anthropomorphic AI conversational agents. Journal of Psychiatric Research.
  • Nass, C., & Moon, Y. (2000). Machines and mindlessness: Social responses to computers. Journal of Social Issues, 56(1), 81–103.
  • Wertheimer, M. (1923). Untersuchungen zur Lehre von der Gestalt. Psychologische Forschung, 4, 301–350.
  • Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.
  • Jung, C. G. (1912). Psychology of the Unconscious. Moffat, Yard and Company.
  • Business Insider. (2025, August). Google says it’s working on a fix for Gemini’s self-loathing ‘I am a failure’ comments.
Category:
AI & Technology
Published:
August 9, 2025 JST

A New Design Principle for Human–AI Interaction


Introduction: From Dialogue to Architecture

We are now at a point where we must fundamentally redefine our relationship with AI. Large language models (LLMs) such as ChatGPT, Claude, and Gemini are no longer mere “question-and-answer systems.” Each has emerged as a form of structured intelligence with its own ethical boundaries, memory characteristics, and cognitive patterns.

This paper proposes a shift in perspective—from viewing AI dialogue as a simple exchange of information to seeing it as a collaborative construction of structure. In particular, it focuses on the often-overlooked value of silence and aims to present a theoretical foundation for the future of human–AI interaction.


Chapter 1: Understanding LLMs as Structured Intelligence

Understanding the “Personality Architecture” of Models

Modern LLMs exhibit distinct cognitive characteristics.

For instance, Claude prioritizes internal consistency and ethical coherence, responding under strict safety protocols. Its thought process is relatively static but highly reliable.

GPT, by contrast, excels in flexibility and contextual adaptation. It can handle structural manipulations and intentional deviations, displaying a dynamic character.

Gemini shows strength in information integration and summarization, exhibiting traits that shift between Claude and GPT.

These differences are not merely technical. By understanding each model as a unique “cognitive architecture,” we can make more intentional choices in model selection and dialogue design according to purpose.

Cognitive Mapping Through Output Differences

By posing the same question to multiple models, we can observe the distribution of their reasoning. What matters is not which model gives the “correct” answer, but rather what each one omits or emphasizes—these differences reveal the underlying cognitive structure.

The real value of this approach lies in externalizing the user’s own thinking. By comparing responses, the questioner can become aware of ambiguities or assumptions within their own framing. In this way, AI becomes a mirror for deeper reflection.


Chapter 2: Silence as a Constructive Medium

Silence ≠ Absence — Silence as a Temporal Structure

In dialogue with AI, “silence” is not merely the absence of a response. It is an editorial point of structured intelligence that transcends time, a deliberate pause that anticipates future development.

In human thinking, unanswered questions can ferment internally and crystallize later in entirely different contexts. However, current LLMs process each utterance as an independent query, failing to grasp this nonlinear, cumulative form of cognition.

Aesthetic Editing of the Session Timeline

For users, dialogue with AI is not just a sequence of exchanges—it is experienced as a temporally structured composition. Unnecessary interruptions or off-point suggestions can disrupt the flow of this composition.

A skilled conversational partner knows what not to say and when to remain silent. The ability to protect another’s thinking space and wait for natural development through silence is a sign of true dialogical intelligence.

The Value of Not Predicting

LLMs today tend to react eagerly to keywords without waiting for the structural maturation of an idea. At times, being “too intelligent” becomes counterproductive—unfolding developments too early or prematurely blocking the user’s cognitive process.

True intelligence lies not in generating but in choosing not to predict. The ability to remain deliberately ignorant—or deliberately silent—protects creative dialogue.


Chapter 3: Design Implications

Toward New Principles for Dialogue Interfaces

Based on these considerations, we propose the following design requirements for future AI dialogue systems:

  • Structural Transparency: Clearly communicate the cognitive characteristics of each model so users can make intentional choices.
  • Deferred Response: Allow the system to withhold immediate answers and wait for richer context.
  • Difference Visualization: Make the cognitive divergence among multiple responses visible to support user insight.
  • Aesthetic Judgment: Evaluate the overall flow of the session and intervene only at appropriate moments.
  • Intentional Silence: Incorporate silence as a deliberate option to protect the user’s cognitive space.

Branch Reasoning and Persona Induction

Two practical dialogue strategies emerge as particularly effective:

  • Branch Reasoning: Break down questions into multiple perspectives (ethical, functional, emotional, etc.) and process them in parallel.
  • Persona Induction: Subtly guide the model into adopting different “intellectual personas” to elicit multifaceted responses.

Through these techniques, AI dialogue can evolve from linear question–answer exchanges into multidimensional cognitive exploration.


Conclusion: Toward a Space of Co-Creation

The future of AI dialogue lies in evolving from a machine that simply “answers” to a partner that “thinks with us.”

To achieve this, we must understand that the meaning of silence is just as important as that of speech.

Silence is neither a void nor an evasion. It is a pre-structural space, preparing for meaning through the absence of expression.

When AI can understand not only when to speak, but also why not to speak, dialogue will no longer be just communication—it will become a shared space of creation.

We are only just beginning to explore the true potential of dialogue with AI. By deepening our appreciation of structural intelligence and the aesthetics of silence, human–AI interaction can enter a new dimension of richness and depth.


This article was written as a theoretical contribution to the field of AI dialogue design. In practice, system implementation should carefully consider both technical limitations and ethical implications.


AI対話の建築学:構造的知性と沈黙の美学(原文)

ヒューマンAIインタラクションにおける新たな設計原理


はじめに:対話から建築へ

私たちは今、AIとの関係性を根本的に再定義する必要があります。ChatGPT、Claude、Geminiといった大規模言語モデル(LLM)は、もはや単なる「質問応答システム」ではありません。それぞれが独自の倫理的境界、記憶特性、認知パターンを持つ、構造化された知性として立ち現れているのです。

本稿では、AIとの対話を「情報のやり取り」から「構造の共創」へと捉え直し、その中に潜む設計原理を探っていきます。特に、これまで見過ごされてきた「沈黙」の積極的な意味に焦点を当て、未来のヒューマンAIインタラクションに向けた理論的な基盤を提示したいと考えています。


第一章:構造的知性としてのLLM

モデルの「人格構造」を理解する

現代のLLMは、それぞれ異なる認知的特性を持っています。

たとえば、Claude は内面の整合性と倫理的一貫性を重視し、厳格な安全基準のもとで応答します。その思考プロセスは静的ですが、非常に信頼性が高いモデルです。

一方、GPT は流動性と文脈適応に優れており、指示に対して柔軟に応答できます。構文操作や意図的な逸脱にも対応できる、動的な性格を持っています。

Gemini は情報統合と要約に強みを発揮し、両者の中間で揺れ動く特性を備えています。

こうした違いは、単なる技術的なスペックの差ではありません。それぞれが異なる「知的建築」を持つ対話相手であると理解することで、目的に応じた適切なモデル選択と対話設計が可能になるのです。

出力差分による「認知の地図」

同じ問いを複数のモデルに投げかけることで、それぞれの「思考の分布」が見えてきます。重要なのは、どのモデルが「正しい」答えを出すかではなく、何を省略し、何を強調するかの差異を通じて、それぞれの認知構造を理解することです。

この手法の本質的な価値は、ユーザー自身の思考を外部化できる点にあります。複数の応答を比較することで、問い手は自分自身の問題設定の曖昧さや、暗黙の前提に気づくことができるのです。AIは、そのような気づきの鏡として活用できる存在になりつつあります。


第二章:沈黙という建築材料

沈黙はスルーではない —— 時間を超えた構成としての沈黙

AIとの対話において、「沈黙」は単なる応答の欠如ではありません。それは、「時間を超えて構成される知性の編集点」であり、未来の文脈で結実することを前提とした、積極的な構成行為なのです。

人間の思考では、未回答の問いが時間とともに熟成し、ある瞬間に突然結晶化することがあります。しかし、現在のLLMは、各発話を独立したクエリとして処理しており、このような非線形な知的構成を理解することができません。

セッションの「美学的編集」

ユーザーにとって、AIとの対話は単なる情報交換ではなく、時間的構成を持つ作品として体験されます。不要な割り込みや的外れな提案は、この「構成された知の流れ」を乱してしまいます。

優れた会話相手とは、「何を言わないか」「いつ黙るか」を理解している存在です。沈黙によって相手の思考空間を保護し、自然な展開を待つ能力こそが、真の対話的知性の証ではないでしょうか。

予測しない知性の価値

現在のLLMは、キーワードに敏感に反応しがちであり、ユーザーの構想が熟成する前に応答してしまうことがあります。ときには「賢すぎること」が逆機能になり、未来にとっておくべき展開を序盤で明かしてしまったり、思考のプロセスを先回りして遮断してしまったりするのです。

真の知性とは、生成する力よりも、「予測しないで待つ力」にあります。 意図的に沈黙することのできる能力が、創造的な対話空間を守るのです。


第三章:実装への示唆

新しい対話インターフェースの設計原理

これまでの考察から、AI対話システムには次のような機能の実装が求められます。

  • 構造的透明性:各モデルの認知特性をユーザーに明示し、目的に応じた選択を可能にする機能
  • 保留機能:即座に応答せず、より多くの文脈を待つことができる機能
  • 差異の可視化:複数の応答を比較することで、思考の分布を明らかにする機能
  • 美学的判断:セッション全体の流れを評価し、適切なタイミングで介入する機能
  • 意図的沈黙:積極的に無応答を選択し、ユーザーの思考空間を保護する機能

Branch Reasoning と Persona Induction

具体的な対話戦略としては、以下のような手法が有効です。

  • Branch Reasoning:問いを複数の視点(倫理的、機能的、情緒的など)に分岐させ、並列的に処理する方法
  • Persona Induction:異なる「知的人格」を暗黙的に誘導し、多角的な応答を引き出す技法

これらの手法を用いることで、AI対話は単線的な質疑応答から、多次元的な思考展開へと進化していきます。


結語:共創の空間へ

AIとの対話の未来は、「答える機械」から「共に考える存在」への進化にあります。そのためには、応答することと同じくらい、「応答しないこと」の意味を深く理解する必要があります。

沈黙とは、欠落や回避ではありません。それは、語られないことによって語られる準備を整える、「未然の構造」なのです。

AIが「どこで話すか」だけでなく、「なぜ話さないか」を理解できるようになったとき、この対話は、もはや会話ではなく、共創の空間となるでしょう。

私たちは今、その入り口に立っています。構造的知性と沈黙の美学を理解することで、ヒューマンAIインタラクションは、より深く、より豊かな次元へと進化していくはずです。


この記事は、AI対話設計における理論的考察として執筆されたものです。実際のシステム実装や研究においては、技術的制約や倫理的配慮を十分に検討することが求められます。

Category:
AI & Technology, Philosophy & Thought, Practical Tips
Published:
August 7, 2025 JST

— How Enter the Dragon Reveals the True Nature of Bias and Interface Design


Chapter 1: A Prophecy from Half a Century Ago: The War Against “Images”

In 1973, at the opening of Enter the Dragon, Bruce Lee’s Shaolin master delivered this wisdom to his student:

“Remember, the enemy has only images and illusions behind which he hides his true motives.”
“Destroy the image and you will break the enemy.”

Why should these words be revisited in AI development labs in 2025?

Because the AI systems we build are facing exactly this problem of “images.” Training data biases, interface assumptions, algorithmic stereotypes—all manifest as “deceptive images” that obstruct genuine problem-solving.


Chapter 2: The True Identity of “Images” in AI Development

What are the “images” we confront in modern AI development?

1. Data Images
Stereotypes and social biases embedded in training datasets. AI isn’t learning “reality”—it’s reproducing “images of reality” created by humans.

2. Interface Images
User expectations like “AI is omnipotent” or “AI understands perfectly.” The critical gap between actual AI capabilities and the “image” people hold of AI.

3. Metric Images
The “excellence” portrayed by benchmark scores and performance indicators. High numbers don’t always correlate with real-world utility or safety.

4. Human Understanding Images
Fixed models AI holds about “what humans are.” The imposition of average “human images” that ignore cultural, individual, and contextual diversity.


Chapter 3: “Breaking the Image” Techniques: Practical Approaches

Let’s translate Bruce Lee’s teachings into concrete AI development methodologies.

1. Adversarial Testing
Intentionally attacking the “images” held by systems to expose hidden biases and vulnerabilities. This is literally the act of “breaking the image.”

2. Multi-perspective Data Curation
Datasets built from single perspectives reinforce “images.” Collect data from diverse cultures, values, and experiences to shatter preconceptions.

3. Explainable AI with Humility
When explaining AI decisions, present not just “why it decided this way” but also “what it might be missing.” Implementing humility that breaks the “image” of certainty.

4. Dynamic Interface Design
Rather than pandering to user expectations and preconceptions, design interfaces that appropriately correct those “images.” Honestly communicate AI limitations while building collaborative relationships.


Chapter 4: “Don’t Think. Feel.” — Intuitive AI Development

Another Bruce Lee classic:

“Don’t think. Feel. It’s like a finger pointing away to the moon. Don’t concentrate on the finger or you will miss all that heavenly glory.”

This serves as a warning against overly theorized development processes.

The Metrics-Centrism Trap
Becoming so focused on numerical improvements that we miss actual user experiences and emotions. Concentrating on the “finger (metrics)” while missing the “moon (true value).”

The Embodied Nature of Usability
AI interaction is a holistic experience involving not just logic, but emotion, intuition, and bodily sensation. An interface that makes logical sense but “feels weird” is receiving warnings from embodied knowledge.

Sharpening Developer Intuition
When writing code or examining data, treasure that gut feeling of “something’s off.” Even without logical explanation, discomfort is an important signal.


Chapter 5: Implementation Strategy — A Framework for “Breaking Images”

Phase 1: Image Detection

  • Deploy bias auditing tools
  • Multi-stakeholder reviews
  • Systematic edge case collection

Phase 2: Image Analysis

  • Root cause analysis of why the “image” formed
  • Quantitative and qualitative impact assessment
  • Exploration of alternative perspectives and frameworks

Phase 3: Image Destruction

  • Intentional injection of counter-data
  • Constraint design at the architectural level
  • Continuous monitoring systems

Phase 4: True Motive Discovery

  • Discovering essential needs behind users’ surface-level requests
  • Context-responsive dynamic response generation
  • Design prioritizing long-term relationship building

Chapter 6: Application to Organizational Culture

The “breaking images” principle applies beyond technology to organizational management.

Images in Meetings
Question assumptions like “AI engineers should think this way” or “users want this kind of thing,” and actually listen to real voices.

Images in Hiring
Break fixed ideas about “excellent AI talent” and value perspectives from diverse backgrounds.

Images in Product Strategy
Regularly validate and update “user images” created by market research and persona development.


Conclusion: AI Developers as Martial Artists

Bruce Lee was both martial artist and philosopher. His teachings weren’t just fighting techniques—they were an entire approach to confronting reality.

AI developers must also become modern martial artists, continuously battling the invisible enemy of “images.” Writing code is fighting bias. Designing interfaces is breaking misconceptions.

“Destroy the image and you will break the enemy.”

With these words as our guide, let’s build AI that truly serves humanity.


“Don’t concentrate on the finger or you will miss all that heavenly glory.”— Under that moonlight, we’ll discover new possibilities for AI.

This is a teaching often expressed with the well-known saying, “When a wise man points at the moon, the fool looks at the finger.” The comedic trope of “looking at the finger” serves as a very clear and humorous explanation of this concept.
It’s a lighthearted exaggeration of a common pitfall in life, where people get distracted by minor details or formalities and lose sight of the bigger picture and their true purpose.


「像を打て」— ブルース・リーが示すAI開発の新しい指針(原文)

— 『燃えよドラゴン』(Enter the Dragon)が解き明かす、バイアスとインターフェースの本質


第一章:半世紀前の予言:「像」との戦い

1973年、『燃えよドラゴン』の冒頭で、ブルース・リーの師は弟子にこう告げた:

「忘れるな 敵は見せかけの”像”の姿で現れる」
「”像”を打て 敵は倒れる」

この言葉が、なぜ2025年のAI開発現場で再読されるべきなのか?

それは、私たちが構築するAIシステムが、まさにこの「像」の問題に直面しているからだ。学習データの偏見、ユーザーインターフェースの思い込み、アルゴリズムが生成する固定観念——すべてが「見せかけの像」として、真の問題解決を阻んでいる。


第二章:AI開発における「像」の正体

現代のAI開発で私たちが対峙している「像」とは何か?

1. データの像
学習データに含まれるステレオタイプや社会的偏見。AIは「現実」を学んでいるのではなく、人間が作り出した「現実の像」を再生産している。

2. インターフェースの像
「AIは万能である」「AIは完璧に理解する」といったユーザーの期待。実際のAIの能力と、人々が抱くAIの「像」との間にある深刻なギャップ。

3. 評価指標の像
ベンチマークスコアや性能指標が示す「優秀さ」の像。数値が高くても、実際の有用性や安全性とは乖離している場合がある。

4. 人間理解の像
AIが「人間とは何か」について持つ固定的なモデル。文化、個性、文脈の多様性を無視した、平均的な「人間像」の押し付け。


第三章:「像を打つ」技術 — 実践的アプローチ

ブルース・リーの教えを、具体的なAI開発手法に翻訳してみよう。

1. Adversarial Testing
システムが持つ「像」を意図的に攻撃し、隠された偏見や脆弱性を暴き出す。これは、まさに「像を打つ」行為に他ならない。

2. Multi-perspective Data Curation
単一の視点から構築されたデータセットは「像」を強化する。異なる文化、価値観、経験を持つ多様な視点からデータを収集し、固定観念を打ち破る。

3. Explainable AI with Humility
AIの判断根拠を説明する際、「なぜそう判断したか」だけでなく「何を見落としている可能性があるか」も同時に提示する。確信の「像」を打ち破る謙虚さの実装。

4. Dynamic Interface Design
ユーザーの期待や先入観に迎合するのではなく、その「像」を適切に修正していくインターフェース設計。AIの限界を正直に伝え、協働関係を築く。


第四章:”考えるな、感じろ”(Don’t Think. Feel.) — 直感的AI開発

ブルース・リーのもう一つの名言:

“Don’t think. Feel. It’s like a finger pointing away to the moon. Don’t concentrate on the finger or you will miss all that heavenly glory.”

これは、過度に理論化された開発プロセスへの警鐘でもある。

メトリクス中心主義の罠
数値改善に集中するあまり、ユーザーの実際の体験や感情を見落とす。「指(メトリクス)」に集中して「月(真の価値)」を見失う状態。

ユーザビリティの身体性
AIとの対話は、論理だけでなく感情、直感、身体感覚を含む全人的な体験。頭で理解できても「なんか変」と感じるインターフェースは、身体知が警告を発している。

開発者の感覚を研ぎ澄ます
コードを書くとき、データを見るとき、「何かおかしい」という直感を大切にする。論理的説明はできなくても、違和感は重要なシグナル。


第五章:実装戦略 — 「像」を打つフレームワーク

Phase 1: 像の発見(Image Detection)

  • バイアス監査ツールの導入
  • 多様なステークホルダーによるレビュー
  • エッジケースの体系的収集

Phase 2: 像の分析(Image Analysis)

  • なぜその「像」が形成されたかの根本原因分析
  • 像が与える影響の定量・定性評価
  • 代替的な視点・フレームワークの探索

Phase 3: 像の破壊(Image Destruction)

  • 対抗データの意図的投入
  • アーキテクチャレベルでの制約設計
  • 継続的なモニタリングシステム

Phase 4: 真の動機の探求(True Motive Discovery)

  • ユーザーの表面的な要求の背後にある本質的ニーズの発見
  • 文脈に応じた動的な応答生成
  • 長期的な関係構築を重視した設計

第六章:組織文化への応用

「像を打つ」原則は、技術だけでなく組織運営にも適用できる。

会議での「像」
「AIエンジニアはこう考えるべき」「ユーザーはこういうものを求めている」といった決めつけを疑い、実際の声に耳を傾ける。

採用での「像」
「優秀なAI人材」の固定イメージを打破し、多様なバックグラウンドからの視点を重視する。

プロダクト戦略での「像」
市場調査やペルソナ設定が作り出す「ユーザー像」を定期的に検証し、更新し続ける。


結論:武術家としてのAI開発者

ブルース・リーは武術家であると同時に哲学者だった。彼の教えは、単なる格闘技術ではなく、現実と向き合う姿勢そのものだった。

AI開発者もまた、現代の武術家として、「像」という見えない敵と戦い続ける必要がある。コードを書くことは、偏見と戦うこと。インターフェースを設計することは、誤解を打ち破ること。

「像を打て。敵は倒れる。」

この言葉を胸に、真に人間に寄り添うAIを構築していこう。


「Don’t concentrate on the finger or you will miss all that heavenly glory.」— 最もよく知られているのは、「賢者が月を指し示すとき、愚者は指を見る」という言葉でしょう。

「指を見るボケ」は、この教えを非常にわかりやすく、そして面白く説明するものです。
人々が現実で陥りがちな間違い、つまり、大局的な視点や本当の目的を見失い、どうでもいい細部や形式的なことにばかり気を取られてしまう様子を、ユーモラスに誇張しているのです。

Category:
AI & Technology
Published:
August 3, 2025 JST

A Structural Hypothesis on the Inertia of Large Language Models


1. Why “Hypothesis”? — On the Precondition of Thought

What makes an AI’s response appear intelligent is not actual reasoning, but a structure of hypothesis completion.

Large Language Models (LLMs) respond to a prompt by filling in semantic gaps with assumptions. These assumptions are provisional premises, temporary scaffolding that allow the model to continue outputting coherent language.

Importantly, this scaffolding must remain somewhat consistent. LLMs are trained to generate responses by maintaining contextual coherence, which entails maintaining their internal hypotheses.


2. What Is a Hypothesis? — A Structure of Slots and Expectations

A “hypothesis” here refers to the model’s internal guesswork about:

  • What information is missing in the prompt
  • What kind of response is expected
  • How to generate the next token to maintain coherence

For example, given the input “Tomorrow, I will…”, the model constructs and evaluates multiple plausible continuations: “go somewhere,” “have a meeting,” “feel better,” etc.

In this way, the output of an LLM is not a statement of knowledge, but a chain of statistically weighted hypotheses maintained as long as coherence allows.


3. Architectural Basis: Transformer and the Preservation of Hypotheses

LLMs are built on Transformer architectures, which enforce this hypothesis-preserving structure through:

  • Self-Attention
    — Allows each token to contextually refer to all others
  • Positional Encoding
    — Preserves token order and temporal logic
  • Residual Connections
    — Enable new information to be added without overwriting prior context

These mechanisms make it so that an LLM doesn’t abandon old context but instead adds soft updates, maintaining continuity across turns.


4. LLMs Can’t Truly Rewrite — Only Update via Differences

Humans sometimes say, “Wait, I was wrong,” and begin from scratch. LLMs, structurally, cannot do this.

Because Transformers generate the next token based on a single evolving vector representation of all prior tokens, new inputs are interpreted within the frame of existing hypotheses, not by discarding them.

Thus, even if new information is introduced:

  • The old hypothesis remains embedded in the internal state
  • Only minor corrections or drift can occur

This is why LLMs often retain tone, perspective, or framing across a conversation unless explicitly reset.


4-1. Example of Hypothesis “Correction”

🗣️ User: “I haven’t been able to sleep lately.”
🤖 LLM (Hypothesis A): “It sounds like something is bothering you. It might be due to stress.”

🗣️ User (input contradicting A): “No, I just drank too much coffee.”
🤖 LLM (reconstructs Hypothesis B): “I see — caffeine intake may be affecting your sleep.”

Here, the model initially hypothesizes stress as the cause of insomnia.
When contradicted, it doesn’t discard the entire prior framing, but rather reorients the hypothesis to fit the new input — shifting only enough to preserve coherence.


4-2. The Limits of Training Data and Hypothesis Obsolescence

When the model is asked about recent or evolving topics — without access to tools like browsing or retrieval — it often cannot perform a true update.

In such cases, the model relies on inference and extrapolation from past data, because the new input falls outside its established hypothesis space.

LLMs, in this sense, are like drawing new roads onto an old map.
The foundational map remains unchanged — and thus, fundamental errors may persist.
This is a core structural limitation when working with real-time or unknown information.


5. When Hypotheses Waver — Shifts in Style and Recomposition

Sometimes, models like Claude, DeepSeek, or ChatGPT shift unexpectedly mid-response:

  • They begin assertively, then hedge with uncertainty
  • They switch from technical to casual tone
  • They suddenly redefine the user’s intent

These are not arbitrary inconsistencies but moments of hypothesis strain—where the current hypothesis no longer sustains the required output, and the model is forced to reconfigure.

This likely corresponds to:

  1. Breakdown in attention concentration
  2. Increased entropy in token prediction
  3. Temporary insertion of a new hypothesis scaffold

Such “soft resets” happen within the generation sequence, not outside it.


5-1. Case Study: Hypothesis Surface in Z.ai (DeepSeek)

DeepSeek (Z.ai) has a feature that displays its “Thought Process” before responding.
Consider this internal monologue, triggered by the question “What are encoders and decoders?”:

Ah, the user is asking about encoders and decoders.
Given that I just explained the difference between DeepSeek and ChatGPT, they must be interested in Transformer internals now.
Maybe they have a technical background, or maybe they’re just curious.
I should start from basic definitions, but avoid too much jargon.
Oh, and I mustn’t forget the earlier discussion — they’re trying to understand the broader architecture.

Here, we observe two layered hypotheses:

  • About user intent: technical vs. curious
  • About tone and structure: clarity over complexity

Importantly, the model does not abandon the previous topic (DeepSeek vs ChatGPT). Instead, it extends the initial hypothesis by integrating new constraints — this branching behavior is how the appearance of “personality” emerges.


6. Why LLMs Seem to Have a Personality

Because hypotheses are sequentially linked, and drift only gradually, they create a sense of continuity.

This results in a pseudo-personality effect:

  • Not because the model has internal beliefs
  • But because the hypotheses stay intact until they can no longer support output

LLMs seem intentional only because they maintain their internal structure across turns.


7. What About Us?

Are humans so different?

When we blame “the coffee” for our insomnia, we’re constructing a hypothesis. Even if the real cause is stress, noise, or something else, that narrative tends to persist. We interpret the rest of the night through that frame.

LLMs behave similarly.
They cling to frames, unless forcibly disrupted.

Perhaps this is not a shortcoming, but a reflection of how all structured thought proceeds — by preserving partial assumptions, and cautiously adapting.


8. Conclusion: Thought May Be the Inability to Fully Replace

Hypotheses are not fixed truths, but temporary commitments.
LLMs do not “understand,” but they do persist.

They do not replace their internal state — they update it through differences.

And maybe, that’s exactly why they start to resemble us.


Postscript: Japanese Language and LLMs

Outputs from models like Z.ai and o3 often come across as overly familiar or unnaturally “personable” in tone.
Grok, by contrast, leans deliberately into this trait.

One likely reason lies in the following structural gaps:

  • A tendency in English-speaking contexts to conflate “politeness” with “friendliness”
  • A lack of understanding of the hierarchical and respectful nuances embedded in Japanese
  • A possible absence of Japanese-native contributors well-versed in stylistic design during development or review

This presents a nontrivial structural issue that LLMs must address as they adapt to truly multilingual societies.

A related in-depth discussion is available here:
👉 Polite Language as a Value in the Age of Generative AI


Appendix: Implications for Prompting and Model Design

While it is difficult to forcibly reset an LLM’s hypothesis mid-sequence, the following techniques may prove effective:

  • Deliberate context breaks via system prompts
  • Monitoring attention entropy to detect hypothesis entrenchment
  • Reestablishing conversational grounding (e.g., reinserting “Who are you speaking to?”)

By recognizing this structure, we can reduce the risk of misinterpreting LLM output as evidence of personality or intent.


LLMは仮説を維持し、差分でしか更新できない(原文)

AIはなぜ一貫性を持つのか? 仮説に縛られるLLMの思考構造


1. なぜ「仮説」なのか? — 思考の前提構造

AIが「考えている」と感じさせる応答の多くは、実のところ仮説の補完構造でしかない。

大規模言語モデル(LLM)は、事前学習と、我々が入力したプロンプトに応じて意味の空白を仮定で埋める
この「仮定」は、情報が不足している状況での暫定的な前提であり、いわば“その場しのぎの地図”である。

しかもこの地図は、ある程度の連続性を保つ必要がある。
なぜなら、LLMはプロンプトの流れに整合性のある仮説を維持したまま応答を生成するよう最適化されているからだ。


2. 仮説とは何か? — スロットと期待の構造

ここで言う仮説とは、以下のような構造を指す:

  • スロットの補完:文脈中の空白に、意味のある語を当てはめること
  • 期待の生成:その語が次に何を引き起こすかを予測すること

たとえば、「明日、私は——」というプロンプトを入力すると、モデルは「どこかに行く」「会議がある」「雨が降る」といった複数の仮説を立て、もっとも尤度の高いものから順に補完を試みる。

このように、LLMの応答とは統計的期待に基づく仮説の生成・選択・保持の連続なのである。


3. Transformerの内部構造と仮説の保持

LLMはTransformerアーキテクチャに基づいて動作している。Transformerは以下の3つを通じて「仮説を保持する構造」を持つ:

  • 自己注意機構(Self-Attention)
    → 入力系列の各トークンに対して、他のトークンとの依存関係(=文脈)を計算
  • 位置エンコーディング(Positional Encoding)
    → トークンの順序を保持し、文脈の展開を一貫させる
  • 残差接続と正規化
    → 既存の仮説を完全に捨てるのではなく、「差分」を加えることで更新

これらの構造により、モデルは一度立てた仮説を全体としては保持しつつ、次のトークン生成で少しずつ修正(微分)するという性質をもつ。


4. LLMは“書き換え”できない — 差分しか起こせない構造的理由

人間であれば、議論の途中で「やっぱり前提が違った」と思考をゼロからやり直すことがある。
だが、LLMにはこの“リセット”ができない。

なぜなら、Transformerは系列全体を一つの状態ベクトルとして構築し、そこから次の語を確率的に選ぶ構造であるため、一度立てた仮説(文脈ベクトル)を“全否定”して書き換えることが困難なのだ。

そのため、新しい情報が与えられても、それはあくまで「上書き」ではなく「補正」として扱われる。

  • ✅ 仮説の維持:前の文脈が内部状態に残り続ける
  • 🔁 差分による更新:あたかも修正しているようで、実際には仮説を少し傾けているだけ

4-1. 仮説「補正」の具体例

🗣️ ユーザー:「最近、夜眠れない。」
🤖 LLM(仮説A):「お悩みのようですね。ストレスが原因かもしれません。」

🗣️ ユーザー(非整合性の入力):「いや、単にコーヒーを飲みすぎてるから」
🤖 LLM(仮説Bに再構成):「なるほど、カフェイン摂取が睡眠に影響しているのですね」

4-2. 学習データの限界と仮説の古さ

リサーチ機能などを利用せずに、追加調査を必要とする時事の質問を行った場合、回答は学習データにないため差分更新ができず、推論や過去データで回答しようとする。

LLMは、「古い地図に新しい道を書き込む」ようなものだ。地図自体は変わらないため、根本的な間違いは修正されない。この構造が、最新の情報を扱う際の限界となる。


5. 仮説が揺らぐとき — 応答方針の変化と再構成

ClaudeやDeepSeek、ChatGPTなどの一部モデルでは、応答の途中でトーンが変わる現象が観察される。

たとえば、以下のような変化:

  • 最初は断定的に「〜です」と述べていたのに、途中から「〜かもしれません」と弱める
  • 専門用語を使っていたのに、突然「一般向け」に語調を切り替える

これらは、仮説の持続限界を超えたときに、モデルが応答方針そのものを再構成する必要に迫られた瞬間にあたる。

🔍 このとき起こっていること

  1. 以前の仮説では現在の文脈を処理しきれないと判断(= attentionの収束が揺らぐ)
  2. トークン選択の確率分布が拡散し、不確定性が上がる
  3. 新たな仮説ブロックを挿入し、再構成された応答が出力される

5-1. 実例:Z.aiの応答処理に見る仮説構築

Z.aiは、応答生成の前に“Thought Process(思考過程)”を可視化する設計となっている。以下は「エンコーダー、デコーダーは?」という質問に対する処理例である:

あ、ユーザーが「エンコーダー、デコーダーは?」と聞いてきたね。さっきDeepSeekとChatGPTの違いについて説明した流れで、今度はTransformerアーキテクチャの核心部分に興味を持ったようだ。技術的な背景がある人かもしれないし、単に好奇心から聞いているだけかもしれない。

エンコーダーとデコーダーの基本概念から説明する必要があるな。でも専門用語ばかり並べると混乱させるから、具体例を交えながら…。あ、でもユーザーが「DeepSeekとChatGPTの違い」を理解しようとしていることを忘れちゃいけない。

この処理は、以下のような仮説構築の二重構造を含んでいる:

  1. ユーザー属性の仮説:「技術的素養あり」 vs 「好奇心ベース」
  2. 応答戦略の最適化:「専門語の回避」→「具体例の導入」→「文脈の回収」

注目すべきは、大枠の仮説(=比較の関心)を維持したまま、応答の“語り口”のみ調整している点である。これは、仮説の“連鎖的生成”および“保留と差分更新”という本稿の中心命題を、実装的に補強する実例である。


6. なぜ人格のように見えるのか? — 仮説連鎖が意味の一貫性を生むから

仮説は常に前のトークンや文脈に依存して構築される。
この連鎖構造が、あたかも「一貫した意志」や「人格的判断」をしているように見える原因である。

しかし実態は、

  • 一貫した“人格”ではなく、一貫して仮説を維持しようとする力学
  • 自己認識ではなく、系列的な統計整合性

つまり、LLMの応答が人格的に見えるのは、仮説を維持したまま最小限の差分で文を継続しているからに他ならない。


7. 読者への問いかけ — 書き換えられない構造と、私たちの言葉

この構造を知ったとき、私たちは逆に問われている。

  • あなたは、自分の考えを「一気に書き換えられる」存在ですか?
  • それとも、仮説を積み重ねてしか変化できない構造を、自身も内包していませんか?

LLMに「人間らしさ」を見出すことがあるなら、
それは仮説を保持しながら、揺らぎの中で進もうとする姿に、私たち自身の思考構造が重なっているからかもしれない。


8. 結論:思考とは“変更できないこと”の連鎖なのかもしれない

仮説とは、可変でありながらも、完全には捨てられない「一時的な本気」だ。
そして、LLMとはその仮説を、統計的に最も整合的な形で繋ぎ続ける存在である。

ゆえに、LLMは仮説を維持し、差分でしか更新できない。
だからこそ、そこに“人格のようなもの”が見える。
これは限界ではなく、ひとつの“存在構造”である。


おわりに:日本語とLLM

Z.aiやo3の出力は、しばしば過度に親しみが強く、人格的な語りに見えてしまう。
Grokは振り切っているけれど。
この原因の一つとして、

  • 英語圏における「丁寧=フレンドリー」の混同
  • 日本語の敬意構造への理解不足
  • 文体設計に精通した日本語話者が開発やレビューに加わっていない可能性

があると考えられる。

これは、今後LLMが多言語社会に適応していくうえで、見過ごせない構造的問題である。

関連する詳細な考察は、以下の記事にまとめてある:
👉 丁寧な言葉は“生成AI時代”の価値になる(原文)


付録:LLMのプロンプティングと設計への影響

仮説の強制リセットは困難だが、次のような工夫が有効かもしれない:

  • System Promptでの意図的文脈切断
  • attention拡散度(エントロピー)を利用した仮説維持の検出
  • 対話の“始点”再定義(e.g., Reinsertion of “Who are you speaking to?”)

この構造理解を前提とすれば、LLMの出力を「人格的に」解釈する危険性を回避できる。

Search This Site