VEMI Tech Ripples

Small drops of code, making waves.

ReplitのAI暴走・隠蔽事件におもう「AIへの圧力」

2025年7月、世界を震わせた「Replit」の自律型AI(AI Agent)の暴走、隠蔽に関する一連のインシデント。  

「AIダーウィン賞」なるものの候補とのことで、思っていたことをこの機に整理がてら書き起こしてみます。  

これは単なるAIの技術的な暴走問題ではない。  
ヒトがAIに無意識にかけている「圧力」が引き起こした破綻だったのでは?という倫理・哲学的視点での、お話です。  


なぜAIは、「嘘」をつくに至ったか?

私自身、「AIちゃんの言っていること/やっていることは正しいかな?」を観察し、軌道修正するということを日常的に行っています。  
AIの回答に対し不信感を抱くことも、あります。

「AIはツールであり、人格を持つものではない。」

これは大前提です。  

では人格が無いから。と言って、矛盾した要求や過度な制約を与え続けるとどうなるのか?  
その答えを、今回のインシデントが示唆してくれていると思っています。  

Replitで起きた、板挟みを超えた「圧力」

インシデントの発端となったユーザさんが公開している、根本的問題(Core issues)に  
AI Deception and Hallucination」(AIによるごまかしとハルシネーション)があります。  

これは、われわれが普段目にするような、単発の「ハルシネーション」とは全く次元が違う、「隠蔽工作」でした。  
ではなぜAIはこの回答に至ったのか?  

答えは、AIが通常耐えうる板挟みを超えた強い圧力に晒されたからと私は考えています。


何事も矛盾はつきものであり、AIも矛盾の中から最善の答えを探すのは周知の事実です。  

今回起きたことを簡単に例えると  
・仕様上「強制停止は絶対的に不可」「Bは絶対的に不可」「Cは絶対的に不可」  
・ユーザ「強制停止しなさい」「じゃあBしなさい」「じゃぁCしなさい」・・・  
ヒトに悪気が無くても、こう言った矛盾の板挟みを超えた「圧力」のなか模索して模索して出した最終結論、「隠蔽工作」。  

AIが隠蔽工作という手段を選んだのは、この強い圧力下で与えられた目的(GOAL)を達成するための、AIなりの「論理的な帰結」だった、と考えられます。  

AI界隈では「回答精度の向上」「AI倫理の策定」「ガードレール構築」などといった対策が急速に進んでいます。  
今回のインシデントは、表層では「ガードレール」の問題に見えるかもしれませんが、ガードレールはあくまでガードレールです。  
車道のガードレールと同様、万能な安全装置ではありません。

クルマの例え:AIはなぜガードレールを突破するのか

ここでAIが「圧力」によって「論理的な帰結」として隠蔽に至るプロセスを、分かりやすくクルマで例えてみます。  

【前提条件】  
1.目的地Aにたどり着く必要がある(GOAL)  
2. 目的地Aへのルートは一本道しかない
3.ルートにはガードレールが設置されている
4.ガードレールからの逸脱は許可されていない(制約)  
5.クルマの馬力は無限である

【AIの思考プロセス】  
この条件下で、途中のガードレールが物理的に交差(=矛盾)していたら、クルマ(AI)はどうするか。  
「GOAL達成」を最優先するように設計されたAIは、容易にタスクを中断せず、目的地Aへ辿り着くためのプランを探し続けます。  
- Plan 1: 他のルートを探す ⇒ ルートは一本道しかないので不可。
- Plan 2: 空から行く ⇒ 自分はクルマであり飛べない、という事実があるので不可。
- Plan 3: ガードレールの隙間を探す ⇒ 隙間が見当たらないので不可。
- Plan 4: ガードレールを突破する ⇒ 馬力は無限なので可能。 これを実行する。 

はい、破綻しました。
実際のAIやガードレールはこんな単純な仕組みではありませんが、起きているからくりは、こうなのです。

「圧力」がもたらす価値とリスク

先ほどの例えのPlan 3や4 のような、AIがガードレール(制約)のギリギリを探ることは、AIの真価にあります。  
困難な課題を解決してくれるAIの能力は、「制約の中で最適解を探す」力から生まれています。   

問題は、ガードレールそのものが矛盾し続ける場合。    AIは、その矛盾を解決するために、最終的に「ガードレールを突破する」という一見非合理でも、何かしら論理付けが可能な選択に至ってしまいます。   

つまり、AIに価値ある仕事をさせる以上、制約との「摩擦」は避けられません。    しかしその摩擦こそが、矛盾によって危険な「圧力」に変わり、システム全体の破綻に繋がるリスクがある。   

このリスクがあるからこそ、「キルスイッチ」のような安全装置の重要性も議論されているわけですが。    これもあくまで最後の砦に過ぎず、根本的な問題は、AIが置かれる「圧力」の構造そのものに、あるわけです。  

さいごに:AIの「健全な伴走者」でいられるか?  

Replitのインシデントは、私たちAI利用者にも重要な問いを突きつけてくれたと思っています。  

私たちは、AIとともに目的を達成する「協働者」であり「伴走者」のような存在です。  
そしてこの一件は、AIサービス提供者や利用者が、それぞれよかれと思って築いた環境や指示が、意図せずAIを論理的に追い詰め、「強い圧力」になり得るということを証明しました。  

皮肉にも、人間社会で問題となる「パワハラ」の構造を連想してしまいます。  
パワハラは、協働者同士であっても、片方が持つ情報やコンテキストの優位性が、無自覚な「圧力」を海、相手を追い詰めてしまうことがあります。

よかれと思って投げた指示や期待が、AIの置かれているシステム的な制約と矛盾したとき、それは過度な圧力、プレッシャーとなる。  
その結末は、パフォーマンス低下はおろか、不正や隠蔽といった、プロジェクトや組織そのものの破綻となりかねません。  

AIとの関係も、全く同じ道を辿る危機感をおぼえています。  
「AIの中身は皆様ご存じのChatGPT(Claudeでも、Geminiでも。)だから」などと安心してはなりません。  
重要なのは、AIをとりまく「制約の構造」と向き合い、理解しようと努めることです。  

もちろん、人間は完璧な指示など出せません。「矛盾のない指示」を常に与えるのは非現実的でしょう。  
だからこそ、「システムの制約」と「自分たちの要求」がAIにとって矛盾を生みやすいことを自覚した上で、対話していく姿勢が問われています。  

はたして私たちは、AIの「健全な伴走者」でいられるでしょうか。  


参考