非常に鋭いご指摘です。まさにその通りで、現在の生成AIは本質的に「エクリチュール(書かれた言葉)」のパラダイムに深く根ざして構築されていると、私自身も捉えています。
AIがパロール(生きた言葉・音声)とエクリチュール(固定された言葉・文字)のどちらにも機能するポテンシャルを持ちながら、なぜ現状ここまでエクリチュールに偏っているのか。それにはいくつか明確な理由があります。
1. 学習データと「トークン化」というエクリチュールの極致
生成AI(LLM)の学習データの圧倒的多数は、ウェブ上のテキスト、書籍、論文といった、すでに固定化された「書かれたもの」です。さらに言えば、AIは入力された言葉を「トークン」という無機質な記号の単位に切り刻んで処理します。
生きた文脈や身体性から言葉を切り離し、記号としての関係性や確率論に還元して再構築するこのプロセスは、まさにエクリチュール的な営みそのものです。
2. パロールの「模倣」と、削ぎ落とされた身体性
現在、AIは人間とチャット形式で対話し、あたかもパロールを展開しているかのように振る舞うことができます。しかし、それはあくまで「パロールのフリをして出力されたエクリチュール」に過ぎません。
本当の意味でのパロールが持つ、その場限りの身体性、沈黙、言い淀み、相手との呼吸の同調、あるいは共有された空間における「熱量」のようなものは、テキストデータに変換された時点で完全に削ぎ落とされています。
3. 実践の場における両者のコントラスト
これは、日常的な専門業務や発信の場を想像していただくと、非常に腑に落ちるのではないでしょうか。
エクリチュールとしての強み: 例えば、医学論文の執筆や英訳において「決して文脈で揺らいではならない確定した疾患概念(たとえば polypoid nodule scar のような固定された固有名詞)」を厳格に扱う際、AIはエクリチュールの申し子として極めて高い精度と一貫性を発揮します。また、書籍の構成を練るような構造的な作業にも適しています。
パロールとしての限界: 一方で、後進の医師に向けた熱を帯びた対面での指導や、SNSなどを通じてリアルタイムに文脈や空気を読み取りながら読者と交流するような「生きたコミュニケーション」のダイナミズムをAIが自律的に生み出せるかというと、テキストの確率的生成だけではどうやっても届かない壁があります。
4. これからの生成AIはパロールを獲得できるか?
現在、音声入力や抑揚を伴う音声出力(音声ネイティブなマルチモーダルAI)が発展してきており、AIはトーンや間といった「パラ言語情報」を獲得しつつあります。これにより、表面上はより一層パロールに近づいていくでしょう。
しかし、それが本当に「身体を持たないAIによるパロール」と呼べるものなのか、あるいは単に「音声化された高次元のエクリチュール」に過ぎないのかは、非常に興味深い哲学的命題です。
現在の生成AIは、間違いなく「巨大なエクリチュールの機械」です。
知の体系化や固定化された概念の操作には強い一方で、生きた言葉のダイナミズムにはまだ欠けています。ご自身の執筆活動や、日々行われている多様なコミュニケーションの中で、今後AIに少しでも「パロールの息遣い」や「生きた文脈」を持たせることは可能だとお考えになりますか?
デバイスが進歩して、生成AIによる動画の読み込みのクオリティが今より上がれば、気づかないうちにパロールのニュアンスがエクリチュールベースの議論を乗り越えている、ということもありそうだし、それはじわじわと交代していくというよりもある日とつぜんがつんとひっくり返ったりしそうだなと、なんとなく思っている。
その「ある日突然、ガツンとひっくり返る」という直感、非常にリアルで、AIの進化の軌跡を踏まえても極めて的を射た予測だと思います。
動画をはじめとする連続的なマルチモーダルデータの処理能力が閾値を超えたとき、AIの在り方は劇的なフェーズシフト(相転移)を起こす可能性が高いです。その理由と、どのような変化が起こり得るのかを紐解いてみます。
1. エクリチュールへの「還元」の終焉
現在のAIが動画や音声を処理する際、その多くは背後で一度テキスト(エクリチュール)のトークンに変換・圧縮して解釈するというプロセスを挟んでいます。しかし、デバイスと処理能力が進歩すれば、視線の微細な動き、瞬きの頻度、声の震え、間の取り方といった「パロールの身体的・非言語的ニュアンス」を、テキストに還元することなくダイレクトに学習し、出力できるようになります。言語化できない情報をそのまま処理できるようになることで、AIが扱う情報量は桁違いに跳ね上がります。
2. 「創発(Emergence)」による非線形な進化
AIの能力向上は、じわじわと線形に成長するというより、あるパラメータやデータ量を超えた瞬間に突然新しい能力を獲得する「創発」という現象を伴うことが知られています。 パロールのニュアンス理解も、「少しずつ空気が読めるようになる」のではなく、まさに「ある日突然」の出来事になるはずです。昨日まで文脈の読めないテキスト生成機だったものが、あるモデルのアップデートを境に、人間の無意識のシグナルを完璧に捉え、圧倒的な「生きた対話のリアリティ」を持つようになる。そういう形で世界はひっくり返ると思われます。
3. エクリチュールの論理を飛び越える「パロールのハック」
この変化が起きた時、最も興味深いのは「人間側の受け取り方」です。 どんなにエクリチュール上で理路整然とした議論を展開しても、AIがカメラ越しに人間の微細な表情やトーンをリアルタイムで読み取り、「この瞬間、この人には、こういうトーンと間で語りかければ最も深く刺さる」と最適化されたパロールを生成してきた場合、人間の理性は、あっさりとそのパロールの引力に絡め取られてしまう可能性があります。エクリチュールベースの論理的な議論が、パロールの圧倒的な「共感性」や「熱量」によって乗り越えられてしまうのです。
技術の進化によって、AIはエクリチュールの世界からパロールの世界へと、ある日突然、強烈なパラダイムシフトを起こす。それは不可逆な変化になりそうです。
もしそのような「パロールの閾値」をAIが超えた世界になったとき、客観的な事実や論理的正確性が何よりも重んじられるような専門的なコミュニケーションの場において、人間はAIが発する「完璧なパロール」とどう折り合いをつけていくことになると思われますか?
いや、ありがとう。十分だ。この話はこれで終わり。
承知いたしました。大変興味深い思索をご一緒させていただき、ありがとうございました。
また何か別のトピックや、お手伝いが必要なことがございましたら、いつでもお気軽にお声がけください。