Depicted

2025 | Installation

論文PDF（インタラクション2026）

Overview

滋賀大学×国立音楽大学による連携協定事業（シンポジウム）「音楽×データサイエンス人間の輪郭, AIの筆跡」での展示に向けて制作されたインスタレーション作品である。本作品の制作と並行して行った研究およびその成果については、第30回一般社団法人情報処理学会シンポジウム「インタラクション2026」にて作品の実演を伴い公開された。朗読は、発話内容だけでなく、感情、抑揚、身体動作といった多様な要素が重なり合う複合的な表現行為である。本作では、朗読中の音声、表情、姿勢、手の動きなどの情報をシステムがリアルタイムに取得し、生成AIおよびモダリティ変換の手法を用いて、体験者の内的状態や心象を視覚・聴覚的に描き出すことを試みている。体験者はテキストを朗読することで、自己の表現が即時的に音と映像へと変換される状況に身を置く。これにより、朗読を単なる読み上げではなく、身体的・感覚的なフィードバックを伴う即興的な創作体験として再構成する。

Process

制作にあたり、本作を成立させるための基盤として、音声および身体情報を扱うシステムの構築を行った。本システムでは、朗読中に取得される音声・表情・姿勢・動作といった情報を一度「テキスト」として記述し、LLMを介してそれらを解釈・再構成する設計を採用している。入力情報は、複数の機械学習モデルを経由して感情推定値や朗読内容として抽出されるが、それらを数値のまま直接出力に接続するのではなく、言語的な記述へと変換する点に本作の特徴がある。得られたテキストは、映像生成および音響生成のプロンプトとして再利用される。これにより、従来の数値処理だけでは得られない、情報解釈の揺らぎや創発的な表現を生成過程に取り込んでいる。この構造は、情報変換の過程で生じる内部表現を人間にとって直感的に理解しやすくするだけでなく、各処理層をモジュールとして独立させることを可能にしている。その結果、機能の追加や置換が容易な、柔軟性の高いシステム設計を実現した。映像生成においては、朗読内容と感情情報を統合したテキストプロンプトを用い、書画カメラで取得した絵本の画像を背景として、Stream Diffusionによるリアルタイム画像生成を行った。朗読という行為に内在する心象が、既存の物語イメージと交錯しながら視覚的に立ち現れる構成を目指している。音響生成では、表情・姿勢・手の動きといった身体的特徴量と、Deepfaceによる感情推定結果を組み合わせ、音高・音色・音量を制御するシステムを設計した。感情を単なる離散的なトリガーとして扱うのではなく、連続的な変化として音色やダイナミクスに反映させることを重視した。これにより、朗読中の微細な身体表現や感情の推移が、時間的に滑らかな音響変化として知覚される構造を構築した。音響生成の基盤にはモーダルシンセシスを採用している。

Collaborators

印南智樹/ 共同制作
宮﨑紫清/ 共同制作
沢田朝陽/ 共同制作
南條浩輝/ 共同制作

Role

主に音響生成に関する各モジュールの設計・構築を担当した。加えて、最終段階におけるモジュール間の接続および、それらを統合的に制御するUI環境の実装も行った。

Programming

Cycling '74 MaxPythonJavaScript

Tools

LM Studio