研究紹介

戸田研究室では、音声・歌声・楽音・行動音・環境音など,様々な音信号を対象とした音メディア情報処理として,音声情報処理,音楽情報処理,音環境情報処理の研究を行っています.信号処理,機械学習,強化学習を適用することで,各情報処理における基盤技術の構築や,コミュニケーション支援,学習支援,創作支援,見守り支援,障碍者支援,機能拡張などを対象とした応用技術の構築に取り組んでいます.

 

以下,いくつかの研究例を紹介します.より詳細な情報が知りたい場合は,こちらのページに記載の論文などをご参照下さい.


音声情報処理

  • 音声信号処理

音声信号処理は,音声波形信号から各種音声パラメータを抽出したり,所望の特徴を加工したりする技術であり,様々な音声情報処理を実現する上で基礎となる技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  A. Miyashita, T. Toda, "Differentiable representation of warping based on Lie group theory," Proc. IEEE WASPAA, 5 pages, New Paltz, USA, Oct. 2023.

  • 音声波形モデリング

音声波形モデリングは,音声波形をモデル化することで,音声波形の生成処理を実現する技術であり,音声変換・合成を実現する上で基礎となる技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音声研究の知見がニューラルボコーダの発展にもたらす効果," 音学シンポジウム, 招待講演, 東京, June 2025.

  • 音声変換

音声変換は,入力された音声波形に対して,何を話しているかという情報を保持したまま,他の所望の情報(例えば,誰が,どこで,どのように話しているのかなど)を自在に変換するように,加工処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  W.-C. Huang, "深層学習に基づく音声変換の進展と展望," 音声言語情報処理研究発表会/音声研究会, Oct. 2024.


  • 音声合成

音声合成は,入力されたテキストおよびその他補助情報に応じて,所望の特徴を持つ音声波形を合成する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音声生成に関する情報処理技術の研究事例," 第76回人工知能セミナー「音声AIを支える基盤技術の最前線」, 人工知能研究センター, Mar. 2024.


  • 音声強調

音声強調は,外部雑音や残響などの影響により歪みが生じている音声波形に対して,できる限り歪みの少ない音声波形を求めるための処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  関 翔悟, 亀岡 弘和, 戸田 智基, 武田 一哉, "時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元," 日本音響学会2017年春季研究発表会, 1-1-3, Mar. 2017.

  • 音声認識

音声認識は,入力された音声波形に対して,話している内容を推定し,テキストに書き起こす技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉, "End-to-End音声認識ためのMulti-Head Decoderネットワーク," 日本音響学会2018年秋季研究発表会, 1-2-9, Sep. 2018.

  • 音声表情処理

音声表情処理は,話し手の内部状態に応じて変化する音声の表情(例えば,感情など)を,音声から推定したり,合成音声に対して付与したりする技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, Xiaohan Shi, "音声表情に着目した音声情報処理の進展," 音響学会2026年春季研究発表会, 2-5-1, 招待講演, 東京, Mar. 2026.


  • 音声言語処理

音声言語処理は,書き言葉ではなく,話し言葉の特徴に着目したテキスト処理を行う技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "内容語保存機構を備えた変分自己符号化器に基づくテキスト発話スタイル変換," 第24回音声言語シンポジウム/第9回自然言語処理シンポジウム, Nov. 2022.

  • 音声品質推定

音声品質推定は,入力された合成音声波形に対して,知覚的な品質の良し悪しを推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  W.-C. Huang, E. Cooper, J. Shi, "Automatic quality assessment for speech and beyond," Tutorial, INTERSPEECH, Rotterdam, the Netherlands, Aug. 2025.

  • 発声障碍者支援

発声障碍者支援は,発声機能に障害を抱えた方々の音声コミュニケーションを支援する技術です.病的音声の自然性改善やテキスト書き起こしなど,様々な応用技術の構築に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音声情報処理の最先端から見える未来," 第64回日本神経学会学術大会 シンポジウム「脳神経内科領域でのAIの未来:基礎研究から臨床応用まで」, June 2023.

  • 発声・聴覚機能拡張

発声・聴覚機能拡張は,身体的な発声・聴覚機能とリアルタイム音声変換・音源分離を組み合わせることで,物理的な制約を超えた発声・聴取を可能とする技術です.失われた声を取り戻す発声機能回復,声を出さずに会話するコミュニケーションの実現を目指したサイレント音声通話,特定のキャラクタの声による発声を可能とするボイスチェンジャ,聴きたい音を鮮明化する補聴器,聴き取りづらい音の聴取を可能とする拡張聴覚など,様々な応用技術の構築に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音メディアコミュニケーションにおける共創型機能拡張技術の創出," JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 2024年度終了課題成果発表シンポジウム, 口頭発表, 東京, Sep. 2024.

音楽情報処理

  • 楽曲音源分離

楽曲音源分離は,多種多様な楽曲音源(各種楽器音や歌声など)を含む楽曲信号を,各楽曲音源へと分離する処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  関 翔悟, 大谷 健登, 戸田 智基, 武田 一哉, "ケプストラム正則化NTFによるステレオチャネル楽曲音源分離," 日本音響学会2016年秋季研究発表会, 1-7-5, Sep. 2016.

  • 自動採譜

自動採譜は,入力された楽器演奏音に対して,音符情報を推定し,楽譜に書き起こす技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  金 世訓, 林 知樹, 戸田 智基, "注意機構とマルチタスク学習を用いた音符単位ギター自動採譜システム," 日本音響学会2022年秋季研究発表会, 3-1-7, Sep. 2022.

  • 自動作曲

自動作曲は,入力された情報(例えば,コード情報など)をもとに,楽曲を自動で生成する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  澤田 桂都, Wen-Chin Huang, 戸田 智基, "大局的構造生成のための小節特徴量系列モデリングに基づく階層的自動作曲," 情報処理研報, Vol. 2025-MUS-142, No. 49, pp. 1-7, Mar. 2025.


  • 楽曲分析

楽曲分析は,入力された楽曲を分析し,楽曲の類似度を求めるなど,様々な情報を抽出する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  T. Imamura, Y. Hashizume, T. Toda, "Multi-task learning approaches for music similarity representation learning based on individual instrument sounds," Proc. APSIPA ASC, 6 pages, Macau, China, Dec. 2024.

  • 楽曲加工

楽曲加工は,入力された楽曲音源に対して,所望の特徴を持つように加工処理を施す技術です.例えば,楽曲音源分離と歌声声質変換を組み合わせることで,楽曲中の歌声の声質情報を自在に変換します.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  山田 智也, 関 翔悟, 小林 和弘, 戸田 智基, "楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法," 第33回信号処理シンポジウム, B6-3, Nov. 2018.

  • 歌声変換

歌声声質変換は,入力された歌声波形に対して,歌詞情報を保持したまま,声質情報(例えば,誰が,どのように歌っているのかなど)を自在に変換するように,加工処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "国際チャレンジ活動を通した発声技能拡張基盤の構築," 2025年度AIPプロジェクトシンポジウム ~AI研究が創る未来~, 2025年度AIP加速課題研究成果発表, 東京, Mar. 2026.

  • 歌唱機能拡張

歌唱機能拡張は,身体的な歌唱機能とリアルタイム歌声声質変換,さらに楽器演奏動作を組み合わせることで,物理的な制約を超えた歌唱を可能とする技術です.失われた歌声を取り戻すことを最終目的とした喉頭摘出者のための歌唱支援,所望の歌手の声による歌唱を可能とするボーカルエフェクタなど,様々な応用技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  森川 一穂, "喉頭摘出者のため歌唱支援を目指した電気音声変換法," 平成28年度電子情報通信学会東海支部卒業研究発表会, C-1-5, Mar. 2017.

音環境情報処理

  • 多重音響イベント検出

多重音響イベント検出は,各種音響イベント音や雑音が重畳された環境音信号に対して,対象とする個々の音響イベント音の有無ならびに開始/終了時間を推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 渡部 晋治, 戸田 智基, 堀 貴明, Jonathan Le Roux, 武田 一哉, "イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出," 電子情報通信学会応用音響研究会, July 2017.

  • 音響イベント記号表現獲得

音響イベント記号表現獲得は,個々の音響イベント音に対する統一的な記号表現を得るために,擬音語表現などを活用して,音響イベント音から記号列への変換処理を実現する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉, "CTCに基づく音響イベントから擬音語表現への変換," 日本音響学会2017年秋季研究発表会, 1-10-7, Sep. 2016.

  • 異常音検知

異常音検知は,機械の動作音などを対象として,正常音のみが事前に収録できるという状況の下で,未知の異常音を検知する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "異常音検知に対する深層学習適用事例," 第144回ロボット工学セミナー「ロボットのための音声・音響処理技術」日本ロボット学会, Nov. 2022.

  • 音源分離

音源分離は,複数の音源が混ざり合った音響信号に対して,音源信号の独立性などを活用して,混ざり合う前の個々の音源へと分離する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  李 莉, "信号の独立性に基づく多チャンネル音源分離," 令和四年度電気・電子・情報関係学会東海支部連合大会, Aug. 2022.

  • 目的音抽出

目的音抽出は,多数の音源が混ざり合った音響信号に対して,選択的に目的とする音源信号を抽出する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  R. Wang, L. Li, T. Toda, "Direction-aware target speaker extraction with conditional variational autoencoders and its sensitivity to direction-of-arrival error," 日本音響学会秋季研究発表会, 2-2-6, pp. 195-196, Sep. 2022.


  • 空気/体内伝導音信号処理

空気/体内伝導音信号処理は,空気伝導マイクロフォンと体表密着型マイクロフォンを併用して収録された空気/体内伝導音信号に対して,所望の音信号を強調したり,各種音源信号へと分離する処理を行う技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  高田 萌絵, 関 翔悟, 戸田 智基, "空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法," 日本音響学会2018年秋季研究発表会, 3-1-13, Sep. 2018.

その他

  • 動画シーン検索

動画シーン検索は,テキストを用いて,動画から所望のシーンを検索して抜き出す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  J. He, T. Toda, "2DP-2MRC: 2-dimensional pointer-based machine reading comprehension method for multimodal moment retrieval," Proc. INTERSPEECH, pp. 5073-5077, Kos Island, Greece, Sep. 2024.

  • 行動認識

行動認識は,対象とする人物が装着した空気伝導マイクロフォンと加速度センサにより収録されるバイモーダル信号から,各時刻におけるその人物の行動を推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 北岡 教英,戸田 智基, 武田 一哉, "Deep Neural Networkに基づく日常生活行動認識における適応手法," 電子情報通信学会音声研究会, Aug. 2016.