研究紹介

戸田研究室では、音声・歌声・楽音・行動音・環境音など,様々な音信号を対象とした音メディア情報処理として,音声情報処理,音楽情報処理,音環境情報処理の研究を行っています.信号処理,機械学習,強化学習を適用することで,各情報処理における基盤技術の構築や,コミュニケーション支援,学習支援,創作支援,見守り支援,障碍者支援,機能拡張などを対象とした応用技術の構築に取り組んでいます.

 

以下,いくつかの研究例を紹介します.より詳細な情報が知りたい場合は,こちらのページに記載の論文などをご参照下さい.


音声情報処理

  • 音声分析

音声分析は,入力された音声波形から各種音声パラメータを抽出する技術であり,様々な音声情報処理を実現する上で基礎となる技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音情報処理における特徴表現," MIRU2016 第19回画像の認識・理解シンポジウム, 特別企画MIRU x KIKU(音学シンポジウム連携オーガナイズドセッション), Aug. 2016.

  • 音声変換

音声変換は,入力された音声波形に対して,何を話しているかという情報を保持したまま,他の所望の情報(例えば,誰が話しているのか,どこで話しているのか,どのように話しているのかなど)を自在に変換するように,加工処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音声の声質を変換する技術とその応用," 2017年度 人工知能学会全国大会 オーガナイズドセッション OS-9 質感と感性, May 2017.
* 低遅延リアルタイム音声変換のデモ動画(こちら)も閲覧できます.

  • 音声合成

音声合成は,入力されたテキストおよびその他補助情報に応じて,所望の特徴を持つ音声波形を合成する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "WaveNetが音声合成研究に与える影響," 電子情報通信学会音声研究会, オーガナイズドセッション「新たな音声モデルによる音声合成・音声生成 -深層学習による音声波形モデルWaveNet-」, Jan. 2018.

  • 音声強調

音声強調は,外部雑音や残響などの影響により歪みが生じている音声波形に対して,できる限り歪みの少ない音声波形を求めるための処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  関 翔悟, 亀岡 弘和, 戸田 智基, 武田 一哉, "時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元," 日本音響学会2017年春季研究発表会, 1-1-3, Mar. 2017.

  • 音声認識

音声認識は,入力された音声波形に対して,話している内容を推定し,テキストに書き起こす技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉, "End-to-End音声認識ためのMulti-Head Decoderネットワーク," 日本音響学会2018年秋季研究発表会, 1-2-9, Sep. 2018.

  • 音声表情認識

音声表情認識は,入力された音声波形に対して,話し手の内部状態に応じて変化する音声の表情(例えば,感情など)を推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  岡田 慎太郎, 安藤 厚志, 戸田 智基, "音素事後確率を利用した表現学習に基づく発話感情認識," 日本音響学会2019年春季研究発表会, 2-9-7, Mar. 2019.

  • 音声言語処理

音声言語処理は,書き言葉ではなく,話し言葉の特徴に着目したテキスト処理を行う技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "内容語保存機構を備えた変分自己符号化器に基づくテキスト発話スタイル変換," 第24回音声言語シンポジウム/第9回自然言語処理シンポジウム, Nov. 2022.

  • 音声品質推定

音声品質推定は,入力された合成音声波形に対して,知覚的な品質の良し悪しを推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022," 第141回音声言語情報処理研究発表会/音声研究会, Mar. 2022.

  • 発声障碍者支援

発声障碍者支援は,発声機能に障害を抱えた方々の音声コミュニケーションを支援する技術です.病的音声の自然性改善やテキスト書き起こしなど,様々な応用技術の構築に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "音声情報処理の最先端から見える未来," 第64回日本神経学会学術大会 シンポジウム「脳神経内科領域でのAIの未来:基礎研究から臨床応用まで」, June 2023.
* 発声障碍者支援のデモ動画(こちら)も閲覧できます.

  • 発声・聴覚機能拡張

発声・聴覚機能拡張は,身体的な発声・聴覚機能とリアルタイム音声変換・音源分離を組み合わせることで,物理的な制約を超えた発声・聴取を可能とする技術です.失われた声を取り戻す発声機能回復,声を出さずに会話するコミュニケーションの実現を目指したサイレント音声通話,特定のキャラクタの声による発声を可能とするボイスチェンジャ,聴きたい音を鮮明化する補聴器,聴き取りづらい音の聴取を可能とする拡張聴覚など,様々な応用技術の構築に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト," 第135回音声言語情報処理研究会, Feb. 2021.

音楽情報処理

  • 楽曲音源分離

楽曲音源分離は,多種多様な楽曲音源(各種楽器音や歌声など)を含む楽曲信号を,各楽曲音源へと分離する処理を施す技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  関 翔悟, 大谷 健登, 戸田 智基, 武田 一哉, "ケプストラム正則化NTFによるステレオチャネル楽曲音源分離," 日本音響学会2016年秋季研究発表会, 1-7-5, Sep. 2016.

  • 自動採譜

自動採譜は,入力された楽器演奏音に対して,音符情報を推定し,楽譜に書き起こす技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  金 世訓, 林 知樹, 戸田 智基, "注意機構とマルチタスク学習を用いた音符単位ギター自動採譜システム," 日本音響学会2022年秋季研究発表会, 3-1-7, Sep. 2022.

  • 楽曲分析

楽曲分析は,入力された楽曲を分析し,楽曲の類似度を求めるなど,様々な情報を抽出する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  橋爪 優果, 李 莉, 戸田 智基, "各楽器音源に着目した楽曲間類似度学習の評価," 日本音響学会2022年秋季研究発表会, 3-1-5, Sep. 2022.

  • 楽曲加工

楽曲加工は,入力された楽曲音源に対して,所望の特徴を持つように加工処理を施す技術です.例えば,楽曲音源分離と歌声声質変換を組み合わせることで,楽曲中の歌声の声質情報を自在に変換します.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  山田 智也, 関 翔悟, 小林 和弘, 戸田 智基, "楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法," 第33回信号処理シンポジウム, B6-3, Nov. 2018.

  • 歌声声質変換

歌声声質変換は,入力された歌声波形に対して,歌詞情報を保持したまま,声質情報(例えば,誰が歌っているのか,どのように歌っているのか,どのように聞こえる歌声なのかなど)を自在に変換するように,加工処理を施す技術です.

* 右の画像をクリックすると動画デモが閲覧できます.
* 低遅延リアルタイム歌声声質変換のデモ動画(こちら)も閲覧できます.

  • 歌唱機能拡張

歌唱機能拡張は,身体的な歌唱機能とリアルタイム歌声声質変換,さらに楽器演奏動作を組み合わせることで,物理的な制約を超えた歌唱を可能とする技術です.失われた歌声を取り戻すことを最終目的とした喉頭摘出者のための歌唱支援,所望の歌手の声による歌唱を可能とするボーカルエフェクタなど,様々な応用技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  森川 一穂, "喉頭摘出者のため歌唱支援を目指した電気音声変換法," 平成28年度電子情報通信学会東海支部卒業研究発表会, C-1-5, Mar. 2017.

音環境情報処理

  • 音源分離

音源分離は,複数の音源が混ざり合った音響信号に対して,音源信号の独立性などを活用して,混ざり合う前の個々の音源へと分離する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  李 莉, "信号の独立性に基づく多チャンネル音源分離," 令和四年度電気・電子・情報関係学会東海支部連合大会, Aug. 2022.

  • 多重音響イベント検出

多重音響イベント検出は,各種音響イベント音や雑音が重畳された環境音信号に対して,対象とする個々の音響イベント音の有無ならびに開始/終了時間を推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 渡部 晋治, 戸田 智基, 堀 貴明, Jonathan Le Roux, 武田 一哉, "イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出," 電子情報通信学会応用音響研究会, July 2017.

  • 音響イベント記号表現獲得

音響イベント記号表現獲得は,個々の音響イベント音に対する統一的な記号表現を得るために,擬音語表現などを活用して,音響イベント音から記号列への変換処理を実現する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉, "CTCに基づく音響イベントから擬音語表現への変換," 日本音響学会2017年秋季研究発表会, 1-10-7, Sep. 2016.

  • 異常音検知

異常音検知は,機械の動作音などを対象として,正常音のみが事前に収録できるという状況の下で,未知の異常音を検知する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  戸田 智基, "異常音検知に対する深層学習適用事例," 第144回ロボット工学セミナー「ロボットのための音声・音響処理技術」日本ロボット学会, Nov. 2022.

  • 空気/体内伝導音信号処理

空気/体内伝導音信号処理は,空気伝導マイクロフォンと体表密着型マイクロフォンを併用して収録された空気/体内伝導音信号に対して,所望の音信号を強調したり,各種音源信号へと分離する処理を行う技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  高田 萌絵, 関 翔悟, 戸田 智基, "空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法," 日本音響学会2018年秋季研究発表会, 3-1-13, Sep. 2018.

  • 行動認識

行動認識は,対象とする人物が装着した空気伝導マイクロフォンと加速度センサにより収録されるバイモーダル信号から,各時刻におけるその人物の行動を推定する技術です.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
  林 知樹, 北岡 教英,戸田 智基, 武田 一哉, "Deep Neural Networkに基づく日常生活行動認識における適応手法," 電子情報通信学会音声研究会, Aug. 2016.