研究紹介

戸田研究室では、音声・歌声・楽音・行動音・環境音など,様々な音信号を対象とした音メディア情報処理として,音声情報処理,音楽情報処理,音環境情報処理の研究を行っています.信号処理,機械学習,強化学習を適用することで,各情報処理における基盤技術の構築や,コミュニケーション支援,学習支援,創作支援,見守り支援,障碍者支援,機能拡張などを対象とした応用技術の構築に取り組んでいます.


音声情報処理

  • 音声変換

音声変換は,入力された音声波形に対して,何を話しているかという情報を保持したまま,他の所望の情報(例えば,誰が話しているのか,どこで話しているのか,どのように話しているのかなど)を自在に変換するように,加工処理を施す技術です.リアルタイム信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
戸田 智基, "音声の声質を変換する技術とその応用," 2017年度 人工知能学会全国大会 オーガナイズドセッション OS-9 質感と感性, May 2017.

  • 音声合成

音声合成は,入力されたテキストおよびその他補助情報に応じて,所望の特徴を持つ音声波形を合成する技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
戸田 智基, "WaveNetが音声合成研究に与える影響," 電子情報通信学会音声研究会, オーガナイズドセッション「新たな音声モデルによる音声合成・音声生成 -深層学習による音声波形モデルWaveNet-」, Jan. 2018.

  • 音声分析

音声分析は,入力された音声波形から各種音声パラメータを抽出する技術であり,様々な音声情報処理を実現する上で基礎となる技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
戸田 智基, "音情報処理における特徴表現," MIRU2016 第19回画像の認識・理解シンポジウム, 特別企画MIRU x KIKU(音学シンポジウム連携オーガナイズドセッション), Aug. 2016.

  • 音声強調

音声強調は,外部雑音や残響などの影響により歪みが生じている音声波形に対して,できる限り歪みの少ない音声波形を求めるための処理を施す技術です.リアルタイム信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
関 翔悟, 亀岡 弘和, 戸田 智基, 武田 一哉, "時間領域低ランクスペクトログラム近似法に基づくマスキング音声の欠損成分復元," 日本音響学会2017年春季研究発表会, 1-1-3, Mar. 2017.

  • 音声認識

音声認識は,入力された音声波形に対して,何を話しているかを推定し,テキストに書き起こす技術です.また,誰が話しているか,どのように話しているかといった情報の推定を行う技術もあります.機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
林 知樹, 渡部 晋治, 戸田 智基, 武田 一哉, "End-to-End音声認識ためのMulti-Head Decoderネットワーク," 日本音響学会2018年秋季研究発表会, 1-2-9, Sep. 2018.

  • 音声生成機能拡張

音声生成機能拡張は,身体的な音声生成機能とリアルタイム音声変換を組み合わせることで,物理的な制約を超えた音声の生成を可能とする技術です.リアルタイム信号処理,機械学習,強化学習を適用して,失われた声を取り戻すことを最終目的とした発声障碍者補助,声を出さずに会話するコミュニケーションの実現を目指したサイレント音声通話,特定のキャラクタの声による発声を可能とするボイスチェンジャなど,様々な応用技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
戸田 智基, "音声信号の分析と加工 - 音声を自在に変換するには?" 日本音響学会2017年春季研究発表会, スペシャルセッション 学術委員会 音響学の基礎3(音響信号処理),1-8-13, Mar. 2017.

音楽情報処理

  • 楽曲音源分離

楽曲音源分離は,多種多様な楽曲音源(各種楽器音や歌声など)を含む楽曲信号を,各楽曲音源へと分離する処理を施す技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
関 翔悟, 大谷 健登, 戸田 智基, 武田 一哉, "ケプストラム正則化NTFによるステレオチャネル楽曲音源分離," 日本音響学会2016年秋季研究発表会, 1-7-5, Sep. 2016.

  • 歌声声質変換

歌声声質変換は,入力された歌声波形に対して,歌詞情報を保持したまま,声質情報(例えば,誰が歌っているのか,どのように歌っているのか,どのように聞こえる歌声なのかなど)を自在に変換するように,加工処理を施す技術です.リアルタイム信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると動画デモが閲覧できます.

  • 楽曲加工

楽曲加工は,入力された楽曲音源に対して,所望の特徴を持つように加工処理を施す技術です.例えば,楽曲音源分離と歌声声質変換を組み合わせることで,楽曲中の歌声の声質情報を自在に変換します.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
山田 智也, 関 翔悟, 小林 和弘, 戸田 智基, "楽曲中歌声加工における声質変換精度向上のための歌声・伴奏分離法," 第33回信号処理シンポジウム, B6-3, Nov. 2018.

  • 歌唱機能拡張

歌唱機能拡張は,身体的な歌唱機能とリアルタイム歌声声質変換,さらに楽器演奏動作を組み合わせることで,物理的な制約を超えた歌唱を可能とする技術です.リアルタイム信号処理,機械学習,強化学習を適用して,失われた歌声を取り戻すことを最終目的とした喉頭摘出者のための歌唱支援,所望の歌手の声による歌唱を可能とするボーカルエフェクタなど,様々な応用技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
森川 一穂, "喉頭摘出者のため歌唱支援を目指した電気音声変換法," 平成28年度電子情報通信学会東海支部卒業研究発表会, C-1-5, Mar. 2017.

音環境情報処理

  • 多重音響イベント検出

多重音響イベント検出は,各種音響イベント音や雑音が重畳された環境音信号に対して,対象とする個々の音響イベント音の有無ならびに開始/終了時間を推定する技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
林 知樹, 渡部 晋治, 戸田 智基, 堀 貴明, Jonathan Le Roux, 武田 一哉, "イベント継続長を明示的に制御したBLSTM-HSMMハイブリッドモデルによる多重音響イベント検出," 電子情報通信学会応用音響研究会, July 2017.

  • 音響イベント記号表現獲得

音響イベント記号表現獲得は,個々の音響イベント音に対する統一的な記号表現を得るために,擬音語表現などを活用して,音響イベント音から記号列への変換処理を実現する技術です.機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
宮崎 晃一, 林 知樹, 戸田 智基, 武田 一哉, "CTCに基づく音響イベントから擬音語表現への変換," 日本音響学会2017年秋季研究発表会, 1-10-7, Sep. 2016.

  • 空気/体内伝導音信号処理

空気/体内伝導音信号処理は,空気伝導マイクロフォンと体表密着型マイクロフォンを併用して収録された空気/体内伝導音信号に対して,所望の音信号を強調したり,各種音源信号へと分離する処理を行う技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
高田 萌絵, 関 翔悟, 戸田 智基, "空気/体内伝導マイクロフォンを用いた雑音環境下における自己発声音強調/抑圧法," 日本音響学会2018年秋季研究発表会, 3-1-13, Sep. 2018.

  • 行動認識

行動認識は,対象とする人物が装着した空気伝導マイクロフォンと加速度センサにより収録されるバイモーダル信号から,各時刻におけるその人物の行動を推定する技術です.信号処理,機械学習を適用して,基盤技術の構築および改善に取り組んでいます.

* 右の画像をクリックすると以下の発表スライドが閲覧できます.
林 知樹, 北岡 教英,戸田 智基, 武田 一哉, "Deep Neural Networkに基づく日常生活行動認識における適応手法," 電子情報通信学会音声研究会, Aug. 2016.