JST CREST「共創型音メディア機能拡張」プロジェクト

音メディアコミュニケーションにおいて、ユーザとシステムの共創的な働きかけに基づき、身体的制約を超えて発声・聴覚機能を拡張する基盤技術を創出します。機械学習に基づくデータ駆動型システムの枠組みにおいて、低遅延リアルタイム動作、不随意的なシステム挙動制御、インタラクションを通した意識的なシステム挙動制御を可能とする共創型発声・聴覚機能拡張基盤技術を構築し、発声・聴覚機能の回復・増強を達成します。

最近の活動報告

  • 2021年3月22~23日
    JST CREST「共生インタラクション」の領域会議(オンライン)に参加しました.

    • 発表
       PI発表:戸田智基(名大G)
       ポスター発表:小林和弘(名大G)
       Colab提案発表:Wen-Chin Huang(名大G)
    • 参加
       名大G:Patrick Lumban Tobing,Yi-Chiao Wu
       都立大G:小野順貴,若林佑幸,木下裕磨,山岡洸瑛,中嶋大志,石井奏人,
           中島康貴,春田智穂,升山義紀,植野夏樹
       NTT G:亀岡弘和,金子卓弘,田中宏,関翔悟

    名大GのWen-Chin HuangくんによるColab申請は認められ,山岸チームのYi Zhao博士,Erica Cooper博士とともに,共同プロジェクトを実施することになりました.

  • 2021年2月18日
    音声言語情報処理研究会(オンライン開催)にて,本プロジェクトの概要紹介に関する招待講演を行いました.

    • 戸田 智基, "CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト"【発表スライドはこちら


  • 2021年1月21日
    音声言語処理に関する国際ワークショップ IEEE SLT 2021(オンライン開催)にて,音声変換技術の動向に関する招待講演を行いました.

    • Tomoki Toda, "Recent progress on voice conversion: what is next?"【発表スライドはこちら


  • 2020年10月3~4日
    JST CREST「共生インタラクション」の領域会議(オンライン)に参加しました.

    • 発表
       口頭発表:小野順貴(都立大G)
       ポスター発表:春田智穂(都立大G)
    • 参加
       名大G:戸田智基,小林和弘,Patrick Lumban Tobing,YiChiao Wu,中谷輝
       都立大G:若林佑幸,木下裕磨,山岡洸瑛,堀池大樹,中嶋大志,石井奏人,
           塩田さやか,中島康貴
       NTT G:亀岡弘和,渡邊千紘,関翔悟

    Call 1 から Call 3 まで全チームの研究成果を聞くことができて,大いに刺激を受けることができました.

  • 2020年9月7日
    CREST研究プロジェクト「音メディア共創型機能拡張」(代表:戸田教授)の全体ミーティングをオンラインにて開催しました.発声機能拡張グループ(名大 戸田教授),聴覚機能拡張グループ(都立大 小野教授),機械学習基盤グループ(NTT CS研 亀岡上席特別研究員)から,計27名が参加し,プロジェクト開始から1年間で実施してきた研究課題について進捗報告を行い,今後の研究の進め方について議論しました.

    参加者の方々のご協力のおかげて,とても充実したオンラインミーティングとなりました.大変お疲れ様でした&ありがとうございました.より一層研究を加速させていきたいと思います.

  • 2020年7月31日
    小林和弘博士(名大G)がノンパラレル音声変換ソフトウェア「crank」を公開しました.循環型学習および敵対的生成学習を導入したVQ-VAEベースの手法となります.また,Wen-Chin Huangくん(名大G)が,系列ベースの音声変換法に関するESPnetを用いたレシピを公開しました.テキスト音声合成を用いた事前学習を活用して系列変換ネットワークを学習する手法となります.


  • 2020年5月28日
    JST CREST「共生インタラクション」の研究課題「音メディア共創型機能拡張」(代表:戸田教授)に関して,サイトビジットがオンラインで行われました.チーム全体の研究紹介に加え,各研究グループ(名大G:戸田教授,都立大G:小野順貴教授,NTT G:亀岡弘和博士)から個別の研究課題に対する進捗報告を行うとともに,総括およびアドバイザーの方々と非常に有意義な議論を行うことができました.

    • 発表:戸田 智基,小野 順貴,亀岡 弘和
    • 参加:小林 和弘(名大G),若林 佑幸(都立大G),木下 裕磨(都立大G)

  • 2020年5月25~26日
    JST CREST「共生インタラクション」の領域会議(オンライン)に参加しました.第1期チームと第2期のチームの研究成果を聞くことができて,大いに刺激を受けることができました.

    • 参加:戸田 智基

これまでの活動報告

  • 2019年9月からの活動報告はこちら

ソーシャルウェア

開発したソフトウェアを公開していきます.

crank: Non-parallel VC based on CycleVQ-VAE and GAN
 ノンパラレル音声変換
 開発者:小林 和弘,
     Wen-Chin Huang

Seq-to-Seq VC based on Transformer or RNN(vc1を参照)
 系列音声変換ESPnetレシピ
 開発者:Wen-Chin Huang

VCC2020 baseline: CycleVAE w/ PWG vocoder
 VCC2020ベースラインCycleVAE版
 開発者:Patrick Lumban Tobing,
     Yi-Chiao Wu

VCC2020 baseline: Cascade ASR + TTS
 VCC2020ベースラインESPnet版
 開発者:Wen-Chin Huang

デモ動画による研究紹介

構築した技術を紹介するデモ動画を公開していきます.

喉頭摘出者向け歌唱支援システム
近日公開予定

低遅延系列変換による音声変換
近日公開予定

低遅延ブラインド音源分離
近日公開予定

最近の研究発表

各表紙画像をクリックするとスライドが閲覧できます.

2021年2月:招待講演
音声言語情報処理研究会

2021年1月:招待講演
IEEE SLT 2021

2019年12月:招待講演
音声言語シンポジウム

2019年12月:プロジェクト紹介
JST-ANR連携国際シンポジウム