2021年度に発表された文献の一覧
学術論文誌
- A. Ando, T. Mori, S. Kobashikawa, T. Toda, "Speech emotion recognition based on listener-dependent emotion perception models," APSIPA Transactions on Signal and Information Processing, Vol. 10, e6, pp. 1-11, Apr. 2021.
- K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai, "Full-band LPCNet: a real-time neural vocoder for 48 kHz audio with a CPU," IEEE Access, Vol. 9, pp. 94923-94933, July 2021.
- T. Okamoto, K. Matsubara, T. Toda, Y. Shiga, H. Kawai, "Neural speech-rate conversion with multispeaker WaveNet vocoder," Speech Communication, Vol. 138, pp. 1-12, Mar. 2022.
レター
- K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai, "Comparison of real-time multi-speaker neural vocoders on CPUs," Acoustical Science and Technology, Acoustical Letter, Vol. 43, No. 2, pp. 121-124, Mar. 2022.
国際会議
- K. Kobayashi, W.-C. Huang, Y.-C. Wu, P.L. Tobing, T. Hayashi, T. Toda, "Crank: an open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder," Proc. IEEE ICASSP, pp. 5934-5938, June 2021.
- W.-C. Huang, Y.-C. Wu, T. Hayashi, T. Toda, "Any-to-one sequence-to-sequence voice conversion using self-supervised discrete speech representations," Proc. IEEE ICASSP, pp. 5944-5948, June 2021.
- T. Okamoto, T. Toda, Y. Shiga, H. Kawai, "Noise level limited sub-modeling for diffusion probabilistic vocoders," Proc. IEEE ICASSP, pp. 6029-6033, June 2021.
- A. Ando, R. Masumura, H. Sato, T. Moriya, T. Ashihara, Y. Ijima, T. Toda, "Speech emotion recognition based on listener adaptive models," Proc. IEEE ICASSP, pp. 6274-6278, June 2021.
- K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai, "High-intelligibility speech synthesis for dysarthric speakers with LPCNet-based TTS and CycleVAE-based VC," Proc. IEEE ICASSP, pp. 7058-7062, June 2021.
- T. Hayashi, W.-C. Huang, K. Kobayashi, T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," Proc. IEEE ICASSP, pp. 7068-7072, June 2021.
- W.-C. Huang, C.-H. Wu, S.-B. Luo, K.-Y. Chen, H.-M. Wang, T. Toda, "Speech recognition by simply fine-tuning BERT," Proc. IEEE ICASSP, pp. 7343-7347, June 2021.
- I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda, "Anomalous sound detection using a binary classification model and class centroids," Proc. EUSIPCO, pp. 1995-1999, Aug 2021.
- P.L. Tobing, T. Toda, "Low-latency real-time non-parallel voice conversion based on cyclic variational autoencoder and multiband WaveRNN with data-driven linear prediction," Proc. SSW, pp. 142-147, Aug. 2021.
- W.-C. Huang, K. Kobayashi, Y.-H. Peng, C.-F. Liu, Y. Tsao, H.-M. Wang, T. Toda, "A preliminary study of a two-stage paradigm for preserving speaker identity in dysarthric voice conversion," Proc. INTERSPEECH, pp. 1329-1333, Aug.-Sep. 2021.
- R. Yoneyama, Y.-C. Wu, T. Toda, "Unified source-filter GAN: unified source-filter network based on factorization of quasi-periodic parallel WaveGAN," Proc. INTERSPEECH, pp. 2187-2191, Aug.-Sep. 2021.
- P.L. Tobing, T. Toda, "High-fidelity and low-latency universal neural vocoder based on multiband WaveRNN with data-driven linear prediction for discrete waveform modeling," Proc. INTERSPEECH, pp. 2217-2221, Aug.-Sep. 2021.
- Y.-C. Wu, C.-H. Hu, H.-S. Lee, Y.-H. Peng, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, "Relational data selection for data augmentation of speaker-dependent multi-band MelGAN vocoder," Proc. INTERSPEECH, pp. 3630-3634, Aug.-Sep. 2021.
- S. Seki, H. Taga, T. Toda, "Singing fundamental frequency contour generation using generalized command response model and score-conditional variational autoencoder," Proc. IEEE MLSP, 6 pages, Oct. 2021.
- I. Kuroyanagi, T. Hayashi, Y. Adachi, T. Yoshimura, K. Takeda, T. Toda, "An ensemble approach to anomalous sound detection based on conformer-based autoencoder and binary classifier incorporated with metric learning" DCASE 2021 Workshop, pp. 110-114, Nov. 2021.
- T. Okamoto, T. Toda, H. Kawai, "Multi-stream HiFi-GAN with data-driven waveform decomposition," Proc. IEEE ASRU, pp. 610-617, Dec. 2021.
- W.-C. Huang, T. Hayashi, X. Li, S. Watanabe, T. Toda, "On prosody modeling for ASR+TTS based voice conversion," Proc. IEEE ASRU, pp. 642-649, Dec. 2021.
- M.-C. Yen, W.-C. Huang, K. Kobayashi, Y.-H. Peng, S.-W. Tasi, Y. Tsao, T. Toda, J.-S. R. Jang, H.-M. Wang, "Mandarin electrolaryngeal speech voice conversion with sequence-to-sequence modeling," Proc. IEEE ASRU, pp. 650-657, Dec. 2021.
- H.-T. Chiang, Y.-C. Wu, C. Yu, T. Toda, H.-M. Wang, Y.-C. Hu, Y. Tsao, "HASA-Net: a non-intrusive hearing-aid speech assessment network," Proc. IEEE ASRU, pp. 907-913, Dec. 2021.
- Z. Qian, H. Niu, L. Wang, K. Kobayashi, S. Zhang, T. Toda, "Mandarin electro-laryngeal speech enhancement based on statistical voice conversion and manual tone control," Proc. APSIPA ASC, pp. 546-552, Dec. 2021.
- C. Xie, Y.-C. Wu, P.L. Tobing, W.-C. Huang, T. Toda, "Noisy-to-noisy voice conversion framework with denoising model," Proc. APSIPA ASC, pp. 814-820, Dec. 2021.
- D. Ma, W.-C. Huang, T. Toda, "Investigation of text-to-speech-based synthetic parallel data for sequence-to-sequence non-parallel voice conversion," Proc. APSIPA ASC, pp. 870-877, Dec. 2021.【APSIPA ASC 2021 The Best Paper Award】
- Y.-S. Liou, W.-C. Huang, M.-C. Yen, S.-W. Tsai, Y.-H. Peng, T. Toda, Y. Tsao, H.-M. Wang, "Time alignment using lip images for frame-based electrolaryngeal voice conversion," Proc. APSIPA ASC, pp. 1234-1238, Dec. 2021.
- W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, T. Toda, "S3PRL-VC: open-source voice conversion framework with self-supervised speech representations," Proc. AAAI-22 Workshop, W35: Self-Supervised Learning for Audio and Speech Processing, 5 pages, Feb. 2022.
著書・解説
- 戸田 智基, 大平 茂輝, 後藤 明史, 出口 大輔, 森 健策, "学習支援サービスの運用とオンデマンド型を中心としたオンライン授業への展開――名古屋大学における事例――," 信学会誌, Vol. 104, No. 8, pp. 862-866, Aug. 2021.
- 滝口 哲也, 有木 康雄, 鏑木 時彦, 戸田 智基, 南角 吉彦, 藤本 雅清, 木下 慶介, "音声(上)," 日本音響学会(編)音響学講座 6, コロナ社, Aug. 2021.
招待講演
- T. Toda, "Interactive voice conversion for augmented speech production", SNL, July 2021.
- 戸田 智基, "共創型音メディア機能拡張に向けた取り組み", 電気・電子・情報関係学会 東海支部連合大会, 【OS06】音メディア情報処理と共創型機能拡張への展開, J5-1, Sep. 2021.
- 戸田 智基, "発声機能拡張のためのインタラクティブ音声変換", 電気・電子・情報関係学会 東海支部連合大会, 【OS06】音メディア情報処理と共創型機能拡張への展開, J5-2, Sep. 2021.
- W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022", 音声言語情報処理研究発表会/音声研究会, Mar. 2022.
研究会
- 佐治 拓樹, 小林 和弘, 石黒 祥生, 戸田 智基, 大谷 健登, 西野 隆則, 武田 一哉, "声質の可視化を用いた所望音声検索システムの提案," 情報処理研報, Vol. 2022-MUS-133, No. 6, pp. 1-5, Jan. 2022.
- R. Wang, L. Li, T. Toda, "Target speaker extraction based on conditional variational autoencoder and directional information in underdetermined condition", 信学技報, Vol. 121, No. 383, EA2021-76, pp. 76-81, Mar. 2022.
- W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022", 情報処理研報, Vol. 2022-SLP-141, No. 1, page 1, Mar. 2022.
大会講演
- 李 莉, 亀岡 弘和, 牧野 昭二, "ChimeraACVAE による高速多チャンネル変分自己符号化器法," 音講論, 1-1-6, pp. 129-132, Sep. 2021.【第51回日本音響学会 粟屋潔学術奨励賞(受賞者:李 莉)】
- 李 莉, 亀岡 弘和, 関 翔悟, "ハンガリー法と欠損帯域補完に基づく周波数領域ブロックパーミュテーション解決法," 音講論, 1-1-7, pp. 133-136, Sep. 2021.
- 畔栁 伊吹, 林 知樹, 武田 一哉, 戸田 智基, "距離学習を導入した二値分類モデルによる異常音検知," 音講論, 3-1-15, pp. 277-278, Sep. 2021.【第23回日本音響学会 学生優秀発表賞(受賞者:畔栁 伊吹)】
- 松原 圭亮, 岡本 拓麿, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "HiFi-GANボコーダにおけるLPCNet特徴量の検討," 音講論, 1-3-10, pp. 875-878, Sep. 2021.
- 米山 怜於, Y.-C. Wu, 戸田 智基, "敵対的学習による統合型ソースフィルタネットワーク," 音講論, 2-3-2, pp. 905-906, Sep. 2021.【第23回日本音響学会 学生優秀発表賞(受賞者:米山 怜於)】
- 吉岡 大貴, 戸田 智基, "言語表現の制御を可能とするTTS実現に向けたVAEによるテキスト発話スタイル変換," 音講論, 3-3-20, pp. 983-984, Sep. 2021.
- 岡本 拓麿, 戸田 智基, 河井 恒, "強制アライメント版Parallel Tacotron 2とHiFi-GANを用いたCPU型リアルタイム日本語ニューラルテキスト音声合成システムの実装," 音講論, 1-3P-8, pp. 1007-1010, Sep. 2021.
- 犬塚 雅也, 林 知樹, 戸田 智基, "環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用," 音講論, 3-1-13, pp. 297-298, Mar. 2022.
- 松原 圭亮, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "Period-HiFi-GAN: 基本周波数を制御可能な高速ニューラルボコーダ," 音講論, 1-3-8, pp. 901-904, Mar. 2022.
- 米山 怜於, 呉 宜樵, 戸田 智基, "敵対的学習による統合的ソースフィルタネットワークの改良," 音講論, 1-3-10, pp. 907-908, Mar. 2022.
- 吉本 暁文, 戸田 智基, "音素列制約つき音声認識モデルによる音声からのアクセントラベルの自動推定," 音講論, 2-3-8, pp. 959-960, Mar. 2022.
- 岡本 拓磨, 戸田 智基, 河井 恒, "最尤推定型継続長モデルを用いた話速変換ニューラルTTS," 音講論, 1-3P-7, pp. 1021-1024, Mar. 2022.
- 安田 裕介, 戸田 智基, "書記素と音素を用いた事前学習モデルの日本語テキスト音声合成への適用," 音講論, 1-3P-10, pp. 1031-1034, Mar. 2022.
- 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "注意機構付きVAEを用いた日本語テキストの発話スタイル変換," 音講論, 2-3P-12, pp. 1125-1126, Mar. 2022.
- 橋爪 優果, 李 莉, 戸田 智基, "各楽器音源に着目した距離学習に基づく楽曲間類似度計算," 音講論, 2-9-12, pp. 1207-1208, Mar. 2022.
- H. Geng, Y. Yasuda, T. Toda, "Disfluency Removal with Speech Inpainting on Spontaneous Lecture Speech," 音講論, 3-3-19, pp. 1367-1368, Mar. 2022.
その他発表
- C.-H. Hu, Y.-C. Wu, W.-C. Huang, Y.-H. Peng, Y.-W. Chen, P.-J. Ku, T. Toda, Y. Tsao, H.-M. Wang, "The AS-NU system for the M2VoC challenge," Technical report, arXiv:2104.03009, Apr. 2021.
- H. Hatakeyama, T. Toda, D. Ando, S. Kajita, "Practical use of LMS and related tools - case of Japanese university," Open Apereo, Online, June 2021.
- I. Kuroyanagi, T. Hayashi, Y. Adachi, T. Yoshimura, K. Takeda, T. Toda, "Anomalous sound detection with ensemble of autoencoder and binary classification approaches," Technical report, DCASE Task 2, July 2021.
- 犬塚 雅也, "環境音の階層構造を考慮した事前学習モデルに関する検討," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
- 耿 浩彭, "講義音声の字幕生成における音声合成・変換技術の活用," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
- 吉岡 大貴, "言語表現を制御可能な音声合成の実現に向けた教師なしテキスト発話様式変換," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
- 戸田 智基, "DXがもたらす学び支援サービスと学び生活," 名古屋大学教育基盤連携本部高等教育システム開発部門シンポジウム, オンライン, Nov. 2021.
- 戸田 智基, "音を聴き分けて状況を判断する技術," 第2回名古屋大学イニシアティブウェビナー「視覚と聴覚の再構築」, オンライン, Dec. 2021.
- 戸田 智基, "もうコロナ前には戻らない BYOD時代の授業運営のTips," 名古屋大学全学教育科目担当教員FD, オンライン, Mar. 2022.
博士論文
- Atsushi Ando, "Speech emotion recognition in real environments using characteristics of emotional expression and perception," 情報学研究科知能システム学専攻博士論文, Sep. 2021.
修士論文
- 犬塚 雅也, "環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用," 情報学研究科知能システム学専攻修士論文, Feb. 2022.
- 耿 浩彭, "Speech conversion and inpainting for disfluency-focused lecture speech editing," 情報学研究科知能システム学専攻修士論文, Feb. 2022.
- 吉岡 大貴, "条件付き変分自己符号化器を用いた日本語テキストの発話スタイル変換," 情報学研究科知能システム学専攻修士論文, Feb. 2022.
卒業論文
- 梶原 大進, "音響イベント検出のための自己教師あり学習," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
- 丹羽 希碩, "低遅延リアルタイムニューラルボコーダの実装と音声加工への応用," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
- 宮下 敦志, "1パラメータ変換群不変特徴量の解析的導出と音声認識への適用," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
- 金 世訓, "Note-level guitar transcription with attention mechanism," 令和3年度情報工学コース卒業研究報告, Feb. 2022.