発表文献

2021年度に発表された文献の一覧

学術論文誌

A. Ando, T. Mori, S. Kobashikawa, T. Toda, "Speech emotion recognition based on listener-dependent emotion perception models," APSIPA Transactions on Signal and Information Processing, Vol. 10, e6, pp. 1-11, Apr. 2021.
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai, "Full-band LPCNet: a real-time neural vocoder for 48 kHz audio with a CPU," IEEE Access, Vol. 9, pp. 94923-94933, July 2021.
T. Okamoto, K. Matsubara, T. Toda, Y. Shiga, H. Kawai, "Neural speech-rate conversion with multispeaker WaveNet vocoder," Speech Communication, Vol. 138, pp. 1-12, Mar. 2022.

レター

K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai, "Comparison of real-time multi-speaker neural vocoders on CPUs," Acoustical Science and Technology, Acoustical Letter, Vol. 43, No. 2, pp. 121-124, Mar. 2022.

国際会議

K. Kobayashi, W.-C. Huang, Y.-C. Wu, P.L. Tobing, T. Hayashi, T. Toda, "Crank: an open-source software for nonparallel voice conversion based on vector-quantized variational autoencoder," Proc. IEEE ICASSP, pp. 5934-5938, June 2021.
W.-C. Huang, Y.-C. Wu, T. Hayashi, T. Toda, "Any-to-one sequence-to-sequence voice conversion using self-supervised discrete speech representations," Proc. IEEE ICASSP, pp. 5944-5948, June 2021.
T. Okamoto, T. Toda, Y. Shiga, H. Kawai, "Noise level limited sub-modeling for diffusion probabilistic vocoders," Proc. IEEE ICASSP, pp. 6029-6033, June 2021.
A. Ando, R. Masumura, H. Sato, T. Moriya, T. Ashihara, Y. Ijima, T. Toda, "Speech emotion recognition based on listener adaptive models," Proc. IEEE ICASSP, pp. 6274-6278, June 2021.
K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai, "High-intelligibility speech synthesis for dysarthric speakers with LPCNet-based TTS and CycleVAE-based VC," Proc. IEEE ICASSP, pp. 7058-7062, June 2021.
T. Hayashi, W.-C. Huang, K. Kobayashi, T. Toda, "Non-autoregressive sequence-to-sequence voice conversion," Proc. IEEE ICASSP, pp. 7068-7072, June 2021.
W.-C. Huang, C.-H. Wu, S.-B. Luo, K.-Y. Chen, H.-M. Wang, T. Toda, "Speech recognition by simply fine-tuning BERT," Proc. IEEE ICASSP, pp. 7343-7347, June 2021.
I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda, "Anomalous sound detection using a binary classification model and class centroids," Proc. EUSIPCO, pp. 1995-1999, Aug 2021.
P.L. Tobing, T. Toda, "Low-latency real-time non-parallel voice conversion based on cyclic variational autoencoder and multiband WaveRNN with data-driven linear prediction," Proc. SSW, pp. 142-147, Aug. 2021.
W.-C. Huang, K. Kobayashi, Y.-H. Peng, C.-F. Liu, Y. Tsao, H.-M. Wang, T. Toda, "A preliminary study of a two-stage paradigm for preserving speaker identity in dysarthric voice conversion," Proc. INTERSPEECH, pp. 1329-1333, Aug.-Sep. 2021.
R. Yoneyama, Y.-C. Wu, T. Toda, "Unified source-filter GAN: unified source-filter network based on factorization of quasi-periodic parallel WaveGAN," Proc. INTERSPEECH, pp. 2187-2191, Aug.-Sep. 2021.
P.L. Tobing, T. Toda, "High-fidelity and low-latency universal neural vocoder based on multiband WaveRNN with data-driven linear prediction for discrete waveform modeling," Proc. INTERSPEECH, pp. 2217-2221, Aug.-Sep. 2021.
Y.-C. Wu, C.-H. Hu, H.-S. Lee, Y.-H. Peng, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, "Relational data selection for data augmentation of speaker-dependent multi-band MelGAN vocoder," Proc. INTERSPEECH, pp. 3630-3634, Aug.-Sep. 2021.
S. Seki, H. Taga, T. Toda, "Singing fundamental frequency contour generation using generalized command response model and score-conditional variational autoencoder," Proc. IEEE MLSP, 6 pages, Oct. 2021.
I. Kuroyanagi, T. Hayashi, Y. Adachi, T. Yoshimura, K. Takeda, T. Toda, "An ensemble approach to anomalous sound detection based on conformer-based autoencoder and binary classifier incorporated with metric learning" DCASE 2021 Workshop, pp. 110-114, Nov. 2021.
T. Okamoto, T. Toda, H. Kawai, "Multi-stream HiFi-GAN with data-driven waveform decomposition," Proc. IEEE ASRU, pp. 610-617, Dec. 2021.
W.-C. Huang, T. Hayashi, X. Li, S. Watanabe, T. Toda, "On prosody modeling for ASR+TTS based voice conversion," Proc. IEEE ASRU, pp. 642-649, Dec. 2021.
M.-C. Yen, W.-C. Huang, K. Kobayashi, Y.-H. Peng, S.-W. Tasi, Y. Tsao, T. Toda, J.-S. R. Jang, H.-M. Wang, "Mandarin electrolaryngeal speech voice conversion with sequence-to-sequence modeling," Proc. IEEE ASRU, pp. 650-657, Dec. 2021.
H.-T. Chiang, Y.-C. Wu, C. Yu, T. Toda, H.-M. Wang, Y.-C. Hu, Y. Tsao, "HASA-Net: a non-intrusive hearing-aid speech assessment network," Proc. IEEE ASRU, pp. 907-913, Dec. 2021.
Z. Qian, H. Niu, L. Wang, K. Kobayashi, S. Zhang, T. Toda, "Mandarin electro-laryngeal speech enhancement based on statistical voice conversion and manual tone control," Proc. APSIPA ASC, pp. 546-552, Dec. 2021.
C. Xie, Y.-C. Wu, P.L. Tobing, W.-C. Huang, T. Toda, "Noisy-to-noisy voice conversion framework with denoising model," Proc. APSIPA ASC, pp. 814-820, Dec. 2021.
D. Ma, W.-C. Huang, T. Toda, "Investigation of text-to-speech-based synthetic parallel data for sequence-to-sequence non-parallel voice conversion," Proc. APSIPA ASC, pp. 870-877, Dec. 2021.【APSIPA ASC 2021 The Best Paper Award】
Y.-S. Liou, W.-C. Huang, M.-C. Yen, S.-W. Tsai, Y.-H. Peng, T. Toda, Y. Tsao, H.-M. Wang, "Time alignment using lip images for frame-based electrolaryngeal voice conversion," Proc. APSIPA ASC, pp. 1234-1238, Dec. 2021.
W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, T. Toda, "S3PRL-VC: open-source voice conversion framework with self-supervised speech representations," Proc. AAAI-22 Workshop, W35: Self-Supervised Learning for Audio and Speech Processing, 5 pages, Feb. 2022.

著書・解説

戸田智基, 大平茂輝, 後藤明史, 出口大輔, 森健策, "学習支援サービスの運用とオンデマンド型を中心としたオンライン授業への展開――名古屋大学における事例――," 信学会誌, Vol. 104, No. 8, pp. 862-866, Aug. 2021.
滝口哲也, 有木康雄, 鏑木時彦, 戸田智基, 南角吉彦, 藤本雅清, 木下慶介, "音声（上）," 日本音響学会（編）音響学講座 6, コロナ社, Aug. 2021.

招待講演

T. Toda, "Interactive voice conversion for augmented speech production", SNL, July 2021.
戸田智基, "共創型音メディア機能拡張に向けた取り組み", 電気・電子・情報関係学会東海支部連合大会, 【OS06】音メディア情報処理と共創型機能拡張への展開, J5-1, Sep. 2021.
戸田智基, "発声機能拡張のためのインタラクティブ音声変換", 電気・電子・情報関係学会東海支部連合大会, 【OS06】音メディア情報処理と共創型機能拡張への展開, J5-2, Sep. 2021.
W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022", 音声言語情報処理研究発表会／音声研究会, Mar. 2022.

研究会

佐治拓樹, 小林和弘, 石黒祥生, 戸田智基, 大谷健登, 西野隆則, 武田一哉, "声質の可視化を用いた所望音声検索システムの提案," 情報処理研報, Vol. 2022-MUS-133, No. 6, pp. 1-5, Jan. 2022.
R. Wang, L. Li, T. Toda, "Target speaker extraction based on conditional variational autoencoder and directional information in underdetermined condition", 信学技報, Vol. 121, No. 383, EA2021-76, pp. 76-81, Mar. 2022.
W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022", 情報処理研報, Vol. 2022-SLP-141, No. 1, page 1, Mar. 2022.

大会講演

李莉, 亀岡弘和, 牧野昭二, "ChimeraACVAE による高速多チャンネル変分自己符号化器法," 音講論, 1-1-6, pp. 129-132, Sep. 2021.【第51回日本音響学会粟屋潔学術奨励賞（受賞者：李莉）】
李莉, 亀岡弘和, 関翔悟, "ハンガリー法と欠損帯域補完に基づく周波数領域ブロックパーミュテーション解決法," 音講論, 1-1-7, pp. 133-136, Sep. 2021.
畔栁伊吹, 林知樹, 武田一哉, 戸田智基, "距離学習を導入した二値分類モデルによる異常音検知," 音講論, 3-1-15, pp. 277-278, Sep. 2021.【第23回日本音響学会学生優秀発表賞（受賞者：畔栁伊吹）】
松原圭亮, 岡本拓麿, 高島遼一, 滝口哲也, 戸田智基, 河井恒, "HiFi-GANボコーダにおけるLPCNet特徴量の検討," 音講論, 1-3-10, pp. 875-878, Sep. 2021.
米山怜於, Y.-C. Wu, 戸田智基, "敵対的学習による統合型ソースフィルタネットワーク," 音講論, 2-3-2, pp. 905-906, Sep. 2021.【第23回日本音響学会学生優秀発表賞（受賞者：米山怜於）】
吉岡大貴, 戸田智基, "言語表現の制御を可能とするTTS実現に向けたVAEによるテキスト発話スタイル変換," 音講論, 3-3-20, pp. 983-984, Sep. 2021.
岡本拓麿, 戸田智基, 河井恒, "強制アライメント版Parallel Tacotron 2とHiFi-GANを用いたCPU型リアルタイム日本語ニューラルテキスト音声合成システムの実装," 音講論, 1-3P-8, pp. 1007-1010, Sep. 2021.
犬塚雅也, 林知樹, 戸田智基, "環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用," 音講論, 3-1-13, pp. 297-298, Mar. 2022.
松原圭亮, 岡本拓磨, 高島遼一, 滝口哲也, 戸田智基, 河井恒, "Period-HiFi-GAN: 基本周波数を制御可能な高速ニューラルボコーダ," 音講論, 1-3-8, pp. 901-904, Mar. 2022.
米山怜於, 呉宜樵, 戸田智基, "敵対的学習による統合的ソースフィルタネットワークの改良," 音講論, 1-3-10, pp. 907-908, Mar. 2022.
吉本暁文, 戸田智基, "音素列制約つき音声認識モデルによる音声からのアクセントラベルの自動推定," 音講論, 2-3-8, pp. 959-960, Mar. 2022.
岡本拓磨, 戸田智基, 河井恒, "最尤推定型継続長モデルを用いた話速変換ニューラルTTS," 音講論, 1-3P-7, pp. 1021-1024, Mar. 2022.
安田裕介, 戸田智基, "書記素と音素を用いた事前学習モデルの日本語テキスト音声合成への適用," 音講論, 1-3P-10, pp. 1031-1034, Mar. 2022.
吉岡大貴, 安田裕介, 松永悟行, 大谷大和, 戸田智基, "注意機構付きVAEを用いた日本語テキストの発話スタイル変換," 音講論, 2-3P-12, pp. 1125-1126, Mar. 2022.
橋爪優果, 李莉, 戸田智基, "各楽器音源に着目した距離学習に基づく楽曲間類似度計算," 音講論, 2-9-12, pp. 1207-1208, Mar. 2022.
H. Geng, Y. Yasuda, T. Toda, "Disfluency Removal with Speech Inpainting on Spontaneous Lecture Speech," 音講論, 3-3-19, pp. 1367-1368, Mar. 2022.

その他発表

C.-H. Hu, Y.-C. Wu, W.-C. Huang, Y.-H. Peng, Y.-W. Chen, P.-J. Ku, T. Toda, Y. Tsao, H.-M. Wang, "The AS-NU system for the M2VoC challenge," Technical report, arXiv:2104.03009, Apr. 2021.
H. Hatakeyama, T. Toda, D. Ando, S. Kajita, "Practical use of LMS and related tools - case of Japanese university," Open Apereo, Online, June 2021.
I. Kuroyanagi, T. Hayashi, Y. Adachi, T. Yoshimura, K. Takeda, T. Toda, "Anomalous sound detection with ensemble of autoencoder and binary classification approaches," Technical report, DCASE Task 2, July 2021.
犬塚雅也, "環境音の階層構造を考慮した事前学習モデルに関する検討," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
耿浩彭, "講義音声の字幕生成における音声合成・変換技術の活用," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
吉岡大貴, "言語表現を制御可能な音声合成の実現に向けた教師なしテキスト発話様式変換," 第25回東海地区音声関連研究室修士論文中間発表会, オンライン, Sep. 2021.
戸田智基, "DXがもたらす学び支援サービスと学び生活," 名古屋大学教育基盤連携本部高等教育システム開発部門シンポジウム, オンライン, Nov. 2021.
戸田智基, "音を聴き分けて状況を判断する技術," 第2回名古屋大学イニシアティブウェビナー「視覚と聴覚の再構築」, オンライン, Dec. 2021.
戸田智基, "もうコロナ前には戻らない BYOD時代の授業運営のTips," 名古屋大学全学教育科目担当教員FD, オンライン, Mar. 2022.

博士論文

Atsushi Ando, "Speech emotion recognition in real environments using characteristics of emotional expression and perception," 情報学研究科知能システム学専攻博士論文, Sep. 2021.

修士論文

犬塚雅也, "環境音波形の教師なしモデリング及び環境音識別のためのデータ拡張への応用," 情報学研究科知能システム学専攻修士論文, Feb. 2022.
耿浩彭, "Speech conversion and inpainting for disfluency-focused lecture speech editing," 情報学研究科知能システム学専攻修士論文, Feb. 2022.
吉岡大貴, "条件付き変分自己符号化器を用いた日本語テキストの発話スタイル変換," 情報学研究科知能システム学専攻修士論文, Feb. 2022.

卒業論文

梶原大進, "音響イベント検出のための自己教師あり学習," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
丹羽希碩, "低遅延リアルタイムニューラルボコーダの実装と音声加工への応用," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
宮下敦志, "1パラメータ変換群不変特徴量の解析的導出と音声認識への適用," 令和3年度情報学部コンピュータ科学科卒業論文, Feb. 2022.
金世訓, "Note-level guitar transcription with attention mechanism," 令和3年度情報工学コース卒業研究報告, Feb. 2022.

名古屋大学大学院情報学研究科戸田研究室

音メディア情報処理で新たな未来を切り拓く

発表文献

2021年度に発表された文献の一覧

学術論文誌

レター

国際会議

著書・解説

招待講演

研究会

大会講演

その他発表

博士論文

修士論文

卒業論文

他の年度はこちら