発表文献

2020年度に発表された文献の一覧

学術論文誌

Y.-C. Wu, P.L. Tobing, T. Hayashi, K. Kobayashi, T. Toda, "Non-parallel voice conversion system with WaveNet vocoder and collapsed speech suppression," IEEE Access, Vol. 8, No. 1, pp. 62094-62106, Apr. 2020.
X. Wang, J. Yamagishi, M. Todisco, H. Delgado, A. Nautsch, N. Evans, M. Sahidullah, V. Vestman, T. Kinnunen, K.A. Lee, L. Juvela, P. Alku, Y.-H. Peng, H.-T. Hwang, Y. Tsao, H.-M. Wang, S. Le Maguer, M. Becker, F. Henderson, R. Clark, Y. Zhang, Q. Wang, Y. Jia, K. Onuma, K. Mushika, T. Kaneda, Y. Jiang, L.-J. Liu, Y.-C. Wu, W.-C. Huang, T. Toda, K. Tanaka, H. Kameoka, I. Steiner, D. Matrouf, J.-F. Bonastre, A. Govender, S. Ronanki, J.-X. Zhang, Z.-H. Ling, "ASVspoof 2019: a large-scale public database of synthetic, converted and replayed speech," Computer Speech and Language, Vol. 64, Article 101114, pp. 1-27, Nov. 2020.
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda, "An evaluation of voice conversion with neural network spectral mapping models and WaveNet vocoder," APSIPA Transactions on Signal and Information Processing, Vol. 9, e26, pp. 1-14, Nov. 2020.
H. Kameoka, W.-C. Huang, K. Tanaka, T. Kaneko, N. Hojo, T. Toda, "Many-to-many voice transformer network," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 29, pp. 656-670, Jan. 2021.
W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda, "Pretraining techniques for sequence-to-sequence voice conversion," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 29, pp. 745-755, Feb. 2021.【IEEE Signal Processing Society Japan Young Author Best Paper Award（受賞者：Wen-Chin Huang）】
Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda, "Quasi-periodic parallel WaveGAN: a non-autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 29, pp. 792-806, Feb. 2021.
Y.-C. Wu, T. Hayashi, P.L. Tobing, K. Kobayashi, T. Toda, "Quasi-periodic WaveNet: an autoregressive raw waveform generative model with pitch-dependent dilated convolution neural network," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 29, pp. 1134-1148, Mar. 2021.

レター

K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, Y. Shiga, H. Kawai, "Investigation of training data size for real-time neural vocoders on CPUs," Acoustical Science and Technology, Acoustical Letter, Vol. 42, No. 1, pp. 65-68, Jan. 2021.

国際会議

K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda, "Weakly-supervised sound event detection with self-attention," Proc. IEEE ICASSP, pp. 66-70, May 2020.
T. Okamoto, T. Toda, Y. Shiga, H. Kawai, "Transformer-based text-to-speech with weighted forced attention," Proc. IEEE ICASSP, pp. 6729-6733, May 2020.
P.L. Tobing, Y.-C. Wu, T. Hayashi, K. Kobayashi, T. Toda, "Efficient shallow WaveNet vocoder using multiple samples output based on Laplacian distribution and linear prediction," Proc. IEEE ICASSP, pp. 7204-7208, May 2020.
T. Hayashi, R. Yamamoto, K. Inoue, T. Yoshimura, S. Watanabe, T. Toda, K. Takeda, Y. Zhang, X. Tan, "ESPNET-TTS: unified, reproducible, and integratable open source end-to-end text-to-speech toolkit," Proc. IEEE ICASSP, pp. 7654-7658, May 2020.
K. Kobayashi, T. Toda, "Implementation of low-latency electrolaryngeal speech enhancement based on multi-task CLDNN," Proc. EUSIPCO, pp. 396-400, Aug. 2020.
M. Takada, S. Seki, P.L. Tobing, T. Toda, "Semi-supervised enhancement and suppression of self-produced speech using correspondence between air- and body-conducted signals," Proc. EUSIPCO, pp. 456-460, Aug. 2020.
Y.-C. Wu, T. Hayashi, T. Okamoto, H. Kawai, T. Toda, "Quasi-periodic parallel WaveGAN vocoder: a non-autoregressive pitch-dependent dilated convolution model for parametric speech generation," Proc. INTERSPEECH 2020, pp. 3535-3539, Oct. 2020.
Y.-C. Wu, P.L. Tobing, K. Yasuhara, N. Matsunaga, Y. Ohtani, T. Toda, "A cyclical post-filtering approach to mismatch refinement of neural vocoder for text-to-speech systems," INTERSPEECH 2020, pp. 3540-3544, Oct. 2020.
S. Seki, M. Takada, T. Toda, "Semi-supervised self-produced speech enhancement and suppression based on joint source modeling of air- and body-conducted signals using variational autoencoder," INTERSPEECH 2020, pp. 4039-4043, Oct. 2020.
S. Hikosaka, S. Seki, T. Hayashi, K. Kobayashi, K. Takeda, H. Banno, T. Toda, "Intelligibility enhancement based on speech waveform modification using hearing impairment simulator," INTERSPEECH 2020, pp. 4059-4063, Oct. 2020.
W.-C. Huang, T. Hayashi, Y.-C. Wu, H. Kameoka, T. Toda, "Voice transformer network: sequence-to-sequence voice conversion using transformer with text-to-speech pretraining," Proc. INTERSPEECH, pp. 4676-4680, Oct. 2020.
P.L. Tobing, T. Hayashi, Y.-C. Wu, K. Kobayashi, T. Toda, "Cyclic spectral modeling for unsupervised unit discovery into voice conversion with excitation and waveform modeling," INTERSPEECH 2020, pp. 4861-4865, Oct. 2020.
Z. Yi, W.-C. Huang, X. Tian, J. Yamagishi, R.K. Das, T. Kinnunen, Z. Ling, T. Toda, "Voice Conversion Challenge 2020 –- intra-lingual semi-parallel and cross-lingual voice conversion –-," Proc. Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 80-98, Oct. 2020.
R.K. Das, T. Kinnunen, W.-C. Huang, Z. Ling, J. Yamagishi, Y. Zhao, X. Tian, T. Toda, "Predictions of subjective ratings and spoofing assessments of Voice Conversion Challenge 2020 submissions," Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 99-120, Oct. 2020.
P.L. Tobing, Y.-C. Wu, T. Toda, "Baseline system of Voice Conversion Challenge 2020 with cyclic variational autoencoder and parallel WaveGAN," Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 155-159, Oct. 2020.
W.C. Huang, T. Hayashi, S. Watanabe, T. Toda, "The sequence-to-sequence baseline for the Voice Conversion Challenge 2020: cascading ASR and TTS," Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 160-164, Oct. 2020.
W.-C. Huang, P.L. Tobing, Y.-C. Wu, K. Kobayashi, T. Toda, "The NU voice conversion system for the Voice Conversion Challenge 2020: on the effectiveness of sequence-to-sequence models and autoregressive neural vocoders," Joint workshop for the Blizzard Challenge and Voice Conversion Challenge 2020, pp. 165-169, Oct. 2020.
K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda, "Conformer-based sound event detection with semi-supervised learning and data augmentation," Proc. DCASE 2020 Workshop, pp. 100-104, Nov. 2020.
H. Nakatani, P.L. Tobing, K. Takeda, T. Toda, "Cross-lingual voice conversion with cyclic variational auto-encoder and a WaveNet vocoder," Proc. APSIPA ASC, pp. 520-526, Dec. 2020.
M. Eshghi, K. Kobayashi, K. Tanaka, H. Kameoka, T. Toda, "Phoneme embeddings on predicting fundamental frequency pattern for electrolaryngeal speech," Proc. APSIPA ASC, pp. 572-577, Dec. 2020.

招待講演

T. Toda, "Recent trend of voice conversion research and its possible future direction", Keynote and APSIPA Distinguished Lecture, ROCLING, Taipei, Taiwan, Sep. 2020.
T. Toda, "Recent progress on voice conversion: what is next?", IEEE SLT, Jan. 2021.
戸田智基, "CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト," 情報処理学会音声言語情報処理研究会, Feb. 2021.

研究会

畠山久, 常盤祐司, 戸田智基, 梶田将司, "Open Apereo 2020 Online参加報告," 情報処理研報, Vol. 2020-CLE-32, No. 11, pp. 1-5, Nov. 2020.
戸田智基, "CREST「共生インタラクション」共創型音メディア機能拡張プロジェクト," 情報処理研報, Vol. 2021-SLP-135, No. 3, page 1, Feb. 2021.
米山怜於, Yi-Chiao Wu, 戸田智基, "統合型ソースフィルタネットワークによるニューラルボコーダ," 信学技報, Vol. 120, No. 399, SP2020-34, pp. 57-62, Mar. 2021.
畔栁伊吹, 林知樹, 武田一哉, 戸田智基, "特徴量空間のクラス重心を考慮した二値分類モデルによる異常音検知," 信学技報, Vol. 120, No. 397, EA2020-79, pp. 114-121, Mar. 2021.

大会講演

中谷輝, Patrick Lumban Tobing, 武田一哉, 戸田智基, "CycleVAEとWaveNetボコーダを用いたクロスリンガル声質変換," 音講論, 1-2-12, pp. 719-720, Sep. 2020.
多賀遥香, 関翔悟, 李莉, 武田一哉, 戸田智基, "一般化指令応答モデルを用いた変分自己符号化器に基づく歌唱F0パターンの生成," 音講論, 1-2-16, pp. 731-732, Sep. 2020.
松原圭亮, 岡本拓麿, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井恒, "Full-band LPCNet：48kHzリアルタイムニューラルボコーダ," 音講論, 2-2-1, pp. 755-758, Sep. 2020.【第21回日本音響学会学生優秀発表賞（受賞者：松原圭亮）】
彦坂秀, 関翔悟, 武田一哉, 戸田智基, "微分可能全域通過フィルタを用いたダイナミックレンジ圧縮," 音講論, 2-2-7, pp. 775-776, Sep. 2020.
安藤厚志, 森岳至, 小橋川哲, 戸田智基, "聴取者ごとの感情知覚モデルに基づく音声感情認識," 音講論, 3-2-1, pp. 777-778, Sep. 2020.
岡本拓磨, 戸田智基, 志賀芳則, 河井恒, "FastSpeech型ニューラルTTSモデルの比較," 音講論, 3-2-16, pp. 825-828, Sep. 2020.
戸田智基, 大平茂輝, 後藤明史, 田上奈緒, 松岡孝, 島田啓史, 田島尚徳, 中務孝広, 出口大輔, 森健策, "名古屋大学におけるオンライン授業支援サービスの運用," 大学ICT推進協議会 2020年度年次大会, FC2-5, pp. 391-397, Dec. 2020.
松原圭亮, 岡本拓麿, 高島遼一, 滝口哲也, 戸田智基, 志賀芳則, 河井恒, "CycleVAE型声質変換を用いた構音障害者のための高明瞭度音声合成," 音講論, 1-2-3, pp. 783-786, Mar. 2021.
中谷輝, Patrick Lumban Tobing, 武田一哉　戸田智基, "CycleVAEを用いた声質変換におけるWaveNetボコーダのファインチューニング法の調査," 音講論, 1-2-4, pp. 787-790, Mar. 2021.
岡本拓麿, 戸田智基, 志賀芳則, 河井恒, "DiffWaveGrad: 拡散確率型ニューラルボコーダの併用モデル," 音講論, 2-2-9, pp. 857-860, Mar. 2021.
安原和輝, Yi-Chiao Wu, Patrick Lumban Tobing, 松永悟行, 大谷大和, 戸田智基,　"テキスト音声合成のためのポストフィルタ用WaveNetボコーダの学習条件に関する評価," 音講論, 2-2-11, pp. 865-866, Mar. 2021.
関翔悟, 多賀遥香, 武田一哉, 戸田智基, "音高情報条件つき変分自己符号化器を用いたF0歌唱パターン生成," 音講論, 1-2Q-6, pp. 1017-1018, Mar. 2021.
大竹徹郎, 関翔悟, 戸田智基, "マルチタスク学習を用いたU-Netに基づく楽曲音源分離に関する調査," 音講論, 1-9-6, pp. 1121-1122, Mar. 2021.
大川舜平, 石黒祥生, 大谷健登, 西野隆典, 小林和弘, 戸田智基, 武田一哉, "電気式人工喉頭を用いた歌唱システムにおける自然な身体動作を利用した歌唱表現付与の提案," 情報処理学会シンポジウムインタラクション2021, pp. 261-266, Mar. 2021.

その他発表

森健策, 三小田博昭, 渡辺武志, 丹羽ひとみ, 戸田智基, "名古屋大学教育学部附属学校におけるLMS導入取組～名大情報基盤センターとの連携," 国立情報学研究所「大学の情報環境のあり方検討会」【第4回】4月からの大学等遠隔授業に関する取組状況共有サイバーシンポジウム, オンライン, Apr. 2020.
H. Hatakeyama, T. Toda, Y. Tokiwa, S. Kajita, "Sustainable Digital Learning Environment - Our Practices of Sakai," Open Apereo, Online, June 2020.
K. Miyazaki, T. Komatsu, T. Hayashi, S. Watanabe, T. Toda, K. Takeda, "Convolution-augmented Transformer for semi-supervised sound event detection," Technical report, DCASE Task 4, June 2020.
大竹徹郎, "調波構造レンダリングに基づく多重音解析と楽曲音源分離の統合的アプローチ," 第24回東海地区音声関連研究室修士論文中間発表会, オンライン, Aug. 2020.
安原和輝, "テキスト音声合成用ポストフィルタとしてのWaveNetボコーダ学習法," 第24回東海地区音声関連研究室修士論文中間発表会, オンライン, Aug. 2020.
山下望, "深層学習を用いたドラムパターン譜面の音楽的特徴の抽出," 第24回東海地区音声関連研究室修士論文中間発表会, オンライン, Aug. 2020.【オンラインプレゼンテーション賞（受賞者：山下望）】
W.-C. Huang, "Voice Transformer Network：テキスト音声合成に基づく事前学習を用いた音声変換用Transformer," 第24回東海地区音声関連研究室修士論文中間発表会, オンライン, Aug. 2020.
戸田智基, "名古屋大学におけるオンライン授業支援に関する事例紹介," 電気・電子・情報関係学会東海支部連合大会, 【OS12】大学におけるオンライン授業支援の動向と今後の発展, C3-2, オンライン, Sep. 2020.
戸田智基, 大平茂輝, 後藤明史, "オンデマンド型オンライン授業における学習活動分析に向けた授業支援システムログ活用の試み," 国立情報学研究所「大学の情報環境のあり方検討会」【第17回】4月からの大学等遠隔授業に関する取組状況共有サイバーシンポジウム, オンライン, Sep. 2020.
森健策, 戸田智基, "COVID-19とLMS - 大学教育の大幅な変化を経験して," 情報処理学会第38回全国大会, イベント企画「コロナ新時代の情報処理（教育）～口頭教育におけるニューノーマルの模索～」, オンライン, Mar. 2021.
戸田智基, 大平茂輝, 後藤明史, "名古屋大学における2020年度LMS利用ログ分析ならびに学習活動分析に向けた今後の展開," 国立情報学研究所「大学の情報環境のあり方検討会」【第28回】大学等におけるオンライン教育とデジタル変革に関するサイバーシンポジウム「教育期間DXシンポ」, オンライン, Mar. 2021.

博士論文

Yi-Chiao Wu, "Incorporating prior knowledge on speech production mechanism into neural speech waveform generation," 情報学研究科知能システム学専攻博士論文, Feb. 2021.

修士論文

大竹徹郎, "深層楽曲音源分離のためのマルチタスク学習," 情報学研究科知能システム学専攻修士論文, Feb. 2021.
安原和輝, "ニューラルボコーダに基づくテキスト音声合成用ポストフィルタ," 情報学研究科知能システム学専攻修士論文, Feb. 2021.
山下望, "変分自己符号化器に基づくドラムパターンの音楽的表現モデリング," 情報学研究科知能システム学専攻修士論文, Feb. 2021.
Wen-Chin Huang, "Transfer learning for sequence-to-sequence voice conversion," 情報学研究科知能システム学専攻修士論文, Feb. 2021.

卒業論文

婦木紡, "ギターの自動採譜における深層学習に基づく多重音基本周波数推定," 令和2年度情報学部コンピュータ科学科卒業論文, Feb. 2021.
米山怜於, "統合型ソースフィルタネットワークによるニューラルボコーダ," 令和2年度情報学部コンピュータ科学科卒業論文, Feb. 2021.

名古屋大学大学院情報学研究科戸田研究室

音メディア情報処理で新たな未来を切り拓く

発表文献

2020年度に発表された文献の一覧

学術論文誌

レター

国際会議

招待講演

研究会

大会講演

その他発表

博士論文

修士論文

卒業論文

他の年度はこちら