発表文献
2023年度に発表された文献の一覧
学術論文誌
- K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai, "Harmonic-Net: fundamental frequency and speech rate controllable fast neural vocoder," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 1902-1915, May 2023.
- X. Li, X. Shi, D. Hu, Y. Li, Q. Zhang, Z. Wang, M. Unoki, M. Akagi, "Music theory-inspired acoustic representation for speech emotion recognition," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 2534-2547, June 2023.
- R. Yoneyama, Y.-C. Wu, T. Toda, "High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 3717-3729, Sep. 2023.
- C. Xie, T. Toda, "Noisy-to-noisy voice conversion under variations of noisy condition," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 3871-3882, Sep. 2023.
- H. Yamashita, T. Okamoto, R. Takashima, Y. Ohtani, T. Takiguchi, T. Toda, H. Kawai, "Fast neural speech waveform generative models with fully-connected layer-based upsampling," IEEE Access, Vol. 12, pp. 31409-31421, Feb. 2024.
- R. Wang, L. Li, T. Toda, "Dual-channel target speaker extraction based on conditional variational autoencoder and directional information," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 32, pp. 1968-1979, Mar. 2024.
国際会議
- Y. Yasuda, T. Toda, "Text-to-speech synthesis based on latent variable conversion using diffusion probabilistic model and variational autoencoder," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- K. Kobayashi, T. Hayashi, T. Toda, "Low-latency electrolaryngeal speech enhancement based on FastSpeech2-based voice conversion and self-supervised speech representation," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- R. Yamamoto, R. Yoneyama, T. Toda, "NNSVS: a neural network based singing voice synthesis toolkit," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- R. Yoneyama, Y.-C. Wu, T. Toda, "Source-Filter HiFiGAN: fast and pitch controllable high-fidelity neural vocoder," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.【IEEE SPS Japan Student Conference Paper Award(受賞者:Reo Yoneyama)】
- L.P. Violeta, D. Ma, W.-C. Huang, T. Toda, "Intermediate fine-tuning using imperfect synthetic speech for improving electrolaryngeal speech recognition," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- T. Fujimura, T. Toda, "Analysis of Noisy-target Training for DNN-based speech enhancement," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- A. Miyashita, T. Toda, "Representation of vocal tract length transformation based on group theory," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- W.C. Huang, B. Peloquin, J. Kao, C. Wang, H. Gong, E. Salesky, Y. Adi, A. Lee, P.-J. Chen, "A holistic cascade system, benchmark, and human evaluation protocol for expressive speech-to-speech translation," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- R. Yoneyama, R. Yamamoto, K. Tachibana, "Nonparallel high-quality audio super resolution with domain adaptation and resampling CycleGANs," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
- C.-H. Hu, Y. Yasuda, T. Toda, "Preference-based training framework for automatic speech quality assessment using deep neural network," Proc. INTERSPEECH, pp. 546-550, Dublin, Ireland, Aug. 2023.
- X. Shi, X. Li, T. Toda, "Emotion awareness in multi-utterance turn for improving emotion prediction in multi-speaker conversation," Proc. INTERSPEECH, pp. 765-769, Dublin, Ireland, Aug. 2023.
- T. Okamoto, H. Yamashita, T. Toda, H. Kawai, "E2E-S2S-VC: end-to-end sequence-to-sequence voice conversion," Proc. INTERSPEECH, pp. 2043-2047, Dublin, Ireland, Aug. 2023.
- Y. Choi, C. Xie, T. Toda, "Reverberation-controllable voice conversion using reverberation time estimator," Proc. INTERSPEECH, pp. 2103-2107, Dublin, Ireland, Aug. 2023.
- T. Fujimura, R. Scheibler, "Multi-channel separation of dynamic speech and sound events," Proc. INTERSPEECH, pp. 3749-3753, Dublin, Ireland, Aug. 2023.
- Y. Yasuda, T. Toda, "Analysis of mean opinion scores in subjective evaluation of synthetic speech based on tail probabilities," Proc. INTERSPEECH, pp. 5491-5495, Dublin, Ireland, Aug. 2023.
- S. Luan, Y. Wakabayashi, T. Toda, "Sound field interpolation with unsupervised calibration for freely spaced circular microphone array in rotation-robust beamforming," Proc. EUSIPCO, pp. 21-25, Helsinki, Finland, Sep. 2023.
- A. Miyashita, T. Toda, "Differentiable representation of warping based on Lie group theory," Proc. IEEE WASPAA, 5 pages, New Paltz, USA, Oct. 2023.【IEEE WASPAA 2023 Best Student Paper Award(受賞者:Atsushi Miyashita)】
- R. Wang, T. Toda, "Directional target speaker extraction under noisy underdetermined conditions through conditional variational autoencoder with global style tokens," Proc. IEEE WASPAA, 5 pages, New Paltz, USA, Oct. 2023.
- J. Tian, D. Hu, X. Shi, J. He, X. Li, Y. Gao, T. Toda, X. Xu, X. Hu, "Semi-supervised multimodal emotion recognition with consensus decision-making and label correction," Proc. the 1st International Workshop on Multimodal and Responsible Affective Computing (MRAC), pp. 67-73, Ottawa, Canada, Oct. 2023.
- W.-C. Huang, T. Toda, "Evaluating methods for ground-truth-free foreign accent conversion," Proc. APSIPA ASC, pp. 1136-1141, Taipei, Taiwan, Nov. 2023.
- L.P. Violeta, T. Toda, "An analysis of personalized speech recognition system development for the deaf and hard-of-hearing," Proc. APSIPA ASC, pp. 1851-1856, Taipei, Taiwan, Nov. 2023.
- S. Kim, K. Takeda, T. Toda, "Sequence-to-sequence network training methods for automatic guitar transcription with tokenized outputs," Proc. ISMIR, pp. 524-531, Milan, Italy, Nov. 2023.
- W.-C. Huang, L.P. Violeta, S. Liu, J. Shi, T. Toda, "The Singing Voice Conversion Challenge 2023," Proc. IEEE ASRU, 8 pages, Taipei, Taiwan, Dec. 2023.【Selected as Top 3% Papers】
- J. He, Z. Yang, T. Toda, "ED-CEC: improving rare word recognition using ASR post-processing based on error detection and context-aware error correction," Proc. IEEE ASRU, 6 pages, Taipei, Taiwan, Dec. 2023.【IEEE名古屋支部国際会議研究発表賞(受賞者:Jiajun He)】
- B. Halpern, W.-C. Huang, L.P. Violeta, R. van Son, T. Toda, "Improving severity preservation of healthy-to-pathological voice conversion with global style tokens," Proc. IEEE ASRU, 7 pages, Taipei, Taiwan, Dec. 2023.
- R. Yamamoto, R. Yoneyama, L.P. Violeta, W.-C. Huang, T. Toda, "A comparative study of voice conversion models with large-scale speech and singing data: the T13 systems for the Singing Voice Conversion Challenge 2023," Proc. IEEE ASRU, 6 pages, Taipei, Taiwan, Dec. 2023.
- E. Cooper, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2023: zero-shot subjective speech quality prediction for multiple domains," Proc. IEEE ASRU, 7 pages, Taipei, Taiwan, Dec. 2023.【Selected as Top 3% Papers】
- T. Okamoto, H. Yamashita, Y. Ohtani, T. Toda, H. Kawai, "WaveNeXt: ConvNeXt-based fast neural vocoder without iSTFT layer," Proc. IEEE ASRU, 8 pages, Taipei, Taiwan, Dec. 2023.
著書・解説
- 西尾 直樹, 戸田 智基, 小林 和弘, 三谷 壮平, 飴矢 美里, 向山 宣昭, 木村 宏之, 徳倉 達也, 坪井 崇, 藤本 保志, 曾根 三千彦, "喉頭摘出者における音声収録アプリを用いた術前音声の保存 ―Save the Voice プロジェクト―," 喉頭, Vol. 35, No. 2, pp. 142-147, Dec. 2023.
招待講演
- 戸田 智基, "音声情報処理の最先端から見える未来," 第64回日本神経学会学術大会 シンポジウム「脳神経内科領域でのAIの未来:基礎研究から臨床応用まで」, June 2023.
- 小林 和弘, "音声変換の実応用に向けて," 電気・電子・情報関係学会 東海支部連合大会, 【OS7】音響工学への深層学習の応用, J5-1, Aug. 2023.
- 戸田 智基, "音声生成に関する情報処理技術の研究事例," 第76回人工知能セミナー「音声AIを支える基盤技術の最前線」, 人工知能研究センター, Mar. 2024.
研究会
- 橋爪 優果, 李 莉, 宮下 敦志, 戸田 智基, "個別楽器音に基づいた楽曲間類似度のための分離表現学習," 情報処理研報, Vol. 2023-MUS-137, No. 9, pp. 1-7, June 2023.
- 金 世訓, 武田 一哉, 戸田 智基, "トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法," 情報処理研報, Vol. 2023-MUS-137, No. 43, pp. 1-7, June 2023.
- 清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基,河井 恒, "MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較," 信学技報, Vol. 123, No. 88, SP2023-5, pp. 20-25, June 2023.【音声研究会学生ポスター賞(受賞者:清水 聡太)】
- 山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基,河井 恒, "全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル," 信学技報, Vol. 123, No. 88, SP2023-15, pp. 73-78, June 2023.【音声研究会学生ポスター賞(受賞者:山下 陽生)】
- 日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基,河井 恒, "x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価," 信学技報, Vol. 123, No. 88, SP2023-25, pp. 125-130, June 2023.
- D. Ma, L.P. Violeta, K. Kobayashi, T. Toda, "Sequence-to-sequence voice conversion for electrolaryngeal speech enhancement with multi-stage pretraining and fine-tuning techniques," 信学技報, Vol. 123, No. 212, SP2023-32, pp. 27-32, Oct. 2023.
- L.P. Violeta, W.-C. Huang, D. Ma, R. Yamamoto, K. Kobayashi, T. Toda, "Electrolaryngeal speech enhancement through strong linguistic encoding methods," 信学技報, Vol. 123, No. 212, SP2023-33, pp. 33-38, Oct. 2023.
- J. He, Z. Yang, T. Toda, "Enhancing recognition of rare words in ASR through error detection and context-aware error correction," 信学技報, Vol. 123, No. 292, SP2023-36, pp. 13-18, Dec. 2023.
大会講演
- 清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒, "F0予測・波形生成ネットワークの一貫学習によるメルスペクトログラム入力型F0制御可能ニューラルボコーダ," 音講論, 1-9-6, pp. 1041-1044, Sep. 2023.
- 山本 龍一, 米山 怜於, 戸田 智基, "NNSVS: ニューラルネットワークに基づく歌声合成のためのオープンソースソフトウェア," 音講論, 1-9-19, pp. 1057-1060, Sep. 2023.
- 日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基, 河井 恒, "複数話者テキスト音声合成における話者ベクトルの安定化に関する検討," 音講論, 3-9-4, pp. 1137-1140, Sep. 2023.
- 吉岡 大貴, 安田 裕介, 戸田 智基, "注意機構付きVAEを用いたテキスト発話スタイル変換における少量パラレルデータの活用," 音講論, 2-Q-31, pp. 1249-1250, Sep. 2023.
- 山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒, "End-to-End系列変換型声質変換への高速ニューラル波形生成モデル導入の検討," 音講論, 2-Q-47, pp. 1295-1298, Sep. 2023.
- 藤村 拓弥, 戸田 智基, "生成的異常音検知における識別的近傍平滑化," 音響学会, 音講論, 2-4-7, pp. 123-124, Mar. 2024.
- 清水 聡太, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒, "正弦波入力型ニューラルボコーダを用いたTTSモデルによる歌声合成," 音講論, 1-2-10, pp. 785-788, Mar. 2024.
- HUANG Wen-Chin, 小林 和弘, 戸田 智基, "AAS-VC:非自己回帰型系列音声変換における時間対応付け学習の頑健性," 音講論, 1-2-11, pp. 789-792, Mar. 2024.
- 山下 陽生, 岡本 拓磨, 高島 遼一, 大谷 大和, 滝口 哲也, 戸田 智基, 河井 恒, "Eden-VC:音素継続長とアライメントの協調学習を用いた系列長変換型声質変換モデル," 音講論, 1-2-12, pp. 793-796, Mar. 2024.
- 日田 光紀, 岡本 拓磨, 西村 竜一, 大谷 大和, 戸田 智基, 河井 恒, "広帯域英語コーパス帯域拡張モデルによるCSJコーパスを用いた日本語複数話者テキスト音声合成の高品質化," 音講論, 3-2-2, pp. 809-812, Mar. 2024.
- 大谷 大和, 岡本 拓磨, 戸田 智基, 河井 恒, "F0制御可能な有限インパルス応答に基づく高速ニューラルボコーダ," 音講論, 1-Q-27, pp. 899-902, Mar. 2024.
- 吉岡 大貴,安田 裕介,戸田 智基, "テキストスタイル変換を用いた話し言葉音声合成," 音講論, 1-Q-28, pp. 903-904, Mar. 2024.
- 尹 道鉉, 戸田 智基, "深層情報埋め込み・検出に基づくプロアクティブ型ディープフェイク音声検知," 音講論, 2-P-9, pp. 969-970, Mar. 2024.【第28回日本音響学会 学生優秀発表賞(受賞者:尹 道鉉)】
- 岡本 拓磨, 大谷 大和, 戸田 智基, 河井 恒, "ConvNeXt型超高速End-to-end音声合成・声質変換モデル," 音講論, 2-P-20, pp. 1005-1008, Mar. 2024.
- 丹羽 希碩, 小林 和弘, 戸田 智基, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査," 音講論, 2-P-21, pp. 1009-1010, Mar. 2024.
- 安田 裕介,戸田 智基, "クラウドソーシングを用いた大規模比較評価のための評価ペアの組み合わせと評価数のオンライン最適化," 音講論, 2-P-39, pp. 1057-1060, Mar. 2024.
- 岡森 一樹, 武田 一哉, 戸田 智基, "トランペット演奏を対象としたオンセット検出に基づくテンポ変化推定," 音講論, 1-5-3, pp. 1067-1068, Mar. 2024.
その他発表
- Y. Yasuda, T. Toda, "Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language," IEEE ICASSP, SPS journal paper presentation, Rhodes island, Greece, June 2023.
- W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda, "A comparative study of self-supervised speech representation based voice conversion," IEEE ICASSP, SPS journal paper presentation, Rhodes island, Greece, June 2023.
- T. Fujimura, I. Kuroyanagi, T. Hayashi, T. Toda, "Anomalous sound detection by end-to-end training of outlier exposure and normalizing flow with domain generalization techniques," Technical report, DCASE Task 2, July 2023.
- 丹羽 希碩, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査と発声支援への応用," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.
- 藤村 拓弥, "DNN音声強調におけるNoisy-target Trainingの改良と分析," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.【質疑応答賞(受賞者:藤村 拓弥)】
- 宮下 敦志, "リー群論に基づくワーピングの一般表現とその応用," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.【総合2位(受賞者:宮下 敦志)】
- 戸田 智基, "音メディアコミュニケーションにおける共創型機能拡張技術の創出," JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 中間報告シンポジウム-共生インタラクション研究が創る新しい未来社会デザイン-, 東京, Aug. 2023.
- 戸田 智基, 高道 慎之介, "パラ言語音声翻訳のための音声合成技術 ~ノンパラレル音声言語表情変換~ ~多様な音調とスタイルを持つ言語・非言語音声合成~," 多元自動通訳研究シンポジウム2023, 奈良, Aug. 2023.
- W.-C. Huang, "正解なしアクセント音声変換手法の評価," 日本音響学会東海支部50周年記念行事, ポスター 4, 愛知, Sep. 2023.
- 藤村 拓弥, "DNN音声強調におけるNoisy-target Trainingの分析," 日本音響学会東海支部50周年記念行事, ポスター 8, 愛知, Sep. 2023.
- 宮下 敦志, "リー群論に基づくワーピングの一般表現," 日本音響学会東海支部50周年記念行事, ポスター 10, 愛知, Sep. 2023.
- 橋爪 優果, "個別楽器音に基づいた楽曲間類似度のための分離表現学習," 日本音響学会東海支部50周年記念行事, ポスター 15, 愛知, Sep. 2023.
- 丹羽 希碩, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査と発声支援への応用," 日本音響学会東海支部50周年記念行事, ポスター 17, 愛知, Sep. 2023.
- L.P. Violeta, "Electrolaryngeal speech enhancement through strong linguistic encoding methods," 日本音響学会東海支部50周年記念行事, ポスター 19, 愛知, Sep. 2023.
- 金 世訓, "トークン表現を用いたギター自動採譜モデルと学習法," 日本音響学会東海支部50周年記念行事, デモ 26, 愛知, Sep. 2023.
- "名古屋大学&東京都立大学CREST共創型音メディア機能拡張PJ," CEATEC 2023, 展示, 千葉, Oct. 2023.
- E. Cooper, W.-C. Huang, "Feedback from the VoiceMOS Challenge 2023," VoiceMOS mini workshop, Tokyo, Nov. 2023.
- Y. Yasuda, "Dynamic optimization for large-scale preference-based subjective evaluation using crowdsourcing," VoiceMOS mini workshop, Tokyo, Nov. 2023.
- S. Kato, Y. Yasuda, E. Cooper, "End-to-end speech synthesis and its entertainment applications: rakugo modeling & musical instrument sound modeling," Joint Workshop VoicePersonae and ASVspoof, Tokyo, Nov. 2023.
- E. Cooper, W.-C. Huang, "From human ears to deep neural networks: automatic evaluation of synthetic speech and audio data," Joint Workshop VoicePersonae and ASVspoof, Tokyo, Nov. 2023.
博士論文
- Wen-Chin Huang, "Pre-training approaches for voice conversion to address data scarcity and their applications to ground-truth-free tasks," 情報学研究科知能システム学専攻博士論文, Feb. 2024.
修士論文
- 丹羽 希碩, "リアルタイム音声変換における聴覚フィードバックの影響," 情報学研究科知能システム学専攻修士論文, Feb. 2024.
- 藤村 拓弥, "雑音環境下音声を用いる音声強調学習の挙動分析と拡張," 情報学研究科知能システム学専攻修士論文, Feb. 2024.
- 宮下 敦志, "リー群論に基づくワーピングの一般表現," 情報学研究科知能システム学専攻修士論文, Feb. 2024.
卒業論文
- 今村 剛大, "個別楽器音に基づく楽曲間類似度表現学習における音源分離の活用法," 令和5年度情報学部コンピュータ科学科卒業論文, Feb. 2024.
- 荻田 健一, "SiFiGANに基づく深層波形モデリングにおける潜在表現学習," 令和5年度情報学部コンピュータ科学科卒業論文, Feb. 2024.