発表文献

2022年度に発表された文献の一覧

学術論文誌

  1. T. Fujimura, R. Miyazaki, "Removal of musical noise using deep speech prior," Applied Acoustics, Vol. 194, No. 15, Article 108772, pp. 1-12, June 2022.
  2. Y.-C. Wu, P.L. Tobing, K. Yasuhara, N. Matsunaga, Y. Ohtani, T. Toda, "A cyclical approach to synthetic and natural speech mismatch refinement of neural post-filter for low-cost text-to-speech system," APSIPA Transactions on Signal and Information Processing, Vol. 11, No. 1, e30, pp. 1-32, Sep. 2022.
  3. W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda, "A comparative study of self-supervised speech representation based voice conversion," IEEE Journal of Selected Topics in Signal Processing, Vol. 16, No. 6, pp. 1308-1318, Oct. 2022.
  4. Y. Yasuda, T. Toda, "Investigation of Japanese Png BERT language model in text-to-speech synthesis for pitch accent language," IEEE Journal of Selected Topics in Signal Processing, Vol. 16, No. 6, pp. 1319-1328, Oct. 2022.
  5. L. Li, H. Kameoka, S. Makino, "FastMVAE2: On improving and accelerating the fast variational autoencoder-based source separation algorithm for determined mixtures," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 96-110, Oct. 2022.
 

国際会議

  1. S. Seki, H. Kameoka, L. Li, "Investigation and comparison of optimization methods for variational autoencoder-based underdetermined multichannel source separation," Proc. IEEE ICASSP, pp. 511-515, Singapore, May 2022.
  2. L. Li, H. Kameoka, S. Seki, "HBP: An efficient block permutation solver using Hungarian algorithm and spectrogram inpainting for multichannel audio source separation," Proc. IEEE ICASSP, pp. 516-520, Singapore, May 2022.
  3. W.-C. Huang, E. Cooper, J. Yamagishi, T. Toda, "LDNet: unified listener dependent modeling in MOS prediction for synthetic speech," Proc. IEEE ICASSP, pp. 896-900, Singapore, May 2022.
  4. W.-C. Huang, S.-W. Yang, T. Hayashi, H.-Y. Lee, S. Watanabe, T. Toda, "S3PRL-VC: open-source voice conversion framework with self-supervised speech representations," Proc. IEEE ICASSP, pp. 6552-6556, Singapore, May 2022.
  5. W.-C. Huang, B.M Halpern, L.P. Violeta, O. Scharenborg, T. Toda, "Towards identity preserving normal to dysarthric voice conversion," Proc. IEEE ICASSP, pp. 6672-6676, Singapore, May 2022.
  6. C. Xie, Y-.C. Wu, P.L. Tobing, W-.C. Huang, T. Toda, "Direct noisy speech modeling for noisy-to-noisy voice conversion," Proc. IEEE ICASSP, pp. 6787-6791, Singapore, May 2022.
  7. T. Hayashi, K. Kobayashi, T. Toda, "An investigation of streaming non-autoregressive sequence-to-sequence voice conversion," Proc. IEEE ICASSP, pp. 6802-6806, Singapore, May 2022.
  8. E. Cooper, W.-C. Huang, T. Toda, J. Yamagishi, "Generalization ability of MOS prediction networks," Proc. IEEE ICASSP, pp. 8442-8446, Singapore, May 2022.
  9. H.-S. Tsai, H.-J. Chang, W.-C. Huang, Z. Huang, K. Lakhotia, S.-W. Yang, S. Dong, A. Liu, C.-I Lai, J. Shi, X. Chang, P. Hall, H.-J. Chen, S.-W. Li, S. Watanabe, A. Mohamed, H.-Y. Lee, "SUPERB-SG: enhanced speech processing universal performance benchmark for semantic and generative capabilities," Proc. ACL, pp. 8479–8492, Dublin, Ireland. May 2022.
  10. S. Kim, T. Hayashi, T. Toda, "Note-level automatic guitar transcription using attention mechanism," Proc. EUSIPCO, pp. 229-233, Belgrade, Serbia, Aug. 2022.
  11. I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda, "Improvement of serial approach to anomalous sound detection by incorporating two binary cross-entropies for outlier exposure," Proc. EUSIPCO, pp. 294-298, Belgrade, Serbia, Aug. 2022.
  12. S. Luan, Y. Wakabayashi, T. Toda, "Modified sound field interpolation method for rotation-robust beamforming with unequally spaced circular microphone array," Proc. EUSIPCO, pp. 344-348, Belgrade, Serbia, Aug. 2022.
  13. L.P. Violeta, W.-C. Huang, T. Toda, "Investigating self-supervised pretraining frameworks for pathological speech recognition," Proc. INTERSPEECH, pp. 41-45, Incheon, Korea, Sep. 2022.
  14. R. Yoneyama, Y.-C. Wu, T. Toda, "Unified source-filter GAN with harmonic-plus-noise source excitation generation," Proc. INTERSPEECH, pp. 848-852, Incheon, Korea, Sep. 2022.
  15. W.-C. Huang, D. Markovic, I.D. Gebru, A. Menon, A. Richard, "End-to-end binaural speech synthesis," Proc. INTERSPEECH, pp. 1218-1222, Incheon, Korea, Sep. 2022.
  16. W.-C. Huang, E. Cooper, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2022," Proc. INTERSPEECH, pp. 4536-4540, Incheon, Korea, Sep. 2022.
  17. D. Yoshioka, Y. Yaduda, N. Matsunaga, Y. Ohtani, T. Toda, "Spoken-text-style transfer with conditional variational autoencoder and content word storage," Proc. INTERSPEECH, pp. 4576-4580, Incheon, Korea, Sep. 2022.
  18. Y. Choi, C. Xie, T. Toda, "An evaluation of three-stage voice conversion framework for noisy and reverberant conditions," Proc. INTERSPEECH, pp. 4910-4914, Incheon, Korea, Sep. 2022.
  19. I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda, "Improvement of anomalous sound detection method considering the distribution of embedding," Proc. ICA, ABS-0189, 5 pages, Gyeongju, Korea, Oct. 2022 (Invited in structured session "A13-02: Anomalous sound detection and classification for condition monitoring").
  20. C. Xie, T. Toda, "Noisy-to-noisy voice conversion with pre-training strategy," Proc. ICA, ABS-0801, 5 pages, Gyeongju, Korea, Oct. 2022 (Invited in structured session "A15-06: Voice conversion").
  21. Y. Hashizume, L. Li, T. Toda, "Music similarity calculation of individual instrumental sounds using metric learning," Proc. APSIPA ASC, pp. 33-38, Chiang Mai, Thailand, Nov. 2022.
  22. J. Feng, T. Yoshikawa, T. Toda, "Interpretable control for emotional text-to-speech system toward development of sympathetic educational-support robots," Proc. APSIPA ASC, pp. 342-346, Chiang Mai, Thailand, Nov. 2022.
  23. R. Wang, L. Li, T. Toda, "Direction-aware target speaker extraction with a dual-channel system based on conditional variational autoencoders under underdetermined conditions," Proc. APSIPA ASC, pp. 347-353, Chiang Mai, Thailand, Nov. 2022.
  24. S. Chen, T. Toda, "Sequence-wise optimization for quasi-harmonic speech waveform modeling," Proc. APSIPA ASC, pp. 1658-1663, Chiang Mai, Thailand, Nov. 2022.
  25. D. Ma, L.P. Violeta, K. Kobayashi, T. Toda, "Two-stage training method for Japanese electrolaryngeal speech enhancement based on sequence-to-sequence voice conversion," IEEE SLT, pp. 949-954, Doha, Qatar, Jan. 2023.
 

著書・解説

  1. 戸田 智基, "機械学習と音声生成:統計的手法に基づく音声信号モデリング," 計測自動制御学会(編)機械学習の可能性, コロナ社, Dec. 2022.
 

講習会

  1. 戸田 智基, "異常音検知に対する深層学習適用事例," 第144回ロボット工学セミナー「ロボットのための音声・音響処理技術」, 日本ロボット学会, オンライン, Nov. 2022.
 

招待講演

  1. 李 莉, "信号の独立性に基づく多チャンネル音源分離," 電気・電子・情報関係学会 東海支部連合大会, 【OS2】音響学の次世代を担う若手研究者による異分野融合セッション, J6-1, Aug. 2022.
  2. 戸田 智基, "深層生成モデルに基づく音声合成技術," 第21回情報科学技術フォーラム(FIT2022), イベント企画「深層生成モデル」, Sep. 2022.
 

研究会

  1. 畔栁 伊吹, 林 知樹, 武田 一哉, 戸田 智基, "二種の二値分類タスクに基づく外れ値検出を用いた直列型異常音検知法," 信学技報, Vol. 122, No. 20, EA2022-08, pp. 35-40, May 2022.
  2. 大中 緋慧, 藤村 拓弥, 宮崎 亮一, "Double-DIPに基づく単一雑音混入音声のみを用いた雑音除去の検討," 信学技報, Vol. 122, No. 20, EA2022-12, pp. 54-61, May 2022.
  3. 宮下 敦志, 戸田 智基, "群論を用いた声道長変換の表現と解析的正規化処理," 信学技報, Vol. 122, No. 81, SP2022-11, pp. 41-46, June 2022.【音声研究会学生ポスター賞(受賞者:宮下 敦志)】
  4. 橋爪 優果, 李 莉, 戸田 智基, "各楽器音に着目した楽曲間類似度学習," 情報処理研報, Vol. 2022-MUS-134, No. 46, pp. 1-6, June 2022.
  5. 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "内容語保存機構を備えた変分自己符号化器に基づくテキスト発話スタイル変換," 情報処理研報, Vol. 2022-SLP-144, No. 8, pp. 1-6, Nov. 2022.【音声言語情報処理研究会企業賞 Yahoo! JAPAN賞(受賞者:吉岡 大貴)】
  6. 清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "基本周波数制御可能な高速ニューラル波形生成モデルの比較," 信学技報, Vol. 122, No. 389, SP2022-39, pp. 1-6, Feb. 2023.
  7. 山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "MS-FC-HiFi-GAN:学習可能な軽量アップサンプリングを用いた高速ニューラル波形生成モデル," 信学技報, Vol. 122, No. 389, SP2022-40, pp. 7-12, Feb. 2023.
  8. 宮下 敦志, 戸田 智基, "リー群論に基づく一般化ワーピング," 信学技報, Vol. 122, No. 389, SP2022-55, pp. 89-94, Feb. 2023.
  9. 藤村 拓弥, 戸田 智基, "DNN音声強調におけるNoisy-target Trainingの分析と実応用に向けた調査," 信学技報, Vol. 122, No. 387, EA2022-112, pp. 221-226, Mar. 2023.
 

大会講演

  1. 近藤祐斗, 李 莉, 関 翔悟, 亀岡 弘和, "FastMVAE法におけるブロックパーミュテーションを軽減する音源モデル学習," 音講論, 2-2-2, pp. 179-182, Sep. 2022.
  2. R. Wang, L. Li, T. Toda, "Direction-aware target speaker extraction with conditional variational autoencoders and its sensitivity to direction-of-arrival error," 音講論, 2-2-6, pp. 195-196, Sep. 2022.【第25回日本音響学会 学生優秀発表賞(受賞者:Rui Wang)】
  3. 藤村 拓弥, 戸田 智基, "DNN音声強調におけるNoisy-target Trainingの挙動分析" 音講論, 2-2-7, pp. 197-198, Sep. 2022.
  4. 李 莉, 関 翔悟, 亀岡 弘和, "再帰ニューラルネットワーク型音源モデルに基づ く高速多チャンネル変分自己符号化器法," 音講論, 1-Q-24, pp. 333-334, Sep. 2022.
  5. 山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "FC-HiFi-GAN:全結合層型アップサンプリングを導入した高速HiFi-GAN," 音講論, 1-8-5, pp. 1121-1124, Sep. 2022.【第25回日本音響学会 学生優秀発表賞(受賞者:山下 陽生)】
  6. S. Chen, T. Toda, "Sequence-wise parameter extraction of quasi-harmonic model for speech waveform generation," 音講論, 1-8-7, pp. 1129-1130, Sep. 2022.
  7. 松原 圭亮, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "Harmonic-Net+:高調波入力とLayerwise-Quasi-Periodic畳み込みを用いた基本周波数制御可能な高速ニューラルボコーダ," 音講論, 1-8-9, pp. 1133-1136, Sep. 2022.
  8. 清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "基本周波数制御可能なメルスペクトログラム入力型HiFi-GANの初期検討," 音講論, 1-8-10, pp. 1137-1140, Sep. 2022.
  9. Y. Choi, C. Xie, T. Toda, "Three-stage voice conversion framework for noisy and reverberant speech," 音講論, 2-8-7, pp. 1159-1160, Sep. 2022.
  10. D. Ma, L.P. Violeta, K. Kobayashi, T. Toda, "Sequence-to-sequence voice conversion training using synthetic parallel data for electrolaryngeal speech enhancement," 音講論, 2-8-8, pp. 1161-1162, Sep. 2022.
  11. 日田 光紀, 岡本 拓磨, 西村 竜一, 戸田 智基, 河井 恒, "音声認識コーパスを用いた高品質複数話者テキスト音声合成に向けたニューラルボコーダによる帯域拡張," 音講論, 3-8-2, pp. 1185-1188, Sep. 2022.
  12. J. Feng, T. Yoshikawa, T. Toda, "Interpretable emotional control for text-to-speech system toward development of sympathetic educational-support robots," 音講論, 3-8-3, pp. 1189-1190, Sep. 2022.
  13. L.P. Violeta, W.-C. Huang, T. Toda, "A comparison of pretraining frameworks for improving pathological speech recognition," 音講論, 2-Q-25, pp. 1227-1228, Sep. 2022.
  14. 安田 裕介, 戸田 智基, "拡散確率モデルとアライメントモデルを用いた潜在特徴系列変換に基づくテキスト音声合成," 音講論, 2-Q-37, pp. 1269-1272, Sep. 2022.
  15. 松原 圭亮, 高島 遼一, 岡本 拓磨, 滝口 哲也, 戸田 智基, 河井 恒, "構音障害者のための高明瞭度音声合成におけるHiFi-GANを用いた品質改善," 音講論, 2-Q-39, pp. 1277-1280, Sep. 2022.
  16. 宮下 敦志, 戸田 智基, "群論を用いた解析的声道長正規化処理と音声認識への応用" 音講論, 3-Q-12, pp. 1339-1340, Sep. 2022.
  17. C. Xie, T. Toda, "Robustness of noisy-to-noisy voice conversion against variations of noisy condition," 音講論, 3-Q-40, pp. 1417-1418, Sep. 2022.
  18. 橋爪 優果, 李 莉, 戸田 智基, "各楽器音源に着目した楽曲間類似度学習の評価," 音講論, 3-1-5, pp. 1517-1518, Sep. 2022.
  19. S. Kim, T. Hayashi, T. Toda, "Note-level automatic guitar transcription using attention mechanism and multi-task learning," 音講論, 3-1-7, pp. 1521-1522, Sep. 2022.
  20. 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "注意機構付きVAEを用いたテキスト発話スタイル変換の改良," 音講論, 1-8-16, pp. 1583-1584, Sep. 2022.
  21. 澤田 桂都, 山本 実央, 木迫 璃玖, 大平 茂輝, 後藤 明史, 戸田 智基, "名古屋大学における学生の利便性向上を目指したLMS連携システムの開発," 大学ICT推進協議会 2022年度年次大会, pp. 427-432, Dec. 2022.
  22. 藤村 拓弥, 戸田 智基, "大規模雑音混入音声データを利用したDNN音声強調学習の効果," 音講論, 1-1P-2, pp. 209-210, Mar. 2023.
  23. 日田 光紀, 岡本 拓磨, 西村 竜一, 戸田 智基, 河井 恒, "音声認識用コーパスを用いた複数話者テキスト音声合成における高品質化の検討," 音講論, 1-3-9, pp. 685-688, Mar. 2023.
  24. 岡本 拓磨, 戸田 智基, 河井 恒, "E2E-S2S-VC:End-to-end系列変換型声質変換," 音響学会, 音講論, 1-3-12, pp. 695-698, Mar. 2023.
  25. 山下 陽生, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "End-to-End系列変換型声質変換の高速化およびノンネイティブ話者変換の検討," 音講論, 1-3-13, pp. 699-702, Mar. 2023.
  26. 清水 聡太, 岡本 拓磨, 高島 遼一, 滝口 哲也, 戸田 智基, 河井 恒, "Harmonic-Net++: 基本周波数制御可能なメルスペクトログラム入力型高速ニューラルボコーダ," 音講論, 2-3-4, pp. 717-720, Mar. 2023.
  27. 米山 怜於, Y.-C. Wu, 戸田 智基, "SiFi-GAN:音源フィルタ構造に基づくHiFi-GAN," 音講論, 2-3-5, pp. 721-722, Mar. 2023.
  28. 安田 裕介, 戸田 智基, "合成音声の主観評価結果の統計的解析," 音講論, 1-3Q-11, pp. 841-844, Mar. 2023.
  29. 吉岡 大貴, 安田 裕介, 松永 悟行, 大谷 大和, 戸田 智基, "サイクル学習を用いた注意機構付きVAEによるテキスト発話スタイル変換," 音講論, 2-3Q-12, pp. 911-912, Mar. 2023.

 

その他発表

  1. I. Kuroyanagi, T. Hayashi, K. Takeda, T. Toda, "Two-stage anomalous sound detection systems using domain generalization and specialization techniques," Technical report, DCASE Task 2, July 2022.【DCASE 2022 Challenge Task 2 Judges' Award】
  2. 橋爪 優果, "各楽器音に着目した楽曲間類似度学習," 第26回東海地区音声関連研究室修士論文中間発表会, オンライン, Oct. 2022.【総合2位(受賞者:橋爪 優果)】
  3. 米山 怜於, "統合型音源フィルタネットワークに基づくニューラルボコーダ," 第26回東海地区音声関連研究室修士論文中間発表会, オンライン, Oct. 2022.【質疑応答賞(受賞者:米山 怜於)】
  4. L.P. Violeta, "電気式人工喉頭音声認識向上のための事前学習法," 第26回東海地区音声関連研究室修士論文中間発表会, オンライン, Oct. 2022.
 

修士論文

  1. 橋爪 優果, "各楽器音に着目した楽曲間類似度学習," 情報学研究科知能システム学専攻修士論文, Feb. 2023.
  2. 米山 怜於, "音声生成機構を加味した深層音声波形生成," 情報学研究科知能システム学専攻修士論文, Feb. 2023.
  3. L.P. Violeta, "Pretraining and adaptation techniques for pathological speech recognition," 情報学研究科知能システム学専攻修士論文, Feb. 2023.
 

卒業論文

  1. 佐藤 友紀,"深層学習に基づく重唱分離に関する研究," 令和4年度情報学部コンピュータ科学科卒業論文, Feb. 2023.
  2. 澤田 桂都,"楽曲間類似度を考慮した自動作曲," 令和4年度情報学部コンピュータ科学科卒業論文, Feb. 2023.
 


他の年度はこちら