発表文献

2023年度に発表された文献の一覧

学術論文誌

K. Matsubara, T. Okamoto, R. Takashima, T. Takiguchi, T. Toda, H. Kawai, "Harmonic-Net: fundamental frequency and speech rate controllable fast neural vocoder," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 1902-1915, May 2023.
X. Li, X. Shi, D. Hu, Y. Li, Q. Zhang, Z. Wang, M. Unoki, M. Akagi, "Music theory-inspired acoustic representation for speech emotion recognition," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 2534-2547, June 2023.
R. Yoneyama, Y.-C. Wu, T. Toda, "High-fidelity and pitch-controllable neural vocoder based on unified source-filter networks," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 3717-3729, Sep. 2023.
C. Xie, T. Toda, "Noisy-to-noisy voice conversion under variations of noisy condition," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 31, pp. 3871-3882, Sep. 2023.
H. Yamashita, T. Okamoto, R. Takashima, Y. Ohtani, T. Takiguchi, T. Toda, H. Kawai, "Fast neural speech waveform generative models with fully-connected layer-based upsampling," IEEE Access, Vol. 12, pp. 31409-31421, Feb. 2024.
R. Wang, L. Li, T. Toda, "Dual-channel target speaker extraction based on conditional variational autoencoder and directional information," IEEE/ACM Transactions on Audio, Speech and Language Processing, Vol. 32, pp. 1968-1979, Mar. 2024.

国際会議

Y. Yasuda, T. Toda, "Text-to-speech synthesis based on latent variable conversion using diffusion probabilistic model and variational autoencoder," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
K. Kobayashi, T. Hayashi, T. Toda, "Low-latency electrolaryngeal speech enhancement based on FastSpeech2-based voice conversion and self-supervised speech representation," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
R. Yamamoto, R. Yoneyama, T. Toda, "NNSVS: a neural network based singing voice synthesis toolkit," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
R. Yoneyama, Y.-C. Wu, T. Toda, "Source-Filter HiFiGAN: fast and pitch controllable high-fidelity neural vocoder," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.【IEEE SPS Japan Student Conference Paper Award（受賞者：Reo Yoneyama）】
L.P. Violeta, D. Ma, W.-C. Huang, T. Toda, "Intermediate fine-tuning using imperfect synthetic speech for improving electrolaryngeal speech recognition," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
T. Fujimura, T. Toda, "Analysis of Noisy-target Training for DNN-based speech enhancement," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
A. Miyashita, T. Toda, "Representation of vocal tract length transformation based on group theory," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
W.C. Huang, B. Peloquin, J. Kao, C. Wang, H. Gong, E. Salesky, Y. Adi, A. Lee, P.-J. Chen, "A holistic cascade system, benchmark, and human evaluation protocol for expressive speech-to-speech translation," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
R. Yoneyama, R. Yamamoto, K. Tachibana, "Nonparallel high-quality audio super resolution with domain adaptation and resampling CycleGANs," Proc. IEEE ICASSP, 5 pages, Rhodes island, Greece, June 2023.
C.-H. Hu, Y. Yasuda, T. Toda, "Preference-based training framework for automatic speech quality assessment using deep neural network," Proc. INTERSPEECH, pp. 546-550, Dublin, Ireland, Aug. 2023.
X. Shi, X. Li, T. Toda, "Emotion awareness in multi-utterance turn for improving emotion prediction in multi-speaker conversation," Proc. INTERSPEECH, pp. 765-769, Dublin, Ireland, Aug. 2023.
T. Okamoto, H. Yamashita, T. Toda, H. Kawai, "E2E-S2S-VC: end-to-end sequence-to-sequence voice conversion," Proc. INTERSPEECH, pp. 2043-2047, Dublin, Ireland, Aug. 2023.
Y. Choi, C. Xie, T. Toda, "Reverberation-controllable voice conversion using reverberation time estimator," Proc. INTERSPEECH, pp. 2103-2107, Dublin, Ireland, Aug. 2023.
T. Fujimura, R. Scheibler, "Multi-channel separation of dynamic speech and sound events," Proc. INTERSPEECH, pp. 3749-3753, Dublin, Ireland, Aug. 2023.
Y. Yasuda, T. Toda, "Analysis of mean opinion scores in subjective evaluation of synthetic speech based on tail probabilities," Proc. INTERSPEECH, pp. 5491-5495, Dublin, Ireland, Aug. 2023.
S. Luan, Y. Wakabayashi, T. Toda, "Sound field interpolation with unsupervised calibration for freely spaced circular microphone array in rotation-robust beamforming," Proc. EUSIPCO, pp. 21-25, Helsinki, Finland, Sep. 2023.
A. Miyashita, T. Toda, "Differentiable representation of warping based on Lie group theory," Proc. IEEE WASPAA, 5 pages, New Paltz, USA, Oct. 2023.【IEEE WASPAA 2023 Best Student Paper Award（受賞者：Atsushi Miyashita）】
R. Wang, T. Toda, "Directional target speaker extraction under noisy underdetermined conditions through conditional variational autoencoder with global style tokens," Proc. IEEE WASPAA, 5 pages, New Paltz, USA, Oct. 2023.
J. Tian, D. Hu, X. Shi, J. He, X. Li, Y. Gao, T. Toda, X. Xu, X. Hu, "Semi-supervised multimodal emotion recognition with consensus decision-making and label correction," Proc. the 1st International Workshop on Multimodal and Responsible Affective Computing (MRAC), pp. 67-73, Ottawa, Canada, Oct. 2023.
W.-C. Huang, T. Toda, "Evaluating methods for ground-truth-free foreign accent conversion," Proc. APSIPA ASC, pp. 1136-1141, Taipei, Taiwan, Nov. 2023.
L.P. Violeta, T. Toda, "An analysis of personalized speech recognition system development for the deaf and hard-of-hearing," Proc. APSIPA ASC, pp. 1851-1856, Taipei, Taiwan, Nov. 2023.
S. Kim, K. Takeda, T. Toda, "Sequence-to-sequence network training methods for automatic guitar transcription with tokenized outputs," Proc. ISMIR, pp. 524-531, Milan, Italy, Nov. 2023.
W.-C. Huang, L.P. Violeta, S. Liu, J. Shi, T. Toda, "The Singing Voice Conversion Challenge 2023," Proc. IEEE ASRU, 8 pages, Taipei, Taiwan, Dec. 2023.【Selected as Top 3% Papers】
J. He, Z. Yang, T. Toda, "ED-CEC: improving rare word recognition using ASR post-processing based on error detection and context-aware error correction," Proc. IEEE ASRU, 6 pages, Taipei, Taiwan, Dec. 2023.【IEEE名古屋支部国際会議研究発表賞（受賞者：Jiajun He）】
B. Halpern, W.-C. Huang, L.P. Violeta, R. van Son, T. Toda, "Improving severity preservation of healthy-to-pathological voice conversion with global style tokens," Proc. IEEE ASRU, 7 pages, Taipei, Taiwan, Dec. 2023.
R. Yamamoto, R. Yoneyama, L.P. Violeta, W.-C. Huang, T. Toda, "A comparative study of voice conversion models with large-scale speech and singing data: the T13 systems for the Singing Voice Conversion Challenge 2023," Proc. IEEE ASRU, 6 pages, Taipei, Taiwan, Dec. 2023.
E. Cooper, W.-C. Huang, Y. Tsao, H.-M. Wang, T. Toda, J. Yamagishi, "The VoiceMOS Challenge 2023: zero-shot subjective speech quality prediction for multiple domains," Proc. IEEE ASRU, 7 pages, Taipei, Taiwan, Dec. 2023.【Selected as Top 3% Papers】
T. Okamoto, H. Yamashita, Y. Ohtani, T. Toda, H. Kawai, "WaveNeXt: ConvNeXt-based fast neural vocoder without iSTFT layer," Proc. IEEE ASRU, 8 pages, Taipei, Taiwan, Dec. 2023.

著書・解説

西尾直樹, 戸田智基, 小林和弘, 三谷壮平, 飴矢美里, 向山宣昭, 木村宏之, 徳倉達也, 坪井崇, 藤本保志, 曾根三千彦, "喉頭摘出者における音声収録アプリを用いた術前音声の保存 ―Save the Voice プロジェクト―," 喉頭, Vol. 35, No. 2, pp. 142-147, Dec. 2023．

招待講演

戸田智基, "音声情報処理の最先端から見える未来," 第64回日本神経学会学術大会シンポジウム「脳神経内科領域でのAIの未来：基礎研究から臨床応用まで」, June 2023.
小林和弘, "音声変換の実応用に向けて," 電気・電子・情報関係学会東海支部連合大会, 【OS7】音響工学への深層学習の応用, J5-1, Aug. 2023.
戸田智基, "音声生成に関する情報処理技術の研究事例," 第76回人工知能セミナー「音声AIを支える基盤技術の最前線」, 人工知能研究センター, Mar. 2024.

研究会

橋爪優果, 李莉, 宮下敦志, 戸田智基, "個別楽器音に基づいた楽曲間類似度のための分離表現学習," 情報処理研報, Vol. 2023-MUS-137, No. 9, pp. 1-7, June 2023.
金世訓, 武田一哉, 戸田智基, "トークン表現を用いたギター自動採譜における系列変換ネットワークの学習法," 情報処理研報, Vol. 2023-MUS-137, No. 43, pp. 1-7, June 2023.
清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基，河井恒, "MS-Harmonic-Net++ vs SiFi-GAN: 基本周波数制御可能な高速ニューラル波形生成モデルの比較," 信学技報, Vol. 123, No. 88, SP2023-5, pp. 20-25, June 2023.【音声研究会学生ポスター賞（受賞者：清水聡太）】
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基，河井恒, "全結合層型アップサンプリングを導入した高速ニューラル波形生成モデル," 信学技報, Vol. 123, No. 88, SP2023-15, pp. 73-78, June 2023.【音声研究会学生ポスター賞（受賞者：山下陽生）】
日田光紀, 岡本拓磨, 西村竜一, 大谷大和, 戸田智基，河井恒, "x-vectorと音声認識コーパスを用いた多様な発話スタイルに対応する複数話者テキスト音声合成の評価," 信学技報, Vol. 123, No. 88, SP2023-25, pp. 125-130, June 2023.
D. Ma, L.P. Violeta, K. Kobayashi, T. Toda, "Sequence-to-sequence voice conversion for electrolaryngeal speech enhancement with multi-stage pretraining and fine-tuning techniques," 信学技報, Vol. 123, No. 212, SP2023-32, pp. 27-32, Oct. 2023.
L.P. Violeta, W.-C. Huang, D. Ma, R. Yamamoto, K. Kobayashi, T. Toda, "Electrolaryngeal speech enhancement through strong linguistic encoding methods," 信学技報, Vol. 123, No. 212, SP2023-33, pp. 33-38, Oct. 2023.
J. He, Z. Yang, T. Toda, "Enhancing recognition of rare words in ASR through error detection and context-aware error correction," 信学技報, Vol. 123, No. 292, SP2023-36, pp. 13-18, Dec. 2023.

大会講演

清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒, "F0予測・波形生成ネットワークの一貫学習によるメルスペクトログラム入力型F0制御可能ニューラルボコーダ," 音講論, 1-9-6, pp. 1041-1044, Sep. 2023.
山本龍一, 米山怜於, 戸田智基, "NNSVS: ニューラルネットワークに基づく歌声合成のためのオープンソースソフトウェア," 音講論, 1-9-19, pp. 1057-1060, Sep. 2023.
日田光紀, 岡本拓磨, 西村竜一, 大谷大和, 戸田智基, 河井恒, "複数話者テキスト音声合成における話者ベクトルの安定化に関する検討," 音講論, 3-9-4, pp. 1137-1140, Sep. 2023.
吉岡大貴, 安田裕介, 戸田智基, "注意機構付きVAEを用いたテキスト発話スタイル変換における少量パラレルデータの活用," 音講論, 2-Q-31, pp. 1249-1250, Sep. 2023.
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒, "End-to-End系列変換型声質変換への高速ニューラル波形生成モデル導入の検討," 音講論, 2-Q-47, pp. 1295-1298, Sep. 2023.
藤村拓弥, 戸田智基, "生成的異常音検知における識別的近傍平滑化," 音響学会, 音講論, 2-4-7, pp. 123-124, Mar. 2024.
清水聡太, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒, "正弦波入力型ニューラルボコーダを用いたTTSモデルによる歌声合成," 音講論, 1-2-10, pp. 785-788, Mar. 2024.
HUANG Wen-Chin, 小林和弘, 戸田智基, "AAS-VC：非自己回帰型系列音声変換における時間対応付け学習の頑健性," 音講論, 1-2-11, pp. 789-792, Mar. 2024.
山下陽生, 岡本拓磨, 高島遼一, 大谷大和, 滝口哲也, 戸田智基, 河井恒, "Eden-VC：音素継続長とアライメントの協調学習を用いた系列長変換型声質変換モデル," 音講論, 1-2-12, pp. 793-796, Mar. 2024.
日田光紀, 岡本拓磨, 西村竜一, 大谷大和, 戸田智基, 河井恒, "広帯域英語コーパス帯域拡張モデルによるCSJコーパスを用いた日本語複数話者テキスト音声合成の高品質化," 音講論, 3-2-2, pp. 809-812, Mar. 2024.
大谷大和, 岡本拓磨, 戸田智基, 河井恒, "F0制御可能な有限インパルス応答に基づく高速ニューラルボコーダ," 音講論, 1-Q-27, pp. 899-902, Mar. 2024.
吉岡大貴，安田裕介，戸田智基, "テキストスタイル変換を用いた話し言葉音声合成," 音講論, 1-Q-28, pp. 903-904, Mar. 2024.
尹道鉉, 戸田智基, "深層情報埋め込み・検出に基づくプロアクティブ型ディープフェイク音声検知," 音講論, 2-P-9, pp. 969-970, Mar. 2024.【第28回日本音響学会学生優秀発表賞（受賞者：尹道鉉）】
岡本拓磨, 大谷大和, 戸田智基, 河井恒, "ConvNeXt型超高速End-to-end音声合成・声質変換モデル," 音講論, 2-P-20, pp. 1005-1008, Mar. 2024.
丹羽希碩, 小林和弘, 戸田智基, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査," 音講論, 2-P-21, pp. 1009-1010, Mar. 2024.
安田裕介，戸田智基, "クラウドソーシングを用いた大規模比較評価のための評価ペアの組み合わせと評価数のオンライン最適化," 音講論, 2-P-39, pp. 1057-1060, Mar. 2024.
岡森一樹, 武田一哉, 戸田智基, "トランペット演奏を対象としたオンセット検出に基づくテンポ変化推定," 音講論, 1-5-3, pp. 1067-1068, Mar. 2024.

その他発表

Y. Yasuda, T. Toda, "Investigation of Japanese PnG BERT Language Model in Text-to-Speech Synthesis for Pitch Accent Language," IEEE ICASSP, SPS journal paper presentation, Rhodes island, Greece, June 2023.
W.-C. Huang, S.-W. Yang, T. Hayashi, T. Toda, "A comparative study of self-supervised speech representation based voice conversion," IEEE ICASSP, SPS journal paper presentation, Rhodes island, Greece, June 2023.
T. Fujimura, I. Kuroyanagi, T. Hayashi, T. Toda, "Anomalous sound detection by end-to-end training of outlier exposure and normalizing flow with domain generalization techniques," Technical report, DCASE Task 2, July 2023.
丹羽希碩, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査と発声支援への応用," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.
藤村拓弥, "DNN音声強調におけるNoisy-target Trainingの改良と分析," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.【質疑応答賞（受賞者：藤村拓弥）】
宮下敦志, "リー群論に基づくワーピングの一般表現とその応用," 第27回東海地区音声関連研究室修士論文中間発表会, 静岡, Aug. 2023.【総合2位（受賞者：宮下敦志）】
戸田智基, "音メディアコミュニケーションにおける共創型機能拡張技術の創出," JST CREST「人間と情報環境の共生インタラクション基盤技術の創出と展開」領域, 中間報告シンポジウム－共生インタラクション研究が創る新しい未来社会デザイン－, 東京, Aug. 2023.
戸田智基, 高道慎之介, "パラ言語音声翻訳のための音声合成技術～ノンパラレル音声言語表情変換～～多様な音調とスタイルを持つ言語・非言語音声合成～," 多元自動通訳研究シンポジウム2023, 奈良, Aug. 2023.
W.-C. Huang, "正解なしアクセント音声変換手法の評価," 日本音響学会東海支部50周年記念行事, ポスター 4, 愛知, Sep. 2023.
藤村拓弥, "DNN音声強調におけるNoisy-target Trainingの分析," 日本音響学会東海支部50周年記念行事, ポスター 8, 愛知, Sep. 2023.
宮下敦志, "リー群論に基づくワーピングの一般表現," 日本音響学会東海支部50周年記念行事, ポスター 10, 愛知, Sep. 2023.
橋爪優果, "個別楽器音に基づいた楽曲間類似度のための分離表現学習," 日本音響学会東海支部50周年記念行事, ポスター 15, 愛知, Sep. 2023.
丹羽希碩, "リアルタイム音声変換における聴覚フィードバックの影響に関する調査と発声支援への応用," 日本音響学会東海支部50周年記念行事, ポスター 17, 愛知, Sep. 2023.
L.P. Violeta, "Electrolaryngeal speech enhancement through strong linguistic encoding methods," 日本音響学会東海支部50周年記念行事, ポスター 19, 愛知, Sep. 2023.
金世訓, "トークン表現を用いたギター自動採譜モデルと学習法," 日本音響学会東海支部50周年記念行事, デモ 26, 愛知, Sep. 2023.
"名古屋大学＆東京都立大学CREST共創型音メディア機能拡張PJ," CEATEC 2023, 展示, 千葉, Oct. 2023.
E. Cooper, W.-C. Huang, "Feedback from the VoiceMOS Challenge 2023," VoiceMOS mini workshop, Tokyo, Nov. 2023.
Y. Yasuda, "Dynamic optimization for large-scale preference-based subjective evaluation using crowdsourcing," VoiceMOS mini workshop, Tokyo, Nov. 2023.
S. Kato, Y. Yasuda, E. Cooper, "End-to-end speech synthesis and its entertainment applications: rakugo modeling & musical instrument sound modeling," Joint Workshop VoicePersonae and ASVspoof, Tokyo, Nov. 2023.
E. Cooper, W.-C. Huang, "From human ears to deep neural networks: automatic evaluation of synthetic speech and audio data," Joint Workshop VoicePersonae and ASVspoof, Tokyo, Nov. 2023.

博士論文

Wen-Chin Huang, "Pre-training approaches for voice conversion to address data scarcity and their applications to ground-truth-free tasks," 情報学研究科知能システム学専攻博士論文, Feb. 2024.

修士論文

丹羽希碩, "リアルタイム音声変換における聴覚フィードバックの影響," 情報学研究科知能システム学専攻修士論文, Feb. 2024.
藤村拓弥, "雑音環境下音声を用いる音声強調学習の挙動分析と拡張," 情報学研究科知能システム学専攻修士論文, Feb. 2024.
宮下敦志, "リー群論に基づくワーピングの一般表現," 情報学研究科知能システム学専攻修士論文, Feb. 2024.

卒業論文

今村剛大, "個別楽器音に基づく楽曲間類似度表現学習における音源分離の活用法," 令和5年度情報学部コンピュータ科学科卒業論文, Feb. 2024.
荻田健一, "SiFiGANに基づく深層波形モデリングにおける潜在表現学習," 令和5年度情報学部コンピュータ科学科卒業論文, Feb. 2024.

名古屋大学大学院情報学研究科戸田研究室

音メディア情報処理で新たな未来を切り拓く

発表文献

2023年度に発表された文献の一覧

学術論文誌

国際会議

著書・解説

招待講演

研究会

大会講演

その他発表

博士論文

修士論文

卒業論文

他の年度はこちら