INTERSPEECH - RankMe

1066 papers

Year	Title / Authors
2024	"So . . . my child . . . " - How Child ADHD Influences the Way Parents Talk. Anika A. Spiesberger, Andreas Triantafyllopoulos, Alexander Kathan, Anastasia Semertzidou, Caterina Gawrilow, Tilman Reinelt, Wolfgang A. Rauch, Björn W. Schuller
2024	1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis. Sewade Ogun, Abraham Toluwase Owodunni, Tobi Olatunji, Eniola Alese, Babatunde Oladimeji, Tejumade Afonja, Kayode Olaleye, Naome A. Etori, Tosin P. Adewumi
2024	2.5D Vocal Tract Modeling: Bridging Low-Dimensional Efficiency with 3D Accuracy. Debasish Ray Mohapatra, Victor Zappi, Sidney Fels
2024	25th Annual Conference of the International Speech Communication Association, Interspeech 2024, Kos, Greece, September 1-5, 2024. Itshak Lapidot, Sharon Gannot
2024	2DP-2MRC: 2-Dimensional Pointer-based Machine Reading Comprehension Method for Multimodal Moment Retrieval. Jiajun He, Tomoki Toda
2024	A ChatGPT-based oral Q&A practice system for first-time student participants in international conferences. Mayuko Aiba, Daisuke Saito, Nobuaki Minematsu
2024	A Cluster-based Personalized Federated Learning Strategy for End-to-End ASR of Dementia Patients. Wei-Tung Hsu, Chin-Po Chen, Yun-Shao Lin, Chi-Chun Lee
2024	A Comparative Analysis of Bilingual and Trilingual Wav2Vec Models for Automatic Speech Recognition in Multilingual Oral History Archives. Jan Lehecka, Josef V. Psutka, Lubos Smídl, Pavel Ircing, Josef Psutka
2024	A Comparative Analysis of Federated Learning for Speech-Based Cognitive Decline Detection. Stefan Kalabakov, Monica González Machorro, Florian Eyben, Björn W. Schuller, Bert Arnrich
2024	A Comprehensive Investigation on Speaker Augmentation for Speaker Recognition. Zhenyu Zhou, Shibiao Xu, Shi Yin, Lantian Li, Dong Wang
2024	A Contrastive Learning Approach to Mitigate Bias in Speech Models. Alkis Koudounas, Flavio Giobergia, Eliana Pastor, Elena Baralis
2024	A Cross-Attention Layer coupled with Multimodal Fusion Methods for Recognizing Depression from Spontaneous Speech. Loukas Ilias, Dimitris Askounis
2024	A Dataset and Two-pass System for Reading Miscue Detection. Raj Gothi, Rahul Kumar, Mildred Pereira, Nagesh Nayak, Preeti Rao
2024	A Framework for Phoneme-Level Pronunciation Assessment Using CTC. Xinwei Cao, Zijian Fan, Torbjørn Svendsen, Giampiero Salvi
2024	A Functional Trade-off between Prosodic and Semantic Cues in Conveying Sarcasm. Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler
2024	A Human-in-the-Loop Approach to Improving Cross-Text Prosody Transfer. Himanshu Maurya, Atli Sigurgeirsson
2024	A Joint Noise Disentanglement and Adversarial Training Framework for Robust Speaker Verification. Xujiang Xing, Mingxing Xu, Thomas Fang Zheng
2024	A Language Modeling Approach to Diacritic-Free Hebrew TTS. Amit Roth, Arnon Turetzky, Yossi Adi
2024	A Layer-Anchoring Strategy for Enhancing Cross-Lingual Speech Emotion Recognition. Shreya G. Upadhyay, Carlos Busso, Chi-Chun Lee
2024	A Low-Bitrate Neural Audio Codec Framework with Bandwidth Reduction and Recovery for High-Sampling-Rate Waveforms. Yang Ai, Ye-Xin Lu, Xiao-Hang Jiang, Zheng-Yan Sheng, Rui-Chen Zheng, Zhen-Hua Ling
2024	A Multimodal Framework for the Assessment of the Schizophrenia Spectrum. Gowtham Premananth, Yashish M. Siriwardena, Philip Resnik, Sonia Bansal, Deanna L. Kelly, Carol Y. Espy-Wilson
2024	A Multitask Training Approach to Enhance Whisper with Open-Vocabulary Keyword Spotting. Yuang Li, Min Zhang, Chang Su, Yinglu Li, Xiaosong Qiao, Mengxin Ren, Miaomiao Ma, Daimeng Wei, Shimin Tao, Hao Yang
2024	A New Approach to Voice Authenticity. Nicolas M. Müller, Piotr Kawa, Shen Hu, Matthias Neu, Jennifer Williams, Philip Sperl, Konstantin Böttinger
2024	A Parameter-efficient Language Extension Framework for Multilingual ASR. Wei Liu, Jingyong Hou, Dong Yang, Muyong Cao, Tan Lee
2024	A Pilot Study of GSLM-based Simulation of Foreign Accentuation Only Using Native Speech Corpora. Kentaro Onda, Joonyong Park, Nobuaki Minematsu, Daisuke Saito
2024	A Small and Fast BERT for Chinese Medical Punctuation Restoration. Tongtao Ling, Yutao Lai, Lei Chen, Shilei Huang, Yi Liu
2024	A Study on the Information Mechanism of the 3rd Tone Sandhi Rule in Mandarin Disyllabic Words. Xiaowang Liu, Jinsong Zhang
2024	A Transcription Prompt-based Efficient Audio Large Language Model for Robust Speech Recognition. Yangze Li, Xiong Wang, Songjun Cao, Yike Zhang, Long Ma, Lei Xie
2024	A Transformer-Based Voice Activity Detector. Biswajit Karan, Joshua Jansen van Vüren, Febe de Wet, Thomas Niesler
2024	A Unified Approach to Multilingual Automatic Speech Recognition with Improved Language Identification for Indic Languages. Nikhil Jakhar, Sudhanshu Srivastava, Arun Baby
2024	A comparative analysis of sequential models that integrate syllable dependency for automatic syllable stress detection. Jhansi Mallela, Sai Harshitha Aluru, Chiranjeevi Yarra
2024	A comparative study of the impact of voiceless alveolar and palato-alveolar sibilants in English on lip aperture and protrusion during VCV production. Chetan Sharma, Vaishnavi Chandwanshi, Prasanta Kumar Ghosh
2024	A comparison of voice similarity through acoustics, human perception and deep neural network (DNN) speaker verification systems. Suyuan Liu, Molly Babel, Jian Zhu
2024	A data-driven model of acoustic speech intelligibility for optimization-based models of speech production. Benjamin Elie, Juraj Simko, Alice Turk
2024	A demonstrator for articulation-based command word recognition. João Vítor Possamai de Menezes, Arne-Lukas Fietkau, Tom Diener, Steffen Kürbis, Peter Birkholz
2024	A dual task learning approach to fine-tune a multilingual semantic speech encoder for Spoken Language Understanding. Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Yannick Estève
2024	A layer-wise analysis of Mandarin and English suprasegmentals in SSL speech models. Antón de la Fuente, Dan Jurafsky
2024	A multimodal analysis of different types of laughter expression in conversational dialogues. Kexin Wang, Carlos Ishi, Ryoko Hayashi
2024	A multimodal approach to study the nature of coordinative patterns underlying speech rhythm. Jinyu Li, Leonardo Lancia
2024	A novel experimental design for the study of listener-to-listener convergence in phoneme categorization. Qingye Shen, Leonardo Lancia, Noël Nguyen
2024	A powerful and modern AAC composition tool for impaired speakers. Aanchan Mohan, Monideep Chakraborti, Katelyn Eng, Nailia Kushaeva, Mirjana Prpa, Jordan Lewis, Tianyi Zhang, Vince Geisler, Carol Geisler
2024	A toolkit for joint speaker diarization and identification with application to speaker-attributed ASR. Giovanni Morrone, Enrico Zovato, Fabio Brugnara, Enrico Sartori, Leonardo Badino
2024	AFL-Net: Integrating Audio, Facial, and Lip Modalities with a Two-step Cross-attention for Robust Speaker Diarization in the Wild. Yongkang Yin, Xu Li, Ying Shan, Yuexian Zou
2024	AG-LSEC: Audio Grounded Lexical Speaker Error Correction. Rohit Paturi, Xiang Li, Sundararajan Srinivasan
2024	ANIMAL-CLEAN - A Deep Denoising Toolkit for Animal-Independent Signal Enhancement. Alexander Barnhill, Elmar Nöth, Andreas K. Maier, Christian Bergler
2024	AR-NLU: A Framework for Enhancing Natural Language Understanding Model Robustness against ASR Errors. Emmy Phung, Harsh Deshpande, Ahmad Emami, Kanishk Singh
2024	AS-70: A Mandarin stuttered speech dataset for automatic speech recognition and stuttering event detection. Rong Gong, Hongfei Xue, Lezhi Wang, Xin Xu, Qisheng Li, Lei Xie, Hui Bu, Shaomei Wu, Jiaming Zhou, Yong Qin, Binbin Zhang, Jun Du, Jia Bin, Ming Li
2024	ASA: An Auditory Spatial Attention Dataset with Multiple Speaking Locations. Zijie Lin, Tianyu He, Siqi Cai, Haizhou Li
2024	ASGIR: audio spectrogram transformer guided classification and information retrieval for birds. Yashwardhan Chaudhuri, Paridhi Mundra, Arnesh Batra, Orchid Chetia Phukan, Arun Balaji Buduru
2024	ASTRA: Aligning Speech and Text Representations for Asr without Sampling. Neeraj Gaur, Rohan Agrawal, Gary Wang, Parisa Haghani, Andrew Rosenberg, Bhuvana Ramabhadran
2024	ASoBO: Attentive Beamformer Selection for Distant Speaker Diarization in Meetings. Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas
2024	ATTEST: an analytics tool for the testing and evaluation of speech technologies. Dmitrii Obukhov, Marcel de Korte, Andrey Adaschik
2024	AVCap: Leveraging Audio-Visual Features as Text Tokens for Captioning. Jongsuk Kim, Jiwon Shin, Junmo Kim
2024	AVR: synergizing foundation models for audio-visual humor detection. Sarthak Sharma, Orchid Chetia Phukan, Drishti Singh, Arun Balaji Buduru, Rajesh Sharma
2024	Acceleration of Posteriorgram-based DTW by Distilling the Class-to-class Distances Encoded in the Classifier Used to Calculate Posteriors. Haitong Sun, Jaehyun Choi, Nobuaki Minematsu, Daisuke Saito
2024	Accent Conversion with Articulatory Representations. Yashish M. Siriwardena, Nathan Swedlow, Audrey Howard, Evan Gitterman, Dan Darcy, Carol Y. Espy-Wilson, Andrea Fanelli
2024	Acoustic Effects of Facial Feminisation Surgery on Speech and Singing: A Case Study. Cliodhna Hughes, Guy J. Brown, Ning Ma, Nicola Dibben
2024	Acoustic Feature Mixup for Balanced Multi-aspect Pronunciation Assessment. Heejin Do, Wonjun Lee, Gary Geunbae Lee
2024	Acoustic changes in speech prosody produced by children with autism after robot-assisted speech training. Si Chen, Bruce Xiao Wang, Yitian Hong, Fang Zhou, Angel Chan, Po-yi Tang, Bin Li, Chunyi Wen, James Cheung, Yan Liu, Zhuoming Chen
2024	Acoustical analysis of the initial phones in speech-laugh. Ryo Setoguchi, Yoshiko Arimoto
2024	Acquisition of high vowel devoicing in Japanese: A production experiment with three and four year olds. Hyun Kyung Hwang, Manami Hirayama
2024	Active Speaker Detection in Fisheye Meeting Scenes with Scene Spatial Spectrums. Xinghao Huang, Weiwei Jiang, Long Rao, Wei Xu, Wenqing Cheng
2024	AdaRA: Adaptive Rank Allocation of Residual Adapters for Speech Foundation Model. Zhouyuan Huo, Dongseong Hwang, Gan Song, Khe Chai Sim, Weiran Wang
2024	Adapter Learning from Pre-trained Model for Robust Spoof Speech Detection. Haochen Wu, Wu Guo, Shengyu Peng, Zhuhai Li, Jie Zhang
2024	Adapter pre-training for improved speech recognition in unseen domains using low resource adapter tuning of self-supervised models. Sathvik Udupa, Jesuraj Bandekar, Saurabh Kumar, Deekshitha G, Sandhya Badiger, Abhayjeet Singh Savitha Murthy, Priyanka Pai, Srinivasa Raghavan K. M., Raoul Nanavati, Prasanta Kumar Ghosh
2024	Adding User Feedback To Enhance CB-Whisper. Raul Monteiro
2024	Adversarial Robustness Analysis in Automatic Pathological Speech Detection Approaches. Mahdi Amiri, Ina Kodrasi
2024	Aerodynamics of Sakata labial-velar oral stops. Lorenzo Maselli, Véronique Delvaux
2024	Affricates in Lushootseed. Ted Kye
2024	Age-related Differences in Acoustic Cues for the Perception of Checked Syllables in Shengzhou Wu. Bingliang Zhao, Jiangping Kong, Xiyu Wu
2024	AlignNet: Learning dataset score alignment functions to enable better training of speech quality estimators. Jaden Pieper, Stephen Voran
2024	All Ears: Building Self-Supervised Learning based ASR models for Indian Languages at scale. Vasista Sai Lodagala, Abhishek Biswas, Shoutrik Das, Jordan Fernandes, Srinivasan Umesh
2024	All Neural Low-latency Directional Speech Extraction. Ashutosh Pandey, Sanha Lee, Juan Azcarreta, Daniel Wong, Buye Xu
2024	An Analysis of the Variance of Diffusion-based Speech Enhancement. Bunlong Lay, Timo Gerkmann
2024	An Attribute Interpolation Method in Speech Synthesis by Model Merging. Masato Murata, Koichi Miyazaki, Tomoki Koriyama
2024	An Effective Local Prototypical Mapping Network for Speech Emotion Recognition. Yuxuan Xi, Yan Song, Lirong Dai, Haoyu Song, Ian McLoughlin
2024	An End-to-End Approach for Chord-Conditioned Song Generation. Shuochen Gao, Shun Lei, Fan Zhuo, Hangyu Liu, Feng Liu, Boshi Tang, Qiaochu Huang, Shiyin Kang, Zhiyong Wu
2024	An End-to-End Speech Summarization Using Large Language Model. Hengchao Shang, Zongyao Li, Jiaxin Guo, Shaojun Li, Zhiqiang Rao, Yuanchang Luo, Daimeng Wei, Hao Yang
2024	An Exploration of Length Generalization in Transformer-Based Speech Enhancement. Qiquan Zhang, Hongxu Zhu, Xinyuan Qian, Eliathamby Ambikairajah, Haizhou Li
2024	An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios. Cheng Gong, Erica Cooper, Xin Wang, Chunyu Qiang, Mengzhe Geng, Dan Wells, Longbiao Wang, Jianwu Dang, Marc Tessier, Aidan Pine, Korin Richmond, Junichi Yamagishi
2024	An Inter-Speaker Fairness-Aware Speech Emotion Regression Framework. Hsing-Hang Chou, Woan-Shiuan Chien, Ya-Tse Wu, Chi-Chun Lee
2024	An Investigation of Group versus Individual Fairness in Perceptually Fair Speech Emotion Recognition. Woan-Shiuan Chien, Chi-Chun Lee
2024	An Investigation of Noise Robustness for Flow-Matching-Based Zero-Shot TTS. Xiaofei Wang, Sefik Emre Eskimez, Manthan Thakker, Hemin Yang, Zirun Zhu, Min Tang, Yufei Xia, Jinzhu Li, Sheng Zhao, Jinyu Li, Naoyuki Kanda
2024	An Uyghur Extension to the MASSIVE Multi-lingual Spoken Language Understanding Corpus with Comprehensive Evaluations. Ainikaerjiang Aimaiti, Di Wu, Liting Jiang, Gulinigeer Abudouwaili, Hao Huang, Wushour Silamu
2024	An efficient text augmentation approach for contextualized Mandarin speech recognition. Naijun Zheng, Xucheng Wan, Kai Liu, Ziqing Du, Huan Zhou
2024	An inclusive approach to creating a palette of synthetic voices for gender diversity. Éva Székely, Maxwell Hope
2024	Analysis and Visualization of Directional Diversity in Listening Fluency of World Englishes Speakers in the Framework of Mutual Shadowing. Yu Tomita, Yingxiang Gao, Nobuaki Minematsu, Noriko Nakanishi, Daisuke Saito
2024	Analysis of Pathological Speech - Pitfalls along the Way. Elmar Nöth
2024	Analysis of articulatory setting for L1 and L2 English speakers using MRI data. Kevin Huang, Jack Goldberg, Louis Goldstein, Shrikanth Narayanan
2024	Analyzing Multimodal Features of Spontaneous Voice Assistant Commands for Mild Cognitive Impairment Detection. Nana Lin, Youxiang Zhu, Xiaohui Liang, John A. Batsis, Caroline Summerour
2024	Analyzing Speech Motor Movement using Surface Electromyography in Minimally Verbal Adults with Autism Spectrum Disorder. Wazeer Zulfikar, Nishat Protyasha, Camila Canales, Heli Patel, James Williamson, Laura Sarnie, Lisa Nowinski, Nataliya Kosmyna, Paige Townsend, Sophia Yuditskaya, Tanya Talkar, Utkarsh Oggy Sarawgi, Christopher J. McDougle, Thomas F. Quatieri, Pattie Maes, Maria Mody
2024	AnoPatch: Towards Better Consistency in Machine Anomalous Sound Detection. Anbai Jiang, Bing Han, Zhiqiang Lv, Yufeng Deng, Wei-Qiang Zhang, Xie Chen, Yanmin Qian, Jia Liu, Pingyi Fan
2024	Anonymising Elderly and Pathological Speech: Voice Conversion Using DDSP and Query-by-Example. Suhita Ghosh, Mélanie Jouaiti, Arnab Das, Yamini Sinha, Tim Polzehl, Ingo Siegert, Sebastian Stober
2024	Anti-spoofing Ensembling Model: Dynamic Weight Allocation in Ensemble Models for Improved Voice Biometrics Security. Eros Rosello, Angel M. Gomez, Iván López-Espejo, Antonio M. Peinado, Juan M. Martín-Doñas
2024	Applying Reinforcement Learning and Multi-Generators for Stage Transition in an Emotional Support Dialogue System. Jeremy Chang, Kuan-Yu Chen, Chung-Hsien Wu
2024	AraOffence: Detecting Offensive Speech Across Dialects in Arabic Media. Youssef Nafea, Shady Shehata, Zeerak Talat, Ahmed Aboeitta, Ahmed Sharshar, Preslav Nakov
2024	Are Articulatory Feature Overlaps Shrouded in Speech Embeddings? Erfan A. Shams, Iona Gessinger, Patrick Cormac English, Julie Carson-Berndsen
2024	Are Paralinguistic Representations all that is needed for Speech Emotion Recognition? Orchid Chetia Phukan, Gautam Siddharth Kashyap, Arun Balaji Buduru, Rajesh Sharma
2024	Are Recent Deep Learning-Based Speech Enhancement Methods Ready to Confront Real-World Noisy Environments? Candy Olivia Mawalim, Shogo Okada, Masashi Unoki
2024	Are you sure? Analysing Uncertainty Quantification Approaches for Real-world Speech Emotion Recognition. Oliver Schrüfer, Manuel Milling, Felix Burkhardt, Florian Eyben, Björn W. Schuller
2024	Array Geometry-Robust Attention-Based Neural Beamformer for Moving Speakers. Marvin Tammen, Tsubasa Ochiai, Marc Delcroix, Tomohiro Nakatani, Shoko Araki, Simon Doclo
2024	Articulatory Configurations across Genders and Periods in French Radio and TV archives. Benjamin Elie, David Doukhan, Rémi Uro, Lucas Ondel Yang, Albert Rilliard, Simon Devauchelle
2024	Articulatory synthesis using representations learnt through phonetic label-aware contrastive loss. Jesuraj Bandekar, Sathvik Udupa, Prasanta Kumar Ghosh
2024	As Biased as You Measure: Methodological Pitfalls of Bias Evaluations in Speaker Verification Research. Wiebke Hutiri, Tanvina Patel, Aaron Yi Ding, Odette Scharenborg
2024	Assessing the impact of contextual framing on subjective TTS quality. Jens Edlund, Christina Tånnander, Sébastien Le Maguer, Petra Wagner
2024	Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding. Rui Wang, Liping Chen, Kong Aik Lee, Zhen-Hua Ling
2024	Attention-augmented X-vectors for the Evaluation of Mimicked Speech Using Sparse Autoencoder-LSTM framework. Bhasi K. C., Rajeev Rajan, Noumida Abdul Kareem
2024	Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection. Zihan Pan, Tianchi Liu, Hardik B. Sailor, Qiongqiong Wang
2024	Audio Editing with Non-Rigid Text Prompts. Francesco Paissan, Luca Della Libera, Zhepei Wang, Paris Smaragdis, Mirco Ravanelli, Cem Subakan
2024	Audio Enhancement from Multiple Crowdsourced Recordings: A Simple and Effective Baseline. Shiran Aziz, Yossi Adi, Shmuel Peleg
2024	Audio Fingerprinting with Holographic Reduced Representations. Yusuke Fujita, Tatsuya Komatsu
2024	Audio Mamba: Selective State Spaces for Self-Supervised Audio Representations. Sarthak Yadav, Zheng-Hua Tan
2024	Audio-conditioned phonemic and prosodic annotation for building text-to-speech models from unlabeled speech data. Yuma Shirahata, Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana
2024	Audio-text Retrieval with Transformer-based Hierarchical Alignment and Disentangled Cross-modal Representation. Yifei Xin, Zhihong Zhu, Xuxin Cheng, Xusheng Yang, Yuexian Zou
2024	Auditory Attention Decoding in Four-Talker Environment with EEG. Yujie Yan, Xiran Xu, Haolin Zhu, Pei Tian, Zhongshu Ge, Xihong Wu, Jing Chen
2024	Auditory Spatial Attention Detection Based on Feature Disentanglement and Brain Connectivity-Informed Graph Neural Networks. Yixiang Niu, Ning Chen, Hongqing Zhu, Zhiying Zhu, Guangqiang Li, Yibo Chen
2024	Automated Human-Readable Label Generation in Open Intent Discovery. Grant Anderson, Emma Hart, Dimitra Gkatzia, Ian Beaver
2024	Automated content assessment and feedback for Finnish L2 learners in a picture description speaking task. Nhan Phan, Anna von Zansen, Maria Kautonen, Ekaterina Voskoboinik, Tamás Grósz, Raili Hildén, Mikko Kurimo
2024	Automatic Assessment of Dysarthria using Speech and synthetically generated Electroglottograph signal. Fathima Zaheera, Supritha Shetty, Gayadhar Pradhan, Deepak K. T
2024	Automatic Assessment of Speech Production Skills for Children with Cochlear Implants Using Wav2Vec2.0 Acoustic Embeddings. Seonwoo Lee, Sunhee Kim, Minhwa Chung
2024	Automatic Children Speech Sound Disorder Detection with Age and Speaker Bias Mitigation. Gahye Kim, Yunjung Eom, Selina S. Sung, Seunghee Ha, Tae-Jin Yoon, Jungmin So
2024	Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis. Valentin Pelloin, Lena Dodson, Émile Chapuis, Nicolas Hervé, David Doukhan
2024	Automatic Detection of Hearing Loss from Children's Speech using wav2vec 2.0 Features. Jessica Monaghan, Arun Sebastian, Nicky Chong-White, Vicky Zhang, Vijayalakshmi Easwar, Pádraig Kitterick
2024	Automatic Evaluation of a Sentence Memory Test for Preschool Children. Ilja Baumann, Nicole Unger, Dominik Wagner, Korbinian Riedhammer, Tobias Bocklet
2024	Automatic Longitudinal Investigation of Multiple Sclerosis Subjects. Gábor Gosztolya, Veronika Svindt, Judit Bóna, Ildikó Hoffmann
2024	Automatic Prediction of Amyotrophic Lateral Sclerosis Progression using Longitudinal Speech Transformer. Liming Wang, Yuan Gong, Nauman Dawalatabad, Marco Vilela, Katerina Placek, Brian Tracey, Yishu Gong, Alan Premasiri, Fernando Vieira, James R. Glass
2024	Automatic Speech Recognition with parallel L1 and L2 acoustic phone models to evaluate /l/ allophony in L2 English speech production. Anisia Popescu, Lori Lamel, Ioana Vasilescu, Laurence Devillers
2024	Automatic pitch accent classification through image classification. Na Hu, Hugo Schnack, Amalia Arvaniti
2024	Automatic recognition and detection of aphasic natural speech. Mara Barberis, Pieter De Clercq, Bastiaan Tamm, Hugo Van hamme, Maaike Vandermosten
2024	Autoregressive cross-interlocutor attention scores meaningfully capture conversational dynamics. Matthew McNeill, Rivka Levitan
2024	BESST Dataset: A Multimodal Resource for Speech-based Stress Detection and Analysis. Jan Pesán, Vojtech Jurík, Martin Karafiát, Jan Cernocký
2024	BS-PLCNet 2: Two-stage Band-split Packet Loss Concealment Network with Intra-model Knowledge Distillation. Zihan Zhang, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
2024	BTS: Bridging Text and Sound Modalities for Metadata-Aided Respiratory Sound Classification. June-Woo Kim, Miika Toikkanen, Yera Choi, Seoung-Eun Moon, Ho-Young Jung
2024	Backchannel prediction, based on who, when and what. Yo-Han Park, Wencke Liermann, Yong-Seok Choi, Seung Hi Kim, Jeong-Uk Bang, Seung Yun, Kong Joo Lee
2024	Balance, Multiple Augmentation, and Re-synthesis: A Triad Training Strategy for Enhanced Audio Deepfake Detection. Thien-Phuc Doan, Long Nguyen-Vu, Kihun Hong, Souhwan Jung
2024	Balanced-Wav2Vec: Enhancing Stability and Robustness of Representation Learning Through Sample Reweighting Techniques. Mun-Hak Lee, Jae-Hong Lee, Do-Hee Kim, Ye-Eun Ko, Joon-Hyuk Chang
2024	Beam-search SIEVE for low-memory speech recognition. Martino Ciaperoni, Athanasios Katsamanis, Aristides Gionis, Panagiotis Karras
2024	Behavioral evidence for higher speech rate convergence following natural than artificial time altered speech. Jérémy Giroud, Jessica Lei, Kirsty Phillips, Matthew H. Davis
2024	Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models. Ruchao Fan, Natarajan Balaji Shankar, Abeer Alwan
2024	Beyond Binary: Multiclass Paraphasia Detection with Generative Pretrained Transformers and End-to-End Models. Matthew Perez, Aneesha Sampath, Minxue Niu, Emily Mower Provost
2024	Beyond Levenshtein: Leveraging Multiple Algorithms for Robust Word Error Rate Computations And Granular Error Classifications. Korbinian Kuhn, Verena Kersken, Gottfried Zimmermann
2024	Beyond Performance Plateaus: A Comprehensive Study on Scalability in Speech Enhancement. Wangyou Zhang, Kohei Saijo, Jee-weon Jung, Chenda Li, Shinji Watanabe, Yanmin Qian
2024	Beyond graphemes and phonemes: continuous phonological features in neural text-to-speech synthesis. Christina Tånnander, Shivam Mehta, Jonas Beskow, Jens Edlund
2024	BiVocoder: A Bidirectional Neural Vocoder Integrating Feature Extraction and Waveform Generation. Hui-Peng Du, Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
2024	Bilingual Rhotic Production Patterns: A Generational Comparison of Spanish-English Bilingual Speakers in Canada. Ioana Colgiu, Laura Spinu, Rajiv Rao, Yasaman Rafat
2024	Bilingual and Code-switching TTS Enhanced with Denoising Diffusion Model and GAN. Huai-Zhe Yang, Chia-Ping Chen, Shan-Yun He, Cheng-Ruei Li
2024	Binaural Selective Attention Model for Target Speaker Extraction. Hanyu Meng, Qiquan Zhang, Xiangyu Zhang, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2024	Bird Whisperer: Leveraging Large Pre-trained Acoustic Model for Bird Call Classification. Muhammad Umer Sheikh, Hassan Abid, Bhuiyan Sanjid Shafique, Asif Hanif, Muhammad Haris Khan
2024	Blind Zero-Shot Audio Restoration: A Variational Autoencoder Approach for Denoising and Inpainting. Veranika Boukun, Jakob Drefs, Jörg Lücke
2024	Boosting CTC-based ASR using inter-layer attention-based CTC loss. Keigo Hojo, Yukoh Wakabayashi, Kengo Ohta, Atsunori Ogawa, Norihide Kitaoka
2024	Boosting Cross-Corpus Speech Emotion Recognition using CycleGAN with Contrastive Learning. Jincen Wang, Yan Zhao, Cheng Lu, Chuangao Tang, Sunan Li, Yuan Zong, Wenming Zheng
2024	Boosting Hybrid Autoregressive Transducer-based ASR with Internal Acoustic Model Training and Dual Blank Thresholding. Takafumi Moriya, Takanori Ashihara, Masato Mimura, Hiroshi Sato, Kohei Matsuura, Ryo Masumura, Taichi Asami
2024	Boosting the Transferability of Adversarial Examples with Gradient-Aligned Ensemble Attack for Speaker Recognition. Zhuhai Li, Jie Zhang, Wu Guo, Haochen Wu
2024	Bridging Child-Centered Speech Language Identification and Language Diarization via Phonetics. Yujia Wang, Hexin Liu, Leibny Paola García
2024	Bridging Emotions Across Languages: Low Rank Adaptation for Multilingual Speech Emotion Recognition. Lucas Goncalves, Donita Robinson, Elizabeth Richerson, Carlos Busso
2024	Bridging Language Gaps in Audio-Text Retrieval. Zhiyong Yan, Heinrich Dinkel, Yongqing Wang, Jizhong Liu, Junbo Zhang, Yujun Wang, Bin Wang
2024	CALL system using pitch-accent feature representations reflecting listeners' subjective adequacy. Ikuyo Masuda-Katsuse, Ayako Shirose
2024	CDSD: Chinese Dysarthria Speech Database. Yan Wan, Mengyi Sun, Xinchen Kang, Jingting Li, Pengfei Guo, Ming Gao, Su-Jing Wang
2024	CEC: A Noisy Label Detection Method for Speaker Recognition. Yao Shen, Yingying Gao, Yaqian Hao, Chenguang Hu, Fulin Zhang, Junlan Feng, Shilei Zhang
2024	CNVSRC 2023: The First Chinese Continuous Visual Speech Recognition Challenge. Chen Chen, Zehua Liu, Xiaolou Li, Lantian Li, Dong Wang
2024	COSMIC: Data Efficient Instruction-tuning For Speech In-Context Learning. Jing Pan, Jian Wu, Yashesh Gaur, Sunit Sivasankaran, Zhuo Chen, Shujie Liu, Jinyu Li
2024	CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting. Sichen Jin, Youngmoon Jung, Seungjin Lee, Jaeyoung Roh, Changwoo Han, Hoonyoung Cho
2024	Can Large Language Models Understand Spatial Audio? Changli Tang, Wenyi Yu, Guangzhi Sun, Xianzhao Chen, Tian Tan, Wei Li, Jun Zhang, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang
2024	Can Modelling Inter-Rater Ambiguity Lead To Noise-Robust Continuous Emotion Predictions? Ya-Tse Wu, Jingyao Wu, Vidhyasaharan Sethu, Chi-Chun Lee
2024	Can Synthetic Audio From Generative Foundation Models Assist Audio Recognition and Speech Modeling? Tiantian Feng, Dimitrios Dimitriadis, Shrikanth S. Narayanan
2024	Can you Remove the Downstream Model for Speaker Recognition with Self-Supervised Speech Features? Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung, Skyler Seto, Tatiana Likhomanenko, Stephen Shum, Ahmed Hussen Abdelaziz, Shinji Watanabe, Barry-John Theobald
2024	CaptainA self-study mobile app for practising speaking: task completion assessment and feedback with generative AI. Nhan Phan, Anna von Zansen, Maria Kautonen, Tamás Grósz, Mikko Kurimo
2024	Cascaded Transfer Learning Strategy for Cross-Domain Alzheimer's Disease Recognition through Spontaneous Speech. Guanlin Chen, Yun Jin
2024	Centroid Estimation with Transformer-Based Speaker Embedder for Robust Target Speaker Extraction. Woon-Haeng Heo, Joongyu Maeng, Yoseb Kang, Namhyun Cho
2024	Challenge of Singing Voice Synthesis Using Only Text-To-Speech Corpus With FIRNet Source-Filter Neural Vocoder. Takuma Okamoto, Yamato Ohtani, Sota Shimizu, Tomoki Toda, Hisashi Kawai
2024	Challenges of German Speech Recognition: A Study on Multi-ethnolectal Speech Among Adolescents. Martha Schubert, Daniel Duran, Ingo Siegert
2024	Challenging margin-based speaker embedding extractors by using the variational information bottleneck. Themos Stafylakis, Anna Silnova, Johan Rohdin, Oldrich Plchot, Lukás Burget
2024	Characterizing code-switching: Applying Linguistic Principles for Metric Assessment and Development. Jie Chi, Electra Wallington, Peter Bell
2024	Children's Speech Recognition through Discrete Token Enhancement. Vrunda N. Sukhadia, Shammur Absar Chowdhury
2024	ClariTTS: Feature-ratio Normalization and Duration Stabilization for Code-mixed Multi-speaker Speech Synthesis. ChangHwan Kim
2024	Classification of Room Impulse Responses and its application for channel verification and diarization. Yuri Y. Khokhlov, Tatiana Prisyach, Anton Mitrofanov, Dmitry Dutov, Igor Agafonov, Tatiana Timofeeva, Aleksei Romanenko, Maxim Korenevsky
2024	Clever Hans Effect Found in Automatic Detection of Alzheimer's Disease through Speech. Yin-Long Liu, Rui Feng, Jia-Hong Yuan, Zhen-Hua Ling
2024	CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction. Xueyuan Chen, Dongchao Yang, Dingdong Wang, Xixin Wu, Zhiyong Wu, Helen Meng
2024	Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations. Kunal Dhawan, Nithin Rao Koluguri, Ante Jukic, Ryan Langman, Jagadeesh Balam, Boris Ginsburg
2024	CodecFake: Enhancing Anti-Spoofing Models Against Deepfake Audios from Codec-Based Speech Synthesis Systems. Haibin Wu, Yuan Tseng, Hung-yi Lee
2024	Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio. Yi Lu, Yuankun Xie, Ruibo Fu, Zhengqi Wen, Jianhua Tao, Zhiyong Wang, Xin Qi, Xuefei Liu, Yongwei Li, Yukun Liu, Xiaopeng Wang, Shuchen Shi
2024	CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech. Jiali Cheng, Mohamed Elgaar, Nidhi Vakil, Hadi Amiri
2024	Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis. David Ortiz-Perez, José García Rodríguez, David Tomás
2024	Collaborative Contrastive Learning for Hypothesis Domain Adaptation. Jen-Tzung Chien, I-Ping Yeh, Man-Wai Mak
2024	Collecting Mandible Movement in Brazilian Portuguese. Donna Erickson, Albert Rilliard, Malin Svensson Lundmark, Adelaide Silva, Leticia Rebollo Couto, Oliver Niebuhr, João Antônio de Moraes
2024	ComFeAT: combination of neural and spectral features for improved depression detection. Orchid Chetia Phukan, Sarthak Jain, Shubham Singh, Muskaan Singh, Arun Balaji Buduru, Rajesh Sharma
2024	Combining Acoustic Feature Sets for Detecting Mild Cognitive Impairment in the Interspeech'24 TAUKADIAL Challenge. Gábor Gosztolya, László Tóth
2024	Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness. Sai Srujana Buddi, Satyam Kumar, Utkarsh Oggy Sarawgi, Vineet Garg, Shivesh Ranjan, Ognjen Rudovic, Ahmed Hussen Abdelaziz, Saurabh Adya
2024	Comparing ASR Systems in the Context of Speech Disfluencies. Maria Teleki, Xiangjue Dong, Soohwan Kim, James Caverlee
2024	Comparing Discrete and Continuous Space LLMs for Speech Recognition. Yaoxun Xu, Shi-Xiong Zhang, Jianwei Yu, Zhiyong Wu, Dong Yu
2024	Comparing ambulatory voice measures during daily life with brief laboratory assessments in speakers with and without vocal hyperfunction. Daryush D. Mehta, Jarrad H. Van Stan, Hamzeh Ghasemzadeh, Robert E. Hillman
2024	Complex Image-Generative Diffusion Transformer for Audio Denoising. Junhui Li, Pu Wang, Jialu Li, Youshan Zhang
2024	Confidence Estimation for Automatic Detection of Depression and Alzheimer's Disease Based on Clinical Interviews. Wen Wu, Chao Zhang, Philip C. Woodland
2024	Confidence-aware Hypothesis Transfer Networks for Source-Free Cross-Corpus Speech Emotion Recognition. Jincen Wang, Yan Zhao, Cheng Lu, Hailun Lian, Hongli Chang, Yuan Zong, Wenming Zheng
2024	Conformer without Convolutions. Matthijs Van Keirsbilck, Alexander Keller
2024	ConnecTone: a modular AAC system prototype with contextual generative text prediction and style-adaptive conversational TTS. Juliana Francis, Éva Székely, Joakim Gustafson
2024	Connected Speech-Based Cognitive Assessment in Chinese and English. Saturnino Luz, Sofia de la Fuente Garcia, Fasih Haider, Davida Fromm, Brian MacWhinney, Alyssa Lanzi, Ya-Ning Chang, Chia-Ju Chou, Yi-Chien Liu
2024	ConsistencyTTA: Accelerating Diffusion-Based Text-to-Audio Generation with Consistency Distillation. Yatong Bai, Trung Dang, Dung N. Tran, Kazuhito Koishida, Somayeh Sojoudi
2024	Contemplative Mechanism for Speech Recognition: Speech Encoders can Think. Tien-Ju Yang, Andrew Rosenberg, Bhuvana Ramabhadran
2024	Context-Aware Speech Recognition Using Prompts for Language Learners. Jian Cheng
2024	Contextual Biasing Speech Recognition in Speech-enhanced Large Language Model. Xun Gong, Anqi Lv, Zhiming Wang, Yanmin Qian
2024	Contextual Biasing with Confidence-based Homophone Detector for Mandarin End-to-End Speech Recognition. Chengxu Yang, Lin Zheng, Sanli Tian, Gaofeng Cheng, Sujie Xiao, Ta Li
2024	Contextual Biasing with the Knuth-Morris-Pratt Matching Algorithm. Weiran Wang, Zelin Wu, Diamantino Caseiro, Tsendsuren Munkhdalai, Khe Chai Sim, Pat Rondon, Golan Pundak, Gan Song, Rohit Prabhavalkar, Zhong Meng, Ding Zhao, Tara Sainath, Yanzhang He, Pedro Moreno Mengibar
2024	Contextual Interactive Evaluation of TTS Models in Dialogue Systems. Siyang Wang, Éva Székely, Joakim Gustafson
2024	Contextualized End-to-end Automatic Speech Recognition with Intermediate Biasing Loss. Muhammad Shakeel, Yui Sudo, Yifan Peng, Shinji Watanabe
2024	Continual Learning Optimizations for Auto-regressive Decoder of Multilingual ASR systems. Kwok Chin Yuen, Jia Qi Yip, Eng Siong Chng
2024	Contrastive Feedback Mechanism for Simultaneous Speech Translation. Haotian Tan, Sakriani Sakti
2024	Contrastive Learning Approach for Assessment of Phonological Precision in Patients with Tongue Cancer Using MRI Data. Tomás Arias-Vergara, Paula Andrea Pérez-Toro, Xiaofeng Liu, Fangxu Xing, Maureen Stone, Jiachen Zhuo, Jerry L. Prince, Maria Schuster, Elmar Nöth, Jonghye Woo, Andreas K. Maier
2024	Contrastive Learning and Inter-Speaker Distribution Alignment Based Unsupervised Domain Adaptation for Robust Speaker Verification. Zuoliang Li, Wu Guo, Bin Gu, Shengyu Peng, Jie Zhang
2024	Controlling Emotion in Text-to-Speech with Natural Language Prompts. Thomas Bott, Florian Lux, Ngoc Thang Vu
2024	ConvoCache: Smart Re-Use of Chatbot Responses. Conor Atkins, Ian D. Wood, Mohamed Ali Kâafar, Hassan Asghar, Nardine Basta, Michal Kepkowski
2024	Convolution-Augmented Parameter-Efficient Fine-Tuning for Speech Recognition. Kwangyoun Kim, Suwon Shon, Yi-Te Hsu, Prashant Sridhar, Karen Livescu, Shinji Watanabe
2024	CreakVC: a voice conversion tool for modulating creaky voice. Harm Lameris, Joakim Gustafson, Éva Székely
2024	CrisperWhisper: Accurate Timestamps on Verbatim Speech Transcriptions. Mario Zusag, Laurin Wagner, Bernhard Thallinger
2024	Cross-Attention-Guided WaveNet for EEG-to-MEL Spectrogram Reconstruction. Hao Li, Yuan Fang, Xueliang Zhang, Fei Chen, Guanglai Gao
2024	Cross-Linguistic Intelligibility of Non-Compositional Expressions in Spoken Context. Iuliia Zaitova, Irina Stenger, Wei Xue, Tania Avgustinova, Bernd Möbius, Dietrich Klakow
2024	Cross-Modal Denoising: A Novel Training Paradigm for Enhancing Speech-Image Retrieval. Lifeng Zhou, Yuke Li, Rui Deng, Yuting Yang, Haoqi Zhu
2024	Cross-Modality Diffusion Modeling and Sampling for Speech Recognition. Chia-Kai Yeh, Chih-Chun Chen, Ching-Hsien Hsu, Jen-Tzung Chien
2024	Cross-modal Features Interaction-and-Aggregation Network with Self-consistency Training for Speech Emotion Recognition. Ying Hu, Huamin Yang, Hao Huang, Liang He
2024	Cross-transfer Knowledge between Speech and Text Encoders to Evaluate Customer Satisfaction. Luis Felipe Parra-Gallego, Tilak Purohit, Bogdan Vlasenko, Juan Rafael Orozco-Arroyave, Mathew Magimai-Doss
2024	Crosslinguistic Comparison of Acoustic Variation in the Vowel Sequences /ia/ and /io/ in Four Romance Languages. Johanna Cronenberg, Ioana Chitoran, Lori Lamel, Ioana Vasilescu
2024	CtrSVDD: A Benchmark Dataset and Baseline Analysis for Controlled Singing Voice Deepfake Detection. Yongyi Zang, Jiatong Shi, You Zhang, Ryuichi Yamamoto, Jionghao Han, Yuxun Tang, Shengyuan Xu, Wenxiao Zhao, Jing Guo, Tomoki Toda, Zhiyao Duan
2024	Custom wake word detection. Kesavaraj V, Charan Devarkonda, Vamshiraghusimha Narasinga, Anil Kumar Vuppala
2024	DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models. Tzu-Quan Lin, Hung-yi Lee, Hao Tang
2024	DB-PMAE: Dual-Branch Prototypical Masked AutoEncoder with locality for domain robust speaker verification. Wei-Lin Xie, Yu-Xuan Xi, Yan Song, Jian-Tao Zhang, Hao-Yu Song, Ian McLoughlin
2024	DB3V: A Dialect Dominated Dataset of Bird Vocalisation for Cross-corpus Bird Species Recognition. Xin Jing, Luyang Zhang, Jiangjian Xie, Alexander Gebhard, Alice Baird, Björn W. Schuller
2024	DBD-CI: Doubling the Band Density for Bilateral Cochlear Implants. Mingyue Shi, Huali Zhou, Qinglin Meng, Nengheng Zheng
2024	DGPN: A Dual Graph Prototypical Network for Few-Shot Speech Spoofing Algorithm Recognition. Zirui Ge, Xinzhou Xu, Haiyan Guo, Tingting Wang, Zhen Yang, Björn W. Schuller
2024	DGSRN: Noise-Robust Speech Recognition Method with Dual-Path Gated Spectral Refinement Network. Wenjun Wang, Shangbin Mo, Ling Dong, Zhengtao Yu, Junjun Guo, Yuxin Huang
2024	DINO-VITS: Data-Efficient Zero-Shot TTS with Self-Supervised Speaker Verification Loss for Noise Robustness. Vikentii Pankov, Valeria Pronina, Alexander Kuzmin, Maksim Borisov, Nikita Usoltsev, Xingshan Zeng, Alexander Golubkov, Nikolai Ermolenko, Aleksandra Shirshova, Yulia Matveeva
2024	DNN-based monaural speech enhancement using alternate analysis windows for phase and magnitude modification. Xi Liu, John H. L. Hansen
2024	DNSMOS Pro: A Reduced-Size DNN for Probabilistic MOS of Speech. Fredrik Cumlin, Xinyu Liang, Victor Ungureanu, Chandan K. A. Reddy, Christian Schüldt, Saikat Chatterjee
2024	Dataset-Distillation Generative Model for Speech Emotion Recognition. Fabian Ritter Gutierrez, Kuan-Po Huang, Jeremy H. M. Wong, Dianwen Ng, Hung-yi Lee, Nancy F. Chen, Eng Siong Chng
2024	DeFTAN-AA: Array Geometry Agnostic Multichannel Speech Enhancement. Dongheon Lee, Jung-Woo Choi
2024	DeSTA: Enhancing Speech Language Models through Descriptive Speech-Text Alignment. Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu, He Huang, Boris Ginsburg, Yu-Chiang Frank Wang, Hung-yi Lee
2024	DeWinder: Single-Channel Wind Noise Reduction using Ultrasound Sensing. Kuang Yuan, Shuo Han, Swarun Kumar, Bhiksha Raj
2024	Deciphering Assamese Vowel Harmony with Featural InfoWaveGAN. Sneha Ray Barman, Shakuntala Mahanta, Neeraj Kumar Sharma
2024	Decoder-only Architecture for Streaming End-to-end Speech Recognition. Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe
2024	Decoding Human Language Acquisition: EEG Evidence for Predictive Probabilistic Statistics in Word Segmentation. Bin Zhao, Mingxuan Huang, Chenlu Ma, Jinyi Xue, Aijun Li, Kunyu Xu
2024	Deep Echo Path Modeling for Acoustic Echo Cancellation. Fei Zhao, Chenggang Zhang, Shulin He, Jinjiang Liu, Xueliang Zhang
2024	Deep Prosodic Features in Tandem with Perceptual Judgments of Word Reduction for Tone Recognition in Conversed Speech. Xiang-Li Lu, Yi-Fen Liu
2024	Depression Enhances Internal Inconsistency between Spoken and Semantic Emotion: Evidence from the Analysis of Emotion Expression in Conversation. Xinyi Wu, Changqing Xu, Nan Li, Rongfeng Su, Lan Wang, Nan Yan
2024	Design of Feedback Active Noise Cancellation Filter Using Nested Recurrent Neural Networks. Alireza Bayestehtashk, Amit Kumar, Mike Wurtz
2024	Detecting Empathy in Speech. Run Chen, Haozhe Chen, Anushka Kulkarni, Eleanor Lin, Linda Pang, Divya Tadimeti, Jun Shin, Julia Hirschberg
2024	Detecting the terminality of speech-turn boundary for spoken interactions in French TV and Radio content. Rémi Uro, Marie Tahon, David Doukhan, Antoine Laurent, Albert Rilliard
2024	Detection of Cognitive Impairment And Alzheimer's Disease Using a Speech- and Language-Based Protocol. Tanya Talkar, Sherman Charles, Chelsea Krantsevich, Kan Kawabata
2024	Detection of background agents speech in contact centers. Abhishek Kumar, Srikanth Konjeti, Jithendra Vepa
2024	Developing Multi-Disorder Voice Protocols: A team science approach involving clinical expertise, bioethics, standards, and DEI. Anaïs Rameau, Satrajit Ghosh, Alexandros Sigaras, Olivier Elemento, Jean-Christophe Bélisle-Pipon, Vardit Ravitsky, Maria Powell, Alistair Johnson, David A. Dorr, Philip R. O. Payne, Micah Boyer, Stephanie Watts, Ruth Bahr, Frank Rudzicz, Jordan Lerner-Ellis, Shaheen Awan, Don Bolser, Yael Bensoussan
2024	Developing an End-to-End Framework for Predicting the Social Communication Severity Scores of Children with Autism Spectrum Disorder. Jihyun Mun, Sunhee Kim, Minhwa Chung
2024	Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features. Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Takashi Tsuboi, Yasuhiro Tanaka, Daisuke Nakatsubo, Satoshi Maesawa, Ryuta Saito, Masahisa Katsuno, Hiroaki Kudo
2024	DiarizationLM: Speaker Diarization Post-Processing with Large Language Models. Quan Wang, Yiling Huang, Guanlong Zhao, Evan Clark, Wei Xia, Hank Liao
2024	DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval. Yifei Xin, Xuxin Cheng, Zhihong Zhu, Xusheng Yang, Yuexian Zou
2024	DiffVC+: Improving Diffusion-based Voice Conversion for Speaker Anonymization. Fan Huang, Kun Zeng, Wei Zhu
2024	Differentiable Time-Varying Linear Prediction in the Context of End-to-End Analysis-by-Synthesis. Chin-Yun Yu, György Fazekas
2024	Diffusion Gaussian Mixture Audio Denoise. Pu Wang, Junhui Li, Jialu Li, Liangdong Guo, Youshan Zhang
2024	Diffusion Synthesizer for Efficient Multilingual Speech to Speech Translation. Nameer Hirschkind, Xiao Yu, Mahesh Kumar Nandwana, Joseph Liu, Eloi du Bois, Dao Le, Nicolas Thiebaut, Colin Sinclair, Kyle Spence, Charles Shang, Zoë Abrams, Morgan McGuire
2024	Direct Speech Synthesis from Non-Invasive, Neuromagnetic Signals. Jinuk Kwon, David Harwath, Debadatta Dash, Paul Ferrari, Jun Wang
2024	Dirichlet process mixture model based on topologically augmented signal representation for clustering infant vocalizations. Guillem Bonafos, Clara Bourot, Pierre Pudlo, Jean-Marc Freyermuth, Laurence Reboul, Samuel Tronçon, Arnaud Rey
2024	DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding. Suwon Shon, Kwangyoun Kim, Yi-Te Hsu, Prashant Sridhar, Shinji Watanabe, Karen Livescu
2024	Disentangled Representation Learning for Environment-agnostic Speaker Recognition. Kihyun Nam, Hee-Soo Heo, Jee-weon Jung, Joon Son Chung
2024	Disentangling Age and Identity with a Mutual Information Minimization for Cross-Age Speaker Verification. Fengrun Zhang, Wangjin Zhou, Yiming Liu, Wang Geng, Yahui Shan, Chen Zhang
2024	Disentangling prosody and timbre embeddings via voice conversion. Nicolas Gengembre, Olivier Le Blouch, Cédric Gendrot
2024	DiveSound: LLM-Assisted Automatic Taxonomy Construction for Diverse Audio Generation. Baihan Li, Zeyu Xie, Xuenan Xu, Yiwei Guo, Ming Yan, Ji Zhang, Kai Yu, Mengyue Wu
2024	Diversifying and Expanding Frequency-Adaptive Convolution Kernels for Sound Event Detection. Hyeonuk Nam, Seong-Hu Kim, Deokki Min, Junhyeok Lee, Yong-Hwa Park
2024	Do Speaker-dependent Vowel Characteristics depend on Speech Style? Nicolas Audibert, Cécile Fougeron, Christine Meunier
2024	Do we EXPECT TO find phonetic traces for syntactic traces? Jonathan Him Nok Lee, Mark Liberman, Martin Salzmann
2024	Does the Lombard Effect Matter in Speech Separation? Introducing the Lombard-GRID-2mix Dataset. Iva Ewert, Marvin Borsdorf, Haizhou Li, Tanja Schultz
2024	Domain Adaptation for Contrastive Audio-Language Models. Soham Deshmukh, Rita Singh, Bhiksha Raj
2024	Domain-Aware Data Selection for Speech Classification via Meta-Reweighting. Junghun Kim, Ka Hyun Park, Hoyoung Yoon, U Kang
2024	DreamVoice: Text-Guided Voice Conversion. Jiarui Hai, Karan Thakkar, Helin Wang, Zengyi Qin, Mounya Elhilali
2024	DropFormer: A Dynamic Noise-Dropping Transformer for Speech Emotion Recognition. Jialong Mai, Xiaofen Xing, Weidong Chen, Xiangmin Xu
2024	Dual-Constrained Dynamical Neural ODEs for Ambiguity-aware Continuous Emotion Prediction. Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2024	Dual-Pipeline with Low-Rank Adaptation for New Language Integration in Multilingual ASR. Yerbolat Khassanov, Zhipeng Chen, Tianfeng Chen, Tze Yuang Chong, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang
2024	Dual-path Adaptation of Pretrained Feature Extraction Module for Robust Automatic Speech Recognition. Hao Shi, Tatsuya Kawahara
2024	DualPure: An Efficient Adversarial Purification Method for Speech Command Recognition. Hao Tan, Xiaochen Liu, Huan Zhang, Junjian Zhang, Yaguan Qian, Zhaoquan Gu
2024	DualSpeech: Enhancing Speaker-Fidelity and Text-Intelligibility Through Dual Classifier-Free Guidance. Jinhyeok Yang, Junhyeok Lee, Hyeong-Seok Choi, Seunghoon Ji, Hyeongju Kim, Juheon Lee
2024	DualVC 3: Leveraging Language Model Generated Pseudo Context for End-to-end Low Latency Streaming Voice Conversion. Ziqian Ning, Shuai Wang, Pengcheng Zhu, Zhichao Wang, Jixun Yao, Lei Xie, Mengxiao Bi
2024	DubWise: Video-Guided Speech Duration Control in Multimodal LLM-based Text-to-Speech for Dubbing. Neha Sahipjohn, Ashishkumar Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Rajiv Ratn Shah
2024	Dynamic Data Pruning for Automatic Speech Recognition. Qiao Xiao, Pingchuan Ma, Adriana Fernandez-Lopez, Boqian Wu, Lu Yin, Stavros Petridis, Mykola Pechenizkiy, Maja Pantic, Decebal Constantin Mocanu, Shiwei Liu
2024	Dynamic Encoder Size Based on Data-Driven Layer-wise Pruning for Speech Recognition. Jingjing Xu, Wei Zhou, Zijian Yang, Eugen Beck, Ralf Schlüter
2024	Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement. Longbiao Cheng, Ashutosh Pandey, Buye Xu, Tobi Delbruck, Shih-Chii Liu
2024	DysArinVox: DYSphonia & DYSarthria mandARIN speech corpus. Haojie Zhang, Tao Zhang, Ganjun Liu, Dehui Fu, Xiaohui Hou, Ying Lv
2024	Dysarthric Speech Recognition Using Curriculum Learning and Articulatory Feature Embedding. I-Ting Hsieh, Chung-Hsien Wu
2024	E-ODN: An Emotion Open Deep Network for Generalised and Adaptive Speech Emotion Recognition. Liuxian Ma, Lin Shen, Ruobing Li, Haojie Zhang, Kun Qian, Bin Hu, Björn W. Schuller, Yoshiharu Yamamoto
2024	E-Paraformer: A Faster and Better Parallel Transformer for Non-autoregressive End-to-End Mandarin Speech Recognition. Kun Zou, Fengyun Tan, Ziyang Zhuang, Chenfeng Miao, Tao Wei, Shaodan Zhai, Zijian Li, Wei Hu, Shaojun Wang, Jing Xiao
2024	EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation. Julius Richter, Yi-Chiao Wu, Steven Krenn, Simon Welker, Bunlong Lay, Shinji Watanabe, Alexander Richard, Timo Gerkmann
2024	ED-sKWS: Early-Decision Spiking Neural Networks for Rapid, and Energy-Efficient Keyword Spotting. Zeyang Song, Qianhui Liu, Qu Yang, Yizhou Peng, Haizhou Li
2024	EEND-M2F: Masked-attention mask transformers for speaker diarization. Marc Härkönen, Samuel J. Broughton, Lahiru Samarakoon
2024	EFFUSE: Efficient Self-Supervised Feature Fusion for E2E ASR in Low Resource and Multilingual Scenarios. Tejes Srivastava, Jiatong Shi, William Chen, Shinji Watanabe
2024	ERes2NetV2: Boosting Short-Duration Speaker Verification Performance with Computational Efficiency. Yafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen, Shiliang Zhang, Junjie Li
2024	ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models. Jee-weon Jung, Wangyou Zhang, Jiatong Shi, Zakaria Aldeneh, Takuya Higuchi, Alex Gichamba, Barry-John Theobald, Ahmed Hussen Abdelaziz, Shinji Watanabe
2024	EZTalking: English assessment platform for teachers and students. Yu-Sheng Tsao, Yung-Chang Hsu, Jiun-Ting Li, Siang-Hong Weng, Tien-Hong Lo, Berlin Chen
2024	Echoes of Implicit Bias Exploring Aesthetics and Social Meanings of Swiss German Dialect Features. Tillmann Pistor, Adrian Leemann
2024	Edged based audio-visual speech enhancement demonstrator. Song Chen, Mandar Gogate, Kia Dashtipour, Jasper Kirton-Wingate, Adeel Hussain, Faiyaz Doctor, Tughrul Arslan, Amir Hussain
2024	Effect of Complex Boundary Tones on Tone Identification: An Experimental Study with Mandarin-speaking Preschool Children. Aijun Li, Jun Gao, Zhiwei Wang
2024	Effects of talker and playback rate of reverberation-induced speech on speech intelligibility of older adults. Nao Hodoshima
2024	Efficient Audio Captioning with Encoder-Level Knowledge Distillation. Xuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley
2024	Efficient CNNs with Quaternion Transformations and Pruning for Audio Tagging. Aryan Chaudhary, Arshdeep Singh, Vinayak Abrol, Mark D. Plumbley
2024	Efficient Fine-tuning of Audio Spectrogram Transformers via Soft Mixture of Adapters. Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti
2024	Efficient Integrated Features Based on Pre-trained Models for Speaker Verification. Yishuang Li, Wenhao Guan, Hukai Huang, Shiyu Miao, Qi Su, Lin Li, Qingyang Hong
2024	Efficient Joint Bemforming and Acoustic Echo Cancellation Structure for Conference Call Scenarios. Ofer Schwartz, Sharon Gannot
2024	Efficient SQA from Long Audio Contexts: A Policy-driven Approach. Alexander Johnson, Peter Plantinga, Pheobe Sun, Swaroop Gadiyaram, Abenezer Girma, Ahmad Emami
2024	Efficient Speaker Embedding Extraction Using a Twofold Sliding Window Algorithm for Speaker Diarization. Jeong-Hwan Choi, Ye-Rin Jeoung, Ilseok Kim, Joon-Hyuk Chang
2024	Efficient and Robust Long-Form Speech Recognition with Hybrid H3-Conformer. Tomoki Honda, Shinsuke Sakai, Tatsuya Kawahara
2024	Efficiently Train ASR Models that Memorize Less and Perform Better with Per-core Clipping. Lun Wang, Om Thakkar, Zhong Meng, Nicole Rafidi, Rohit Prabhavalkar, Arun Narayanan
2024	ElasticAST: An Audio Spectrogram Transformer for All Length and Resolutions. Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
2024	Electroglottography for the assessment of dysphonia in Parkinson's disease and multiple system atrophy. Khalid Daoudi, Solange Milhé de Saint Victor, Alexandra Foubert-Samier, Margherita Fabbri, Anne Pavy-Le Traon, Olivier Rascol, Virginie Woisard, Wassilios G. Meissner
2024	Elucidating Clock-drift Using Real-world Audios In Wireless Mode For Time-offset Insensitive End-to-End Asynchronous Acoustic Echo Cancellation. Premanand Nayak, M. Ali Basha Shaik
2024	Embedding Learning for Preference-based Speech Quality Assessment. Cheng-Hung Hu, Yusuke Yasuda, Tomoki Toda
2024	Emo-bias: A Large Scale Evaluation of Social Bias on Speech Emotion Recognition. Yi-Cheng Lin, Haibin Wu, Huang-Cheng Chou, Chi-Chun Lee, Hung-yi Lee
2024	EmoBox: Multilingual Multi-corpus Speech Emotion Recognition Toolkit and Benchmark. Ziyang Ma, Mingjie Chen, Hezhao Zhang, Zhisheng Zheng, Wenxi Chen, Xiquan Li, Jiaxin Ye, Xie Chen, Thomas Hain
2024	EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech. Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee
2024	Emotion Arithmetic: Emotional Speech Synthesis via Weight Space Interpolation. Pavan Kalyan, Preeti Rao, Preethi Jyothi, Pushpak Bhattacharyya
2024	Emotion-Aware Speech Self-Supervised Representation Learning with Intensity Knowledge. Rui Liu, Zening Ma
2024	Emotional Cues Extraction and Fusion for Multi-modal Emotion Prediction and Recognition in Conversation. Haoxiang Shi, Ziqi Liang, Jun Yu
2024	Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling. Kaushal Santosh Bhogale, Deovrat Mehendale, Niharika Parasa, Sathish Kumar Reddy G, Tahir Javed, Pratyush Kumar, Mitesh M. Khapra
2024	Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System. Lingwei Meng, Jiawen Kang, Yuejiao Wang, Zengrui Jin, Xixin Wu, Xunying Liu, Helen Meng
2024	Enabling Conversational Speech Synthesis using Noisy Spontaneous Data. Liisa Rätsep, Rasmus Lellep, Mark Fishel
2024	Enhanced ASR Robustness to Packet Loss with a Front-End Adaptation Network. Yehoshua Dissen, Shiry Yonash, Israel Cohen, Joseph Keshet
2024	Enhanced Deep Speech Separation in Clustered Ad Hoc Distributed Microphone Environments. Jihyun Kim, Stijn Kindt, Nilesh Madhu, Hong-Goo Kang
2024	Enhanced Feature Learning with Normalized Knowledge Distillation for Audio Tagging. Yuwu Tang, Ziang Ma, Haitao Zhang
2024	Enhanced Reverberation as Supervision for Unsupervised Speech Separation. Kohei Saijo, Gordon Wichern, François G. Germain, Zexu Pan, Jonathan Le Roux
2024	Enhancing Automated Audio Captioning via Large Language Models with Optimized Audio Encoding. Jizhong Liu, Gang Li, Junbo Zhang, Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Yujun Wang, Bin Wang
2024	Enhancing CTC-based speech recognition with diverse modeling units. Shiyi Han, Mingbin Xu, Zhihong Lei, Zhen Huang, Xingyu Na
2024	Enhancing Child Vocalization Classification with Phonetically-Tuned Embeddings for Assisting Autism Diagnosis. Jialu Li, Mark Hasegawa-Johnson, Karrie Karahalios
2024	Enhancing Dysarthric Speech Recognition for Unseen Speakers via Prototype-Based Adaptation. Shiyao Wang, Shiwan Zhao, Jiaming Zhou, Aobo Kong, Yong Qin
2024	Enhancing ECAPA-TDNN with Feature Processing Module and Attention Mechanism for Speaker Verification. Shiu-Hsiang Liou, Po-Cheng Chan, Chia-Ping Chen, Tzu-Chieh Lin, Chung-Li Lu, Yu-Han Cheng, Hsiang-Feng Chuang, Wei-Yu Chen
2024	Enhancing Japanese Text-to-Speech Accuracy with a Novel Combination Transformer-BERT-based G2P: Integrating Pronunciation Dictionaries and Accent Sandhi. Kiyoshi Kurihara, Masanori Sano
2024	Enhancing Modal Fusion by Alignment and Label Matching for Multimodal Emotion Recognition. Qifei Li, Yingming Gao, Yuhua Wen, Cong Wang, Ya Li
2024	Enhancing Multilingual Voice Toxicity Detection with Speech-Text Alignment. Joseph Liu, Mahesh Kumar Nandwana, Janne Pylkkönen, Hannes Heikinheimo, Morgan McGuire
2024	Enhancing Multimodal Emotion Recognition through ASR Error Compensation and LLM Fine-Tuning. Jehyun Kyung, Serin Heo, Joon-Hyuk Chang
2024	Enhancing Neural Transducer for Multilingual ASR with Synchronized Language Diarization. Amir Hussein, Desh Raj, Matthew Wiesner, Daniel Povey, Paola García, Sanjeev Khudanpur
2024	Enhancing No-Reference Speech Quality Assessment with Pairwise, Triplet Ranking Losses, and ASR Pretraining. Bao Thang Ta, Minh Tu Le, Van Hai Do, Huynh Thi Thanh Binh
2024	Enhancing Non-Matching Reference Speech Quality Assessment through Dynamic Weight Adaptation. Bao Thang Ta, Van Hai Do, Huynh Thi Thanh Binh
2024	Enhancing Out-of-Vocabulary Performance of Indian TTS Systems for Practical Applications through Low-Effort Data Strategies. Srija Anand, Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra
2024	Enhancing Partially Spoofed Audio Localization with Boundary-aware Attention Mechanism. Jiafeng Zhong, Bin Li, Jiangyan Yi
2024	Enhancing Speech and Music Discrimination Through the Integration of Static and Dynamic Features. Liangwei Chen, Xiren Zhou, Qiang Tu, Huanhuan Chen
2024	Enhancing Speech-Driven 3D Facial Animation with Audio-Visual Guidance from Lip Reading Expert. Han EunGi, Oh Hyun-Bin, Sung-Bin Kim, Corentin Nivelet Etcheberry, Suekyeong Nam, Janghoon Ju, Tae-Hyun Oh
2024	Enhancing Voice Wake-Up for Dysarthria: Mandarin Dysarthria Speech Corpus Release and Customized System Design. Ming Gao, Hang Chen, Jun Du, Xin Xu, Hongxiao Guo, Hui Bu, Jianxing Yang, Ming Li, Chin-Hui Lee
2024	Enhancing Zero-shot Audio Classification using Sound Attribute Knowledge from Large Language Models. Xuenan Xu, Pingyue Zhang, Ming Yan, Ji Zhang, Mengyue Wu
2024	Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition. Andreas Triantafyllopoulos, Björn W. Schuller
2024	Entrainment Analysis and Prosody Prediction of Subsequent Interlocutor's Backchannels in Dialogue. Keiko Ochi, Koji Inoue, Divesh Lala, Tatsuya Kawahara
2024	Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition. Yuchun Shu, Bo Hu, Yifeng He, Hao Shi, Longbiao Wang, Jianwu Dang
2024	Ethnolinguistic Identification of Vietnamese-German Heritage Speech. Thanh Lan Truong, Andrea Weber
2024	Evaluating Italian Vowel Variation with the Recurrent Neural Network Phonet. Austin Jones, Margaret E. L. Renwick
2024	Evaluating Speech Recognition Performance Towards Large Language Model Based Voice Assistants. Zhe Liu, Suyoun Kim, Ozlem Kalinli
2024	Evaluating Transformer-Enhanced Deep Reinforcement Learning for Speech Emotion Recognition. Siddique Latif, Raja Jurdak, Björn W. Schuller
2024	Evaluating a 3-factor listener model for prediction of speech intelligibility to hearing-impaired listeners. Mark A. Huckvale, Gaston Hilkhuysen
2024	Evaluating the Santa Barbara Corpus: Challenges of the Breadth of Conversational Spoken Language. Matthew Maciejewski, Dominik Klement, Ruizhe Huang, Matthew Wiesner, Sanjeev Khudanpur
2024	ExHuBERT: Enhancing HuBERT Through Block Extension and Fine-Tuning on 37 Emotion Datasets. Shahin Amiriparian, Filip Packan, Maurice Gerczuk, Björn W. Schuller
2024	Examining Vocal Tract Coordination in Childhood Apraxia of Speech with Acoustic-to-Articulatory Speech Inversion Feature Sets. Nina R. Benway, Jonathan L. Preston, Carol Y. Espy-Wilson
2024	Experimental evaluation of MOS, AB and BWS listening test designs. Dan Wells, Andrea Lorena Aldana Blanco, Cassia Valentini-Botinhao, Erica Cooper, Aidan Pine, Junichi Yamagishi, Korin Richmond
2024	Explainable by-design Audio Segmentation through Non-Negative Matrix Factorization and Probing. Martin Lebourdais, Théo Mariotte, Antonio Almudévar, Marie Tahon, Alfonso Ortega Giménez
2024	Exploiting Foundation Models and Speech Enhancement for Parkinson's Disease Detection from Speech in Real-World Operative Conditions. Moreno La Quatra, Maria Francesca Turco, Torbjørn Svendsen, Giampiero Salvi, Juan Rafael Orozco-Arroyave, Sabato Marco Siniscalchi
2024	Exploiting Wavelet Scattering Transform for an Unsupervised Speaker Diarization in Deep Neural Network Framework. Arunav Arya, Murtiza Ali, Karan Nathwani
2024	Exploring Energy-Based Models for Out-of-Distribution Detection in Dialect Identification. Yaqian Hao, Chenguang Hu, Yingying Gao, Shilei Zhang, Junlan Feng
2024	Exploring Gender-Specific Speech Patterns in Automatic Suicide Risk Assessment. Maurice Gerczuk, Shahin Amiriparian, Justina Lutz, Wolfgang Strube, Irina Papazova, Alkomiet Hasan, Björn W. Schuller
2024	Exploring Impact of Pausing and Lexical Stress Patterns on L2 English Comprehensibility in Real Time. Sylvain Coulange, Tsuneo Kato, Solange Rossato, Monica Masperi
2024	Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks. Kai-Wei Chang, Ming-Hao Hsu, Shang-wen Li, Hung-yi Lee
2024	Exploring Multilingual Unseen Speaker Emotion Recognition: Leveraging Co-Attention Cues in Multitask Learning. Arnav Goel, Medha Hira, Anubha Gupta
2024	Exploring Pre-trained Speech Model for Articulatory Feature Extraction in Dysarthric Speech Using ASR. Yuqin Lin, Longbiao Wang, Jianwu Dang, Nobuaki Minematsu
2024	Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations. Bulat Khaertdinov, Pedro Jeuris, Annanda Sousa, Enrique Hortal
2024	Exploring Self-Supervised Speech Representations for Cross-lingual Acoustic-to-Articulatory Inversion. Yun Hao, Reihaneh Amooie, Wietse de Vries, Thomas Tienkamp, Rik van Noord, Martijn Wieling
2024	Exploring Self-supervised Embeddings and Synthetic Data Augmentation for Robust Audio Deepfake Detection. Juan M. Martín-Doñas, Aitor Álvarez, Eros Rosello, Angel M. Gomez, Antonio M. Peinado
2024	Exploring Sentence Type Effects on the Lombard Effect and Intelligibility Enhancement: A Comparative Study of Natural and Grid Sentences. Hongyang Chen, Yuhong Yang, Zhongyuan Wang, Weiping Tu, Haojun Ai, Cedar Lin
2024	Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions. Anfeng Xu, Kevin Huang, Tiantian Feng, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan
2024	Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech. Martina Valente, Fabio Brugnara, Giovanni Morrone, Enrico Zovato, Leonardo Badino
2024	Exploring Syllable Discriminability during Diadochokinetic Task with Increasing Dysarthria Severity for Patients with Amyotrophic Lateral Sclerosis. Neelesh Samptur, Tanuka Bhattacharjee, Anirudh Chakravarty K, Seena Vengalil, Yamini Belur, Atchayaram Nalini, Prasanta Kumar Ghosh
2024	Exploring adaptation techniques of large speech foundation models for low-resource ASR: a case study on Northern Sámi. Yaroslav Getman, Tamás Grósz, Katri Hiovain-Asikainen, Mikko Kurimo
2024	Exploring compressibility of transformer based text-to-music (TTM) models. Vasileios Moschopoulos, Thanasis Kotsiopoulos, Pablo Peso Parada, Konstantinos Nikiforidis, Alexandros Stergiadis, Gerasimos Papakostas, Md Asif Jalal, Jisi Zhang, Anastasios Drosou, Karthikeyan Saravanan
2024	Exploring the Benefits of Tokenization of Discrete Acoustic Units. Avihu Dekel, Raul Fernandez
2024	Exploring the Capability of Mamba in Speech Applications. Koichi Miyazaki, Yoshiki Masuyama, Masato Murata
2024	Exploring the Complementary Nature of Speech and Eye Movements for Profiling Neurological Disorders. Yuzhe Wang, Anna Favaro, Thomas Thebaud, Jesús Villalba, Najim Dehak, Laureano Moro-Velázquez
2024	Exploring the Robustness of Text-to-Speech Synthesis Based on Diffusion Probabilistic Models to Heavily Noisy Transcriptions. Jingyi Feng, Yusuke Yasuda, Tomoki Toda
2024	Exploring the anatomy of articulation rate in spontaneous English speech: relationships between utterance length effects and social factors. James Tanner, Morgan Sonderegger, Jane Stuart-Smith, Tyler Kendall, Jeff Mielke, Robin Dodsworth, Erik Thomas
2024	Exploring the limits of decoder-only models trained on public speech recognition corpora. Ankit Gupta, George Saon, Brian Kingsbury
2024	Expressive paragraph text-to-speech synthesis with multi-step variational autoencoder. Xuyuan Li, Zengqiang Shang, Peiyang Shi, Hua Hua, Ta Li, Pengyuan Zhang
2024	Extraction of interpretable and shared speaker-specific speech attributes through binary auto-encoder. Imen Ben Amor, Jean-François Bonastre, Salima Mdhaffar
2024	FA-GAN: Artifacts-free and Phase-aware High-fidelity GAN-based Vocoder. Rubing Shen, Yanzhen Ren, Zongkun Sun
2024	FLEURS-R: A Restored Multilingual Speech Corpus for Generation Tasks. Min Ma, Yuma Koizumi, Shigeki Karita, Heiga Zen, Jason Riesa, Haruko Ishikawa, Michiel Bacchiani
2024	FLY-TTS: Fast, Lightweight and High-Quality End-to-End Text-to-Speech Synthesis. Yinlin Guo, Yening Lv, Jinqiao Dou, Yan Zhang, Yuehai Wang
2024	FVTTS : Face Based Voice Synthesis for Text-to-Speech. Minyoung Lee, Eunil Park, Sungeun Hong
2024	Factor-Conditioned Speaking-Style Captioning. Atsushi Ando, Takafumi Moriya, Shota Horiguchi, Ryo Masumura
2024	FakeSound: Deepfake General Audio Detection. Zeyu Xie, Baihan Li, Xuenan Xu, Zheng Liang, Kai Yu, Mengyue Wu
2024	Familiar and Unfamiliar Speaker Identification in Speech and Singing. Katelyn Taylor, Amelia Jane Gully, Helena Daffern
2024	Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter. Andrei Andrusenko, Aleksandr Laptev, Vladimir Bataev, Vitaly Lavrukhin, Boris Ginsburg
2024	FastAST: Accelerating Audio Spectrogram Transformer via Token Merging and Cross-Model Knowledge Distillation. Swarup Ranjan Behera, Abhishek Dhiman, Karthik Gowda, Aalekhya Satya Narayani
2024	FastLips: an End-to-End Audiovisual Text-to-Speech System with Lip Features Prediction for Virtual Avatars. Martin Lenglet, Olivier Perrotin, Gérard Bailly
2024	FastVoiceGrad: One-step Diffusion-Based Voice Conversion with Adversarial Conditional Diffusion Distillation. Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo
2024	Faster Vocoder: a multi threading approach to achieve low latency during TTS Inference. Vishal Gourav, Ankit Tyagi, Phanindra Mankale
2024	Few-Shot Keyword Spotting from Mixed Speech. Junming Yuan, Ying Shi, Lantian Li, Dong Wang, Askar Hamdulla
2024	Few-Shot Keyword-Incremental Learning with Total Calibration. Ilseok Kim, Ju-Seok Seong, Joon-Hyuk Chang
2024	Finding Task-specific Subnetworks in Multi-task Spoken Language Understanding Model. Hayato Futami, Siddhant Arora, Yosuke Kashiwagi, Emiru Tsunoo, Shinji Watanabe
2024	Fine-Grained and Interpretable Neural Speech Editing. Max Morrison, Cameron Churchwell, Nathan Pruyne, Bryan Pardo
2024	Fine-Tuning Automatic Speech Recognition for People with Parkinson's: An Effective Strategy for Enhancing Speech Technology Accessibility. Xiuwen Zheng, Bornali Phukon, Mark Hasegawa-Johnson
2024	Fine-Tuning Strategies for Dutch Dysarthric Speech Recognition: Evaluating the Impact of Healthy, Disease-Specific, and Speaker-Specific Data. Spyretta Leivaditi, Tatsunari Matsushima, Matt Coler, Shekhar Nayak, Vass Verkhodanova
2024	Fine-tune Pre-Trained Models with Multi-Level Feature Fusion for Speaker Verification. Shengyu Peng, Wu Guo, Haochen Wu, Zuoliang Li, Jie Zhang
2024	Fine-tuning of Pre-trained Models for Classification of Vocal Intensity Category from Speech Signals. Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku
2024	FlowAVSE: Efficient Audio-Visual Speech Enhancement with Conditional Flow Matching. Chaeyoung Jung, Suyeon Lee, Ji-Hoon Kim, Joon Son Chung
2024	FluentEditor: Text-based Speech Editing by Considering Acoustic and Prosody Consistency. Rui Liu, Jiatian Xi, Ziyue Jiang, Haizhou Li
2024	FoVNet: Configurable Field-of-View Speech Enhancement with Low Computation and Distortion for Smart Glasses. Zhongweiyang Xu, Ali Aroudi, Ke Tan, Ashutosh Pandey, Jung-Suk Lee, Buye Xu, Francesco Nesta
2024	Form and Function in Prosodic Representation: In the Case of 'ma' in Tianjin Mandarin. Tianqi Geng, Hui Feng
2024	Frame-Wise Breath Detection with Self-Training: An Exploration of Enhancing Breath Naturalness in Text-to-Speech. Dong Yang, Tomoki Koriyama, Yuki Saito
2024	FreeV: Free Lunch For Vocoders Through Pseudo Inversed Mel Filter. Yuanjun Lv, Hai Li, Ying Yan, Junhui Liu, Danming Xie, Lei Xie
2024	Frequency-mix Knowledge Distillation for Fake Speech Detection. Cunhang Fan, Shunbo Dong, Jun Xue, Yujie Chen, Jiangyan Yi, Zhao Lv
2024	Frication noise features of Polish voiceless dental fricative and affricate produced by children with and without speech disorder. Zuzanna Miodonska, Michal Krecichwost, Ewa Kwasniok, Agata Sage, Pawel Badura
2024	From Sound to Meaning in the Auditory Cortex: A Neuronal Representation and Classification Analysis. Kumar Neelabh, Vishnu Sreekumar
2024	From Text to Emotion: Unveiling the Emotion Annotation Capabilities of LLMs. Minxue Niu, Mimansa Jaiswal, Emily Mower Provost
2024	Frontier of Frontend for Conversational Speech Processing. Shoko Araki
2024	Fully Few-shot Class-incremental Audio Classification Using Expandable Dual-embedding Extractor. Yongjie Si, Yanxiong Li, Jialong Li, Jiaxin Tan, Qianhua He
2024	G2PA: G2P with Aligned Audio for Mandarin Chinese. Xingxing Yang
2024	GLOBE: A High-quality English Corpus with Global Accents for Zero-shot Speaker Adaptive Text-to-Speech. Wenbin Wang, Yang Song, Sanjay Jha
2024	GPA: Global and Prototype Alignment for Audio-Text Retrieval. Yuxin Xie, Zhihong Zhu, Xianwei Zhuang, Liming Liang, Zhichang Wang, Yuexian Zou
2024	GSQA: An End-to-End Model for Generative Spoken Question Answering. Min-Han Shih, Ho-Lam Chung, Yu-Chi Pai, Ming-Hao Hsu, Guan-Ting Lin, Shang-wen Li, Hung-yi Lee
2024	GTR-Voice: Articulatory Phonetics Informed Controllable Expressive Speech Synthesis. Zehua Kcriss Li, Meiying Melissa Chen, Yi Zhong, Pinxin Liu, Zhiyao Duan
2024	GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model. Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng
2024	Gender Representation in TV and Radio: Automatic Information Extraction methods versus Manual Analyses. David Doukhan, Lena Dodson, Manon Conan, Valentin Pelloin, Aurélien Clamouse, Mélina Lepape, Géraldine Van Hille, Cécile Méadel, Marlène Coulomb-Gully
2024	Gender and Language Identification in Multilingual Models of Speech: Exploring the Genericity and Robustness of Speech Representations. Séverine Guillaume, Maxime Fily, Alexis Michaud, Guillaume Wisniewski
2024	Gender and age based f0-variation in the German Plapper Corpus. Melanie Weirich, Daniel Duran, Stefanie Jannedy
2024	Generalized Fake Audio Detection via Deep Stable Learning. Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Yuankun Xie, Yukun Liu, Xiaopeng Wang, Xuefei Liu, Yongwei Li, Jianhua Tao, Xin Qi, Yi Lu, Shuchen Shi
2024	Generalized Source Tracing: Detecting Novel Audio Deepfake Algorithm with Real Emphasis and Fake Dispersion Strategy. Yuankun Xie, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Xiaopeng Wang, Haonan Cheng, Long Ye, Jianhua Tao
2024	Generating Speakers by Prompting Listener Impressions for Pre-trained Multi-Speaker Text-to-Speech Systems. Zhengyang Chen, Xuechen Liu, Erica Cooper, Junichi Yamagishi, Yanmin Qian
2024	Genhancer: High-Fidelity Speech Enhancement via Generative Modeling on Discrete Codec Tokens. Haici Yang, Jiaqi Su, Minje Kim, Zeyu Jin
2024	Genuine-Focused Learning using Mask AutoEncoder for Generalized Fake Audio Detection. Xiaopeng Wang, Ruibo Fu, Zhengqi Wen, Zhiyong Wang, Yuankun Xie, Yukun Liu, Jianhua Tao, Xuefei Liu, Yongwei Li, Xin Qi, Yi Lu, Shuchen Shi
2024	Getting More for Less: Using Weak Labels and AV-Mixup for Robust Audio-Visual Speaker Verification. Anith Selvakumar, Homa Fashandi
2024	Global-Local Convolution with Spiking Neural Networks for Energy-efficient Keyword Spotting. Shuai Wang, Dehao Zhang, Kexin Shi, Yuchen Wang, Wenjie Wei, Jibin Wu, Malu Zhang
2024	Glottal inverse filtering and vocal tract tuning for the numerical simulation of vowel /a/ with different levels of vocal effort. Marc Freixes, Marc Arnela, Joan Claudi Socoró, Luis Joglar-Ongay, Oriol Guasch, Francesc Alías Pujol
2024	Graph Attention Based Multi-Channel U-Net for Speech Dereverberation With Ad-Hoc Microphone Arrays. Hongmei Guo, Yijiang Chen, Xiaolei Zhang, Xuelong Li
2024	Gryannote open-source speaker diarization labeling tool. Clément Pages, Hervé Bredin
2024	Guided conditioning with predictive network on score-based diffusion model for speech enhancement. Dail Kim, Da-Hee Yang, Donghyun Kim, Joon-Hyuk Chang, Jeonghwan Choi, Moa Lee, Jaemo Yang, Han-Gil Moon
2024	Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation. Eungbeom Kim, Hantae Kim, Kyogu Lee
2024	H4C-TTS: Leveraging Multi-Modal Historical Context for Conversational Text-to-Speech. Donghyun Seong, Joon-Hyuk Chang
2024	Harder or Different? Understanding Generalization of Audio Deepfake Detection. Nicolas M. Müller, Nicholas W. D. Evans, Hemlata Tak, Philip Sperl, Konstantin Böttinger
2024	HarmoNet: Partial DeepFake Detection Network based on Multi-scale HarmoF0 Feature Fusion. Liwei Liu, Huihui Wei, Dongya Liu, Zhonghua Fu
2024	Hear Your Face: Face-based voice conversion with F0 estimation. Jaejun Lee, Yoori Oh, Injune Hwang, Kyogu Lee
2024	HebDB: a Weakly Supervised Dataset for Hebrew Speech Processing. Arnon Turetzky, Or Tal, Yael Segal, Yehoshua Dissen, Ella Zeldes, Amit Roth, Eyal Cohen, Yosi Shrem, Bronya Roni Chernyak, Olga Seleznova, Joseph Keshet, Yossi Adi
2024	Hierarchical Distribution Adaptation for Unsupervised Cross-corpus Speech Emotion Recognition. Cheng Lu, Yuan Zong, Yan Zhao, Hailun Lian, Tianhua Qi, Björn W. Schuller, Wenming Zheng
2024	Hierarchical Multi-Task Learning with CTC and Recursive Operation. Nahomi Kusunoki, Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi
2024	High Fidelity Text-to-Speech Via Discrete Tokens Using Token Transducer and Group Masked Language Model. Joun Yeop Lee, Myeonghun Jeong, Minchan Kim, Ji-Hyun Lee, Hoon-Young Cho, Nam Soo Kim
2024	Highly Intelligible Speaker-Independent Articulatory Synthesis. Charles McGhee, Kate M. Knill, Mark J. F. Gales
2024	Hold Me Tight: Stable Encoder-Decoder Design for Speech Enhancement. Daniel Haider, Felix Perfler, Vincent Lostanlen, Martin Ehler, Peter Balazs
2024	Homograph Disambiguation with Text-to-Text Transfer Transformer. Markéta Rezácková, Daniel Tihelka, Jindrich Matousek
2024	How Consistent are Speech-Based Biomarkers in Remote Tracking of ALS Disease Progression Across Languages? A Case Study of English and Dutch. Hardik Kothare, Michael Neumann, Cathy Zhang, Jackson Liscombe, Jordi W. J. van Unnik, Lianne C. M. Botman, Leonard H. van den Berg, Ruben P. A van Eijk, Vikram Ramanarayanan
2024	How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio? Tianchi Liu, Lin Zhang, Rohan Kumar Das, Yi Ma, Ruijie Tao, Haizhou Li
2024	How Does Alignment Error Affect Automated Pronunciation Scoring in Children's Speech? Prad Kadambi, Tristan J. Mahr, Lucas Annear, Henry Nomeland, Julie Liss, Katherine C. Hustad, Visar Berisha
2024	How Much Context Does My Attention-Based ASR System Need? Robert Flynn, Anton Ragni
2024	How Private is Low-Frequency Speech Audio in the Wild? An Analysis of Verbal Intelligibility by Humans and Machines. Ailin Liu, Pepijn Vunderink, Jose Vargas Quiros, Chirag Raman, Hayley Hung
2024	How Should We Extract Discrete Audio Tokens from Self-Supervised Models? Pooneh Mousavi, Jarod Duret, Salah Zaiem, Luca Della Libera, Artem Ploujnikov, Cem Subakan, Mirco Ravanelli
2024	How rhythm metrics are linked to produced and perceived speaker charisma. Oliver Niebuhr, Nafiseh Taghva
2024	HuBERT-EE: Early Exiting HuBERT for Efficient Speech Recognition. Ji Won Yoon, Beom Jun Woo, Nam Soo Kim
2024	Human-like Linguistic Biases in Neural Speech Models: Phonetic Categorization and Phonotactic Constraints in Wav2Vec2.0. Marianne de Heer Kloots, Willem H. Zuidema
2024	Hybrid-Diarization System with Overlap Post-Processing for the DISPLACE 2024 Challenge. Gabriel Pirlogeanu, Octavian Pascu, Alexandru-Lucian Georgescu, Horia Cucu
2024	HybridVC: Efficient Voice Style Conversion with Text and Audio Prompts. Xinlei Niu, Jing Zhang, Charles Patrick Martin
2024	HypR: A comprehensive study for ASR hypothesis revising with a reference corpus. Yiwei Wang, Ke-Han Lu, Kuan-Yu Chen
2024	IIITH Ucchar e-Sudharak: an automatic English pronunciation corrector for school-going children with a teacher in the loop. Meenakshi Sirigiraju, Arjun Rajasekar, Abhishikth Meejuri, Chiranjeevi Yarra
2024	INTERSPEECH 2009 Emotion Challenge Revisited: Benchmarking 15 Years of Progress in Speech Emotion Recognition. Andreas Triantafyllopoulos, Anton Batliner, Simon David Noel Rampp, Manuel Milling, Björn W. Schuller
2024	Identifying Speakers in Dialogue Transcripts: A Text-based Approach Using Pretrained Language Models. Minh Nguyen, Franck Dernoncourt, Seunghyun Yoon, Hanieh Deilamsalehy, Hao Tan, Ryan A. Rossi, Quan Hung Tran, Trung Bui, Thien Huu Nguyen
2024	Impact of the tonal factor on diphthong realizations in Standard Mandarin with Generalized Additive Mixed Models. Chenyu Li, Jalal Al-Tamimi
2024	Improved Factorized Neural Transducer Model For Text-only Domain Adaptation. Junzhe Liu, Jianwei Yu, Xie Chen
2024	Improved Remixing Process for Domain Adaptation-Based Speech Enhancement by Mitigating Data Imbalance in Signal-to-Noise Ratio. Li Li, Shogo Seki
2024	Improvement Speaker Similarity for Zero-Shot Any-to-Any Voice Conversion of Whispered and Regular Speech. Aleksei Gusev, Anastasia Avdeeva
2024	Improving Audio Classification with Low-Sampled Microphone Input: An Empirical Study Using Model Self-Distillation. Dawei Liang, Alice Zhang, David Harwath, Edison Thomaz
2024	Improving Audio Codec-based Zero-Shot Text-to-Speech Synthesis with Multi-Modal Context and Large Language Model. Jinlong Xue, Yayue Deng, Yicheng Han, Yingming Gao, Ya Li
2024	Improving Copy-Synthesis Anti-Spoofing Training Method with Rhythm and Speaker Perturbation. Jingze Lu, Yuxiang Zhang, Zhuo Li, Zengqiang Shang, Wenchao Wang, Pengyuan Zhang
2024	Improving Domain-Specific ASR with LLM-Generated Contextual Descriptions. Jiwon Suh, Injae Na, Woohwan Jung
2024	Improving Generalization of Speech Separation in Real-World Scenarios: Strategies in Simulation, Optimization, and Evaluation. Ke Chen, Jiaqi Su, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Zeyu Jin
2024	Improving Multilingual ASR Robustness to Errors in Language Input. Brady Houston, Omid Sadjadi, Zejiang Hou, Srikanth Vishnubhotla, Kyu J. Han
2024	Improving Multilingual Text-to-Speech with Mixture-of-Language-Experts and Accent Disentanglement. Jing Wu, Ting Chen, Minchuan Chen, Wei Hu, Shaojun Wang, Jing Xiao
2024	Improving Neural Biasing for Contextual Speech Recognition by Early Context Injection and Text Perturbation. Ruizhe Huang, Mahsa Yarmohammadi, Sanjeev Khudanpur, Daniel Povey
2024	Improving Noise Robustness in Self-supervised Pre-trained Model for Speaker Verification. Chan-yeong Lim, Hyun-seo Shin, Ju-ho Kim, Jungwoo Heo, Kyo-Won Koo, Seung-Bin Kim, Ha-Jin Yu
2024	Improving Robustness of LLM-based Speech Synthesis by Learning Monotonic Alignment. Paarth Neekhara, Shehzeen Hussain, Subhankar Ghosh, Jason Li, Boris Ginsburg
2024	Improving Self-supervised Pre-training using Accent-Specific Codebooks. Darshan Prabhu, Abhishek Gupta, Omkar Nitsure, Preethi Jyothi, Sriram Ganapathy
2024	Improving Speech Enhancement by Integrating Inter-Channel and Band Features with Dual-branch Conformer. Jizhen Li, Xinmeng Xu, Weiping Tu, Yuhong Yang, Rong Zhu
2024	Improving Speech Recognition with Prompt-based Contextualized ASR and LLM-based Re-predictor. Nguyen Manh Tien Anh, Thach Ho Sy
2024	Improving Speech-Based Dysarthria Detection using Multi-task Learning with Gradient Projection. Yan Xiong, Visar Berisha, Julie Liss, Chaitali Chakrabarti
2024	Improving Streaming Speech Recognition With Time-Shifted Contextual Attention And Dynamic Right Context Masking. Khanh Le, Duc Chau
2024	Improving Whisper's Recognition Performance for Under-Represented Language Kazakh Leveraging Unpaired Speech and Text. Jinpeng Li, Yu Pu, Qi Sun, Wei-Qiang Zhang
2024	Improving child speech recognition with augmented child-like speech. Yuanyuan Zhang, Zhengjun Yue, Tanvina Patel, Odette Scharenborg
2024	In search of structure and correspondence in intra-speaker trial-to-trial variability. Vivian Guo Li
2024	Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation. Dena F. Mujtaba, Nihar R. Mahapatra, Megan Arney, J. Scott Yaruss, Caryn Herring, Jia Bin
2024	Incorporating Class-based Language Model for Named Entity Recognition in Factorized Neural Transducer. Peng Wang, Yifan Yang, Zheng Liang, Tian Tan, Shiliang Zhang, Xie Chen
2024	IndicMOS: Multilingual MOS Prediction for 7 Indian languages. Sathvik Udupa, Soumi Maiti, Prasanta Kumar Ghosh
2024	Influences of Morphosyntax and Semantics on the Intonation of Mandarin Chinese Wh-indeterminates. Hongchen Wu, Jiwon Yun
2024	Information-theoretic hypothesis generation of relative cue weighting for the voicing contrast. Annika Heuser, Jianjing Kuang
2024	Infusing Acoustic Pause Context into Text-Based Dementia Assessment. Franziska Braun, Sebastian P. Bayerl, Florian Hönig, Hartmut Lehfeld, Thomas Hillemacher, Tobias Bocklet, Korbinian Riedhammer
2024	Instruction Data Generation and Unsupervised Adaptation for Speech Language Models. Vahid Noroozi, Zhehuai Chen, Somshubra Majumdar, Steve Huang, Jagadeesh Balam, Boris Ginsburg
2024	Integrating Speech Self-Supervised Learning Models and Large Language Models for ASR. Ling Dong, Zhengtao Yu, Wenjun Wang, Yuxin Huang, Shengxiang Gao, Guojiang Zhou
2024	InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions. Yu Nakagome, Michael Hentschel
2024	Interface Design for Self-Supervised Speech Models. Yi-Jen Shih, David Harwath
2024	Interference Aware Training Target for DNN based joint Acoustic Echo Cancellation and Noise Suppression. Vahid Khanagha, Dimitris Koutsaidis, Kaustubh Kalgaonkar, Sriram Srinivasan
2024	Interleaved Audio/Audiovisual Transfer Learning for AV-ASR in Low-Resourced Languages. Zhengyang Li, Patrick Blumenberg, Jing Liu, Thomas Graave, Timo Lohrenz, Siegfried Kunzmann, Tim Fingscheidt
2024	Interpretable Temporal Class Activation Representation for Audio Spoofing Detection. Menglu Li, Xiao-Ping Zhang
2024	Introduction To Partial Fine-tuning: A Comprehensive Evaluation Of End-to-end Children's Automatic Speech Recognition Adaptation. Thomas Rolland, Alberto Abad
2024	Intrusive schwa within French stop-liquid clusters: An acoustic analysis. Minmin Yang, Rachid Ridouane
2024	Investigating ASR Error Correction with Large Language Model and Multilingual 1-best Hypotheses. Sheng Li, Chen Chen, Kwok Chin Yuen, Chenhui Chu, Eng Siong Chng, Hisashi Kawai
2024	Investigating Confidence Estimation Measures for Speaker Diarization. Anurag Chowdhury, Abhinav Misra, Mark C. Fuhs, Monika Woszczyna
2024	Investigating Decoder-only Large Language Models for Speech-to-text Translation. Chao-Wei Huang, Hui Lu, Hongyu Gong, Hirofumi Inaguma, Ilia Kulikov, Ruslan Mavlyutov, Sravya Popuri
2024	Investigating self-supervised speech models' ability to classify animal vocalizations: The case of gibbon's vocal signatures. Jules Cauzinille, Benoît Favre, Ricard Marxer, Dena J. Clink, Abdul Hamid Ahmad, Arnaud Rey
2024	Investigating the Effect of Label Topology and Training Criterion on ASR Performance and Alignment Quality. Tina Raissi, Christoph Lüscher, Simon Berger, Ralf Schlüter, Hermann Ney
2024	Investigating the Influence of Stance-Taking on Conversational Timing of Task-Oriented Speech. Sara Ng, Gina-Anne Levow, Mari Ostendorf, Richard A. Wright
2024	Investigation of Layer-Wise Speech Representations in Self-Supervised Learning Models: A Cross-Lingual Study in Detecting Depression. Bubai Maji, Rajlakshmi Guha, Aurobinda Routray, Shazia Nasreen, Debabrata Majumdar
2024	Investigation of look-ahead techniques to improve response time in spoken dialogue system. Masaya Ohagi, Tomoya Mizumoto, Katsumasa Yoshikawa
2024	It's Time to Take Action: Acoustic Modeling of Motor Verbs to Detect Parkinson's Disease. Daniel Escobar-Grisales, Cristian David Ríos-Urrego, Ilja Baumann, Korbinian Riedhammer, Elmar Nöth, Tobias Bocklet, Adolfo M. García, Juan Rafael Orozco-Arroyave
2024	Iterative Prototype Refinement for Ambiguous Speech Emotion Recognition. Haoqin Sun, Shiwan Zhao, Xiangyu Kong, Xuechen Wang, Hui Wang, Jiaming Zhou, Yong Qin
2024	JenGAN: Stacked Shifted Filters in GAN-Based Speech Synthesis. Hyunjae Cho, Junhyeok Lee, Wonbin Jung
2024	Joint Learning of Context and Feedback Embeddings in Spoken Dialogue. Livia Qian, Gabriel Skantze
2024	Joint Speaker Features Learning for Audio-visual Multichannel Speech Separation and Recognition. Guinan Li, Jiajun Deng, Youjun Chen, Mengzhe Geng, Shujie Hu, Zhe Li, Zengrui Jin, Tianzi Wang, Xurong Xie, Helen Meng, Xunying Liu
2024	Joint prediction of subjective listening effort and speech intelligibility based on end-to-end learning. Dirk Eike Hoffner, Jana Roßbach, Bernd T. Meyer
2024	Joint vs Sequential Speaker-Role Detection and Automatic Speech Recognition for Air-traffic Control. Alexander Blatt, Aravind Krishnan, Dietrich Klakow
2024	Just Because We Camp, Doesn't Mean We Should: The Ethics of Modelling Queer Voices. Atli Sigurgeirsson, Eddie L. Ungless
2024	K-means and hierarchical clustering of f0 contours. Constantijn Kaland, Jeremy Steffman, Jennifer Cole
2024	Keep, Delete, or Substitute: Frame Selection Strategy for Noise-Robust Speech Emotion Recognition. Seong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso
2024	Key Acoustic Cues for the Realization of Metrical Prominence in Tone Languages: A Cross-Dialect Study. Yiying Hu, Hui Feng
2024	Key-Element-Informed sLLM Tuning for Document Summarization. Sangwon Ryu, Heejin Do, Yunsu Kim, Gary Geunbae Lee, Jungseul Ok
2024	Keyword-Guided Adaptation of Automatic Speech Recognition. Aviv Shamsian, Aviv Navon, Neta Glazer, Gill Hetz, Joseph Keshet
2024	Knowledge Distillation for Tiny Speech Enhancement with Latent Feature Augmentation. Behnam Gholami, Mostafa El-Khamy, Kee-Bong Song
2024	Knowledge Distillation from Self-Supervised Representation Learning Model with Discrete Speech Units for Any-to-Any Streaming Voice Conversion. Hiroki Kanagawa, Yusuke Ijima
2024	Knowledge boosting during low-latency inference. Vidya Srinivas, Malek Itani, Tuochao Chen, Sefik Emre Eskimez, Takuya Yoshioka, Shyamnath Gollakota
2024	Knowledge-Preserving Pluggable Modules for Multilingual Speech Translation Tasks. Nan Chen, Yonghe Wang, Feilong Bao
2024	LAFMA: A Latent Flow Matching Model for Text-to-Audio Generation. Wenhao Guan, Kaidi Wang, Wangjin Zhou, Yang Wang, Feng Deng, Hui Wang, Lin Li, Qingyang Hong, Yong Qin
2024	LAHAJA: A Robust Multi-accent Benchmark for Evaluating Hindi ASR Systems. Tahir Javed, Janki Nawale, Sakshi Joshi, Eldho Ittan George, Kaushal Santosh Bhogale, Deovrat Mehendale, Mitesh M. Khapra
2024	LASER: Learning by Aligning Self-supervised Representations of Speech for Improving Content-related Tasks. Amit Meghanani, Thomas Hain
2024	LDM-SVC: Latent Diffusion Model Based Zero-Shot Any-to-Any Singing Voice Conversion with Singer Guidance. Shihao Chen, Yu Gu, Jie Zhang, Na Li, Rilin Chen, Liping Chen, Lirong Dai
2024	LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition. Eunseop Yoon, Hee Suk Yoon, John B. Harvill, Mark Hasegawa-Johnson, Chang D. Yoo
2024	LLM-Driven Multimodal Opinion Expression Identification. Bonian Jia, Huiyao Chen, Yueheng Sun, Meishan Zhang, Min Zhang
2024	LUPET: Incorporating Hierarchical Information Path into Multilingual ASR. Wei Liu, Jingyong Hou, Dong Yang, Muyong Cao, Tan Lee
2024	Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition. Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee
2024	Large Language Model-based FMRI Encoding of Language Functions for Subjects with Neurocognitive Disorder. Yuejiao Wang, Xianmin Gong, Lingwei Meng, Xixin Wu, Helen Meng
2024	Large Language Models for Dysfluency Detection in Stuttered Speech. Dominik Wagner, Sebastian P. Bayerl, Ilja Baumann, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet
2024	Learn and Don't Forget: Adding a New Language to ASR Foundation Models. Mengjie Qian, Siyuan Tang, Rao Ma, Kate M. Knill, Mark J. F. Gales
2024	Learnable Layer Selection and Model Fusion for Speech Self-Supervised Learning Models. Sheng-Chieh Chiu, Chia-Hua Wu, Jih-Kang Hsieh, Yu Tsao, Hsin-Min Wang
2024	LearnerVoice: A Dataset of Non-Native English Learners' Spontaneous Speech. Haechan Kim, Junho Myung, Seoyoung Kim, Sungpah Lee, Dongyeop Kang, Juho Kim
2024	Learning Fine-Grained Controllability on Speech Generation via Efficient Fine-Tuning. Chung-Ming Chien, Andros Tjandra, Apoorv Vyas, Matt Le, Bowen Shi, Wei-Ning Hsu
2024	Learning Pronunciation from Other Accents via Pronunciation Knowledge Transfer. Siqi Sun, Korin Richmond
2024	Learning Representation of Therapist Empathy in Counseling Conversation Using Siamese Hierarchical Attention Network. Dehua Tao, Tan Lee, Harold Chui, Sarah Luk
2024	Learning from Back Chunks: Acquiring More Future Knowledge for Streaming ASR Models via Self Distillation. Yuting Yang, Guodong Ma, Yuke Li, Binbin Du, Haoqi Zhu, Liang Ruan
2024	Learning from Multiple Annotator Biased Labels in Multimodal Conversation. Kazutoshi Shinoda, Nobukatsu Hojo, Saki Mizuno, Keita Suzuki, Satoshi Kobashikawa, Ryo Masumura
2024	Learning from memory-based models. Rhiannon Mogridge, Anton Ragni
2024	Learnings from curating a trustworthy, well-annotated, and useful dataset of disordered English speech. Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek, Robert L. MacDonald, Katie Seaver, Richard Cave, Marilyn A. Ladewig, Rus Heywood, Jordan R. Green
2024	Less is More: Accurate Speech Recognition & Translation without Web-Scale Data. Krishna C. Puvvada, Piotr Zelasko, He Huang, Oleksii Hrinchuk, Nithin Rao Koluguri, Kunal Dhawan, Somshubra Majumdar, Elena Rastorgueva, Zhehuai Chen, Vitaly Lavrukhin, Jagadeesh Balam, Boris Ginsburg
2024	Leveraging Adapter for Parameter-Efficient ASR Encoder. Kyuhong Shim, Jinkyu Lee, Hyunjae Kim
2024	Leveraging Graphic and Convolutional Neural Networks for Auditory Attention Detection with EEG. Saurav Pahuja, Gabriel Ivucic, Pascal Himmelmann, Siqi Cai, Tanja Schultz, Haizhou Li
2024	Leveraging Language Model Capabilities for Sound Event Detection. Hualei Wang, Jianguo Mao, Zhifang Guo, Jiarui Wan, Hong Liu, Xiangdong Wang
2024	Leveraging Large Language Models to Refine Automatic Feedback Generation at Articulatory Level in Computer Aided Pronunciation Training. Huihang Zhong, Yanlu Xie, ZiJin Yao
2024	Leveraging Phonemic Transcription and Whisper toward Clinically Significant Indices for Automatic Child Speech Assessment. Yeh-Sheng Lin, Shu-Chuan Tseng, Jyh-Shing Roger Jang
2024	Leveraging Speech Data Diversity to Document Indigenous Heritage and Culture. Allahsera Tapo, Éric Le Ferrand, Zoey Liu, Christopher Homan, Emily Prud'hommeaux
2024	Leveraging Universal Speech Representations for Detecting and Assessing the Severity of Mild Cognitive Impairment Across Languages. Anna Favaro, Tianyu Cao, Najim Dehak, Laureano Moro-Velázquez
2024	Leveraging large language models for post-transcription correction in contact centers. Bramhendra Koilakuntla, Prajesh Rana, Paras Ahuja, Srikanth Konjeti, Jithendra Vepa
2024	LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning. Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana
2024	LibriheavyMix: A 20, 000-Hour Dataset for Single-Channel Reverberant Multi-Talker Speech Separation, ASR and Speaker Diarization. Zengrui Jin, Yifan Yang, Mohan Shi, Wei Kang, Xiaoyu Yang, Zengwei Yao, Fangjun Kuang, Liyong Guo, Lingwei Meng, Long Lin, Yong Xu, Shi-Xiong Zhang, Daniel Povey
2024	Lifelong Learning MOS Prediction for Synthetic Speech Quality Evaluation. Félix Saget, Meysam Shamsi, Marie Tahon
2024	Lightweight Audio Segmentation for Long-form Speech Translation. Jaesong Lee, Soyoon Kim, Hanbyul Kim, Joon Son Chung
2024	Lightweight Dynamic Sparse Transformer for Monaural Speech Enhancement. Zehua Zhang, Xuyi Zhuang, Yukun Qian, Mingjiang Wang
2024	Lightweight Transducer Based on Frame-Level Criterion. Genshun Wan, Mengzhi Wang, Tingzhi Mao, Hang Chen, Zhongfu Ye
2024	Lightweight Zero-shot Text-to-Speech with Mixture of Adapters. Kenichi Fujita, Takanori Ashihara, Marc Delcroix, Yusuke Ijima
2024	Linear-Complexity Self-Supervised Learning for Speech Processing. Shucong Zhang, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya
2024	LingWav2Vec2: Linguistic-augmented wav2vec 2.0 for Vietnamese Mispronunciation Detection. Tuan Nguyen, Huy Dat Tran
2024	LipGER: Visually-Conditioned Generative Error Correction for Robust Automatic Speech Recognition. Sreyan Ghosh, Sonal Kumar, Ashish Seth, Purva Chiniya, Utkarsh Tyagi, Ramani Duraiswami, Dinesh Manocha
2024	Listeners' F0 preferences in quiet and stationary noise. Olympia Simantiraki, Martin Cooke
2024	LiteFocus: Accelerated Diffusion Inference for Long Audio Synthesis. Zhenxiong Tan, Xinyin Ma, Gongfan Fang, Xinchao Wang
2024	LiveSpeech: Low-Latency Zero-shot Text-to-Speech via Autoregressive Modeling of Audio Discrete Codes. Trung Dang, David Aponte, Dung N. Tran, Kazuhito Koishida
2024	LoRA-MER: Low-Rank Adaptation of Pre-Trained Speech Models for Multimodal Emotion Recognition Using Mutual Information. Yunrui Cai, Zhiyong Wu, Jia Jia, Helen Meng
2024	LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR. Zheshu Song, Jianheng Zhuo, Yifan Yang, Ziyang Ma, Shixiong Zhang, Xie Chen
2024	Locally Aligned Rectified Flow Model for Speech Enhancement Towards Single-Step Diffusion. Zhengxiao Li, Nakamasa Inoue
2024	Low Bitrate High-Quality RVQGAN-based Discrete Speech Tokenizer. Slava Shechtman, Avihu Dekel
2024	Low Complexity Echo Delay Estimator Based on Binarized Feature Matching. Yi Gao, Xiang Su
2024	Low-Complexity Acoustic Scene Classification Using Parallel Attention-Convolution Network. Yanxiong Li, Jiaxin Tan, Guoqing Chen, Jialong Li, Yongjie Si, Qianhua He
2024	Low-dimensional Style Token Control for Hyperarticulated Speech Synthesis. Miku Nishihara, Dan Wells, Korin Richmond, Aidan Pine
2024	LungAdapter: Efficient Adapting Audio Spectrogram Transformer for Lung Sound Classification. Li Xiao, Lucheng Fang, Yuhong Yang, Weiping Tu
2024	M2ASR: Multilingual Multi-task Automatic Speech Recognition via Multi-objective Optimization. A. F. M. Saif, Lisha Chen, Xiaodong Cui, Songtao Lu, Brian Kingsbury, Tianyi Chen
2024	M2D-CLAP: Masked Modeling Duo Meets CLAP for Learning General-purpose Audio-Language Representation. Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Masahiro Yasuda, Shunsuke Tsubaki, Keisuke Imoto
2024	MAT-SED: A Masked Audio Transformer with Masked-Reconstruction Based Pre-training for Sound Event Detection. Pengfei Cai, Yan Song, Kang Li, Haoyu Song, Ian McLoughlin
2024	MFDR: Multiple-stage Fusion and Dynamically Refined Network for Multimodal Emotion Recognition. Ziping Zhao, Tian Gao, Haishuai Wang, Björn W. Schuller
2024	MFF-EINV2: Multi-scale Feature Fusion across Spectral-Spatial-Temporal Domains for Sound Event Localization and Detection. Da Mu, Zhicheng Zhang, Haobo Yue
2024	MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition. Haiyang Sun, Fulin Zhang, Yingying Gao, Shilei Zhang, Zheng Lian, Junlan Feng
2024	MINT: Boosting Audio-Language Model via Multi-Target Pre-Training and Instruction Tuning. Hang Zhao, Yifei Xin, Zhesong Yu, Bilei Zhu, Lu Lu, Zejun Ma
2024	ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets. Jiatong Shi, Shih-Heng Wang, William Chen, Martijn Bartelds, Vanya Bannihatti Kumar, Jinchuan Tian, Xuankai Chang, Dan Jurafsky, Karen Livescu, Hung-yi Lee, Shinji Watanabe
2024	MM-KWS: Multi-modal Prompts for Multilingual User-defined Keyword Spotting. Zhiqi Ai, Zhiyong Chen, Shugong Xu
2024	MM-NodeFormer: Node Transformer Multimodal Fusion for Emotion Recognition in Conversation. Zilong Huang, Man-Wai Mak, Kong Aik Lee
2024	MMM: Multi-Layer Multi-Residual Multi-Stream Discrete Speech Representation from Self-supervised Learning Model. Jiatong Shi, Xutai Ma, Hirofumi Inaguma, Anna Sun, Shinji Watanabe
2024	MMSD-Net: Towards Multi-modal Stuttering Detection. Liangyu Nie, Sudarsana Reddy Kadiri, Ruchit Agrawal
2024	MR-RawNet: Speaker verification system with multiple temporal resolutions for variable duration utterances using raw waveforms. Seung-Bin Kim, Chan-yeong Lim, Jungwoo Heo, Ju-ho Kim, Hyun-seo Shin, Kyo-Won Koo, Ha-Jin Yu
2024	MS-HuBERT: Mitigating Pre-training and Inference Mismatch in Masked Language Modelling methods for learning Speech Representations. Hemant Yadav, Sunayana Sitaram, Rajiv Ratn Shah
2024	MSA-DPCRN: A Multi-Scale Asymmetric Dual-Path Convolution Recurrent Network with Attentional Feature Fusion for Acoustic Echo Cancellation. Ye Ni, Cong Pang, Chengwei Huang, Cairong Zou
2024	MSDET: Multitask Speaker Separation and Direction-of-Arrival Estimation Training. Roland Hartanto, Sakriani Sakti, Koichi Shinoda
2024	MSR-86K: An Evolving, Multilingual Corpus with 86, 300 Hours of Transcribed Audio for Speech Recognition Research. Song Li, Yongbin You, Xuezhi Wang, Zhengkun Tian, Ke Ding, Guanglu Wan
2024	MSRS: Training Multimodal Speech Recognition Models from Scratch with Sparse Mask Optimization. Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Lu Yin, Qiao Xiao, Stavros Petridis, Shiwei Liu, Maja Pantic
2024	MSceneSpeech: A Multi-Scene Speech Dataset For Expressive Speech Synthesis. Qian Yang, Jialong Zuo, Zhe Su, Ziyue Jiang, Mingze Li, Zhou Zhao, Feiyang Chen, Zhefeng Wang, Baoxing Huai
2024	MULTI-CONVFORMER: Extending Conformer with Multiple Convolution Kernels. Darshan Prabhu, Yifan Peng, Preethi Jyothi, Shinji Watanabe
2024	MUSE: Flexible Voiceprint Receptive Fields and Multi-Path Fusion Enhanced Taylor Transformer for U-Net-based Speech Enhancement. Zizhen Lin, Xiaoting Chen, Junyu Wang
2024	MaLa-ASR: Multimedia-Assisted LLM-Based ASR. Guanrou Yang, Ziyang Ma, Fan Yu, Zhifu Gao, Shiliang Zhang, Xie Chen
2024	MaViLS, a Benchmark Dataset for Video-to-Slide Alignment, Assessing Baseline Accuracy with a Multimodal Alignment Algorithm Leveraging Speech, OCR, and Visual Features. Katharina Anderer, Andreas Reich, Matthias Wölfel
2024	Macro-descriptors for Alzheimer's disease detection using large language models. Catarina Botelho, John Mendonça, Anna Pompili, Tanja Schultz, Alberto Abad, Isabel Trancoso
2024	Magnitude and timing of acceleration peaks in stressed and unstressed syllables. Malin Svensson Lundmark
2024	MakeSinger: A Semi-Supervised Training Method for Data-Efficient Singing Voice Synthesis via Classifier-free Diffusion Guidance. Semin Kim, Myeonghun Jeong, Hyeonseung Lee, Minchan Kim, Byoung Jin Choi, Nam Soo Kim
2024	Mandarin T3 Production by Chinese and Japanese Native Speakers. Qi Wu
2024	MaskSR: Masked Language Model for Full-band Speech Restoration. Xu Li, Qirui Wang, Xiaoyu Liu
2024	Measurement and simulation of pressure losses due to airflow in vocal tract models. Peter Birkholz, Patrick Häsner
2024	Measuring acoustic dissimilarity of hierarchical markers in task-oriented dialogue with MFCC-based dynamic time warping. Natalia Morozova, Guanghao You, Sabine Stoll, Adrian Bangerter
2024	Meta Learning Text-to-Speech Synthesis in over 7000 Languages. Florian Lux, Sarina Meyer, Lyonel Behringer, Frank Zalkow, Phat Do, Matt Coler, Emanuël A. P. Habets, Ngoc Thang Vu
2024	MinSpeech: A Corpus of Southern Min Dialect for Automatic Speech Recognition. Jiayan Lin, Shenghui Lu, Hukai Huang, Wenhao Guan, Binbin Xu, Hui Bu, Qingyang Hong, Lin Li
2024	Missingness-resilient Video-enhanced Multimodal Disfluency Detection. Payal Mohapatra, Shamika Likhite, Subrata Biswas, Bashima Islam, Qi Zhu
2024	Mitigating Overfitting in Structured Pruning of ASR Models with Gradient-Guided Parameter Regularization. Dong-Hyun Kim, Joon-Hyuk Chang
2024	Mixed Children/Adult/Childrenized Fine-Tuning for Children's ASR: How to Reduce Age Mismatch and Speaking Style Mismatch. Thomas Graave, Zhengyang Li, Timo Lohrenz, Tim Fingscheidt
2024	Mmm whatcha say? Uncovering distal and proximal context effects in first and second-language word perception using psychophysical reverse correlation. Paige Tuttösí, H. Henny Yeung, Yue Wang, Fenqi Wang, Guillaume Denis, Jean-Julien Aucouturier, Angelica Lim
2024	Mobile PresenTra: NICT fast neural text-to-speech system on smartphones with incremental inference of MS-FC-HiFi-GAN for law-latency synthesis. Takuma Okamoto, Yamato Ohtani, Hisashi Kawai
2024	Modality Translation Learning for Joint Speech-Text Model. Pin-Yen Liu, Jen-Tzung Chien
2024	Modeling Vocal Tract Like Acoustic Tubes Using the Immersed Boundary Method. Rongshuai Wu, Debasish Ray Mohapatra, Sidney Fels
2024	Modeling probabilistic reduction across domains with Naive Discriminative Learning. Anna Stein, Kevin Tang
2024	Modelled Multivariate Overlap: A method for measuring vowel merger. Irene Smith, Morgan Sonderegger, Spade Consortium
2024	Modelling Lexical Characteristics of the Healthy Aging Population: A Corpus-Based Study. Han Kunmei
2024	Motion Based Audio-Visual Segmentation. Jiahao Li, Miao Liu, Shu Yang, Jing Wang, Xiang Xie
2024	Multi-Channel Extension of Pre-trained Models for Speaker Verification. Ladislav Mosner, Romain Serizel, Lukás Burget, Oldrich Plchot, Emmanuel Vincent, Junyi Peng, Jan Cernocký
2024	Multi-Channel Multi-Speaker ASR Using Target Speaker's Solo Segment. Yiwen Shao, Shi-Xiong Zhang, Yong Xu, Meng Yu, Dong Yu, Daniel Povey, Sanjeev Khudanpur
2024	Multi-Modal Automatic Prosody Annotation with Contrastive Pretraining of Speech-Silence and Word-Punctuation. Jinzuomu Zhong, Yang Li, Hui Huang, Korin Richmond, Jie Liu, Zhiba Su, Jing Guo, Benlai Tang, Fengjie Zhu
2024	Multi-label Bird Species Classification from Field Recordings using Mel_Graph-GCN Framework. Noumida Abdul Kareem, Rajeev Rajan
2024	Multi-latency look-ahead for streaming speaker segmentation. Bilal Rahou, Hervé Bredin
2024	Multi-mic Echo Cancellation Coalesced with Beamforming for Real World Adverse Acoustic Conditions. Premanand Nayak, Kamini Sabu, M. Ali Basha Shaik
2024	Multi-modal Adversarial Training for Zero-Shot Voice Cloning. John Janiczek, Dading Chong, Dongyang Dai, Arlo Faria, Chao Wang, Tao Wang, Yuzong Liu
2024	Multi-speaker and multi-dialectal Catalan TTS models for video gaming. Alex Peiró Lilja, José Giraldo, Martí Llopart-Font, Carme Armentano-Oller, Baybars Külebi, Mireia Farrús
2024	MultiPA: A Multi-task Speech Pronunciation Assessment Model for Open Response Scenarios. Yu-Wen Chen, Zhou Yu, Julia Hirschberg
2024	MultiStage Speech Bandwidth Extension with Flexible Sampling Rate Control. Ye-Xin Lu, Yang Ai, Zheng-Yan Sheng, Zhen-Hua Ling
2024	MultiTalk: Enhancing 3D Talking Head Generation Across Languages with Multilingual Video Dataset. Sung-Bin Kim, Lee Chae-Yeon, Gihun Son, Oh Hyun-Bin, Janghoon Ju, Suekyeong Nam, Tae-Hyun Oh
2024	Multilingual Speech and Language Analysis for the Assessment of Mild Cognitive Impairment: Outcomes from the Taukadial Challenge. Paula Andrea Pérez-Toro, Tomás Arias-Vergara, Philipp Klumpp, Tobias Weise, Maria Schuster, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas K. Maier
2024	Multimodal Belief Prediction. John Murzaku, Adil Soubki, Owen Rambow
2024	Multimodal Continuous Fingerspelling Recognition via Visual Alignment Learning. Katerina Papadimitriou, Gerasimos Potamianos
2024	Multimodal Digital Biomarkers for Longitudinal Tracking of Speech Impairment Severity in ALS: An Investigation of Clinically Important Differences. Michael Neumann, Hardik Kothare, Jackson Liscombe, Emma C. L. Leschly, Oliver Roesler, Vikram Ramanarayanan
2024	Multimodal Fusion for Vocal Biomarkers Using Vector Cross-Attention. Vladimir Despotovic, Abir Elbéji, Petr V. Nazarov, Guy Fagherazzi
2024	Multimodal Fusion of Music Theory-Inspired and Self-Supervised Representations for Improved Emotion Recognition. Xiaohan Shi, Xingfeng Li, Tomoki Toda
2024	Multimodal Large Language Models with Fusion Low Rank Adaptation for Device Directed Speech Detection. Shruti Palaskar, Ognjen Rudovic, Sameer Dharur, Florian Pesce, Gautam Krishna, Aswin Sivaraman, Jack Berkowitz, Ahmed Hussen Abdelaziz, Saurabh Adya, Ahmed H. Tewfik
2024	Multimodal Representation Loss Between Timed Text and Audio for Regularized Speech Separation. Tsun-An Hsieh, Heeyoul Choi, Minje Kim
2024	Multimodal Segmentation for Vocal Tract Modeling. Rishi Jain, Bohan Yu, Peter Wu, Tejas S. Prabhune, Gopala Anumanchipalli
2024	NAST: Noise Aware Speech Tokenization for Speech Language Models. Shoval Messica, Yossi Adi
2024	NOTSOFAR-1 Challenge: New Datasets, Baseline, and Tasks for Distant Meeting Transcription. Alon Vinnikov, Amir Ivry, Aviv Hurvitz, Igor Abramovski, Sharon Koubi, Ilya Gurvich, Shai Peer, Xiong Xiao, Benjamin Martinez Elizalde, Naoyuki Kanda, Xiaofei Wang, Shalev Shaer, Stav Yagev, Yossi Asher, Sunit Sivasankaran, Yifan Gong, Min Tang, Huaming Wang, Eyal Krupka
2024	Nasal Air Flow During Speech Production In Korebaju. Jenifer Vega Rodríguez, Nathalie Vallée, Christophe Savariaux, Silvain Gerber
2024	Navigating the Minefield of MT Beam Search in Cascaded Streaming Speech Translation. Rastislav Rabatin, Frank Seide, Ernie Chang
2024	NeuRO: an application for code-switched autism detection in children. Mohd Mujtaba Akhtar, Girish, Orchid Chetia Phukan, Muskaan Singh
2024	Neural ATSM: Fully Neural Network-based Adaptive Time-Scale Modification Using Sentence-Specific Dynamic Control. Jaeuk Lee, Sohee Jang, Joon-Hyuk Chang
2024	Neural Blind Source Separation and Diarization for Distant Speech Recognition. Yoshiaki Bando, Tomohiko Nakamura, Shinji Watanabe
2024	Neural Codec Language Models for Disentangled and Textless Voice Conversion. Alan Baade, Puyuan Peng, David Harwath
2024	Neural Codec-based Adversarial Sample Detection for Speaker Verification. Xuanjun Chen, Jiawei Du, Haibin Wu, Jyh-Shing Roger Jang, Hung-yi Lee
2024	Neural Compression Augmentation for Contrastive Audio Representation Learning. Zhaoyu Wang, Haohe Liu, Harry Coppock, Björn W. Schuller, Mark D. Plumbley
2024	Neural Network Augmented Kalman Filter for Robust Acoustic Howling Suppression. Yixuan Zhang, Hao Zhang, Meng Yu, Dong Yu
2024	Neurocomputational model of speech recognition for pathological speech detection: a case study on Parkinson's disease speech detection. Sevada Hovsepyan, Mathew Magimai-Doss
2024	Neuromorphic Keyword Spotting with Pulse Density Modulation MEMS Microphones. Sidi Yaya Arnaud Yarga, Sean U. N. Wood
2024	No-Reference Speech Intelligibility Prediction Leveraging a Noisy-Speech ASR Pre-Trained Model. Haolan Wang, Amin Edraki, Wai-Yip Chan, Iván López-Espejo, Jesper Jensen
2024	Noise-Robust Voice Conversion by Conditional Denoising Training Using Latent Variables of Recording Quality and Environment. Takuto Igarashi, Yuki Saito, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, Kentaro Tachibana, Hiroshi Saruwatari
2024	Noise-aware Speech Enhancement using Diffusion Probabilistic Model. Yuchen Hu, Chen Chen, Ruizhe Li, Qiushi Zhu, Eng Siong Chng
2024	Noise-robust Speech Separation with Fast Generative Correction. Helin Wang, Jesús Villalba, Laureano Moro-Velázquez, Jiarui Hai, Thomas Thebaud, Najim Dehak
2024	Non-Intrusive Speech Intelligibility Prediction for Hearing Aids using Whisper and Metadata. Ryandhimas E. Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao
2024	Non-Linear Inference Time Intervention: Improving LLM Truthfulness. Jakub Hoscilowicz, Adam Wiacek, Jan Chojnacki, Adam Cieslak, Leszek Michon, Artur Janicki
2024	Novel-view Acoustic Synthesis From 3D Reconstructed Rooms. Byeongjoo Ahn, Karren D. Yang, Brian Hamilton, Jonathan Sheaffer, Anurag Ranjan, Miguel Sarabia, Oncel Tuzel, Jen-Hao Rick Chang
2024	NumberLie: a game-based experiment to understand the acoustics of deception and truthfulness. Alessandro De Luca, Andrew Clark, Volker Dellwo
2024	OCEAN-AI: open multimodal framework for personality traits assessment and HR-processes automatization. Elena Ryumina, Dmitry Ryumin, Alexey Karpov
2024	OR-TSE: An Overlap-Robust Speaker Encoder for Target Speech Extraction. Yiru Zhang, Linyu Yao, Qun Yang
2024	OWSM v3.1: Better and Faster Open Whisper-Style Speech Models based on E-Branchformer. Yifan Peng, Jinchuan Tian, William Chen, Siddhant Arora, Brian Yan, Yui Sudo, Muhammad Shakeel, Kwanghee Choi, Jiatong Shi, Xuankai Chang, Jee-weon Jung, Shinji Watanabe
2024	On Calibration of Speech Classification Models: Insights from Energy-Based Model Investigations. Yaqian Hao, Chenguang Hu, Yingying Gao, Shilei Zhang, Junlan Feng
2024	On Comparing Time- and Frequency-Domain Rhythm Measures in Classifying Assamese Dialects. Joyshree Chakraborty, Leena Dihingia, Priyankoo Sarmah, Rohit Sinha
2024	On Disfluency and Non-lexical Sound Labeling for End-to-end Automatic Speech Recognition. Péter Mihajlik, Yan Meng, Mate S. Kadar, Julian Linke, Barbara Schuppler, Katalin Mády
2024	On Improving Error Resilience of Neural End-to-End Speech Coders. Kishan Gupta, Nicola Pia, Srikanth Korse, Andreas Brendel, Guillaume Fuchs, Markus Multrus
2024	On The Performance of EMA-synchronized Speech and Stand-alone Speech in Acoustic-to-articulatory Inversion. Qiang Fang
2024	On the Effectiveness of Acoustic BPE in Decoder-Only TTS. Bohan Li, Feiyu Shen, Yiwei Guo, Shuai Wang, Xie Chen, Kai Yu
2024	On the Effects of Heterogeneous Data Sources on Speech-to-Text Foundation Models. Jinchuan Tian, Yifan Peng, William Chen, Kwanghee Choi, Karen Livescu, Shinji Watanabe
2024	On the Encoding of Gender in Transformer-based ASR Representations. Aravind Krishnan, Badr M. Abdullah, Dietrich Klakow
2024	On the Success and Limitations of Auxiliary Network Based Word-Level End-to-End Neural Speaker Diarization. Yiling Huang, Weiran Wang, Guanlong Zhao, Hank Liao, Wei Xia, Quan Wang
2024	On the Use of Plausible Arguments in Explainable Conversational AI. Martina Di Bratto, Maria Di Maro, Antonio Origlia
2024	On the Usefulness of Speaker Embeddings for Speaker Retrieval in the Wild: A Comparative Study of x-vector and ECAPA-TDNN Models. Erfan Loweimi, Mengjie Qian, Kate M. Knill, Mark J. F. Gales
2024	On the calibration of powerset speaker diarization models. Alexis Plaquet, Hervé Bredin
2024	On the impact of several regularization techniques on label noise robustness of self-supervised speaker verification systems. Abderrahim Fathan, Xiaolin Zhu, Jahangir Alam
2024	On the relationship between speech production and vocabulary size in 3-5 year olds. Alexis DeMaere, Nicole van Rootselaar, Fangfang Li, Robbin Gibb, Claudia L. R. Gonzalez
2024	On the social bias of speech self-supervised models. Yi-Cheng Lin, Tzu-Quan Lin, Hsi-Che Lin, Andy T. Liu, Hung-yi Lee
2024	Once more Diarization: Improving meeting transcription systems through segment-level speaker reassignment. Christoph Boeddeker, Tobias Cord-Landwehr, Reinhold Haeb-Umbach
2024	One-class learning with adaptive centroid shift for audio deepfake detection. Hyun Myung Kim, Kangwook Jang, Hoirin Kim
2024	One-pass Multiple Conformer and Foundation Speech Systems Compression and Quantization Using An All-in-one Neural Model. Zhaoqing Li, Haoning Xu, Tianzi Wang, Shoukang Hu, Zengrui Jin, Shujie Hu, Jiajun Deng, Mingyu Cui, Mengzhe Geng, Xunying Liu
2024	Online Knowledge Distillation of Decoder-Only Large Language Models for Efficient Speech Recognition. Jeehye Lee, Hyeji Seo
2024	Online Subloop Search via Uncertainty Quantization for Efficient Test-Time Adaptation. Jae-Hong Lee, Sang-Eon Lee, Dong-Hyun Kim, Do-Hee Kim, Joon-Hyuk Chang
2024	Optical Flow Guided Tongue Trajectory Generation for Diffusion-based Acoustic to Articulatory Inversion. Yudong Yang, Rongfeng Su, Rukiye Ruzi, Manwa L. Ng, Shaofeng Zhao, Nan Yan, Lan Wang
2024	Optimizing Automatic Speech Assessment: W-RankSim Regularization and Hybrid Feature Fusion Strategies. Chung-Wen Wu, Berlin Chen
2024	Optimizing Large-Scale Context Retrieval for End-to-End ASR. Zhiqi Huang, Diamantino Caseiro, Kandarp Joshi, Christopher Li, Pat Rondon, Zelin Wu, Petr Zadrazil, Lillian Zhou
2024	Optimizing the role of human evaluation in LLM-based spoken document summarization systems. Margaret Kroll, Kelsey Kraus
2024	Orthogonality and isotropy of speaker and phonetic information in self-supervised speech representations. Mukhtar Mohamed, Oli Danyi Liu, Hao Tang, Sharon Goldwater
2024	Out-of-distribution generalisation in spoken language understanding. Dejan Porjazovski, Anssi Moisio, Mikko Kurimo
2024	Outlier Reduction with Gated Attention for Improved Post-training Quantization in Large Sequence-to-sequence Speech Foundation Models. Dominik Wagner, Ilja Baumann, Korbinian Riedhammer, Tobias Bocklet
2024	Oversampling, Augmentation and Curriculum Learning for Speaking Assessment with Limited Training Data. Tin Mei Lun, Ekaterina Voskoboinik, Ragheb Al-Ghezi, Tamás Grósz, Mikko Kurimo
2024	PAM: Prompting Audio-Language Models for Audio Quality Assessment. Soham Deshmukh, Dareen Alharthi, Benjamin Elizalde, Hannes Gamper, Mahmoud Al Ismail, Rita Singh, Bhiksha Raj, Huaming Wang
2024	PARAN: Variational Autoencoder-based End-to-End Articulation-to-Speech System for Speech Intelligibility. Seyun Um, Doyeon Kim, Hong-Goo Kang
2024	PARIS: Pseudo-AutoRegressIve Siamese Training for Online Speech Separation. Zexu Pan, Gordon Wichern, François G. Germain, Kohei Saijo, Jonathan Le Roux
2024	PERSONA: an application for emotion recognition, gender recognition and age estimation. Devyani Koshal, Orchid Chetia Phukan, Sarthak Jain, Arun Balaji Buduru, Rajesh Sharma
2024	PFCA-Net: Pyramid Feature Fusion and Cross Content Attention Network for Automated Audio Captioning. Jianyuan Sun, Wenwu Wang, Mark D. Plumbley
2024	PL-TTS: A Generalizable Prompt-based Diffusion TTS Augmented by Large Language Model. Shuhua Li, Qirong Mao, Jiatong Shi
2024	PLDNet: PLD-Guided Lightweight Deep Network Boosted by Efficient Attention for Handheld Dual-Microphone Speech Enhancement. Nan Zhou, Youhai Jiang, Jialin Tan, Chongmin Qi
2024	PPPR: Portable Plug-in Prompt Refiner for Text to Audio Generation. Shuchen Shi, Ruibo Fu, Zhengqi Wen, Jianhua Tao, Tao Wang, Chunyu Qiang, Yi Lu, Xin Qi, Xuefei Liu, Yukun Liu, Yongwei Li, Zhiyong Wang, Xiaopeng Wang
2024	PRVAE-VC2: Non-Parallel Voice Conversion by Distillation of Speech Representations. Kou Tanaka, Hirokazu Kameoka, Takuhiro Kaneko, Yuto Kondo
2024	ParaCLAP - Towards a general language-audio model for computational paralinguistic tasks. Xin Jing, Andreas Triantafyllopoulos, Björn W. Schuller
2024	Parameter-Efficient Adapter Based on Pre-trained Models for Speech Translation. Nan Chen, Yonghe Wang, Feilong Bao
2024	Parameter-efficient Fine-tuning of Speaker-Aware Dynamic Prompts for Speaker Verification. Zhe Li, Man-Wai Mak, Hung-yi Lee, Helen Meng
2024	Participant-Pair-Wise Bottleneck Transformer for Engagement Estimation from Video Conversation. Keita Suzuki, Nobukatsu Hojo, Kazutoshi Shinoda, Saki Mizuno, Ryo Masumura
2024	Perceiver-Prompt: Flexible Speaker Adaptation in Whisper for Chinese Disordered Speech Recognition. Yicong Jiang, Tianzi Wang, Xurong Xie, Juan Liu, Wei Sun, Nan Yan, Hui Chen, Lan Wang, Xunying Liu, Feng Tian
2024	Perception of music and speech: Focus on rhythm processing. Barbara Tillmann
2024	Perceptual Learning in Lexical Tone: Phonetic Similarity vs. Phonological Categories. Ariëlle Reitsema, Chenxin Li, Leanne van Lambalgen, Laura Preining, Saskia Galindo Jong, Qing Yang, Xinyi Wen, Yiya Chen
2024	Performant ASR Models for Medical Entities in Accented Speech. Tejumade Afonja, Tobi Olatunji, Sewade Ogun, Naome A. Etori, Abraham Toluwase Owodunni, Moshood Yekini
2024	Period Singer: Integrating Periodic and Aperiodic Variational Autoencoders for Natural-Sounding End-to-End Singing Voice Synthesis. Taewoo Kim, Choongsang Cho, Young Han Lee
2024	Personality-memory Gated Adaptation: An Efficient Speaker Adaptation for Personalized End-to-end Automatic Speech Recognition. Yue Gu, Zhihao Du, Shiliang Zhang, Jiqing Han, Yongjun He
2024	Personalized Speech Enhancement Without a Separate Speaker Embedding Model. Tanel Pärnamaa, Ando Saabas
2024	PhoneViz: exploring alignments at a glance. Margot Masson, Erfan A. Shams, Iona Gessinger, Julie Carson-Berndsen
2024	Phoneme Discretized Saliency Maps for Explainable Detection of AI-Generated Voice. Shubham Gupta, Mirco Ravanelli, Pascal Germain, Cem Subakan
2024	Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis. Kun Zhou, Shengkui Zhao, Yukun Ma, Chong Zhang, Hao Wang, Dianwen Ng, Chongjia Ni, Trung Hieu Nguyen, Jia Qi Yip, Bin Ma
2024	Phonological Feature Detection for US English using the Phonet Library. Harsha Veena Tadavarthy, Austin Jones, Margaret E. L. Renwick
2024	Phonological Symmetry Does Not Predict Generalization of Perceptual Adaptation to Vowels. Zuheyra Tokac, Jennifer Cole
2024	Phonological-Level Mispronunciation Detection and Diagnosis. Mostafa Shahin, Beena Ahmed
2024	Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models. Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang
2024	Pitch-Aware RNN-T for Mandarin Chinese Mispronunciation Detection and Diagnosis. Xintong Wang, Mingqian Shi, Ye Wang
2024	Pitch-driven adjustments in tongue positions: Insights from ultrasound imaging. May Pik Yu Chan, Jianjing Kuang
2024	PitchFlow: adding pitch control to a Flow-matching based TTS model. Tasnima Sadekova, Mikhail A. Kudinov, Vadim Popov, Assel Yermekova, Artem Khrapov
2024	Positional Description for Numerical Normalization. Deepanshu Gupta, Javier Latorre
2024	Post-Net: A linguistically inspired sequence-dependent transformed neural architecture for automatic syllable stress detection. Sai Harshitha Aluru, Jhansi Mallela, Chiranjeevi Yarra
2024	Pragmatically similar utterance finder demonstration. Nigel G. Ward, Andres Segura
2024	Pre-trained Feature Fusion and Matching for Mild Cognitive Impairment Detection. Junwen Duan, Fangyuan Wei, Hong-Dong Li, Jin Liu
2024	Pre-training Feature Guided Diffusion Model for Speech Enhancement. Yiyuan Yang, Niki Trigoni, Andrew Markham
2024	Pre-training Neural Transducer-based Streaming Voice Conversion for Faster Convergence and Alignment-free Training. Hiroki Kanagawa, Takafumi Moriya, Yusuke Ijima
2024	Predefined Prototypes for Intra-Class Separation and Disentanglement. Antonio Almudévar, Théo Mariotte, Alfonso Ortega Giménez, Marie Tahon, Luis Vicente, Antonio Miguel, Eduardo Lleida
2024	Predicting Acute Pain Levels Implicitly from Vocal Features. Jennifer Williams, Eike Schneiders, Henry Card, Tina Seabrooke, Beatrice Pakenham-Walsh, Tayyaba Azim, Lucy Valls-Reed, Ganesh Vigneswaran, John Robert Bautista, Rohan Chandra, Arya Farahi
2024	Predicting Heart Activity from Speech using Data-driven and Knowledge-based features. Gasser Elbanna, Zohreh Mostaani, Mathew Magimai-Doss
2024	Preliminary Investigation of Psychometric Properties of a Novel Multimodal Dialog Based Affect Production Task in Children and Adolescents with Autism. Carly Demopoulos, Linnea Lampinen, Cristian Preciado, Hardik Kothare, Vikram Ramanarayanan
2024	Preprocessing for acoustic-to-articulatory inversion using real-time MRI movies of Japanese speech. Anna Oura, Hideaki Kikuchi, Tetsunori Kobayashi
2024	Preservation, conservation and phonetic study of the voices of Italian poets: A study on the seven years of the VIP archive. Federico Lo Iacono, Valentina Colonna, Antonio Romano
2024	Pretraining End-to-End Keyword Search with Automatically Discovered Acoustic Units. Bolaji Yusuf, Jan Honza Cernocký, Murat Saraçlar
2024	Privacy PORCUPINE: Anonymization of Speaker Attributes Using Occurrence Normalization for Space-Filling Vector Quantization. Mohammad Hassan Vali, Tom Bäckström
2024	Probing the Feasibility of Multilingual Speaker Anonymization. Sarina Meyer, Florian Lux, Ngoc Thang Vu
2024	Production of fricative consonants in French-speaking children with cochlear implants and typical hearing: acoustic and phonological analyses. Sophie Fagniart, Brigitte Charlier, Véronique Delvaux, Bernard Harmegnies, Anne Huberlant, Myriam Piccaluga, Kathy Huet
2024	Production of phrases by mechanical models of the human vocal tract. Takayuki Arai, Ryohei Suzuki, Chandler Earp, Shinya Tsuji, Keiko Ochi
2024	Prompt Link Multimodal Fusion in Multimodal Sentiment Analysis. Kang Zhu, Cunhang Fan, Jianhua Tao, Zhao Lv
2024	Prompt Tuning for Audio Deepfake Detection: Computationally Efficient Test-time Domain Adaptation with Limited Target Dataset. Hideyuki Oiso, Yuto Matsunaga, Kazuya Kakizaki, Taiki Miyagawa
2024	Prompt Tuning for Speech Recognition on Unknown Spoken Name Entities. Xizi Wei, Stephen McGregor
2024	Prompting Large Language Models with Audio for General-Purpose Speech Summarization. Wonjune Kang, Deb Roy
2024	Prompting Large Language Models with Mispronunciation Detection and Diagnosis Abilities. Minglin Wu, Jing Xu, Xixin Wu, Helen Meng
2024	Prompting Whisper for QA-driven Zero-shot End-to-end Spoken Language Understanding. Mohan Li, Simon Keizer, Rama Doddipatla
2024	Prosodic marking of syntactic boundaries in Khoekhoe. Kira Tulchynska, Sylvanus Job, Alena Witzlack-Makarevich, Margaret Zellers
2024	Prosody of speech production in latent post-stroke aphasia. Cong Zhang, Tong Li, Gayle DeDe, Christos Salis
2024	Prosody-Driven Privacy-Preserving Dementia Detection. Dominika Woszczyk, Ranya Aloufi, Soteris Demetriou
2024	QGAN: Low Footprint Quaternion Neural Vocoder for Speech Synthesis. Aryan Chaudhary, Vinayak Abrol
2024	QHM-GAN: Neural Vocoder based on Quasi-Harmonic Modeling. Shaowen Chen, Tomoki Toda
2024	QMixCAT: Unsupervised Speech Enhancement Using Quality-guided Signal Mixing and Competitive Alternating Model Training. Shilin Wang, Haixin Guan, Yanhua Long
2024	Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition. Jinming Chen, Jingyi Fang, Yuanzhong Zheng, Yaoxuan Wang, Haojun Fei
2024	Quantification of stylistic differences in human- and ASR-produced transcripts of African American English. Annika Heuser, Tyler Kendall, Miguel Del Rio, Quinn McNamara, Nishchal Bhandari, Corey Miller, Migüel Jetté
2024	Quantifying Unintended Memorization in BEST-RQ ASR Encoders. Virat Shejwalkar, Om Thakkar, Arun Narayanan
2024	Quantifying the Role of Textual Predictability in Automatic Speech Recognition. Sean Robertson, Gerald Penn, Ewan Dunbar
2024	Quantifying the effect of speech pathology on automatic and human speaker verification. Bence Mark Halpern, Thomas Tienkamp, Wen-Chin Huang, Lester Phillip Violeta, Teja Rebernik, Sebastiaan A. H. J. de Visscher, Max J. H. Witjes, Martijn Wieling, Defne Abur, Tomoki Toda
2024	Quantity-sensitivity affects recall performance of word stress. Constantijn Kaland, Maria Lialiou
2024	Query-by-Example Keyword Spotting Using Spectral-Temporal Graph Attentive Pooling and Multi-Task Learning. Zhenyu Wang, Shuyu Kong, Li Wan, Biqiao Zhang, Yiteng Huang, Mumin Jin, Ming Sun, Xin Lei, Zhaojun Yang
2024	RAST: A Reference-Audio Synchronization Tool for Dubbed Content. David Meyer, Eitan Abecassis, Clara Fernandez-Labrador, Christopher Schroers
2024	RASU: Retrieval Augmented Speech Understanding through Generative Modeling. Hao Yang, Min Zhang, Minghan Wang, Jiaxin Guo
2024	RIR-SF: Room Impulse Response Based Spatial Feature for Target Speech Recognition in Multi-Channel Multi-Speaker Scenarios. Yiwen Shao, Shi-Xiong Zhang, Dong Yu
2024	RIR-in-a-Box: Estimating Room Acoustics from 3D Mesh Data through Shoebox Approximation. Liam Kelley, Diego Di Carlo, Aditya Arie Nugraha, Mathieu Fontaine, Yoshiaki Bando, Kazuyoshi Yoshii
2024	ROAR: Reinforcing Original to Augmented Data Ratio Dynamics for Wav2vec2.0 Based ASR. Vishwanath Pratap Singh, Federico Malato, Ville Hautamäki, Md. Sahidullah, Tomi Kinnunen
2024	RT-LA-VocE: Real-Time Low-SNR Audio-Visual Speech Enhancement. Honglie Chen, Rodrigo Mira, Stavros Petridis, Maja Pantic
2024	RW-VoiceShield: Raw Waveform-based Adversarial Attack on One-shot Voice Conversion. Ching-Yu Yang, Shreya G. Upadhyay, Ya-Tse Wu, Bo-Hao Su, Chi-Chun Lee
2024	RaD-Net 2: A causal two-stage repairing and denoising speech enhancement network with knowledge distillation and complex axial self-attention. Mingshuai Liu, Zhuangqi Chen, Xiaopeng Yan, Yuanjun Lv, Xianjun Xia, Chuanzeng Huang, Yijian Xiao, Lei Xie
2024	Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting. Yosuke Kashiwagi, Hayato Futami, Emiru Tsunoo, Siddhant Arora, Shinji Watanabe
2024	Rapport-Driven Virtual Agent: Rapport Building Dialogue Strategy for Improving User Experience at First Meeting. Muhammad Yeza Baihaqi, Angel F. Garcia Contreras, Seiya Kawano, Koichiro Yoshino
2024	Rasa: Building Expressive Speech Synthesis Systems for Indian Languages in Low-resource Settings. Praveen Srinivasa Varadhan, Ashwin Sankar, Giri Raju, Mitesh M. Khapra
2024	RawBMamba: End-to-End Bidirectional State Space Model for Audio Deepfake Detection. Yujie Chen, Jiangyan Yi, Jun Xue, Chenglong Wang, Xiaohui Zhang, Shunbo Dong, Siding Zeng, Jianhua Tao, Zhao Lv, Cunhang Fan
2024	Reading Miscue Detection in Primary School through Automatic Speech Recognition. Lingyun Gao, Cristian Tejedor García, Helmer Strik, Catia Cucchiarini
2024	Real-Time Gaze-directed speech enhancement for audio-visual hearing-aids. Arif Reza Anway, Bryony Buck, Mandar Gogate, Kia Dashtipour, Michael Akeroyd, Amir Hussain
2024	Real-time Speech Summarization for Medical Conversations. Khai Le-Duc, Khai-Nguyen Nguyen, Long Vo-Dang, Truong-Son Hy
2024	Real-time scheme for rapid extraction of speaker embeddings in challenging recording conditions. Kai Liu, Ziqing Du, Huan Zhou, Xucheng Wan, Naijun Zheng
2024	Real-world PTSD Recognition: A Cross-corpus and Cross-linguistic Evaluation. Alexander Kathan, Martin Bürger, Andreas Triantafyllopoulos, Sabrina Milkus, Jonas Hohmann, Pauline Muderlak, Jürgen Schottdorf, Richard Musil, Björn W. Schuller, Shahin Amiriparian
2024	Reduce, Reuse, Recycle: Is Perturbed Data Better than Other Language Augmentation for Low Resource Self-Supervised Speech Models. Asad Ullah, Alessandro Ragano, Andrew Hines
2024	Reducing Speech Distortion and Artifacts for Speech Enhancement by Loss Function. Haixin Guan, Wei Dai, Guangyong Wang, Xiaobin Tan, Peng Li, Jiaen Liang
2024	Reference-Free Estimation of the Quality of Clinical Notes Generated from Doctor-Patient Conversations. Mojtaba Kadkhodaie Elyaderani, John Glover, Thomas Schaaf
2024	Refining Self-supervised Learnt Speech Representation using Brain Activations. Hengyu Li, Kangdi Mei, Zhaoci Liu, Yang Ai, Liping Chen, Jie Zhang, Zhenhua Ling
2024	Reinforcement Learning based Data Augmentation for Noise Robust Speech Emotion Recognition. Sumit Ranjan, Rupayan Chakraborty, Sunil Kumar Kopparapu
2024	Reinforcement Learning from Answer Reranking Feedback for Retrieval-Augmented Answer Generation. Minh Nguyen, Toàn Quoc Nguyên, Kishan KC, Zeyu Zhang, Thuy Vu
2024	Relational Proxy Loss for Audio-Text based Keyword Spotting. Youngmoon Jung, Seungjin Lee, Joon-Young Yang, Jaeyoung Roh, Chang Woo Han, Hoonyoung Cho
2024	Reliable dialogue system for facilitating student-counselor communication. Mahdin Rohmatillah, Bryan Gautama Ngo, Willianto Sulaiman, Po-Chuan Chen, Jen-Tzung Chien
2024	RepCNN: Micro-sized, Mighty Models for Wakeword Detection. Arnav Kundu, Prateeth Nayak, Priyanka Padmanabhan, Devang Naik
2024	RepTor: Re-parameterizable Temporal Convolution for Keyword Spotting via Differentiable Kernel Search. Eunik Park, Daehyun Ahn, Hyungjun Kim
2024	Reshape Dimensions Network for Speaker Recognition. Ivan Yakovlev, Rostislav Makarov, Andrei Balykin, Pavel Malov, Anton Okhotnikov, Nikita Torgashov
2024	Residual Speaker Representation for One-Shot Voice Conversion. Le Xu, Jiangyan Yi, Tao Wang, Yong Ren, Rongxiu Zhong, Zhengqi Wen, Jianhua Tao
2024	Resource-Efficient Speech Quality Prediction through Quantization Aware Training and Binary Activation Maps. Mattias Nilsson, Riccardo Miccini, Clement Laroche, Tobias Piechowiak, Friedemann Zenke
2024	Retrieval Augmented Generation in Prompt-based Text-to-Speech Synthesis with Context-Aware Contrastive Language-Audio Pretraining. Jinlong Xue, Yayue Deng, Yingming Gao, Ya Li
2024	Retrieval-Augmented Classifier Guidance for Audio Generation. Ho-Young Choi, Won-Gook Choi, Joon-Hyuk Chang
2024	RevRIR: Joint Reverberant Speech and Room Impulse Response Embedding using Contrastive Learning with Application to Room Shape Classification. Jacob Bitterman, Daniel Levi, Hilel Hagai Diamandi, Sharon Gannot, Tal Rosenwein
2024	Revealing Confounding Biases: A Novel Benchmarking Approach for Aggregate-Level Performance Metrics in Health Assessments. Stefano Goria, Roseline Polle, Salvatore Fara, Nicholas Cummins
2024	Revisiting Convolution-free Transformer for Speech Recognition. Zejiang Hou, Goeric Huybrechts, Anshu Bhatia, Daniel Garcia-Romero, Kyu J. Han, Katrin Kirchhoff
2024	Revisiting Pitch Jumps: F0 Ratio in Seoul Korean. Michaela Watkins, Paul Boersma, Silke Hamann
2024	Revisiting and Improving Scoring Fusion for Spoofing-aware Speaker Verification Using Compositional Data Analysis. Xin Wang, Tomi Kinnunen, Kong Aik Lee, Paul-Gauthier Noé, Junichi Yamagishi
2024	Rich speech signal: exploring and exploiting end-to-end automatic speech recognizers' ability to model hesitation phenomena. Vincenzo Norman Vitale, Loredana Schettino, Francesco Cutugno
2024	Robust Laughter Segmentation with Automatic Diverse Data Synthesis. Taisei Omine, Kenta Akita, Reiji Tsuruno
2024	Robust spread spectrum speech watermarking using linear prediction and deep spectral shaping. David Looney, Nikolay D. Gaubitch
2024	SA-WavLM: Speaker-Aware Self-Supervised Pre-training for Mixture Speech. Jingru Lin, Meng Ge, Junyi Ao, Liqun Deng, Haizhou Li
2024	SALSA: Speedy ASR-LLM Synchronous Aggregation. Ashish R. Mittal, Darshan Prabhu, Sunita Sarawagi, Preethi Jyothi
2024	SAML: Speaker Adaptive Mixture of LoRA Experts for End-to-End ASR. Qiuming Zhao, Guangzhi Sun, Chao Zhang, Mingxing Xu, Thomas Fang Zheng
2024	SAMSEMO: New dataset for multilingual and multimodal emotion recognition. Pawel Bujnowski, Bartlomiej Kuzma, Bartlomiej Paziewski, Jacek Rutkowski, Joanna Marhula, Zuzanna Bordzicka, Piotr Andruszkiewicz
2024	SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR. Shuaishuai Ye, Shunfei Chen, Xinhui Hu, Xinkang Xu
2024	SCDNet: Self-supervised Learning Feature based Speaker Change Detection. Yue Li, Xinsheng Wang, Li Zhang, Lei Xie
2024	SDAEC: Signal Decoupling for Advancing Acoustic Echo Cancellation. Fei Zhao, Jinjiang Liu, Xueliang Zhang
2024	SE/BN Adapter: Parametric Efficient Domain Adaptation for Speaker Recognition. Tianhao Wang, Lantian Li, Dong Wang
2024	SELM: Enhancing Speech Emotion Recognition for Out-of-Domain Scenarios. Hazim T. Bukhari, Soham Deshmukh, Hira Dhamyal, Bhiksha Raj, Rita Singh
2024	SEQ-former: A context-enhanced and efficient automatic speech recognition framework. Qinglin Meng, Min Liu, Kaixun Huang, Kun Wei, Lei Xie, Zongfeng Quan, Weihong Deng, Quan Lu, Ning Jiang, Guoqing Zhao
2024	SER Evals: In-domain and Out-of-domain benchmarking for speech emotion recognition. Mohamed Osman, Daniel Z. Kaplan, Tamer Nadeem
2024	SOMSRED: Sequential Output Modeling for Joint Multi-talker Overlapped Speech Recognition and Speaker Diarization. Naoki Makishima, Naotaka Kawata, Mana Ihori, Tomohiro Tanaka, Shota Orihashi, Atsushi Ando, Ryo Masumura
2024	SOT Triggered Neural Clustering for Speaker Attributed ASR. Xianrui Zheng, Guangzhi Sun, Chao Zhang, Philip C. Woodland
2024	SPA-SVC: Self-supervised Pitch Augmentation for Singing Voice Conversion. Bingsong Bai, Fengping Wang, Yingming Gao, Ya Li
2024	SRC4VC: Smartphone-Recorded Corpus for Voice Conversion Benchmark. Yuki Saito, Takuto Igarashi, Kentaro Seki, Shinnosuke Takamichi, Ryuichi Yamamoto, Kentaro Tachibana, Hiroshi Saruwatari
2024	STraDa: A Singer Traits Dataset. Yuexuan Kong, Viet-Anh Tran, Romain Hennequin
2024	SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models. Chun Yin, Tai-Shih Chi, Yu Tsao, Hsin-Min Wang
2024	SWAN: SubWord Alignment Network for HMM-free word timing estimation in end-to-end automatic speech recognition. Woo Hyun Kang, Srikanth Vishnubhotla, Rudolf Braun, Yogesh Virkar, Raghuveer Peri, Kyu J. Han
2024	SWiBE: A Parameterized Stochastic Diffusion Process for Noise-Robust Bandwidth Expansion. Yin-Tse Lin, Shreya G. Upadhyay, Bo-Hao Su, Chi-Chun Lee
2024	SaSLaW: Dialogue Speech Corpus with Audio-visual Egocentric Information Toward Environment-adaptive Dialogue Speech Synthesis. Osamu Take, Shinnosuke Takamichi, Kentaro Seki, Yoshiaki Bando, Hiroshi Saruwatari
2024	Sample-Efficient Diffusion for Text-To-Speech Synthesis. Justin Lovelace, Soham Ray, Kwangyoun Kim, Kilian Q. Weinberger, Felix Wu
2024	Scaling up masked audio encoder learning for general audio classification. Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang
2024	Schrödinger Bridge for Generative Speech Enhancement. Ante Jukic, Roman Korostik, Jagadeesh Balam, Boris Ginsburg
2024	SeMaScore: A new evaluation metric for automatic speech recognition tasks. Zitha Sasindran, Harsha Yelchuri, T. Venkata Prabhakar
2024	Seamless Language Expansion: Enhancing Multilingual Mastery in Self-Supervised Models. Jing Xu, Minglin Wu, Xixin Wu, Helen Meng
2024	Searching for Structure: Appraising the Organisation of Speech Features in wav2vec 2.0 Embeddings. Patrick Cormac English, John D. Kelleher, Julie Carson-Berndsen
2024	SecureSpectra: Safeguarding Digital Identity from Deep Fake Threats via Intelligent Signatures. Oguzhan Baser, Kaan Kale, Sandeep P. Chinchali
2024	Segmental and Suprasegmental Speech Foundation Models for Classifying Cognitive Risk Factors: Evaluating Out-of-the-Box Performance. Si-Ioi Ng, Lingfeng Xu, Kimberly D. Mueller, Julie Liss, Visar Berisha
2024	Self-Supervised Embeddings for Detecting Individual Symptoms of Depression. Sri Harsha Dumpala, Katerina Dikaios, Abraham Nunes, Frank Rudzicz, Rudolf Uher, Sageev Oore
2024	Self-Supervised Learning for ASR Pre-Training with Uniquely Determined Target Labels and Controlling Cepstrum Truncation for Speech Augmentation. Akihiro Kato, Hiroyuki Nagano, Kohei Chike, Masaki Nose
2024	Self-Supervised Learning with Multi-Head Multi-Mode Knowledge Distillation for Speaker Verification. Zezhong Jin, Youzhi Tu, Man-Wai Mak
2024	Self-Supervised Models for Phoneme Recognition: Applications in Children's Speech for Reading Learning. Lucas Block Medin, Thomas Pellegrini, Lucile Gelin
2024	Self-Supervised Speaker Verification with Mini-Batch Prediction Correction. Junxu Wang, Zhihua Fang, Liang He
2024	Self-Supervised Speech Representations are More Phonetic than Semantic. Kwanghee Choi, Ankita Pasad, Tomohiko Nakamura, Satoru Fukayama, Karen Livescu, Shinji Watanabe
2024	Self-Train Before You Transcribe. Robert Flynn, Anton Ragni
2024	Self-supervised Speech Representations Still Struggle with African American Vernacular English. Kalvin Chang, Yi-Hui Chou, Jiatong Shi, Hsuan-Ming Chen, Nicole Holliday, Odette Scharenborg, David R. Mortensen
2024	Self-supervised speaker verification with relational mask prediction. Ju-ho Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon, Minjae Lee, Ha-Jin Yu
2024	Self-training ASR Guided by Unsupervised ASR Teacher. Hyung Yong Kim, Byeong-Yeol Kim, Yunkyu Lim, Jihwan Park, Shukjae Choi, Yooncheol Ju, Jinseok Park, Youshin Lim, Seung Woo Yu, Hanbin Lee, Shinji Watanabe
2024	Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation. Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
2024	Sequential Editing for Lifelong Training of Speech Recognition Models. Devang Kulshreshtha, Nikolaos Pappas, Brady Houston, Saket Dingliwal, Srikanth Ronanki
2024	Serialized Output Training by Learned Dominance. Ying Shi, Lantian Li, Shi Yin, Dong Wang, Jiqing Han
2024	Shared-Adapters: A Novel Transformer-based Parameter Efficient Transfer Learning Approach For Children's Automatic Speech Recognition. Thomas Rolland, Alberto Abad
2024	Should you use a probabilistic duration model in TTS? Probably! Especially for spontaneous speech. Shivam Mehta, Harm Lameris, Rajiv Punmiya, Jonas Beskow, Éva Székely, Gustav Eje Henter
2024	Sign Value Constraint Decomposition for Efficient 1-Bit Quantization of Speech Translation Tasks. Nan Chen, Yonghe Wang, Feilong Bao
2024	Signal processing algorithm effective for sound quality of hearing loss simulators. Toshio Irino, Shintaro Doan, Minami Ishikawa
2024	SilentCipher: Deep Audio Watermarking. Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji
2024	SimpleSpeech: Towards Simple and Efficient Text-to-Speech with Scalar Latent Transformer Diffusion Models. Dongchao Yang, Dingdong Wang, Haohan Guo, Xueyuan Chen, Xixin Wu, Helen Meng
2024	SimuSOE: A Simulated Snoring Dataset for Obstructive Sleep Apnea-Hypopnea Syndrome Evaluation during Wakefulness. Jie Lin, Xiuping Yang, Li Xiao, Xinhong Li, Weiyan Yi, Yuhong Yang, Weiping Tu, Xiong Chen
2024	Simul-Whisper: Attention-Guided Streaming Whisper with Truncation Detection. Haoyu Wang, Guoqiang Hu, Guodong Lin, Wei-Qiang Zhang, Jian Li
2024	Simulating articulatory trajectories with phonological feature interpolation. Angelo Ortiz Tandazo, Thomas Schatz, Thomas Hueber, Emmanuel Dupoux
2024	SingOMD: Singing Oriented Multi-resolution Discrete Representation Construction from Speech Models. Yuxun Tang, Yuning Wu, Jiatong Shi, Qin Jin
2024	Singing Voice Data Scaling-up: An Introduction to ACE-Opencpop and ACE-KiSing. Jiatong Shi, Yueqian Lin, Xinyi Bai, Keyi Zhang, Yuning Wu, Yuxun Tang, Yifeng Yu, Qin Jin, Shinji Watanabe
2024	Singing Voice Graph Modeling for SingFake Detection. Xuanjun Chen, Haibin Wu, Roger Jang, Hung-yi Lee
2024	Single-Codec: Single-Codebook Speech Codec towards High-Performance Speech Generation. Hanzhao Li, Liumeng Xue, Haohan Guo, Xinfa Zhu, Yuanjun Lv, Lei Xie, Yunlin Chen, Hao Yin, Zhifei Li
2024	Small-E: Small Language Model with Linear Attention for Efficient Speech Synthesis. Théodor Lemerle, Nicolas Obin, Axel Roebel
2024	Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation. Peidong Wang, Jian Xue, Jinyu Li, Jun-Kun Chen, Aswin Shanmugam Subramanian
2024	Song Data Cleansing for End-to-End Neural Singer Diarization Using Neural Analysis and Synthesis Framework. Hokuto Munakata, Ryo Terashima, Yusuke Fujita
2024	Sound Event Bounding Boxes. Janek Ebbers, François G. Germain, Gordon Wichern, Jonathan Le Roux
2024	Sound of Traffic: A Dataset for Acoustic Traffic Identification and Counting. Shabnam Ghaffarzadegan, Luca Bondi, Wei-Cheng Lin, Abinaya Kumar, Ho-Hsiang Wu, Hans-Georg Horst, Samarjit Das
2024	Sound of Vision: Audio Generation from Visual Text Embedding through Training Domain Discriminator. Jaewon Kim, Won-Gook Choi, Seyun Ahn, Joon-Hyuk Chang
2024	Source Tracing of Audio Deepfake Systems. Nicholas Klein, Tianxiang Chen, Hemlata Tak, Ricardo Casal, Elie Khoury
2024	Sparse Binarization for Fast Keyword Spotting. Jonathan Svirsky, Uri Shaham, Ofir Lindenbaum
2024	SparseWAV: Fast and Accurate One-Shot Unstructured Pruning for Large Speech Foundation Models. Tianteng Gu, Bei Liu, Hang Shao, Yanmin Qian
2024	Spatial Acoustic Enhancement Using Unbiased Relative Harmonic Coefficients. Liang Tao, Maoshen Jia, Yonggang Hu, Changchun Bao
2024	Spatial Voice Conversion: Voice Conversion Preserving Spatial Information and Non-target Signals. Kentaro Seki, Shinnosuke Takamichi, Norihiro Takamune, Yuki Saito, Kanami Imamura, Hiroshi Saruwatari
2024	Speak in the Scene: Diffusion-based Acoustic Scene Transfer toward Immersive Speech Generation. Miseul Kim, Soo-Whan Chung, Youna Ji, Hong-Goo Kang, Min-Seok Choi
2024	Speaker Change Detection with Weighted-sum Knowledge Distillation based on Self-supervised Pre-trained Models. Hang Su, Yuxiang Kong, Lichun Fan, Peng Gao, Yujun Wang, Zhiyong Wu
2024	Speaker Conditional Sinc-Extractor for Personal VAD. En-Lun Yu, Kuan-Hsun Ho, Jeih-weih Hung, Shih-Chieh Huang, Berlin Chen
2024	Speaker Detection by the Individual Listener and the Crowd: Parametric Models Applicable to Bonafide and Deepfake Speech. Tomi H. Kinnunen, Rosa González Hautamäki, Xin Wang, Junichi Yamagishi
2024	Speaker Personalization for Automatic Speech Recognition using Weight-Decomposed Low-Rank Adaptation. George Joseph, Arun Baby
2024	Speaker- and Text-Independent Estimation of Articulatory Movements and Phoneme Alignments from Speech. Tobias Weise, Philipp Klumpp, Kubilay Can Demir, Paula Andrea Pérez-Toro, Maria Schuster, Elmar Nöth, Björn Heismann, Andreas K. Maier, Seung Hee Yang
2024	Speaker-Independent Acoustic-to-Articulatory Inversion through Multi-Channel Attention Discriminator. Woo-Jin Chung, Hong-Goo Kang
2024	Speaker-Smoothed kNN Speaker Adaptation for End-to-End ASR. Shaojun Li, Daimeng Wei, Hengchao Shang, Jiaxin Guo, Zongyao Li, Zhanglin Wu, Zhiqiang Rao, Yuanchang Luo, Xianghui He, Hao Yang
2024	SpeakerBeam-SS: Real-time Target Speaker Extraction with Lightweight Conv-TasNet and State Space Modeling. Hiroshi Sato, Takafumi Moriya, Masato Mimura, Shota Horiguchi, Tsubasa Ochiai, Takanori Ashihara, Atsushi Ando, Kentaro Shinayama, Marc Delcroix
2024	Speakers Unembedded: Embedding-free Approach to Long-form Neural Diarization. Xiang Li, Vivek Govindan, Rohit Paturi, Sundararajan Srinivasan
2024	Speaking of Health: Leveraging Large Language Models to assess Exercise Motivation and Behavior of Rehabilitation Patients. Suhas BN, Amanda Rebar, Saeed Abdullah
2024	Specializing Self-Supervised Speech Representations for Speaker Segmentation. Séverin Baroudi, Thomas Pellegrini, Hervé Bredin
2024	Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models. Bolaji Yusuf, Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran
2024	Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology. Robin Netzorg, Alyssa Cote, Sumi Koshin, Klo Vivienne Garoute, Gopala Krishna Anumanchipalli
2024	Speech Boosting: Low-Latency Live Speech Enhancement for TWS Earbuds. Hanbin Bae, Pavel Andreev, Azat Saginbaev, Nicholas Babaev, Won-Jun Lee, Hosang Sung, Hoon-Young Cho
2024	Speech Emotion Recognition with Multi-level Acoustic and Semantic Information Extraction and Interaction. Yuan Gao, Hao Shi, Chenhui Chu, Tatsuya Kawahara
2024	Speech Formants Integration for Generalized Detection of Synthetic Speech Spoofing Attacks. Kexu Liu, Yuanxin Wang, Shengchen Li, Xi Shao
2024	Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions. Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Neeraj Gaur, Zhong Meng
2024	Speech ReaLLM - Real-time Speech Recognition with Multimodal Language Models by Teaching the Flow of Time. Frank Seide, Yangyang Shi, Morrie Doulaty, Yashesh Gaur, Junteng Jia, Chunyang Wu
2024	Speech Recognition Models are Strong Lip-readers. K. R. Prajwal, Triantafyllos Afouras, Andrew Zisserman
2024	Speech Recognition for Greek Dialects: A Challenging Benchmark. Socrates Vakirtzian, Chara Tsoukala, Stavros Bompolas, Katerina Mouzou, Vivian Stamou, Georgios Paraskevopoulos, Antonios Dimakis, Stella Markantonatou, Angela Ralli, Antonios Anastasopoulos
2024	Speech Topic Classification Based on Multi-Scale and Graph Attention Networks. Fangjing Niu, Xiaozhe Qi, Xinya Chen, Liang He
2024	Speech and Language Recognition with Low-rank Adaptation of Pretrained Models. Amrutha Prasad, Srikanth R. Madikeri, Driss Khalil, Petr Motlícek, Christof Schüpbach
2024	Speech dereverberation constrained on room impulse response characteristics. Louis Bahrman, Mathieu Fontaine, Jonathan Le Roux, Gaël Richard
2024	Speech emotion recognition with deep learning beamforming on a distant human-robot interaction scenario. Ricardo García, Rodrigo Mahú, Nicolás Grágeda, Alejandro Luzanto, Nicolas Bohmer, Carlos Busso, Néstor Becerra Yoma
2024	Speech enabled visual acuity test. Boon Peng Yap, Kok Liang Tan, Zhenghao Li, Rong Tong
2024	Speech foundation models in healthcare: Effect of layer selection on pathological speech feature prediction. Daniela A. Wiepert, Rene L. Utianski, Joseph R. Duffy, John L. Stricker, Leland R. Barnard, David T. Jones, Hugo Botha
2024	Speech quality evaluation of neural audio codecs. Thomas Muller, Stéphane Ragot, Laetitia Gros, Pierrick Philippe, Pascal Scalart
2024	Speech-MASSIVE: A Multilingual Speech Dataset for SLU and Beyond. Beomseok Lee, Ioan Calapodescu, Marco Gaido, Matteo Negri, Laurent Besacier
2024	SpeechBERTScore: Reference-Aware Automatic Evaluation of Speech Generation Leveraging NLP Evaluation Metrics. Takaaki Saeki, Soumi Maiti, Shinnosuke Takamichi, Shinji Watanabe, Hiroshi Saruwatari
2024	Speed of Light Exact Greedy Decoding for RNN-T Speech Recognition Models on GPU. Daniel Galvez, Vladimir Bataev, Hainan Xu, Tim Kaldewey
2024	Spoken Word2Vec: Learning Skipgram Embeddings from Speech. Mohammad Amaan Sayeed, Hanan Aldarmaki
2024	Spoken-Term Discovery using Discrete Speech Units. Benjamin van Niekerk, Julian Zaïdi, Marc-André Carbonneau, Herman Kamper
2024	Spoken-to-written text conversion with Large Language Model. HyunJung Choi, Muyeol Choi, Yohan Lim, Minkyu Lee, Seon Hui Kim, Seung Yun, Donghyun Kim, Sang-Hun Kim
2024	Spontaneous Speech-Based Suicide Risk Detection Using Whisper and Large Language Models. Ziyun Cui, Chang Lei, Wen Wu, Yinan Duan, Diyang Qu, Ji Wu, Runsen Chen, Chao Zhang
2024	Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models. Weiqin Li, Peiji Yang, Yicheng Zhong, Yixuan Zhou, Zhisheng Wang, Zhiyong Wu, Xixin Wu, Helen Meng
2024	Spoof Diarization: "What Spoofed When" in Partially Spoofed Audio. Lin Zhang, Xin Wang, Erica Cooper, Mireia Díez, Federico Landini, Nicholas W. D. Evans, Junichi Yamagishi
2024	Spoofed Speech Detection with a Focus on Speaker Embedding. Hoan My Tran, David Guennec, Philippe Martin, Aghilas Sini, Damien Lolive, Arnaud Delhay, Pierre-François Marteau
2024	Spoofing Speech Detection by Modeling Local Spectro-Temporal and Long-term Dependency. Haochen Wu, Wu Guo, ZhenTao Zhang, Wenting Zhao, Shengyu Peng, Jie Zhang
2024	State-of-the-art speech production MRI protocol for new 0.55 Tesla scanners. Prakash Kumar, Ye Tian, Yongwan Lim, Sophia X. Cui, Christina Hagedorn, Dani Byrd, Uttam K. Sinha, Shrikanth Narayanan, Krishna S. Nayak
2024	Stream-based Active Learning for Anomalous Sound Detection in Machine Condition Monitoring. Tuan Vu Ho, Kota Dohi, Yohei Kawaguchi
2024	Streaming Audio Transformers for Online Audio Tagging. Heinrich Dinkel, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang, Bin Wang
2024	Streaming Decoder-Only Automatic Speech Recognition with Discrete Speech Units: A Pilot Study. Peikun Chen, Sining Sun, Changhao Shan, Qing Yang, Lei Xie
2024	Streamlining Speech Enhancement DNNs: an Automated Pruning Method Based on Dependency Graph with Advanced Regularized Loss Strategies. Zugang Zhao, Jinghong Zhang, Yonghui Liu, Jianbing Liu, Kai Niu, Zhiqiang He
2024	Stress transfer in speech-to-speech machine translation. Sai Akarsh C, Vamshiraghusimha Narasinga, Anil Kumar Vuppala
2024	Study Selectively: An Adaptive Knowledge Distillation based on a Voting Network for Heart Sound Classification. Xihang Qiu, Lixian Zhu, Zikai Song, Zeyu Chen, Haojie Zhang, Kun Qian, Ye Zhang, Bin Hu, Yoshiharu Yamamoto, Björn W. Schuller
2024	Sub-PNWR: Speech Enhancement Based on Signal Sub-Band Splitting and Pseudo Noisy Waveform Reconstruction Loss. Yuewei Zhang, Huanbin Zou, Jie Zhu
2024	SummaryMixing: A Linear-Complexity Alternative to Self-Attention for Speech Recognition and Understanding. Titouan Parcollet, Rogier van Dalen, Shucong Zhang, Sourav Bhattacharya
2024	Sustained Vowels for Pre- vs Post-Treatment COPD Classification. Andreas Triantafyllopoulos, Anton Batliner, Wolfgang Mayr, Markus Fendler, Florian B. Pokorny, Maurice Gerczuk, Shahin Amiriparian, Thomas M. Berghaus, Björn W. Schuller
2024	Switching Tongues, Sharing Hearts: Identifying the Relationship between Empathy and Code-switching in Speech. Debasmita Bhattacharya, Eleanor Lin, Run Chen, Julia Hirschberg
2024	SyncVSR: Data-Efficient Visual Speech Recognition with End-to-End Crossmodal Audio Token Synchronization. Youngjin Ahn, Jungwoo Park, Sangha Park, Jonghyun Choi, Kee-Eung Kim
2024	Synthesizing Long-Form Speech merely from Sentence-Level Corpus with Content Extrapolation and LLM Contextual Enrichment. Shijie Lai, Minglu He, Zijing Zhao, Kai Wang, Hao Huang, Jichen Yang
2024	TD-PLC: A Semantic-Aware Speech Encoding for Improved Packet Loss Concealment. Jinghong Zhang, Zugang Zhao, Yonghui Liu, Jianbing Liu, Zhiqiang He, Kai Niu
2024	TEEMI: a speaking practice tool for L2 English learners. Szu-Yu Chen, Tien-Hong Lo, Yao-Ting Sung, Ching-Yu Tseng, Berlin Chen
2024	TM-PATHVQA: 90000+ Textless Multilingual Questions for Medical Visual Question Answering. Tonmoy Rajkhowa, Amartya Roy Chowdhury, Sankalp Nagaonkar, Achyut Mani Tripathi, S. R. Mahadeva Prasanna
2024	TSE-PI: Target Sound Extraction under Reverberant Environments with Pitch Information. Yiwen Wang, Xihong Wu
2024	TSP-TTS: Text-based Style Predictor with Residual Vector Quantization for Expressive Text-to-Speech. Donghyun Seong, Hoyoung Lee, Joon-Hyuk Chang
2024	Tackling Missing Modalities in Audio-Visual Representation Learning Using Masked Autoencoders. Georgios Chochlakis, Chandrashekhar Lavania, Prashant Mathur, Kyu J. Han
2024	TacoLM: GaTed Attention Equipped Codec Language Model are Efficient Zero-Shot Text to Speech Synthesizers. Yakun Song, Zhuo Chen, Xiaofei Wang, Ziyang Ma, Guanrou Yang, Xie Chen
2024	TalTech-IRIT-LIS Speaker and Language Diarization Systems for DISPLACE 2024. Joonas Kalda, Tanel Alumäe, Martin Lebourdais, Hervé Bredin, Séverin Baroudi, Ricard Marxer
2024	Target Speaker Extraction with Curriculum Learning. Yun Liu, Xuechen Liu, Xiaoxiao Miao, Junichi Yamagishi
2024	Target conversation extraction: Source separation using turn-taking dynamics. Tuochao Chen, Qirui Wang, Bohan Wu, Malek Itani, Sefik Emre Eskimez, Takuya Yoshioka, Shyamnath Gollakota
2024	Temporal Co-Registration of Simultaneous Electromagnetic Articulography and Electroencephalography for Precise Articulatory and Neural Data Alignment. Daniel Friedrichs, Monica Lancheros, Sam Kirkham, Lei He, Andrew Clark, Clemens Lutz, Volker Dellwo, Steven Moran
2024	Temporal-Channel Modeling in Multi-head Self-Attention for Synthetic Speech Detection. Duc-Tuan Truong, Ruijie Tao, Tuan Nguyen, Hieu-Thi Luong, Kong Aik Lee, Eng Siong Chng
2024	Text Injection for Neural Contextual Biasing. Zhong Meng, Zelin Wu, Rohit Prabhavalkar, Cal Peyser, Weiran Wang, Nanxin Chen, Tara N. Sainath, Bhuvana Ramabhadran
2024	Text-aware Speech Separation for Multi-talker Keyword Spotting. Haoyu Li, Baochen Yang, Yu Xi, Linfeng Yu, Tian Tan, Hao Li, Kai Yu
2024	Text-aware and Context-aware Expressive Audiobook Speech Synthesis. Dake Guo, Xinfa Zhu, Liumeng Xue, Yongmao Zhang, Wenjie Tian, Lei Xie
2024	Text-only Domain Adaptation for CTC-based Speech Recognition through Substitution of Implicit Linguistic Information in the Search Space. Tatsunari Takagi, Yukoh Wakabayashi, Atsunori Ogawa, Norihide Kitaoka
2024	Textless Dependency Parsing by Labeled Sequence Prediction. Shunsuke Kando, Yusuke Miyao, Jason Naradowsky, Shinnosuke Takamichi
2024	Textual-Driven Adversarial Purification for Speaker Verification. Sizhou Chen, Yibo Bai, Jiadi Yao, Xiao-Lei Zhang, Xuelong Li
2024	TfCleanformer: A streaming, array-agnostic, full- and sub-band modeling front-end for robust ASR. Jens Heitkaemper, Joe Caroselli, Arun Narayanan, Nathan Howard
2024	The Difficulty and Importance of Estimating the Lower and Upper Bounds of Infant Speech Exposure. Joseph Coffey, Okko Räsänen, Camila Scaff, Alejandrina Cristià
2024	The Greek podcast corpus: Competitive speech models for low-resourced languages with weakly supervised data. Georgios Paraskevopoulos, Chara Tsoukala, Athanasios Katsamanis, Vassilis Katsouros
2024	The Interspeech 2024 Challenge on Speech Processing Using Discrete Units. Xuankai Chang, Jiatong Shi, Jinchuan Tian, Yuning Wu, Yuxun Tang, Yihan Wu, Shinji Watanabe, Yossi Adi, Xie Chen, Qin Jin
2024	The Interspeech 2024 TAUKADIAL Challenge: Multilingual Mild Cognitive Impairment Detection with Multimodal Approach. Benjamin Barrera-Altuna, Daeun Lee, Zaima Zarnaz, Jinyoung Han, Seungbae Kim
2024	The MARRYS helmet: A new device for researching and training "jaw dancing". Vidar Freyr Gudmundsson, Keve Márton Gönczi, Malin Svensson Lundmark, Donna Erickson, Oliver Niebuhr
2024	The PESQetarian: On the Relevance of Goodhart's Law for Speech Enhancement. Danilo de Oliveira, Simon Welker, Julius Richter, Timo Gerkmann
2024	The Processing of Stress in End-to-End Automatic Speech Recognition Models. Martijn Bentum, Louis ten Bosch, Tom Lentz
2024	The Production of Contrastive Focus by 7 to 13-year-olds Learning Mandarin Chinese. Zimeng Li, Zhongxuan Mao, Shengting Shen, Ivan Yuen, Ping Tang
2024	The Second DISPLACE Challenge: DIarization of SPeaker and LAnguage in Conversational Environments. Shareef Babu Kalluri, Prachi Singh, Pratik Roy Chowdhuri, Apoorva Kulkarni, Shikha Baghel, Pradyoth Hegde, Swapnil Sontakke, Deepak K. T., S. R. Mahadeva Prasanna, Deepu Vijayasenan, Sriram Ganapathy
2024	The Use of Modifiers and f0 in Remote Referential Communication with Human and Computer Partners. Iona Gessinger, Bistra Andreeva, Benjamin R. Cowan
2024	The Use of Phone Categories and Cross-Language Modeling for Phone Alignment of Panãra. Emily P. Ahn, Eleanor Chodroff, Myriam Lapierre, Gina-Anne Levow
2024	The Whole Is Bigger Than the Sum of Its Parts: Modeling Individual Annotators to Capture Emotional Variability. James Tavernor, Yara El-Tawil, Emily Mower Provost
2024	The influence of L2 accent strength and different error types on personality trait ratings. Sarah Wesolek, Piotr Gulgowski, Joanna Blaszczak, Marzena Zygis
2024	The prosody of the verbal prefix ge-: historical and experimental evidence. Chiara Riegger, Tina Bögel, George Walkden
2024	The reasonable effectiveness of speaker embeddings for violence detection. Sarthak Jain, Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma
2024	The speech motor chaining web app for speech motor learning. Jonathan L. Preston, Nina R. Benway, Nathan R. Prestopnik, Nathan Preston
2024	The sub-band cepstrum as a tool for locating local spectral regions of phonetic sensitivity: A first attempt with multi-speaker vowel data. Michael Lambropoulos, Frantz Clermont, Shunichi Ishihara
2024	This Paper Had the Smartest Reviewers - Flattery Detection Utilising an Audio-Textual Transformer-Based Approach. Lukas Christ, Shahin Amiriparian, Friederike Hawighorst, Ann-Kathrin Schill, Angelo Boutalikakis, Lorenz Graf-Vlachy, Andreas König, Björn W. Schuller
2024	Thunder : Unified Regression-Diffusion Speech Enhancement with a Single Reverse Step using Brownian Bridge. Thanapat Trachu, Chawan Piansaddhayanon, Ekapol Chuangsuwanich
2024	To what extent can ASV systems naturally defend against spoofing attacks? Jee-weon Jung, Xin Wang, Nicholas W. D. Evans, Shinji Watanabe, Hye-jin Shim, Hemlata Tak, Siddhant Arora, Junichi Yamagishi, Joon Son Chung
2024	TokSing: Singing Voice Synthesis based on Discrete Tokens. Yuning Wu, Chunlei Zhang, Jiatong Shi, Yuxun Tang, Shan Yang, Qin Jin
2024	Total-Duration-Aware Duration Modeling for Text-to-Speech Systems. Sefik Emre Eskimez, Xiaofei Wang, Manthan Thakker, Chung-Hsien Tsai, Canrun Li, Zhen Xiao, Hemin Yang, Zirun Zhu, Min Tang, Jinyu Li, Sheng Zhao, Naoyuki Kanda
2024	Toward Fully-End-to-End Listened Speech Decoding from EEG Signals. Jihwan Lee, Aditya Kommineni, Tiantian Feng, Kleanthis Avramidis, Xuan Shi, Sudarsana Reddy Kadiri, Shrikanth Narayanan
2024	Towards Audio Codec-based Speech Separation. Jia Qi Yip, Shengkui Zhao, Dianwen Ng, Eng Siong Chng, Bin Ma
2024	Towards Classifying Mother Tongue from Infant Cries - Findings Substantiating Prenatal Learning Theory. Tim Polzehl, Tim Herzig, Friedrich Wicke, Kathleen Wermke, Razieh Khamsehashari, Michiko Dahlem, Sebastian Möller
2024	Towards EMG-to-Speech with Necklace Form Factor. Peter Wu, Ryan Kaveh, Raghav Nautiyal, Christine Zhang, Albert Guo, Anvitha Kachinthaya, Tavish Mishra, Bohan Yu, Alan W. Black, Rikky Muller, Gopala Krishna Anumanchipalli
2024	Towards Effective and Efficient Non-autoregressive Decoding Using Block-based Attention Mask. Tianzi Wang, Xurong Xie, Zhaoqing Li, Shoukang Hu, Zengrui Jin, Jiajun Deng, Mingyu Cui, Shujie Hu, Mengzhe Geng, Guinan Li, Helen Meng, Xunying Liu
2024	Towards End-to-End Unified Recognition for Mandarin and Cantonese. Meiling Chen, Pengjie Liu, Heng Yang, Haofeng Wang
2024	Towards Explainable Monaural Speaker Separation with Auditory-based Training. Hassan Taherian, Vahid Ahmadi Kalkhorani, Ashutosh Pandey, Daniel Wong, Buye Xu, DeLiang Wang
2024	Towards Expressive Zero-Shot Speech Synthesis with Hierarchical Prosody Modeling. Yuepeng Jiang, Tao Li, Fengyu Yang, Lei Xie, Meng Meng, Yujun Wang
2024	Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models. Neil Kumar Shah, Shirish S. Karande, Vineet Gandhi
2024	Towards Intelligent Speech Assistants in Operating Rooms: A Multimodal Model for Surgical Workflow Analysis. Kubilay Can Demir, Belén Lojo Rodríguez, Tobias Weise, Andreas K. Maier, Seung Hee Yang
2024	Towards Multilingual Audio-Visual Question Answering. Orchid Chetia Phukan, Priyabrata Mallick, Swarup Ranjan Behera, Aalekhya Satya Narayani, Arun Balaji Buduru, Rajesh Sharma
2024	Towards Naturalistic Voice Conversion: NaturalVoices Dataset with an Automatic Processing Pipeline. Ali N. Salman, Zongyang Du, Shreeram Suresh Chandra, Ismail Rasim Ülgen, Carlos Busso, Berrak Sisman
2024	Towards Realistic Emotional Voice Conversion using Controllable Emotional Intensity. Tianhua Qi, Shiyan Wang, Cheng Lu, Yan Zhao, Yuan Zong, Wenming Zheng
2024	Towards Rehearsal-Free Multilingual ASR: A LoRA-based Case Study on Whisper. Tianyi Xu, Kaixun Huang, Pengcheng Guo, Yu Zhou, Longtao Huang, Hui Xue, Lei Xie
2024	Towards Responsible Speech Processing. Isabel Trancoso
2024	Towards Robust Few-shot Class Incremental Learning in Audio Classification using Contrastive Representation. Riyansha Singh, Parinita Nema, Vinod K. Kurmi
2024	Towards Scalable Remote Assessment of Mild Cognitive Impairment Via Multimodal Dialog. Oliver Roesler, Jackson Liscombe, Michael Neumann, Hardik Kothare, Abhishek Hosamath, Lakshmi Arbatti, Doug Habberstad, Christiane Suendermann-Oeft, Meredith Bartlett, Cathy Zhang, Nikhil Sukhdev, Kolja Wilms, Anusha Badathala, Sandrine Istas, Steve Ruhmel, Bryan Hansen, Madeline Hannan, David Henley, Arthur W. Wallace, Ira Shoulson, David Suendermann-Oeft, Vikram Ramanarayanan
2024	Towards Self-Attention Understanding for Automatic Articulatory Processes Analysis in Cleft Lip and Palate Speech. Ilja Baumann, Dominik Wagner, Maria Schuster, Korbinian Riedhammer, Elmar Nöth, Tobias Bocklet
2024	Towards Speech Classification from Acoustic and Vocal Tract data in Real-time MRI. Yaoyao Yue, Michael Proctor, Luping Zhou, Rijul Gupta, Tharinda Piyadasa, Amelia Gully, Kirrie J. Ballard, Craig T. Jin
2024	Towards Speech-to-Pictograms Translation. Cécile Macaire, Chloé Dion, Didier Schwab, Benjamin Lecouteux, Emmanuelle Esperança-Rodier
2024	Towards Supervised Performance on Speaker Verification with Self-Supervised Learning by Leveraging Large-Scale ASR Models. Victor Miara, Théo Lepage, Réda Dehak
2024	Towards a General-Purpose Model of Perceived Pragmatic Similarity. Nigel G. Ward, Andres Segura, Alejandro Ceballos, Divette Marco
2024	Towards a Quantitative Analysis of Coarticulation with a Phoneme-to-Articulatory Model. Chaofei Fan, Jaimie M. Henderson, Chris Manning, Francis R. Willett
2024	Towards a better understanding of receptive multilingualism: listening conditions and priming effects. Wei Xue, Ivan Yuen, Bernd Möbius
2024	Towards an End-to-End Framework for Invasive Brain Signal Decoding with Large Language Models. Sheng Feng, Heyang Liu, Yu Wang, Yanfeng Wang
2024	Towards generalisable and calibrated audio deepfake detection with self-supervised representations. Octavian Pascu, Adriana Stan, Dan Oneata, Elisabeta Oneata, Horia Cucu
2024	Towards interfacing large language models with ASR systems using confidence measures and prompting. Maryam Naderi, Enno Hermann, Alexandre Nanchen, Sevada Hovsepyan, Mathew Magimai-Doss
2024	Towards measuring fairness in speech recognition: Fair-Speech dataset. Irina-Elena Veliche, Zhuangqun Huang, Vineeth Ayyat Kochaniyan, Fuchun Peng, Ozlem Kalinli, Michael L. Seltzer
2024	Towards objective and interpretable speech disorder assessment: a comparative analysis of CNN and transformer-based models. Malo Maisonneuve, Corinne Fredouille, Muriel Lalain, Alain Ghio, Virginie Woisard
2024	Towards realtime co-speech gestures synthesis using STARGATE. Louis Abel, Vincent Colotte, Slim Ouni
2024	TraceableSpeech: Towards Proactively Traceable Text-to-Speech with Watermarking. Junzuo Zhou, Jiangyan Yi, Tao Wang, Jianhua Tao, Ye Bai, Chu Yuan Zhang, Yong Ren, Zhengqi Wen
2024	Tradition or Innovation: A Comparison of Modern ASR Methods for Forced Alignment. Rotem Rousso, Eyal Cohen, Joseph Keshet, Eleanor Chodroff
2024	Training Data Augmentation for Dysarthric Automatic Speech Recognition by Text-to-Dysarthric-Speech Synthesis. Wing-Zin Leung, Mattias Cross, Anton Ragni, Stefan Goetze
2024	Training speech-breathing coordination in computer-assisted reading. Delphine Charuau, Andrea Briglia, Erika Godde, Gérard Bailly
2024	Transcription-Free Fine-Tuning of Speech Separation Models for Noisy and Reverberant Multi-Speaker Automatic Speech Recognition. William Ravenscroft, George Close, Stefan Goetze, Thomas Hain, Mohammad Soleymanpour, Anurag Chowdhury, Mark C. Fuhs
2024	Transfer Learning from Whisper for Microscopic Intelligibility Prediction. Paul Best, Santiago Cuervo, Ricard Marxer
2024	Transformer-based Model for ASR N-Best Rescoring and Rewriting. Iwen E. Kang, Christophe Van Gysel, Man-Hung Siu
2024	Translating speech with just images. Dan Oneata, Herman Kamper
2024	Translingual Language Markers for Cognitive Assessment from Spontaneous Speech. Bao Hoang, Yijiang Pang, Hiroko H. Dodge, Jiayu Zhou
2024	Transmitted and Aggregated Self-Attention for Automatic Speech Recognition. Tian-Hao Zhang, Xinyuan Qian, Feng Chen, Xu-Cheng Yin
2024	UNIQUE : Unsupervised Network for Integrated Speech Quality Evaluation. Juhwan Yoon, WooSeok Ko, Seyun Um, Sungwoong Hwang, Soojoong Hwang, ChangHwan Kim, Hong-Goo Kang
2024	URGENT Challenge: Universality, Robustness, and Generalizability For Speech Enhancement. Wangyou Zhang, Robin Scheibler, Kohei Saijo, Samuele Cornell, Chenda Li, Zhaoheng Ni, Jan Pirklbauer, Marvin Sach, Shinji Watanabe, Tim Fingscheidt, Yanmin Qian
2024	USD-AC: Unsupervised Speech Disentanglement for Accent Conversion. Jen-Hung Huang, Wei-Tsung Lee, Chung-Hsien Wu
2024	USM RNN-T model weights binarization. Oleg Rybakov, Dmitriy Serdyuk, Chengjian Zheng
2024	UY/CH-CHILD - A Public Chinese L2 Speech Database of Uyghur Children. Mewlude Nijat, Chen Chen, Dong Wang, Askar Hamdulla
2024	Uh, um and mh: Are filled pauses prone to conversational converge? Mathilde Hutin, Junfei Hu, Liesbeth Degand
2024	Uncertainty-Aware Mean Opinion Score Prediction. Hui Wang, Shiwan Zhao, Jiaming Zhou, Xiguang Zheng, Haoqin Sun, Xuechen Wang, Yong Qin
2024	Understanding "understanding": presenting a richly annotated multimodal corpus of dyadic interaction. Leonie Schade, Nico Dallmann, Olcay Türk, Stefan Lazarov, Petra Wagner
2024	Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models. Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee
2024	Unified Audio Visual Cues for Target Speaker Extraction. Tianci Wu, Shulin He, Jiahui Pan, Haifeng Huang, ZhiJian Mo, Xueliang Zhang
2024	Unified Framework for Spoken Language Understanding and Summarization in Task-Based Human Dialog processing. Eunice Akani, Frédéric Béchet, Benoît Favre, Romain Gemignani
2024	Unified Multi-Talker ASR with and without Target-speaker Enrollment. Ryo Masumura, Naoki Makishima, Tomohiro Tanaka, Mana Ihori, Naotaka Kawata, Shota Orihashi, Kazutoshi Shinoda, Taiga Yamane, Saki Mizuno, Keita Suzuki, Satoshi Suzuki, Nobukatsu Hojo, Takafumi Moriya, Atsushi Ando
2024	Universal Score-based Speech Enhancement with High Content Preservation. Robin Scheibler, Yusuke Fujita, Yuma Shirahata, Tatsuya Komatsu
2024	Unmasking Neural Codecs: Forensic Identification of AI-compressed Speech. Denise Moussa, Sandra Bergmann, Christian Riess
2024	Unsupervised Domain Adaptation for Speech Emotion Recognition using K-Nearest Neighbors Voice Conversion. Pravin Mote, Berrak Sisman, Carlos Busso
2024	Unsupervised Improved MVDR Beamforming for Sound Enhancement. Jacob Kealey, John R. Hershey, François Grondin
2024	Unsupervised Online Continual Learning for Automatic Speech Recognition. Steven Vander Eeckt, Hugo Van hamme
2024	Unveiling Biases while Embracing Sustainability: Assessing the Dual Challenges of Automatic Speech Recognition Systems. Ajinkya Kulkarni, Atharva Kulkarni, Miguel Couceiro, Isabel Trancoso
2024	Urdu Alternative Questions: A Hat Pattern. Benazir Mumtaz, Miriam Butt
2024	Using Large Language Model for End-to-End Chinese ASR and NER. Yuang Li, Jiawei Yu, Min Zhang, Mengxin Ren, Yanqing Zhao, Xiaofeng Zhao, Shimin Tao, Jinsong Su, Hao Yang
2024	Using articulated speech EEG signals for imagined speech decoding. Chris Bras, Tanvina Patel, Odette Scharenborg
2024	Using wav2vec 2.0 for phonetic classification tasks: methodological aspects. Lila Kim, Cédric Gendrot
2024	Utilization of Text Data for Response Timing Detection in Attentive Listening. Yu Watanabe, Koichiro Ito, Shigeki Matsubara
2024	Utilizing Adaptive Global Response Normalization and Cluster-Based Pseudo Labels for Zero-Shot Voice Conversion. Ji Sub Um, Hoirin Kim
2024	VAE-based Phoneme Alignment Using Gradient Annealing and SSL Acoustic Features. Tomoki Koriyama
2024	VECL-TTS: Voice identity and Emotional style controllable Cross-Lingual Text-to-Speech. Ashishkumar Gudmalwar, Nirmesh Shah, Sai Akarsh, Pankaj Wasnik, Rajiv Ratn Shah
2024	VN-SLU: A Vietnamese Spoken Language Understanding Dataset. Tuyen Tran, Khanh Le, Ngoc Dang Nguyen, Minh Vu, Huyen Ngo, Woomyoung Park, Thi Thu Trang Nguyen
2024	VSASV: a Vietnamese Dataset for Spoofing-Aware Speaker Verification. Vu Hoang, Viet-Thanh Pham, Hoa Nguyen Xuan, Pham Nhi, Phuong Dat, Thi Thu Trang Nguyen
2024	Variability of speech timing features across repeated recordings: a comparison of open-source extraction techniques. Judith Dineley, Ewan Carr, Lauren L. White, Catriona Lucas, Zahia Rahman, Tian Pan, Faith Matcham, Johnny Downs, Richard J. B. Dobson, Thomas F. Quatieri, Nicholas Cummins
2024	Variable Segment Length and Domain-Adapted Feature Optimization for Speaker Diarization. Chenyuan Zhang, Linkai Luo, Hong Peng, Wei Wen
2024	Vec-Tok-VC+: Residual-enhanced Robust Zero-shot Voice Conversion with Progressive Constraints in a Dual-mode Training Strategy. Linhan Ma, Xinfa Zhu, Yuanjun Lv, Zhichao Wang, Ziqian Wang, Wendi He, Hongbin Zhou, Lei Xie
2024	Vision Transformer Segmentation for Visual Bird Sound Denoising. Sahil Kumar, Jialu Li, Youshan Zhang
2024	Visual scene display application for augmentative and alternative communication. Karthik Venkat Sridaran, Raja Praveen, Reuben T. Varghese, Ajish K. Abraham, Shankar R, Winnie Rachel Cherian
2024	Visualization for improving foreign language pronunciation. Charlotte Yoder, Karrie Karahalios, Mark Hasegawa-Johnson, Shreyansh Agrawal
2024	VoiCor: A Residual Iterative Voice Correction Framework for Monaural Speech Enhancement. Rui Cao, Tianrui Wang, Meng Ge, Andong Li, Longbiao Wang, Jianwu Dang, Yungang Jia
2024	Voice Disorder Analysis: a Transformer-based Approach. Alkis Koudounas, Gabriele Ciravegna, Marco Fantini, Erika Crosetti, Giovanni Succo, Tania Cerquitelli, Elena Baralis
2024	Voice Quality Variation in AAE: An Additional Challenge for Addressing Bias in ASR Models? Li-Fang Lai, Nicole R. Holliday
2024	Voice quality in telephone speech: Comparing acoustic measures between VoIP telephone and high-quality recordings. Chenzi Xu, Jessica Wormald, Paul Foulkes, Philip Harrison, Vincent Hughes, Poppy Welch, Finnian Kelly, David van der Vloed
2024	VoiceDefense: Protecting Automatic Speaker Verification Models Against Black-box Adversarial Attacks. Yip Keng Kan, Ke Xu, Hao Li, Jie Shi
2024	VoiceTailor: Lightweight Plug-In Adapter for Diffusion-Based Personalized Text-to-Speech. Heeseung Kim, Sang-gil Lee, Jiheum Yeom, Che Hyun Lee, Sungwon Kim, Sungroh Yoon
2024	Voiced and voiceless laterals in Angami. Viyazonuo Terhiija, Priyankoo Sarmah
2024	VoxBlink2: A 100K+ Speaker Recognition Corpus and the Open-Set Speaker-Identification Benchmark. Yuke Lin, Ming Cheng, Fulin Zhang, Yingying Gao, Shilei Zhang, Ming Li
2024	VoxFlow AI: wearable voice converter for atypical speech. Grzegorz P. Mika, Konrad Zielinski, Pawel Cyrta, Marek Grzelec
2024	VoxMed: one-step respiratory disease classifier using digital stethoscope sounds. Paridhi Mundra, Manik Sharma, Yashwardhan Chaudhuri, Orchid Chetia Phukan, Arun Balaji Buduru
2024	VoxSim: A perceptual voice similarity dataset. Junseok Ahn, Youkyum Kim, Yeunju Choi, Doyeop Kwak, Ji-Hoon Kim, Seongkyu Mun, Joon Son Chung
2024	W-GVKT: Within-Global-View Knowledge Transfer for Speaker Verification. Zezhong Jin, Youzhi Tu, Man-Wai Mak
2024	WHiSER: White House Tapes Speech Emotion Recognition Corpus. Abinay Reddy Naini, Lucas Goncalves, Mary A. Kohler, Donita Robinson, Elizabeth Richerson, Carlos Busso
2024	Wav2vec 2.0 Embeddings Are No Swiss Army Knife - A Case Study for Multiple Sclerosis. Gábor Gosztolya, Mercedes Vetráb, Veronika Svindt, Judit Bóna, Ildikó Hoffmann
2024	Wave to Interlingua: Analyzing Representations of Multilingual Speech Transformers for Spoken Language Translation. Badr M. Abdullah, Mohammed Maqsood Shaik, Dietrich Klakow
2024	WeSep: A Scalable and Flexible Toolkit Towards Generalizable Target Speaker Extraction. Shuai Wang, Ke Zhang, Shaoxiong Lin, Junjie Li, Xuefei Wang, Meng Ge, Jianwei Yu, Yanmin Qian, Haizhou Li
2024	Weighted Cross-entropy for Low-Resource Languages in Multilingual Speech Recognition. Andrés Piñeiro Martín, Carmen García-Mateo, Laura Docío Fernández, Maria del Carmen Lopez-Perez, Georg Rehm
2024	Well, what can you do with messy data? Exploring the prosody and pragmatic function of the discourse marker "well" with found data and speech synthesis. Johannah O'Mahony, Catherine Lai, Éva Székely
2024	WenetSpeech4TTS: A 12, 800-hour Mandarin TTS Corpus for Large Speech Generation Model Benchmark. Linhan Ma, Dake Guo, Kun Song, Yuepeng Jiang, Shuai Wang, Liumeng Xue, Weiming Xu, Huan Zhao, Binbin Zhang, Lei Xie
2024	What Does it Take to Generalize SER Model Across Datasets? A Comprehensive Benchmark. Adham Ibrahim, Shady Shehata, Ajinkya Kulkarni, Mukhtar Mohamed, Muhammad Abdul-Mageed
2024	What do people hear? Listeners' Perception of Conversational Speech. Adaeze Adigwe, Sarenne Wallbridge, Simon King
2024	What happens in continued pre-training? Analysis of self-supervised speech models with continued pre-training for colloquial Finnish ASR. Yaroslav Getman, Tamás Grósz, Mikko Kurimo
2024	What if HAL breathed? Enhancing Empathy in Human-AI Interactions with Breathing Speech Synthesis. Nicolò Loddo, Francisca Pessanha, Almila Akdag Salah
2024	When Whisper Listens to Aphasia: Advancing Robust Post-Stroke Speech Recognition. Giulia Sanguedolce, Sophie Brook, Dragos-Cristian Gruia, Patrick A. Naylor, Fatemeh Geranmayeh
2024	Whisper Multilingual Downstream Task Tuning Using Task Vectors. Ji-Hun Kang, Jae-Hong Lee, Mun-Hak Lee, Joon-Hyuk Chang
2024	Whisper-Flamingo: Integrating Visual Features into Whisper for Audio-Visual Speech Recognition and Translation. Andrew Rouditchenko, Yuan Gong, Samuel Thomas, Leonid Karlinsky, Hilde Kuehne, Rogério Feris, James Glass
2024	Whisper-PMFA: Partial Multi-Scale Feature Aggregation for Speaker Verification using Whisper Models. Yiyang Zhao, Shuai Wang, Guangzhi Sun, Zehua Chen, Chao Zhang, Mingxing Xu, Thomas Fang Zheng
2024	Whispering in Norwegian: Navigating Orthographic and Dialectic Challenges. Per Egil Kummervold, Javier de la Rosa, Freddy Wetjen, Rolv-Arild Braaten, Per Erik Solberg
2024	Whister: Using Whisper's representations for Stuttering detection. Vrushank Changawala, Frank Rudzicz
2024	Who Finds This Voice Attractive? A Large-Scale Experiment Using In-the-Wild Data. Hitoshi Suda, Aya Watanabe, Shinnosuke Takamichi
2024	Word-level Text Markup for Prosody Control in Speech Synthesis. Yuliya Korotkova, Ilya Kalinovskiy, Tatiana Vakhrusheva
2024	X-E-Speech: Joint Training Framework of Non-Autoregressive Cross-lingual Emotional Text-to-Speech and Voice Conversion. Houjian Guo, Chaoran Liu, Carlos Toshinori Ishi, Hiroshi Ishiguro
2024	X-Singer: Code-Mixed Singing Voice Synthesis via Cross-Lingual Learning. Ji-Sang Hwang, HyeongRae Noh, Yoonseok Hong, Insoo Oh
2024	XANE: eXplainable Acoustic Neural Embeddings. Sri Harsha Dumpala, Dushyant Sharma, Chandramouli Shama Sastry, Stanislav Yu. Kruchinin, James Fosburgh, Patrick A. Naylor
2024	XTTS: a Massively Multilingual Zero-Shot Text-to-Speech Model. Edresson Casanova, Kelly Davis, Eren Gölge, Görkem Göknar, Iulian Gulea, Logan Hart, Aya Aljafari, Joshua Meyer, Reuben Morais, Samuel Olayemi, Julian Weber
2024	YOLO-Stutter: End-to-end Region-Wise Speech Dysfluency Detection. Xuanru Zhou, Anshul Kashyap, Steve Li, Ayati Sharma, Brittany Morin, David Baquirin, Jet Vonk, Zoe Ezzes, Zachary A. Miller, Maria Luisa Gorno-Tempini, Jiachen Lian, Gopala Anumanchipalli
2024	YOLOPitch: A Time-Frequency Dual-Branch YOLO Model for Pitch Estimation. Xuefei Li, Hao Huang, Ying Hu, Liang He, Jiabao Zhang, Yuyi Wang
2024	Zero-Shot End-To-End Spoken Question Answering In Medical Domain. Yanis Labrak, Adel Moumen, Richard Dufour, Mickael Rouvier
2024	Zero-Shot Fake Video Detection by Audio-Visual Consistency. Xiaolou Li, Zehua Liu, Chen Chen, Lantian Li, Li Guo, Dong Wang
2024	Zero-shot Out-of-domain is No Joke: Lessons Learned in the VoiceMOS 2023 MOS Prediction Challenge. Marie Kunesová, Jan Lehecka, Josef Michálek, Jindrich Matousek, Jan Svec
2024	ZeroST: Zero-Shot Speech Translation. Sameer Khurana, Chiori Hori, Antoine Laurent, Gordon Wichern, Jonathan Le Roux
2024	mHuBERT-147: A Compact Multilingual HuBERT Model. Marcely Zanon Boito, Vivek Iyer, Nikolaos Lagos, Laurent Besacier, Ioan Calapodescu
2024	tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models. Francesco Paissan, Elisabetta Farella
2024	wTIMIT2mix: A Cocktail Party Mixtures Database to Study Target Speaker Extraction for Normal and Whispered Speech. Marvin Borsdorf, Zexu Pan, Haizhou Li, Tanja Schultz