INTERSPEECH - RankMe

1142 papers

Year	Title / Authors
2023	"Select language, modality or put on a mask!" Experiments with Multimodal Emotion Recognition. Pawel Bujnowski, Bartlomiej Kuzma, Bartlomiej Paziewski, Jacek Rutkowski, Joanna Marhula, Zuzanna Bordzicka, Piotr Andruszkiewicz
2023	(Dis)agreement and Preference Structure are Reflected in Matching Along Distinct Acoustic-prosodic Features. Anneliese Kelterer, Margaret Zellers, Barbara Schuppler
2023	2-bit Conformer quantization for automatic speech recognition. Oleg Rybakov, Phoenix Meadowlark, Shaojin Ding, David Qiu, Jian Li, David Rim, Yanzhang He
2023	24th Annual Conference of the International Speech Communication Association, Interspeech 2023, Dublin, Ireland, August 20-24, 2023. Naomi Harte, Julie Carson-Berndsen, Gareth Jones
2023	4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders. Yui Sudo, Muhammad Shakeel, Brian Yan, Jiatong Shi, Shinji Watanabe
2023	5G-IoT Cloud based Demonstration of Real-Time Audio-Visual Speech Enhancement for Multimodal Hearing-aids. Ankit Gupta, Abhijeet Bishnu, Mandar Gogate, Kia Dashtipour, Tughrul Arslan, Ahsan Adeel, Amir Hussain, Tharmalingam Ratnarajah, Mathini Sellathurai
2023	5IDER: Unified Query Rewriting for Steering, Intent Carryover, Disfluencies, Entity Carryover and Repair. Jiarui Lu, Bo-Hsiang Tseng, Joel Ruben Antony Moniz, Site Li, Xueyun Zhu, Hong Yu, Murat Akbacak
2023	A Binary Keyword Spotting System with Error-Diffusion Based Feature Binarization. Dingyi Wang, Mengjie Luo, Lin Li, Xiaoqin Wang, Shushan Qiao, Yumei Zhou
2023	A Compact End-to-End Model with Local and Global Context for Spoken Language Identification. Fei Jia, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg
2023	A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks. Yifan Peng, Kwangyoun Kim, Felix Wu, Brian Yan, Siddhant Arora, William Chen, Jiyang Tang, Suwon Shon, Prashant Sridhar, Shinji Watanabe
2023	A Compressed Synthetic Speech Detection Method with Compression Feature Embedding. Jinghong Zhang, Xiaowei Yi, Xianfeng Zhao
2023	A Context-Constrained Sentence Modeling for Deception Detection in Real Interrogation. Ya-Tse Wu, Yuan-Ting Chang, Shao-Hao Lu, Jing-Yi Chuang, Chi-Chun Lee
2023	A Dual Attention-based Modality-Collaborative Fusion Network for Emotion Recognition. Xiaoheng Zhang, Yang Li
2023	A GAN Speech Inpainting Model for Audio Editing Software. Haixin Zhao
2023	A Generative Framework for Conversational Laughter: Its 'Language Model' and Laughter Sound Synthesis. Hiroki Mori, Shunya Kimura
2023	A Hierarchical Context-aware Modeling Approach for Multi-aspect and Multi-granular Pronunciation Assessment. Fu-An Chao, Tien-Hong Lo, Tzu-I Wu, Yao-Ting Sung, Berlin Chen
2023	A Joint Model for Pronunciation Assessment and Mispronunciation Detection and Diagnosis with Multi-task Learning. Hyungshin Ryu, Sunhee Kim, Minhwa Chung
2023	A Lexical-aware Non-autoregressive Transformer-based ASR Model. Chong-En Lin, Kuan-Yu Chen
2023	A Low-Resource Pipeline for Text-to-Speech from Found Data With Application to Scottish Gaelic. Dan Wells, Korin Richmond, William Lamb
2023	A Mask Free Neural Network for Monaural Speech Enhancement. Liang Liu, Haixin Guan, Jinlong Ma, Wei Dai, Guangyong Wang, Shaowei Ding
2023	A Method of Audio-Visual Person Verification by Mining Connections between Time Series. Peiwen Sun, Shanshan Zhang, Zishan Liu, Yougen Yuan, Taotao Zhang, Honggang Zhang, Pengfei Hu
2023	A Metric-Driven Approach to Conformer Layer Pruning for Efficient ASR Inference. Dhanush Bekal, Karthik Gopalakrishnan, Karel Mundnich, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff
2023	A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization. Edward Fish, Umberto Michieli, Mete Ozay
2023	A More Accurate Internal Language Model Score Estimation for the Hybrid Autoregressive Transducer. Kyungmin Lee, Haeri Kim, Sichen Jin, Jinhwan Park, Youngho Han
2023	A Multi-Scale Attentive Transformer for Multi-Instrument Symbolic Music Generation. Xipin Wei, Junhui Chen, Zirui Zheng, Li Guo, Lantian Li, Dong Wang
2023	A Multi-Task Learning Framework for Sound Event Detection using High-level Acoustic Characteristics of Sounds. Tanmay Khandelwal, Rohan Kumar Das
2023	A Multi-dimensional Deep Structured State Space Approach to Speech Enhancement Using Small-footprint Models. Pin-Jui Ku, Chao-Han Huck Yang, Sabato Marco Siniscalchi, Chin-Hui Lee
2023	A Multimodal Investigation of Speech, Text, Cognitive and Facial Video Features for Characterizing Depression With and Without Medication. Michael Neumann, Hardik Kothare, Doug Habberstad, Vikram Ramanarayanan
2023	A Multiple-Teacher Pruning Based Self-Distillation (MT-PSD) Approach to Model Compression for Audio-Visual Wake Word Spotting. Haotian Wang, Jun Du, Hengshun Zhou, Chin-Hui Lee, Yuling Ren, Jiangjiang Zhao
2023	A Neural State-Space Modeling Approach to Efficient Speech Separation. Chen Chen, Chao-Han Huck Yang, Kai Li, Yuchen Hu, Pin-Jui Ku, Eng Siong Chng
2023	A Neural TTS System with Parallel Prosody Transfer from Unseen Speakers. Slava Shechtman, Raul Fernandez
2023	A Neural Time Alignment Module for End-to-End Automatic Speech Recognition. Dongcheng Jiang, Chao Zhang, Philip C. Woodland
2023	A New Benchmark of Aphasia Speech Recognition and Detection Based on E-Branchformer and Multi-task Learning. Jiyang Tang, William Chen, Xuankai Chang, Shinji Watanabe, Brian MacWhinney
2023	A Novel Interpretable and Generalizable Re-synchronization Model for Cued Speech based on a Multi-Cuer Corpus. Lufei Gao, Shan Huang, Li Liu
2023	A Novel Self-training Approach for Low-resource Speech Recognition. Satwinder Singh, Feng Hou, Ruili Wang
2023	A Parameter-Efficient Learning Approach to Arabic Dialect Identification with Pre-Trained General-Purpose Speech Model. Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegnér
2023	A Personalised Speech Communication Application for Dysarthric Speakers. Matthew Gibson, Ievgen Karaulov, Oleksii Zhelo, Filip Jurcícek
2023	A Pipeline to Evaluate the Effects of Noise on Machine Learning Detection of Laryngeal Cancer. Mary Paterson, James Moor, Luisa Cutillo
2023	A Preliminary Study on Augmenting Speech Emotion Recognition using a Diffusion Model. Mohammad Ibrahim Malik, Siddique Latif, Raja Jurdak, Björn W. Schuller
2023	A Relationship Between Vocal Fold Vibration and Droplet Production. Tsukasa Yoshinaga, Takayuki Arai, Akiyoshi Iida
2023	A Simple RNN Model for Lightweight, Low-compute and Low-latency Multichannel Speech Enhancement in the Time Domain. Ashutosh Pandey, Ke Tan, Buye Xu
2023	A Snoring Sound Dataset for Body Position Recognition: Collection, Annotation, and Analysis. Li Xiao, Xiuping Yang, Xinhong Li, Weiping Tu, Xiong Chen, Weiyan Yi, Jie Lin, Yuhong Yang, Yanzhen Ren
2023	A Study on Prosodic Entrainment in Relation to Therapist Empathy in Counseling Conversation. Dehua Tao, Tan Lee, Harold Chui, Sarah Luk
2023	A Study on Using Duration and Formant Features in Automatic Detection of Speech Sound Disorder in Children. Si Ioi Ng, Cymie Wing-Yee Ng, Tan Lee
2023	A Study on Visualization of Voiceprint Feature. Jian Zhang, Liang He, Xiaochen Guo, Jing Ma
2023	A Study on the Importance of Formant Transitions for Stop-Consonant Classification in VCV Sequence. Siddarth Chandrasekar, Arvind Ramesh, Tilak Purohit, Prasanta Kumar Ghosh
2023	A Stutter Seldom Comes Alone - Cross-Corpus Stuttering Detection as a Multi-label Problem. Sebastian P. Bayerl, Dominik Wagner, Ilja Baumann, Florian Hönig, Tobias Bocklet, Elmar Nöth, Korbinian Riedhammer
2023	A System for Generating Voice Source Signals that Implements the Transformed LF-model Parameter Control. Zihan Wang, Christer Gobl
2023	A Teacher-Student Approach for Extracting Informative Speaker Embeddings From Speech Mixtures. Tobias Cord-Landwehr, Christoph Böddeker, Catalin Zorila, Rama Doddipatla, Reinhold Haeb-Umbach
2023	A Training and Inference Strategy Using Noisy and Enhanced Speech as Target for Speech Enhancement without Clean Speech. Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
2023	A Two-stage Progressive Neural Network for Acoustic Echo Cancellation. Zhuangqi Chen, Xianjun Xia, Cheng Chen, Xianke Wang, Yanhong Leng, Li Chen, Roberto Togneri, Yijian Xiao, Piao Ding, Shenyi Song, Pingjian Zhang
2023	A Unified Framework to Improve Learners' Skills of Perception and Production Based on Speech Shadowing and Overlapping. Nobuaki Minematsu, Noriko Nakanishi, Yingxiang Gao, Haitong Sun
2023	A Unified Recognition and Correction Model under Noisy and Accent Speech Conditions. Zhao Yang, Dianwen Ng, Chong Zhang, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma, Eng Siong Chng
2023	A conformer-based classifier for variable-length utterance processing in anti-spoofing. Eros Rosello, Alejandro Gómez Alanís, Angel M. Gomez, Antonio M. Peinado
2023	A multimodal prototypical approach for unsupervised sound classification. Saksham Singh Kushwaha, Magdalena Fuentes
2023	A neural architecture for selective attention to speech features. Nika Jurov, William J. Idsardi, Naomi H. Feldman
2023	A no-reference speech quality assessment method based on neural network with densely connected convolutional architecture. Wuxuan Gong, Jing Wang, Yitong Liu, Hongwen Yang
2023	A novel frequency warping scale for speech emotion recognition. Premjeet Singh, Goutam Saha
2023	A stimulus-organism-response model of willingness to buy from advertising speech using voice quality. Mizuki Nagano, Yusuke Ijima, Sadao Hiroya
2023	ABC-KD: Attention-Based-Compression Knowledge Distillation for Deep Learning-Based Noise Suppression. Yixin Wan, Yuan Zhou, Xiulian Peng, Kai-Wei Chang, Yan Lu
2023	ACA-Net: Towards Lightweight Speaker Verification using Asymmetric Cross Attention. Jia Qi Yip, Duc-Tuan Truong, Dianwen Ng, Chong Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Eng Siong Chng, Bin Ma
2023	AD-TUNING: An Adaptive CHILD-TUNING Approach to Efficient Hyperparameter Optimization of Child Networks for Speech Processing Tasks in the SUPERB Benchmark. Gaobin Yang, Jun Du, Maokui He, Shutong Niu, Baoxiang Li, Jiakui Li, Chin-Hui Lee
2023	ADAPTERMIX: Exploring the Efficacy of Mixture of Adapters for Low-Resource TTS Adaptation. Ambuj Mehrish, Abhinav Ramesh Kashyap, Yingting Li, Navonil Majumder, Soujanya Poria
2023	ALO-VC: Any-to-any Low-latency One-shot Voice Conversion. Bohan Wang, Damien Ronssin, Milos Cernak
2023	ASR and Emotional Speech: A Word-Level Investigation of the Mutual Impact of Speech and Emotion Recognition. Yuanchao Li, Zeyu Zhao, Ondrej Klejch, Peter Bell, Catherine Lai
2023	ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion. Edresson Casanova, Christopher Shulby, Alexander Korolev, Arnaldo Cândido Júnior, Anderson da Silva Soares, Sandra M. Aluísio, Moacir Antonelli Ponti
2023	ASR for Low Resource and Multilingual Noisy Code-Mixed Speech. Tushar Verma, Atul Shree, Ashutosh Modi
2023	Aberystwyth English Pre-aspiration in Apparent Time. Mísa Hejná, Adèle Jatteau
2023	Abusive Speech Detection in Indic Languages Using Acoustic Features. Anika A. Spiesberger, Andreas Triantafyllopoulos, Iosif Tsangko, Björn W. Schuller
2023	Accelerating Transducers through Adjacent Token Merging. Yuang Li, Yu Wu, Jinyu Li, Shujie Liu
2023	Accentor: An Explicit Lexical Stress Model for TTS Systems. Diana Geneva, Georgi Shopov, Kostadin Garov, Maria Todorova, Stefan Gerdjikov, Stoyan Mihov
2023	Accurate and Reliable Confidence Estimation Based on Non-Autoregressive End-to-End Speech Recognition System. Xian Shi, Haoneng Luo, Zhifu Gao, Shiliang Zhang, Zhijie Yan
2023	Accurate and Structured Pruning for Efficient Automatic Speech Recognition. Huiqiang Jiang, Li Lyna Zhang, Yuang Li, Yu Wu, Shijie Cao, Ting Cao, Yuqing Yang, Jinyu Li, Mao Yang, Lili Qiu
2023	Acoustic Word Embeddings for Untranscribed Target Languages with Continued Pretraining and Learned Pooling. Ramon Sanabria, Ondrej Klejch, Hao Tang, Sharon Goldwater
2023	Acoustic characteristics of depression in older adults' speech: the role of covariates. Carmen Mijnders, Esther Janse, Paul Naarding, Khiet P. Truong
2023	Acoustic cues to stress perception in Spanish - a mismatch negativity study. Karolina Bros
2023	Acoustic-to-Articulatory Speech Inversion Features for Mispronunciation Detection of /ɹ/ in Child Speech Sound Disorders. Nina R. Benway, Yashish M. Siriwardena, Jonathan L. Preston, Elaine Hitchcock, Tara McAllister Byun, Carol Y. Espy-Wilson
2023	Active Learning for Abnormal Lung Sound Data Curation and Detection in Asthma. Shabnam Ghaffarzadegan, Luca Bondi, Ho-Hsiang Wu, Sirajum Munir, Kelly J. Shields, Samarjit Das, Joseph Aracri
2023	AdaMS: Deep Metric Learning with Adaptive Margin and Adaptive Scale for Acoustic Word Discrimination. Myunghun Jung, Hoirin Kim
2023	Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation. Guy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz
2023	Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks. László Tóth, Amin Honarmandi Shandiz, Gábor Gosztolya, Tamás Gábor Csapó
2023	Adaptation of Whisper models to child speech recognition. Rishabh Jain, Andrei Barcovschi, Mariam Yahayah Yiwere, Peter Corcoran, Horia Cucu
2023	Adaptation to predictive prosodic cues in non-native standard dialect. Sabine Gosselke Berthelsen
2023	Adapter Incremental Continual Learning of Efficient Audio Spectrogram Transformers. Nithish Muthuchamy Selvaraj, Xiaobao Guo, Adams Wai-Kin Kong, Bingquan Shen, Alex C. Kot
2023	Adapter-Based Extension of Multi-Speaker Text-To-Speech Model for New Speakers. Cheng-Ping Hsieh, Subhankar Ghosh, Boris Ginsburg
2023	Adapter-tuning with Effective Token-dependent Representation Shift for Automatic Speech Recognition. Dianwen Ng, Chong Zhang, Ruixi Zhang, Yukun Ma, Trung Hieu Nguyen, Chongjia Ni, Shengkui Zhao, Qian Chen, Wen Wang, Eng Siong Chng, Bin Ma
2023	Adapting Language-Audio Models as Few-Shot Audio Learners. Jinhua Liang, Xubo Liu, Haohe Liu, Huy Phan, Emmanouil Benetos, Mark D. Plumbley, Wenwu Wang
2023	Adapting Multi-Lingual ASR Models for Handling Multiple Talkers. Chenda Li, Yao Qian, Zhuo Chen, Naoyuki Kanda, Dongmei Wang, Takuya Yoshioka, Yanmin Qian, Michael Zeng
2023	Adapting a ConvNeXt Model to Audio Classification on AudioSet. Thomas Pellegrini, Ismail Khalfaoui Hassani, Etienne Labbé, Timothée Masquelier
2023	Adapting an Unadaptable ASR System. Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill
2023	Adaptive Contextual Biasing for Transducer Based Streaming Speech Recognition. Tianyi Xu, Zhanheng Yang, Kaixun Huang, Pengcheng Guo, Ao Zhang, Biao Li, Changru Chen, Chao Li, Lei Xie
2023	Adaptive Neural Network Quantization For Lightweight Speaker Verification. Haoyu Wang, Bei Liu, Yifei Wu, Yanmin Qian
2023	Addressing Cold Start Problem for End-to-end Automatic Speech Scoring. Jungbae Park, Seungtaek Choi
2023	Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection. Jing Li, Yanhua Long, Yijie Li, Dongxing Xu
2023	Advances in Language Recognition in Low Resource African Languages: The JHU-MIT Submission for NIST LRE22. Jesús Villalba, Jonas Borgstrom, Maliha Jahan, Saurabh Kataria, Leibny Paola García, Pedro A. Torres-Carrasquillo, Najim Dehak
2023	Adversarial Diffusion Probability Model For Cross-domain Speaker Verification Integrating Contrastive Loss. Xinmei Su, Xiang Xie, Fengrun Zhang, Chenguang Hu
2023	Adversarial Learning of Intermediate Acoustic Feature for End-to-End Lightweight Text-to-Speech. Hyungchan Yoon, Seyun Um, ChangHwan Kim, Hong-Goo Kang
2023	Affective attributes of French caregivers' professional speech. Jean-Luc Rouas, Yaru Wu, Takaaki Shochi
2023	AfriNames: Most ASR Models "Butcher" African Names. Tobi Olatunji, Tejumade Afonja, Bonaventure F. P. Dossou, Atnafu Lambebo Tonja, Chris Chinenye Emezue, Amina Mardiyyah Rufai, Sahib Singh
2023	AlignAtt: Using Attention-based Audio-Translation Alignments as a Guide for Simultaneous Speech Translation. Sara Papi, Marco Turchi, Matteo Negri
2023	Aligning Speech Enhancement for Improving Downstream Classification Performance. Yan Xiong, Visar Berisha, Chaitali Chakrabarti
2023	Alignment of Beat Gestures and Prosodic Prominence in German. Sophie Repp, Lara Muhtz, Johannes M. Heim
2023	Allophant: Cross-lingual Phoneme Recognition with Articulatory Attributes. Kevin Glocker, Aaricia Herygers, Munir Georges
2023	Alzheimer Disease Classification through ASR-based Transcriptions: Exploring the Impact of Punctuation and Pauses. Lucía Gómez-Zaragozá, Simone Wills, Cristian Tejedor García, Javier Marín-Morales, Mariano Alcañiz, Helmer Strik
2023	An ASR-enabled Reading Tutor: Investigating Feedback to Optimize Interaction for Learning to Read. Yu Bai, Ferdy Hubers, Catia Cucchiarini, Roeland van Hout, Helmer Strik
2023	An Acoustic Analysis of Fricative Variation in Three Accents of English. Roland Adams, Calbert Graham
2023	An Analysis of Glottal Features of Chronic Kidney Disease Speech and Its Application to CKD Detection. Jihyun Mun, Sunhee Kim, Myeong-Ju Kim, Jiwon Ryu, Sejoong Kim, Minhwa Chung
2023	An Analysis of Goodness of Pronunciation for Child Speech. Xinwei Cao, Zijian Fan, Torbjørn Svendsen, Giampiero Salvi
2023	An Automatic Multimodal Approach to Analyze Linguistic and Acoustic Cues on Parkinson's Disease Patients. Daniel Escobar-Grisales, Tomás Arias-Vergara, Cristian David Ríos-Urrego, Elmar Nöth, Adolfo M. García, Juan Rafael Orozco-Arroyave
2023	An Autoregressive Conversational Dynamics Model for Dialogue Systems. Matthew McNeill, Rivka Levitan
2023	An Efficient Approach for the Automated Segmentation and Transcription of the People's Speech Sorpus. Astik Biswas, Abdelmoumene Boumadane, Stéphane Peillon, Gildas Bleas
2023	An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention. Junyu Wang
2023	An Efficient and Noise-Robust Audiovisual Encoder for Audiovisual Speech Recognition. Zhengyang Li, Chenwei Liang, Timo Lohrenz, Marvin Sach, Björn Möller, Tim Fingscheidt
2023	An Enhanced Res2Net with Local and Global Feature Fusion for Speaker Verification. Yafeng Chen, Siqi Zheng, Hui Wang, Luyao Cheng, Qian Chen, Jiajun Qi
2023	An Equitable Framework for Automatically Assessing Children's Oral Narrative Language Abilities. Alexander Johnson, Hariram Veeramani, Natarajan Balaji Shankar, Abeer Alwan
2023	An Improved End-to-End Audio-Visual Speech Recognition Model. Sheng Yang, Zheng Gong, Jia Kang
2023	An Information-Theoretic Analysis of Self-supervised Discrete Representations of Speech. Badr M. Abdullah, Mohammed Maqsood Shaik, Bernd Möbius, Dietrich Klakow
2023	An Intra-BRNN and GB-RVQ Based END-TO-END Neural Audio Codec. Linping Xu, Jiawei Jiang, Dejun Zhang, Xianjun Xia, Li Chen, Yijian Xiao, Piao Ding, Shenyi Song, Sixing Yin, Ferdous Sohel
2023	An Investigation of Indian Native Language Phonemic Influences on L2 English Pronunciations. Shelly Jain, Priyanshi Pal, Anil Kumar Vuppala, Prasanta Kumar Ghosh, Chiranjeevi Yarra
2023	An Investigation of the Combination of Rehearsal and Knowledge Distillation in Continual Learning for Spoken Language Understanding. Umberto Cappellazzo, Daniele Falavigna, Alessio Brutti
2023	An Outlier Analysis of Vowel Formants from a Corpus Phonetics Pipeline. Emily P. Ahn, Gina-Anne Levow, Richard A. Wright, Eleanor Chodroff
2023	An extension of disentanglement metrics and its application to voice. Olivier Zhang, Olivier Le Blouch, Nicolas Gengembre, Damien Lolive
2023	Analysis and automatic prediction of exertion from speech: Contrasting objective and subjective measures collected while running. Andreas Triantafyllopoulos, Alexander Gebhard, Alexander Kathan, Maurice Gerczuk, Shahin Amiriparian, Björn W. Schuller
2023	Analysis of Acoustic information in End-to-End Spoken Language Translation. Gerard Sant, Carlos Escolano
2023	Analysis of Mean Opinion Scores in Subjective Evaluation of Synthetic Speech Based on Tail Probabilities. Yusuke Yasuda, Tomoki Toda
2023	Anomalous Sound Detection Based on Sound Separation. Kanta Shimonishi, Kota Dohi, Yohei Kawaguchi
2023	Anomalous Sound Detection Using Self-Attention-Based Frequency Pattern Analysis of Machine Sounds. Hejing Zhang, Jian Guan, Qiaoxi Zhu, Feiyang Xiao, Youde Liu
2023	Another Point of View on Visual Speech Recognition. Baptiste Pouthier, Laurent Pilati, Giacomo Valenti, Charles Bouveyron, Frédéric Precioso
2023	Application for Real-time Audio-Visual Speech Enhancement. Mandar Gogate, Kia Dashtipour, Amir Hussain
2023	Application of Knowledge Distillation to Multi-Task Speech Representation Learning. Mine Kerpicci, Van Nguyen, Shuhua Zhang, Erik Visser
2023	Approximate Nearest Neighbour Phrase Mining for Contextual Speech Recognition. Maurits J. R. Bleeker, Pawel Swietojanski, Stefan Braun, Xiaodan Zhuang
2023	Arabic Dysarthric Speech Recognition Using Adversarial and Signal-Based Augmentation. Massa Baali, Ibrahim Almakky, Shady Shehata, Fakhri Karray
2023	Are retroflex-to-dental sibilant substitutions in Polish children's speech an example of a covert contrast? A preliminary acoustic study. Zuzanna Miodonska, Claartje Levelt, Natalia Mocko, Michal Krecichwost, Agata Sage, Pawel Badura
2023	Asking Questions: an Innovative Way to Interact with Oral History Archives. Jan Svec, Martin Bulín, Adam Frémund, Filip Polák
2023	Assessing Intelligibility in Non-native Speech: Comparing Measures Obtained at Different Levels. Xing Wei, Roeland van Hout, Catia Cucchiarini, Danielle Reuvekamp, Helmer Strik
2023	Assessing Phrase Break of ESL Speech with Pre-trained Language Models and Large Language Models. Zhiyi Wang, Shaoguang Mao, Wenshan Wu, Yan Xia, Yan Deng, Jonathan Tien
2023	Assessment of Non-Native Speech Intelligibility using Wav2vec2-based Mispronunciation Detection and Multi-level Goodness of Pronunciation Transformer. Ram C. M. C. Shekar, Mu Yang, Kevin Hirschi, Stephen D. Looney, Okim Kang, John H. L. Hansen
2023	AsthmaSCELNet: A Lightweight Supervised Contrastive Embedding Learning Framework for Asthma Classification Using Lung Sounds. Arka Roy, Udit Satija
2023	Attention Gate Between Capsules in Fully Capsule-Network Speech Recognition. Kyungmin Lee, Hyeontaek Lim, MunHwan Lee, Hong-Gee Kim
2023	Attention-based Encoder-Decoder Network for End-to-End Neural Speaker Diarization with Target Speaker Attractor. Zhengyang Chen, Bing Han, Shuai Wang, Yanmin Qian
2023	Attention-based Interactive Disentangling Network for Instance-level Emotional Voice Conversion. Yun Chen, Lingxiao Yang, Qi Chen, Jian-Huang Lai, Xiaohua Xie
2023	Audio Retrieval with WavText5K and CLAP Training. Soham Deshmukh, Benjamin Elizalde, Huaming Wang
2023	Audio, Visual and Audiovisual intelligibility of vowels produced in noise. Maeva Garnier
2023	Audio-Visual Fusion using Multiscale Temporal Convolutional Attention for Time-Domain Speech Separation. Debang Liu, Tianqi Zhang, Mads Græsbøll Christensen, Ying Wei, Zeliang An
2023	Audio-Visual Mandarin Electrolaryngeal Speech Voice Conversion. Yung-Lun Chien, Hsin-Hao Chen, Ming-Chi Yen, Shu-Wei Tsai, Hsin-Min Wang, Yu Tsao, Tai-Shih Chi
2023	Audio-Visual Praise Estimation for Conversational Video based on Synchronization-Guided Multimodal Transformer. Nobukatsu Hojo, Saki Mizuno, Satoshi Kobashikawa, Ryo Masumura, Mana Ihori, Hiroshi Sato, Tomohiro Tanaka
2023	Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model. Héctor Martel, Julius Richter, Kai Li, Xiaolin Hu, Timo Gerkmann
2023	Auditory Attention Detection in Real-Life Scenarios Using Common Spatial Patterns from EEG. Kai Yang, Zhuang Xie, Di Zhou, Longbiao Wang, Gaoyan Zhang
2023	Automated Multiple Sclerosis Screening Based on Encoded Speech Representations. José Vicente Egas López, Veronika Svindt, Judit Bóna, Ildikó Hoffmann, Gábor Gosztolya
2023	Automated Neural Nursing Assistant (ANNA): An Over-The-Phone System for Cognitive Monitoring. Jacob C. Solinsky, Raymond L. Finzel, Martin Michalowski, Serguei Pakhomov
2023	Automatic Assessment of Alzheimer's across Three Languages Using Speech and Language Features. Paula Andrea Pérez-Toro, Tomás Arias-Vergara, Franziska Braun, Florian Hönig, Carlos Andrés Tobón-Quintero, David Aguillón, Francisco Lopera, Liliana Hincapié-Henao, Maria Schuster, Korbinian Riedhammer, Andreas Maier, Elmar Nöth, Juan Rafael Orozco-Arroyave
2023	Automatic Assessment of Oral Reading Accuracy for Reading Diagnostics. Bo Molenaar, Cristian Tejedor García, Catia Cucchiarini, Helmer Strik
2023	Automatic Classification of Hypokinetic and Hyperkinetic Dysarthria based on GMM-Supervectors. Cristian David Ríos-Urrego, Jan Rusz, Elmar Nöth, Juan Rafael Orozco-Arroyave
2023	Automatic Data Augmentation for Domain Adapted Fine-Tuning of Self-Supervised Speech Representations. Salah Zaiem, Titouan Parcollet, Slim Essid
2023	Automatic Deep Neural Network-Based Segmental Pronunciation Error Detection of L2 English Speech (L1 Bengali). Puja Bharati, Sabyasachi Chandra, Shayamal Kumar Das Mandal
2023	Automatic Evaluation of Turn-taking Cues in Conversational Speech Synthesis. Erik Ekstedt, Siyang Wang, Éva Székely, Joakim Gustafson, Gabriel Skantze
2023	Automatic Exploration of Optimal Data Processing Operations for Sound Data Augmentation Using Improved Differentiable Automatic Data Augmentation. Toki Sugiura, Hiromitsu Nishizaki
2023	Automatic Prediction of Language Learners' Listenability Using Speech and Text Features Extracted from Listening Drills. Yingxiang Gao, Jaehyun Choi, Nobuaki Minematsu, Noriko Nakanishi, Daisuke Saito
2023	Automatic Speaker Recognition performance with matched and mismatched female bilingual speech data. Bryony Nuttall, Philip Harrison, Vincent Hughes
2023	Automatic Speech Disentanglement for Voice Conversion using Rank Module and Speech Augmentation. Zhonghua Liu, Shijun Wang, Ning Chen
2023	Automatic Speech Recognition Transformer with Global Contextual Information Decoder. Yukun Qian, Xuyi Zhuang, Mingjiang Wang
2023	Automatic Tuning of Loss Trade-offs without Hyper-parameter Search in End-to-End Zero-Shot Speech Synthesis. Seongyeon Park, Bohyung Kim, Tae-Hyun Oh
2023	Automatic assessments of dysarthric speech: the usability of acoustic-phonetic features. Loes van Bemmel, Chiara Pesenti, Xue Wei, Helmer Strik
2023	Automatic speaker recognition with variation across vocal conditions: a controlled experiment with implications for forensics. Vincent Hughes, Jessica Wormald, Paul Foulkes, Philip Harrison, Finnian Kelly, David van der Vloed, Poppy Welch, Chenzi Xu
2023	Automatically Predicting Perceived Conversation Quality in a Pediatric Sample Enriched for Autism. Yahan Yang, Sunghye Cho, Maxine Covello, Azia Knox, Osbert Bastani, James Weimer, Edgar Dobriban, Robert T. Schultz, Insup Lee, Julia Parish-Morris
2023	Average Token Delay: A Latency Metric for Simultaneous Translation. Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura
2023	BA-SOT: Boundary-Aware Serialized Output Training for Multi-Talker ASR. Yuhao Liang, Fan Yu, Yangze Li, Pengcheng Guo, Shiliang Zhang, Qian Chen, Lei Xie
2023	BASEN: Time-Domain Brain-Assisted Speech Enhancement Network with Convolutional Cross Attention in Multi-talker Conditions. Jie Zhang, Qing-Tian Xu, Qiu-Shi Zhu, Zhen-Hua Ling
2023	BASS: Block-wise Adaptation for Speech Summarization. Roshan Sharma, Siddhant Arora, Kenneth Zheng, Shinji Watanabe, Rita Singh, Bhiksha Raj
2023	BAT: Boundary aware transducer for memory-efficient and low-latency ASR. Keyu An, Xian Shi, Shiliang Zhang
2023	BabySLM: language-acquisition-friendly benchmark of self-supervised spoken language models. Marvin Lavechin, Yaya Sy, Hadrien Titeux, María Andrea Cruz Blandón, Okko Räsänen, Hervé Bredin, Emmanuel Dupoux, Alejandrina Cristià
2023	Background Domain Switch: A Novel Data Augmentation Technique for Robust Sound Event Detection. Wei-Cheng Lin, Luca Bondi, Shabnam Ghaffarzadegan
2023	Background-Sound Controllable Voice Source Separation. Deokjun Eom, Woo Hyun Nam, Kyung-Rae Kim
2023	Background-aware Modeling for Weakly Supervised Sound Event Detection. Yifei Xin, Dongchao Yang, Yuexian Zou
2023	Bayes Risk Transducer: Transducer with Controllable Alignment Prediction. Jinchuan Tian, Jianwei Yu, Hangting Chen, Brian Yan, Chao Weng, Dong Yu, Shinji Watanabe
2023	Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal data. Salvatore Fara, Orlaith Hickey, Alexandra Livia Georgescu, Stefano Goria, Emilia Molimpakis, Nicholas Cummins
2023	BeAts: Bengali Speech Acts Recognition using Multimodal Attention Fusion. Ahana Deb, Sayan Nag, Ayan Mahapatra, Soumitri Chattopadhyay, Aritra Marik, Pijush Kanti Gayen, Shankha Sanyal, Archi Banerjee, Samir Karmakar
2023	Beatboxing Kick Drum Kinematics. Reed Blaylock, Shrikanth Narayanan
2023	Behavioral Analysis of Pathological Speaker Embeddings of Patients During Oncological Treatment of Oral Cancer. Jenthe Thienpondt, Caroline M. Speksnijder, Kris Demuynck
2023	Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion. Rui Liu, Jinhua Zhang, Guanglai Gao, Haizhou Li
2023	Beyond Style: Synthesizing Speech with Pragmatic Functions. Harm Lameris, Joakim Gustafson, Éva Székely
2023	Beyond the AI hype: Balancing Innovation and Social Responsibility. Virginia Dignum
2023	Biased Self-supervised Learning for ASR. Florian L. Kreyssig, Yangyang Shi, Jinxi Guo, Leda Sari, Abdel-rahman Mohamed, Philip C. Woodland
2023	Binaural Sound Localization in Noisy Environments Using Frequency-Based Audio Vision Transformer (FAViT). Waradon Phokhinanan, Nicolas Obin, Sylvain Argentieri
2023	Biophysically-inspired single-channel speech enhancement in the time domain. Chuan Wen, Sarah Verhulst
2023	Blank Collapse: Compressing CTC Emission for the Faster Decoding. Minkyu Jung, Ohhyeok Kwon, Seunghyun Seo, Soonshin Seo
2023	Blank-regularized CTC for Frame Skipping in Neural Transducer. Yifan Yang, Xiaoyu Yang, Liyong Guo, Zengwei Yao, Wei Kang, Fangjun Kuang, Long Lin, Xie Chen, Daniel Povey
2023	Blind Estimation of Room Impulse Response from Monaural Reverberant Speech with Segmental Generative Neural Network. Zhiheng Liao, Feifei Xiong, Juan Luo, Minjie Cai, Eng Siong Chng, Jinwei Feng, Xionghu Zhong
2023	Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism. Jiaxin Fan, Yong Zhang, Hanzhang Li, Jianzong Wang, Zhitao Li, Sheng Ouyang, Ning Cheng, Jing Xiao
2023	Boosting Punctuation Restoration with Data Generation and Reinforcement Learning. Viet Dac Lai, Abel Salinas, Hao Tan, Trung Bui, Quan Tran, Seunghyun Yoon, Hanieh Deilamsalehy, Franck Dernoncourt, Thien Huu Nguyen
2023	Branch-ECAPA-TDNN: A Parallel Branch Architecture to Capture Local and Global Features for Speaker Verification. Jiadi Yao, Chengdong Liang, Zhendong Peng, Binbin Zhang, Xiao-Lei Zhang
2023	Bridging Speech Science and Technology - Now and Into the Future. Shrikanth Narayanan
2023	Build a SRE Challenge System: Lessons from VoxSRC 2022 and CNSRC 2022. Zhengyang Chen, Bing Han, Xu Xiang, Houjun Huang, Bei Liu, Yanmin Qian
2023	Bulgarian Unstressed Vowel Reduction: Received Views vs Corpus Findings. Mitko Sabev, Bistra Andreeva, Christoph Gabriel, Jonas Gruenke
2023	Bypass Temporal Classification: Weakly Supervised Automatic Speech Recognition with Imperfect Transcripts. Dongji Gao, Matthew Wiesner, Hainan Xu, Leibny Paola García, Daniel Povey, Sanjeev Khudanpur
2023	CALLS: Japanese Empathetic Dialogue Speech Corpus of Complaint Handling and Attentive Listening in Customer Center. Yuki Saito, Eiji Iimori, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari
2023	CAM++: A Fast and Efficient Network for Speaker Verification Using Context-Aware Masking. Hui Wang, Siqi Zheng, Yafeng Chen, Luyao Cheng, Qian Chen
2023	CAPTDURE: Captioned Sound Dataset of Single Sources. Yuki Okamoto, Kanta Shimonishi, Keisuke Imoto, Kota Dohi, Shota Horiguchi, Yohei Kawaguchi
2023	CASA-ASR: Context-Aware Speaker-Attributed ASR. Mohan Shi, Zhihao Du, Qian Chen, Fan Yu, Yangze Li, Shiliang Zhang, Jie Zhang, Li-Rong Dai
2023	CASEIN: Cascading Explicit and Implicit Control for Fine-grained Emotion Intensity Regulation. Yuhao Cui, Xiongwei Wang, Zhongzhou Zhao, Wei Zhou, Haiqing Chen
2023	CFTNet: Complex-valued Frequency Transformation Network for Speech Enhancement. Nursadul Mamun, John H. L. Hansen
2023	CFVC: Conditional Filtering for Controllable Voice Conversion. Kou Tanaka, Takuhiro Kaneko, Hirokazu Kameoka, Shogo Seki
2023	CLRL-Tuning: A Novel Continual Learning Approach for Automatic Speech Recognition. Zhihan Wang, Feng Hou, Ruili Wang
2023	CN-Celeb-AV: A Multi-Genre Audio-Visual Dataset for Person Recognition. Lantian Li, Xiaolou Li, Haoyu Jiang, Chen Chen, Ruihai Hou, Dong Wang
2023	CNVVE: Dataset and Benchmark for Classifying Non-verbal Voice. Ramin Hedeshy, Raphael Menges, Steffen Staab
2023	COnVoy: A Contact Center Operated Pipeline for Voice of Customer Discovery. Rishabh Kumar Tripathi, Digvijay Ingle, Ayush Kumar, Cijo George, Jithendra Vepa
2023	CQNV: A Combination of Coarsely Quantized Bitstream and Neural Vocoder for Low Rate Speech Coding. Youqiang Zheng, Li Xiao, Weiping Tu, Yuhong Yang, Xinmeng Xu
2023	CVTE-Poly: A New Benchmark for Chinese Polyphone Disambiguation. Siheng Zhang, Xingjun Tan, Yanqiang Lei, Xianxiang Wang, Zhizhong Zhang, Yuan Xie
2023	Can Better Perception Become a Disadvantage? Synthetic Speech Perception in Congenitally Blind Users. Gerda Ana Melnik-Leroy, Gediminas Navickas
2023	Can ChatGPT Detect Intent? Evaluating Large Language Models for Spoken Language Understanding. Mutian He, Philip N. Garner
2023	Can Contextual Biasing Remain Effective with Whisper and GPT-2? Guangzhi Sun, Xianrui Zheng, Chao Zhang, Philip C. Woodland
2023	Can Self-Supervised Neural Representations Pre-Trained on Human Speech distinguish Animal Callers? Eklavya Sarkar, Mathew Magimai-Doss
2023	Capturing Formality in Speech Across Domains and Languages. Debasmita Bhattacharya, Jie Chi, Julia Hirschberg, Peter Bell
2023	Capturing Mismatch between Textual and Acoustic Emotion Expressions for Mood Identification in Bipolar Disorder. Minxue Niu, Amrit Romana, Mimansa Jaiswal, Melvin G. McInnis, Emily Mower Provost
2023	Careful Whisper - leveraging advances in automatic speech recognition for robust and interpretable aphasia subtype classification. Mario Zusag, Laurin Wagner, Theresa Bloder
2023	Cascaded Multi-task Adaptive Learning Based on Neural Architecture Search. Yingying Gao, Shilei Zhang, Zihao Cui, Chao Deng, Junlan Feng
2023	Cascaded encoders for fine-tuning ASR models on overlapped speech. Richard Rose, Oscar Chang, Olivier Siohan
2023	CauSE: Causal Search Engine for Understanding Contact-Center Conversations. Anup Pattnaik, Tanay Narshana, Aashraya Sachdeva, Cijo George, Jithendra Vepa
2023	Causal Signal-Based DCCRN with Overlapped-Frame Prediction for Online Speech Enhancement. Julitta Bartolewska, Stanislaw Kacprzak, Konrad Kowalczyk
2023	ChatGPT-EDSS: Empathetic Dialogue Speech Synthesis Trained from ChatGPT-derived Context Word Embeddings. Yuki Saito, Shinnosuke Takamichi, Eiji Iimori, Kentaro Tachibana, Hiroshi Saruwatari
2023	Chinese EFL Learners' Perception of English Prosodic Focus. Xinya Zhang, Ying Chen
2023	ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus. Ajinkya Kulkarni, Atharva Kulkarni, Sara Abedalmonem Mohammad Shatnawi, Hanan Aldarmaki
2023	Classification of Multi-class Vowels and Fricatives From Patients Having Amyotrophic Lateral Sclerosis with Varied Levels of Dysarthria Severity. Chowdam Venkata Thirumala Kumar, Tanuka Bhattacharjee, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh
2023	Classification of Vocal Intensity Category from Speech using the Wav2vec2 and Whisper Embeddings. Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku
2023	Classifying Dementia in the Presence of Depression: A Cross-Corpus Study. Franziska Braun, Sebastian P. Bayerl, Paula Andrea Pérez-Toro, Florian Hönig, Hartmut Lehfeld, Thomas Hillemacher, Elmar Nöth, Tobias Bocklet, Korbinian Riedhammer
2023	Classifying Rhoticity of /ɹ/ in Speech Sound Disorder using Age-and-Sex Normalized Formants. Nina R. Benway, Jonathan L. Preston, Asif Salekin, Yi Xiao, Harshit Sharma, Tara McAllister Byun
2023	Classifying depression symptom severity: Assessment of speech representations in personalized and generalized machine learning models. Edward L. Campbell, Judith Dineley, Pauline Conde, Faith Matcham, Katie M. White, Carolin Oetzmann, Sara Simblett, Stuart Bruce, Amos A. Folarin, Til Wykes, Srinivasan Vairavan, Richard J. B. Dobson, Laura Docío Fernández, Carmen García-Mateo, Vaibhav A. Narayan, Matthew Hotopf, Nicholas Cummins
2023	CleanUNet 2: A Hybrid Speech Denoising Model on Waveform and Spectrogram. Zhifeng Kong, Wei Ping, Ambrish Dantrey, Bryan Catanzaro
2023	CoBERT: Self-Supervised Speech Representation Learning Through Code Representation Learning. Chutong Meng, Junyi Ao, Tom Ko, Mingxuan Wang, Haizhou Li
2023	CoMFLP: Correlation Measure Based Fast Search on ASR Layer Pruning. Wei Liu, Zhiyuan Peng, Tan Lee
2023	Coarticulation of Sibe Vowels and Dorsal Fricatives in Spontaneous Speech: An Acoustic Study. Jared Sharp, Matthew Faytak, Hasutai Fei Xiong Liu
2023	Cochlear-implant Listeners Listening to Cochlear-implant Simulated Speech. Fanhui Kong, Nengheng Zheng, Xianren Wang, Hao He, Jan W. H. Schnupp, Qinglin Meng
2023	Coherence Estimation Tracks Auditory Attention in Listeners with Hearing Impairment. Oskar Keding, Emina Alickovic, Martin A. Skoglund, Maria Sandsten
2023	Combining Multilingual Resources and Models to Develop State-of-the-Art E2E ASR for Swedish. Lukás Mateju, Jan Nouza, Petr Cerva, Jindrich Zdánský, Frantisek Kynych
2023	Combining Multiple Multimodal Speech Features into an Interpretable Index Score for Capturing Disease Progression in Amyotrophic Lateral Sclerosis. Michael Neumann, Hardik Kothare, Vikram Ramanarayanan
2023	Combining acoustic and aerodynamic data collection: A perceptual evaluation of acoustic distortions. Amélie Elmerich, Jiayin Gao, Angélique Amelot, Lise Crevier-Buchman, Shinji Maeda
2023	Combining language corpora in a Japanese electromagnetic articulography database for acoustic-to-articulatory inversion. Tianfang Yan, Kikuo Maekawa, Yukiko Nota, Masayuki Hirata
2023	ComedicSpeech: Text To Speech For Stand-up Comedies in Low-Resource Scenarios. Yuyue Wang, Huan Xiao, Yihan Wu, Ruihua Song
2023	CommonAccent: Exploring Large Acoustic Pretrained Models for Accent Classification Based on Common Voice. Juan Zuluaga-Gomez, Sara Ahmed, Danielius Visockas, Cem Subakan
2023	Comparing /b/ and /d/ with a Single Physical Model of the Human Vocal Tract to Visualize Droplets Produced while Speaking. Takayuki Arai, Tsukasa Yoshinaga, Akiyoshi Iida
2023	Comparing Hand-Crafted Features to Spectrograms for Autism Severity Estimation. Marina Eni, Ilan Dinstein, Yaniv Zigel
2023	Comparing Self-Supervised Pre-Training and Semi-Supervised Training for Speech Recognition in Languages with Weak Language Models. Léa-Marie Lam-Yee-Mui, Lucas Ondel Yang, Ondrej Klejch
2023	Comparing first spectral moment of Australian English /s/ between straight and gay voices using three analysis window sizes. Tünde Szalay, John Holik, Duy Duong Nguyen, James Morandini, Catherine J. Madill
2023	Comparing normalizing flows and diffusion models for prosody and acoustic modelling in text-to-speech. Guangyan Zhang, Thomas Merritt, Manuel Sam Ribeiro, Biel Tura Vecino, Kayoko Yanagisawa, Kamil Pokora, Abdelhamid Ezzerg, Sebastian Cygert, Ammar Abbas, Piotr Bilinski, Roberto Barra-Chicote, Daniel Korzekwa, Jaime Lorenzo-Trueba
2023	Comparison of GIF- and SSL-based Features in Pathological-voice Detection. Akira Sasou, Yang Chen
2023	Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech Pre-Training for Adaptation to Unseen Languages. Andrew Rouditchenko, Sameer Khurana, Samuel Thomas, Rogério Feris, Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James R. Glass
2023	Comparison of acoustic measures of dysphonia in Parkinson's disease and Huntington's disease: Effect of sex and speaking task. Michal Simek, Tomás Kouba, Michal Novotný, Tereza Tykalová, Jan Rusz
2023	Competitive and Resource Efficient Factored Hybrid HMM Systems are Simpler Than You Think. Tina Raissi, Christoph Lüscher, Moritz Gunz, Ralf Schlüter, Hermann Ney
2023	Complex Image Generation SwinTransformer Network for Audio Denoising. Youshan Zhang, Jialu Li
2023	Complex-valued neural networks for voice anti-spoofing. Nicolas M. Müller, Philip Sperl, Konstantin Böttinger
2023	Composing Spoken Hints for Follow-on Question Suggestion in Voice Assistants. Pedro Faustini, Besnik Fetahu, Giuseppe Castellucci, Anjie Fang, Oleg Rokhlenko, Shervin Malmasi
2023	Compositional Generalization in Spoken Language Understanding. Avik Ray, Yilin Shen, Hongxia Jin
2023	Compressed MoE ASR Model Based on Knowledge Distillation and Quantization. Yuping Yuan, Zhao You, Shulin Feng, Dan Su, Yanchun Liang, Xiaohu Shi, Dong Yu
2023	Computation and Memory Efficient Noise Adaptation of Wav2Vec2.0 for Noisy Speech Emotion Recognition with Skip Connection Adapters. Seong-Gyun Leem, Daniel Fulford, Jukka-Pekka Onnela, David Gard, Carlos Busso
2023	Computational modeling of auditory brainstem responses derived from modified speech. Tzu-Han Zoe Cheng, Paul Calamia
2023	Confidence-based Ensembles of End-to-End Speech Recognition Models. Igor Gitman, Vitaly Lavrukhin, Aleksandr Laptev, Boris Ginsburg
2023	Conformer-based Language Embedding with Self-Knowledge Distillation for Spoken Language Identification. Feng Wang, Lingyan Huang, Tao Li, Qingyang Hong, Lin Li
2023	Conmer: Streaming Conformer Without Self-attention for Interactive Voice Assistants. Martin Radfar, Paulina Lyskawa, Brandon Trujillo, Yi Xie, Kai Zhen, Jahn Heymann, Denis Filimonov, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris
2023	Consonant-emphasis Method Incorporating Robust Consonant-section Detection to Improve Intelligibility of Bone-conducted speech. Yasufumi Uezu, Sicheng Wang, Teruki Toya, Masashi Unoki
2023	ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph Reading. Yujia Xiao, Shaofei Zhang, Xi Wang, Xu Tan, Lei He, Sheng Zhao, Frank K. Soong, Tan Lee
2023	Contextualized End-to-End Speech Recognition with Contextual Phrase Prediction Network. Kaixun Huang, Ao Zhang, Zhanheng Yang, Pengcheng Guo, Bingshen Mu, Tianyi Xu, Lei Xie
2023	Contrastive Disentangled Learning for Memory-Augmented Transformer. Jen-Tzung Chien, Shang-En Li
2023	Contrastive Learning Based ASR Robust Knowledge Selection For Spoken Dialogue System. Zhiyuan Zhu, Yusheng Liao, Yu Wang, Yunfeng Guan
2023	Contrastive Learning based Deep Latent Masking for Music Source Separation. Jihyun Kim, Hong-Goo Kang
2023	ControlVC: Zero-Shot Voice Conversion with Time-Varying Controls on Pitch and Speed. Meiying Chen, Zhiyao Duan
2023	Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions. Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu
2023	Controlling Multi-Class Human Vocalization Generation via a Simple Segment-based Labeling Scheme. Hieu-Thi Luong, Junichi Yamagishi
2023	Controlling formant frequencies with neural text-to-speech for the manipulation of perceived speaker age. Ziya Khan, Lovisa Wihlborg, Cassia Valentini-Botinhao, Oliver Watts
2023	ConvKT: Conversation-Level Knowledge Transfer for Context Aware End-to-End Spoken Language Understanding. Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang Jeff Kuo, Brian Kingsbury
2023	Creak Prevalence and Prosodic Context in Australian English. Hannah White, Joshua Penney, Andy Gibson, Anita Szakay, Felicity Cox
2023	Creating Personalized Synthetic Voices from Post-Glossectomy Speech with Guided Diffusion Models. Yusheng Tian, Guangyan Zhang, Tan Lee
2023	Cross-Lingual Cross-Age Adaptation for Low-Resource Elderly Speech Emotion Recognition. Samuel Cahyawijaya, Holy Lovenia, Willy Chung, Rita Frieske, Zihan Liu, Pascale Fung
2023	Cross-Lingual Features for Alzheimer's Dementia Detection from Speech. Thomas Melistas, Lefteris Kapelonis, Nikolaos Antoniou, Petros Mitseas, Dimitris Sgouropoulos, Theodoros Giannakopoulos, Athanasios Katsamanis, Shrikanth Narayanan
2023	Cross-Lingual Transfer Learning for Phrase Break Prediction with Multilingual Language Model. Hoyeon Lee, Hyun-Wook Yoon, Jong-Hwan Kim, Jae-Min Kim
2023	Cross-Modal Semantic Alignment before Fusion for Two-Pass End-to-End Spoken Language Understanding. Lingyan Huang, Tao Li, Haodong Zhou, Qingyang Hong, Lin Li
2023	Cross-lingual Prosody Transfer for Expressive Machine Dubbing. Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Patrick Lumban Tobing, Ravichander Vipperla, Vincent Pollet
2023	Cross-lingual/Cross-channel Intent Detection in Contact-Center Conversations. Suraj Agrawal, Aashraya Sachdeva, Soumya Jain, Cijo George, Jithendra Vepa
2023	Cross-linguistic Emotion Perception in Human and TTS Voices. Iona Gessinger, Michelle Cohn, Benjamin R. Cowan, Georgia Zellou, Bernd Möbius
2023	Cross-utterance Conditioned Coherent Speech Editing. Cheng Yu, Yang Li, Weiqin Zu, Fanglei Sun, Zheng Tian, Jun Wang
2023	Crowdsource-based Validation of the Audio Cocktail as a Sound Browsing Tool. Per Fallgren, Jens Edlund
2023	Crowdsourced Data Validation for ASR Training. Wannaphong Phatthiyaphaibun, Chompakorn Chaksangchaichot, Thanawin Rakthanmanon, Ekapol Chuangsuwanich, Sarana Nutanong
2023	Cues to next-speaker projection in conversational Swedish: Evidence from reaction times. Kathrin Feindt, Martina Rossi, Ghazaleh Esfandiari-Baiat, Axel G. Ekström, Margaret Zellers
2023	Curriculum Learning for Self-supervised Speaker Verification. Hee-Soo Heo, Jee-weon Jung, Jingu Kang, Youngki Kwon, Bong-Jin Lee, You Jin Kim, Joon Son Chung
2023	C²A-SLU: Cross and Contrastive Attention for Improving ASR Robustness in Spoken Language Understanding. Xuxin Cheng, Ziyu Yao, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou
2023	DC CoMix TTS: An End-to-End Expressive TTS with Discrete Code Collaborated with Mixer. Yerin Choi, Myoung-Wan Koo
2023	DCCRN-KWS: An Audio Bias Based Model for Noise Robust Small-Footprint Keyword Spotting. Shubo Lv, Xiong Wang, Sining Sun, Long Ma, Lei Xie
2023	DCTX-Conformer: Dynamic context carry-over for low latency unified streaming and non-streaming Conformer. Goeric Huybrechts, Srikanth Ronanki, Xilai Li, Hadis Nosrati, Sravan Bodapati, Katrin Kirchhoff
2023	DFSNet: A Steerable Neural Beamformer Invariant to Microphone Array Configuration for Real-Time, Low-Latency Speech Enhancement. Anton Kovalyov, Kashyap Patel, Issa M. S. Panahi
2023	DNN-based Parameter Estimation for MVDR Beamforming and Post-filtering. Minseung Kim, Sein Cheong, Jong Won Shin
2023	DPHuBERT: Joint Distillation and Pruning of Self-Supervised Speech Models. Yifan Peng, Yui Sudo, Muhammad Shakeel, Shinji Watanabe
2023	DSE-TTS: Dual Speaker Embedding for Cross-Lingual Text-to-Speech. Sen Liu, Yiwei Guo, Chenpeng Du, Xie Chen, Kai Yu
2023	Data Augmentation for Diverse Voice Conversion in Noisy Environments. Avani Tanna, Michael Saxon, Amr El Abbadi, William Yang Wang
2023	Data augmentation for children ASR and child-adult speaker classification using voice conversion methods. Shuyang Zhao, Mittul Singh, Abraham Woubie, Reima Karhila
2023	DeCoR: Defy Knowledge Forgetting by Predicting Earlier Audio Codes. Xilin Jiang, Yinghao Aaron Li, Nima Mesgarani
2023	DeFT-AN RT: Real-time Multichannel Speech Enhancement using Dense Frequency-Time Attentive Network and Non-overlapping Synthesis Window. Dongheon Lee, Dayun Choi, Jung-Woo Choi
2023	Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test. Eungbeom Kim, Yunkee Chae, Jaeheon Sim, Kyogu Lee
2023	Decoupling Segmental and Prosodic Cues of Non-native Speech through Vector Quantization. Waris Quamer, Anurag Das, Ricardo Gutierrez-Osuna
2023	DeePMOS: Deep Posterior Mean-Opinion-Score of Speech. Xinyu Liang, Fredrik Cumlin, Christian Schüldt, Saikat Chatterjee
2023	Deep Multi-Frame Filtering for Hearing Aids. Hendrik Schröter, Tobias Rosenkranz, Alberto N. Escalante-B., Andreas Maier
2023	Deep Speech Synthesis from MRI-Based Articulatory Representations. Peter Wu, Tingle Li, Yijing Lu, Yubin Zhang, Jiachen Lian, Alan W. Black, Louis Goldstein, Shinji Watanabe, Gopala Krishna Anumanchipalli
2023	DeepFilterNet: Perceptually Motivated Real-Time Speech Enhancement. Hendrik Schröter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier
2023	DeepVQE: Real Time Deep Voice Quality Enhancement for Joint Acoustic Echo Cancellation, Noise Suppression and Dereverberation. Nicolae-Catalin Ristea, Evgenii Indenbom, Ando Saabas, Tanel Pärnamaa, Jegor Guzvin, Ross Cutler
2023	Deeply Supervised Curriculum Learning for Deep Neural Network-based Sound Source Localization. Min-Sang Baek, Joon-Young Yang, Joon-Hyuk Chang
2023	Defense Against Adversarial Attacks on Audio DeepFake Detection. Piotr Kawa, Marcin Plata, Piotr Syga
2023	Delay-penalized CTC Implemented Based on Finite State Transducer. Zengwei Yao, Wei Kang, Fangjun Kuang, Liyong Guo, Xiaoyu Yang, Yifan Yang, Long Lin, Daniel Povey
2023	Describing the phonetics in the underlying speech attributes for deep and interpretable speaker recognition. Imen Ben Amor, Jean-François Bonastre, Benjamin O'Brien, Pierre-Michel Bousquet
2023	Description and Analysis of ABC Submission to NIST LRE 2022. Pavel Matejka, Anna Silnova, Josef Slavícek, Ladislav Mosner, Oldrich Plchot, Michal Klco, Junyi Peng, Themos Stafylakis, Lukás Burget
2023	Description and analysis of the KPT system for NIST Language Recognition Evaluation 2022. Salvatore Sarni, Sandro Cumani, Sabato Marco Siniscalchi, Andrea Bottino
2023	Detecting Manifest Huntington's Disease Using Vocal Data. Vinod Subramanian, Namhee Kwon, Raymond Brueckner, Nate Blaylock, Henry O'Connell, Luis Sierra, Clementina Ullman, Karen Hildebrand, Simon E. Laganiere
2023	Detection of Cross-Dataset Fake Audio Based on Prosodic and Pronunciation Features. Chenglong Wang, Jiangyan Yi, Jianhua Tao, Chu Yuan Zhang, Shuai Zhang, Xun Chen
2023	Detection of Emotional Hotspots in Meetings Using a Cross-Corpus Approach. Georg Stemmer, Paulo López-Meyer, Juan A. del Hoyo Ontiveros, Jose A. Lopez, Héctor A. Cordourier, Tobias Bocklet
2023	Detection of Laughter and Screaming Using the Attention and CTC Models. Takuto Matsuda, Yoshiko Arimoto
2023	Developing Speech Processing Pipelines for Police Accountability. Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan Jurafsky
2023	Developmental Articulatory and Acoustic Features for Six to Ten Year Old Children. Vishwas M. Shetty, Steven M. Lulich, Abeer Alwan
2023	Diacritic Recognition Performance in Arabic ASR. Hanan Aldarmaki, Ahmad Ghannam
2023	Dialect Speech Recognition Modeling using Corpus of Japanese Dialects and Self-Supervised Learning-based Model XLSR. Shogo Miwa, Atsuhiko Kai
2023	Did you see that? Exploring the role of vision in the development of consonant feature contrasts in children with cochlear implants. James J. Mahshie, Michael Larsen
2023	Diff-E: Diffusion-based Learning for Decoding Imagined Speech EEG. Soowon Kim, Young-Eun Lee, Seo-Hyun Lee, Seong-Whan Lee
2023	Diff-HierVC: Diffusion-based Hierarchical Voice Conversion with Robust Pitch Generation and Masked Prior for Zero-shot Speaker Adaptation. Ha-Yeong Choi, Sang-Hoon Lee, Seong-Whan Lee
2023	DiffSLU: Knowledge Distillation Based Diffusion Model for Cross-Lingual Spoken Language Understanding. Tianjun Mao, Chenghong Zhang
2023	Differential Privacy enabled Dementia Classification: An Exploration of the Privacy-Accuracy Trade-off in Speech Signal Data. Suhas BN, Sarah Rajtmajer, Saeed Abdullah
2023	Differentially Private Adapters for Parameter Efficient Acoustic Modeling. Chun-Wei Ho, Chao-Han Huck Yang, Sabato Marco Siniscalchi
2023	Differentiating acoustic and physiological features in speech for hypoxia detection. Benjamin O'Brien, Adrien Gresse, Jean-Baptise Billaud, Guilhem Belda, Jean-François Bonastre
2023	Diffiner: A Versatile Diffusion-based Generative Refiner for Speech Enhancement. Ryosuke Sawata, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Takashi Shibuya, Shusuke Takahashi, Yuki Mitsufuji
2023	Diffusion-based accent modelling in speech synthesis. Kamil Deja, Georgi Tinchev, Marta Czarnowska, Marius Cotescu, Jasha Droppo
2023	Directional Speech Recognition for Speaker Disambiguation and Cross-talk Suppression. Ju Lin, Niko Moritz, Ruiming Xie, Kaustubh Kalgaonkar, Christian Fuegen, Frank Seide
2023	Discovering COVID-19 Coughing and Breathing Patterns from Unlabeled Data Using Contrastive Learning with Varying Pre-Training Domains. Jinjin Cai, Sudip Vhaduri, Xiao Luo
2023	Discovering Phonetic Feature Event Patterns in Transformer Embeddings. Patrick Cormac English, John D. Kelleher, Julie Carson-Berndsen
2023	Discrimination of the Different Intents Carried by the Same Text Through Integrating Multimodal Information. Zhongjie Li, Gaoyan Zhang, Longbiao Wang, Jianwu Dang
2023	Disentangled Representation Learning for Multilingual Speaker Recognition. Kihyun Nam, Youkyum Kim, Jaesung Huh, Hee-Soo Heo, Jee-weon Jung, Joon Son Chung
2023	Disentangling the Contribution of Non-native Speech in Automated Pronunciation Assessment. Shuju Shi, Kaiqi Fu, Yiwei Gu, Xiaohai Tian, Shaojun Gao, Wei Li, Zejun Ma
2023	DisfluencyFixer: A tool to enhance Language Learning through Speech To Speech Disfluency Correction. Vineet Bhat, Preethi Jyothi, Pushpak Bhattacharyya
2023	Distant Speech Emotion Recognition in an Indoor Human-robot Interaction Scenario. Nicolás Grágeda, Eduardo Alvarado, Rodrigo Mahú, Carlos Busso, Néstor Becerra Yoma
2023	DistilXLSR: A Light Weight Cross-Lingual Speech Representation Model. Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Jinfeng Bai
2023	Distillation Strategies for Discriminative Speech Recognition Rescoring. Prashanth Gurunath Shivakumar, Jari Kolehmainen, Yile Gu, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
2023	Distilling knowledge from Gaussian process teacher to neural network student. Jeremy H. M. Wong, Huayun Zhang, Nancy F. Chen
2023	Diverse Feature Mapping and Fusion via Multitask Learning for Multilingual Speech Emotion Recognition. Shi-wook Lee
2023	Diverse and Expressive Speech Prosody Prediction with Denoising Diffusion Probabilistic Model. Xiang Li, Songxiang Liu, Max W. Y. Lam, Zhiyong Wu, Chao Weng, Helen Meng
2023	Do Phonatory Features Display Robustness to Characterize Parkinsonian Speech Across Corpora? Anna Favaro, Tianyu Cao, Thomas Thebaud, Jesús Villalba, Ankur A. Butala, Najim Dehak, Laureano Moro-Velázquez
2023	Do Vocal Breath Sounds Encode Gender Cues for Automatic Gender Classification? Mohammad Shaique Solanki, Ashutosh Bharadwaj, Jeevan Kylash, Prasanta Kumar Ghosh
2023	Domain Adaptation for Speech Enhancement in a Large Domain Gap. Lior Frenkel, Jacob Goldberger, Shlomo E. Chazan
2023	Domain Adaptive Self-supervised Training of Automatic Speech Recognition. Cong-Thanh Do, Rama Doddipatla, Mohan Li, Thomas Hain
2023	Don't Stop Self-Supervision: Accent Adaptation of Speech Representations via Residual Adapters. Anshu Bhatia, Sanchit Sinha, Saket Dingliwal, Karthik Gopalakrishnan, Sravan Bodapati, Katrin Kirchhoff
2023	DoubleDeceiver: Deceiving the Speaker Verification System Protected by Spoofing Countermeasures. Mengao Zhang, Ke Xu, Hao Li, Lei Wang, Chengfang Fang, Jie Shi
2023	Downstream Task Agnostic Speech Enhancement with Self-Supervised Representation Loss. Hiroshi Sato, Ryo Masumura, Tsubasa Ochiai, Marc Delcroix, Takafumi Moriya, Takanori Ashihara, Kentaro Shinayama, Saki Mizuno, Mana Ihori, Tomohiro Tanaka, Nobukatsu Hojo
2023	DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model. Helin Wang, Thomas Thebaud, Jesús Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velázquez
2023	Dual Acoustic Linguistic Self-supervised Representation Learning for Cross-Domain Speech Recognition. Zhao Yang, Dianwen Ng, Chong Zhang, Xiao Fu, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Eng Siong Chng, Bin Ma, Jizhong Zhao
2023	Dual Audio Encoders Based Mandarin Prosodic Boundary Prediction by Using Multi-Granularity Prosodic Representations. Ruishan Li, Yingming Gao, Yanlu Xie, Dengfeng Ke, Jinsong Zhang
2023	Dual Memory Fusion for Multimodal Speech Emotion Recognition. Darshana Prisayad, Tharindu Fernando, Sridha Sridharan, Simon Denman, Clinton Fookes
2023	Dual Transformer Decoder based Features Fusion Network for Automated Audio Captioning. Jianyuan Sun, Xubo Liu, Xinhao Mei, Volkan Kiliç, Mark D. Plumbley, Wenwu Wang
2023	Dual-Memory Multi-Modal Learning for Continual Spoken Keyword Spotting with Confidence Selection and Diversity Enhancement. Zhao Yang, Dianwen Ng, Xizhe Li, Chong Zhang, Rui Jiang, Wei Xi, Yukun Ma, Chongjia Ni, Jizhong Zhao, Bin Ma, Eng Siong Chng
2023	Dual-Mode NAM: Effective Top-K Context Injection for End-to-End ASR. Zelin Wu, Tsendsuren Munkhdalai, Pat Rondon, Golan Pundak, Khe Chai Sim, Christopher Li
2023	Dual-Path Style Learning for End-to-End Noise-Robust Speech Recognition. Yuchen Hu, Nana Hou, Chen Chen, Eng Siong Chng
2023	DualVC: Dual-mode Voice Conversion using Intra-model Knowledge Distillation and Hybrid Predictive Coding. Ziqian Ning, Yuepeng Jiang, Pengcheng Zhu, Jixun Yao, Shuai Wang, Lei Xie, Mengxiao Bi
2023	Durational and Non-durational Correlates of Lexical and Derived Geminates in Arabic. Amel Issa
2023	Dynamic Encoder RNN for Online Voice Activity Detection in Adverse Noise Conditions. Prithvi R. R. Gudepu, Jayesh M. Koroth, Kamini Sabu, Mahaboob Ali Basha Shaik
2023	Dynamic Fully-Connected Layer for Large-Scale Speaker Verification. Zhida Song, Liang He, Baowei Zhao, Minqiang Xu, Yu Zheng
2023	Dysarthric Speech Recognition, Detection and Classification using Raw Phase and Magnitude Spectra. Zhengjun Yue, Erfan Loweimi, Zoran Cvetkovic
2023	E2E-S2S-VC: End-To-End Sequence-To-Sequence Voice Conversion. Takuma Okamoto, Tomoki Toda, Hisashi Kawai
2023	ECAPA++: Fine-grained Deep Embedding Learning for TDNN Based Speaker Verification. Bei Liu, Yanmin Qian
2023	EE-TTS: Emphatic Expressive TTS with Linguistic Information. Yi Zhong, Chen Zhang, Xule Liu, Chenxi Sun, Weishan Deng, Haifeng Hu, Zhongqian Sun
2023	EEG-based Auditory Attention Detection with Spatiotemporal Graph and Graph Convolutional Network. Ruicong Wang, Siqi Cai, Haizhou Li
2023	EdenTTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning. Youneng Ma, Junyi He, Meimei Wu, Guangyue Hu, Haojun Fei
2023	EffCRN: An Efficient Convolutional Recurrent Network for High-Performance Speech Enhancement. Marvin Sach, Jan Franzen, Bruno Defraene, Kristoff Fluyt, Maximilian Strake, Wouter Tirry, Tim Fingscheidt
2023	Effective Training of Attention-based Contextual Biasing Adapters with Synthetic Audio for Personalised ASR. Burin Naowarat, Philip Harding, Pasquale D'Alterio, Sibo Tong, Bashar Awwad Shiekh Hasan
2023	Effects of Meter, Genre and Experience on Pausing, Lengthening and Prosodic Phrasing in German Poetry Reading. Petra Wagner, Simon Betz
2023	Effects of Tonal Coarticulation and Prosodic Positions on Tonal Contours of Low Rising Tones: In the Case of Xiamen Dialect. Yiying Hu, Hui Feng, Qinghua Zhao, Aijun Li
2023	Effects of hearing loss and amplification on Mandarin consonant perception. Huali Zhou, Xianming Bei, Nengheng Zheng, Qinglin Meng
2023	Effects of perceived gender on the perceived social function of laughter. Joop Arts, Khiet P. Truong
2023	Effects of spectral and temporal modulation degradation on intelligibility and cortical tracking of speech signals. Ignacio Calderon De Palma, Laura S. Lopez, Alejandro Lopez-Valdes
2023	Effects of spectral degradation on the cortical tracking of the speech envelope. Alexis Deighton MacIntyre, Tobias Goehring
2023	Efficient Adaptation of Spoken Language Understanding based on End-to-End Automatic Speech Recognition. Eesung Kim, Aditya Jajodia, Cindy Tseng, Divya Neelagiri, Taeyeon Ki, Vijendra Raj Apsingekar
2023	Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement. Junyu Wang
2023	Efficient Multimodal Neural Networks for Trigger-less Voice Assistants. Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Tashweena Heeramun, Karan Sawnhey, Ed Yanosik, Saravana Rathinam, Saurabh Adya
2023	Efficient Spoken Language Recognition via Multilabel Classification. Oriol Nieto, Zeyu Jin, Franck Dernoncourt, Justin Salamon
2023	Embedding Articulatory Constraints for Low-resource Speech Recognition Based on Large Pre-trained Model. Jaeyoung Lee, Masato Mimura, Tatsuya Kawahara
2023	Emo-StarGAN: A Semi-Supervised Any-to-Many Non-Parallel Emotion-Preserving Voice Conversion. Suhita Ghosh, Arnab Das, Yamini Sinha, Ingo Siegert, Tim Polzehl, Sebastian Stober
2023	EmoMix: Emotion Mixing via Diffusion Models for Emotional Speech Synthesis. Haobin Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao
2023	Emotion Awareness in Multi-utterance Turn for Improving Emotion Prediction in Multi-Speaker Conversation. Xiaohan Shi, Xingfeng Li, Tomoki Toda
2023	Emotion Classification with EEG Responses Evoked by Emotional Prosody of Speech. Zechen Zhang, Xihong Wu, Jing Chen
2023	Emotion Label Encoding Using Word Embeddings for Speech Emotion Recognition. Eimear Stanley, Eric DeMattos, Anita Klementiev, Piotr Ozimek, Georgia Clarke, Michael Berger, Dimitri Palaz
2023	Emotion Prompting for Speech Emotion Recognition. Xingfa Zhou, Min Li, Lan Yang, Rui Sun, Xin Wang, Huayi Zhan
2023	Emotion-Aware Audio-Driven Face Animation via Contrastive Feature Disentanglement. Xin Ren, Juan Luo, Xionghu Zhong, Minjie Cai
2023	EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition. Haiyang Sun, Zheng Lian, Bin Liu, Ying Li, Jianhua Tao, Licai Sun, Cong Cai, Meng Wang, Yuan Cheng
2023	Emotional Talking Head Generation based on Memory-Sharing and Attention-Augmented Networks. Jianrong Wang, Yaxin Zhao, Li Liu, Tianyi Xu, Qi Li, Sen Li
2023	Emotional Voice Conversion with Semi-Supervised Generative Modeling. Hai Zhu, Huayi Zhan, Hong Cheng, Ying Wu
2023	Enc-Dec RNN Acoustic Word Embeddings learned via Pairwise Prediction. Adhiraj Banerjee, Vipul Arora
2023	Encoder-decoder Multimodal Speaker Change Detection. Jee-weon Jung, Soonshin Seo, Hee-Soo Heo, Geonmin Kim, You Jin Kim, Youngki Kwon, Minjae Lee, Bong-Jin Lee
2023	End to End Spoken Language Diarization with Wav2vec Embeddings. Jagabandhu Mishra, Jayadev N. Patil, Amartya Chowdhury, S. R. Mahadeva Prasanna
2023	End-to-End Joint Target and Non-Target Speakers ASR. Ryo Masumura, Naoki Makishima, Taiga Yamane, Yoshihiko Yamazaki, Saki Mizuno, Mana Ihori, Mihiro Uchida, Keita Suzuki, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
2023	End-to-End Neural Speaker Diarization with Absolute Speaker Loss. Chao Wang, Jie Li, Xiang Fang, Jian Kang, Yongxiang Li
2023	End-to-End Word-Level Pronunciation Assessment with MASK Pre-training. Yukang Liang, Kaitao Song, Shaoguang Mao, Huiqiang Jiang, Luna Qiu, Yuqing Yang, Dongsheng Li, Linli Xu, Lili Qiu
2023	End-to-End Zero-Shot Voice Conversion with Location-Variable Convolutions. Wonjune Kang, Mark Hasegawa-Johnson, Deb Roy
2023	Enhance Temporal Relations in Audio Captioning with Sound Event Detection. Zeyu Xie, Xuenan Xu, Mengyue Wu, Kai Yu
2023	Enhancing New Intent Discovery via Robust Neighbor-based Contrastive Learning. Zhenhe Wu, Xiaoguang Yu, Meng Chen, Liangqing Wu, Jiahao Ji, Zhoujun Li
2023	Enhancing Speech Articulation Analysis Using A Geometric Transformation of the X-ray Microbeam Dataset. Ahmed Adel Attia, Mark Tiede, Carol Y. Espy-Wilson
2023	Enhancing Visual Question Answering via Deconstructing Questions and Explicating Answers. Feilong Chen, Minglun Han, Jing Shi, Shuang Xu, Bo Xu
2023	Enhancing the EEG Speech Match Mismatch Tasks With Word Boundaries. Akshara Soman, Vidhi Sinha, Sriram Ganapathy
2023	Enhancing the Unified Streaming and Non-streaming Model with Contrastive Learning. Yuting Yang, Yuke Li, Binbin Du
2023	Episodic Memory For Domain-Adaptable, Robust Speech Emotion Recognition. James Tavernor, Matthew Perez, Emily Mower Provost
2023	Epoch-Based Spectrum Estimation for Speech. Jón Guðnason, Guolin Fang, Mike Brookes
2023	Estimating virtual targets for lingual stop consonants using general Tau theory. Benjamin Elie, Alice Turk
2023	Estimation of Listening Response Timing by Generative Model and Parameter Control of Response Substantialness Using Dynamic-Prompt-Tune. Toshiki Muromachi, Yoshinobu Kano
2023	Evaluating and reducing the distance between synthetic and real speech distributions. Christoph Minixhofer, Ondrej Klejch, Peter Bell
2023	Evaluating context-invariance in unsupervised speech representations. Mark Hallap, Emmanuel Dupoux, Ewan Dunbar
2023	Evaluation of a Forensic Automatic Speaker Recognition System with Emotional Speech Recordings. Robert Essery, Philip Harrison, Vincent Hughes
2023	Evaluation of delexicalization methods for research on emotional speech. Nicolas Audibert, Francesca Carbone, Maud Champagne-Lavau, Aurélien Said Housseini, Caterina Petrone
2023	Everyone has an accent. Nina Markl, Catherine Lai
2023	Experimenting with Additive Margins for Contrastive Self-Supervised Speaker Verification. Théo Lepage, Réda Dehak
2023	Explicit Intensity Control for Accented Text-to-speech. Rui Liu, Haolin Zuo, De Hu, Guanglai Gao, Haizhou Li
2023	Exploiting Cross-Domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition. Shujie Hu, Xurong Xie, Mengzhe Geng, Mingyu Cui, Jiajun Deng, Guinan Li, Tianzi Wang, Helen Meng, Xunying Liu
2023	Exploiting Diversity of Automatic Transcripts from Distinct Speech Recognition Techniques for Children's Speech. Christopher Gebauer, Lars Rumberg, Hanna Ehlert, Ulrike Lüdtke, Jörn Ostermann
2023	Exploiting Emotion Information in Speaker Embeddings for Expressive Text-to-Speech. Zein Shaheen, Tasnima Sadekova, Yulia Matveeva, Alexandra Shirshova, Mikhail A. Kudinov
2023	Exploration of Efficient End-to-End ASR using Discretized Input from Self-Supervised Learning. Xuankai Chang, Brian Yan, Yuya Fujita, Takashi Maekaku, Shinji Watanabe
2023	Exploration on HuBERT with Multiple Resolution. Jiatong Shi, Yun Tang, Hirofumi Inaguma, Hongyu Gong, Juan Pino, Shinji Watanabe
2023	Exploring Auditory Attention Decoding using Speaker Features. Zelin Qiu, Jianjun Gu, Dingding Yao, Junfeng Li
2023	Exploring Downstream Transfer of Self-Supervised Features for Speech Emotion Recognition. Yuanbo Fang, Xiaofen Xing, Xiangmin Xu, Weibin Zhang
2023	Exploring Energy-based Language Models with Different Architectures and Training Methods for Speech Recognition. Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao
2023	Exploring Graph Theory Methods For the Analysis of Pronunciation Variation in Spontaneous Speech. Bernhard C. Geiger, Barbara Schuppler
2023	Exploring Sources of Racial Bias in Automatic Speech Recognition through the Lens of Rhythmic Variation. Li-Fang Lai, Nicole R. Holliday
2023	Exploring a classification approach using quantised articulatory movements for acoustic to articulatory inversion. Jesuraja Bandekar, Sathvik Udupa, Prasanta Kumar Ghosh
2023	Exploring multi-task learning and data augmentation in dementia detection with self-supervised pretrained models. Minchuan Chen, Chenfeng Miao, Jun Ma, Shaojun Wang, Jing Xiao
2023	Exploring the English Accent-independent Features for Speech Emotion Recognition using Filter and Wrapper-based Methods for Feature Selection. Nowshin Tabassum, Tasfia Tabassum, Fardin Saad, Tahiya Sultana Safa, Hasan Mahmud, Md. Kamrul Hasan
2023	Exploring the Impact of Back-End Network on Wav2vec 2.0 for Dialect Identification. Qibao Luo, Ruohua Zhou
2023	Exploring the Impact of Pretrained Models and Web-Scraped Data for the 2022 NIST Language Recognition Evaluation. Tanel Alumäe, Kunnar Kukk, Viet Bac Le, Claude Barras, Abdel Messaoudi, Waad Ben Kheder
2023	Exploring the Interactions Between Target Positive and Negative Information for Acoustic Echo Cancellation. Chang Han, Xinmeng Xu, Weiping Tu, Yuhong Yang, Yajie Liu
2023	Exploring the mutual intelligibility breakdown caused by sculpting speech from a competing speech signal. Martin Cooke, María Luisa García Lecumberri
2023	Expressive Machine Dubbing Through Phrase-level Cross-lingual Prosody Transfer. Jakub Swiatkowski, Duo Wang, Mikolaj Babianski, Giuseppe Coccia, Patrick Lumban Tobing, Ravichander Vipperla, Viacheslav Klimkov, Vincent Pollet
2023	Expresso: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis. Tu Anh Nguyen, Wei-Ning Hsu, Antony D'Avirro, Bowen Shi, Itai Gat, Maryam Fazel-Zarandi, Tal Remez, Jade Copet, Gabriel Synnaeve, Michael Hassid, Felix Kreuk, Yossi Adi, Emmanuel Dupoux
2023	Extending DNN-based Multiplicative Masking to Deep Subband Filtering for Improved Dereverberation. Jean-Marie Lemercier, Julian Tobergte, Timo Gerkmann
2023	Extremely Low Bit Quantization for Mobile Speaker Verification Systems Under 1MB Memory. Bei Liu, Haoyu Wang, Yanmin Qian
2023	F0inTFS: A lightweight periodicity enhancement strategy for cochlear implants. Huali Zhou, Fanhui Kong, Nengheng Zheng, Qinglin Meng
2023	FACTSpeech: Speaking a Foreign Language Pronunciation Using Only Your Native Characters. Hongsun Yang, Ji-Hoon Kim, Yooncheol Ju, Ilhwan Kim, Byeong-Yeol Kim, Shukjae Choi, Hyung Yong Kim
2023	FC-MTLF: A Fine- and Coarse-grained Multi-Task Learning Framework for Cross-Lingual Spoken Language Understanding. Xuxin Cheng, Wanshi Xu, Ziyu Yao, Zhihong Zhu, Yaowei Li, Hongxiang Li, Yuexian Zou
2023	FN-SSL: Full-Band and Narrow-Band Fusion for Sound Source Localization. Yabo Wang, Bing Yang, Xiaofei Li
2023	FOOCTTS: Generating Arabic Speech with Acoustic Environment for Football Commentator. Massa Baali, Ahmed M. Ali
2023	FRA-RIR: Fast Random Approximation of the Image-source Method. Yi Luo, Jianwei Yu
2023	FTA-net: A Frequency and Time Attention Network for Speech Depression Detection. Qifei Li, Dong Wang, Yiming Ren, Yingming Gao, Ya Li
2023	Factorised Speaker-environment Adaptive Training of Conformer Speech Recognition Systems. Jiajun Deng, Guinan Li, Xurong Xie, Zengrui Jin, Mingyu Cui, Tianzi Wang, Shujie Hu, Mengzhe Geng, Xunying Liu
2023	Factual Consistency Oriented Speech Recognition. Naoyuki Kanda, Takuya Yoshioka, Yang Liu
2023	Fake the Real: Backdoor Attack on Deep Speech Classification via Voice Conversion. Zhe Ye, Terui Mao, Li Dong, Diqun Yan
2023	Fast Enrollable Streaming Keyword Spotting System: Training and Inference using a Web Browser. Namhyun Cho, Sunmin Kim, Yoseb Kang, Heeman Kim
2023	Fast and Efficient Multilingual Self-Supervised Pre-training for Low-Resource Speech Recognition. Zhilong Zhang, Wei Wang, Yanmin Qian
2023	FastFit: Towards Real-Time Iterative Neural Vocoder by Replacing U-Net Encoder With Multiple STFTs. Won Jang, Dan Lim, Heayoung Park
2023	Feature Normalization for Fine-tuning Self-Supervised Models in Speech Enhancement. Hejung Yang, Hong-Goo Kang
2023	Federated Learning Toolkit with Voice-based User Verification Demo. Prathamesh Mandke, Rachel Oberst, Matthias Reisser, Avijit Chakraborty, Christos Louizos, Joseph Soriaga, Daniel Madrigal Díaz, Andre Manoel, Nalin Singal, Jeff Omhover, Robert Sim
2023	Federated Learning for Secure Development of AI Models for Parkinson's Disease Detection Using Speech from Different Languages. Soroosh Tayebi Arasteh, Cristian David Ríos-Urrego, Elmar Nöth, Andreas Maier, Seung Hee Yang, Jan Rusz, Juan Rafael Orozco-Arroyave
2023	Few-Shot Open-Set Learning for On-Device Customization of KeyWord Spotting Systems. Manuele Rusci, Tinne Tuytelaars
2023	Few-shot Class-incremental Audio Classification Using Adaptively-refined Prototypes. Wei Xie, Yanxiong Li, Qianhua He, Wenchang Cao, Tuomas Virtanen
2023	Few-shot Class-incremental Audio Classification Using Stochastic Classifier. Yanxiong Li, Wenchang Cao, Jialong Li, Wei Xie, Qianhua He
2023	Few-shot Dysarthric Speech Recognition with Text-to-Speech Data Augmentation. Enno Hermann, Mathew Magimai-Doss
2023	Filling the population statistics gap: Swiss German reference data on F0 and speech tempo for forensic contexts. Hannah Hedegard, Andrea Fröhlich, Fabian Tomaschek, Carina Steiner, Adrian Leemann
2023	Fine-tuned RoBERTa Model with a CNN-LSTM Network for Conversational Emotion Recognition. Jiachen Luo, Huy Phan, Joshua D. Reiss
2023	Fine-tuning Audio Spectrogram Transformer with Task-aware Adapters for Sound Event Detection. Kang Li, Yan Song, Ian McLoughlin, Lin Liu, Jin Li, Li-Rong Dai
2023	First Language Effects on Second Language Perception: Evidence from English Low-vowel Nasal Sequences Perceived by L1 Mandarin Chinese Listeners. Sijia Zhang
2023	FlexiAST: Flexibility is What AST Needs. Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak
2023	Flow-VAE VC: End-to-End Flow Framework with Contrastive Loss for Zero-shot Voice Conversion. Le Xu, Rongxiu Zhong, Ying Liu, Huibao Yang, Shilei Zhang
2023	Focus on the Sound around You: Monaural Target Speaker Extraction via Distance and Speaker Information. Jiuxin Lin, Peng Wang, Heinrich Dinkel, Jun Chen, Zhiyong Wu, Zhiyong Yan, Yongqing Wang, Junbo Zhang, Yujun Wang
2023	Focus-attention-enhanced Crossmodal Transformer with Metric Learning for Multimodal Speech Emotion Recognition. Keulbit Kim, Namhyun Cho
2023	Fooling Speaker Identification Systems with Adversarial Background Music. Chu-Xiao Zuo, Jia-Yi Leng, Wu-Jun Li
2023	Frequency Patterns of Individual Speaker Characteristics at Higher and Lower Spectral Ranges. Zhao Zhang, Ju Zhang, Ziyu Zhu, Yujie Chi, Kiyoshi Honda, Jianguo Wei
2023	From Interval to Ordinal: A HMM based Approach for Emotion Label Conversion. Jingyao Wu, Ting Dang, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2023	From adaptive score normalization to adaptive data normalization for speaker verification systems. Sandro Cumani, Salvatore Sarni
2023	FunASR: A Fundamental End-to-End Speech Recognition Toolkit. Zhifu Gao, Zerui Li, Jiaming Wang, Haoneng Luo, Xian Shi, Mengzhe Chen, Yabin Li, Lingyun Zuo, Zhihao Du, Shiliang Zhang
2023	FusedF0: Improving DNN-based F0 Estimation by Fusion of Summary-Correlograms and Raw Waveform Representations of Speech Signals. Eray Eren, Lee Ngee Tan, Abeer Alwan
2023	GL-SSD: Global and Local Speech Style Disentanglement by vector quantization for robust sentence boundary detection in speech stream. Kuncai Zhang, Wei Zhou, Pengcheng Zhu, Haiqing Chen
2023	GPU-accelerated Guided Source Separation for Meeting Transcription. Desh Raj, Daniel Povey, Sanjeev Khudanpur
2023	GRAVO: Learning to Generate Relevant Audio from Visual Features with Noisy Online Videos. Youngdo Ahn, Chengyi Wang, Yu Wu, Jong Won Shin, Shujie Liu
2023	GenerTTS: Pronunciation Disentanglement for Timbre and Style Generalization in Cross-Lingual Text-to-Speech. Yahuan Cong, Haoyu Zhang, Haopeng Lin, Shichao Liu, Chunfeng Wang, Yi Ren, Xiang Yin, Zejun Ma
2023	General-purpose Adversarial Training for Enhanced Automatic Speech Recognition Model Generalization. Do-Hee Kim, Daeyeol Shim, Joon-Hyuk Chang
2023	Generalizable Zero-Shot Speaker Adaptive Speech Synthesis with Disentangled Representations. Wenbin Wang, Yang Song, Sanjay Jha
2023	Generating Multilingual Gender-Ambiguous Text-to-Speech Voices. Konstantinos Markopoulos, Georgia Maniati, Georgios Vamvoukakis, Nikolaos Ellinas, Georgios Vardaxoglou, Panos Kakoulidis, Junkwang Oh, Gunu Jho, Inchul Hwang, Aimilios Chalamandaris, Pirros Tsiakoulis, Spyros Raptis
2023	Generating high-resolution 3D real-time MRI of the vocal tract. Martin Strauch, Antoine Serrurier
2023	Gesper: A Restoration-Enhancement Framework for General Speech Reconstruction. WenZhe Liu, Yupeng Shi, Jun Chen, Wei Rao, Shulin He, Andong Li, Yannan Wang, Zhiyong Wu
2023	GhostRNN: Reducing State Redundancy in RNN with Cheap Operations. Hang Zhou, Xiaoxu Zheng, Yunhe Wang, Michael Bi Mi, Deyi Xiong, Kai Han
2023	GhostT5: Generate More Features with Cheap Operations to Improve Textless Spoken Question Answering. Xuxin Cheng, Zhihong Zhu, Ziyu Yao, Hongxiang Li, Yaowei Li, Yuexian Zou
2023	GigaST: A 10, 000-hour Pseudo Speech Translation Corpus. Rong Ye, Chengqi Zhao, Tom Ko, Chutong Meng, Tao Wang, Mingxuan Wang, Jun Cao
2023	Glottal source analysis of voice deficits in basal ganglia dysfunction: evidence from de novo Parkinson's disease and Huntington's disease. Michal Novotný, Tereza Tykalová, Michal Simek, Tomás Kouba, Jan Rusz
2023	Group GMM-ResNet for Detection of Synthetic Speech Attacks. Zhenchun Lei, Yan Wen, Yingen Yang, Changhong Liu, Minglei Ma
2023	HABLA: A Dataset of Latin American Spanish Accents for Voice Anti-spoofing. Pablo Andrés Tamayo Flórez, Rubén Manrique, Bernardo Pereira Nunes
2023	HAD-ANC: A Hybrid System Comprising an Adaptive Filter and Deep Neural Networks for Active Noise Control. JungPhil Park, Jeong-Hwan Choi, Yungyeo Kim, Joon-Hyuk Chang
2023	HD-DEMUCS: General Speech Restoration with Heterogeneous Decoders. Doyeon Kim, Soo-Whan Chung, Hyewon Han, Youna Ji, Hong-Goo Kang
2023	HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation. Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur
2023	Handling the Alignment for Wake Word Detection: A Comparison Between Alignment-Based, Alignment-Free and Hybrid Approaches. Vinicius Ribeiro, Yiteng Huang, Yuan Shangguan, Zhaojun Yang, Li Wan, Ming Sun
2023	Harmonic enhancement using learnable comb filter for light-weight full-band speech enhancement model. Xiaohuai Le, Tong Lei, Li Chen, Yiqing Guo, Chao He, Cheng Chen, Xianjun Xia, Hua Gao, Yijian Xiao, Piao Ding, Shenyi Song, Jing Lu
2023	Head movements in two- and four-person interactive conversational tasks in noisy and moderately reverberant conditions. Alan Archer-Boyd, Rainer Martin
2023	Hearing Loss Affects Emotion Perception in Older Adults: Evidence from a Prosody-Semantics Stroop Task. Yingyang Wang, Min Xu, Jing Shao, Lan Wang, Nan Yan
2023	HierVST: Hierarchical Adaptive Zero-shot Voice Style Transfer. Sang-Hoon Lee, Ha-Yeong Choi, Hyung-Seok Oh, Seong-Whan Lee
2023	Hierarchical Timbre-Cadence Speaker Encoder for Zero-shot Speech Synthesis. Joun Yeop Lee, Jae-Sung Bae, Seongkyu Mun, Jihwan Lee, Ji-Hyun Lee, Hoon-Young Cho, Chanwoo Kim
2023	High Fidelity Speech Enhancement with Band-split RNN. Jianwei Yu, Hangting Chen, Yi Luo, Rongzhi Gu, Chao Weng
2023	High-Quality Automatic Voice Over with Accurate Alignment: Supervision through Self-Supervised Discrete Speech Units. Junchen Lu, Berrak Sisman, Mingyang Zhang, Haizhou Li
2023	How ChatGPT is Robust for Spoken Language Understanding? Guangpeng Li, Lu Chen, Kai Yu
2023	How Does Pretraining Improve Discourse-Aware Translation? Zhihong Huang, Longyue Wang, Siyou Liu, Derek F. Wong
2023	How Generative Spoken Language Modeling Encodes Noisy Speech: Investigation from Phonetics to Syntactics. Joonyong Park, Shinnosuke Takamichi, Tomohiko Nakamura, Kentaro Seki, Detai Xin, Hiroshi Saruwatari
2023	How to (Virtually) Train Your Speaker Localizer. Prerak Srivastava, Antoine Deleforge, Archontis Politis, Emmanuel Vincent
2023	How to Construct Perfect and Worse-than-Coin-Flip Spoofing Countermeasures: A Word of Warning on Shortcut Learning. Hye-jin Shim, Rosa González Hautamäki, Md. Sahidullah, Tomi Kinnunen
2023	How to Estimate Model Transferability of Pre-Trained Speech Models? Zih-Ching Chen, Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Shuo-Yiin Chang, Rohit Prabhavalkar, Hung-yi Lee, Tara N. Sainath
2023	Human Transcription Quality Improvement. Jian Gao, Hanbo Sun, Cheng Cao, Zheng Du
2023	HumanDiffusion: diffusion model using perceptual gradients. Yota Ueda, Shinnosuke Takamichi, Yuki Saito, Norihiro Takamune, Hiroshi Saruwatari
2023	Hybrid AHS: A Hybrid of Kalman Filter and Deep Learning for Acoustic Howling Suppression. Hao Zhang, Meng Yu, Yuzhong Wu, Tao Yu, Dong Yu
2023	Hybrid Dataset for Speech Emotion Recognition in Russian Language. Vladimir Kondratenko, Nikolay Karpov, Artem Sokolov, Nikita Savushkin, Oleg Kutuzov, Fyodor Minkin
2023	Hybrid Silent Speech Interface Through Fusion of Electroencephalography and Electromyography. Huiyan Li, Mingyi Wang, Han Gao, Shuo Zhao, Guang Li, You Wang
2023	Hyper-parameter Adaptation of Conformer ASR Systems for Elderly and Dysarthric Speech Recognition. Tianzi Wang, Shoukang Hu, Jiajun Deng, Zengrui Jin, Mengzhe Geng, Yi Wang, Helen Meng, Xunying Liu
2023	HyperConformer: Multi-head HyperMixer for Efficient Speech Recognition. Florian Mai, Juan Zuluaga-Gomez, Titouan Parcollet, Petr Motlícek
2023	I Learned Error, I Can Fix It! : A Detector-Corrector Structure for ASR Error Calibration. Heuiyeen Yeen, Minju Kim, Myoung-Wan Koo
2023	ITALIC: An Italian Intent Classification Dataset. Alkis Koudounas, Moreno La Quatra, Lorenzo Vaiani, Luca Colomba, Giuseppe Attanasio, Eliana Pastor, Luca Cagliero, Elena Baralis
2023	Identifying Stable Sections for Formant Frequency Extraction of French Nasal Vowels Based on Difference Thresholds. Hye-Sook Park, Sunhee Kim
2023	Image-driven Audio-visual Universal Source Separation. Chenxing Li, Ye Bai, Yang Wang, Feng Deng, Yuanyuan Zhao, Zhuo Zhang, Xiaorui Wang
2023	Impact of Residual Noise and Artifacts in Speech Enhancement Errors on Intelligibility of Human and Machine. Shoko Araki, Ayako Yamamoto, Tsubasa Ochiai, Kenichi Arai, Atsunori Ogawa, Tomohiro Nakatani, Toshio Irino
2023	Implementing Contextual Biasing in GPU Decoder for Online ASR. Iuliia Nigmatulina, Srikanth R. Madikeri, Esaú Villatoro-Tello, Petr Motlícek, Juan Zuluaga-Gomez, Karthik Pandia, Aravind Ganapathiraju
2023	Implicit phonetic information modeling for speech emotion recognition. Tilak Purohit, Bogdan Vlasenko, Mathew Magimai-Doss
2023	Improved Contextualized Speech Representations for Tonal Analysis. Jiahong Yuan, Xingyu Cai, Kenneth Church
2023	Improved DeepFake Detection Using Whisper Features. Piotr Kawa, Marcin Plata, Michal Czuba, Piotr Szymanski, Piotr Syga
2023	Improved Training for End-to-End Streaming Automatic Speech Recognition Model with Punctuation. Hanbyul Kim, Seunghyun Seo, Lukas Lee, Seolki Baek
2023	Improving Audio-Text Retrieval via Hierarchical Cross-Modal Interaction and Auxiliary Captions. Yifei Xin, Yuexian Zou
2023	Improving Bilingual TTS Using Language And Phonology Embedding With Embedding Strength Modulator. Fengyu Yang, Jian Luan, Meng Meng, Yujun Wang
2023	Improving Code-Switching and Name Entity Recognition in ASR with Speech Editing based Data Augmentation. Zheng Liang, Zheshu Song, Ziyang Ma, Chenpeng Du, Kai Yu, Xie Chen
2023	Improving End-to-End Modeling For Mandarin-English Code-Switching Using Lightweight Switch-Routing Mixture-of-Experts. Fengyun Tan, Chaofeng Feng, Tao Wei, Shuai Gong, Jinqiang Leng, Wei Chu, Jun Ma, Shaojun Wang, Jing Xiao
2023	Improving End-to-End Neural Diarization Using Conversational Summary Representations. Samuel J. Broughton, Lahiru Samarakoon
2023	Improving End-to-End SLU performance with Prosodic Attention and Distillation. Shangeth Rajaa
2023	Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition. Xianzhao Chen, Yist Y. Lin, Kang Wang, Yi He, Zejun Ma
2023	Improving Generalization Ability of Countermeasures for New Mismatch Scenario by Combining Multiple Advanced Regularization Terms. Chang Zeng, Xin Wang, Xiaoxiao Miao, Erica Cooper, Junichi Yamagishi
2023	Improving Isochronous Machine Translation with Target Factors and Auxiliary Counters. Proyag Pal, Brian Thompson, Yogesh Virkar, Prashant Mathur, Alexandra Chronopoulou, Marcello Federico
2023	Improving Joint Speech and Emotion Recognition Using Global Style Tokens. Jehyun Kyung, Ju-Seok Seong, Jeong-Hwan Choi, Ye-Rin Jeoung, Joon-Hyuk Chang
2023	Improving Joint Speech-Text Representations Without Alignment. Cal Peyser, Zhong Meng, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho, Ke Hu
2023	Improving Label Assignments Learning by Dynamic Sample Dropout Combined with Layer-wise Optimization in Speech Separation. Chenyang Gao, Yue Gu, Ivan Marsic
2023	Improving RNN Transducer Acoustic Models for English Conversational Speech Recognition. Xiaodong Cui, George Saon, Brian Kingsbury
2023	Improving RNN-Transducers with Acoustic LookAhead. Vinit S. Unni, Ashish R. Mittal, Preethi Jyothi, Sunita Sarawagi
2023	Improving Small Footprint Few-shot Keyword Spotting with Supervision on Auxiliary Data. Seunghan Yang, Byeonggeun Kim, Kyuhong Shim, Simyoung Chang
2023	Improving Speaker Verification with Self-Pretrained Transformer Models. Junyi Peng, Oldrich Plchot, Themos Stafylakis, Ladislav Mosner, Lukás Burget, Jan Cernocký
2023	Improving Textless Spoken Language Understanding with Discrete Units as Intermediate Target. Guan-Wei Wu, Guan-Ting Lin, Shang-wen Li, Hung-yi Lee
2023	Improving Under-Resourced Code-Switched Speech Recognition: Large Pre-trained Models or Architectural Interventions. Joshua Jansen van Vüren, Thomas Niesler
2023	Improving WaveRNN with Heuristic Dynamic Blending for Fast and High-Quality GPU Vocoding. Muyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai
2023	Improving Zero-shot Cross-domain Slot Filling via Transformer-based Slot Semantics Fusion. Yuhang Li, Xiao Wei, Yuke Si, Longbiao Wang, Xiaobao Wang, Jianwu Dang
2023	Improving grapheme-to-phoneme conversion by learning pronunciations from speech recordings. Manuel Sam Ribeiro, Giulia Comini, Jaime Lorenzo-Trueba
2023	Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning. Sara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima
2023	Improving the response timing estimation for spoken dialogue systems by reducing the effect of speech recognition delay. Jin Sakuma, Shinya Fujie, Huaibo Zhao, Tetsunori Kobayashi
2023	Improving training datasets for resource-constrained speaker recognition neural networks. Pierre-Michel Bousquet, Mickael Rouvier
2023	Improving wav2vec2-based Spoken Language Identification by Learning Phonological Features. Mostafa Shahin, Zheng Nan, Vidhyasaharan Sethu, Beena Ahmed
2023	Incorporating L2 Phonemes Using Articulatory Features for Robust Speech Recognition. Jisung Wang, Haram Lee, Myungwoo Oh
2023	Incorporating Ultrasound Tongue Images for Audio-Visual Speech Enhancement through Knowledge Distillation. Rui-Chen Zheng, Yang Ai, Zhen-Hua Ling
2023	Increasing aspiration of word-medial fortis plosives in Swiss Standard German. Franka Zebe
2023	Incremental Blockwise Beam Search for Simultaneous Speech Translation with Controllable Quality-Latency Tradeoff. Peter Polák, Brian Yan, Shinji Watanabe, Alex Waibel, Ondrej Bojar
2023	Influence of Personal Traits on Impressions of One's Own Voice. Hikaru Yanagida, Yusuke Ijima, Naohiro Tawara
2023	Influence of Utterance and Speaker Characteristics on the Classification of Children with Cleft Lip and Palate. Ilja Baumann, Dominik Wagner, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet
2023	Information Magnitude Based Dynamic Sub-sampling for Speech-to-text. Yuhao Zhang, Chenghao Gao, Kaiqi Kou, Chen Xu, Tong Xiao, Jingbo Zhu
2023	Insights into end-to-end audio-to-score transcription with real recordings: A case study with saxophone works. Juan Carlos Martinez-Sevilla, María Alfaro-Contreras, Jose J. Valero-Mas, Jorge Calvo-Zaragoza
2023	Instance-based Temporal Normalization for Speaker Verification. Thanathai Lertpetchpun, Ekapol Chuangsuwanich
2023	Integrated and Enhanced Pipeline System to Support Spoken Language Analytics for Screening Neurocognitive Disorders. Helen Meng, Brian Mak, Man-Wai Mak, Helene H. Fung, Xianmin Gong, Timothy C. Y. Kwok, Xunying Liu, Vincent C. T. Mok, Patrick C. M. Wong, Jean Woo, Xixin Wu, Ka Ho Wong, Sean Shensheng Xu, Naijun Zheng, Ranzo Huang, Jiawen Kang, Xiaoquan Ke, Junan Li, Jinchao Li, Yi Wang
2023	Integrating Emotion Recognition with Speech Recognition and Speaker Diarisation for Conversations. Wen Wu, Chao Zhang, Philip C. Woodland
2023	Integrating Pretrained ASR and LM to Perform Sequence Generation for Spoken Language Understanding. Siddhant Arora, Hayato Futami, Yosuke Kashiwagi, Emiru Tsunoo, Brian Yan, Shinji Watanabe
2023	Integration of Frame- and Label-synchronous Beam Search for Streaming Encoder-decoder Speech Recognition. Emiru Tsunoo, Hayato Futami, Yosuke Kashiwagi, Siddhant Arora, Shinji Watanabe
2023	Intelligible Lip-to-Speech Synthesis with Speech Units. Jeongsoo Choi, Minsu Kim, Yong Man Ro
2023	Inter-connection: Effective Connection between Pre-trained Encoder and Decoder for Speech Translation. Yuta Nishikawa, Satoshi Nakamura
2023	InterFormer: Interactive Local and Global Features Fusion for Automatic Speech Recognition. Zhi-Hao Lai, Tian-Hao Zhang, Qi Liu, Xinyuan Qian, Li-Fang Wei, Feng Chen, Song-Lu Chen, Xu-Cheng Yin
2023	Interpretable Latent Space Using Space-Filling Curves for Phonetic Analysis in Voice Conversion. Mohammad Hassan Vali, Tom Bäckström
2023	Interpretable Style Transfer for Text-to-Speech with ControlVAE and Diffusion Bridge. Wenhao Guan, Tao Li, Yishuang Li, Hukai Huang, Qingyang Hong, Lin Li
2023	Intonation Control for Neural Text-to-Speech Synthesis with Polynomial Models of F0. Niamh Corkey, Johannah O'Mahony, Simon King
2023	Intra-ensemble: A New Method for Combining Intermediate Outputs in Transformer-based Automatic Speech Recognition. Do-Hee Kim, Ji-Eun Choi, Joon-Hyuk Chang
2023	Introducing Self-Supervised Phonetic Information for Text-Independent Speaker Verification. Ziyang Zhang, Wu Guo, Bin Gu
2023	Investigating Acoustic Cues for Multilingual Abuse Detection. Yash Thakran, Vinayak Abrol
2023	Investigating Pre-trained Audio Encoders in the Low-Resource Condition. Hao Yang, Jinming Zhao, Gholamreza Haffari, Ehsan Shareghi
2023	Investigating Range-Equalizing Bias in Mean Opinion Score Ratings of Synthesized Speech. Erica Cooper, Junichi Yamagishi
2023	Investigating Reproducibility at Interspeech Conferences: A Longitudinal and Comparative Perspective. Mohammad Arvan, A. Seza Dogruöz, Natalie Parde
2023	Investigating model performance in language identification: beyond simple error statistics. Suzy J. Styles, Yi Han Victoria Chua, Fei Ting Woon, Hexin Liu, Leibny Paola García, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels
2023	Investigating the Perception Production Link through Perceptual Adaptation and Phonetic Convergence. Lena-Marie Huttner, Noël Nguyen, Martin J. Pickering
2023	Investigating the Syntax-Discourse Interface in the Phonetic Implementation of Discourse Markers. Mathilde Hutin, Liesbeth Degand, Marc Allassonnière-Tang
2023	Investigating the Utility of Synthetic Data for Doctor-Patient Conversation Summarization. Siyuan Chen, Colin A. Grambow, Mojtaba Kadkhodaie Elyaderani, Alireza Sadeghi, Federico Fancellu, Thomas Schaaf
2023	Investigating the cortical tracking of speech and music with sung speech. Giorgia Cantisani, Amirhossein Chalehchaleh, Giovanni M. Di Liberto, Shihab A. Shamma
2023	Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding. Sanjana Sankar, Denis Beautemps, Frédéric Elisei, Olivier Perrotin, Thomas Hueber
2023	Investigating wav2vec2 context representations and the effects of fine-tuning, a case-study of a Finnish model. Tamás Grósz, Yaroslav Getman, Ragheb Al-Ghezi, Aku Rouhe, Mikko Kurimo
2023	Investigation of Music Emotion Recognition Based on Segmented Semi-Supervised Learning. Yifu Sun, Xulong Zhang, Jianzong Wang, Ning Cheng, Kaiyu Hu, Jing Xiao
2023	Investigation of Training Mute-Expressive End-to-End Speech Separation Networks for an Unknown Number of Speakers. Younggwan Kim, Hyungjun Lim, Kiho Yeom, Eunjoo Seo, Hoodong Lee, Stanley Jungkyu Choi, Honglak Lee
2023	Iterative autoregression: a novel trick to improve your low-latency speech enhancement model. Pavel Andreev, Nicholas Babaev, Azat Saginbaev, Ivan Shchekotov, Aibek Alanov
2023	Iteratively Improving Speech Recognition and Voice Conversion. Mayank Kumar Singh, Naoya Takahashi, Naoyuki Onoe
2023	J-ToneNet: A Transformer-based Encoding Network for Improving Tone Classification in Continuous Speech via F0 Sequences. Yi-Fen Liu, Xiang-Li Lu
2023	JAMFN: Joint Attention Multi-Scale Fusion Network for Depression Detection. Li Zhou, Zhenyu Liu, Zixuan Shangguan, Xiaoyan Yuan, Yutong Li, Bin Hu
2023	Joint Autoregressive Modeling of End-to-End Multi-Talker Overlapped Speech Recognition and Utterance-level Timestamp Prediction. Naoki Makishima, Keita Suzuki, Satoshi Suzuki, Atsushi Ando, Ryo Masumura
2023	Joint Blind Source Separation and Dereverberation for Automatic Speech Recognition using Delayed-Subsource MNMF with Localization Prior. Mieszko Fras, Marcin Witkowski, Konrad Kowalczyk
2023	Joint Instance Reconstruction and Feature Subspace Alignment for Cross-Domain Speech Emotion Recognition. Keke Zhao, Peng Song, Shaokai Li, Wenming Zheng
2023	Joint Learning Feature and Model Adaptation for Unsupervised Acoustic Modelling of Child Speech. Richeng Duan
2023	Joint Prediction of Audio Event and Annoyance Rating in an Urban Soundscape by Hierarchical Graph Representation Learning. Yuanbo Hou, Siyang Song, Cheng Luo, Andrew Mitchell, Qiaoqiao Ren, Weicheng Xie, Jian Kang, Wenwu Wang, Dick Botteldooren
2023	Joint Speech Translation and Named Entity Recognition. Marco Gaido, Sara Papi, Matteo Negri, Marco Turchi
2023	Joint Time and Frequency Transformer for Chinese Opera Classification. Qiang Li, Beibei Hu
2023	Joint compensation of multi-talker noise and reverberation for speech enhancement with cochlear implants using one or more microphones. Clément Gaultier, Tobias Goehring
2023	Joint-Former: Jointly Regularized and Locally Down-sampled Conformer for Semi-supervised Sound Event Detection. Lijian Gao, Qirong Mao, Ming Dong
2023	Knowledge Distillation Approach for Efficient Internal Language Model Estimation. Zhipeng Chen, Haihua Xu, Yerbolat Khassanov, Yi He, Lu Lu, Zejun Ma, Ji Wu
2023	Knowledge Distillation for Neural Transducer-based Target-Speaker ASR: Exploiting Parallel Mixture/Single-Talker Speech Data. Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takanori Ashihara, Kohei Matsuura, Tomohiro Tanaka, Ryo Masumura, Atsunori Ogawa, Taichi Asami
2023	Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer. Kyuhong Shim, Jinkyu Lee, Simyoung Chang, Kyuwoong Hwang
2023	Knowledge Distillation on Joint Task End-to-End Speech Translation. Khandokar Md. Nayem, Ran Xue, Ching-Yun Chang, Akshaya Vishnu Kudlu Shanbhogue
2023	Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation. Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
2023	Knowledge-Retrieval Task-Oriented Dialog Systems with Semi-Supervision. Yucheng Cai, Hong Liu, Zhijian Ou, Yi Huang, Junlan Feng
2023	L2-Mandarin regional accent variability during Mandarin tone-word training facilitates English listeners' subsequent tone categorizations. Yanping Li, Michael D. Tyler, Denis Burnham, Catherine T. Best
2023	LABERT: A Combination of Local Aggregation and Self-Supervised Speech Representation Learning for Detecting Informative Hidden Units in Low-Resource ASR Systems. Kavan Fatehi, Ayse Küçükyilmaz
2023	LAMASSU: A Streaming Language-Agnostic Multilingual Speech Recognition and Translation Model Using Neural Transducers. Peidong Wang, Eric Sun, Jian Xue, Yu Wu, Long Zhou, Yashesh Gaur, Shujie Liu, Jinyu Li
2023	Label Aware Speech Representation Learning For Language Identification. Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, Ankur Bapna, Min Ma, Wei Han, Vera Axelrod, Partha Talukdar
2023	LanSER: Language-Model Supported Speech Emotion Recognition. Taesik Gong, Josh Belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou
2023	Language Agnostic Data-Driven Inverse Text Normalization. Szu-Jui Chen, Debjyoti Paul, Yutong Pang, Peng Su, Xuedong Zhang
2023	Language Identification Networks for Multilingual Everyday Recordings. Kiran Praveen, Balaji Radhakrishnan, Kamini Sabu, Abhishek Pandey, Mahaboob Ali Basha Shaik
2023	Language Model Personalization for Improved Touchscreen Typing. Jiban Adhikary, Keith Vertanen
2023	Language-Routing Mixture of Experts for Multilingual and Code-Switching Speech Recognition. Wenxuan Wang, Guodong Ma, Yuke Li, Binbin Du
2023	Language-Universal Phonetic Representation in Multilingual Speech Pretraining for Low-Resource Speech Recognition. Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang
2023	Language-specific Boundary Learning for Improving Mandarin-English Code-switching Speech Recognition. Zhiyun Fan, Linhao Dong, Chen Shen, Zhenlin Liang, Jun Zhang, Lu Lu, Zejun Ma
2023	Language-universal Phonetic Encoder for Low-resource Speech Recognition. Siyuan Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang
2023	Large Dataset Generation of Synchronized Music Audio and Lyrics at Scale using Teacher-Student Paradigm. Cristian Chivriga, Rinita Roy
2023	Large-Scale Automatic Audiobook Creation. Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus Weimer
2023	Latent Phrase Matching for Dysarthric Speech. Dianna Yee, Colin Lea, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, Leah Findlater
2023	Laughter Synthesis using Pseudo Phonetic Tokens with a Large-scale In-the-wild Laughter Corpus. Detai Xin, Shinnosuke Takamichi, Ai Morimatsu, Hiroshi Saruwatari
2023	Laughter in task-based settings: whom we talk to affects how, when, and how often we laugh. Catarina Branco, Isabel Trancoso, Paulo Infante, Khiet P. Truong
2023	Learning A Self-Supervised Domain-Invariant Feature Representation for Generalized Audio Deepfake Detection. Yuankun Xie, Haonan Cheng, Yutian Wang, Long Ye
2023	Learning Cross-lingual Mappings for Data Augmentation to Improve Low-Resource Speech Recognition. Muhammad Umar Farooq, Thomas Hain
2023	Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech. Shijun Wang, Jón Guðnason, Damian Borth
2023	Learning Local to Global Feature Aggregation for Speech Emotion Recognition. Cheng Lu, Hailun Lian, Wenming Zheng, Yuan Zong, Yan Zhao, Sunan Li
2023	Learning When to Speak: Latency and Quality Trade-offs for Simultaneous Speech-to-Speech Translation with Offline Models. Liam Dugan, Anshul Wadhawan, Kyle Spence, Chris Callison-Burch, Morgan McGuire, Victor B. Zordan
2023	Learning When to Trust Which Teacher for Weakly Supervised ASR. Aakriti Agrawal, Milind Rao, Anit Kumar Sahu, Gopinath Chennupati, Andreas Stolcke
2023	Learning to Compute the Articulatory Representations of Speech with the MIRRORNET. Yashish M. Siriwardena, Carol Y. Espy-Wilson, Shihab A. Shamma
2023	Let's Give a Voice to Conversational Agents in Virtual Reality. Michele Yin, Gabriel Roccabruna, Abhinav Azad, Giuseppe Riccardi
2023	Leveraging Cross-Utterance Context For ASR Decoding. Robert Flynn, Anton Ragni
2023	Leveraging Label Information for Multimodal Emotion Recognition. Peiying Wang, Sunlu Zeng, Junqing Chen, Fan Lu, Meng Chen, Youzheng Wu, Xiaodong He
2023	Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling. He Huang, Jagadeesh Balam, Boris Ginsburg
2023	Leveraging Semantic Information for Efficient Self-Supervised Emotion Recognition with Audio-Textual Distilled Models. Danilo de Oliveira, Navin Raj Prabhu, Timo Gerkmann
2023	Lexical Speaker Error Correction: Leveraging Language Models for Speaker Diarization Error Correction. Rohit Paturi, Sundararajan Srinivasan, Xiang Li
2023	Lexical Stress and Velar Palatalization in Italian: A spatio-temporal Interaction. Bowei Shao, Philipp Buech, Anne Hermes, Maria Giavazzi
2023	LibriTTS-R: A Restored Multi-Speaker Text-to-Speech Corpus. Yuma Koizumi, Heiga Zen, Shigeki Karita, Yifan Ding, Kohei Yatabe, Nobuyuki Morioka, Michiel Bacchiani, Yu Zhang, Wei Han, Ankur Bapna
2023	LightClone: Speaker-guided Parallel Subnet Selection for Few-shot Voice Cloning. Jie Wu, Jian Luan, Yujun Wang
2023	LightVoc: An Upsampling-Free GAN Vocoder Based On Conformer And Inverse Short-time Fourier Transform. Dinh Son Dang, Tung Lam Nguyen, Bao Thang Ta, Tien Thanh Nguyen, Thi Ngoc Anh Nguyen, Dang Linh Le, Nhat Minh Le, Van Hai Do
2023	Lightweight and Efficient Spoken Language Identification of Long-form Audio. Winstead Zhu, Md. Iftekhar Tanveer, Yang Janet Liu, Seye Ojumu, Rosie Jones
2023	Listener sensitivity to deviating obstruents in WaveNet. Ayushi Pandey, Jens Edlund, Sébastien Le Maguer, Naomi Harte
2023	Listening To Silences In Contact Center Conversations Using Textual Cues. Digvijay Ingle, Ayush Kumar, Jithendra Vepa
2023	Locate and Beamform: Two-dimensional Locating All-neural Beamformer for Multi-channel Speech Separation. Yanjie Fu, Meng Ge, Honglong Wang, Nan Li, Haoran Yin, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Chengyun Deng, Fei Wang
2023	Lossless 4-bit Quantization of Architecture Compressed Conformer ASR Systems on the 300-hr Switchboard Corpus. Zhaoqing Li, Tianzi Wang, Jiajun Deng, Junhao Xu, Shoukang Hu, Xunying Liu
2023	Low-Resource Cross-Lingual Adaptive Training for Nigerian Pidgin. Pin-Jie Lin, Muhammed Saeed, Ernie Chang, Merel C. J. Scholman
2023	Low-complexity Broadband Beampattern Synthesis using Array Response Control. Jiayi Xu, Jian Li, Weixin Meng, Xiaodong Li, Chengshi Zheng
2023	MAVD: The First Open Large-Scale Mandarin Audio-Visual Dataset with Depth Information. Jianrong Wang, Yuchen Huo, Li Liu, Tianyi Xu, Qi Li, Sen Li
2023	MC-SpEx: Towards Effective Speaker Extraction with Multi-Scale Interfusion and Conditional Speaker Modulation. Jun Chen, Wei Rao, Zilin Wang, Jiuxin Lin, Yukai Ju, Shulin He, Yannan Wang, Zhiyong Wu
2023	MCR-Data2vec 2.0: Improving Self-supervised Speech Pre-training via Model-level Consistency Regularization. Ji Won Yoon, Seok Min Kim, Nam Soo Kim
2023	MD3: The Multi-Dialect Dataset of Dialogues. Jacob Eisenstein, Vinodkumar Prabhakaran, Clara Rivera, Dorottya Demszky, Devyani Sharma
2023	MEG Encoding using Word Context Semantics in Listening Stories. Subba Reddy Oota, Nathan Trouvain, Frédéric Alexandre, Xavier Hinaut
2023	MERLIon CCS Challenge: A English-Mandarin code-switching child-directed speech corpus for language identification and diarization. Yi Han Victoria Chua, Hexin Liu, Leibny Paola García, Fei Ting Woon, Jinyi Wong, Xiangyu Zhang, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels, Suzy J. Styles
2023	MF-PAM: Accurate Pitch Estimation through Periodicity Analysis and Multi-level Feature Fusion. Woo-Jin Chung, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang
2023	MFT-CRN: Multi-scale Fourier Transform for Monaural Speech Enhancement. Yulong Wang, Xueliang Zhang
2023	ML-SUPERB: Multilingual Speech Universal PERformance Benchmark. Jiatong Shi, Dan Berrebbi, William Chen, En-Pei Hu, Wei-Ping Huang, Ho-Lam Chung, Xuankai Chang, Shang-wen Li, Abdelrahman Mohamed, Hung-yi Lee, Shinji Watanabe
2023	MMER: Multimodal Multi-task Learning for Speech Emotion Recognition. Sreyan Ghosh, Utkarsh Tyagi, S. Ramaneswaran, Harshvardhan Srivastava, Dinesh Manocha
2023	MMLung: Moving Closer to Practical Lung Health Estimation using Smartphones. Mohammed Mosuily, Lindsay Welch, Jagmohan Chauhan
2023	MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for speech recognition. Xiaohuan Zhou, Jiaming Wang, Zeyu Cui, Shiliang Zhang, Zhijie Yan, Jingren Zhou, Chang Zhou
2023	MOCKS 1.0: Multilingual Open Custom Keyword Spotting Testset. Mikolaj Pudo, Mateusz Wosik, Adam Cieslak, Justyna Krzywdziak, Bozena Lukasiak, Artur Janicki
2023	MOS vs. AB: Evaluating Text-to-Speech Systems Reliably Using Clustered Standard Errors. Joshua Camp, Tom Kenter, Lev Finkelstein, Rob Clark
2023	MOSLight: A Lightweight Data-Efficient System for Non-Intrusive Speech Quality Assessment. Zitong Li, Wei Li
2023	MP-SENet: A Speech Enhancement Model with Parallel Denoising of Magnitude and Phase Spectra. Ye-Xin Lu, Yang Ai, Zhen-Hua Ling
2023	MSAF: A Multiple Self-Attention Field Method for Speech Enhancement. Minghang Chu, Jing Wang, Yaoyao Ma, Zhiwei Fan, Mengtao Yang, Chao Xu, Zhi Tao, Di Wu
2023	MT-SLVR: Multi-Task Self-Supervised Learning for Transformation In(Variant) Representations. Calum Heggan, Timothy M. Hospedales, Sam Budgett, Mehrdad Yaghoobi
2023	MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. Ziyang Ma, Zhisheng Zheng, Changli Tang, Yujin Wang, Xie Chen
2023	MTANet: Multi-band Time-frequency Attention Network for Singing Melody Extraction from Polyphonic Music. Yuan Gao, Ying Hu, Liusong Wang, Hao Huang, Liang He
2023	Malafide: a novel adversarial convolutive noise attack against deepfake and spoofing detection systems. Michele Panariello, Wanying Ge, Hemlata Tak, Massimiliano Todisco, Nicholas W. D. Evans
2023	Mandarin Electrolaryngeal Speech Voice Conversion using Cross-domain Features. Hsin-Hao Chen, Yung-Lun Chien, Ming-Chi Yen, Shu-Wei Tsai, Tai-Shih Chi, Hsin-Min Wang, Yu Tsao
2023	Mapping Phonemes to Acoustic Symbols and Codes Using Synchrony in Speech Modulation Vectors Estimated by the Travellingwave Filter Bank. Ashwin Rao
2023	Masked Audio Modeling with CLAP and Multi-Objective Learning. Yifei Xin, Xiulian Peng, Yan Lu
2023	Masked Modeling Duo for Speech: Specializing General-Purpose Audio Representation to Speech using Denoising Distillation. Daisuke Niizumi, Daiki Takeuchi, Yasunori Ohishi, Noboru Harada, Kunio Kashino
2023	MaskedSpeech: Context-aware Speech Synthesis with Masking Strategy. Ya-Jie Zhang, Wei Song, Yanghao Yue, Zhengchen Zhang, Youzheng Wu, Xiaodong He
2023	Masking Kernel for Learning Energy-Efficient Representations for Speaker Recognition and Mobile Health. Apiwat Ditthapron, Emmanuel O. Agu, Adam C. Lammert
2023	Matching Acoustic and Perceptual Measures of Phonation Assessment in Disordered Speech - A Case Study. Mélanie Jouaiti, Pippa Kirby, Ravi Vaidyanathan
2023	Matching Latent Encoding for Audio-Text based Keyword Spotting. Kumari Nishu, Minsik Cho, Devang Naik
2023	Measuring Language Development From Child-centered Recordings. Yaya Sy, William N. Havard, Marvin Lavechin, Emmanuel Dupoux, Alejandrina Cristià
2023	Measuring Phonological Precision in Children with Cleft Lip and Palate. Tomás Arias-Vergara, Elizabeth Londoño-Mora, Paula Andrea Pérez-Toro, Maria Schuster, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas Maier
2023	Measuring prosody in child speech using SoapBox Fluency API. Mauro Nicolao, Brenda McGuirk, Declan Moore, Niall Mullally, Lora Lynn O'Mahony, Emma O'Neill, Amelia C. Kelly
2023	Memory Augmented Lookup Dictionary Based Language Modeling for Automatic Speech Recognition. Yukun Feng, Ming Tu, Rui Xia, Chuanzeng Huang, Yuxuan Wang
2023	Memory Network-Based End-To-End Neural ES-KMeans for Improved Word Segmentation. Yu Iwamoto, Takahiro Shinozaki
2023	Memory-augmented conformer for improved end-to-end long-form ASR. Carlos Carvalho, Alberto Abad
2023	Meta-domain Adversarial Contrastive Learning for Alleviating Individual Bias in Self-sentiment Predictions. Zhi Li, Ryu Takeda, Takahiro Hara
2023	MetricAug: A Distortion Metric-Lead Augmentation Strategy for Training Noise-Robust Speech Emotion Recognizer. Ya-Tse Wu, Chi-Chun Lee
2023	Mispronunciation detection and diagnosis model for tonal language, applied to Vietnamese. Tuong Tu Huu, Viet-Thanh Pham, Thi Thu Trang Nguyen, Thai Lai Dao
2023	Mitigating Catastrophic Forgetting for Few-Shot Spoken Word Classification Through Meta-Learning. Ruan van der Merwe, Herman Kamper
2023	Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction. Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok Kim, John B. Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D. Yoo
2023	Mix before Align: Towards Zero-shot Cross-lingual Sentiment Analysis via Soft-Mix and Multi-View Learning. Zhihong Zhu, Xuxin Cheng, Dongsheng Chen, Zhiqi Huang, Hongxiang Li, Yuexian Zou
2023	MixRep: Hidden Representation Mixup for Low-Resource Speech Recognition. Jiamin Xie, John H. L. Hansen
2023	Mixture Encoder for Joint Speech Separation and Recognition. Simon Berger, Peter Vieting, Christoph Böddeker, Ralf Schlüter, Reinhold Haeb-Umbach
2023	Mixture-of-Expert Conformer for Streaming Multilingual ASR. Ke Hu, Bo Li, Tara N. Sainath, Yu Zhang, Françoise Beaufays
2023	Modality Confidence Aware Training for Robust End-to-End Spoken Language Understanding. Suyoun Kim, Akshat Shrivastava, Duc Le, Ju Lin, Ozlem Kalinli, Michael L. Seltzer
2023	Model Compression for DNN-based Speaker Verification Using Weight Quantization. Jingyu Li, Wei Liu, Zhaoyang Zhang, Jiong Wang, Tan Lee
2023	Model-Internal Slot-triggered Biasing for Domain Expansion in Neural Transducer ASR Models. Yiting Lu, Philip Harding, Kanthashree Mysore Sathyendra, Sibo Tong, Xuandi Fu, Jing Liu, Feng-Ju Chang, Simon Wiesler, Grant P. Strimel
2023	Model-assisted Lexical Tone Evaluation of three-year-old Chinese-speaking Children by also Considering Segment Production. Shu-Chuan Tseng, Yi-Fen Liu, Xiang-Li Lu
2023	Modeling Dependent Structure for Utterances in ASR Evaluation. Zhe Liu, Fuchun Peng
2023	Modular Domain Adaptation for Conformer-Based Streaming ASR. Qiujia Li, Bo Li, Dongseong Hwang, Tara N. Sainath, Pedro Moreno Mengibar
2023	Modular Speech-to-Text Translation for Zero-Shot Cross-Modal Transfer. Paul-Ambroise Duquenne, Holger Schwenk, Benoît Sagot
2023	Monaural Speech Separation Method Based on Recurrent Attention with Parallel Branches. Xue Yang, Changchun Bao, Xu Zhang, Xianhong Chen
2023	Motor Control Similarity Between Speakers Saying "A Souk" Using Inverse Atlas Tongue Modeling. Ursa Maity, Fangxu Xing, Jerry L. Prince, Maureen Stone, Georges El Fakhri, Jonghye Woo, Sidney Fels
2023	MuAViC: A Multilingual Audio-Visual Corpus for Robust Speech Recognition and Robust Speech-to-Text Translation. Mohamed Anwar, Bowen Shi, Vedanuj Goswami, Wei-Ning Hsu, Juan Pino, Changhan Wang
2023	Multi-Channel Speech Separation with Cross-Attention and Beamforming. Ladislav Mosner, Oldrich Plchot, Junyi Peng, Lukás Burget, Jan Cernocký
2023	Multi-Dataset Co-Training with Sharpness-Aware Optimization for Audio Anti-spoofing. Hye-jin Shim, Jee-weon Jung, Tomi Kinnunen
2023	Multi-Head State Space Model for Speech Recognition. Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales
2023	Multi-Level Knowledge Distillation for Speech Emotion Recognition in Noisy Conditions. Yang Liu, Haoqin Sun, Geng Chen, Qingyue Wang, Zhen Zhao, Xugang Lu, Longbiao Wang
2023	Multi-Scale Attention for Audio Question Answering. Guangyao Li, Yixin Xu, Di Hu
2023	Multi-Scale Temporal Transformer For Speech Emotion Recognition. Zhipeng Li, Xiaofen Xing, Yuanbo Fang, Weibin Zhang, Hengsheng Fan, Xiangmin Xu
2023	Multi-Stream Extension of Variational Bayesian HMM Clustering (MS-VBx) for Combined End-to-End and Vector Clustering-based Diarization. Marc Delcroix, Naohiro Tawara, Mireia Díez, Federico Landini, Anna Silnova, Atsunori Ogawa, Tomohiro Nakatani, Lukás Burget, Shoko Araki
2023	Multi-View Frequency-Attention Alternative to CNN Frontends for Automatic Speech Recognition. Belen Alastruey, Lukas Drude, Jahn Heymann, Simon Wiesler
2023	Multi-channel multi-speaker transformer for speech recognition. Yifan Guo, Yao Tian, Hongbin Suo, Yulong Wan
2023	Multi-channel separation of dynamic speech and sound events. Takuya Fujimura, Robin Scheibler
2023	Multi-class Detection of Pathological Speech with Latent Features: How does it perform on unseen data? Dominik Wagner, Ilja Baumann, Franziska Braun, Sebastian P. Bayerl, Elmar Nöth, Korbinian Riedhammer, Tobias Bocklet
2023	Multi-input Multi-output Complex Spectral Mapping for Speaker Separation. Hassan Taherian, Ashutosh Pandey, Daniel Wong, Buye Xu, DeLiang Wang
2023	Multi-microphone Automatic Speech Segmentation in Meetings Based on Circular Harmonics Features. Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas
2023	Multi-mode Neural Speech Coding Based on Deep Generative Networks. Wei Xiao, WenZhe Liu, Meng Wang, Shan Yang, Yupeng Shi, Yuyong Kang, Dan Su, Shidong Shang, Dong Yu
2023	Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition. Xuefei Wang, Yanhua Long, Yijie Li, Haoran Wei
2023	Multi-resolution Approach to Identification of Spoken Languages and To Improve Overall Language Diarization System Using Whisper Model. Bhavik Vachhani, Dipesh K. Singh, Rustom Lawyer
2023	Multilingual Contextual Adapters To Improve Custom Word Recognition In Low-resource Languages. Devang Kulshreshtha, Saket Dingliwal, Brady Houston, Sravan Bodapati
2023	Multilingual Text-to-Speech Synthesis for Turkic Languages Using Transliteration. Rustem Yeshpanov, Saida Mussakhojayeva, Yerbolat Khassanov
2023	Multilingual context-based pronunciation learning for Text-to-Speech. Giulia Comini, Manuel Sam Ribeiro, Fan Yang, Heereen Shim, Jaime Lorenzo-Trueba
2023	Multimodal Assessment of Bulbar Amyotrophic Lateral Sclerosis (ALS) Using a Novel Remote Speech Assessment App. Leif E. R. Simmatis, Timothy Pommeé, Yana Yunusova
2023	Multimodal Locally Enhanced Transformer for Continuous Sign Language Recognition. Katerina Papadimitriou, Gerasimos Potamianos
2023	Multimodal Personality Traits Assessment (MuPTA) Corpus: The Impact of Spontaneous and Read Speech. Elena Ryumina, Dmitry Ryumin, Maxim Markitantov, Heysem Kaya, Alexey Karpov
2023	Multimodal Speech Recognition for Language-Guided Embodied Agents. Allen Chang, Xiaoyuan Zhu, Aarav Monga, Seoho Ahn, Tejas Srinivasan, Jesse Thomason
2023	Multimodal Turn-Taking Model Using Visual Cues for End-of-Utterance Prediction in Spoken Dialogue Systems. Fuma Kurata, Mao Saeki, Shinya Fujie, Yoichi Matsuyama
2023	Multiple Instance Learning for Inference of Child Attachment From Paralinguistic Aspects of Speech. Abeer A. N. Buker, Huda Alsofyani, Alessandro Vinciarelli
2023	Mutual Information-based Embedding Decoupling for Generalizable Speaker Verification. Jianchen Li, Jiqing Han, Shiwen Deng, Tieran Zheng, Yongjun He, Guibin Zheng
2023	My Vowels Matter: Formant Automation Tools for Diverse Child Speech. Hannah Valentine, Joel MacAuslan, Maria I. Grigos, Marisha Speights
2023	MyVoice: Arabic Speech Resource Collaboration Platform. Yousseif Elshahawy, Yassine El Kheir, Shammur Absar Chowdhury, Ahmed M. Ali
2023	N-Shot Benchmarking of Whisper on Diverse Arabic Speech Recognition. Bashar Talafha, Abdul Waheed, Muhammad Abdul-Mageed
2023	N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses and Constrained Decoding Space. Rao Ma, Mark J. F. Gales, Kate M. Knill, Mengjie Qian
2023	NEMA: An Ecologically Valid Tool for Assessing Hearing Devices, Advanced Algorithms, and Communication in Diverse Listening Environments. Nicky Chong-White, Arun Sebastian, Jorge Mejia
2023	Narrator or Character: Voice Modulation in an Expressive Multi-speaker TTS. Tankala Pavan Kalyan, Preeti Rao, Preethi Jyothi, Pushpak Bhattacharyya
2023	Nasal vowel production and grammatical processing in French-speaking children with cochlear implants and normal-hearing peers. Sophie Fagniart, Véronique Delvaux, Brigitte Charlier, Bernard Harmegnies, Anne Huberlant, Myriam Piccaluga, Kathy Huet
2023	NeMo Forced Aligner and its application to word alignment for subtitle generation. Elena Rastorgueva, Vitaly Lavrukhin, Boris Ginsburg
2023	Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition. Hao Yen, Pin-Jui Ku, Chao-Han Huck Yang, Hu Hu, Sabato Marco Siniscalchi, Pin-Yu Chen, Yu Tsao
2023	Neural Speech Synthesis with Enriched Phrase Boundaries. Marie Kunesová, Jindrich Matousek
2023	Nkululeko: Machine Learning Experiments on Speaker Characteristics Without Programming. Felix Burkhardt, Florian Eyben, Björn W. Schuller
2023	NoRefER: a Referenceless Quality Metric for Automatic Speech Recognition via Semi-Supervised Language Model Fine-Tuning with Contrastive Learning. Kamer Ali Yuksel, Thiago Castro Ferreira, Golara Javadi, Mohamed Al-Badrashiny, Ahmet Gunduz
2023	Node-weighted Graph Convolutional Network for Depression Detection in Transcribed Clinical Interviews. Sergio Burdisso, Esaú Villatoro-Tello, Srikanth R. Madikeri, Petr Motlícek
2023	Noise-Robust Bandwidth Expansion for 8K Speech Recordings. Yin-Tse Lin, Bo-Hao Su, Chi-Han Lin, Shih-Chan Kuo, Jyh-Shing Roger Jang, Chi-Chun Lee
2023	Non-uniform Speaker Disentanglement For Depression Detection From Raw Speech Signals. Jinhan Wang, Vijay Ravi, Abeer Alwan
2023	Nonbinary American English speakers encode gender in vowel acoustics. Maxwell Hope, Charlotte Ward, Jason Lilley
2023	NoreSpeech: Knowledge Distillation based Conditional Diffusion Model for Noise-robust Expressive TTS. Dongchao Yang, Songxiang Liu, Helin Wang, Jianwei Yu, Chao Weng, Yuexian Zou
2023	North Sámi Dialect Identification with Self-supervised Speech Models. Sofoklis Kakouros, Katri Hiovain-Asikainen
2023	O-1: Self-training with Oracle and 1-best Hypothesis. Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi
2023	OTF: Optimal Transport based Fusion of Supervised and Self-Supervised Learning Models for Automatic Speech Recognition. Li Fu, Siqi Li, Qingtao Li, Fangzhu Li, Liping Deng, Fan Lu, Meng Chen, Youzheng Wu, Xiaodong He
2023	Obstructive Sleep Apnea Detection using Pre-trained Speech Representations. Kaibo Zhang, Lili Cao, Yiming Ding, Yanru Li, Chao Zhang, Ji Wu, Demin Han
2023	Obstructive sleep apnea screening with breathing sounds and respiratory effort: a multimodal deep learning approach. Hector E. Romero, Ning Ma, Guy J. Brown, Sam Johnson
2023	On Monotonic Aggregation for Open-domain QA. Sang-eun Han, Yeonseok Jeong, Seung-won Hwang, Kyungjae Lee
2023	On Training a Neural Residual Acoustic Echo Suppressor for Improved ASR. Sankaran Panchapagesan, Turaj Zakizadeh Shabestary, Arun Narayanan
2023	On the (In)Efficiency of Acoustic Feature Extractors for Self-Supervised Speech Representation Learning. Titouan Parcollet, Shucong Zhang, Rogier van Dalen, Alberto Gil C. P. Ramos, Sourav Bhattacharya
2023	On the Benefits of Self-supervised Learned Speech Representations for Predicting Human Phonetic Misperceptions. Santiago Cuervo, Ricard Marxer
2023	On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion and Automatic Speech Recognition. Lokesh Bansal, S. Pavankumar Dubagunta, Malolan Chetlur, Pushpak Jagtap, Aravind Ganapathiraju
2023	On the N-gram Approximation of Pre-trained Language Models. Aravind Krishnan, Jesujoba O. Alabi, Dietrich Klakow
2023	On the Robustness of Arabic Speech Dialect Identification. Peter Sullivan, AbdelRahim A. Elmadany, Muhammad Abdul-Mageed
2023	On the Use of High Frequency Information for Voice Pathology Classification. David Martínez, Dayana Ribas, Eduardo Lleida
2023	On the robustness of wav2vec 2.0 based speaker recognition systems. Sergey Novoselov, Galina Lavrentyeva, Anastasia Avdeeva, Vladimir Volokhov, Nikita Khmelev, Artem Akulov, Polina Leonteva
2023	On-Device Constrained Self-Supervised Speech Representation Learning for Keyword Spotting via Knowledge Distillation. Gene-Ping Yang, Yue Gu, Qingming Tang, Dongsu Du, Yuzong Liu
2023	On-Device Speaker Anonymization of Acoustic Embeddings for ASR based on Flexible Location Gradient Reversal Layer. Md Asif Jalal, Pablo Peso Parada, Jisi Zhang, Mete Ozay, Karthikeyan Saravanan, Myoungji Han, Jungin Lee, Seokyeong Jung
2023	On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and Elderly Speech Recognition. Mengzhe Geng, Xurong Xie, Rongfeng Su, Jianwei Yu, Zengrui Jin, Tianzi Wang, Shujie Hu, Zi Ye, Helen Meng, Xunying Liu
2023	One-Step Knowledge Distillation and Fine-Tuning in Using Large Pre-Trained Self-Supervised Learning Models for Speaker Verification. Jungwoo Heo, Chan-yeong Lim, Ju-ho Kim, Hyun-seo Shin, Ha-Jin Yu
2023	Online Continual Learning in Keyword Spotting for Low-Resource Devices via Pooling High-Order Temporal Statistics. Umberto Michieli, Pablo Peso Parada, Mete Ozay
2023	Online Punctuation Restoration using ELECTRA Model for streaming ASR Systems. Martin Polácek, Petr Cerva, Jindrich Zdánský, Lenka Weingartová
2023	Ontology-aware Learning and Evaluation for Audio Tagging. Haohe Liu, Qiuqiang Kong, Xubo Liu, Xinhao Mei, Wenwu Wang, Mark D. Plumbley
2023	Opening or Closing? An Electroglottographic Analysis of Voiceless Coda Consonants in Australian English. Louise Ratko, Joshua Penney, Felicity Cox
2023	Optimal control of speech with context-dependent articulatory targets. Benjamin Elie, Juraj Simko, Alice Turk
2023	Ordered and Binary Speaker Embedding. Jiaying Wang, Xianglong Wang, Namin Wang, Lantian Li, Dong Wang
2023	Orthography-based Pronunciation Scoring for Better CAPT Feedback. Caitlin Richter, Ragnar Pálsson, Luke O'Brien, Kolbrún Friðriksdóttir, Branislav Bédi, Eydís Huld Magnúsdóttir, Jón Guðnason
2023	Outlier-aware Inlier Modeling and Multi-scale Scoring for Anomalous Sound Detection via Multitask Learning. Yucong Zhang, Hongbin Suo, Yulong Wan, Ming Li
2023	OverFlow: Putting flows on top of neural transducers for better TTS. Shivam Mehta, Ambika Kirkland, Harm Lameris, Jonas Beskow, Éva Székely, Gustav Eje Henter
2023	Overlap Aware Continuous Speech Separation without Permutation Invariant Training. Linfeng Yu, Wangyou Zhang, Chenda Li, Yanmin Qian
2023	P-vectors: A Parallel-coupled TDNN/Transformer Network for Speaker Verification. Xiyuan Wang, Fangyuan Wang, Bo Xu, Liang Xu, Jing Xiao
2023	PATCorrect: Non-autoregressive Phoneme-augmented Transformer for ASR Error Correction. Ziji Zhang, Zhehui Wang, Rajesh Kamma, Sharanya Eswaran, Narayanan Sadagopan
2023	PCNN: A Lightweight Parallel Conformer Neural Network for Efficient Monaural Speech Enhancement. Xinmeng Xu, Weiping Tu, Yuhong Yang
2023	PIAVE: A Pose-Invariant Audio-Visual Speaker Extraction Network. Qinghua Liu, Meng Ge, Zhizheng Wu, Haizhou Li
2023	PLCMOS - A Data-driven Non-intrusive Metric for The Evaluation of Packet Loss Concealment Algorithms. Lorenz Diener, Marju Purin, Sten Sootla, Ando Saabas, Robert Aichner, Ross Cutler
2023	Parameter Selection for Analyzing Conversations with Autism Spectrum Disorder. Tahiya Chowdhury, Verónica Romero, Amanda Stent
2023	Parameter-Efficient Learning for Text-to-Speech Accent Adaptation. Li-Jen Yang, Chao-Han Huck Yang, Jen-Tzung Chien
2023	Parameter-Efficient Low-Resource Dialogue State Tracking by Prompt Tuning. Mingyu Derek Ma, Jiun-Yu Kao, Shuyang Gao, Arpit Gupta, Di Jin, Tagyoung Chung, Nanyun Peng
2023	Parameter-efficient Dysarthric Speech Recognition Using Adapter Fusion and Householder Transformation. Jinzi Qi, Hugo Van hamme
2023	Pardon my disfluency: The impact of disfluency effects on the perception of speaker competence and confidence. Ambika Kirkland, Joakim Gustafson, Éva Székely
2023	Parsing dialog turns with prosodic features in English. Elizabeth Nielsen, Mark Steedman, Sharon Goldwater
2023	Patch-Mix Contrastive Learning with Audio Spectrogram Transformer on Respiratory Sound Classification. Sangmin Bae, June-Woo Kim, Won-Yang Cho, Hyerim Baek, Soyoun Son, Byungjo Lee, Changwan Ha, Kyongpil Tae, Sungnyun Kim, Se-Young Yun
2023	Perception of Incomplete Voicing Neutralization of Obstruents in Tohoku Japanese. Mafuyu Kitahara, Naoya Watabe, Hiroto Noguchi, Chuyu Huang, Ayako Hashimoto, Ai Mizoguchi
2023	Perceptual Improvement of Deep Neural Network (DNN) Speech Coder Using Parametric and Non-parametric Density Models. Joon Byun, Seungmin Shin, Jongmo Sung, Seungkwon Beack, Youngcheol Park
2023	Perceptual and Task-Oriented Assessment of a Semantic Metric for ASR Evaluation. Janine Rugayan, Giampiero Salvi, Torbjørn Svendsen
2023	Personal Primer Prototype 1: Invitation to Make Your Own Embooked Speech-Based Educational Artifact. Daniel Devatman Hromada, Hyungjoong Kim
2023	Personality-aware Training based Speaker Adaptation for End-to-end Speech Recognition. Yue Gu, Zhihao Du, Shiliang Zhang, Qian Chen, Jiqing Han
2023	Personalization for BERT-based Discriminative Speech Recognition Rescoring. Jari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
2023	Personalization for Robust Voice Pathology Detection in Sound Waves. Khanh-Tung Tran, Truong Hoang, Duy Khuong Nguyen, Hoang D. Nguyen, Xuan-Son Vu
2023	Personalized Acoustic Scene Classification in Ultra-low Power Embedded Devices Using Privacy-preserving Data Augmentation. Timm Koppelmann, Semih Agcaer, Rainer Martin
2023	Personalized Adaptation with Pre-trained Speech Encoders for Continuous Emotion Recognition. Minh Tran, Yufeng Yin, Mohammad Soleymani
2023	Personalized Dereverberation of Speech. Ruilin Xu, Gurunandan Krishnan, Changxi Zheng, Shree K. Nayar
2023	Personalized Predictive ASR for Latency Reduction in Voice Assistants. Andreas Schwarz, Di He, Maarten Van Segbroeck, Mohammed Hethnawi, Ariya Rastrow
2023	Phase perturbation improves channel robustness for speech spoofing countermeasures. Yongyi Zang, You Zhang, Zhiyao Duan
2023	PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined Keywords. Yong-Hyeok Lee, Namhyun Cho
2023	Phonemic competition in end-to-end ASR models. Louis ten Bosch, Martijn Bentum, Lou Boves
2023	Phonetic and Prosody-aware Self-supervised Learning Approach for Non-native Fluency Scoring. Kaiqi Fu, Shaojun Gao, Shuju Shi, Xiaohai Tian, Wei Li, Zejun Ma
2023	Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system. Li Li, Dongxing Xu, Haoran Wei, Yanhua Long
2023	Pitch Accent Variation and the Interpretation of Rising and Falling Intonation in American English. Thomas Sostarics, Jennifer Cole
2023	Pitch distributions in a very large corpus of spontaneous Finnish speech. Mietta Lennes, Minnaleena Toivola
2023	PoCaPNet: A Novel Approach for Surgical Phase Recognition Using Speech and X-Ray Images. Kubilay Can Demir, Tobias Weise, Matthias May, Axel Schmid, Andreas Maier, Seung Hee Yang
2023	Point to the Hidden: Exposing Speech Audio Splicing via Signal Pointer Nets. Denise Moussa, Germans Hirsch, Sebastian Wankerl, Christian Riess
2023	Powerset multi-class cross entropy loss for neural speaker diarization. Alexis Plaquet, Hervé Bredin
2023	Pragmatic Pertinence: A Learnable Confidence Metric to Assess the Subjective Quality of LM-Generated Text. Jerome R. Bellegarda
2023	Pre-Finetuning for Few-Shot Emotional Speech Recognition. Maximillian Chen, Zhou Yu
2023	Predicting Perceptual Centers Located at Vowel Onset in German Speech Using Long Short-Term Memory Networks. Felicia Schulz, Mirella De Sisto, M. Paula M. P. Roncaglia-Denissen, Peter Hendrix
2023	Prediction of the Gender-based Violence Victim Condition using Speech: What do Machine Learning Models rely on? Emma Reyner-Fuentes, Esther Rituerto-González, Isabel Trancoso, Carmen Peláez-Moreno
2023	Preference Learning Labels by Anchoring on Consecutive Annotations. Abinay Reddy Naini, Ali N. Salman, Carlos Busso
2023	Preference-based training framework for automatic speech quality assessment using deep neural network. Cheng-Hung Hu, Yusuke Yasuda, Tomoki Toda
2023	Prefix Search Decoding for RNN Transducers. Kiran Praveen, Advait Vinay Dhopeshwarkar, Abhishek Pandey, Balaji Radhakrishnan
2023	Prior-free Guided TTS: An Improved and Efficient Diffusion-based Text-Guided Speech Synthesis. Won-Gook Choi, So-Jeong Kim, Tae-Ho Kim, Joon-Hyuk Chang
2023	Privacy Risks in Speech Emotion Recognition: A Systematic Study on Gender Inference Attack. Basmah Alsenani, Tanaya Guha, Alessandro Vinciarelli
2023	Privacy-preserving Representation Learning for Speech Understanding. Minh Tran, Mohammad Soleymani
2023	Probing Self-supervised Speech Models for Phonetic and Phonemic Information: A Case Study in Aspiration. Kinan Martin, Jon Gauthier, Canaan Breiss, Roger Levy
2023	Probing Speech Quality Information in ASR Systems. Bao Thang Ta, Minh Tu Le, Nhat Minh Le, Van Hai Do
2023	Progress and Prospects for Spoken Language Technology: Results from Five Sexennial Surveys. Roger K. Moore, Ricard Marxer
2023	Promoting Mental Self-Disclosure in a Spoken Dialogue System. Mahdin Rohmatillah, Bobbi Aditya, Li-Jen Yang, Bryan Gautama Ngo, Willianto Sulaiman, Jen-Tzung Chien
2023	Prompt Guided Copy Mechanism for Conversational Question Answering. Yong Zhang, Zhitao Li, Jianzong Wang, Yiming Gao, Ning Cheng, Fengying Yu, Jing Xiao
2023	PromptStyle: Controllable Style Transfer for Text-to-Speech with Natural Language Descriptions. Guanghou Liu, Yongmao Zhang, Yi Lei, Yunlin Chen, Rui Wang, Lei Xie, Zhifei Li
2023	Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization. Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath
2023	PronScribe: Highly Accurate Multimodal Phonemic Transcription From Speech and Text. Yang Yu, Matthew Perez, Ankur Bapna, Fadi Haik, Siamak Tazari, Yu Zhang
2023	ProsAudit, a prosodic benchmark for self-supervised speech models. Maureen de Seyssel, Marvin Lavechin, Hadrien Titeux, Arthur Thomas, Gwendal Virlet, Andrea Santos Revilla, Guillaume Wisniewski, Bogdan Ludusan, Emmanuel Dupoux
2023	Prosody Modeling with 3D Visual Information for Expressive Video Dubbing. Zhihan Yang, Shansong Liu, Xu Li, Haozhe Wu, Zhiyong Wu, Ying Shan, Jia Jia
2023	Prosody-controllable Gender-ambiguous Speech Synthesis: A Tool for Investigating Implicit Bias in Speech Perception. Éva Székely, Joakim Gustafson, Ilaria Torre
2023	Prospective Validation of Motor-Based Intervention with Automated Mispronunciation Detection of Rhotics in Residual Speech Sound Disorders. Nina R. Benway, Jonathan L. Preston
2023	Providing Interpretable Insights for Neurological Speech and Cognitive Disorders from Interactive Serious Games. Mario Zusag, Laurin Wagner
2023	Pruning Self-Attention for Zero-Shot Multi-Speaker Text-to-Speech. Hyungchan Yoon, ChangHwan Kim, Eunwoo Song, Hyun-Wook Yoon, Hong-Goo Kang
2023	Pseudo-Siamese Network based Timbre-reserved Black-box Adversarial Attack in Speaker Identification. Qing Wang, Jixun Yao, Ziqian Wang, Pengcheng Guo, Lei Xie
2023	PunCantonese: A Benchmark Corpus for Low-Resource Cantonese Punctuation Restoration from Speech Transcripts. Yunxiang Li, Pengfei Liu, Xixin Wu, Helen Meng
2023	Pushing the Limits of Unsupervised Unit Discovery for SSL Speech Representation. Ziyang Ma, Zhisheng Zheng, Guanrou Yang, Yu Wang, Chao Zhang, Xie Chen
2023	QVoice: Arabic Speech Pronunciation Learning Application. Yassine El Kheir, Fouad Khnaisser, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal, Ahmed M. Ali
2023	Quantifying Informational Masking due to Masker Intelligibility in Same-talker Speech-in-speech Perception. Mingyue Huo, Yinglun Sun, Daniel Fogerty, Yan Tang
2023	Quantifying the perceptual value of lexical and non-lexical channels in speech. Sarenne Wallbridge, Peter Bell, Catherine Lai
2023	Quantization-aware and Tensor-compressed Training of Transformers for Natural Language Understanding. Zi Yang, Samridhi Choudhary, Siegfried Kunzmann, Zheng Zhang
2023	Queer Events, Relationships, and Sports: Does Topic Influence Speakers' Acoustic Expression of Sexual Orientation? Sven Kachel, Manuel Pöhlmann, Christine Nussbaum
2023	Query Based Acoustic Summarization for Podcasts. Samantha Kotey, Rozenn Dahyot, Naomi Harte
2023	Question-Context Alignment and Answer-Context Dependencies for Effective Answer Sentence Selection. Minh Van Nguyen, Kishan KC, Toàn Quoc Nguyên, Thien Huu Nguyen, Ankit Chadha, Thuy Vu
2023	RAD-MMM: Multilingual Multiaccented Multispeaker Text To Speech. Rohan Badlani, Rafael Valle, Kevin J. Shih, João Felipe Santos, Siddharth Gururani, Bryan Catanzaro
2023	RAMP: Retrieval-Augmented MOS Prediction via Confidence-based Dynamic Weighting. Hui Wang, Shiwan Zhao, Xiguang Zheng, Yong Qin
2023	RASR2: The RWTH ASR Toolkit for Generic Sequence-to-sequence Speech Recognition. Wei Zhou, Eugen Beck, Simon Berger, Ralf Schlüter, Hermann Ney
2023	RMVPE: A Robust Model for Vocal Pitch Estimation in Polyphonic Music. Haojie Wei, Xueke Cao, Tangpeng Dan, Yueguo Chen
2023	Random Forest Classification of Breathing Phases from Audio Signals Recorded using Mobile Devices. Vitória S. Fahed, Emer P. Doheny, Madeleine M. Lowery
2023	Random Utterance Concatenation Based Data Augmentation for Improving Short-video Speech Recognition. Yist Y. Lin, Tao Han, Haihua Xu, Van Tung Pham, Yerbolat Khassanov, Tze Yuang Chong, Yi He, Lu Lu, Zejun Ma
2023	Range-Based Equal Error Rate for Spoof Localization. Lin Zhang, Xin Wang, Erica Cooper, Nicholas W. D. Evans, Junichi Yamagishi
2023	Rapid Lexical Alignment to a Conversational Agent. Rachel Ostrand, Victor S. Ferreira, David Piorkowski
2023	Re-investigating the Efficient Transfer Learning of Speech Foundation Model using Feature Fusion Methods. Zhouyuan Huo, Khe Chai Sim, Dongseong Hwang, Tsendsuren Munkhdalai, Tara N. Sainath, Pedro Moreno Mengibar
2023	ReCLR: Reference-Enhanced Contrastive Learning of Audio Representation for Depression Detection. Pingyue Zhang, Mengyue Wu, Kai Yu
2023	Real Time Detection of Soft Voice for Speech Enhancement. Héctor A. Cordourier, Georg Stemmer, Sinem Aslan, Tobias Bocklet, Himanshu Bhalla
2023	Real time spectrogram inversion on mobile phone. Oleg Rybakov, Marco Tagliasacchi, Yunpeng Li, Liyang Jiang, Xia Zhang, Fadi Biadsy
2023	Real-Time Causal Spectro-Temporal Voice Activity Detection Based on Convolutional Encoding and Residual Decoding. Jingyuan Wang, Jie Zhang, Li-Rong Dai
2023	Real-Time Joint Personalized Speech Enhancement and Acoustic Echo Cancellation. Sefik Emre Eskimez, Takuya Yoshioka, Alex Ju, Min Tang, Tanel Pärnamaa, Huaming Wang
2023	Real-Time Personalised Speech Enhancement Transformers with Dynamic Cross-attended Speaker Representations. Shucong Zhang, Malcolm Chadwick, Alberto Gil C. P. Ramos, Titouan Parcollet, Rogier van Dalen, Sourav Bhattacharya
2023	Record Deduplication for Entity Distribution Modeling in ASR Transcripts. Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu
2023	Recursive Sound Source Separation with Deep Learning-based Beamforming for Unknown Number of Sources. Hokuto Munakata, Ryu Takeda, Kazunori Komatani
2023	Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation. Kangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim
2023	Reducing Barriers to Self-Supervised Learning: HuBERT Pre-training with Academic Compute. William Chen, Xuankai Chang, Yifan Peng, Zhaoheng Ni, Soumi Maiti, Shinji Watanabe
2023	Reducing the Prior Mismatch of Stochastic Differential Equations for Diffusion-based Speech Enhancement. Bunlong Lay, Simon Welker, Julius Richter, Timo Gerkmann
2023	Regarding Topology and Variant Frame Rates for Differentiable WFST-based End-to-End ASR. Zeyu Zhao, Peter Bell
2023	Rehearsal-Free Online Continual Learning for Automatic Speech Recognition. Steven Vander Eeckt, Hugo Van hamme
2023	Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models. Heerin Yang, Seung-won Hwang, Jungmin So
2023	Relationship between LTAS-based spectral moments and acoustic parameters of hypokinetic dysarthria in Parkinson's disease. Jan Svihlík, Vojtech Illner, Petr Krýze, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz
2023	Relationship between auditory and semantic entrainment using Deep Neural Networks (DNN). Jay Kejriwal, Stefan Benus
2023	Relationships Between Gender, Personality Traits and Features of Multi-Modal Data to Responses to Spoken Dialog Systems Breakdown. Kazuya Tsubokura, Yurie Iribe, Norihide Kitaoka
2023	Remixing-based Unsupervised Source Separation from Scratch. Kohei Saijo, Tetsuji Ogawa
2023	Remote Assessment for ALS using Multimodal Dialog Agents: Data Quality, Feasibility and Task Compliance. Vanessa Richter, Michael Neumann, Jordan R. Green, Brian Richburg, Oliver Roesler, Hardik Kothare, Vikram Ramanarayanan
2023	Resolution Consistency Training on Time-Frequency Domain for Semi-Supervised Sound Event Detection. Won-Gook Choi, Joon-Hyuk Chang
2023	Resource-Efficient Fine-Tuning Strategies for Automatic MOS Prediction in Text-to-Speech for Low-Resource Languages. Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
2023	Respiratory distress estimation in human-robot interaction scenario. Eduardo Alvarado, Nicolás Grágeda, Alejandro Luzanto, Rodrigo Mahú, Jorge Wuth, Laura Mendoza, Richard M. Stern, Néstor Becerra Yoma
2023	Responsiveness, Sensitivity and Clinical Utility of Timing-Related Speech Biomarkers for Remote Monitoring of ALS Disease Progression. Hardik Kothare, Michael Neumann, Jackson Liscombe, Jordan R. Green, Vikram Ramanarayanan
2023	Rethinking Complex-Valued Deep Neural Networks for Monaural Speech Enhancement. Haibin Wu, Ke Tan, Buye Xu, Anurag Kumar, Daniel Wong
2023	Rethinking Speech Recognition with A Multimodal Perspective via Acoustic and Semantic Cooperative Decoding. Tian-Hao Zhang, Haibo Qin, Zhi-Hao Lai, Song-Lu Chen, Qi Liu, Feng Chen, Xinyuan Qian, Xu-Cheng Yin
2023	Rethinking Transfer and Auxiliary Learning for Improving Audio Captioning Transformer. Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Dongwon Kim, Seungjin Lee, Sung Won Han
2023	Rethinking the Visual Cues in Audio-Visual Speaker Extraction. Junjie Li, Meng Ge, Zexu Pan, Rui Cao, Longbiao Wang, Jianwu Dang, Shiliang Zhang
2023	Retraining-free Customized ASR for Enharmonic Words Based on a Named-Entity-Aware Model and Phoneme Similarity Estimation. Yui Sudo, Kazuya Hata, Kazuhiro Nakadai
2023	Reverberation-Controllable Voice Conversion Using Reverberation Time Estimator. Yeonjong Choi, Chao Xie, Tomoki Toda
2023	Reversible Neural Networks for Memory-Efficient Speaker Verification. Bei Liu, Yanmin Qian
2023	Rhythmic Characteristics of L2 German Speech by Advanced Chinese Learners. Lindun Ge, Min Xu, Hongwei Ding
2023	Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on Multi-Order Spectrograms. Penghui Wen, Kun Hu, Wenxi Yue, Sen Zhang, Wanlei Zhou, Zhiyong Wang
2023	Robust Audio Anti-spoofing Countermeasure with Joint Training of Front-end and Back-end Models. Xingming Wang, Bang Zeng, Hongbin Suo, Yulong Wan, Ming Li
2023	Robust Automatic Speech Recognition via WavAugment Guided Phoneme Adversarial Training. Gege Qi, Yuefeng Chen, Xiaofeng Mao, Xiaojun Jia, Ranjie Duan, Rong Zhang, Hui Xue
2023	Robust Feature Decoupling in Voice Conversion by Using Locality-Based Instance Normalization. Yewei Gu, Xianfeng Zhao, Xiaowei Yi
2023	Robust Keyword Spotting for Noisy Environments by Leveraging Speech Enhancement and Speech Presence Probability. Chouchang Yang, Yashas Malur Saidutta, Rakshith Sharma Srinivasa, Ching Hua Lee, Yilin Shen, Hongxia Jin
2023	Robust Prototype Learning for Anomalous Sound Detection. Xiao-Min Zeng, Yan Song, Ian McLoughlin, Lin Liu, Li-Rong Dai
2023	Robust Self Supervised Speech Embeddings for Child-Adult Classification in Interactions involving Children with Autism. Rimita Lahiri, Tiantian Feng, Rajat Hebbar, Catherine Lord, So Hyun Kim, Shrikanth Narayanan
2023	Robust Training for Speaker Verification against Noisy Labels. Zhihua Fang, Liang He, Hanhan Ma, Xiaochen Guo, Lin Li
2023	S2CD: Self-heuristic Speaker Content Disentanglement for Any-to-Any Voice Conversion. Pengfei Wei, Xiang Yin, Chunfeng Wang, Zhonghao Li, Xinghua Qu, Zhiqiang Xu, Zejun Ma
2023	SALTTS: Leveraging Self-Supervised Speech Representations for improved Text-to-Speech Synthesis. Ramanan Sivaguru, Vasista Sai Lodagala, Srinivasan Umesh
2023	SASPEECH: A Hebrew Single Speaker Dataset for Text To Speech and Voice Conversion. Orian Sharoni, Roee Shenberg, Erica Cooper
2023	SCP-GAN: Self-Correcting Discriminator Optimization for Training Consistency Preserving Metric GAN on Speech Enhancement Tasks. Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida
2023	SDNet: Stream-attention and Dual-feature Learning Network for Ad-hoc Array Speech Separation. Honglong Wang, Chengyun Deng, Yanjie Fu, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Fei Wang
2023	SEF-Net: Speaker Embedding Free Target Speaker Extraction Network. Bang Zeng, Hongbin Suo, Yulong Wan, Ming Li
2023	SGEM: Test-Time Adaptation for Automatic Speech Recognition via Sequential-Level Generalized Entropy Minimization. Changhun Kim, Joonhyung Park, Hajin Shim, Eunho Yang
2023	SOT: Self-supervised Learning-Assisted Optimal Transport for Unsupervised Adaptive Speech Emotion Recognition. Ruiteng Zhang, Jianguo Wei, Xugang Lu, Yongwei Li, Junhai Xu, Di Jin, Jianhua Tao
2023	SR-SRP: Super-Resolution based SRP-PHAT for Sound Source Localization and Tracking. Jae-Heung Cho, Joon-Hyuk Chang
2023	STE-GAN: Speech-to-Electromyography Signal Conversion using Generative Adversarial Networks. Kevin Scheck, Tanja Schultz
2023	STEN-TTS: Improving Zero-shot Cross-Lingual Transfer for Multi-Lingual TTS with Style-Enhanced Normalization Diffusion Framework. Chung Tran, Chi Mai Luong, Sakriani Sakti
2023	SVVAD: Personal Voice Activity Detection for Speaker Verification. Zuheng Kang, Jianzong Wang, Junqing Peng, Jing Xiao
2023	SWRR: Feature Map Classifier Based on Sliding Window Attention and High-Response Feature Reuse for Multimodal Emotion Recognition. Ziping Zhao, Tian Gao, Haishuai Wang, Björn W. Schuller
2023	Same F0, Different Tones: A Multidimensional Investigation of Zhangzhou Tones. Yishan Huang
2023	Sampling bias in NLU models: Impact and Mitigation. Zefei Li, Anil Ramakrishna, Anna Rumshisky, Andy Rosenbaum, Saleh Soltan, Rahul Gupta
2023	Scaling Laws for Discriminative Speech Recognition Rescoring Models. Yile Gu, Prashanth Gurunath Shivakumar, Jari Kolehmainen, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
2023	Score-balanced Loss for Multi-aspect Pronunciation Assessment. Heejin Do, Yunsu Kim, Gary Geunbae Lee
2023	Second language identification of Vietnamese tones by native Mandarin learners. Juqiang Chen, Ailing Qin, Hui Chang, Hua Chen
2023	Segmental SpeechCLIP: Utilizing Pretrained Image-text Models for Audio-Visual Learning. Saurabhchand Bhati, Jesús Villalba, Laureano Moro-Velázquez, Thomas Thebaud, Najim Dehak
2023	Segmental features of Brazilian (Santa Catarina) Hunsrik. Dennis Hoffmann, Maria O'Reilly
2023	Selective Biasing with Trie-based Contextual Adapters for Personalised Speech Recognition using Neural Transducers. Philip Harding, Sibo Tong, Simon Wiesler
2023	Self-Distillation into Self-Attention Heads for Improving Transformer-based End-to-End Neural Speaker Diarization. Ye-Rin Jeoung, Jeong-Hwan Choi, Ju-Seok Seong, Jehyun Kyung, Joon-Hyuk Chang
2023	Self-FiLM: Conditioning GANs with self-supervised representations for bandwidth extension based speaker recognition. Saurabh Kataria, Jesús Villalba, Laureano Moro-Velázquez, Thomas Thebaud, Najim Dehak
2023	Self-Paced Pattern Augmentation for Spoken Term Detection in Zero-Resource. P. Sudhakar, K. Sreenivasa Rao, Pabitra Mitra
2023	Self-Supervised Acoustic Word Embedding Learning via Correspondence Transformer Encoder. Jingru Lin, Xianghu Yue, Junyi Ao, Haizhou Li
2023	Self-Supervised Dataset Pruning for Efficient Training in Audio Anti-spoofing. Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
2023	Self-Supervised Solution to the Control Problem of Articulatory Synthesis. Paul Konstantin Krug, Peter Birkholz, Branislav Gerazov, Daniel R. van Niekerk, Anqi Xu, Yi Xu
2023	Self-supervised Fine-tuning for Improved Content Representations by Speaker-invariant Clustering. Heng-Jui Chang, Alexander H. Liu, James R. Glass
2023	Self-supervised Learning Representation based Accent Recognition with Persistent Accent Memory. Rui Li, Zhiwei Xie, Haihua Xu, Yizhou Peng, Hexin Liu, Hao Huang, Eng Siong Chng
2023	Self-supervised Predictive Coding Models Encode Speaker and Phonetic Information in Orthogonal Subspaces. Oli Danyi Liu, Hao Tang, Sharon Goldwater
2023	Self-supervised learning with Diffusion-based multichannel speech enhancement for speaker verification under noisy conditions. Sandipana Dowerah, Ajinkya Kulkarni, Romain Serizel, Denis Jouvet
2023	Semantic Enrichment Towards Efficient Speech Representations. Gaëlle Laperrière, Ha Nguyen, Sahar Ghannay, Bassam Jabaian, Yannick Estève
2023	Semantic Segmentation with Bidirectional Language Models Improves Long-form ASR. W. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo-Yiin Chang, Tara N. Sainath
2023	Semantic VAD: Low-Latency Voice Activity Detection for Speech Interaction. Mohan Shi, Yuchun Shu, Lingyun Zuo, Qian Chen, Shiliang Zhang, Jie Zhang, Li-Rong Dai
2023	SememeASR: Boosting Performance of End-to-End Speech Recognition against Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge. Jiaxu Zhu, Changhe Song, Zhiyong Wu, Helen Meng
2023	Semi-supervised Learning for Continuous Emotional Intensity Controllable Speech Synthesis with Disentangled Representations. Yoori Oh, Juheon Lee, Yoseob Han, Kyogu Lee
2023	Sentence Embedder Guided Utterance Encoder (SEGUE) for Spoken Language Understanding. Yi Xuan Tan, Navonil Majumder, Soujanya Poria
2023	Sequence-Level Knowledge Distillation for Class-Incremental End-to-End Spoken Language Understanding. Umberto Cappellazzo, Muqiao Yang, Daniele Falavigna, Alessio Brutti
2023	Sequence-to-Sequence Multi-Modal Speech In-Painting. Mahsa Kadkhodaei Elyaderani, Shahram Shirani
2023	Severity Classification of Parkinson's Disease from Speech using Single Frequency Filtering-based Features. Sudarsana Reddy Kadiri, Manila Kodali, Paavo Alku
2023	Short-term Extrapolation of Speech Signals Using Recursive Neural Networks in the STFT Domain. Maurice Oberhag, Daniel Neudek, Rainer Martin, Tobias Rosenkranz, Henning Puder
2023	Show & Tell: Voice Activity Projection and Turn-taking. Erik Ekstedt, Gabriel Skantze
2023	Silent Speech Recognition with Articulator Positions Estimated from Tongue Ultrasound and Lip Video. Rachel Beeson, Korin Richmond
2023	Similar Hierarchical Representation of Speech and Other Complex Sounds In the Brain and Deep Residual Networks: An MEG Study. Tzu-Han Zoe Cheng, Kuan-Lin Chen, Juliane Schubert, Ya-Ping Chen, Tim Brown, John Iversen
2023	SlothSpeech: Denial-of-service Attack Against Speech Recognition Models. Mirazul Haque, Rutvij Shah, Simin Chen, Berrak Sisman, Cong Liu, Wei Yang
2023	Small Footprint Multi-channel Network for Keyword Spotting with Centroid Based Awareness. Dianwen Ng, Yang Xiao, Jia Qi Yip, Zhao Yang, Biao Tian, Qiang Fu, Eng Siong Chng, Bin Ma
2023	So-to-Speak: An Exploratory Platform for Investigating the Interplay between Style and Prosody in TTS. Éva Székely, Siyang Wang, Joakim Gustafson
2023	Sociodemographic and Attitudinal Effects on Dialect Speakers' Articulation of the Standard Language: Evidence from German-Speaking Switzerland. Carina Steiner, Dieter Studer-Joho, Corinne Lanthemann, Andrin Büchler, Adrian Leemann
2023	Some Voices are Too Common: Building Fair Speech Recognition Systems Using the CommonVoice Dataset. Lucas Maison, Yannick Estève
2023	Sp1NY: A Quick and Flexible Speech Visualisation Tool in Python. Sébastien Le Maguer, Mark Anderson, Naomi Harte
2023	Spanish Phone Confusion Analysis for EMG-Based Silent Speech Interfaces. Inge Salomons, Eder del Blanco, Eva Navas, Inma Hernáez
2023	SparseVSR: Lightweight and Noise Robust Visual Speech Recognition. Adriana Fernandez-Lopez, Honglie Chen, Pingchuan Ma, Alexandros Haliassos, Stavros Petridis, Maja Pantic
2023	Spatial LibriSpeech: An Augmented Dataset for Spatial Audio Learning. Miguel Sarabia, Elena Menyaylenko, Alessandro Toso, Skyler Seto, Zakaria Aldeneh, Shadi Pirhosseinloo, Luca Zappella, Barry-John Theobald, Nicholas Apostoloff, Jonathan Sheaffer
2023	Spatialization Quality Metric for Binaural Speech. Pranay Manocha, Israel Dejene Gebru, Anurag Kumar, Dejan Markovic, Alexander Richard
2023	Speak & Improve: L2 English Speaking Practice Tool. Diane Nicholls, Kate M. Knill, Mark J. F. Gales, Anton Ragni, Paul Ricketts
2023	Speaker Diarization for ASR Output with T-vectors: A Sequence Classification Approach. Midia Yousefi, Naoyuki Kanda, Dongmei Wang, Zhuo Chen, Xiaofei Wang, Takuya Yoshioka
2023	Speaker Embeddings as Individuality Proxy for Voice Stress Detection. Zihan Wu, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak
2023	Speaker Extraction with Detection of Presence and Absence of Target Speakers. Ke Zhang, Marvin Borsdorf, Zexu Pan, Haizhou Li, Yangjie Wei, Yi Wang
2023	Speaker Tracking using Graph Attention Networks with Varying Duration Utterances across Multi-Channel Naturalistic Data: Fearless Steps Apollo-11 Audio Corpus. Meena M. Chandra Shekar, John H. L. Hansen
2023	Speaker Verification Across Ages: Investigating Deep Speaker Embedding Sensitivity to Age Mismatch in Enrollment and Test Speech. Vishwanath Pratap Singh, Md. Sahidullah, Tomi Kinnunen
2023	Speaker-Aware Anti-spoofing. Xuechen Liu, Md. Sahidullah, Kong Aik Lee, Tomi Kinnunen
2023	Speaker-aware Cross-modal Fusion Architecture for Conversational Emotion Recognition. Huan Zhao, Bo Li, Zixing Zhang
2023	Speaker-independent Speech Inversion for Estimation of Nasalance. Yashish M. Siriwardena, Carol Y. Espy-Wilson, Suzanne Boyce, Mark Tiede, Liran Oren
2023	Speaker-independent neural formant synthesis. Pablo Pérez Zarazaga, Zofia Malisz, Gustav Eje Henter, Lauri Juvela
2023	Speaking Clearly, Understanding Better: Predicting the L2 Narrative Comprehension of Chinese Bilingual Kindergarten Children Based on Speech Intelligibility Using a Machine Learning Approach. Hiuching Hung, Paula Andrea Pérez-Toro, Tomás Arias-Vergara, Andreas Maier, Elmar Nöth
2023	Speaking State Decoder with Transition Detection for Next Speaker Prediction. Shao-Hao Lu, Yun-Shao Lin, Chi-Chun Lee
2023	Speech Aware Dialog System Technology Challenge (DSTC11). Hagen Soltau, Izhak Shafran, Mingqiu Wang, Abhinav Rastogi, Jeffrey Zhao, Ye Jia, Wei Han, Yuan Cao, Aramys Miranda
2023	Speech Breathing Behavior During Pauses in Children. Delphine Charuau, Béatrice Vaxelaire, Rudolph Sock
2023	Speech Emotion Recognition by Estimating Emotional Label Sequences with Phoneme Class Attribute. Ryotaro Nagase, Takahiro Fukumori, Yoichi Yamashita
2023	Speech Emotion Recognition using Decomposed Speech via Multi-task Learning. Jia-Hao Hsu, Chung-Hsien Wu, Yu-Hung Wei
2023	Speech Enhancement Patterns in Human-Robot Interaction: A Cross-Linguistic Perspective. Jacek Kudera, Katharina Zahner-Ritter, Jakob Engel, Nathalie Elsässer, Philipp Hutmacher, Carolin Worstbrock
2023	Speech Entrainment in Chinese Story-Style Talk Shows: The Interaction Between Gender and Role. Yanting Sun, Hongwei Ding
2023	Speech Intelligibility Assessment of Dysarthric Speech by using Goodness of Pronunciation with Uncertainty Quantification. Eun Jung Yeo, Kwanghee Choi, Sunhee Kim, Minhwa Chung
2023	Speech Self-Supervised Representation Benchmarking: Are We Doing it Right? Salah Zaiem, Youcef Kemiche, Titouan Parcollet, Slim Essid, Mirco Ravanelli
2023	Speech Synthesis from Articulatory Movements Recorded by Real-time MRI. Yuto Otani, Shun Sawada, Hidefumi Ohmura, Kouichi Katsurada
2023	Speech Synthesis with Self-Supervisedly Learnt Prosodic Representations. Zhaoci Liu, Zhen-Hua Ling, Ya-Jun Hu, Jia Pan, Jin-wei Wang, Yun-Di Wu
2023	Speech Taskonomy: Which Speech Tasks are the most Predictive of fMRI Brain Activity? Subba Reddy Oota, Veeral Agarwal, Mounika Marreddy, Manish Gupta, Raju S. Bapi
2023	Speech inpainting: Context-based speech synthesis guided by video. Juan Felipe Montesinos, Daniel Michelsanti, Gloria Haro, Zheng-Hua Tan, Jesper Jensen
2023	Speech reduction: position within French prosodic structure. Kübra Bodur, Roxane Bertrand, James Sneed German, Stéphane Rauzy, Corinne Fredouille, Christine Meunier
2023	Speech-Based Classification of Defensive Communication: A Novel Dataset and Results. Shahin Amiriparian, Lukas Christ, Regina Kushtanova, Maurice Gerczuk, Alexandra Teynor, Björn W. Schuller
2023	Speech-in-Speech Recognition is Modulated by Familiarity to Dialect. Jessica L. L. Chin, Elena Talevska, Mark Antoniou
2023	Speech-to-Face Conversion Using Denoising Diffusion Probabilistic Models. Shuhei Kato, Taiichi Hashimoto
2023	SpeechGLUE: How Well Can Self-Supervised Speech Models Capture Linguistic Knowledge? Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka, Yusuke Ijima, Taichi Asami, Marc Delcroix, Yukinori Honma
2023	SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings. Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
2023	Spoken Language Identification System for English-Mandarin Code-Switching Child-Directed Speech. Shashi Kant Gupta, Sushant Hiray, Prashant Kukde
2023	Spoofing Attacker Also Benefits from Self-Supervised Pretrained Model. Aoi Ito, Shota Horiguchi
2023	Spot Keywords From Very Noisy and Mixed Speech. Ying Shi, Dong Wang, Lantian Li, Jiqing Han, Shi Yin
2023	Stable Speech Emotion Recognition with Head-k-Pooling Loss. Chaoyue Ding, Jiakui Li, Daoming Zong, Baoxiang Li, Tian-Hao Zhang, Qunyan Zhou
2023	Stochastic Pitch Prediction Improves the Diversity and Naturalness of Speech in Glow-TTS. Sewade Ogun, Vincent Colotte, Emmanuel Vincent
2023	Strategies for Improving Low Resource Speech to Text Translation Relying on Pre-trained ASR Models. Santosh Kesiraju, Marek Sarvas, Tomás Pavlícek, Cécile Macaire, Alejandro Ciuba
2023	Streaming Audio-Visual Speech Recognition with Alignment Regularization. Pingchuan Ma, Niko Moritz, Stavros Petridis, Christian Fuegen, Maja Pantic
2023	Streaming Dual-Path Transformer for Speech Enhancement. Soo Hyun Bae, Seok Wan Chae, Youngseok Kim, Keunsang Lee, Hyunjin Lim, Lae-Hoon Kim
2023	Streaming Parrotron for on-device speech-to-speech conversion. Oleg Rybakov, Fadi Biadsy, Xia Zhang, Liyang Jiang, Phoenix Meadowlark, Shivani Agrawal
2023	Streaming Speech-to-Confusion Network Speech Recognition. Denis Filimonov, Prabhat Pandey, Ariya Rastrow, Ankur Gandhe, Andreas Stolcke
2023	Stuttering Detection Application. Kowshik Siva Sai Motepalli, Vamshiraghusimha Narasinga, Harsha Pathuri, Hina Khan, Sangeetha Mahesh, Ajish K. Abraham, Anil Kumar Vuppala
2023	Style-transfer based Speech and Audio-visual Scene understanding for Robot Action Sequence Acquisition from Videos. Chiori Hori, Puyuan Peng, David Harwath, Xinyu Liu, Kei Ota, Siddarth Jain, Radu Corcodel, Devesh K. Jha, Diego Romeres, Jonathan Le Roux
2023	StyleS2ST: Zero-shot Style Transfer for Direct Speech-to-speech Translation. Kun Song, Yi Ren, Yi Lei, Chunfeng Wang, Kun Wei, Lei Xie, Xiang Yin, Zejun Ma
2023	Supervised Contrastive Learning with Nearest Neighbor Search for Speech Emotion Recognition. Xuechen Wang, Shiwan Zhao, Yong Qin
2023	Svarah: Evaluating English ASR Systems on Indian Accents. Tahir Javed, Sakshi Joshi, Vignesh Nagarajan, Sai Sundaresan, Janki Nawale, Abhigyan Raman, Kaushal Santosh Bhogale, Pratyush Kumar, Mitesh M. Khapra
2023	Syllable Discovery and Cross-Lingual Generalization in a Visually Grounded, Self-Supervised Speech Model. Puyuan Peng, Shang-wen Li, Okko Räsänen, Abdelrahman Mohamed, David Harwath
2023	Synthesis after a couple PINTs: Investigating the Role of Pause-Internal Phonetic Particles in Speech Synthesis and Perception. Mikey Elmers, Johannah O'Mahony, Éva Székely
2023	Synthetic Voice Spoofing Detection based on Feature Pyramid Conformer. Jingran Gong, Ning Chen
2023	TFECN: Time-Frequency Enhanced ConvNet for Audio Classification. Mengwei Wang, Zhe Yang
2023	TO-Rawnet: Improving RawNet with TCN and Orthogonal Regularization for Fake Audio Detection. Chenglong Wang, Jiangyan Yi, Jianhua Tao, Chu Yuan Zhang, Shuai Zhang, Ruibo Fu, Xun Chen
2023	Tailored Real-Time Call Summarization System for Contact Centers. Aashraya Sachdeva, Sai Nishanth Padala, Anup Pattnaik, Varun Nathan, Cijo George, Ayush Kumar, Jithendra Vepa
2023	Take the Hint: Improving Arabic Diacritization with Partially-Diacritized Text. Parnia Bahar, Mattia Antonino Di Gangi, Nick Rossenbach, Mohammad Zeineldeen
2023	Target Active Speaker Detection with Audio-visual Cues. Yidi Jiang, Ruijie Tao, Zexu Pan, Haizhou Li
2023	Target Speech Extraction with Conditional Diffusion Model. Naoyuki Kamo, Marc Delcroix, Tomohiro Nakatani
2023	Target Vocabulary Recognition Based on Multi-Task Learning with Decomposed Teacher Sequences. Aoi Ito, Tatsuya Komatsu, Yusuke Fujita, Yusuke Kida
2023	Task-Agnostic Structured Pruning of Speech Representation Models. Haoyu Wang, Siyuan Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan
2023	TaylorBeamixer: Learning Taylor-Inspired All-Neural Multi-Channel Speech Enhancement from Beam-Space Dictionary Perspective. Andong Li, Weixin Meng, Guochen Yu, WenZhe Liu, Xiaodong Li, Chengshi Zheng
2023	Teaching Non-native Sound Contrasts using Visual Biofeedback. Shawn L. Nissen
2023	Technology Pipeline for Large Scale Cross-Lingual Dubbing of Lecture Videos into Multiple Indian Languages. Anusha Prakash, Arun Kumar A, Ashish Seth, Bhagyashree Mukherjee, Ishika Gupta, Jom Kuriakose, Jordan Fernandes, K. V. Vikram, Mano Ranjith Kumar M., Metilda Sagaya Mary, Mohammad Wajahat, Mohana N, Mudit Batra, Navina K, Nihal John George, Nithya Ravi, Pruthwik Mishra, Sudhanshu Srivastava, Vasista Sai Lodagala, Vandan Mujadia, Kada Sai Venkata Vineeth, Vrunda N. Sukhadia, Dipti Misra Sharma, Hema A. Murthy, Pushpak Bhattacharyya, Srinivasan Umesh, Rajeev Sangal
2023	Tensor decomposition for minimization of E2E SLU model toward on-device processing. Yosuke Kashiwagi, Siddhant Arora, Hayato Futami, Jessica Huynh, Shih-Lun Wu, Yifan Peng, Brian Yan, Emiru Tsunoo, Shinji Watanabe
2023	Text Injection for Capitalization and Turn-Taking Prediction in Speech Models. Shaan Bijwadia, Shuo-Yiin Chang, Weiran Wang, Zhong Meng, Hao Zhang
2023	Text Only Domain Adaptation with Phoneme Guided Data Splicing for End-to-End Speech Recognition. Wei Wang, Xun Gong, Hang Shao, Dongning Yang, Yanmin Qian
2023	Text-Only Domain Adaptation for End-to-End Speech Recognition through Down-Sampling Acoustic Representation. Jiaxu Zhu, Weinan Tong, Yaoxun Xu, Changhe Song, Zhiyong Wu, Zhao You, Dan Su, Dong Yu, Helen Meng
2023	Text-only Domain Adaptation using Unified Speech-Text Representation in Transducer. Lu Huang, Boyu Li, Jun Zhang, Lu Lu, Zejun Ma
2023	Text-only domain adaptation for end-to-end ASR using integrated text-to-mel-spectrogram generator. Vladimir Bataev, Roman Korostik, Evgeny Shabalin, Vitaly Lavrukhin, Boris Ginsburg
2023	Thai Dialect Corpus and Transfer-based Curriculum Learning Investigation for Dialect Automatic Speech Recognition. Artit Suwanbandit, Burin Naowarat, Orathai Sangpetch, Ekapol Chuangsuwanich
2023	The 2022 NIST Language Recognition Evaluation. Yooyoung Lee, Craig S. Greenberg, Eliot Godard, Asad A. Butt, Elliot Singer, Trang Nguyen, Lisa P. Mason, Douglas A. Reynolds
2023	The ART of Conversation: Measuring Phonetic Convergence and Deliberate Imitation in L2-Speech with a Siamese RNN. Zheng Yuan, Aldo Pastore, Dorina De Jong, Hao Xu, Luciano Fadiga, Alessandro D'Ausilio
2023	The Androids Corpus: A New Publicly Available Benchmark for Speech Based Depression Detection. Fuxiang Tao, Anna Esposito, Alessandro Vinciarelli
2023	The DISPLACE Challenge 2023 - DIarization of SPeaker and LAnguage in Conversational Environments. Shikha Baghel, Shreyas Ramoji, Sidharth, Ranjana H, Prachi Singh, Somil Jain, Pratik Roy Chowdhuri, Kaustubh Kulkarni, Swapnil Padhi, Deepu Vijayasenan, Sriram Ganapathy
2023	The Effect of Whistled Vowels on Whistled Word Categorization for Naive Listeners. Anaïs Tran Ngoc, Fanny Meunier, Julien Meyer
2023	The Effects of Input Type and Pronunciation Dictionary Usage in Transfer Learning for Low-Resource Text-to-Speech. Phat Do, Matt Coler, Jelske Dijkstra, Esther Klabbers
2023	The Hidden Dance of Phonemes and Visage: Unveiling the Enigmatic Link between Phonemes and Facial Features. Liao Qu, Xianwei Zou, Xiang Li, Yandong Wen, Rita Singh, Bhiksha Raj
2023	The Importance of Calibration: Rethinking Confidence and Performance of Speech Multi-label Emotion Classifiers. Huang-Cheng Chou, Lucas Goncalves, Seong-Gyun Leem, Chi-Chun Lee, Carlos Busso
2023	The MALACH Corpus: Results with End-to-End Architectures and Pretraining. Michael Picheny, Qin Yang, Daiheng Zhang, Lining Zhang
2023	The MASCFLICHT Corpus: Face Mask Type and Coverage Area Recognition from Speech. Adria Mallol-Ragolta, Nils Urbach, Shuo Liu, Anton Batliner, Björn W. Schuller
2023	The Role of Formant and Excitation Source Features in Perceived Naturalness of Low Resource Tribal Language TTS: An Empirical Study. Ashwini Dasare, Pradyoth Hegde, Supritha M. Shetty, Deepak K. T.
2023	The SpeeD-ZevoTech submission at DISPLACE 2023. Gabriel Pirlogeanu, Dan Oneata, Alexandru-Lucian Georgescu, Horia Cucu
2023	The Tag-Team Approach: Leveraging CLS and Language Tagging for Enhancing Multilingual ASR. Kaousheik Jayakumar, Vrunda N. Sukhadia, Arun Kumar A, Srinivasan Umesh
2023	The co-use of laughter and head gestures across speech styles. Bogdan Ludusan, Marin Schröer, Martina Rossi, Petra Wagner
2023	The effect of clinical intervention on the speech of individuals with PTSD: features and recognition performances. Alexander Kathan, Andreas Triantafyllopoulos, Shahin Amiriparian, Sabrina Milkus, Alexander Gebhard, Jonas Hohmann, Pauline Muderlak, Jürgen Schottdorf, Björn W. Schuller, Richard Musil
2023	The effect of masking noise on listeners' spectral tilt preferences. Olympia Simantiraki, Yannis Pantazis, Martin Cooke
2023	The effect of stress on Mandarin tonal perception in continuous speech for Spanish-speaking learners. Lixia Hao, Qi Gong, Jinsong Zhang
2023	The emergence of obstruent-intrinsic f0 and VOT as cues to the fortis/lenis contrast in West Central Bavarian. Jasmin Pöhnlein, Felicitas Kleber
2023	There is more than one kind of robustness: Fooling Whisper with adversarial examples. Raphaël Olivier, Bhiksha Raj
2023	Time-Domain Speech Enhancement for Robust Automatic Speech Recognition. Yufeng Yang, Ashutosh Pandey, DeLiang Wang
2023	Time-domain Transformer-based Audiovisual Speaker Separation. Vahid Ahmadi Kalkhorani, Anurag Kumar, Ke Tan, Buye Xu, DeLiang Wang
2023	Time-frequency Domain Filter-and-sum Network for Multi-channel Speech Separation. Zhewen Deng, Yi Zhou, Hongqing Liu
2023	Time-synchronous one-pass Beam Search for Parallel Online and Offline Transducers with Dynamic Block Training. Yui Sudo, Muhammad Shakeel, Yifan Peng, Shinji Watanabe
2023	TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition. Hakan Erdogan, Scott Wisdom, Xuankai Chang, Zalán Borsos, Marco Tagliasacchi, Neil Zeghidour, John R. Hershey
2023	Tonal coarticulation as a cue for upcoming prosodic boundary. Jianjing Kuang, May Pik Yu Chan, Nari Rhee
2023	Topological Data Analysis for Speech Processing. Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey I. Nikolenko, Evgeny Burnaev
2023	Towards Attention-based Contrastive Learning for Audio Spoof Detection. Chirag Goel, Surya Koppisetti, Ben Colman, Ali Shahriyari, Gaurav Bharaj
2023	Towards Cross-Language Prosody Transfer for Dialog. Jonathan E. Avila, Nigel G. Ward
2023	Towards Dialect-inclusive Recognition in a Low-resource Language: Are Balanced Corpora the Answer? Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide
2023	Towards Effective and Compact Contextual Representation for Conformer Transducer Speech Recognition Systems. Mingyu Cui, Jiawen Kang, Jiajun Deng, Xi Yin, Yutao Xie, Xie Chen, Xunying Liu
2023	Towards Fully Quantized Neural Networks For Speech Enhancement. Elad Cohen, Hai Victor Habi, Arnon Netzer
2023	Towards Multi-Lingual Audio Question Answering. Swarup Ranjan Behera, Pailla Balakrishna Reddy, Achyut Mani Tripathi, Megavath Bharadwaj Rathod, Tejesh Karavadi
2023	Towards Multi-task Learning of Speech and Speaker Recognition. Nik Vaessen, David A. van Leeuwen
2023	Towards Paralinguistic-Only Speech Representations for End-to-End Speech Emotion Recognition. Georgios Ioannides, Michael Owen, Andrew Fletcher, Viktor Rozgic, Chao Wang
2023	Towards Reference Speech Characterization for Health Applications. Catarina Botelho, Alberto Abad, Tanja Schultz, Isabel Trancoso
2023	Towards Robust Family-Infant Audio Analysis Based on Unsupervised Pretraining of Wav2vec 2.0 on Large-Scale Unlabeled Family Audio. Jialu Li, Mark Hasegawa-Johnson, Nancy L. McElwain
2023	Towards Robust FastSpeech 2 by Modelling Residual Multimodality. Fabian Kögel, Bac Nguyen, Fabien Cardinaux
2023	Towards Single Integrated Spoofing-aware Speaker Verification Embeddings. Sung Hwan Mun, Hye-jin Shim, Hemlata Tak, Xin Wang, Xuechen Liu, Md. Sahidullah, Myeonghun Jeong, Min Hyun Han, Massimiliano Todisco, Kong Aik Lee, Junichi Yamagishi, Nicholas W. D. Evans, Tomi Kinnunen, Nam Soo Kim, Jee-weon Jung
2023	Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis. Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, Helen Meng
2023	Towards Supporting an Early Diagnosis of Multiple Sclerosis using Vocal Features. Monica González Machorro, Pascal Hecker, Uwe D. Reichel, Helly N. Hammer, Robert Hoepner, Lisa Pedrotti, Alisha Zmutt, Hesam Sagha, Johan van Beek, Florian Eyben, Dagmar M. Schuller, Björn W. Schuller, Bert Arnrich
2023	Towards Two-point Neuron-inspired Energy-efficient Multimodal Open Master Hearing Aid. Mohsin Raza, Adewale Adetomi, Khubaib Ahmed, Amir Hussain, Tughrul Arslan, Ahsan Adeel
2023	Towards Ultrasound Tongue Image prediction from EEG during speech production. Tamás Gábor Csapó, Frigyes Viktor Arthur, Péter Nagy, Ádám Boncz
2023	Towards continually learning new languages. Quan Ngoc Pham, Jan Niehues, Alex Waibel
2023	Towards hate speech detection in low-resource languages: Comparing ASR to acoustic word embeddings on Wolof and Swahili. Christiaan Jacobs, Nathanaël Carraz Rakotonirina, Everlyn Asiko Chimoto, Bruce A. Bassett, Herman Kamper
2023	Towards robust paralinguistic assessment for real-world mobile health (mHealth) monitoring: an initial study of reverberation effects on speech. Judith Dineley, Ewan Carr, Faith Matcham, Johnny Downs, Richard J. B. Dobson, Thomas F. Quatieri, Nicholas Cummins
2023	Tracking Must Go On : Dialogue State Tracking with Verified Self-Training. Jihyun Lee, Chaebin Lee, Yunsu Kim, Gary Geunbae Lee
2023	TranUSR: Phoneme-to-word Transcoder Based Unified Speech Representation Learning for Cross-lingual Speech Recognition. Hongfei Xue, Qijie Shao, Peikun Chen, Pengcheng Guo, Lei Xie, Jie Liu
2023	Transcribing Speech as Spoken and Written Dual Text Using an Autoregressive Model. Mana Ihori, Hiroshi Sato, Tomohiro Tanaka, Ryo Masumura, Saki Mizuno, Nobukatsu Hojo
2023	Transductive Feature Space Regularization for Few-shot Bioacoustic Event Detection. Yizhou Tan, Haojun Ai, Shengchen Li, Feng Zhang
2023	Transfer Learning for Personality Perception via Speech Emotion Recognition. Yuanchao Li, Peter Bell, Catherine Lai
2023	Transfer Learning from Pre-trained Language Models Improves End-to-End Speech Summarization. Kohei Matsuura, Takanori Ashihara, Takafumi Moriya, Tomohiro Tanaka, Takatomo Kano, Atsunori Ogawa, Marc Delcroix
2023	Transfer Learning to Aid Dysarthria Severity Classification for Patients with Amyotrophic Lateral Sclerosis. Tanuka Bhattacharjee, Anjali Jayakumar, Yamini Belur, Atchayaram Nalini, Ravi Yadav, Prasanta Kumar Ghosh
2023	Transformer-based Speech Recognition Models for Oral History Archives in English, German, and Czech. Jan Lehecka, Jan Svec, Josef V. Psutka, Pavel Ircing
2023	Transforming the Embeddings: A Lightweight Technique for Speech Emotion Recognition Tasks. Orchid Chetia Phukan, Arun Balaji Buduru, Rajesh Sharma
2023	Transvelar Nasal Coupling Contributing to Speaker Characteristics in Non-nasal Vowels. Ziyu Zhu, Yujie Chi, Zhao Zhang, Kiyoshi Honda, Jianguo Wei
2023	Tri-level Joint Natural Language Understanding for Multi-turn Conversational Datasets. Henry Weld, Sijia Hu, Siqu Long, Josiah Poon, Soyeon Caren Han
2023	TridentSE: Guiding Speech Enhancement with 32 Global Tokens. Dacheng Yin, Zhiyuan Zhao, Chuanxin Tang, Zhiwei Xiong, Chong Luo
2023	Turbo your multi-modal classification with contrastive learning. Zhiyu Zhang, Da Liu, Shengqiang Liu, Anna Wang, Jie Gao, Yali Li
2023	Two Stage Contextual Word Filtering for Context Bias in Unified Streaming and Non-streaming Transducer. Zhanheng Yang, Sining Sun, Xiong Wang, Yike Zhang, Long Ma, Lei Xie
2023	Two-Stage Voice Anonymization for Enhanced Privacy. Francesco Nespoli, Daniel Barreda, Jörg Bitzer, Patrick A. Naylor
2023	Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender Pretraining. Yuan Gao, Chenhui Chu, Tatsuya Kawahara
2023	Ultra Dual-Path Compression For Joint Echo Cancellation And Noise Suppression. Hangting Chen, Jianwei Yu, Yi Luo, Rongzhi Gu, Weihua Li, Zhuocheng Lu, Chao Weng
2023	UnDiff: Unsupervised Voice Restoration with Unconditional Diffusion Model. Anastasiia Iashchenko, Pavel Andreev, Ivan Shchekotov, Nicholas Babaev, Dmitry P. Vetrov
2023	UnSE: Unsupervised Speech Enhancement Using Optimal Transport. Wenbin Jiang, Fei Wen, Yifan Zhang, Kai Yu
2023	Uncertainty Estimation for Connectionist Temporal Classification Based Automatic Speech Recognition. Lars Rumberg, Christopher Gebauer, Hanna Ehlert, Maren Wallbaum, Ulrike Lüdtke, Jörn Ostermann
2023	Understanding Disrupted Sentences Using Underspecified Abstract Meaning Representation. Angus Addlesee, Marco Damonte
2023	Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech Embeddings. Anfeng Xu, Rajat Hebbar, Rimita Lahiri, Tiantian Feng, Lindsay Butler, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan
2023	UniFLG: Unified Facial Landmark Generator from Text or Speech. Kentaro Mitsui, Yukiya Hono, Kei Sawada
2023	UniSplice: Universal Cross-Lingual Data Splicing for Low-Resource ASR. Wei Wang, Yanmin Qian
2023	Unified Modeling of Multi-Talker Overlapped Speech Recognition and Diarization with a Sidecar Separator. Lingwei Meng, Jiawen Kang, Mingyu Cui, Haibin Wu, Xixin Wu, Helen Meng
2023	UnitSpeech: Speaker-adaptive Speech Synthesis with Untranscribed Data. Heeseung Kim, Sungwon Kim, Jiheum Yeom, Sungroh Yoon
2023	Universal Automatic Phonetic Transcription into the International Phonetic Alphabet. Chihiro Taguchi, Yusuke Sakai, Parisa Haghani, David Chiang
2023	Unsupervised Active Learning: Optimizing Labeling Cost-Effectiveness for Automatic Speech Recognition. Zhisheng Zheng, Ziyang Ma, Yu Wang, Xie Chen
2023	Unsupervised Adaptation with Quality-Aware Masking to Improve Target-Speaker Voice Activity Detection for Speaker Diarization. Shutong Niu, Jun Du, Maokui He, Chin-Hui Lee, Baoxiang Li, Jiakui Li
2023	Unsupervised Auditory and Semantic Entrainment Models with Deep Neural Networks. Jay Kejriwal, Stefan Benus, Lina Maria Rojas-Barahona
2023	Unsupervised Code-switched Text Generation from Parallel Text. Jie Chi, Brian Lu, Jason Eisner, Peter Bell, Preethi Jyothi, Ahmed M. Ali
2023	Unsupervised Dialogue Topic Segmentation in Hyperdimensional Space. Seongmin Park, Jinkyu Seo, Jihwa Lee
2023	Unsupervised Learning of Discrete Latent Representations with Data-Adaptive Dimensionality from Continuous Speech Streams. Shun Takahashi, Sakriani Sakti
2023	Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance. Sourya Dipta Das, Yash Vadi, Abhishek Unnam, Kuldeep Yadav
2023	Unsupervised Transfer Components Learning for Cross-Domain Speech Emotion Recognition. Shenjie Jiang, Peng Song, Shaokai Li, Keke Zhao, Wenming Zheng
2023	Unsupervised speech enhancement with deep dynamical generative speech and noise models. Xiaoyu Lin, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda
2023	Use of Speech Impairment Severity for Dysarthric Speech Recognition. Mengzhe Geng, Zengrui Jin, Tianzi Wang, Shujie Hu, Jiajun Deng, Mingyu Cui, Guinan Li, Jianwei Yu, Xurong Xie, Xunying Liu
2023	Using Commercial ASR Solutions to Assess Reading Skills in Children: A Case Report. Timothy Piton, Enno Hermann, Angela Pasqualotto, Marjolaine Cohen, Mathew Magimai-Doss, Daphne Bavelier
2023	Using Random Forests to classify language as a function of syllable timing in two groups: children with cochlear implants and with normal hearing. Mark Gibson
2023	Using Semi-supervised Learning for Monaural Time-domain Speech Separation with a Self-supervised Learning-based SI-SNR Estimator. Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi, Hiroaki Kudo
2023	Using Text Injection to Improve Recognition of Personal Identifiers in Speech. Yochai Blau, Rohan Agrawal, Lior Madmony, Gary Wang, Andrew Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beryozkin, Parisa Haghani, Bhuvana Ramabhadran
2023	Using speech synthesis to explain automatic speaker recognition: a new application of synthetic speech. Georgina Brown, Christin Kirchhübel, Ramiz Cuthbert
2023	Utility-Preserving Privacy-Enabled Speech Embeddings for Emotion Detection. Chandrashekhar Lavania, Sanjiv Das, Xin Huang, Kyu J. Han
2023	VC-T: Streaming Voice Conversion Based on Neural Transducer. Hiroki Kanagawa, Takafumi Moriya, Yusuke Ijima
2023	VISinger2: High-Fidelity End-to-End Singing Voice Synthesis Enhanced by Digital Signal Processing Synthesizer. Yongmao Zhang, Heyang Xue, Hanzhao Li, Lei Xie, Tingwei Guo, Ruixiong Zhang, Caixia Gong
2023	VITS2: Improving Quality and Efficiency of Single-Stage Text-to-Speech with Adversarial Learning and Architecture Design. Jungil Kong, Jihoon Park, Beomjeong Kim, Jeongmin Kim, Dohee Kong, Sangjin Kim
2023	Validation of a Task-Independent Cepstral Peak Prominence Measure with Voice Activity Detection. Olivia M. Murton, Abigail E. Haenssler, Marc F. Maffei, Kathryn P. Connaghan, Jordan R. Green
2023	Variance-Preserving-Based Interpolation Diffusion Models for Speech Enhancement. Zilu Guo, Jun Du, Chin-Hui Lee, Yu Gao, Wenbin Zhang
2023	Variational Classifier for Unsupervised Anomalous Sound Detection under Domain Generalization. Antonio Almudévar, Alfonso Ortega, Luis Vicente, Antonio Miguel, Eduardo Lleida
2023	Verbal and nonverbal feedback signals in response to increasing levels of miscommunication. Maeva Garnier, Éric Le Ferrand, Fabien Ringeval
2023	Video Multimodal Emotion Recognition System for Real World Applications. Sun-Kyung Lee, Jong-Hwan Kim
2023	Video Summarization Leveraging Multimodal Information for Presentations. Hanchao Liu, Dapeng Chen, Rongjun Li, Wenyuan Xue, Wei Peng
2023	Vietnam-Celeb: a large-scale dataset for Vietnamese speaker recognition. Viet-Thanh Pham, Xuan Thai Hoa Nguyen, Vu Hoang, Thi Thu Trang Nguyen
2023	Vistaar: Diverse Benchmarks and Training Sets for Indian Language ASR. Kaushal Santosh Bhogale, Sai Sundaresan, Abhigyan Raman, Tahir Javed, Mitesh M. Khapra, Pratyush Kumar
2023	Visualizing Data Augmentation in Deep Speaker Recognition. Pengqi Li, Lantian Li, Askar Hamdulla, Dong Wang
2023	Visually grounded few-shot word acquisition with fewer shots. Leanne Nortje, Benjamin van Niekerk, Herman Kamper
2023	Visually-Aware Audio Captioning With Adaptive Audio-Visual Attention. Xubo Liu, Qiushi Huang, Xinhao Mei, Haohe Liu, Qiuqiang Kong, Jianyuan Sun, Shengchen Li, Tom Ko, Yu Zhang, H. Lilian Tang, Mark D. Plumbley, Volkan Kiliç, Wenwu Wang
2023	Vocoder drift in x-vector-based speaker anonymization. Michele Panariello, Massimiliano Todisco, Nicholas W. D. Evans
2023	Voice Conversion With Just Nearest Neighbors. Matthew Baas, Benjamin van Niekerk, Herman Kamper
2023	Voice Passing : a Non-Binary Voice Gender Prediction System for evaluating Transgender voice transition. David Doukhan, Simon Devauchelle, Lucile Girard-Monneron, Mía Chávez Ruz, V. Chaddouk, Isabelle Wagner, Albert Rilliard
2023	Voice Twins: Discovering Extremely Similar-sounding, Unrelated Speakers. Linda Gerlach, Kirsty McDougall, Finnian Kelly, Anil Alexander
2023	Vowel Normalisation in Latent Space for Sociolinguistics. James Burridge
2023	Vowel reduction by Greek-speaking children: The effect of stress and word length. Polychronia Christodoulidou, Katerina Nicolaidis, Dimitrios Stamovlasis
2023	VoxTube: a multilingual speaker recognition dataset. Ivan Yakovlev, Anton Okhotnikov, Nikita Torgashov, Rostislav Makarov, Yuri Voevodin, Konstantin Simonchik
2023	Wav2ToBI: a new approach to automatic ToBI transcription. Wanyue Zhai, Mark Hasegawa-Johnson
2023	Wave to Syntax: Probing spoken language models for syntax. Gaofei Shen, Afra Alishahi, Arianna Bisazza, Grzegorz Chrupala
2023	Wavelet Scattering Transform for Improving Generalization in Low-Resourced Spoken Language Identification. Spandan Dey, Premjeet Singh, Goutam Saha
2023	Weakly supervised glottis segmentation in high-speed videoendoscopy using bounding box labels. Varun Belagali, M. V. Achuth Rao, Prasanta Kumar Ghosh
2023	Weakly-Supervised Speech Pre-training: A Case Study on Target Speech Recognition. Wangyou Zhang, Yanmin Qian
2023	Weakly-supervised forced alignment of disfluent speech using phoneme-level modeling. Theodoros Kouzelis, Georgios Paraskevopoulos, Athanasios Katsamanis, Vassilis Katsouros
2023	Weighted Von Mises Distribution-based Loss Function for Real-time STFT Phase Reconstruction Using DNN. Nguyen Binh Thien, Yukoh Wakabayashi, Yuting Geng, Kenta Iwai, Takanobu Nishiura
2023	What Can an Accent Identifier Learn? Probing Phonetic and Prosodic Information in a Wav2vec2-based Accent Identification Model. Mu Yang, Ram C. M. C. Shekar, Okim Kang, John H. L. Hansen
2023	What are differences? Comparing DNN and Human by Their Performance and Characteristics in Speaker Age Estimation. Yuki Kitagishi, Naohiro Tawara, Atsunori Ogawa, Ryo Masumura, Taichi Asami
2023	What do self-supervised speech representations encode? An analysis of languages, varieties, speaking styles and speakers. Julian Linke, Mate Kadar, Gergely Dosinszky, Péter Mihajlik, Gernot Kubin, Barbara Schuppler
2023	What influences the foreign accent strength? Phonological and grammatical errors in the perception of accentedness. Sarah Wesolek, Piotr Gulgowski, Joanna Blaszczak, Marzena Zygis
2023	What is Learnt by the LEArnable Front-end (LEAF)? Adapting Per-Channel Energy Normalisation (PCEN) to Noisy Conditions. Hanyu Meng, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2023	What questions are my customers asking?: Towards Actionable Insights from Customer Questions in Contact Center Calls. Varun Nathan, Devashish Deshpande, Ayush Kumar, Cijo George, Jithendra Vepa
2023	What's in a Rise? The Relevance of Intonation for Attention Orienting. Martine Grice
2023	When Words Speak Just as Loudly as Actions: Virtual Agent Based Remote Health Assessment Integrating What Patients Say with What They Do. Vikram Ramanarayanan, David Pautler, Lakshmi Arbatti, Abhishek Hosamath, Michael Neumann, Hardik Kothare, Oliver Roesler, Jackson Liscombe, Andrew Cornish, Doug Habberstad, Vanessa Richter, David Fox, David Suendermann-Oeft, Ira Shoulson
2023	WhiSLU: End-to-End Spoken Language Understanding with Whisper. Minghan Wang, Yinglu Li, Jiaxin Guo, Xiaosong Qiao, Zongyao Li, Hengchao Shang, Daimeng Wei, Shimin Tao, Min Zhang, Hao Yang
2023	Which aspects of motor speech disorder are captured by Mel Frequency Cepstral Coefficients? Evidence from the change in STN-DBS conditions in Parkinson's disease. Vojtech Illner, Petr Krýze, Jan Svihlík, Mário Sousa, Paul Krack, Elina Tripoliti, Robert Jech, Jan Rusz
2023	Whisper Encoder features for Infant Cry Classification. Monil Charola, Aastha Kachhi, Hemant A. Patil
2023	Whisper Features for Dysarthric Severity-Level Classification. Siddharth Rathod, Monil Charola, Akshat Vora, Yash Jogi, Hemant A. Patil
2023	Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers. Yuan Gong, Sameer Khurana, Leonid Karlinsky, James R. Glass
2023	WhisperX: Time-Accurate Speech Transcription of Long-Form Audio. Max Bain, Jaesung Huh, Tengda Han, Andrew Zisserman
2023	Whistle-to-text: Automatic recognition of the Silbo Gomero whistled language. Agata Jakubiak
2023	Why We Should Report the Details in Subjective Evaluation of TTS More Rigorously. Cheng-Han Chiang, Wei-Ping Huang, Hung-yi Lee
2023	Word-level Confidence Estimation for CTC Models. Burin Naowarat, Thananchai Kongthaworn, Ekapol Chuangsuwanich
2023	XPhoneBERT: A Pre-trained Multilingual Model for Phoneme Representations for Text-to-Speech. Linh The Nguyen, Thinh Pham, Dat Quoc Nguyen
2023	Xiaoicesing 2: A High-Fidelity Singing Voice Synthesizer Based on Generative Adversarial Network. Chunhui Wang, Chang Zeng, Xing He
2023	ZET-Speech: Zero-shot adaptive Emotion-controllable Text-to-Speech Synthesis with Diffusion and Style-based Models. Minki Kang, Wooseok Han, Sung Ju Hwang, Eunho Yang
2023	Zambezi Voice: A Multilingual Speech Corpus for Zambian Languages. Claytone Sikasote, Kalinda Siaminwe, Stanly Mwape, Bangiwe Zulu, Mofya Phiri, Martin Phiri, David Zulu, Mayumbo Nyirenda, Antonios Anastasopoulos
2023	Zero-Shot Accent Conversion using Pseudo Siamese Disentanglement Network. Dongya Jia, Qiao Tian, Kainan Peng, Jiaxin Li, Yuanzhe Chen, Mingbo Ma, Yuping Wang, Yuxuan Wang
2023	Zero-Shot Automatic Pronunciation Assessment. Hongfu Liu, Mingqian Shi, Ye Wang
2023	ZeroPrompt: Streaming Acoustic Encoders are Zero-Shot Masked LMs. Xingchen Song, Di Wu, Binbin Zhang, Zhendong Peng, Bo Dang, Fuping Pan, Zhiyong Wu
2023	Zoneformer: On-device Neural Beamformer For In-car Multi-zone Speech Separation, Enhancement and Echo Cancellation. Yong Xu, Vinay Kothapally, Meng Yu, Shixiong Zhang, Dong Yu
2023	eCat: An End-to-End Model for Multi-Speaker TTS & Many-to-Many Fine-Grained Prosody Transfer. Ammar Abbas, Sri Karlapati, Bastian Schnell, Penny Karanasou, Marcel Granero Moya, Amith Nagaraj, Ayman Boustati, Nicole Peinelt, Alexis Moinet, Thomas Drugman
2023	eSTImate: A Real-time Speech Transmission Index Estimator With Speech Enhancement Auxiliary Task Using Self-Attention Feature Pyramid Network. Bajian Xiang, Hongkun Liu, Zedong Wu, Su Shen, Xiangdong Zhang
2023	iSTFTNet2: Faster and More Lightweight iSTFT-Based Neural Vocoder Using 1D-2D CNN. Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki
2023	mdctGAN: Taming transformer-based GAN for speech super-resolution with Modified DCT spectra. Chenhao Shuai, Chaohua Shi, Lu Gan, Hongqing Liu
2023	miniStreamer: Enhancing Small Conformer with Chunked-Context Masking for Streaming ASR Applications on the Edge. Haris Gulzar, Monikka Roslianna Busto, Takeharu Eda, Katsutoshi Itoyama, Kazuhiro Nakadai
2023	pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe. Hervé Bredin
2023	wav2vec 2.0 ASR for Cantonese-Speaking Older Adults in a Clinical Setting. Ranzo Huang, Brian Mak
2023	〈'〉 in Tsimane': a Preliminary Investigation. William N. Havard, Yaya Sy, Camila Scaff, Loann Peurey, Alejandrina Cristià