INTERSPEECH - RankMe

1124 papers

Year	Title / Authors
2022	23rd Annual Conference of the International Speech Communication Association, Interspeech 2022, Incheon, Korea, September 18-22, 2022. Hanseok Ko, John H. L. Hansen
2022	4-bit Conformer with Native Quantization Aware Training for Speech Recognition. Shaojin Ding, Phoenix Meadowlark, Yanzhang He, Lukasz Lew, Shivani Agrawal, Oleg Rybakov
2022	A BERT-based Language Modeling Framework. Chin-Yueh Chien, Kuan-Yu Chen
2022	A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings. Fan Yu, Zhihao Du, Shiliang Zhang, Yuxiao Lin, Lei Xie
2022	A Complementary Joint Training Approach Using Unpaired Speech and Text A Complementary Joint Training Approach Using Unpaired Speech and Text. Ye-Qian Du, Jie Zhang, Qiu-Shi Zhu, Lirong Dai, Ming-Hui Wu, Xin Fang, Zhou-Wang Yang
2022	A Conformer-based Waveform-domain Neural Acoustic Echo Canceller Optimized for ASR Accuracy. Sankaran Panchapagesan, Arun Narayanan, Turaj Zakizadeh Shabestary, Shuai Shao, Nathan Howard, Alex Park, James Walker, Alexander Gruenstein
2022	A Deep Learning Platform for Language Education Research and Development. Kye Min Tan, Richeng Duan, Xin Huang, Bowei Zou, Xuan Long Do
2022	A Deep One-Class Learning Method for Replay Attack Detection. Yijie Lou, Shiliang Pu, Jianfeng Zhou, Xin Qi, Qinbo Dong, Hongwei Zhou
2022	A Graph Isomorphism Network with Weighted Multiple Aggregators for Speech Emotion Recognition. Ying Hu, Yuwu Tang, Hao Huang, Liang He
2022	A Hierarchical Speaker Representation Framework for One-shot Singing Voice Conversion. Xu Li, Shansong Liu, Ying Shan
2022	A High-Quality and Large-Scale Dataset for English-Vietnamese Speech Translation. Linh The Nguyen, Nguyen Luong Tran, Long Doan, Manh Luong, Dat Quoc Nguyen
2022	A Hybrid Continuity Loss to Reduce Over-Suppression for Time-domain Target Speaker Extraction. Zexu Pan, Meng Ge, Haizhou Li
2022	A Language Agnostic Multilingual Streaming On-Device ASR System. Bo Li, Tara N. Sainath, Ruoming Pang, Shuo-Yiin Chang, Qiumin Xu, Trevor Strohman, Vince Chen, Qiao Liang, Heguang Liu, Yanzhang He, Parisa Haghani, Sameer Bidichandani
2022	A Laryngographic Study on the Voice Quality of Northern Vietnamese Tones under the Lombard Effect. Giang Le, Chilin Shih, Yan Tang
2022	A Multi-Scale Time-Frequency Spectrogram Discriminator for GAN-based Non-Autoregressive TTS. Haohan Guo, Hui Lu, Xixin Wu, Helen Meng
2022	A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural TTS. Haohan Guo, Feng-Long Xie, Frank K. Soong, Xixin Wu, Helen Meng
2022	A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking. Eleftherios Kapelonis, Efthymios Georgiou, Alexandros Potamianos
2022	A Multi-grained based Attention Network for Semi-supervised Sound Event Detection. Ying Hu, Xiujuan Zhu, Yunlong Li, Hao Huang, Liang He
2022	A Multi-level Acoustic Feature Extraction Framework for Transformer Based End-to-End Speech Recognition. Jin Li, Rongfeng Su, Xurong Xie, Lan Wang, Nan Yan
2022	A Multimodal Strategy for Singing Language Identification. Wo Jae Lee, Emanuele Coviello
2022	A Novel Phoneme-based Modeling for Text-independent Speaker Identification. Xin Wang, Chuan Xie, Qiang Wu, Huayi Zhan, Ying Wu
2022	A Passive Similarity based CNN Filter Pruning for Efficient Acoustic Scene Classification. Arshdeep Singh, Mark D. Plumbley
2022	A Scalable Model Specialization Framework for Training and Inference using Submodels and its Application to Speech Model Personalization. Fadi Biadsy, Youzheng Chen, Xia Zhang, Oleg Rybakov, Andrew Rosenberg, Pedro J. Moreno
2022	A Sparsity-promoting Dictionary Model for Variational Autoencoders. Mostafa Sadeghi, Paul Magron
2022	A Step Towards Preserving Speakers' Identity While Detecting Depression Via Speaker Disentanglement. Vijay Ravi, Jinhan Wang, Jonathan Flint, Abeer Alwan
2022	A Study of Gender Impact in Self-supervised Models for Speech-to-Text Systems. Marcely Zanon Boito, Laurent Besacier, Natalia A. Tomashenko, Yannick Estève
2022	A Study of Modeling Rising Intonation in Cantonese Neural Speech Synthesis. Qibing Bai, Tom Ko, Yu Zhang
2022	A Study on the Phonetic Inventory Development of Children with Cochlear Implants for 5 Years after Implantation. Seonwoo Lee, Sunhee Kim, Minhwa Chung
2022	A Subnetwork Approach for Spoofing Aware Speaker Verification. Alexander Alenin, Nikita Torgashov, Anton Okhotnikov, Rostislav Makarov, Ivan Yakovlev
2022	A Systematic Comparison of Phonetic Aware Techniques for Speech Enhancement. Or Tal, Moshe Mandel, Felix Kreuk, Yossi Adi
2022	A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery. Werner van der Merwe, Herman Kamper, Johan Adam du Preez
2022	A Transfer and Multi-Task Learning based Approach for MOS Prediction. Xiaohai Tian, Kaiqi Fu, Shaojun Gao, Yiwei Gu, Kai Wang, Wei Li, Zejun Ma
2022	A Unified Accent Estimation Method Based on Multi-Task Learning for Japanese Text-to-Speech. Byeongseon Park, Ryuichi Yamamoto, Kentaro Tachibana
2022	A Unified Cascaded Encoder ASR Model for Dynamic Model Sizes. Shaojin Ding, Weiran Wang, Ding Zhao, Tara N. Sainath, Yanzhang He, Robert David, Rami Botros, Xin Wang, Rina Panigrahy, Qiao Liang, Dongseong Hwang, Ian McGraw, Rohit Prabhavalkar, Trevor Strohman
2022	A Unified System for Voice Cloning and Voice Conversion through Diffusion Probabilistic Modeling. Tasnima Sadekova, Vladimir Gogoryan, Ivan Vovk, Vadim Popov, Mikhail A. Kudinov, Jiansheng Wei
2022	A Universal Identity Backdoor Attack against Speaker Verification based on Siamese Network. Haodong Zhao, Wei Du, Junjie Guo, Gongshen Liu
2022	A VR Interactive 3D Mandarin Pronunciation Teaching Model. Yujia Jin, Yanlu Xie, Jinsong Zhang
2022	A Vietnamese-English Neural Machine Translation System. Tuan-Duy H. Nguyen, Duy Phung, Duy Tran-Cong Nguyen, Hieu Minh Tran, Manh Luong, Tin Duy Vo, Hung Hai Bui, Dinh Q. Phung, Dat Quoc Nguyen
2022	A blueprint for using deepfakes in sociolinguistic matched-guise experiments. Nathan Joel Young, David Britain, Adrian Leemann
2022	A compact transformer-based GAN vocoder. Chenfeng Miao, Ting Chen, Minchuan Chen, Jun Ma, Shaojun Wang, Jing Xiao
2022	A comparative study on vowel articulation in Parkinson's disease and multiple system atrophy. Khalid Daoudi, Biswajit Das, Solange Milhé de Saint Victor, Alexandra Foubert-Samier, Margherita Fabbri, Anne Pavy-Le Traon, Olivier Rascol, Virginie Woisard, Wassilios G. Meissner
2022	A deep complex multi-frame filtering network for stereophonic acoustic echo cancellation. Linjuan Cheng, Chengshi Zheng, Andong Li, Yuquan Wu, Renhua Peng, Xiaodong Li
2022	A polyphone BERT for Polyphone Disambiguation in Mandarin Chinese. Song Zhang, Ken Zheng, Xiaoxu Zhu, Baoxiang Li
2022	A speech enhancement method for long-range speech acquisition task. Yanzhang Geng, Heng Wang, Tao Zhang, Xin Zhao
2022	A study of production error analysis for Mandarin-speaking Children with Hearing Impairment. Jingwen Cheng, Yuchen Yan, Yingming Gao, Xiaoli Feng, Yannan Wang, Jinsong Zhang
2022	A study on constraining Connectionist Temporal Classification for temporal audio alignment. Yann Teytaut, Baptiste Bouvier, Axel Roebel
2022	A universally-deployable ASR frontend for joint acoustic echo cancellation, speech enhancement, and voice separation. Thomas R. O'Malley, Arun Narayanan, Quan Wang
2022	A user-friendly headset for radar-based silent speech recognition. Pouriya Amini Digehsara, João Vítor Possamai de Menezes, Christoph Wagner, Michael Bärhold, Petr Schaffer, Dirk Plettemeier, Peter Birkholz
2022	ACNN-VC: Utilizing Adaptive Convolution Neural Network for One-Shot Voice Conversion. Ji Sub Um, Yeunju Choi, Hoi Rin Kim
2022	ADFF: Attention Based Deep Feature Fusion Approach for Music Emotion Recognition. Zi Huang, Shulei Ji, Zhilan Hu, Chuangjian Cai, Jing Luo, Xinyu Yang
2022	ASR Error Correction with Constrained Decoding on Operation Prediction. Jingyuan Yang, Rongjun Li, Wei Peng
2022	ASR Error Detection via Audio-Transcript entailment. Nimshi Venkat Meripo, Sandeep Konam
2022	ASR-Generated Text for Language Model Pre-training Applied to Speech Tasks. Valentin Pelloin, Franck Dary, Nicolas Hervé, Benoît Favre, Nathalie Camelin, Antoine Laurent, Laurent Besacier
2022	ASR-Robust Natural Language Understanding on ASR-GLUE dataset. Lingyun Feng, Jianwei Yu, Yan Wang, Songxiang Liu, Deng Cai, Haitao Zheng
2022	ASR2K: Speech Recognition for Around 2000 Languages without Audio. Xinjian Li, Florian Metze, David R. Mortensen, Alan W. Black, Shinji Watanabe
2022	ATST: Audio Representation Learning with Teacher-Student Transformer. Xian Li, Xiaofei Li
2022	AVATAR: Unconstrained Audiovisual Speech Recognition. Valentin Gabeur, Paul Hongsuck Seo, Arsha Nagrani, Chen Sun, Karteek Alahari, Cordelia Schmid
2022	Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization. Andrea Fasoli, Chia-Yu Chen, Mauricio J. Serrano, Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Kailash Gopalakrishnan
2022	Accent Conversion using Pre-trained Model and Synthesized Data from Voice Conversion. Tuan-Nam Nguyen, Ngoc-Quan Pham, Alexander Waibel
2022	Accurate Emotion Strength Assessment for Seen and Unseen Speech Based on Data-Driven Deep Learning. Rui Liu, Berrak Sisman, Björn W. Schuller, Guanglai Gao, Haizhou Li
2022	Acoustic Feature Shuffling Network for Text-independent Speaker Verification. Jin Li, Xin Fang, Fan Chu, Tian Gao, Yan Song, Rong Li Dai
2022	Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History. Yuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari
2022	Acoustic Representation Learning on Breathing and Speech Signals for COVID-19 Detection. Debottam Dutta, Debarpan Bhattacharya, Sriram Ganapathy, Amir Hossein Poorjam, Deepak Mittal, Maneesh Singh
2022	Acoustic Stress Detection in Isolated English Words for Computer-Assisted Pronunciation Training. Vera Bernhard, Sandra Schwab, Jean-Philippe Goldman
2022	Acoustic To Articulatory Speech Inversion Using Multi-Resolution Spectro-Temporal Representations Of Speech Signals. Rahil Parikh, Nadee Seneviratne, Ganesh Sivaraman, Shihab A. Shamma, Carol Y. Espy-Wilson
2022	Acoustic-to-articulatory Speech Inversion with Multi-task Learning. Yashish M. Siriwardena, Ganesh Sivaraman, Carol Y. Espy-Wilson
2022	Acquisition of Two Consecutive Neutral Tones in Mandarin-Speaking Preschoolers: Phonological Representation and Phonetic Realization. Sichen Zhang, Aijun Li
2022	Acquisition of allophonic variation in second language speech: An acoustic and articulatory study of English laterals by Japanese speakers. Takayuki Nagamine
2022	Active Few-Shot Learning for Sound Event Detection. Yu Wang, Mark Cartwright, Juan Pablo Bello
2022	AdaSpeech 4: Adaptive Text to Speech in Zero-Shot Scenarios. Yihan Wu, Xu Tan, Bohan Li, Lei He, Sheng Zhao, Ruihua Song, Tao Qin, Tie-Yan Liu
2022	AdaVocoder: Adaptive Vocoder for Custom Voice. Xin Yuan, Robin Feng, Mingming Ye, Cheng Tuo, Minghang Zhang
2022	Adaptive Rectangle Loss for Speaker Verification. Ruida Li, Shuo Fang, Chenguang Ma, Liang Li
2022	Adaptive multilingual speech recognition with pretrained models. Ngoc-Quan Pham, Alexander Waibel, Jan Niehues
2022	AdvEst: Adversarial Perturbation Estimation to Classify and Detect Adversarial Attacks against Speaker Identification. Sonal Joshi, Saurabh Kataria, Jesús Villalba, Najim Dehak
2022	Advanced Speaker Embedding with Predictive Variance of Gaussian Distribution for Speaker Adaptation in TTS. Jaeuk Lee, Joon-Hyuk Chang
2022	Adversarial Knowledge Distillation For Robust Spoken Language Understanding. Ye Wang, Baishun Ling, Yanmeng Wang, Junhao Xue, Shaojun Wang, Jing Xiao
2022	Adversarial Multi-Task Deep Learning for Noise-Robust Voice Activity Detection with Low Algorithmic Delay. Claus M. Larsen, Peter Koch, Zheng-Hua Tan
2022	Adversarial Multi-Task Learning for Disentangling Timbre and Pitch in Singing Voice Synthesis. Tae-Woo Kim, Min-Su Kang, Gyeong-Hoon Lee
2022	Adversarial Reweighting for Speaker Verification Fairness. Minho Jin, Chelsea Ju, Zeya Chen, Yi-Chieh Liu, Jasha Droppo, Andreas Stolcke
2022	Adversarial and Sequential Training for Cross-lingual Prosody Transfer TTS. Min-Kyung Kim, Joon-Hyuk Chang
2022	Adversarial-Free Speaker Identity-Invariant Representation Learning for Automatic Dysarthric Speech Classification. Parvaneh Janbakhshi, Ina Kodrasi
2022	Air tissue boundary segmentation using regional loss in real-time Magnetic Resonance Imaging video for speech production. Anwesha Roy, Varun Belagali, Prasanta Kumar Ghosh
2022	Alzheimer's Detection from English to Spanish Using Acoustic and Linguistic Embeddings. Paula Andrea Pérez-Toro, Philipp Klumpp, Abner Hernandez, Tomas Arias, Patricia Lillo, Andrea Slachevsky, Adolfo Martín García, Maria Schuster, Andreas K. Maier, Elmar Nöth, Juan Rafael Orozco-Arroyave
2022	An Alignment Method Leveraging Articulatory Features for Mispronunciation Detection and Diagnosis in L2 English. Qi Chen, Binghuai Lin, Yanlu Xie
2022	An Anchor-Free Detector for Continuous Speech Keyword Spotting. Zhiyuan Zhao, Chuanxin Tang, Chengdong Yao, Chong Luo
2022	An Attention-Based Method for Guiding Attribute-Aligned Speech Representation Learning. Yu-Lin Huang, Bo-Hao Su, Y.-W. Peter Hong, Chi-Chun Lee
2022	An Automated Mood Diary for Older User's using Ambient Assisted Living Recorded Speech. Fasih Haider, Saturnino Luz
2022	An Automatic Soundtracking System for Text-to-Speech Audiobooks. Zikai Chen, Lin Wu, Junjie Pan, Xiang Yin
2022	An Efficient and High Fidelity Vietnamese Streaming End-to-End Speech Synthesis. Tho Nguyen Duc Tran, The Chuong Chu, Vu Hoang, Trung Huu Bui, Steven Quoc Hung Truong
2022	An Empirical Analysis on the Vulnerabilities of End-to-End Speech Segregation Models. Rahil Parikh, Gaspar Rochette, Carol Y. Espy-Wilson, Shihab A. Shamma
2022	An Empirical Study of Language Model Integration for Transducer based Speech Recognition. Huahuan Zheng, Keyu An, Zhijian Ou, Chen Huang, Ke Ding, Guanglu Wan
2022	An End-to-End Macaque Voiceprint Verification Method Based on Channel Fusion Mechanism. Peng Liu, Songbin Li, Jigang Tang
2022	An Evaluation of Three-Stage Voice Conversion Framework for Noisy and Reverberant Conditions. Yeonjong Choi, Chao Xie, Tomoki Toda
2022	An Exploration of Prompt Tuning on Generative Spoken Language Model for Speech Processing Tasks. Kai-Wei Chang, Wei-Cheng Tseng, Shang-wen Li, Hung-yi Lee
2022	An Improved Deliberation Network with Text Pre-training for Code-Switching Automatic Speech Recognition. Zhijie Shen, Wu Guo
2022	An Improved Transformer Transducer Architecture for Hindi-English Code Switched Speech Recognition. Ansen Antony, Sumanth Reddy Kota, Akhilesh Lade, Spoorthy Venkatesh, Shashidhar G. Koolagudi
2022	An Initialization Scheme for Meeting Separation with Spatial Mixture Models. Christoph Böddeker, Tobias Cord-Landwehr, Thilo von Neumann, Reinhold Haeb-Umbach
2022	An Overview & Analysis of Sequence-to-Sequence Emotional Voice Conversion. Zijiang Yang, Xin Jing, Andreas Triantafyllopoulos, Meishu Song, Ilhan Aslan, Björn W. Schuller
2022	An investigation of regression-based prediction of the femininity or masculinity in speech of transgender people. Leon Liebig, Christoph Wagner, Alexander Mainka, Peter Birkholz
2022	An objective test tool for pitch extractors' response attributes. Hideki Kawahara, Kohei Yatabe, Ken-Ichi Sakakibara, Tatsuya Kitamura, Hideki Banno, Masanori Morise
2022	An overview of discourse clicks in Central Swedish. Margaret Zellers
2022	Analysis of Self-Attention Head Diversity for Conformer-based Automatic Speech Recognition. Kartik Audhkhasi, Yinghui Huang, Bhuvana Ramabhadran, Pedro J. Moreno
2022	Analysis of Self-Supervised Learning and Dimensionality Reduction Methods in Clustering-Based Active Learning for Speech Emotion Recognition. Einari Vaaras, Manu Airaksinen, Okko Räsänen
2022	Analysis of expressivity transfer in non-autoregressive end-to-end multispeaker TTS systems. Ajinkya Kulkarni, Vincent Colotte, Denis Jouvet
2022	Analysis of praising skills focusing on utterance contents. Asahi Ogushi, Toshiki Onishi, Yohei Tahara, Ryo Ishii, Atsushi Fukayama, Takao Nakamura, Akihiro Miyata
2022	Analyzing Language-Independent Speaker Anonymization Framework under Unseen Conditions. Xiaoxiao Miao, Xin Wang, Erica Cooper, Junichi Yamagishi, Natalia A. Tomashenko
2022	Analyzing the impact of SARS-CoV-2 variants on respiratory sound signals. Debarpan Bhattacharya, Debottam Dutta, Neeraj Kumar Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K. K, Sadhana Gonuguntla, Murali Alagesan
2022	Ant Multilingual Recognition System for OLR 2021 Challenge. Anqi Lyu, Zhiming Wang, Huijia Zhu
2022	Anti-Spoofing Using Transfer Learning with Variational Information Bottleneck. Youngsik Eom, Yeonghyeon Lee, Ji Sub Um, Hoi Rin Kim
2022	Application for Real-time Personalized Speaker Extraction. Damien Ronssin, Milos Cernak
2022	Applying Syntax-Prosody Mapping Hypothesis and Prosodic Well-Formedness Constraints to Neural Sequence-to-Sequence Speech Synthesis. Kei Furukawa, Takeshi Kishiyama, Satoshi Nakamura
2022	Are disentangled representations all you need to build speaker anonymization systems? Pierre Champion, Anthony Larcher, Denis Jouvet
2022	Are reported accuracies in the clinical speech machine learning literature overoptimistic? Visar Berisha, Chelsea Krantsevich, Gabriela Stegmann, Shira Hahn, Julie Liss
2022	Articulatory Synthesis for Data Augmentation in Phoneme Recognition. Paul Konstantin Krug, Peter Birkholz, Branislav Gerazov, Daniel Rudolph van Niekerk, Anqi Xu, Yi Xu
2022	Asymmetric Proxy Loss for Multi-View Acoustic Word Embeddings. Myunghun Jung, Hoi Rin Kim
2022	Attack Agnostic Dataset: Towards Generalization and Stabilization of Audio DeepFake Detection. Piotr Kawa, Marcin Plata, Piotr Syga
2022	Attacker Attribution of Audio Deepfakes. Nicolas M. Müller, Franziska Dieckmann, Jennifer Williams
2022	Attention Enhanced Citrinet for Speech Recognition. Xianchao Wu
2022	Attention Weight Smoothing Using Prior Distributions for Transformer-Based End-to-End ASR. Takashi Maekaku, Yuya Fujita, Yifan Peng, Shinji Watanabe
2022	Attention-based conditioning methods using variable frame rate for style-robust speaker verification. Amber Afshan, Abeer Alwan
2022	Attentive Feature Fusion for Robust Speaker Verification. Bei Liu, Zhengyang Chen, Yanmin Qian
2022	Attentive Recurrent Network for Low-Latency Active Noise Control. Hao Zhang, Ashutosh Pandey, DeLiang Wang
2022	Attentive Training: A New Training Framework for Talker-independent Speaker Extraction. Ashutosh Pandey, DeLiang Wang
2022	Audio Anti-spoofing Using Simple Attention Module and Joint Optimization Based on Additive Angular Margin Loss and Meta-learning. John H. L. Hansen, Zhenyu Wang
2022	Audio Pyramid Transformer with Domain Adaption for Weakly Supervised Sound Event Detection and Audio Classification. Yifei Xin, Dongchao Yang, Yuexian Zou
2022	Audio Similarity is Unreliable as a Proxy for Audio Quality. Pranay Manocha, Zeyu Jin, Adam Finkelstein
2022	Audio Visual Multi-Speaker Tracking with Improved GCF and PMBM Filter. Jinzheng Zhao, Peipei Wu, Xubo Liu, Shidrokh Goudarzi, Haohe Liu, Yong Xu, Wenwu Wang
2022	Audio-Visual Domain Adaptation Feature Fusion for Speech Emotion Recognition. Jie Wei, Guanyu Hu, Xinyu Yang, Anh Tuan Luu, Yizhuo Dong
2022	Audio-Visual Generalized Few-Shot Learning with Prototype-Based Co-Adaptation. Yi-Kai Zhang, Da-Wei Zhou, Han-Jia Ye, De-Chuan Zhan
2022	Audio-Visual Scene Classification Based on Multi-modal Graph Fusion. Han Lei, Ning Chen
2022	Audio-Visual Speech Recognition in MISP2021 Challenge: Dataset Release and Deep Analysis. Hang Chen, Jun Du, Yusheng Dai, Chin-Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe, Odette Scharenborg, Jingdong Chen, Baocai Yin, Jia Pan
2022	Audio-Visual Wake Word Spotting in MISP2021 Challenge: Dataset Release and Deep Analysis. Hengshun Zhou, Jun Du, Gongzhen Zou, Zhaoxu Nian, Chin-Hui Lee, Sabato Marco Siniscalchi, Shinji Watanabe, Odette Scharenborg, Jingdong Chen, Shifu Xiong, Jianqing Gao
2022	AudioTagging Done Right: 2nd comparison of deep learning methods for environmental sound classification. Juncheng Li, Shuhui Qu, Po-Yao Huang, Florian Metze
2022	Augmented Adversarial Self-Supervised Learning for Early-Stage Alzheimer's Speech Detection. Longfei Yang, Wenqing Wei, Sheng Li, Jiyi Li, Takahiro Shinozaki
2022	Autoencoder-Based Tongue Shape Estimation During Continuous Speech. Vinicius Ribeiro, Yves Laprie
2022	Automated Detection of Wilson's Disease Based on Improved Mel-frequency Cepstral Coefficients with Signal Decomposition. Zhenglin Zhang, Lizhuang Yang, Xun Wang, Hai Li
2022	Automated Evaluation of Standardized Dementia Screening Tests. Franziska Braun, Markus Förstel, Bastian Oppermann, Andreas Erzigkeit, Hartmut Lehfeld, Thomas Hillemacher, Korbinian Riedhammer
2022	Automated Voice Pathology Discrimination from Continuous Speech Benefits from Analysis by Phonetic Context. Zhuoya Liu, Mark A. Huckvale, Julian McGlashan
2022	Automatic Assessment of Speech Intelligibility using Consonant Similarity for Head and Neck Cancer. Sebastião Quintas, Julie Mauclair, Virginie Woisard, Julien Pinquier
2022	Automatic Data Augmentation Selection and Parametrization in Contrastive Self-Supervised Speech Representation Learning. Salah Zaiem, Titouan Parcollet, Slim Essid
2022	Automatic Detection of Expressed Emotion from Five-Minute Speech Samples: Challenges and Opportunities. Bahman Mirheidari, André Bittar, Nicholas Cummins, Johnny Downs, Helen L. Fisher, Heidi Christensen
2022	Automatic Detection of Reactive Attachment Disorder Through Turn-Taking Analysis in Clinical Child-Caregiver Sessions. Andrei Bîrladeanu, Helen Minnis, Alessandro Vinciarelli
2022	Automatic Detection of Speech Sound Disorder in Child Speech Using Posterior-based Speaker Representations. Si Ioi Ng, Cymie Wing-Yee Ng, Jiarui Wang, Tan Lee
2022	Automatic Dialect Density Estimation for African American English. Alexander Johnson, Kevin Everson, Vijay Ravi, Anissa Gladney, Mari Ostendorf, Abeer Alwan
2022	Automatic Evaluation of Speaker Similarity. Kamil Deja, Ariadna Sánchez, Julian Roth, Marius Cotescu
2022	Automatic Learning of Subword Dependent Model Scales. Felix Meyer, Wilfried Michel, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney
2022	Automatic Mean Opinion Score Estimation with Temporal Modulation Features on Gammatone Filterbank for Speech Assessment. Huy Nguyen, Kai Li, Masashi Unoki
2022	Automatic Pronunciation Assessment using Self-Supervised Speech Representation Learning. Eesung Kim, Jae-Jin Jeon, Hyeji Seo, Hoon Kim
2022	Automatic Prosody Annotation with Pre-Trained Text-Speech Model. Ziqian Dai, Jianwei Yu, Yan Wang, Nuo Chen, Yanyao Bian, Guangzhi Li, Deng Cai, Dong Yu
2022	Automatic Prosody Evaluation of L2 English Read Speech in Reference to Accent Dictionary with Transformer Encoder. Yu Suzuki, Tsuneo Kato, Akihiro Tamura
2022	Automatic Selection of Discriminative Features for Dementia Detection in Cantonese-Speaking People. Xiaoquan Ke, Man-Wai Mak, Helen M. Meng
2022	Automatic Speaker Verification System for Dysarthria Patients. Shinimol Salim, Syed Shahnawazuddin, Waquar Ahmad
2022	Automatic cognitive assessment: Combining sparse datasets with disparate cognitive scores. Bahman Mirheidari, Daniel Blackburn, Heidi Christensen
2022	Autoregressive Co-Training for Learning Discrete Speech Representation. Sung-Lin Yeh, Hao Tang
2022	Avoid Overfitting User Specific Information in Federated Keyword Spotting. Xin-Chun Li, Jin-Lin Tang, Shaoming Song, Bingshuai Li, Yinchuan Li, Yunfeng Shao, Le Gan, De-Chuan Zhan
2022	BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese. Nguyen Luong Tran, Duong Minh Le, Dat Quoc Nguyen
2022	BERT, can HE predict contrastive focus? Predicting and controlling prominence in neural TTS using a language model. Brooke Stephenson, Laurent Besacier, Laurent Girin, Thomas Hueber
2022	BIT-MI Deep Learning-based Model to Non-intrusive Speech Quality Assessment Challenge in Online Conferencing Applications. Miao Liu, Jing Wang, Liang Xu, Jianqian Zhang, Shicong Li, Fei Xiang
2022	Back to the Future: Extending the Blizzard Challenge 2013. Sébastien Le Maguer, Simon King, Naomi Harte
2022	Backend Ensemble for Speaker Verification and Spoofing Countermeasure. Li Zhang, Yue Li, Huan Zhao, Qing Wang, Lei Xie
2022	Barlow Twins self-supervised learning for robust speaker recognition. Mohammad MohammadAmini, Driss Matrouf, Jean-François Bonastre, Sandipana Dowerah, Romain Serizel, Denis Jouvet
2022	Bayesian Recurrent Units and the Forward-Backward Algorithm. Alexandre Bittar, Philip N. Garner
2022	Bayesian Transformer Using Disentangled Mask Attention. Jen-Tzung Chien, Yu-Han Huang
2022	Beam-Guided TasNet: An Iterative Speech Separation Framework with Multi-Channel Output. Hangting Chen, Yi Yang, Feng Dang, Pengyuan Zhang
2022	Benchmarking Transformers-based models on French Spoken Language Understanding tasks. Oralie Cattan, Sahar Ghannay, Christophe Servan, Sophie Rosset
2022	Bending the string: intonation contour length as a correlate of macro-rhythm. Constantijn Kaland
2022	Better Intermediates Improve CTC Inference. Tatsuya Komatsu, Yusuke Fujita, Jaesong Lee, Lukas Lee, Shinji Watanabe, Yusuke Kida
2022	BiCAPT: Bidirectional Computer-Assisted Pronunciation Training with Normalizing Flows. Zhan Zhang, Yuehai Wang, Jianyi Yang
2022	BibleTTS: a large, high-fidelity, multilingual, and uniquely African speech corpus. Josh Meyer, David Ifeoluwa Adelani, Edresson Casanova, Alp Öktem, Daniel Whitenack, Julian Weber, Salomon Kabongo, Elizabeth Salesky, Iroro Orife, Colin Leong, Perez Ogayo, Chris Chinenye Emezue, Jonathan Mukiibi, Salomey Osei, Apelete Agbolo, Victor Akinode, Bernard Opoku, Samuel Olanrewaju, Jesujoba O. Alabi, Shamsuddeen Hassan Muhammad
2022	Bifurcation and Reunion: A Loss-Guided Two-Stage Approach for Monaural Speech Dereverberation. Xiaoxue Luo, Chengshi Zheng, Andong Li, Yuxuan Ke, Xiaodong Li
2022	Binary Early-Exit Network for Adaptive Inference on Low-Resource Devices. Aaqib Saeed
2022	Biometric Russian Audio-Visual Extended MASKS (BRAVE-MASKS) Corpus: Multimodal Mask Type Recognition Task. Maxim Markitantov, Elena Ryumina, Dmitry Ryumin, Alexey Karpov
2022	Blind Language Separation: Disentangling Multilingual Cocktail Party Voices by Language. Marvin Borsdorf, Kevin Scheck, Haizhou Li, Tanja Schultz
2022	Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation. Keqi Deng, Shinji Watanabe, Jiatong Shi, Siddhant Arora
2022	Boosting Self-Supervised Embeddings for Speech Enhancement. Kuo-Hsuan Hung, Szu-Wei Fu, Huan-Hsin Tseng, Hsin-Tien Chiang, Yu Tsao, Chii-Wann Lin
2022	Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding. Pu Wang, Hugo Van hamme
2022	Bottom-up discovery of structure and variation in response tokens ('backchannels') across diverse languages. Andreas Liesenfeld, Mark Dingemanse
2022	Bring dialogue-context into RNN-T for streaming ASR. Junfeng Hou, Jinkun Chen, Wanyu Li, Yufeng Tang, Jun Zhang, Zejun Ma
2022	Building African Voices. Perez Ogayo, Graham Neubig, Alan W. Black
2022	Building Vietnamese Conversational Smart Home Dataset and Natural Language Understanding Model. Thi Thu Trang Nguyen, Trung Duc Anh Dang, Quoc Viet Vu, Woomyoung Park
2022	Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud to Edge. Sangjun Park, Kihyun Choo, Joohyung Lee, Anton V. Porov, Konstantin Osipov, June Sig Sung
2022	ByT5 model for massively multilingual grapheme-to-phoneme conversion. Jian Zhu, Cong Zhang, David Jurgens
2022	CALM: Constrastive Cross-modal Speaking Style Modeling for Expressive Text-to-Speech Synthesis. Yi Meng, Xiang Li, Zhiyong Wu, Tingtian Li, Zixun Sun, Xinyu Xiao, Chi Sun, Hui Zhan, Helen Meng
2022	CAUSE: Crossmodal Action Unit Sequence Estimation from Speech. Hirokazu Kameoka, Takuhiro Kaneko, Shogo Seki, Kou Tanaka
2022	CCATMos: Convolutional Context-aware Transformer Network for Non-intrusive Speech Quality Assessment. Yuchen Liu, Li-Chia Yang, Alexander Pawlicki, Marko Stamenovic
2022	CMGAN: Conformer-based Metric GAN for Speech Enhancement. Ruizhe Cao, Sherif Abdulatif, Bin Yang
2022	CNN-based Audio Event Recognition for Automated Violence Classification and Rating for Prime Video Content. Mayank Sharma, Tarun Gupta, Kenny Qiu, Xiang Hao, Raffay Hamid
2022	COVID-19 detection based on respiratory sensing from speech. Venkata Srikanth Nallanthighal, Aki Härmä, Helmer Strik
2022	CS-CTCSCONV1D: Small footprint speaker verification with channel split time-channel-time separable 1-dimensional convolution. Linjun Cai, Yuhong Yang, Xufeng Chen, Weiping Tu, Hongyang Chen
2022	CT-SAT: Contextual Transformer for Sequential Audio Tagging. Yuanbo Hou, Zhaoyi Liu, Bo Kang, Yun Wang, Dick Botteldooren
2022	CTA-RNN: Channel and Temporal-wise Attention RNN leveraging Pre-trained ASR Embeddings for Speech Emotion Recognition. Chengxin Chen, Pengyuan Zhang
2022	CTC Variations Through New WFST Topologies. Aleksandr Laptev, Somshubra Majumdar, Boris Ginsburg
2022	CTFALite: Lightweight Channel-specific Temporal and Frequency Attention Mechanism for Enhancing the Speaker Embedding Extractor. Yuheng Wei, Junzhao Du, Hui Liu, Qian Wang
2022	CTRL: Continual Representation Learning to Transfer Information of Pre-trained for WAV2VEC 2.0. Jae-Hong Lee, Chae Won Lee, Jin-Seong Choi, Joon-Hyuk Chang, Woo Kyeong Seong, Jeonghan Lee
2022	CUSIDE: Chunking, Simulating Future Context and Decoding for Streaming ASR. Keyu An, Huahuan Zheng, Zhijian Ou, Hongyu Xiang, Ke Ding, Guanglu Wan
2022	CaTT-KWS: A Multi-stage Customized Keyword Spotting Framework based on Cascaded Transducer-Transformer. Zhanheng Yang, Sining Sun, Jin Li, Xiaoming Zhang, Xiong Wang, Long Ma, Lei Xie
2022	Calibrate and Refine! A Novel and Agile Framework for ASR Error Robust Intent Detection. Peilin Zhou, Dading Chong, Helin Wang, Qingcheng Zeng
2022	Can Humans Correct Errors From System? Investigating Error Tendencies in Speaker Identification Using Crowdsourcing. Yuta Ide, Susumu Saito, Teppei Nakano, Tetsuji Ogawa
2022	Censer: Curriculum Semi-supervised Learning for Speech Recognition Based on Self-supervised Pre-training. Bowen Zhang, Songjun Cao, Xiaoming Zhang, Yike Zhang, Long Ma, Takahiro Shinozaki
2022	Chain-based Discriminative Autoencoders for Speech Recognition. Hung-Shin Lee, Pin-Tuan Huang, Yao-Fei Cheng, Hsin-Min Wang
2022	Challenges and Opportunities in Multi-device Speech Processing. Gregory Ciccarelli, Jarred Barber, Arun Nair, Israel Cohen, Tao Zhang
2022	Challenges in Metadata Creation for Massive Naturalistic Team-Based Audio Data. Chelzy Belitz, John H. L. Hansen
2022	Challenges of using longitudinal and cross-domain corpora on studies of pathological speech. Catarina Botelho, Tanja Schultz, Alberto Abad, Isabel Trancoso
2022	Challenges remain in Building ASR for Spontaneous Preschool Children Speech in Naturalistic Educational Environments. Satwik Dutta, Sarah Anne Tao, Jacob C. Reyna, Rebecca Elizabeth Hacker, Dwight W. Irvin, Jay F. Buzhardt, John H. L. Hansen
2022	Characterizing Therapist's Speaking Style in Relation to Empathy in Psychotherapy. Dehua Tao, Tan Lee, Harold Chui, Sarah Luk
2022	Chunking Defense for Adversarial Attacks on ASR. Yiwen Shao, Jesús Villalba, Sonal Joshi, Saurabh Kataria, Sanjeev Khudanpur, Najim Dehak
2022	Class-Aware Distribution Alignment based Unsupervised Domain Adaptation for Speaker Verification. Hang-Rui Hu, Yan Song, Li-Rong Dai, Ian McLoughlin, Lin Liu
2022	Classification of Accented English Using CNN Model Trained on Amplitude Mel-Spectrograms. Mariia Lesnichaia, Veranika Mikhailava, Natalia Bogach, Yurii Lezhenin, John Blake, Evgeny Pyshkin
2022	Clock Skew Robust Acoustic Echo Cancellation. Karim Helwani, Erfan Soltanmohammadi, Michael Mark Goodwin, Arvindh Krishnaswamy
2022	Clustering-based Wake Word Detection in Privacy-aware Acoustic Sensor Networks. Timm Koppelmann, Luca Becker, Alexandru Nelus, Rene Glitza, Lea Schönherr, Rainer Martin
2022	CoCA-MDD: A Coupled Cross-Attention based Framework for Streaming Mispronunciation Detection and Diagnosis. Nianzu Zheng, Liqun Deng, Wenyong Huang, Yu Ting Yeung, Baohua Xu, Yuanyuan Guo, Yasheng Wang, Xiao Chen, Xin Jiang, Qun Liu
2022	CoachLea: an Android Application to Evaluate the Speech Production and Perception of Children with Hearing Loss. P. Schäfer, Paula Andrea Pérez-Toro, Philipp Klumpp, Juan Rafael Orozco-Arroyave, Elmar Nöth, Andreas K. Maier, A. Abad, Maria Schuster, Tomás Arias-Vergara
2022	Coarse-Grained Attention Fusion With Joint Training Framework for Complex Speech Enhancement and End-to-End Speech Recognition. Xuyi Zhuang, Lu Zhang, Zehua Zhang, Yukun Qian, Mingjiang Wang
2022	Combining Simple but Novel Data Augmentation Methods for Improving Conformer ASR. Ronit Damania, Christopher Homan, Emily Prud'hommeaux
2022	Combining Spectral and Self-Supervised Features for Low Resource Speech Recognition and Translation. Dan Berrebbi, Jiatong Shi, Brian Yan, Osbel López-Francisco, Jonathan D. Amith, Shinji Watanabe
2022	Combining conversational speech with read speech to improve prosody in Text-to-Speech synthesis. Johannah O'Mahony, Catherine Lai, Simon King
2022	Common and differential acoustic representation of interpersonal and tactile iconic perception of Mandarin vowels. Yi Li, Xiaoming Jiang
2022	Comparing 1-dimensional and 2-dimensional spectral feature representations in voice pathology detection using machine learning and deep learning classifiers. Farhad Javanmardi, Sudarsana Reddy Kadiri, Manila Kodali, Paavo Alku
2022	Comparison and Analysis of New Curriculum Criteria for End-to-End ASR. Georgios Karakasidis, Tamás Grósz, Mikko Kurimo
2022	Comparison of 5 methods for the evaluation of intelligibility in mild to moderate French dysarthric speech. Cécile Fougeron, Nicolas Audibert, Ina Kodrasi, Parvaneh Janbakhshi, Michaela Pernon, Nathalie Lévêque, Stephanie Borel, Marina Laganaro, Hervé Bourlard, Frédéric Assal
2022	Comparison of Models for Detecting Off-Putting Speaking Styles. Diego Aguirre, Nigel G. Ward, Jonathan E. Avila, Heike Lehnert-LeHouillier
2022	Comparison of Unsupervised Learning and Supervised Learning with Noisy Labels for Low-Resource Speech Recognition. Yanick Schraner, Christian Scheller, Michel Plüss, Lukas Neukom, Manfred Vogel
2022	Compensation in Verbal and Nonverbal Communication after Total Laryngectomy. Marise Neijman, Femke Hof, Noelle Oosterom, Roland Pfau, Bertus van Rooy, Rob J. J. H. van Son, Michiel W. M. van den Brekel
2022	Complex Frequency Domain Linear Prediction: A Tool to Compute Modulation Spectrum of Speech. Samik Sadhu, Hynek Hermansky
2022	Complex Paralinguistic Analysis of Speech: Predicting Gender, Emotions and Deception in a Hierarchical Framework. Alena Velichko, Maxim Markitantov, Heysem Kaya, Alexey Karpov
2022	Complex sounds and cross-language influence: The case of ejectives in Omani Mehri. Rachid Ridouane, Philipp Buech
2022	Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation. Vinay Kothapally, John H. L. Hansen
2022	Compute Cost Amortized Transformer for Streaming ASR. Yi Xie, Jonathan Macoskey, Martin Radfar, Feng-Ju Chang, Brian John King, Ariya Rastrow, Athanasios Mouchtaris, Grant P. Strimel
2022	ConferencingSpeech 2022 Challenge: Non-intrusive Objective Speech Quality Assessment (NISQA) Challenge for Online Conferencing Applications. Gaoxiong Yi, Wei Xiao, Yiming Xiao, Babak Naderi, Sebastian Möller, Wafaa Wardah, Gabriel Mittag, Ross Cutler, Zhuohuang Zhang, Donald S. Williamson, Fei Chen, Fuzheng Yang, Shidong Shang
2022	Confidence Measure for Automatic Age Estimation From Speech. Amruta Saraf, Ganesh Sivaraman, Elie Khoury
2022	Confidence Score Based Conformer Speaker Adaptation for Speech Recognition. Jiajun Deng, Xurong Xie, Tianzi Wang, Mingyu Cui, Boyang Xue, Zengrui Jin, Mengzhe Geng, Guinan Li, Xunying Liu, Helen Meng
2022	Conformer Based Elderly Speech Recognition System for Alzheimer's Disease Detection. Tianzi Wang, Jiajun Deng, Mengzhe Geng, Zi Ye, Shoukang Hu, Yi Wang, Mingyu Cui, Zengrui Jin, Xunying Liu, Helen Meng
2022	Conformer Space Neural Architecture Search for Multi-Task Audio Separation. Shun Lu, Yang Wang, Peng Yao, Chenxing Li, Jianchao Tan, Feng Deng, Xiaorui Wang, Chengru Song
2022	Conformer with dual-mode chunked attention for joint online and offline ASR. Felix Weninger, Marco Gaudesi, Md. Akmal Haidar, Nicola Ferri, Jesús Andrés-Ferrer, Puming Zhan
2022	Confusion Detection for Adaptive Conversational Strategies of An Oral Proficiency Assessment Interview Agent. Mao Saeki, Kotoka Miyagi, Shinya Fujie, Shungo Suzuki, Tetsuji Ogawa, Tetsunori Kobayashi, Yoichi Matsuyama
2022	Content-Context Factorized Representations for Automated Speech Recognition. David M. Chan, Shalini Ghosh
2022	Content-Dependent Fine-Grained Speaker Embedding for Zero-Shot Speaker Adaptation in Text-to-Speech Synthesis. Yixuan Zhou, Changhe Song, Xiang Li, Luwen Zhang, Zhiyong Wu, Yanyao Bian, Dan Su, Helen Meng
2022	Context-aware Multimodal Fusion for Emotion Recognition. Jinchao Li, Shuai Wang, Yang Chao, Xunying Liu, Helen Meng
2022	Contextual Acoustic Barge-In Classification for Spoken Dialog Systems. Dhanush Bekal, Sundararajan Srinivasan, Srikanth Ronanki, Sravan Bodapati, Katrin Kirchhoff
2022	Contrastive Learning for Improving ASR Robustness in Spoken Language Understanding. Ya-Hsin Chang, Yun-Nung Chen
2022	Contribution of the glottal flow residual in affect-related voice transformation. Zihan Wang, Christer Gobl
2022	ConvRNN-T: Convolutional Augmented Recurrent Neural Network Transducers for Streaming Speech Recognition. Martin Radfar, Rohit Barnwal, Rupak Vignesh Swaminathan, Feng-Ju Chang, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris
2022	Convolutional Neural Networks for Classification of Voice Qualities from Speech and Neck Surface Accelerometer Signals. Sudarsana Reddy Kadiri, Farhad Javanmardi, Paavo Alku
2022	Convolutional Recurrent Neural Network with Auxiliary Stream for Robust Variable-Length Acoustic Scene Classification. Joon-Hyuk Chang, Won-Gook Choi
2022	Convolutional Recurrent Smart Speech Enhancement Architecture for Hearing Aids. Soha A. Nossier, Julie A. Wall, Mansour Moniri, Cornelius Glackin, Nigel Cannings
2022	Convolutive Weighted Multichannel Wiener Filter Front-end for Distant Automatic Speech Recognition in Reverberant Multispeaker Scenarios. Mieszko Fras, Marcin Witkowski, Konrad Kowalczyk
2022	Cooperative Speech Separation With a Microphone Array and Asynchronous Wearable Devices. Ryan M. Corey, Manan Mittal, Kanad Sarkar, Andrew C. Singer
2022	CopyCat2: A Single Model for Multi-Speaker TTS and Many-to-Many Fine-Grained Prosody Transfer. Sri Karlapati, Penny Karanasou, Mateusz Lajszczak, Syed Ammar Abbas, Alexis Moinet, Peter Makarov, Ray Li, Arent van Korlaar, Simon Slangen, Thomas Drugman
2022	Correcting Mispronunciations in Speech using Spectrogram Inpainting. Talia Ben Simon, Felix Kreuk, Faten Awwad, Jacob T. Cohen, Joseph Keshet
2022	Coswara: A website application enabling COVID-19 screening by analysing respiratory sound samples and health symptoms. Debarpan Bhattacharya, Debottam Dutta, Neeraj Kumar Sharma, Srikanth Raj Chetupalli, Pravin Mote, Sriram Ganapathy, Chandrakiran C, Sahiti Nori, Suhail K. K, Sadhana Gonuguntla, Murali Alagesan
2022	Couple learning for semi-supervised sound event detection. Rui Tao, Long Yan, Kazushige Ouchi, Xiangdong Wang
2022	Coupled Discriminant Subspace Alignment for Cross-database Speech Emotion Recognition. Shaokai Li, Peng Song, Keke Zhao, Wenjing Zhang, Wenming Zheng
2022	Creating New Voices using Normalizing Flows. Piotr Bilinski, Thomas Merritt, Abdelhamid Ezzerg, Kamil Pokora, Sebastian Cygert, Kayoko Yanagisawa, Roberto Barra-Chicote, Daniel Korzekwa
2022	Cross-Age Speaker Verification: Learning Age-Invariant Speaker Embeddings. Xiaoyi Qin, Na Li, Chao Weng, Dan Su, Ming Li
2022	Cross-Cultural Comparison of Gradient Emotion Perception: Human vs. Alexa TTS Voices. Iona Gessinger, Michelle Cohn, Georgia Zellou, Bernd Möbius
2022	Cross-Layer Similarity Knowledge Distillation for Speech Enhancement. Jiaming Cheng, Ruiyu Liang, Yue Xie, Li Zhao, Björn W. Schuller, Jie Jia, Yiyuan Peng
2022	Cross-Lingual Transfer Learning Approach to Phoneme Error Detection via Latent Phonetic Representation. Jovan M. Dalhouse, Katunobu Itou
2022	Cross-Modal Decision Regularization for Simultaneous Speech Translation. Mohd Abbas Zaidi, Beomseok Lee, Sangha Kim, Chanwoo Kim
2022	Cross-Scale Vector Quantization for Scalable Neural Speech Coding. Xue Jiang, Xiulian Peng, Huaying Xue, Yuan Zhang, Yan Lu
2022	Cross-Speaker Emotion Transfer for Low-Resource Text-to-Speech Using Non-Parallel Voice Conversion with Pitch-Shift Data Augmentation. Ryo Terashima, Ryuichi Yamamoto, Eunwoo Song, Yuma Shirahata, Hyun-Wook Yoon, Jae-Min Kim, Kentaro Tachibana
2022	Cross-dialect lexicon optimisation for an endangered language ASR system: the case of Irish. Liam Lonergan, Mengjie Qian, Neasa Ní Chiaráin, Christer Gobl, Ailbhe Ní Chasaide
2022	Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition. Abner Hernandez, Paula Andrea Pérez-Toro, Elmar Nöth, Juan Rafael Orozco-Arroyave, Andreas K. Maier, Seung Hee Yang
2022	Cross-lingual Style Transfer with Conditional Prior VAE and Style Loss. Dino Rattcliffe, You Wang, Alex Mansbridge, Penny Karanasou, Alexis Moinet, Marius Cotescu
2022	Cross-lingual articulatory feature information transfer for speech recognition using recurrent progressive neural networks. Mahir Morshed, Mark Hasegawa-Johnson
2022	Cross-modal Transfer Learning via Multi-grained Alignment for End-to-End Spoken Language Understanding. Yi Zhu, Zexun Wang, Hang Liu, Peiying Wang, Mingchao Feng, Meng Chen, Xiaodong He
2022	Cross-speaker Emotion Transfer Based On Prosody Compensation for End-to-End Speech Synthesis. Tao Li, Xinsheng Wang, Qicong Xie, Zhichao Wang, Mingqi Jiang, Lei Xie
2022	CycleGAN-based Unpaired Speech Dereverberation. Hannah Muckenhirn, Aleksandr Safin, Hakan Erdogan, Felix de Chaumont Quitry, Marco Tagliasacchi, Scott Wisdom, John R. Hershey
2022	CyclicAugment: Speech Data Random Augmentation with Cosine Annealing Scheduler for Auotmatic Speech Recognition. Zhihan Wang, Feng Hou, Yuanhang Qiu, Zhizhong Ma, Satwinder Singh, Ruili Wang
2022	DAVIS: Driver's Audio-Visual Speech recognition. Denis Ivanko, Dmitry Ryumin, Alexey M. Kashevnik, Alexandr Axyonov, Andrey Kitenko, Igor Lashkov, Alexey Karpov
2022	DCTCN: Deep Complex Temporal Convolutional Network for Long Time Speech Enhancement. Jigang Ren, Qirong Mao
2022	DDKtor: Automatic Diadochokinetic Speech Analysis. Yael Segal, Kasia Hitczenko, Matthew Goldrick, Adam Buchwald, Angela Roberts, Joseph Keshet
2022	DDOS: A MOS Prediction Framework utilizing Domain Adaptive Pre-training and Distribution of Opinion Scores. Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee
2022	DDS: A new device-degraded speech dataset for speech enhancement. Haoyu Li, Junichi Yamagishi
2022	DEFORMER: Coupling Deformed Localized Patterns with Global Context for Robust End-to-end Speech Recognition. Jiamin Xie, John H. L. Hansen
2022	DENT-DDSP: Data-efficient noisy speech generator using differentiable digital signal processors for explicit distortion modelling and noise-robust speech recognition. Zixun Guo, Chen Chen, Eng Siong Chng
2022	DF-ResNet: Boosting Speaker Verification Performance with Depth-First Design. Bei Liu, Zhengyang Chen, Shuai Wang, Haoyu Wang, Bing Han, Yanmin Qian
2022	DRAFT: A Novel Framework to Reduce Domain Shifting in Self-supervised Learning and Its Application to Children's ASR. Ruchao Fan, Abeer Alwan
2022	DRSpeech: Degradation-Robust Text-to-Speech Synthesis with Frame-Level and Utterance-Level Acoustic Representation Learning. Takaaki Saeki, Kentaro Tachibana, Ryuichi Yamamoto
2022	DUAL: Discrete Spoken Unit Adaptive Learning for Textless Spoken Question Answering. Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-Wen Yang, Hsuan-Jui Chen, Shuyan Annie Dong, Shang-wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-Shan Lee
2022	Daft-Exprt: Cross-Speaker Prosody Transfer on Any Text for Expressive Speech Synthesis. Julian Zaïdi, Hugo Seuté, Benjamin van Niekerk, Marc-André Carbonneau
2022	Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection. Kai Li, Sheng Li, Xugang Lu, Masato Akagi, Meng Liu, Lin Zhang, Chang Zeng, Longbiao Wang, Jianwu Dang, Masashi Unoki
2022	Data Augmentation for Dementia Detection in Spoken Language. Dominika Woszczyk, Anna Hlédiková, Alican Akman, Soteris Demetriou, Björn W. Schuller
2022	Data Augmentation for End-to-end Silent Speech Recognition for Laryngectomees. Beiming Cao, Kristin Teplansky, Nordine Sebkhi, Arpan Bhavsar, Omer T. Inan, Robin Samlan, Ted Mau, Jun Wang
2022	Data Augmentation for Low-Resource Quechua ASR Improvement. Rodolfo Zevallos, Núria Bel, Guillermo Cámbara, Mireia Farrús, Jordi Luque
2022	Data-augmented cross-lingual synthesis in a teacher-student framework. Marcel de Korte, Jaebok Kim, Aki Kunikoshi, Adaeze Adigwe, Esther Klabbers
2022	Dataset Pruning for Resource-constrained Spoofed Audio Detection. Abdul Hameed Azeemi, Ihsan Ayyub Qazi, Agha Ali Raza
2022	DeID-VC: Speaker De-identification via Zero-shot Pseudo Voice Conversion. Ruibin Yuan, Yuxuan Wu, Jacob Li, Jaxter Kim
2022	DeToxy: A Large-Scale Multimodal Dataset for Toxicity Classification in Spoken Utterances. Sreyan Ghosh, Samden Lepcha, Sakshi Singh, Rajiv Ratn Shah, Srinivasan Umesh
2022	Dealing with Unknowns in Continual Learning for End-to-end Automatic Speech Recognition. Martin Sustek, Samik Sadhu, Hynek Hermansky
2022	Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR. Ondrej Klejch, Electra Wallington, Peter Bell
2022	Decoupled Federated Learning for ASR with Non-IID Data. Han Zhu, Jindong Wang, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan
2022	Decoupled Pronunciation and Prosody Modeling in Meta-Learning-based Multilingual Speech Synthesis. Yukun Peng, Zhenhua Ling
2022	Deep Audio Waveform Prior. Arnon Turetzky, Tzvi Michelson, Yossi Adi, Shmuel Peleg
2022	Deep CNN-based Inductive Transfer Learning for Sarcasm Detection in Speech. Xiyuan Gao, Shekhar Nayak, Matt Coler
2022	Deep LSTM Spoken Term Detection using Wav2Vec 2.0 Recognizer. Jan Svec, Jan Lehecka, Lubos Smídl
2022	Deep Learning Approaches for Detecting Alzheimer's Dementia from Conversational Speech of ILSE Study. Ayimnisagul Ablimit, Karen Scholz, Tanja Schultz
2022	Deep Learning for Prosody-Based Irony Classification in Spontaneous Speech. Helen Gent, Chase Adams, Yan Tang, Chilin Shih
2022	Deep Neural Convolutive Matrix Factorization for Articulatory Representation Decomposition. Jiachen Lian, Alan W. Black, Louis Goldstein, Gopala Krishna Anumanchipalli
2022	Deep Segment Model for Acoustic Scene Classification. Yajian Wang, Jun Du, Hang Chen, Qing Wang, Chin-Hui Lee
2022	Deep Self-Supervised Learning of Speech Denoising from Noisy Speeches. Yutaro Sanada, Takumi Nakagawa, Yuichiro Wada, Kosaku Takanashi, Yuhui Zhang, Kiichi Tokuyama, Takafumi Kanamori, Tomonori Yamada
2022	Deep Sparse Conformer for Speech Recognition. Xianchao Wu
2022	Deep Speech Synthesis from Articulatory Representations. Peter Wu, Shinji Watanabe, Louis Goldstein, Alan W. Black, Gopala Krishna Anumanchipalli
2022	Deep Transductive Transfer Regression Network for Cross-Corpus Speech Emotion Recognition. Yan Zhao, Jincen Wang, Ru Ye, Yuan Zong, Wenming Zheng, Li Zhao
2022	Deep residual spiking neural network for keyword spotting in low-resource settings. Qu Yang, Qi Liu, Haizhou Li
2022	Deep speaker embedding with frame-constrained training strategy for speaker verification. Bin Gu
2022	Deep versus Wide: An Analysis of Student Architectures for Task-Agnostic Knowledge Distillation of Self-Supervised Speech Models. Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka
2022	DeepFry: Identifying Vocal Fry Using Deep Neural Networks. Bronya Roni Chernyak, Talia Ben Simon, Yael Segal, Jeremy Steffman, Eleanor Chodroff, Jennifer Cole, Joseph Keshet
2022	Defense against Adversarial Attacks on Hybrid Speech Recognition System using Adversarial Fine-tuning with Denoiser. Sonal Joshi, Saurabh Kataria, Yiwen Shao, Piotr Zelasko, Jesús Villalba, Sanjeev Khudanpur, Najim Dehak
2022	Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification. Yuya Yamamoto, Juhan Nam, Hiroko Terasawa
2022	Deliberation Model for On-Device Spoken Language Understanding. Duc Le, Akshat Shrivastava, Paden D. Tomasello, Suyoun Kim, Aleksandr Livshits, Ozlem Kalinli, Michael L. Seltzer
2022	DelightfulTTS 2: End-to-End Speech Synthesis with Adversarial Vector-Quantized Auto-Encoders. Yanqing Liu, Ruiqing Xue, Lei He, Xu Tan, Sheng Zhao
2022	Densely-connected Convolutional Recurrent Network for Fundamental Frequency Estimation in Noisy Speech. Yixuan Zhang, Heming Wang, DeLiang Wang
2022	Design Guidelines for Inclusive Speaker Verification Evaluation Datasets. Wiebke Toussaint, Lauriane Gorce, Aaron Yi Ding
2022	Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0. Sebastian Peter Bayerl, Dominik Wagner, Elmar Nöth, Korbinian Riedhammer
2022	Detecting Heart Failure Through Voice Analysis using Self-Supervised Mode-Based Memory Fusion. Darshana Priyasad, Andi Partovi, Sridha Sridharan, Maryam Kashefpoor, Tharindu Fernando, Simon Denman, Clinton Fookes, Jia Tang, David Kaye
2022	Detecting Unintended Memorization in Language-Model-Fused ASR. W. Ronny Huang, Steve Chien, Om Dipakbhai Thakkar, Rajiv Mathews
2022	Detection of Learners' Listening Breakdown with Oral Dictation and Its Use to Model Listening Skill Improvement Exclusively Through Shadowing. Takuya Kunihara, Chuanbo Zhu, Daisuke Saito, Nobuaki Minematsu, Noriko Nakanishi
2022	Development of allophonic realization until adolescence: A production study of the affricate-fricative variation of /z/ among Japanese children. Sanae Matsui, Kyoji Iwamoto, Reiko Mazuka
2022	Device-Directed Speech Detection: Regularization via Distillation for Weakly-Supervised Models. Vineet Garg, Ognjen Rudovic, Pranay Dighe, Ahmed Hussen Abdelaziz, Erik Marchi, Saurabh Adya, Chandra Dhir, Ahmed H. Tewfik
2022	Dialogue Acts Aided Important Utterance Detection Based on Multiparty and Multimodal Information. Fumio Nihei, Ryo Ishii, Yukiko I. Nakano, Kyosuke Nishida, Ryo Masumura, Atsushi Fukayama, Takao Nakamura
2022	Differential Time-frequency Log-mel Spectrogram Features for Vision Transformer Based Infant Cry Recognition. Hai-Tao Xu, Jie Zhang, Li-Rong Dai
2022	Diffusion Generative Vocoder for Fullband Speech Synthesis Based on Weak Third-order SDE Solver. Hideyuki Tachibana, Muneyoshi Inahara, Mocho Go, Yotaro Katayama, Yotaro Watanabe
2022	Directed speech separation for automatic speech recognition of long form conversational speech. Rohit Paturi, Sundararajan Srinivasan, Katrin Kirchhoff, Daniel Garcia-Romero
2022	Direction-Aware Joint Adaptation of Neural Speech Enhancement and Recognition in Real Multiparty Conversational Environments. Yicheng Du, Aditya Arie Nugraha, Kouhei Sekiguchi, Yoshiaki Bando, Mathieu Fontaine, Kazuyoshi Yoshii
2022	Discriminative Adversarial Learning for Speaker Independent Emotion Recognition. L. L. Chamara Kasun, Chung Soo Ahn, Jagath C. Rajapakse, Zhiping Lin, Guang-Bin Huang
2022	Discriminative Feature Representation Based on Cascaded Attention Network with Adversarial Joint Loss for Speech Emotion Recognition. Yang Liu, Haoqin Sun, Wenbo Guan, Yuqi Xia, Zhen Zhao
2022	Disentangled Latent Speech Representation for Automatic Pathological Intelligibility Assessment. Tobias Weise, Philipp Klumpp, Andreas K. Maier, Elmar Nöth, Björn Heismann, Maria Schuster, Seung Hee Yang
2022	Disentanglement of Emotional Style and Speaker Identity for Expressive Voice Conversion. Zongyang Du, Berrak Sisman, Kun Zhou, Haizhou Li
2022	Disentangling the Impacts of Language and Channel Variability on Speech Separation Networks. Fan-Lin Wang, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
2022	Distance-Based Sound Separation. Katharine Patterson, Kevin W. Wilson, Scott Wisdom, John R. Hershey
2022	Distilling a Pretrained Language Model to a Multilingual ASR Model. Kwanghee Choi, Hyung-Min Park
2022	Distinguishing between pre- and post-treatment in the speech of patients with chronic obstructive pulmonary disease. Andreas Triantafyllopoulos, Markus Fendler, Anton Batliner, Maurice Gerczuk, Shahin Amiriparian, Thomas M. Berghaus, Björn W. Schuller
2022	DocLayoutTTS: Dataset and Baselines for Layout-informed Document-level Neural Speech Synthesis. Puneet Mathur, Franck Dernoncourt, Quan Hung Tran, Jiuxiang Gu, Ani Nenkova, Vlad I. Morariu, Rajiv Jain, Dinesh Manocha
2022	Does Audio Deepfake Detection Generalize? Nicolas M. Müller, Pavel Czempin, Franziska Dieckmann, Adam Froghyar, Konstantin Böttinger
2022	Does Utterance entails Intent?: Evaluating Natural Language Inference Based Setup for Few-Shot Intent Detection. Ayush Kumar, Vijit Malik, Jithendra Vepa
2022	Domain Adversarial Self-Supervised Speech Representation Learning for Improving Unknown Domain Downstream Tasks. Tomohiro Tanaka, Ryo Masumura, Hiroshi Sato, Mana Ihori, Kohei Matsuura, Takanori Ashihara, Takafumi Moriya
2022	Domain Agnostic Few-shot Learning for Speaker Verification. Seunghan Yang, Debasmit Das, Janghoon Cho, Hyoungwoo Park, Sungrack Yun
2022	Domain Generalization with Relaxed Instance Frequency-wise Normalization for Multi-device Acoustic Scene Classification. Byeonggeun Kim, Seunghan Yang, Jangho Kim, Hyunsin Park, Juntae Lee, Simyung Chang
2022	Domain Prompts: Towards memory and compute efficient domain adaptation of ASR systems. Saket Dingliwal, Ashish Shenoy, Sravan Bodapati, Ankur Gandhe, Ravi Teja Gadde, Katrin Kirchhoff
2022	Domain-aware Intermediate Pretraining for Dementia Detection with Limited Data. Youxiang Zhu, Xiaohui Liang, John A. Batsis, Robert M. Roth
2022	Dual Path Embedding Learning for Speaker Verification with Triplet Attention. Bei Liu, Zhengyang Chen, Yanmin Qian
2022	Dummy Prototypical Networks for Few-Shot Open-Set Keyword Spotting. Byeonggeun Kim, Seunghan Yang, Inseop Chung, Simyung Chang
2022	Durational Patterning at Discourse Boundaries in Relation to Therapist Empathy in Psychotherapy. Jonathan Him Nok Lee, Dehua Tao, Harold Chui, Tan Lee, Sarah Luk, Nicolette Wing Tung Lee, Koonkan Fung
2022	DyConvMixer: Dynamic Convolution Mixer Architecture for Open-Vocabulary Keyword Spotting. Waseem Gharbieh, Jinmiao Huang, Qianhui Wan, Han Suk Shim, Hyun Chul Lee
2022	Dyadic Interaction Assessment from Free-living Audio for Depression Severity Assessment. Bishal Lamichhane, Nidal Moukaddam, Ankit B. Patel, Ashutosh Sabharwal
2022	Dynamic Sliding Window Modeling for Abstractive Meeting Summarization. Zhengyuan Liu, Nancy F. Chen
2022	Dynamic Vertical Larynx Actions Under Prosodic Focus. Miran Oh, Yoon-Jeong Lee
2022	Dysarthric Speech Recognition From Raw Waveform with Parametric CNNs. Zhengjun Yue, Erfan Loweimi, Heidi Christensen, Jon Barker, Zoran Cvetkovic
2022	E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR. W. Ronny Huang, Shuo-Yiin Chang, David Rybach, Tara N. Sainath, Rohit Prabhavalkar, Cal Peyser, Zhiyun Lu, Cyril Allauzen
2022	ECAPA-TDNN Based Depression Detection from Clinical Speech. Dong Wang, Yanhui Ding, Qing Zhao, Peilin Yang, Shuping Tan, Ya Li
2022	EDITnet: A Lightweight Network for Unsupervised Domain Adaptation in Speaker Verification. Jingyu Li, Wei Liu, Tan Lee
2022	ELO-SPHERES intelligibility prediction model for the Clarity Prediction Challenge 2022. Mark A. Huckvale, Gaston Hilkhuysen
2022	EPIC TTS Models: Empirical Pruning Investigations Characterizing Text-To-Speech Models. Perry Lam, Huayun Zhang, Nancy F. Chen, Berrak Sisman
2022	ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding. Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell, Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhong-Qiu Wang, Yu Tsao, Yanmin Qian, Shinji Watanabe
2022	ESSumm: Extractive Speech Summarization from Untranscribed Meeting. Jun Wang
2022	EdiTTS: Score-based Editing for Controllable Text-to-Speech. Jaesung Tae, Hyeongju Kim, Taesu Kim
2022	Effect and Analysis of Large-scale Language Model Rescoring on Competitive ASR Systems. Takuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Nobuyasu Itoh, George Saon
2022	Effect of Head Orientation on Speech Directivity. Samuel Bellows, Timothy W. Leishman
2022	Effects of Language Contact on Vowel Nasalization in Wenzhou and Rugao Dialects. Yan Li, Ying Chen, Xinya Zhang, Yanyang Chen, Jiazheng Wang
2022	Effects of Noise on Speech Perception and Spoken Word Comprehension. Jovan Eranovic, Daniel Pape, Magda Stroinska, Elisabet Service, Marijana Matkovski
2022	Effects of laryngeal manipulations on voice gender perception. Zhaoyan Zhang, Jason Zhang, Jody Kreiman
2022	Efficient Speech Enhancement with Neural Homomorphic Synthesis. Wenbin Jiang, Tao Liu, Kai Yu
2022	Efficient Training of Audio Transformers with Patchout. Khaled Koutini, Jan Schlüter, Hamid Eghbal-zadeh, Gerhard Widmer
2022	Efficient Training of Neural Transducer for Speech Recognition. Wei Zhou, Wilfried Michel, Ralf Schlüter, Hermann Ney
2022	Efficient Transformer-based Speech Enhancement Using Long Frames and STFT Magnitudes. Danilo de Oliveira, Tal Peer, Timo Gerkmann
2022	Eliciting and evaluating likelihood ratios for speaker recognition by human listeners under forensically realistic channel-mismatched conditions. Vincent Hughes, Carmen Llamas, Thomas Kettig
2022	Embedding Recurrent Layers with Dual-Path Strategy in a Variant of Convolutional Network for Speaker-Independent Speech Separation. Xue Yang, Changchun Bao
2022	Emotion-Shift Aware CRF for Decoding Emotion Sequence in Conversation. Chun-Yu Chen, Yun-Shao Lin, Chi-Chun Lee
2022	Emphasis Control for Parallel Neural TTS. Shreyas Seshadri, Tuomo Raitio, Dan Castellani, Jiangchuan Li
2022	Empirical Sampling from Latent Utterance-wise Evidence Model for Missing Data ASR based on Neural Encoder-Decoder Model. Ryu Takeda, Yui Sudo, Kazuhiro Nakadai, Kazunori Komatani
2022	Enabling Off-the-Shelf Disfluency Detection and Categorization for Pathological Speech. Amrit Romana, Minxue Niu, Matthew Perez, Angela Roberts, Emily Mower Provost
2022	End-To-End Label Uncertainty Modeling for Speech-based Arousal Recognition Using Bayesian Neural Networks. Navin Raj Prabhu, Guillaume Carbajal, Nale Lehmann-Willenbrock, Timo Gerkmann
2022	End-to-End Audio-Visual Neural Speaker Diarization. Mao-Kui He, Jun Du, Chin-Hui Lee
2022	End-to-End Binaural Speech Synthesis. Wen-Chin Huang, Dejan Markovic, Alexander Richard, Israel Dejene Gebru, Anjali Menon
2022	End-to-End Dependency Parsing of Spoken French. Adrien Pupier, Maximin Coavoux, Benjamin Lecouteux, Jérôme Goulian
2022	End-to-End Integration of Speech Recognition, Speech Enhancement, and Self-Supervised Learning Representation. Xuankai Chang, Takashi Maekaku, Yuya Fujita, Shinji Watanabe
2022	End-to-End Joint Modeling of Conversation History-Dependent and Independent ASR Systems with Multi-History Training. Ryo Masumura, Yoshihiro Yamazaki, Saki Mizuno, Naoki Makishima, Mana Ihori, Mihiro Uchida, Hiroshi Sato, Tomohiro Tanaka, Akihiko Takashima, Satoshi Suzuki, Shota Orihashi, Takafumi Moriya, Nobukatsu Hojo, Atsushi Ando
2022	End-to-End Multi-Loss Training for Low Delay Packet Loss Concealment. Nan Li, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu
2022	End-to-End Neural Speaker Diarization with an Iterative Refinement of Non-Autoregressive Attention-based Attractors. Magdalena Rybicka, Jesús Villalba, Najim Dehak, Konrad Kowalczyk
2022	End-to-End Spontaneous Speech Recognition Using Disfluency Labeling. Koharu Horii, Meiko Fukuda, Kengo Ohta, Ryota Nishimura, Atsunori Ogawa, Norihide Kitaoka
2022	End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue. Kentaro Mitsui, Tianyu Zhao, Kei Sawada, Yukiya Hono, Yoshihiko Nankaku, Keiichi Tokuda
2022	End-to-End multi-talker audio-visual ASR using an active speaker attention module. Richard Rose, Olivier Siohan
2022	End-to-end LPCNet: A Neural Vocoder With Fully-Differentiable LPC Estimation. Krishna Subramani, Jean-Marc Valin, Umut Isik, Paris Smaragdis, Arvindh Krishnaswamy
2022	End-to-end Mispronunciation Detection with Simulated Error Distance. Zhan Zhang, Yuehai Wang, Jianyi Yang
2022	End-to-end Speech-to-Punctuated-Text Recognition. Jumon Nozaki, Tatsuya Kawahara, Kenkichi Ishizuka, Taiichi Hashimoto
2022	End-to-end framework for spoof-aware speaker verification. Woo Hyun Kang, Jahangir Alam, Abderrahim Fathan
2022	End-to-end model for named entity recognition from speech without paired training data. Salima Mdhaffar, Jarod Duret, Titouan Parcollet, Yannick Estève
2022	End-to-end speech recognition modeling from de-identified data. Martin Flechl, Shou-Chun Yin, Junho Park, Peter Skala
2022	Enhanced Direct Speech-to-Speech Translation Using Self-supervised Pre-training and Data Augmentation. Sravya Popuri, Peng-Jen Chen, Changhan Wang, Juan Pino, Yossi Adi, Jiatao Gu, Wei-Ning Hsu, Ann Lee
2022	Enhancement of Pitch Controllability using Timbre-Preserving Pitch Augmentation in FastPitch. Hanbin Bae, Young-Sun Joo
2022	Enhancing Embeddings for Speech Classification in Noisy Conditions. Mohamed Nabih Ali, Alessio Brutti, Daniele Falavigna
2022	Enhancing Speech Privacy with Slicing. Mohamed Maouche, Brij Mohan Lal Srivastava, Nathalie Vauquier, Aurélien Bellet, Marc Tommasi, Emmanuel Vincent
2022	Enhancing Word-Level Semantic Representation via Dependency Structure for Expressive Text-to-Speech Synthesis. Yixuan Zhou, Changhe Song, Jingbei Li, Zhiyong Wu, Yanyao Bian, Dan Su, Helen Meng
2022	Enroll-Aware Attentive Statistics Pooling for Target Speaker Verification. Leying Zhang, Zhengyang Chen, Yanmin Qian
2022	Environment Aware Text-to-Speech Synthesis. Daxin Tan, Guangyan Zhang, Tan Lee
2022	Estimation of speaker age and height from speech signal using bi-encoder transformer mixture model. Tarun Gupta, Duc-Tuan Truong, Tran The Anh, Eng Siong Chng
2022	Evaluating User Perception of Speech Recognition System Quality with Semantic Distance Metric. Suyoun Kim, Duc Le, Weiyi Zheng, Tarun Singh, Abhinav Arora, Xiaoyu Zhai, Christian Fuegen, Ozlem Kalinli, Michael L. Seltzer
2022	Evaluating the Performance of State-of-the-Art ASR Systems on Non-Native English using Corpora with Extensive Language Background Variation. Samuel Hollands, Daniel Blackburn, Heidi Christensen
2022	Evaluating the effects of modified speech on perceptual speaker identification performance. Benjamin O'Brien, Christine Meunier, Alain Ghio
2022	Evaluation of call centre conversations based on a high-level symbolic representation. Leticia Arco, Carlos Mosquera, Fabjola Braho, Yisel Clavel Quintero, Johan Loeckx
2022	Evaluation of different antenna types and positions in a stepped frequency continuous-wave radar-based silent speech interface. João Vítor Menezes, Pouriya Amini Digehsara, Christoph Wagner, Marco Mütze, Michael Bärhold, Petr Schaffer, Dirk Plettemeier, Peter Birkholz
2022	Event-related data conditioning for acoustic event classification. Yuanbo Hou, Dick Botteldooren
2022	Evidence of Onset and Sustained Neural Responses to Isolated Phonemes from Intracranial Recordings in a Voice-based Cursor Control Task. Kevin Meng, Seo-Hyun Lee, Farhad Goodarzy, Simon J. Vogrin, Mark J. Cook, Seong-Whan Lee, David B. Grayden
2022	Evoc-Learn - High quality simulation of early vocal learning. Yi Xu, Anqi Xu, Daniel R. van Niekerk, Branislav Gerazov, Peter Birkholz, Paul Konstantin Krug, Santitham Prom-on, Lorna F. Halliday
2022	Example-based Explanations with Adversarial Attacks for Respiratory Sound Analysis. Yi Chang, Zhao Ren, Thanh Tam Nguyen, Wolfgang Nejdl, Björn W. Schuller
2022	Exploiting Co-occurrence Frequency of Emotions in Perceptual Evaluations To Train A Speech Emotion Classifier. Huang-Cheng Chou, Chi-Chun Lee, Carlos Busso
2022	Exploiting Fine-tuning of Self-supervised Learning Models for Improving Bi-modal Sentiment Analysis and Emotion Recognition. Wei Yang, Satoru Fukayama, Panikos Heracleous, Jun Ogata
2022	Exploiting Hidden Representations from a DNN-based Speech Recogniser for Speech Intelligibility Prediction in Hearing-impaired Listeners. Zehai Tu, Ning Ma, Jon Barker
2022	Exploration strategies for articulatory synthesis of complex syllable onsets. Daniel R. van Niekerk, Anqi Xu, Branislav Gerazov, Paul Konstantin Krug, Peter Birkholz, Yi Xu
2022	Exploring Capabilities of Monolingual Audio Transformers using Large Datasets in Automatic Speech Recognition of Czech. Jan Lehecka, Jan Svec, Ales Prazák, Josef Psutka
2022	Exploring Continuous Integrate-and-Fire for Adaptive Simultaneous Speech Translation. Chih-Chiang Chang, Hung-yi Lee
2022	Exploring Few-Shot Fine-Tuning Strategies for Models of Visually Grounded Speech. Tyler Miller, David Harwath
2022	Exploring Multi-task Learning Based Gender Recognition and Age Estimation for Class-imbalanced Data. Weiqiao Zheng, Ping Yang, Rongfeng Lai, Kongyang Zhu, Tao Zhang, Junpeng Zhang, Hongcheng Fu
2022	Exploring Semi-supervised Learning for Audio-based COVID-19 Detection using FixMatch. Ting Dang, Thomas Quinnell, Cecilia Mascolo
2022	Exploring Timbre Disentanglement in Non-Autoregressive Cross-Lingual Text-to-Speech. Haoyue Zhan, Xinyuan Yu, Haitong Zhang, Yang Zhang, Yue Lin
2022	Exploring audio-based stylistic variation in podcasts. Katariina Martikainen, Jussi Karlgren, Khiet Truong
2022	Exploring linguistic feature and model combination for speech recognition based automatic AD detection. Yi Wang, Tianzi Wang, Zi Ye, Lingwei Meng, Shoukang Hu, Xixin Wu, Xunying Liu, Helen Meng
2022	Exploring representation learning for small-footprint keyword spotting. Fan Cui, Liyong Guo, Quandong Wang, Peng Gao, Yujun Wang
2022	Exploring the influence of fine-tuning data on wav2vec 2.0 model for blind speech quality prediction. Helard Becerra Martinez, Alessandro Ragano, Andrew Hines
2022	Expressive, Variable, and Controllable Duration Modelling in TTS. Syed Ammar Abbas, Thomas Merritt, Alexis Moinet, Sri Karlapati, Ewa Muszynska, Simon Slangen, Elia Gatti, Thomas Drugman
2022	Extended U-Net for Speaker Verification in Noisy Environments. Ju-ho Kim, Jungwoo Heo, Hye-jin Shim, Ha-Jin Yu
2022	Extending Compositional Attention Networks for Social Reasoning in Videos. Christina Sartzetaki, Georgios Paraskevopoulos, Alexandros Potamianos
2022	Extending GCC-PHAT using Shift Equivariant Neural Networks. Axel Berg, Mark O'Connor, Kalle Åström, Magnus Oskarsson
2022	Extending RNN-T-based speech recognition systems with emotion and language classification. Zvi Kons, Hagai Aronowitz, Edmilson Da Silva Morais, Matheus Damasceno, Hong-Kwang Kuo, Samuel Thomas, George Saon
2022	External Text Based Data Augmentation for Low-Resource Speech Recognition in the Constrained Condition of OpenASR21 Challenge. Guolong Zhong, Hongyu Song, Ruoyu Wang, Lei Sun, Diyuan Liu, Jia Pan, Xin Fang, Jun Du, Jie Zhang, Lirong Dai
2022	Extract and Abstract with BART for Clinical Notes from Doctor-Patient Conversations. Jing Su, Longxiang Zhang, Hamid Reza Hassanzadeh, Thomas Schaaf
2022	Extracting Targeted Training Data from ASR Models, and How to Mitigate It. Ehsan Amid, Om Dipakbhai Thakkar, Arun Narayanan, Rajiv Mathews, Françoise Beaufays
2022	FFC-SE: Fast Fourier Convolution for Speech Enhancement. Ivan Shchekotov, Pavel K. Andreev, Oleg Ivanov, Aibek Alanov, Dmitry P. Vetrov
2022	FFM: A Frame Filtering Mechanism To Accelerate Inference Speed For Conformer In Speech Recognition. Zongfeng Quan, Nick J. C. Wang, Wei Chu, Tao Wei, Shaojun Wang, Jing Xiao
2022	Factors affecting the percept of Yanny v. Laurel (or mixed): Insights from a large-scale study on Swiss German listeners. Adrian Leemann, Péter Jeszenszky, Carina Steiner, Corinne Lanthemann
2022	Fast Grad-TTS: Towards Efficient Diffusion-Based Speech Generation on CPU. Ivan Vovk, Tasnima Sadekova, Vladimir Gogoryan, Vadim Popov, Mikhail A. Kudinov, Jiansheng Wei
2022	Fast Real-time Personalized Speech Enhancement: End-to-End Enhancement Network (E3Net) and Knowledge Distillation. Manthan Thakker, Sefik Emre Eskimez, Takuya Yoshioka, Huaming Wang
2022	FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised Learning Features in Robust End-to-end Speech Recognition. Szu-Jui Chen, Jiamin Xie, John H. L. Hansen
2022	FedNST: Federated Noisy Student Training for Automatic Speech Recognition. Haaris Mehmood, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay
2022	Federated Domain Adaptation for ASR with Full Self-Supervision. Junteng Jia, Jay Mahadeokar, Weiyi Zheng, Yuan Shangguan, Ozlem Kalinli, Frank Seide
2022	Federated Pruning: Improving Neural Network Efficiency with Federated Learning. Rongmei Lin, Yonghui Xiao, Tien-Ju Yang, Ding Zhao, Li Xiong, Giovanni Motta, Françoise Beaufays
2022	Federated Self-supervised Speech Representations: Are We There Yet? Yan Gao, Javier Fernández-Marqués, Titouan Parcollet, Abhinav Mehrotra, Nicholas D. Lane
2022	Few Shot Cross-Lingual TTS Using Transferable Phoneme Embedding. Wei-Ping Huang, Po-Chun Chen, Sung-Feng Huang, Hung-yi Lee
2022	FiLM Conditioning with Enhanced Feature to the Transformer-based End-to-End Noisy Speech Recognition. Da-Hee Yang, Joon-Hyuk Chang
2022	Filler Word Detection and Classification: A Dataset and Benchmark. Ge Zhu, Juan Pablo Cáceres, Justin Salamon
2022	Fine-grained Noise Control for Multispeaker Speech Synthesis. Karolos Nikitaras, Georgios Vamvoukakis, Nikolaos Ellinas, Konstantinos Klapsas, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis
2022	Finer-grained Modeling units-based Meta-Learning for Low-resource Tibetan Speech Recognition. Siqing Qin, Longbiao Wang, Sheng Li, Yuqin Lin, Jianwu Dang
2022	FitHuBERT: Going Thinner and Deeper for Knowledge Distillation of Speech Self-Supervised Models. Yeonghyeon Lee, Kangwook Jang, Jahyun Goo, Youngmoon Jung, Hoi Rin Kim
2022	FlowCPCVC: A Contrastive Predictive Coding Supervised Flow Framework for Any-to-Any Voice Conversion. Jiahong Huang, Wen Xu, Yule Li, Junshi Liu, Dongpeng Ma, Wei Xiang
2022	FlowVocoder: A small Footprint Neural Vocoder based Normalizing Flow for Speech Synthesis. Manh Luong, Viet-Anh Tran
2022	FluentTTS: Text-dependent Fine-grained Style Control for Multi-style TTS. ChangHwan Kim, Seyun Um, Hyungchan Yoon, Hong-Goo Kang
2022	Formant Estimation and Tracking using Probabilistic Heat-Maps. Yosi Shrem, Felix Kreuk, Joseph Keshet
2022	Frame-Level Stutter Detection. John B. Harvill, Mark Hasegawa-Johnson, Chang D. Yoo
2022	Frequency Dynamic Convolution: Frequency-Adaptive Pattern Recognition for Sound Event Detection. Hyeonuk Nam, Seong-Hu Kim, Byeong-Yun Ko, Yong-Hwa Park
2022	From Disfluency Detection to Intent Detection and Slot Filling. Mai Hoang Dao, Thinh Hung Truong, Dat Quoc Nguyen
2022	From Simulated Mixtures to Simulated Conversations as Training Data for End-to-End Neural Diarization. Federico Landini, Alicia Lozano-Diez, Mireia Díez, Lukás Burget
2022	From Start to Finish: Latency Reduction Strategies for Incremental Speech Synthesis in Simultaneous Speech-to-Speech Translation. Danni Liu, Changhan Wang, Hongyu Gong, Xutai Ma, Yun Tang, Juan Miguel Pino
2022	From Undercomplete to Sparse Overcomplete Autoencoders to Improve LF-MMI based Speech Recognition. Selen Hande Kabil, Hervé Bourlard
2022	Fully Automatic Balance between Directivity Factor and White Noise Gain for Large-scale Microphone Arrays in Diffuse Noise Fields. Weixin Meng, Chengshi Zheng, Xiaodong Li
2022	Fundamental Frequency Variability over Time in Telephone Interactions. Leah Bradshaw, Eleanor Chodroff, Lena A. Jäger, Volker Dellwo
2022	Fusion of Self-supervised Learned Models for MOS Prediction. Zhengdong Yang, Wangjin Zhou, Chenhui Chu, Sheng Li, Raj Dabre, Raphael Rubino, Yi Zhao
2022	GLD-Net: Improving Monaural Speech Enhancement by Learning Global and Local Dependency Features with GLD Block. Xinmeng Xu, Yang Wang, Jie Jia, Binbin Chen, Jianjun Hao
2022	Gated Convolutional Fusion for Time-Domain Target Speaker Extraction Network. Wenjing Liu, Chuan Xie
2022	Generalized Keyword Spotting using ASR embeddings. Kirandevraj R, Vinod Kumar Kurmi, Vinay P. Namboodiri, C. V. Jawahar
2022	Generalizing RNN-Transducer to Out-Domain Audio via Sparse Self-Attention Layers. Juntae Kim, Jeehye Lee
2022	Generating gender-ambiguous voices for privacy-preserving speech recognition. Dimitrios Stoidis, Andrea Cavallaro
2022	Generating iso-accented stimuli for second language research: methodology and a dataset for Spanish-accented English. Rubén Pérez Ramón, Martin Cooke, María Luisa García Lecumberri
2022	Generative Data Augmentation Guided by Triplet Loss for Speech Emotion Recognition. Shijun Wang, Hamed Hemati, Jón Guðnason, Damian Borth
2022	Global RNN Transducer Models For Multi-dialect Speech Recognition. Takashi Fukuda, Samuel Thomas, Masayuki Suzuki, Gakuto Kurata, George Saon, Brian Kingsbury
2022	Global Signal-to-noise Ratio Estimation Based on Multi-subband Processing Using Convolutional Neural Network. Nan Li, Meng Ge, Longbiao Wang, Masashi Unoki, Sheng Li, Jianwu Dang
2022	Glottal inverse filtering based on articulatory synthesis and deep learning. Ingo Langheinrich, Simon Stone, Xinyu Zhang, Peter Birkholz
2022	Glow-WaveGAN 2: High-quality Zero-shot Text-to-speech Synthesis and Any-to-any Voice Conversion. Yi Lei, Shan Yang, Jian Cong, Lei Xie, Dan Su
2022	GlowVC: Mel-spectrogram space disentangling model for language-independent text-free voice conversion. Magdalena Proszewska, Grzegorz Beringer, Daniel Sáez-Trigueros, Thomas Merritt, Abdelhamid Ezzerg, Roberto Barra-Chicote
2022	Gradual Improvements Observed in Learners' Perception and Production of L2 Sounds Through Continuing Shadowing Practices on a Daily Basis. Takuya Kunihara, Chuanbo Zhu, Nobuaki Minematsu, Noriko Nakanishi
2022	Gram Vaani ASR Challenge on spontaneous telephone speech recordings in regional variations of Hindi. Anish Bhanushali, Grant Bridgman, Deekshitha G, Prasanta Kumar Ghosh, Pratik Kumar, Saurabh Kumar, Adithya Raj Kolladath, Nithya Ravi, Aaditeshwar Seth, Ashish Seth, Abhayjeet Singh, Vrunda N. Sukhadia, Srinivasan Umesh, Sathvik Udupa, Lodagala V. S. V. Durga Prasad
2022	Graph-based Multi-View Fusion and Local Adaptation: Mitigating Within-Household Confusability for Speaker Identification. Long Chen, Yixiong Meng, Venkatesh Ravichandran, Andreas Stolcke
2022	HYU Submission for the SASV Challenge 2022: Reforming Speaker Embeddings with Spoofing-Aware Conditioning. Jeong-Hwan Choi, Joon-Young Yang, Ye-Rin Jeoung, Joon-Hyuk Chang
2022	Hear No Evil: Towards Adversarial Robustness of Automatic Speech Recognition via Multi-Task Learning. Nilaksh Das, Polo Chau
2022	Hesitations in Urdu/Hindi: Distribution and Properties of Fillers & Silences. Farhat Jabeen, Simon Betz
2022	Heterogeneous Target Speech Separation. Efthymios Tzinis, Gordon Wichern, Aswin Shanmugam Subramanian, Paris Smaragdis, Jonathan Le Roux
2022	Hierarchical Attention Network for Evaluating Therapist Empathy in Counseling Session. Dehua Tao, Tan Lee, Harold Chui, Sarah Luk
2022	Hierarchical Tagger with Multi-task Learning for Cross-domain Slot Filling. Xiao Wei, Yuke Si, Shiquan Wang, Longbiao Wang, Jianwu Dang
2022	Hierarchical and Multi-Scale Variational Autoencoder for Diverse and Natural Non-Autoregressive Text-to-Speech. Jae-Sung Bae, Jinhyeok Yang, Taejun Bak, Young-Sun Joo
2022	High level feature fusion in forensic voice comparison. Michael Carne, Yuko Kinoshita, Shunichi Ishihara
2022	Homophone Disambiguation Profits from Durational Information. Barbara Schuppler, Emil Berger, Xenia Kogler, Franz Pernkopf
2022	How bad are artifacts?: Analyzing the impact of speech enhancement errors on ASR. Kazuma Iwamoto, Tsubasa Ochiai, Marc Delcroix, Rintaro Ikeshita, Hiroshi Sato, Shoko Araki, Shigeru Katagiri
2022	How do our eyebrows respond to masks and whispering? The case of Persians. Nasim Mahdinazhad Sardhaei, Marzena Zygis, Hamid Sharifzadeh
2022	How to Listen? Rethinking Visual Sound Localization. Ho-Hsiang Wu, Magdalena Fuentes, Prem Seetharaman, Juan Pablo Bello
2022	Human Sound Classification based on Feature Fusion Method with Air and Bone Conducted Signal. Liang Xu, Jing Wang, Lizhong Wang, Sijun Bi, Jianqian Zhang, Qiuyue Ma
2022	Human-in-the-loop Speaker Adaptation for DNN-based Multi-speaker TTS. Kenta Udagawa, Yuki Saito, Hiroshi Saruwatari
2022	Humanizing bionic voice: interactive demonstration of aesthetic design and control factors influencing the devices assembly and waveshape engineering. Konrad Zielinski, Marek Grzelec, Martin Hagmüller
2022	Hybrid Handcrafted and Learnable Audio Representation for Analysis of Speech Under Cognitive and Physical Load. Gasser Elbanna, Alice Biryukov, Neil Scheidwasser-Clow, Lara Orlandic, Pablo Mainar, Mikolaj Kegler, Pierre Beckmann, Milos Cernak
2022	INTERSPEECH 2022 Audio Deep Packet Loss Concealment Challenge. Lorenz Diener, Sten Sootla, Solomiya Branets, Ando Saabas, Robert Aichner, Ross Cutler
2022	Idiosyncratic lingual articulation of American English /æ/ and /ɑ/ using network analysis. Carolina Lins Machado, Volker Dellwo, Lei He
2022	Impact of Acoustic Event Tagging on Scene Classification in a Multi-Task Learning Framework. Rahil Parikh, Harshavardhan Sundar, Ming Sun, Chao Wang, Spyros Matsoukas
2022	Impact of Background Noise and Contribution of Visual Information in Emotion Identification by Native Mandarin Speakers. Minyue Zhang, Hongwei Ding
2022	Impairment Representation Learning for Speech Quality Assessment. Lianwu Chen, Xinlei Ren, Xu Zhang, Xiguang Zheng, Chen Zhang, Liang Guo, Bing Yu
2022	Implicit Neural Spatial Filtering for Multichannel Source Separation in the Waveform Domain. Dejan Markovic, Alexandre Défossez, Alexander Richard
2022	Improve Speech Enhancement using Perception-High-Related Time-Frequency Loss. Ding Zhao, Zhan Zhang, Bin Yu, Yuehai Wang
2022	Improve emotional speech synthesis quality by learning explicit and implicit representations with semi-supervised training. Jiaxu He, Cheng Gong, Longbiao Wang, Di Jin, Xiaobao Wang, Junhai Xu, Jianwu Dang
2022	Improved ASR Performance for Dysarthric Speech Using Two-stage DataAugmentation. Chitralekha Bhat, Ashish Panda, Helmer Strik
2022	Improved CNN-Transformer using Broadcasted Residual Learning for Text-Independent Speaker Verification. Jeong-Hwan Choi, Joon-Young Yang, Ye-Rin Jeoung, Joon-Hyuk Chang
2022	Improved Consistency Training for Semi-Supervised Sequence-to-Sequence ASR via Speech Chain Reconstruction and Self-Transcribing. Heli Qi, Sashi Novitasari, Sakriani Sakti, Satoshi Nakamura
2022	Improved Modulation-Domain Loss for Neural-Network-based Speech Enhancement. Tyler Vuong, Richard M. Stern
2022	Improved Relation Networks for End-to-End Speaker Verification and Identification. Ashutosh Chaubey, Sparsh Sinha, Susmita Ghose
2022	Improving ASR Robustness in Noisy Condition Through VAD Integration. Sashi Novitasari, Takashi Fukuda, Gakuto Kurata
2022	Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction Model. Jennifer Drexler Fox, Natalie Delworth
2022	Improving Data Driven Inverse Text Normalization using Data Augmentation and Machine Translation. Debjyoti Paul, Yutong Pang, Szu-Jui Chen, Xuedong Zhang
2022	Improving Deliberation by Text-Only and Semi-Supervised Training. Ke Hu, Tara N. Sainath, Yanzhang He, Rohit Prabhavalkar, Trevor Strohman, Sepand Mavandadi, Weiran Wang
2022	Improving Distortion Robustness of Self-supervised Speech Processing Tasks with Domain Adaptation. Kuan-Po Huang, Yu-Kuan Fu, Yu Zhang, Hung-yi Lee
2022	Improving GAN-based vocoder for fast and high-quality speech synthesis. Mengnan He, Tingwei Guo, Zhenxing Lu, Ruixiong Zhang, Caixia Gong
2022	Improving Generalization of Deep Neural Network Acoustic Models with Length Perturbation and N-best Based Label Smoothing. Xiaodong Cui, George Saon, Tohru Nagano, Masayuki Suzuki, Takashi Fukuda, Brian Kingsbury, Gakuto Kurata
2022	Improving Hypernasality Estimation with Automatic Speech Recognition in Cleft Palate Speech. Kaitao Song, Teng Wan, Bixia Wang, Huiqiang Jiang, Luna Qiu, Jiahang Xu, Liping Jiang, Qun Lou, Yuqing Yang, Dongsheng Li, Xudong Wang, Lili Qiu
2022	Improving Language Identification of Accented Speech. Kunnar Kukk, Tanel Alumäe
2022	Improving Mandarin Prosodic Structure Prediction with Multi-level Contextual Information. Jie Chen, Changhe Song, Deyi Tuo, Xixin Wu, Shiyin Kang, Zhiyong Wu, Helen Meng
2022	Improving Mispronunciation Detection with Wav2vec2-based Momentum Pseudo-Labeling for Accentedness and Intelligibility Assessment. Mu Yang, Kevin Hirschi, Stephen Daniel Looney, Okim Kang, John H. L. Hansen
2022	Improving Phonetic Transcriptions of Children's Speech by Pronunciation Modelling with Constrained CTC-Decoding. Lars Rumberg, Christopher Gebauer, Hanna Ehlert, Ulrike Lüdtke, Jörn Ostermann
2022	Improving Rare Word Recognition with LM-aware MWER Training. Weiran Wang, Tongzhou Chen, Tara N. Sainath, Ehsan Variani, Rohit Prabhavalkar, W. Ronny Huang, Bhuvana Ramabhadran, Neeraj Gaur, Sepand Mavandadi, Cal Peyser, Trevor Strohman, Yanzhang He, David Rybach
2022	Improving Recognition of Out-of-vocabulary Words in E2E Code-switching ASR by Fusing Speech Generation Methods. Lingxuan Ye, Gaofeng Cheng, Runyan Yang, Zehui Yang, Sanli Tian, Pengyuan Zhang, Yonghong Yan
2022	Improving Speech Emotion Recognition Through Focus and Calibration Attention Mechanisms. Junghun Kim, Yoojin An, Jihie Kim
2022	Improving Speech Emotion Recognition Using Self-Supervised Learning with Domain-Specific Audiovisual Tasks. Lucas Goncalves, Carlos Busso
2022	Improving Speech Enhancement through Fine-Grained Speech Characteristics. Muqiao Yang, Joseph Konan, David Bick, Anurag Kumar, Shinji Watanabe, Bhiksha Raj
2022	Improving Spoken Language Understanding with Cross-Modal Contrastive Learning. Jingjing Dong, Jiayi Fu, Peng Zhou, Hao Li, Xiaorui Wang
2022	Improving Streaming End-to-End ASR on Transformer-based Causal Models with Encoder States Revision Strategies. Zehan Li, Haoran Miao, Keqi Deng, Gaofeng Cheng, Sanli Tian, Ta Li, Yonghong Yan
2022	Improving Target Sound Extraction with Timestamp Information. Helin Wang, Dongchao Yang, Chao Weng, Jianwei Yu, Yuexian Zou
2022	Improving Transformer-based Conversational ASR by Inter-Sentential Attention Mechanism. Kun Wei, Pengcheng Guo, Ning Jiang
2022	Improving Visual Speech Enhancement Network by Learning Audio-visual Affinity with Multi-head Attention. Xinmeng Xu, Yang Wang, Jie Jia, Binbin Chen, Dejun Li
2022	Improving Voice Trigger Detection with Metric Learning. Prateeth Nayak, Takuya Higuchi, Anmol Gupta, Shivesh Ranjan, Stephen Shum, Siddharth Sigtia, Erik Marchi, Varun Lakshminarasimhan, Minsik Cho, Saurabh Adya, Chandra Dhir, Ahmed H. Tewfik
2022	Improving the Training Recipe for a Robust Conformer-based Hybrid Model. Mohammad Zeineldeen, Jingjing Xu, Christoph Lüscher, Ralf Schlüter, Hermann Ney
2022	InQSS: a speech intelligibility and quality assessment model using a multi-task learning network. Yu-Wen Chen, Yu Tsao
2022	Incorporating Dual-Aware with Hierarchical Interactive Memory Networks for Task-Oriented Dialogue. Yangyang Ou, Peng Zhang, Jing Zhang, Hui Gao, Xing Ma
2022	Incremental Layer-Wise Self-Supervised Learning for Efficient Unsupervised Speech Domain Adaptation On Device. Zhouyuan Huo, Dongseong Hwang, Khe Chai Sim, Shefali Garg, Ananya Misra, Nikhil Siddhartha, Trevor Strohman, Françoise Beaufays
2022	Incremental learning for RNN-Transducer based speech recognition models. Deepak Baby, Pasquale D'Alterio, Valentin Mendelev
2022	Independence-based Joint Dereverberation and Separation with Neural Source Model. Kohei Saijo, Robin Scheibler
2022	Induce Spoken Dialog Intents via Deep Unsupervised Context Contrastive Clustering. Ting-Wei Wu, Biing-Hwang Juang
2022	Integrating Discrete Word-Level Style Variations into Non-Autoregressive Acoustic Models for Speech Synthesis. Zhaoci Liu, Ning-Qian Wu, Yajie Zhang, Zhenhua Ling
2022	Integrating Form and Meaning: A Multi-Task Learning Model for Acoustic Word Embeddings. Badr M. Abdullah, Bernd Möbius, Dietrich Klakow
2022	Intent classification using pre-trained language agnostic embeddings for low resource languages. Hemant Yadav, Akshat Gupta, Sai Krishna Rallabandi, Alan W. Black, Rajiv Ratn Shah
2022	InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR. Yu Nakagome, Tatsuya Komatsu, Yusuke Fujita, Shuta Ichimura, Yusuke Kida
2022	Interactive Auido-text Representation for Automated Audio Captioning with Contrastive Learning. Chen Chen, Nana Hou, Yuchen Hu, Heqing Zou, Xiaofeng Qi, Eng Siong Chng
2022	Interactive Co-Learning with Cross-Modal Transformer for Audio-Visual Emotion Recognition. Akihiko Takashima, Ryo Masumura, Atsushi Ando, Yoshihiro Yamazaki, Mihiro Uchida, Shota Orihashi
2022	Internal Language Model Adaptation with Text-Only Data for End-to-End Speech Recognition. Zhong Meng, Yashesh Gaur, Naoyuki Kanda, Jinyu Li, Xie Chen, Yu Wu, Yifan Gong
2022	Internal Language Model Estimation Through Explicit Context Vector Learning for Attention-based Encoder-decoder ASR. Yufei Liu, Rao Ma, Haihua Xu, Yi He, Zejun Ma, Weibin Zhang
2022	Interpretabilty of Speech Emotion Recognition modelled using Self-Supervised Speech and Text Pre-Trained Embeddings. K. V. Vijay Girish, Srikanth Konjeti, Jithendra Vepa
2022	Interpretable dysarthric speaker adaptation based on optimal-transport. Rosanna Turrisi, Leonardo Badino
2022	Interrelate Training and Searching: A Unified Online Clustering Framework for Speaker Diarization. Yifan Chen, Yifan Guo, Qingxuan Li, Gaofeng Cheng, Pengyuan Zhang, Yonghong Yan
2022	Intra-speaker phonetic variation in read speech: comparison with inter-speaker variability in a controlled population. Nicolas Audibert, Cécile Fougeron
2022	Introducing Auxiliary Text Query-modifier to Content-based Audio Retrieval. Daiki Takeuchi, Yasunori Ohishi, Daisuke Niizumi, Noboru Harada, Kunio Kashino
2022	Investigating Parameter Sharing in Multilingual Speech Translation. Qian Wang, Chen Wang, Jiajun Zhang
2022	Investigating Prosodic Variation in British English Varieties using ProPer. Hae-Sung Jeon, Stephen Nichols
2022	Investigating Self-supervised Pretraining Frameworks for Pathological Speech Recognition. Lester Phillip Violeta, Wen-Chin Huang, Tomoki Toda
2022	Investigating perception of spoken dialogue acceptability through surprisal. Sarenne Carrol Wallbridge, Catherine Lai, Peter Bell
2022	Investigating phonetic convergence of laughter in conversation. Bogdan Ludusan, Marin Schröer, Petra Wagner
2022	Investigating the Impact of Crosslingual Acoustic-Phonetic Similarities on Multilingual Speech Recognition. Muhammad Umar Farooq, Thomas Hain
2022	Investigating the Impact of Speech Compression on the Acoustics of Dysarthric Speech. Kelvin Tran, Lingfeng Xu, Gabriela Stegmann, Julie Liss, Visar Berisha, Rene Utianski
2022	Investigating the contribution of speaker attributes to speaker separability using disentangled speaker representations. Chau Luu, Steve Renals, Peter Bell
2022	Investigating the influence of personality on acoustic-prosodic entrainment. Andreas Weise, Rivka Levitan
2022	Investigation into Target Speaking Rate Adaptation for Voice Conversion. Michael Kuhlmann, Fritz Seebauer, Janek Ebbers, Petra Wagner, Reinhold Haeb-Umbach
2022	Investigation of Ensemble features of Self-Supervised Pretrained Models for Automatic Speech Recognition. A. Arunkumar, Vrunda Nileshkumar Sukhadia, Srinivasan Umesh
2022	Investigation on the Band Importance of Phase-aware Speech Enhancement. Zhuohuang Zhang, Donald S. Williamson, Yi Shen
2022	Isochronous is beautiful? Syllabic event detection in a neuro-inspired oscillatory model is facilitated by isochrony in speech. Mamady Nabé, Julien Diard, Jean-Luc Schwartz
2022	Isochrony-Aware Neural Machine Translation for Automatic Dubbing. Derek Tam, Surafel Melaku Lakew, Yogesh Virkar, Prashant Mathur, Marcello Federico
2022	Iterative Sound Source Localization for Unknown Number of Sources. Yanjie Fu, Meng Ge, Haoran Yin, Xinyuan Qian, Longbiao Wang, Gaoyan Zhang, Jianwu Dang
2022	J-MAC: Japanese multi-speaker audiobook corpus for speech synthesis. Shinnosuke Takamichi, Wataru Nakata, Naoko Tanji, Hiroshi Saruwatari
2022	JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech. Dan Lim, Sunghee Jung, Eesung Kim
2022	Japanese ASR-Robust Pre-trained Language Model with Pseudo-Error Sentences Generated by Grapheme-Phoneme Conversion. Yasuhito Ohsugi, Itsumi Saito, Kyosuke Nishida, Sen Yoshida
2022	Joint Encoder-Decoder Self-Supervised Pre-training for ASR. A. Arunkumar, Srinivasan Umesh
2022	Joint Estimation of Direction-of-Arrival and Distance for Arrays with Directional Sensors based on Sparse Bayesian Learning. Feifei Xiong, Pengyu Wang, Zhongfu Ye, Jinwei Feng
2022	Joint Modeling of Multi-Sample and Subband Signals for Fast Neural Vocoding on CPU. Hiroki Kanagawa, Yusuke Ijima, Hiroyuki Toda
2022	Joint Neural AEC and Beamforming with Double-Talk Detection. Vinay Kothapally, Yong Xu, Meng Yu, Shi-Xiong Zhang, Dong Yu
2022	Joint Optimization of Sampling Rate Offsets Based on Entire Signal Relationship Among Distributed Microphones. Yoshiki Masuyama, Kouei Yamaoka, Nobutaka Ono
2022	Joint Optimization of the Module and Sign of the Spectral Real Part Based on CRN for Speech Denoising. Zilu Guo, Xu Xu, Zhongfu Ye
2022	Joint domain adaptation and speech bandwidth extension using time-domain GANs for speaker verification. Saurabh Kataria, Jesús Villalba, Laureano Moro-Velázquez, Najim Dehak
2022	K-Wav2vec 2.0: Automatic Speech Recognition based on Joint Decoding of Graphemes and Syllables. Jounghee Kim, Pilsung Kang
2022	KSC2: An Industrial-Scale Open-Source Kazakh Speech Corpus. Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol
2022	KaraTuner: Towards End-to-End Natural Pitch Correction for Singing Voice in Karaoke. Xiaobin Zhuang, Huiran Yu, Weifeng Zhao, Tao Jiang, Peng Hu
2022	Karaoker: Alignment-free singing voice synthesis with speech training data. Panagiotis Kakoulidis, Nikolaos Ellinas, Georgios Vamvoukakis, Konstantinos Markopoulos, June Sig Sung, Gunu Jho, Pirros Tsiakoulis, Aimilios Chalamandaris
2022	Keyword Spotting with Synthetic Data using Heterogeneous Knowledge Distillation. Yuna Lee, Seung Jun Baek
2022	Knowledge Distillation For CTC-based Speech Recognition Via Consistent Acoustic Representation Learning. Sanli Tian, Keqi Deng, Zehan Li, Lingxuan Ye, Gaofeng Cheng, Ta Li, Yonghong Yan
2022	Knowledge Distillation via Module Replacing for Automatic Speech Recognition with Recurrent Neural Network Transducer. Kaiqi Zhao, Hieu Nguyen, Animesh Jain, Nathan Susanj, Athanasios Mouchtaris, Lokesh Gupta, Ming Zhao
2022	Knowledge Transfer and Distillation from Autoregressive to Non-Autoregessive Speech Recognition. Xun Gong, Zhikai Zhou, Yanmin Qian
2022	Knowledge distillation for In-memory keyword spotting model. Zeyang Song, Qi Liu, Qu Yang, Haizhou Li
2022	Knowledge of accent differences can be used to predict speech recognition. Tünde Szalay, Mostafa Ali Shahin, Beena Ahmed, Kirrie J. Ballard
2022	L2-GEN: A Neural Phoneme Paraphrasing Approach to L2 Speech Synthesis for Mispronunciation Diagnosis. Daniel Zhang, Ashwinkumar Ganesan, Sarah Campbell, Daniel Korzekwa
2022	LAE: Language-Aware Encoder for Monolingual and Multilingual ASR. Jinchuan Tian, Jianwei Yu, Chunlei Zhang, Yuexian Zou, Dong Yu
2022	LCSM: A Lightweight Complex Spectral Mapping Framework for Stereophonic Acoustic Echo Cancellation. Chenggang Zhang, Jinjiang Liu, Xueliang Zhang
2022	Label-Efficient Self-Supervised Speaker Verification With Information Maximization and Contrastive Learning. Théo Lepage, Réda Dehak
2022	Language Model-Based Emotion Prediction Methods for Emotional Speech Synthesis Systems. Hyun-Wook Yoon, Ohsung Kwon, Hoyeon Lee, Ryuichi Yamamoto, Eunwoo Song, Jae-Min Kim, Min-Jae Hwang
2022	Language-specific Characteristic Assistance for Code-switching Speech Recognition. Tongtong Song, Qiang Xu, Meng Ge, Longbiao Wang, Hao Shi, Yongjie Lv, Yuqin Lin, Jianwu Dang
2022	Language-specific interactions of vowel discrimination in noise. Mark Gibson, Marcel Schlechtweg, Beatriz Blecua Falgueras, Judit Ayala Alcalde
2022	Large-Scale Streaming End-to-End Speech Translation with Neural Transducers. Jian Xue, Peidong Wang, Jinyu Li, Matt Post, Yashesh Gaur
2022	Latency Control for Keyword Spotting. Christin Jose, Joe Wang, Grant P. Strimel, Mohammad Omar Khursheed, Yuriy Mishchenko, Brian Kulis
2022	Learn2Sing 2.0: Diffusion and Mutual Information-Based Target Speaker SVS by Learning from Singing Teacher. Heyang Xue, Xinsheng Wang, Yongmao Zhang, Lei Xie, Pengcheng Zhu, Mengxiao Bi
2022	Learnable Sparse Filterbank for Speaker Verification. Junyi Peng, Rongzhi Gu, Ladislav Mosner, Oldrich Plchot, Lukás Burget, Jan Cernocký
2022	Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting. Hyeon-Kyeong Shin, Hyewon Han, Doyeon Kim, Soo-Whan Chung, Hong-Goo Kang
2022	Learning Lip-Based Audio-Visual Speaker Embeddings with AV-HuBERT. Bowen Shi, Abdelrahman Mohamed, Wei-Ning Hsu
2022	Learning Noise-independent Speech Representation for High-quality Voice Conversion for Noisy Target Speakers. Liumeng Xue, Shan Yang, Na Hu, Dan Su, Lei Xie
2022	Learning Under Label Noise for Robust Spoken Language Understanding systems. Anoop Kumar, Pankaj Kumar Sharma, Aravind Illa, Sriram Venkatapathy, Subhrangshu Nandi, Pritam Varma, Anurag Dwarakanath, Aram Galstyan
2022	Learning from human perception to improve automatic speaker verification in style-mismatched conditions. Amber Afshan, Abeer Alwan
2022	Learning neural audio features without supervision. Sarthak Yadav, Neil Zeghidour
2022	Learning to rank with BERT-based confidence models in ASR rescoring. Ting-Wei Wu, I-Fan Chen, Ankur Gandhe
2022	Leveraging Acoustic Contextual Representation by Audio-textual Cross-modal Learning for Conversational ASR. Kun Wei, Yike Zhang, Sining Sun, Lei Xie, Long Ma
2022	Leveraging Prosody for Punctuation Prediction of Spontaneous Speech. Yeonjin Cho, Sara Ng, Trang Tran, Mari Ostendorf
2022	Leveraging Pseudo-labeled Data to Improve Direct Speech-to-Speech Translation. Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Qibing Bai, Yu Zhang
2022	Leveraging Real Conversational Data for Multi-Channel Continuous Speech Separation. Xiaofei Wang, Dongmei Wang, Naoyuki Kanda, Sefik Emre Eskimez, Takuya Yoshioka
2022	Leveraging Simultaneous Translation for Enhancing Transcription of Low-resource Language via Cross Attention Mechanism. Soky Kak, Sheng Li, Masato Mimura, Chenhui Chu, Tatsuya Kawahara
2022	Leveraging Symmetrical Convolutional Transformer Networks for Speech to Singing Voice Style Transfer. Shrutina Agarwal, Naoya Takahashi, Sriram Ganapathy
2022	Leveraging unsupervised and weakly-supervised data to improve direct speech-to-speech translation. Ye Jia, Yifan Ding, Ankur Bapna, Colin Cherry, Yu Zhang, Alexis Conneau, Nobu Morioka
2022	Lexical stress in Spanish word segmentation. Alvaro Martin Iturralde Zurita, Meghan Clayards
2022	Light-Weight Speaker Verification with Global Context Information. Miseul Kim, Zhenyu Piao, Seyun Um, Ran Lee, Jaemin Joh, Seungshin Lee, Hong-Goo Kang
2022	LightHuBERT: Lightweight and Configurable Speech Representation Learning with Once-for-All Hidden-Unit BERT. Rui Wang, Qibing Bai, Junyi Ao, Long Zhou, Zhixiang Xiong, Zhihua Wei, Yu Zhang, Tom Ko, Haizhou Li
2022	Lightweight Full-band and Sub-band Fusion Network for Real Time Speech Enhancement. Zhuangqi Chen, Pingjian Zhang
2022	Linguistic versus biological factors governing acoustic voice variation. Yoonjeong Lee, Jody Kreiman
2022	Linguistic-Acoustic Similarity Based Accent Shift for Accent Recognition. Qijie Shao, Jinghao Yan, Jian Kang, Pengcheng Guo, Xian Shi, Pengfei Hu, Lei Xie
2022	Linguistically Informed Post-processing for ASR Error correction in Sanskrit. Rishabh Kumar, Devaraja Adiga, Rishav Ranjan, Amrith Krishna, Ganesh Ramakrishnan, Pawan Goyal, Preethi Jyothi
2022	Listen only to me! How well can target speech extraction handle false alarms? Marc Delcroix, Keisuke Kinoshita, Tsubasa Ochiai, Katerina Zmolíková, Hiroshi Sato, Tomohiro Nakatani
2022	Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition. Guan-Ting Lin, Shang-wen Li, Hung-yi Lee
2022	Listening with Googlears: Low-Latency Neural Multiframe Beamforming and Equalization for Hearing Aids. Samuel J. Yang, Scott Wisdom, Chet Gnegy, Richard F. Lyon, Sagar Savla
2022	Local Context-aware Self-attention for Continuous Sign Language Recognition. Ronglai Zuo, Brian Mak
2022	Lombard Effect for Bilingual Speakers in Cantonese and English: importance of spectro-temporal features. Maximilian Karl Scharf, Sabine Hochmuth, Lena L. N. Wong, Birger Kollmeier, Anna Warzybok
2022	Low Resource Comparison of Attention-based and Hybrid ASR Exploiting wav2vec 2.0. Aku Rouhe, Anja Virkkunen, Juho Leinonen, Mikko Kurimo
2022	Low-Latency Online Streaming VideoQA Using Audio-Visual Transformers. Chiori Hori, Takaaki Hori, Jonathan Le Roux
2022	Low-Level Physiological Implications of End-to-End Learning for Speech Recognition. Louise Coppieters de Gibson, Philip N. Garner
2022	Low-bit Shift Network for End-to-End Spoken Language Understanding. Anderson R. Avila, Khalil Bibi, Rui Heng Yang, Xinlin Li, Chao Xing, Xiao Chen
2022	Low-complex and Highly-performed Binary Residual Neural Network for Small-footprint Keyword Spotting. Xiao Wang, Song Cheng, Jun Li, Shushan Qiao, Yumei Zhou, Yi Zhan
2022	Low-data? No problem: low-resource, language-agnostic conversational text-to-speech via F0-conditioned data augmentation. Giulia Comini, Goeric Huybrechts, Manuel Sam Ribeiro, Adam Gabrys, Jaime Lorenzo-Trueba
2022	Low-resource Accent Classification in Geographically-proximate Settings: A Forensic and Sociophonetics Perspective. Qingcheng Zeng, Dading Chong, Peilin Zhou, Jie Yang
2022	Low-resource Low-footprint Wake-word Detection using Knowledge Distillation. Arindam Ghosh, Mark C. Fuhs, Deblin Bagchi, Bahman Farahani, Monika Woszczyna
2022	M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation. Jinming Zhao, Hao Yang, Gholamreza Haffari, Ehsan Shareghi
2022	MAE-AST: Masked Autoencoding Audio Spectrogram Transformer. Alan Baade, Puyuan Peng, David Harwath
2022	MAESTRO: Matched Speech Text Representations through Modality Matching. Zhehuai Chen, Yu Zhang, Andrew Rosenberg, Bhuvana Ramabhadran, Pedro J. Moreno, Ankur Bapna, Heiga Zen
2022	MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility Prediction Model for Hearing Aids. Ryandhimas Edo Zezario, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao
2022	MFA-Conformer: Multi-scale Feature Aggregation Conformer for Automatic Speaker Verification. Yang Zhang, Zhiqiang Lv, Haibin Wu, Shanshan Zhang, Pengfei Hu, Zhiyong Wu, Hung-yi Lee, Helen Meng
2022	MIM-DG: Mutual information minimization-based domain generalization for speaker verification. Woo Hyun Kang, Jahangir Alam, Abderrahim Fathan
2022	MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources. Haoran Yin, Meng Ge, Yanjie Fu, Gaoyan Zhang, Longbiao Wang, Lei Zhang, Lin Qiu, Jianwu Dang
2022	MISRNet: Lightweight Neural Vocoder Using Multi-Input Single Shared Residual Blocks. Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Shogo Seki
2022	MOS Prediction Network for Non-intrusive Speech Quality Assessment in Online Conferencing. Wenjing Liu, Chuan Xie
2022	MOSRA: Joint Mean Opinion Score and Room Acoustics Speech Quality Assessment. Karl El Hajal, Milos Cernak, Pablo Mainar
2022	MSDWild: Multi-modal Speaker Diarization Dataset in the Wild. Tao Liu, Shuai Fan, Xu Xiang, Hongbo Song, Shaoxiong Lin, Jiaqi Sun, Tianyuan Han, Siyuan Chen, Binwei Yao, Sen Liu, Yifei Wu, Yanmin Qian, Kai Yu
2022	MSR-NV: Neural Vocoder Using Multiple Sampling Rates. Kentaro Mitsui, Kei Sawada
2022	MTI-Net: A Multi-Target Speech Intelligibility Prediction Model. Ryandhimas Edo Zezario, Szu-Wei Fu, Fei Chen, Chiou-Shann Fuh, Hsin-Min Wang, Yu Tsao
2022	Mandarin Lombard Grid: a Lombard-grid-like corpus of Standard Chinese. Yuhong Yang, Xufeng Chen, Qingmu Liu, Weiping Tu, Hongyang Chen, Linjun Cai
2022	Mandarin Tone Sandhi Realization: Evidence from Large Speech Corpora. Zuoyu Tian, Xiao Dong, Feier Gao, Haining Wang, Chien-Jer Charles Lin
2022	Mandarin nasal place assimilation revisited: an acoustic study. Mingqiong Luo
2022	Membership Inference Attacks Against Self-supervised Speech Models. Wei-Cheng Tseng, Wei-Tsung Kao, Hung-yi Lee
2022	Memory-Efficient Multi-Step Speech Enhancement with Neural ODE. Jen-Hung Huang, Chung-Hsien Wu
2022	Memory-Efficient Training of RNN-Transducer with Sampled Softmax. Jaesong Lee, Lukas Lee, Shinji Watanabe
2022	Meta Auxiliary Learning for Low-resource Spoken Language Understanding. Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang
2022	Method for improving the word intelligibility of presented speech using bone-conduction headphones. Teruki Toya, Wenyu Zhu, Maori Kobayashi, Kenichi Nakamura, Masashi Unoki
2022	Microphone Array Channel Combination Algorithms for Overlapped Speech Detection. Théo Mariotte, Anthony Larcher, Silvio Montrésor, Jean-Hugh Thomas
2022	Mind the gap: On the value of silence representations to lexical-based speech emotion recognition. Matthew Perez, Mimansa Jaiswal, Minxue Niu, Cristina Gorrostieta, Matthew Roddy, Kye Taylor, Reza Lotfian, John Kane, Emily Mower Provost
2022	Minimizing Sequential Confusion Error in Speech Command Recognition. Zhanheng Yang, Hang Lv, Xiong Wang, Ao Zhang, Lei Xie
2022	Minimum latency training of sequence transducers for streaming end-to-end speech recognition. Yusuke Shinohara, Shinji Watanabe
2022	Mitigating bias against non-native accents. Yuanyuan Zhang, Yixuan Zhang, Bence Mark Halpern, Tanvina Patel, Odette Scharenborg
2022	Mix and Match: An Empirical Study on Training Corpus Composition for Polyglot Text-To-Speech (TTS). Ziyao Zhang, Alessio Falai, Ariadna Sánchez, Orazio Angelini, Kayoko Yanagisawa
2022	Mixed-Phoneme BERT: Improving BERT with Mixed Phoneme and Sup-Phoneme Representations for Text to Speech. Guangyan Zhang, Kaitao Song, Xu Tan, Daxin Tan, Yuzi Yan, Yanqing Liu, Gang Wang, Wei Zhou, Tao Qin, Tan Lee, Sheng Zhao
2022	Mixup regularization strategies for spoofing countermeasure system. Woo Hyun Kang, Jahangir Alam, Abderrahim Fathan
2022	Model Compression by Iterative Pruning with Knowledge Distillation and Its Application to Speech Enhancement. Zeyuan Wei, Li Hao, Xueliang Zhang
2022	Modeling speech recognition and synthesis simultaneously: Encoding and decoding lexical and sublexical semantic information into speech with no direct access to speech data. Gasper Begus, Alan Zhou
2022	Modelling Turn-taking in Multispeaker Parties for Realistic Data Simulation. Jack Deadman, Jon Barker
2022	Monaural Speech Enhancement Based on Spectrogram Decomposition for Convolutional Neural Network-sensitive Feature Extraction. Hao Shi, Longbiao Wang, Sheng Li, Jianwu Dang, Tatsuya Kawahara
2022	Monoaural Speech Enhancement Using a Nested U-Net with Two-Level Skip Connections. Seorim Hwang, Youngcheol Park, Sungwook Park
2022	Multi-Channel Far-Field Speaker Verification with Large-Scale Ad-hoc Microphone Arrays. Chengdong Liang, Yijiang Chen, Jiadi Yao, Xiao-Lei Zhang
2022	Multi-Corpus Speech Emotion Recognition for Unseen Corpus Using Corpus-Wise Weights in Classification Loss. Youngdo Ahn, Sung Joo Lee, Jong Won Shin
2022	Multi-Frequency Information Enhanced Channel Attention Module for Speaker Representation Learning. Mufan Sang, John H. L. Hansen
2022	Multi-Modal Multi-Correlation Learning for Audio-Visual Speech Separation. Xiaoyu Wang, Xiangyu Kong, Xiulian Peng, Yan Lu
2022	Multi-Path GMM-MobileNet Based on Attack Algorithms and Codecs for Synthetic Speech and Deepfake Detection. Yan Wen, Zhenchun Lei, Yingen Yang, Changhong Liu, Minglei Ma
2022	Multi-Task End-to-End Model for Telugu Dialect and Speech Recognition. Aditya Yadavalli, Mirishkar Sai Ganesh, Anil Kumar Vuppala
2022	Multi-Type Outer Product-Based Fusion of Respiratory Sounds for Detecting COVID-19. Adria Mallol-Ragolta, Helena Cuesta, Emilia Gómez, Björn W. Schuller
2022	Multi-View Attention Transfer for Efficient Speech Enhancement. Wooseok Shin, Hyun Joon Park, Jin Sob Kim, Byung Hoon Lee, Sung Won Han
2022	Multi-class AUC Optimization for Robust Small-footprint Keyword Spotting with Limited Training Data. Menglong Xu, Shengqiang Li, Chengdong Liang, Xiao-Lei Zhang
2022	Multi-level Fusion of Wav2vec 2.0 and BERT for Multimodal Emotion Recognition. Zihan Zhao, Yanfeng Wang, Yu Wang
2022	Multi-scale Speaker Diarization with Dynamic Scale Weighting. Taejin Park, Nithin Rao Koluguri, Jagadeesh Balam, Boris Ginsburg
2022	Multi-source wideband DOA estimation method by frequency focusing and error weighting. Jing Zhou, Changchun Bao
2022	Multi-stage Progressive Compression of Conformer Transducer for On-device Speech Recognition. Jash Rathod, Nauman Dawalatabad, Shatrughan Singh, Dhananjaya Gowda
2022	Multichannel Speech Separation with Narrow-band Conformer. Changsheng Quan, Xiaofei Li
2022	Multilingual and Multimodal Abuse Detection. Rini A. Sharon, Heet Shah, Debdoot Mukherjee, Vikram Gupta
2022	Multimodal Clustering with Role Induced Constraints for Speaker Diarization. Nikolaos Flemotomos, Shrikanth Narayanan
2022	Multimodal Depression Severity Score Prediction Using Articulatory Coordination Features and Hierarchical Attention Based Text Embeddings. Nadee Seneviratne, Carol Y. Espy-Wilson
2022	Multimodal Persuasive Dialogue Corpus using Teleoperated Android. Seiya Kawano, Muteki Arioka, Akishige Yuguchi, Kenta Yamamoto, Koji Inoue, Tatsuya Kawahara, Satoshi Nakamura, Koichiro Yoshino
2022	Multiple Enhancements to LSTM for Learning Emotion-Salient Features in Speech Emotion Recognition. Desheng Hu, Xinhui Hu, Xinkang Xu
2022	Multiple-hypothesis RNN-T Loss for Unsupervised Fine-tuning and Self-training of Neural Transducer. Cong-Thanh Do, Mohan Li, Rama Doddipatla
2022	Multitask Learning for Low Resource Spoken Language Understanding. Quentin Meeus, Marie-Francine Moens, Hugo Van hamme
2022	MusicNet: Compact Convolutional Neural Network for Real-time Background Music Detection. Chandan K. A. Reddy, Vishak Gopal, Harishchandra Dubey, Ross Cutler, Sergiy Matusevych, Robert Aichner
2022	Muskits: an End-to-end Music Processing Toolkit for Singing Voice Synthesis. Jiatong Shi, Shuai Guo, Tao Qian, Tomoki Hayashi, Yuning Wu, Fangzheng Xu, Xuankai Chang, Huazhe Li, Peter Wu, Shinji Watanabe, Qin Jin
2022	NAS-SCAE: Searching Compact Attention-based Encoders For End-to-end Automatic Speech Recognition. Yukun Liu, Ta Li, Pengyuan Zhang, Yonghong Yan
2022	NAS-VAD: Neural Architecture Search for Voice Activity Detection. Daniel Rho, Jinhyeok Park, Jong Hwan Ko
2022	NASTAR: Noise Adaptive Speech Enhancement with Target-Conditional Resampling. Chi-Chang Lee, Cheng-Hung Hu, Yu-Chen Lin, Chu-Song Chen, Hsin-Min Wang, Yu Tsao
2022	NESC: Robust Neural End-2-End Speech Coding with GANs. Nicola Pia, Kishan Gupta, Srikanth Korse, Markus Multrus, Guillaume Fuchs
2022	NRI-FGSM: An Efficient Transferable Adversarial Attack for Speaker Recognition Systems. Hao Tan, Junjian Zhang, Huan Zhang, Le Wang, Yaguan Qian, Zhaoquan Gu
2022	NTF of Spectral and Spatial Features for Tracking and Separation of Moving Sound Sources in Spherical Harmonic Domain. Mateusz Guzik, Konrad Kowalczyk
2022	NU-Wave 2: A General Neural Audio Upsampling Model for Various Sampling Rates. Seungu Han, Junhyeok Lee
2022	Nasal Coda Loss in the Chengdu Dialect of Mandarin: Evidence from RT-MRI. Sishi Liao, Phil Hoole, Conceição Cunha, Esther Kunay, Aletheia Cui, Lia Saki Bucar Shigemori, Felicitas Kleber, Dirk Voit, Jens Frahm, Jonathan Harrington
2022	Native phonotactic interference in L2 vowel processing: Mouse-tracking reveals cognitive conflicts during identification. Yizhou Wang, Rikke L. Bundgaard-Nielsen, Brett Baker, Olga Maxwell
2022	NeMo Open Source Speaker Diarization System. Taejin Park, Nithin Rao Koluguri, Fei Jia, Jagadeesh Balam, Boris Ginsburg
2022	Negative Guided Abstractive Dialogue Summarization. Junpeng Liu, Yanyan Zou, Yuxuan Xi, Shengjie Li, Mian Ma, Zhuoye Ding, Bo Long
2022	Neural Lexicon Reader: Reduce Pronunciation Errors in End-to-end TTS by Leveraging External Textual Knowledge. Mutian He, Jingzhou Yang, Lei He, Frank K. Soong
2022	Neural Network-augmented Kalman Filtering for Robust Online Speech Dereverberation in Noisy Reverberant Environments. Jean-Marie Lemercier, Joachim Thiemann, Raphael Koning, Timo Gerkmann
2022	Neural Vocoder is All You Need for Speech Super-resolution. Haohe Liu, Woosung Choi, Xubo Liu, Qiuqiang Kong, Qiao Tian, DeLiang Wang
2022	Neural correlates of acoustic and semantic cues during speech segmentation in French. Maria del Mar Cordero, Ambre Denis-Noël, Elsa Spinelli, Fanny Meunier
2022	Non-Linear Pairwise Language Mappings for Low-Resource Multilingual Acoustic Model Fusion. Muhammad Umar Farooq, Darshan Adiga Haniya Narayana, Thomas Hain
2022	Non-Parallel Voice Conversion for ASR Augmentation. Gary Wang, Andrew Rosenberg, Bhuvana Ramabhadran, Fadi Biadsy, Jesse Emond, Yinghui Huang, Pedro J. Moreno
2022	Non-autoregressive Error Correction for CTC-based ASR with Phone-conditioned Masked LM. Hayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara
2022	Non-contrastive self-supervised learning of utterance-level speech representations. Jaejin Cho, Raghavendra Pappagari, Piotr Zelasko, Laureano Moro-Velázquez, Jesús Villalba, Najim Dehak
2022	Non-intrusive Speech Intelligibility Metric Prediction for Hearing Impaired Individuals. George Close, Samuel Hollands, Stefan Goetze, Thomas Hain
2022	Non-intrusive Speech Quality Assessment with a Multi-Task Learning based Subband Adaptive Attention Temporal Convolutional Neural Network. Xiaofeng Shu, Yanjie Chen, Chuxiang Shang, Yan Zhao, Chengshuai Zhao, Yehang Zhu, Chuanzeng Huang, Yuxuan Wang
2022	Non-native Perception of Japanese Singleton/Geminate Contrasts: Comparison of Mandarin and Mongolian Speakers Differing in Japanese Experience. Kimiko Tsukada, Yurong Yurong
2022	Nonwords Pronunciation Classification in Language Development Tests for Preschool Children. Ilja Baumann, Dominik Wagner, Sebastian P. Bayerl, Tobias Bocklet
2022	Norm-constrained Score-level Ensemble for Spoofing Aware Speaker Verification. Peng Zhang, Peng Hu, Xueliang Zhang
2022	Normalization of code-switched text for speech synthesis. Sreeram Manghat, Sreeja Manghat, Tanja Schultz
2022	Novel Augmentation Schemes for Device Robust Acoustic Scene Classification. Sukanya Sonowal, Anish Tamse
2022	OCTRA - An Innovative Approach to Orthographic Transcription. Christoph Draxler, Julian Pömp
2022	ORCA-WHISPER: An Automatic Killer Whale Sound Type Generation Toolkit Using Deep Learning. Christian Bergler, Alexander Barnhill, Dominik Perrin, Manuel Schmitt, Andreas K. Maier, Elmar Nöth
2022	OSSEM: one-shot speaker adaptive speech enhancement using meta learning. Cheng Yu, Szu-Wei Fu, Tsun-An Hsieh, Yu Tsao, Mirco Ravanelli
2022	Objective Metrics to Evaluate Residual-Echo Suppression During Double-Talk in the Stereophonic Case. Amir Ivry, Israel Cohen, Baruch Berdugo
2022	Oktoechos Classification in Liturgical Music Using SBU-LSTM/GRU. Rajeev Rajan, Ananya Ayasi
2022	On Adaptive Weight Interpolation of the Hybrid Autoregressive Transducer. Ehsan Variani, Michael Riley, David Rybach, Cyril Allauzen, Tongzhou Chen, Bhuvana Ramabhadran
2022	On Breathing Pattern Information in Synthetic Speech. Zohreh Mostaani, Mathew Magimai-Doss
2022	On Combining Global and Localized Self-Supervised Models of Speech. Sri Harsha Dumpala, Chandramouli Shama Sastry, Rudolf Uher, Sageev Oore
2022	On Metric Learning for Audio-Text Cross-Modal Retrieval. Xinhao Mei, Xubo Liu, Jianyuan Sun, Mark D. Plumbley, Wenwu Wang
2022	On joint training with interfaces for spoken language understanding. Anirudh Raju, Milind Rao, Gautam Tiwari, Pranav Dheram, Bryan Anderson, Zhe Zhang, Chul Lee, Bach Bui, Ariya Rastrow
2022	On monoaural speech enhancement for automatic recognition of real noisy speech using mixture invariant training. Jisi Zhang, Catalin Zorila, Rama Doddipatla, Jon Barker
2022	On the Prediction Network Architecture in RNN-T for ASR. Dario Albesano, Jesús Andrés-Ferrer, Nicola Ferri, Puming Zhan
2022	On the Role of Spatial, Spectral, and Temporal Processing for DNN-based Non-linear Multi-channel Speech Enhancement. Kristina Tesch, Nils-Hendrik Mohrmann, Timo Gerkmann
2022	On the Use of Deep Mask Estimation Module for Neural Source Separation Systems. Kai Li, Xiaolin Hu, Yi Luo
2022	On-demand compute reduction with stochastic wav2vec 2.0. Apoorv Vyas, Wei-Ning Hsu, Michael Auli, Alexei Baevski
2022	On-the-fly ASR Corrections with Audio Exemplars. Golan Pundak, Tsendsuren Munkhdalai, Khe Chai Sim
2022	One-Shot Speaker Adaptation Based on Initialization by Generative Adversarial Networks for TTS. Jaeuk Lee, Joon-Hyuk Chang
2022	One-step models in pitch perception: Experimental evidence from Japanese. Takeshi Kishiyama, Chuyu Huang, Yuki Hirose
2022	Online Continual Learning of End-to-End Speech Recognition Models. Muqiao Yang, Ian R. Lane, Shinji Watanabe
2022	Online Learning of Open-set Speaker Identification by Active User-registration. Eunkyung Yoo, Hyeonseop Song, TaeHyeong Kim, Chul Lee
2022	Online Speaker Diarization with Core Samples Selection. Yanyan Yue, Jun Du, Mao-Kui He, Yu Ting Yeung, Renyu Wang
2022	Online Target Speaker Voice Activity Detection for Speaker Diarization. Weiqing Wang, Ming Li, Qingjian Lin
2022	Open Source MagicData-RAMC: A Rich Annotated Mandarin Conversational(RAMC) Speech Dataset. Zehui Yang, Yifan Chen, Lei Luo, Runyan Yang, Lingxuan Ye, Gaofeng Cheng, Ji Xu, Yaohui Jin, Qingqing Zhang, Pengyuan Zhang, Lei Xie, Yonghong Yan
2022	OpenASR21: The Second Open Challenge for Automatic Speech Recognition of Low-Resource Languages. Kay Peterson, Audrey Tong, Yan Yu
2022	Opencpop: A High-Quality Open Source Chinese Popular Song Corpus for Singing Voice Synthesis. Yu Wang, Xinsheng Wang, Pengcheng Zhu, Jie Wu, Hanzhao Li, Heyang Xue, Yongmao Zhang, Lei Xie, Mengxiao Bi
2022	Optimal thyroplasty implant shape and stiffness for treatment of acute unilateral vocal fold paralysis: Evidence from a canine in vivo phonation model. Neha Reddy, Yoonjeong Lee, Zhaoyan Zhang, Dinesh K. Chhetri
2022	Optimization of Deep Neural Network (DNN) Speech Coder Using a Multi Time Scale Perceptual Loss Function. Joon Byun, Seungmin Shin, Jongmo Sung, Seungkwon Beack, Youngcheol Park
2022	Oriental Language Recognition (OLR) 2021: Summary and Analysis. Binling Wang, Feng Wang, Wenxuan Hu, Qiulin Wang, Jing Li, Dong Wang, Lin Li, Qingyang Hong
2022	Orofacial somatosensory inputs in speech perceptual training modulate speech production. Monica Ashokumar, Jean-Luc Schwartz, Takayuki Ito
2022	Overlapped Frequency-Distributed Network: Frequency-Aware Voice Spoofing Countermeasure. Sunmook Choi, Il-Youp Kwak, Seungsang Oh
2022	Overlapped Speech Detection in Broadcast Streams Using X-vectors. Lukás Mateju, Frantisek Kynych, Petr Cerva, Jirí Málek, Jindrich Zdánský
2022	Overlapped speech and gender detection with WavLM pre-trained features. Martin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier
2022	PEAF: Learnable Power Efficient Analog Acoustic Features for Audio Recognition. Boris Bergsma, Minhao Yang, Milos Cernak
2022	PERCEPT-R: An Open-Access American English Child/Clinical Speech Corpus Specialized for the Audio Classification of /ɹ/. Nina Benway, Jonathan L. Preston, Elaine Hitchcock, Asif Salekin, Harshit Sharma, Tara McAllister Byun
2022	PHO-LID: A Unified Model Incorporating Acoustic-Phonetic and Phonotactic Information for Language Identification. Hexin Liu, Leibny Paola García-Perera, Andy W. H. Khong, Suzy J. Styles, Sanjeev Khudanpur
2022	PISA: PoIncaré Saliency-Aware Interpolative Augmentation. Ramit Sawhney, Megh Thakkar, Vishwa Shah, Puneet Mathur, Vasu Sharma, Dinesh Manocha
2022	PLCNet: Real-time Packet Loss Concealment with Semi-supervised Generative Adversarial Network. Baiyun Liu, Qi Song, Mingxue Yang, Wuwen Yuan, Tianbao Wang
2022	PM-MMUT: Boosted Phone-mask Data Augmentation using Multi-Modeling Unit Training for Phonetic-Reduction-Robust E2E Speech Recognition. Guodong Ma, Pengfei Hu, Nurmemet Yolwas, Shen Huang, Hao Huang
2022	PRISM: Pre-trained Indeterminate Speaker Representation Model for Speaker Diarization and Speaker Verification. Siqi Zheng, Hongbin Suo, Qian Chen
2022	Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition. Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan
2022	Paraguayan Guarani: Tritonal pitch accent and Accentual Phrase. Sun-Ah Jun, Maria Luisa Zubizarreta
2022	Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition. Ye Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi, Xiaorui Wang
2022	Pay More Attention to History: A Context Modeling Strategy for Conversational Text-to-SQL. Yuntao Li, Hanchu Zhang, Yutian Li, Sirui Wang, Wei Wu, Yan Zhang
2022	Perceived prominence and downstep in Japanese. Hyun Kyung Hwang, Manami Hirayama, Takaomi Kato
2022	PercepNet+: A Phase and SNR Aware PercepNet for Real-Time Speech Enhancement. Xiaofeng Ge, Jiangyu Han, Yanhua Long, Haixin Guan
2022	Perceptual Characteristics Based Multi-objective Model for Speech Enhancement. Chiang-Jen Peng, Yun-Ju Chan, Yih-Liang Shen, Cheng Yu, Yu Tsao, Tai-Shih Chi
2022	Perceptual Contrast Stretching on Target Feature for Speech Enhancement. Rong Chao, Cheng Yu, Szu-Wei Fu, Xugang Lu, Yu Tsao
2022	Perceptual Evaluation of Penetrating Voices through a Semantic Differential Method. Tatsuya Kitamura, Naoki Kunimoto, Hideki Kawahara, Shigeaki Amano
2022	Performance Improvement of Speech Emotion Recognition by Neutral Speech Detection Using Autoencoder and Intermediate Representation. Jennifer Santoso, Takeshi Yamada, Kenkichi Ishizuka, Taiichi Hashimoto, Shoji Makino
2022	Personal VAD 2.0: Optimizing Personal Voice Activity Detection for On-Device Speech Recognition. Shaojin Ding, Rajeev Rikhye, Qiao Liang, Yanzhang He, Quan Wang, Arun Narayanan, Tom O'Malley, Ian McGraw
2022	Personalized Acoustic Echo Cancellation for Full-duplex Communications. Shimin Zhang, Ziteng Wang, Yukai Ju, Yihui Fu, Yueyue Na, Qiang Fu, Lei Xie
2022	Personalized Keyword Spotting through Multi-task Learning. Seunghan Yang, Byeonggeun Kim, Inseop Chung, Simyung Chang
2022	Pharyngealization in Amazigh: Acoustic and articulatory marking over time. Philipp Buech, Rachid Ridouane, Anne Hermes
2022	Phase Vocoder For Time Stretch Based On Center Frequency Estimation. Donghyeon Kim, Bowon Lee
2022	Phonetic Analysis of Self-supervised Representations of English Speech. Dan Wells, Hao Tang, Korin Richmond
2022	Phonetic Embedding for ASR Robustness in Entity Resolution. Xiaozhou Zhou, Ruying Bao, William M. Campbell
2022	Phonetic erosion and information structure in function words: the case of mia. Giuseppe Magistro, Claudia Crocco
2022	Plugging a neural phoneme recognizer into a simple language model: a workflow for low-resource setting. Séverine Guillaume, Guillaume Wisniewski, Benjamin Galliot, Minh Chau Nguyen, Maxime Fily, Guillaume Jacques, Alexis Michaud
2022	PodcastMix: A dataset for separating music and speech in podcasts. Nicolás Schmidt, Jordi Pons, Marius Miron
2022	PoeticTTS - Controllable Poetry Reading for Literary Studies. Julia Koch, Florian Lux, Nadja Schauffler, Toni Bernhart, Felix Dieterle, Jonas Kuhn, Sandra Richter, Gabriel Viehhauser, Ngoc Thang Vu
2022	Positional Encoding for Capturing Modality Specific Cadence for Emotion Detection. Hira Dhamyal, Bhiksha Raj, Rita Singh
2022	Practical Over-the-air Perceptual AcousticWatermarking. Ameya Agaskar
2022	Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired Speech Data. Junyi Ao, Ziqiang Zhang, Long Zhou, Shujie Liu, Haizhou Li, Tom Ko, Lirong Dai, Jinyu Li, Yao Qian, Furu Wei
2022	Pre-trained Speech Representations as Feature Extractors for Speech Quality Assessment in Online Conferencing Applications. Bastiaan Tamm, Helena Balabin, Rik Vandenberghe, Hugo Van hamme
2022	Predicting Emotional Intensity in Political Debates via Non-verbal Signals. Jeewoo Yoon, Jinyoung Han, Erik P. Bucy, Jungseock Joo
2022	Predicting Speech Intelligibility using the Spike Acativity Mutual Information Index. Franklin Alvarez Cardinale, Waldo Nogueira
2022	Predicting VQVAE-based Character Acting Style from Quotation-Annotated Text for Audiobook Speech Synthesis. Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Yuki Saito, Yusuke Ijima, Ryo Masumura, Hiroshi Saruwatari
2022	Predicting label distribution improves non-intrusive speech quality estimation. Abu Zaher Md Faridee, Hannes Gamper
2022	Predicting pairwise preferences between TTS audio stimuli using parallel ratings data and anti-symmetric twin neural networks. Cassia Valentini-Botinhao, Manuel Sam Ribeiro, Oliver Watts, Korin Richmond, Gustav Eje Henter
2022	Prediction of L2 speech proficiency based on multi-level linguistic features. Verdiana De Fino, Lionel Fontan, Julien Pinquier, Isabelle Ferrané, Sylvain Detey
2022	Preventing sensitive-word recognition using self-supervised learning to preserve user-privacy for automatic speech recognition. Yuchen Liu, Apu Kapadia, Donald S. Williamson
2022	Probabilistic Spherical Discriminant Analysis: An Alternative to PLDA for length-normalized embeddings. Niko Brummer, Albert Swart, Ladislav Mosner, Anna Silnova, Oldrich Plchot, Themos Stafylakis, Lukás Burget
2022	Probing phoneme, language and speaker information in unsupervised speech representations. Maureen de Seyssel, Marvin Lavechin, Yossi Adi, Emmanuel Dupoux, Guillaume Wisniewski
2022	Probing speech emotion recognition transformers for linguistic knowledge. Andreas Triantafyllopoulos, Johannes Wagner, Hagen Wierstorf, Maximilian Schmitt, Uwe D. Reichel, Florian Eyben, Felix Burkhardt, Björn W. Schuller
2022	Production Strategies of Vocal Attitudes. Léane Salais, Pablo Arias, Clément Le Moine, Victor Rosi, Yann Teytaut, Nicolas Obin, Axel Roebel
2022	Production characteristics of obstruents in WaveNet and older TTS systems. Ayushi Pandey, Sébastien Le Maguer, Julie Carson-Berndsen, Naomi Harte
2022	Production federated keyword spotting via distillation, filtering, and joint federated-centralized training. Andrew Hard, Kurt Partridge, Neng Chen, Sean Augenstein, Aishanee Shah, Hyun Jin Park, Alex Park, Sara Ng, Jessica Nguyen, Ignacio López-Moreno, Rajiv Mathews, Françoise Beaufays
2022	Prompt-based Re-ranking Language Model for ASR. Mengxi Nie, Ming Yan, Caixia Gong
2022	Pronunciation Dictionary-Free Multilingual Speech Synthesis by Combining Unsupervised and Supervised Phonetic Representations. Chang Liu, Zhen-Hua Ling, Ling-Hui Chen
2022	Prosodic Information in Dialect Identification of a Tonal Language: The case of Ao. Moakala Tzudir, Priyankoo Sarmah, S. R. Mahadeva Prasanna
2022	Prosodic alignment for off-screen automatic dubbing. Yogesh Virkar, Marcello Federico, Robert Enyedi, Roberto Barra-Chicote
2022	Prototypical speaker-interference loss for target voice separation using non-parallel audio samples. Seongkyu Mun, Dhananjaya Gowda, Jihwan Lee, Changwoo Han, Dokyun Lee, Chanwoo Kim
2022	Pruned RNN-T for fast, memory-efficient ASR training. Fangjun Kuang, Liyong Guo, Wei Kang, Long Lin, Mingshuang Luo, Zengwei Yao, Daniel Povey
2022	Pseudo Label Is Better Than Human Label. Dongseong Hwang, Khe Chai Sim, Zhouyuan Huo, Trevor Strohman
2022	Pushing the limits of raw waveform speaker recognition. Jee-weon Jung, You Jin Kim, Hee-Soo Heo, Bong-Jin Lee, Youngki Kwon, Joon Son Chung
2022	QDPN - Quasi-dual-path Network for single-channel Speech Separation. Joel Rixen, Matthias Renz
2022	QbyE-MLPMixer: Query-by-Example Open-Vocabulary Keyword Spotting using MLPMixer. Jinmiao Huang, Waseem Gharbieh, Qianhui Wan, Han Suk Shim, Chul Lee
2022	Qualitative Evaluation of Language Model Rescoring in Automatic Speech Recognition. Thibault Bañeras Roux, Mickael Rouvier, Jane Wottawa, Richard Dufour
2022	RCT: Random consistency training for semi-supervised sound event detection. Nian Shao, Erfan Loweimi, Xiaofei Li
2022	REYD - The First Yiddish Text-to-Speech Dataset and System. Jacob Webber, Samuel K. Lo, Isaac L. Bleaman
2022	RNN Transducers for Named Entity Recognition with constraints on alignment for understanding medical conversations. Hagen Soltau, Izhak Shafran, Mingqiu Wang, Laurent El Shafey
2022	RNN-T lattice enhancement by grafting of pruned paths. Mirek Novak, Pavlos Papadopoulos
2022	RaDur: A Reference-aware and Duration-robust Network for Target Sound Detection. Dongchao Yang, Helin Wang, Zhongjie Ye, Yuexian Zou, Wenwu Wang
2022	Radio2Speech: High Quality Speech Recovery from Radio Frequency Signals. Running Zhao, Jiangtao Yu, Tingle Li, Hang Zhao, Edith C. H. Ngai
2022	Rainbow Keywords: Efficient Incremental Learning for Online Spoken Keyword Spotting. Yang Xiao, Nana Hou, Eng Siong Chng
2022	Real-Time Monitoring of Silences in Contact Center Conversations. Digvijay Ingle, Ayush Kumar, Krishnachaitanya Gogineni, Jithendra Vepa
2022	Real-Time Packet Loss Concealment With Mixed Generative and Predictive Model. Jean-Marc Valin, Ahmed Mustafa, Christopher Montgomery, Timothy B. Terriberry, Michael Klingbeil, Paris Smaragdis, Arvindh Krishnaswamy
2022	Recent improvements of ASR models in the face of adversarial attacks. Raphaël Olivier, Bhiksha Raj
2022	Recording and timing vocal responses in online experimentation. Katrina Kechun Li, Julia Schwarz, Jasper Hong Sim, Yixin Zhang, Elizabeth Buchanan-Worster, Brechtje Post, Kirsty McDougall
2022	Recurrent multi-head attention fusion network for combining audio and text for speech emotion recognition. Chung Soo Ahn, L. L. Chamara Kasun, Sunil Sivadas, Jagath C. Rajapakse
2022	Reducing Domain mismatch in Self-supervised speech pre-training. Murali Karthick Baskar, Andrew Rosenberg, Bhuvana Ramabhadran, Yu Zhang, Nicolás Serrano
2022	Reducing Geographic Disparities in Automatic Speech Recognition via Elastic Weight Consolidation. Viet Anh Trinh, Pegah Ghahremani, Brian John King, Jasha Droppo, Andreas Stolcke, Roland Maas
2022	Reducing Offensive Replies in Open Domain Dialogue Systems. Naokazu Uchida, Takeshi Homma, Makoto Iwayama, Yasuhiro Sogawa
2022	Reducing uncertainty at the score-to-LR stage in likelihood ratio-based forensic voice comparison using automatic speaker recognition systems. Bruce Xiao Wang, Vincent Hughes
2022	RefTextLAS: Reference Text Biased Listen, Attend, and Spell Model For Accurate Reading Evaluation. Phani Sankar Nidadavolu, Na Xu, Nick Jutila, Ravi Teja Gadde, Aswarth Abhilash Dara, Joseph Savold, Sapan Patel, Aaron Hoff, Veerdhawal Pande, Kevin Crews, Ankur Gandhe, Ariya Rastrow, Roland Maas
2022	RefineGAN: Universally Generating Waveform Better than Ground Truth with Highly Accurate Pitch and Intensity Responses. Shengyuan Xu, Wenxiao Zhao, Jing Guo
2022	Refining DNN-based Mask Estimation using CGMM-based EM Algorithm for Multi-channel Noise Reduction. Julitta Bartolewska, Stanislaw Kacprzak, Konrad Kowalczyk
2022	Regularizing Transformer-based Acoustic Models by Penalizing Attention Weights. Mun-Hak Lee, Joon-Hyuk Chang, Sang-Eon Lee, Ju-Seok Seong, Chanhee Park, Haeyoung Kwon
2022	Relating the fundamental frequency of speech with EEG using a dilated convolutional network. Corentin Puffay, Jana Van Canneyt, Jonas Vanthornhout, Hugo Van hamme, Tom Francart
2022	Relationship between the acoustic time intervals and tongue movements of German diphthongs. Arne-Lukas Fietkau, Simon Stone, Peter Birkholz
2022	Relative Acoustic Features for Distance Estimation in Smart-Homes. Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
2022	Reliability criterion based on learning-phase entropy for speaker recognition with neural network. Pierre-Michel Bousquet, Mickael Rouvier, Jean-François Bonastre
2022	Reliable Visualization for Deep Speaker Recognition. Pengqi Li, Lantian Li, Askar Hamdulla, Dong Wang
2022	Representation Selective Self-distillation and wav2vec 2.0 Feature Exploration for Spoof-aware Speaker Verification. Jin Woo Lee, Eungbeom Kim, Junghyun Koo, Kyogu Lee
2022	Representing 'how you say' with 'what you say': English corpus of focused speech and text reflecting corresponding implications. Naoaki Suzuki, Satoshi Nakamura
2022	ResectNet: An Efficient Architecture for Voice Activity Detection on Mobile Devices. Okan Köpüklü, Maja Taseska
2022	Residual Language Model for End-to-end Speech Recognition. Emiru Tsunoo, Yosuke Kashiwagi, Chaitanya Prasad Narisetty, Shinji Watanabe
2022	Response Timing Estimation for Spoken Dialog System using Dialog Act Estimation. Jin Sakuma, Shinya Fujie, Tetsunori Kobayashi
2022	RetrieverTTS: Modeling Decomposed Factors for Text-Based Speech Insertion. Dacheng Yin, Chuanxin Tang, Yanqing Liu, Xiaoqiang Wang, Zhiyuan Zhao, Yucheng Zhao, Zhiwei Xiong, Sheng Zhao, Chong Luo
2022	Revisiting joint decoding based multi-talker speech recognition with DNN acoustic model. Martin Kocour, Katerina Zmolíková, Lucas Ondel, Jan Svec, Marc Delcroix, Tsubasa Ochiai, Lukás Burget, Jan Cernocký
2022	Revisiting visuo-spatial processing in individuals with congenital amusia. Zixia Fan, Jing Shao, Weigong Pan, Lan Wang
2022	Robust Cough Feature Extraction and Classification Method for COVID-19 Cough Detection Based on Vocalization Characteristics. Xueshuai Zhang, Jiakun Shen, Jun Zhou, Pengyuan Zhang, Yonghong Yan, Zhihua Huang, Yanfen Tang, Yu Wang, Fujie Zhang, Shaoxing Zhang, Aijun Sun
2022	Robust End-to-end Speaker Diarization with Generic Neural Clustering. Chenyu Yang, Yu Wang
2022	Robust Pitch Estimation Using Multi-Branch CNN-LSTM and 1-Norm LP Residual. Mudit D. Batra, M. K. Jayesh, C. S. Ramalingam
2022	Robust Self-Supervised Audio-Visual Speech Recognition. Bowen Shi, Wei-Ning Hsu, Abdelrahman Mohamed
2022	SA-SASV: An End-to-End Spoof-Aggregated Spoofing-Aware Speaker Verification System. Zhongwei Teng, Quchen Fu, Jules White, Maria E. Powell, Douglas C. Schmidt
2022	SANE-TTS: Stable And Natural End-to-End Multilingual Text-to-Speech. Hyunjae Cho, Wonbin Jung, Junhyeok Lee, Sang Hoon Woo
2022	SAQAM: Spatial Audio Quality Assessment Metric. Pranay Manocha, Anurag Kumar, Buye Xu, Anjali Menon, Israel Dejene Gebru, Vamsi Krishna Ithapu, Paul Calamia
2022	SASV 2022: The First Spoofing-Aware Speaker Verification Challenge. Jee-weon Jung, Hemlata Tak, Hye-jin Shim, Hee-Soo Heo, Bong-Jin Lee, Soo-Whan Chung, Ha-Jin Yu, Nicholas W. D. Evans, Tomi Kinnunen
2022	SASV Based on Pre-trained ASV System and Integrated Scoring Module. Yuxiang Zhang, Zhuo Li, Wenchao Wang, Pengyuan Zhang
2022	SATTS: Speaker Attractor Text to Speech, Learning to Speak by Learning to Separate. Nabarun Goswami, Tatsuya Harada
2022	SCaLa: Supervised Contrastive Learning for End-to-End Speech Recognition. Li Fu, Xiaoxiao Li, Runyu Wang, Fan Lu, Zhengchen Zhang, Meng Chen, Youzheng Wu, Xiaodong He
2022	SF-DST: Few-Shot Self-Feeding Reading Comprehension Dialogue State Tracking with Auxiliary Task. Jihyun Lee, Gary Geunbae Lee
2022	SHAS: Approaching optimal Segmentation for End-to-End Speech Translation. Ioannis Tsiamas, Gerard I. Gállego, José A. R. Fonollosa, Marta R. Costa-jussà
2022	SKYE: More than a conversational AI. Alzahra Badi, Chungho Park, Min-Seok Keum, Miguel Alba, Youngsuk Ryu, Jeongmin Bae
2022	SNRi Target Training for Joint Speech Enhancement and Recognition. Yuma Koizumi, Shigeki Karita, Arun Narayanan, Sankaran Panchapagesan, Michiel Bacchiani
2022	SOMOS: The Samsung Open MOS Dataset for the Evaluation of Neural Text-to-Speech Synthesis. Georgia Maniati, Alexandra Vioni, Nikolaos Ellinas, Karolos Nikitaras, Konstantinos Klapsas, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis
2022	SPLICEOUT: A Simple and Efficient Audio Augmentation Method. Arjit Jain, Pranay Reddy Samala, Deepak Mittal, Preethi Jyothi, Maneesh Singh
2022	STUDIES: Corpus of Japanese Empathetic Dialogue Speech Towards Friendly Voice Agent. Yuki Saito, Yuto Nishimura, Shinnosuke Takamichi, Kentaro Tachibana, Hiroshi Saruwatari
2022	SVTS: Scalable Video-to-Speech Synthesis. Rodrigo Schoburg Carrillo de Mira, Alexandros Haliassos, Stavros Petridis, Björn W. Schuller, Maja Pantic
2022	Scaling ASR Improves Zero and Few Shot Learning. Weiyi Zheng, Alex Xiao, Gil Keren, Duc Le, Frank Zhang, Christian Fuegen, Ozlem Kalinli, Yatharth Saraf, Abdelrahman Mohamed
2022	Scoring of Large-Margin Embeddings for Speaker Verification: Cosine or PLDA? Qiongqiong Wang, Kong Aik Lee, Tianchi Liu
2022	ScoutWav: Two-Step Fine-Tuning on Self-Supervised Automatic Speech Recognition for Low-Resource Environments. Kavan Fatehi, Mercedes Torres Torres, Ayse Küçükyilmaz
2022	Selective Pseudo-labeling and Class-wise Discriminative Fusion for Sound Event Detection. Yunhao Liang, Yanhua Long, Yijie Li, Jiaen Liang
2022	Self supervised learning for robust voice cloning. Konstantinos Klapsas, Nikolaos Ellinas, Karolos Nikitaras, Georgios Vamvoukakis, Panagiotis Kakoulidis, Konstantinos Markopoulos, Spyros Raptis, June Sig Sung, Gunu Jho, Aimilios Chalamandaris, Pirros Tsiakoulis
2022	Self-Distillation Based on High-level Information Supervision for Compressing End-to-End ASR Model. Qiang Xu, Tongtong Song, Longbiao Wang, Hao Shi, Yuqin Lin, Yongjie Lv, Meng Ge, Qiang Yu, Jianwu Dang
2022	Self-Normalized Importance Sampling for Neural Language Modeling. Zijian Yang, Yingbo Gao, Alexander Gerstenberger, Jintao Jiang, Ralf Schlüter, Hermann Ney
2022	Self-Supervised Learning with Multi-Target Contrastive Coding for Non-Native Acoustic Modeling of Mispronunciation Verification. Longfei Yang, Jinsong Zhang, Takahiro Shinozaki
2022	Self-Supervised Speaker Verification Using Dynamic Loss-Gate and Label Correction. Bing Han, Zhengyang Chen, Yanmin Qian
2022	Self-regularised Minimum Latency Training for Streaming Transformer-based Speech Recognition. Mohan Li, Rama Sanand Doddipatla, Catalin Zorila
2022	Self-supervised Context-aware Style Representation for Expressive Speech Synthesis. Yihan Wu, Xi Wang, Shaofei Zhang, Lei He, Ruihua Song, Jian-Yun Nie
2022	Self-supervised Representation Fusion for Speech and Wearable Based Emotion Recognition. Vipula Dissanayake, Sachith Seneviratne, Hussel Suriyaarachchi, Elliott Wen, Suranga Nanayakkara
2022	Self-supervised Speaker Diarization. Yehoshua Dissen, Felix Kreuk, Joseph Keshet
2022	Self-supervised speech unit discovery from articulatory and acoustic features using VQ-VAE. Marc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber
2022	SelfRemaster: Self-Supervised Speech Restoration with Analysis-by-Synthesis Approach Using Channel Modeling. Takaaki Saeki, Shinnosuke Takamichi, Tomohiko Nakamura, Naoko Tanji, Hiroshi Saruwatari
2022	Semantically Meaningful Metrics for Norwegian ASR Systems. Janine Rugayan, Torbjørn Svendsen, Giampiero Salvi
2022	Semi-FedSER: Semi-supervised Learning for Speech Emotion Recognition On Federated Learning using Multiview Pseudo-Labeling. Tiantian Feng, Shrikanth Narayanan
2022	Semi-supervised Acoustic and Language Modeling for Hindi ASR. Tarun Sai Bandarupalli, Shakti Rath, Nirmesh Shah, Naoyuki Onoe, Sriram Ganapathy
2022	Sentence-Select: Large-Scale Language Model Data Selection for Rare-Word Speech Recognition. W. Ronny Huang, Cal Peyser, Tara N. Sainath, Ruoming Pang, Trevor D. Strohman, Shankar Kumar
2022	SepIt: Approaching a Single Channel Speech Separation Bound. Shahar Lutati, Eliya Nachmani, Lior Wolf
2022	SepTr: Separable Transformer for Audio Spectrogram Processing. Nicolae-Catalin Ristea, Radu Tudor Ionescu, Fahad Shahbaz Khan
2022	Separate What You Describe: Language-Queried Audio Source Separation. Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Jinzheng Zhao, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
2022	Separating Long-Form Speech with Group-wise Permutation Invariant Training. Wangyou Zhang, Zhuo Chen, Naoyuki Kanda, Shujie Liu, Jinyu Li, Sefik Emre Eskimez, Takuya Yoshioka, Xiong Xiao, Zhong Meng, Yanmin Qian, Furu Wei
2022	Separator-Transducer-Segmenter: Streaming Recognition and Segmentation of Multi-party Speech. Ilya Sklyar, Anna Piunova, Christian Osendorfer
2022	Seq-2-Seq based Refinement of ASR Output for Spoken Name Capture. Karan Singla, Shahab Jalalvand, Yeon-Jun Kim, Ryan Price, Daniel Pressel, Srinivas Bangalore
2022	Shallow Fusion of Weighted Finite-State Transducer and Language Model for Text Normalization. Evelina Bakhturina, Yang Zhang, Boris Ginsburg
2022	SiD-WaveFlow: A Low-Resource Vocoder Independent of Prior Knowledge. Yuhan Li, Ying Shen, Dongqing Wang, Lin Zhang
2022	SiDi KWS: A Large-Scale Multilingual Dataset for Keyword Spotting. Michel Cardoso Meneses, Rafael Bérgamo Holanda, Luis Vasconcelos Peres, Gabriela Dantas Rocha
2022	Significance of single frequency filter for the development of children's KWS system. Biswaranjan Pattanayak, Gayadhar Pradhan
2022	Similarity and Content-based Phonetic Self Attention for Speech Recognition. Kyuhong Shim, Wonyong Sung
2022	Simple and Effective Multi-sentence TTS with Expressive and Coherent Prosody. Peter Makarov, Syed Ammar Abbas, Mateusz Lajszczak, Arnaud Joly, Sri Karlapati, Alexis Moinet, Thomas Drugman, Penny Karanasou
2022	Simple and Effective Unsupervised Speech Synthesis. Alexander H. Liu, Cheng-I Lai, Wei-Ning Hsu, Michael Auli, Alexei Baevski, James R. Glass
2022	Simple and Effective Zero-shot Cross-lingual Phoneme Recognition. Qiantong Xu, Alexei Baevski, Michael Auli
2022	SingAug: Data Augmentation for Singing Voice Synthesis with Cycle-consistent Training Strategy. Shuai Guo, Jiatong Shi, Tao Qian, Shinji Watanabe, Qin Jin
2022	Single-channel speech enhancement using Graph Fourier Transform. Chenhui Zhang, Xiang Pan
2022	Small Changes Make Big Differences: Improving Multi-turn Response Selection in Dialogue Systems via Fine-Grained Contrastive Learning. Yuntao Li, Can Xu, Huang Hu, Lei Sha, Yan Zhang, Daxin Jiang
2022	Small Footprint Neural Networks for Acoustic Direction of Arrival Estimation. Zhiheng Ouyang, Miao Wang, Wei-Ping Zhu
2022	Soft-label Learn for No-Intrusive Speech Quality Assessment. Junyong Hao, Shunzhou Ye, Cheng Lu, Fei Dong, Jingang Liu, Dong Pi
2022	SoftSpeech: Unsupervised Duration Model in FastSpeech 2. Yuanhao Yi, Lei He, Shifeng Pan, Xi Wang, Yuchao Zhang
2022	SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation. Artem Ploujnikov, Mirco Ravanelli
2022	SoundDoA: Learn Sound Source Direction of Arrival and Semantics from Sound Raw Waveforms. Yuhang He, Andrew Markham
2022	Space-Efficient Representation of Entity-centric Query Language Models. Christophe Van Gysel, Mirko Hannemann, Ernest Pusateri, Youssef Oualil, Ilya Oparin
2022	Span Classification with Structured Information for Disfluency Detection in Spoken Utterances. Sreyan Ghosh, Sonal Kumar, Yaman Kumar, Rajiv Ratn Shah, Srinivasan Umesh
2022	Spatial Loss for Unsupervised Multi-channel Source Separation. Kohei Saijo, Robin Scheibler
2022	Spatial-aware Speaker Diarizaiton for Multi-channel Multi-party Meeting. Jie Wang, Yuji Liu, Binling Wang, Yiming Zhi, Song Li, Shipeng Xia, Jiayang Zhang, Feng Tong, Lin Li, Qingyang Hong
2022	Speak Like a Professional: Increasing Speech Intelligibility by Mimicking Professional Announcer Voice with Voice Conversion. Tuan Vu Ho, Maori Kobayashi, Masato Akagi
2022	Speaker Anonymization with Phonetic Intermediate Representations. Sarina Meyer, Florian Lux, Pavel Denisov, Julia Koch, Pascal Tilli, Ngoc Thang Vu
2022	Speaker Trait Enhancement for Cochlear Implant Users: A Case Study for Speaker Emotion Perception. Avamarie Brueggeman, John H. L. Hansen
2022	Speaker adaptation for Wav2vec2 based dysarthric ASR. Murali Karthick Baskar, Tim Herzig, Diana Nguyen, Mireia Díez, Tim Polzehl, Lukás Burget, Jan Cernocký
2022	Speaker conditioned acoustic modeling for multi-speaker conversational ASR. Srikanth Raj Chetupalli, Sriram Ganapathy
2022	Speaker consistency loss and step-wise optimization for semi-supervised joint training of TTS and ASR using unpaired text data. Naoki Makishima, Satoshi Suzuki, Atsushi Ando, Ryo Masumura
2022	Speaker recognition-assisted robust audio deepfake detection. Jiahui Pan, Shuai Nie, Hui Zhang, Shulin He, Kanghao Zhang, Shan Liang, Xueliang Zhang, Jianhua Tao
2022	Speaker- and Phone-aware Convolutional Transformer Network for Acoustic Echo Cancellation. Chang Han, Weiping Tu, Yuhong Yang, Jingyi Li, Xinhong Li
2022	Speaker-Aware Mixture of Mixtures Training for Weakly Supervised Speaker Extraction. Zifeng Zhao, Rongzhi Gu, Dongchao Yang, Jinchuan Tian, Yuexian Zou
2022	Speaker-Specific Utterance Ensemble based Transfer Attack on Speaker Identification. Chu-Xiao Zuo, Jia-Yi Leng, Wu-Jun Li
2022	Speaking Rate Control of end-to-end TTS Models by Direct Manipulation of the Encoder's Output Embeddings. Martin Lenglet, Olivier Perrotin, Gérard Bailly
2022	SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with Adaptive Noise Spectral Shaping. Yuma Koizumi, Heiga Zen, Kohei Yatabe, Nanxin Chen, Michiel Bacchiani
2022	Spectral Modification Based Data Augmentation For Improving End-to-End ASR For Children's Speech. Vishwanath Pratap Singh, Hardik B. Sailor, Supratik Bhattacharya, Abhishek Pandey
2022	Spectro-Temporal SubNet for Real-Time Monaural Speech Denoising and Dereverberation. Feifei Xiong, Weiguang Chen, Pengyu Wang, Xiaofei Li, Jinwei Feng
2022	Speech Acoustics in Mild Cognitive Impairment and Parkinson's Disease With and Without Concurrent Drawing Tasks. Tanya Talkar, Christina Manxhari, James J. Williamson, Kara M. Smith, Thomas F. Quatieri
2022	Speech Audio Corrector: using speech from non-target speakers for one-off correction of mispronunciations in grapheme-input text-to-speech. Jason Fong, Daniel Lyth, Gustav Eje Henter, Hao Tang, Simon King
2022	Speech Emotion Recognition in the Wild using Multi-task and Adversarial Learning. Jack Parry, Eric DeMattos, Anita Klementiev, Axel Ind, Daniela Morse-Kopp, Georgia Clarke, Dimitri Palaz
2022	Speech Emotion Recognition via Generation using an Attention-based Variational Recurrent Neural Network. Murchana Baruah, Bonny Banerjee
2022	Speech Emotion: Investigating Model Representations, Multi-Task Learning and Knowledge Distillation. Vikramjit Mitra, Hsiang-Yun Sherry Chien, Vasudha Kowtha, Joseph Yitan Cheng, Erdrin Azemi
2022	Speech Enhancement with Fullband-Subband Cross-Attention Network. Jun Chen, Wei Rao, Zilin Wang, Zhiyong Wu, Yannan Wang, Tao Yu, Shidong Shang, Helen Meng
2022	Speech Enhancement with Score-Based Generative Models in the Complex STFT Domain. Simon Welker, Julius Richter, Timo Gerkmann
2022	Speech Intelligibility Prediction for Hearing-Impaired Listeners with the LEAP Model. Jana Roßbach, Rainer Huber, Saskia Röttges, Christopher F. Hauth, Thomas Biberger, Thomas Brand, Bernd T. Meyer, Jan Rennies
2022	Speech Modification for Intelligibility in Cochlear Implant Listeners: Individual Effects of Vowel- and Consonant-Boosting. Juliana N. Saba, John H. L. Hansen
2022	Speech Pre-training with Acoustic Piece. Shuo Ren, Shujie Liu, Yu Wu, Long Zhou, Furu Wei
2022	Speech Quality Assessment through MOS using Non-Matching References. Pranay Manocha, Anurag Kumar
2022	Speech Representation Disentanglement with Adversarial Mutual Information Learning for One-shot Voice Conversion. Sicheng Yang, Methawee Tantrawenith, Haolin Zhuang, Zhiyong Wu, Aolan Sun, Jianzong Wang, Ning Cheng, Huaizhen Tang, Xintao Zhao, Jie Wang, Helen Meng
2022	Speech Segmentation Optimization using Segmented Bilingual Speech Corpus for End-to-end Speech Translation. Ryo Fukuda, Katsuhito Sudoh, Satoshi Nakamura
2022	Speech Separation for an Unknown Number of Speakers Using Transformers With Encoder-Decoder Attractors. Srikanth Raj Chetupalli, Emanuël A. P. Habets
2022	Speech Sequence Embeddings using Nearest Neighbors Contrastive Learning. Robin Algayres, Adel Nabli, Benoît Sagot, Emmanuel Dupoux
2022	Speech and the n-Back task as a lens into depression. How combining both may allow us to isolate different core symptoms of depression. Salvatore Fara, Stefano Goria, Emilia Molimpakis, Nicholas Cummins
2022	Speech imitation skills predict automatic phonetic convergence: a GMM-UBM study on L2. Dorina De Jong, Aldo Pastore, Noël Nguyen, Alessandro D'Ausilio
2022	Speech intelligibility of simulated hearing loss sounds and its prediction using the Gammachirp Envelope Similarity Index (GESI). Toshio Irino, Honoka Tamaru, Ayako Yamamoto
2022	Speech2Slot: A Limited Generation Framework with Boundary Detection for Slot Filling from Speech. Pengwei Wang, Yinpei Su, Xiaohuan Zhou, Xin Ye, Liangchen Wei, Ming Liu, Yuan You, Feijun Jiang
2022	SpeechEQ: Speech Emotion Recognition based on Multi-scale Unified Datasets and Multitask Learning. Zuheng Kang, Junqing Peng, Jianzong Wang, Jing Xiao
2022	SpeechFormer: A Hierarchical Efficient Framework Incorporating the Characteristics of Speech. Weidong Chen, Xiaofen Xing, Xiangmin Xu, Jianxin Pang, Lan Du
2022	SpeechPainter: Text-conditioned Speech Inpainting. Zalan Borsos, Matthew Sharifi, Marco Tagliasacchi
2022	Spoken Dialogue System for Call Centers with Expressive Speech Synthesis. Davis Nicmanis, Askars Salimbajevs
2022	Spoken-Text-Style Transfer with Conditional Variational Autoencoder and Content Word Storage. Daiki Yoshioka, Yusuke Yasuda, Noriyuki Matsunaga, Yamato Ohtani, Tomoki Toda
2022	Spoofed speech from the perspective of a forensic phonetician. Christin Kirchhübel, Georgina Brown
2022	Spoofing-Aware Attention based ASV Back-end with Multiple Enrollment Utterances and a Sampling Strategy for the SASV Challenge 2022. Chang Zeng, Lin Zhang, Meng Liu, Junichi Yamagishi
2022	Spoofing-Aware Speaker Verification by Multi-Level Fusion. Haibin Wu, Lingwei Meng, Jiawen Kang, Jinchao Li, Xu Li, Xixin Wu, Hung-yi Lee, Helen Meng
2022	Squashed Weight Distribution for Low Bit Quantization of Deep Models. Nikko Strom, Haidar Khan, Wael Hamza
2022	State & Trait Measurement from Nonverbal Vocalizations: A Multi-Task Joint Learning Approach. Alice Baird, Panagiotis Tzirakis, Jeffrey A. Brooks, Lauren Kim, Michael Opara, Christopher B. Gregory, Jacob Metrick, Garrett Boseck, Dacher Keltner, Alan Cowen
2022	Statistical and clinical utility of multimodal dialogue-based speech and facial metrics for Parkinson's disease assessment. Hardik Kothare, Michael Neumann, Jackson Liscombe, Oliver Roesler, William Burke, Andrew Exner, Sandy Snyder, Andrew Cornish, Doug Habberstad, David Pautler, David Suendermann-Oeft, Jessica Huber, Vikram Ramanarayanan
2022	Steering vector correction in MVDR beamformer for speech enhancement. Suliang Bu, Yunxin Zhao, Tuo Zhao
2022	Strategies for developing a Conversational Speech Dataset for Text-To-Speech Synthesis. Adaeze O. Adigwe, Esther Klabbers
2022	Strategies to Improve Robustness of Target Speech Extraction to Enrollment Variations. Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Keisuke Kinoshita, Takafumi Moriya, Naoki Makishima, Mana Ihori, Tomohiro Tanaka, Ryo Masumura
2022	Streamable Speech Representation Disentanglement and Multi-Level Prosody Modeling for Live One-Shot Voice Conversion. Haoquan Yang, Liqun Deng, Yu Ting Yeung, Nianzu Zheng, Yong Xu
2022	Streaming Align-Refine for Non-autoregressive Deliberation. Weiran Wang, Ke Hu, Tara N. Sainath
2022	Streaming Automatic Speech Recognition with Re-blocking Processing Based on Integrated Voice Activity Detection. Yui Sudo, Muhammad Shakeel, Kazuhiro Nakadai, Jiatong Shi, Shinji Watanabe
2022	Streaming End-to-End Multilingual Speech Recognition with Joint Language Identification. Chao Zhang, Bo Li, Tara N. Sainath, Trevor Strohman, Sepand Mavandadi, Shuo-Yiin Chang, Parisa Haghani
2022	Streaming Intended Query Detection using E2E Modeling for Continued Conversation. Shuo-Yiin Chang, Guru Prakash, Zelin Wu, Tara N. Sainath, Bo Li, Qiao Liang, Adam Stambler, Shyam Upadhyay, Manaal Faruqui, Trevor Strohman
2022	Streaming Multi-Talker ASR with Token-Level Serialized Output Training. Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka
2022	Streaming Speaker-Attributed ASR with Token-Level Speaker Embeddings. Naoyuki Kanda, Jian Wu, Yu Wu, Xiong Xiao, Zhong Meng, Xiaofei Wang, Yashesh Gaur, Zhuo Chen, Jinyu Li, Takuya Yoshioka
2022	Streaming Target-Speaker ASR with Neural Transducer. Takafumi Moriya, Hiroshi Sato, Tsubasa Ochiai, Marc Delcroix, Takahiro Shinozaki
2022	Streaming model for Acoustic to Articulatory Inversion with transformer networks. Sathvik Udupa, Aravind Illa, Prasanta Kumar Ghosh
2022	Streaming parallel transducer beam search with fast slow cascaded encoders. Jay Mahadeokar, Yangyang Shi, Ke Li, Duc Le, Jiedan Zhu, Vikas Chandra, Ozlem Kalinli, Michael L. Seltzer
2022	Sub-8-Bit Quantization Aware Training for 8-Bit Neural Network Accelerator with On-Device Speech Recognition. Kai Zhen, Hieu Duy Nguyen, Raviteja Chinta, Nathan Susanj, Athanasios Mouchtaris, Tariq Afzal, Ariya Rastrow
2022	Supervision-Guided Codebooks for Masked Prediction in Speech Pre-training. Chengyi Wang, Yiming Wang, Yu Wu, Sanyuan Chen, Jinyu Li, Shujie Liu, Furu Wei
2022	Syllable sequence of /a/+/ta/ can be heard as /atta/ in Japanese with visual or tactile cues. Takayuki Arai, Miho Yamada, Megumi Okusawa
2022	Synthesizing Near Native-accented Speech for a Non-native Speaker by Imitating the Pronunciation and Prosody of a Native Speaker. Raymond Chung, Brian Mak
2022	TALCS: An open-source Mandarin-English code-switching corpus and a speech recognition baseline. Chengfei Li, Shuhao Deng, Yaoping Wang, Guangjing Wang, Yaguang Gong, Changbin Chen, Jinfeng Bai
2022	TB or not TB? Acoustic cough analysis for tuberculosis classification. Geoffrey T. Frost, Grant Theron, Thomas Niesler
2022	TMGAN-PLC: Audio Packet Loss Concealment using Temporal Memory Generative Adversarial Network. Yuansheng Guan, Guochen Yu, Andong Li, Chengshi Zheng, Jie Wang
2022	TRILLsson: Distilled Universal Paralinguistic Speech Representations. Joel Shor, Subhashini Venugopalan
2022	TRUNet: Transformer-Recurrent-U Network for Multi-channel Reverberant Sound Source Separation. Ali Aroudi, Stefan Uhlich, Marc Ferras Font
2022	TTS-by-TTS 2: Data-Selective Augmentation for Neural Speech Synthesis Using Ranking Support Vector Machine with Variational Autoencoder. Eunwoo Song, Ryuichi Yamamoto, Ohsung Kwon, Chan-Ho Song, Min-Jae Hwang, Suhyeon Oh, Hyun-Wook Yoon, Jin-Seob Kim, Jae-Min Kim
2022	Tandem Multitask Training of Speaker Diarisation and Speech Recognition for Meeting Transcription. Xianrui Zheng, Chao Zhang, Philip C. Woodland
2022	Target Confusion in End-to-end Speaker Extraction: Analysis and Approaches. Zifeng Zhao, Dongchao Yang, Rongzhi Gu, Haoran Zhang, Yuexian Zou
2022	TaylorBeamformer: Learning All-Neural Beamformer for Multi-Channel Speech Enhancement from Taylor's Approximation Theory. Andong Li, Guochen Yu, Chengshi Zheng, Xiaodong Li
2022	Telling self-defining memories: An acoustic study of natural emotional speech productions. Véronique Delvaux, Audrey Lavallée, Fanny Degouis, Xavier Saloppe, Jean-Louis Nandrino, Thierry Pham
2022	Temporal Self Attention-Based Residual Network for Environmental Sound Classification. Achyut Mani Tripathi, Konark Paul
2022	Temporal coding with magnitude-phase regularization for sound event detection. Sangwook Park, Sandeep Reddy Kothinti, Mounya Elhilali
2022	Text aware Emotional Text-to-speech with BERT. Arijit Mukherjee, Shubham Bansal, Sandeepkumar Satpal, Rupesh K. Mehta
2022	Text-Driven Separation of Arbitrary Sounds. Kevin Kilgour, Beat Gfeller, Qingqing Huang, Aren Jansen, Scott Wisdom, Marco Tagliasacchi
2022	Text-Only Domain Adaptation Based on Intermediate CTC. Hiroaki Sato, Tomoyasu Komori, Takeshi Mishima, Yoshihiko Kawai, Takahiro Mochizuki, Shoei Sato, Tetsuji Ogawa
2022	Text-driven Emotional Style Control and Cross-speaker Style Transfer in Neural TTS. Yookyung Shin, Younggun Lee, Suhee Jo, Yeongtae Hwang, Taesu Kim
2022	Text-to-speech synthesis using spectral modeling based on non-negative autoencoder. Takeru Gorai, Daisuke Saito, Nobuaki Minematsu
2022	The 1st Clarity Prediction Challenge: A machine learning challenge for hearing aid intelligibility prediction. Jon Barker, Michael Akeroyd, Trevor J. Cox, John F. Culling, Jennifer Firth, Simone Graetzer, Holly Griffiths, Lara Harris, Graham Naylor, Zuzanna Podwinska, Eszter Porter, Rhoddy Viveros Muñoz
2022	The CLIPS System for 2022 Spoofing-Aware Speaker Verification Challenge. Jucai Lin, Tingwei Chen, Jingbiao Huang, Ruidong Fang, Jun Yin, Yuanping Yin, Wei Shi, Weizhen Huang, Yapeng Mao
2022	The DKU-OPPO System for the 2022 Spoofing-Aware Speaker Verification Challenge. Xingming Wang, Xiaoyi Qin, Yikang Wang, Yunfei Xu, Ming Li
2022	The Effectiveness of Time Stretching for Enhancing Dysarthric Speech for Improved Dysarthric Speech Recognition. Luke Prananta, Bence Mark Halpern, Siyuan Feng, Odette Scharenborg
2022	The Effects of Implicit and Explicit Feedback in an ASR-based Reading Tutor for Dutch First-graders. Yu Bai, Ferdy Hubers, Catia Cucchiarini, Roeland van Hout, Helmer Strik
2022	The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation. Joosung Lee
2022	The HCCL System for the NIST SRE21. Zhuo Li, Runqiu Xiao, Hangting Chen, Zhenduo Zhao, Zihan Zhang, Wenchao Wang
2022	The Magnitude and Phase based Speech Representation Learning using Autoencoder for Classifying Speech Emotions using Deep Canonical Correlation Analysis. Ashishkumar Prabhakar Gudmalwar, Biplove Basel, Anirban Dutta, Ch V. Rama Rao
2022	The Prosody of Cheering in Sport Events. Marzena Zygis, Sarah Wesolek, Nina Hosseini-Kivanani, Manfred Krifka
2022	The THUEE System Description for the IARPA OpenASR21 Challenge. Jing Zhao, Haoyu Wang, Jinpeng Li, Shuzhou Chai, Guanbo Wang, Guoguo Chen, Wei-Qiang Zhang
2022	The VoiceMOS Challenge 2022. Wen-Chin Huang, Erica Cooper, Yu Tsao, Hsin-Min Wang, Tomoki Toda, Junichi Yamagishi
2022	The ZevoMOS entry to VoiceMOS Challenge 2022. Adriana Stan
2022	The discrimination of [zi]-[dʑi] by Japanese listeners and the prospective phonologization of /zi/. Andrea Alicehajic, Silke Hamann
2022	The effect of backward noise on lexical tone discrimination in Mandarin-speaking amusics. Zixia Fan, Jing Shao, Weigong Pan, Min Xu, Lan Wang
2022	The effect of increasing acoustic and linguistic complexity on auditory processing: an EEG study. Fareeha S. Rana, Daniel Pape, Elisabet Service
2022	The mapping between syntactic and prosodic phrasing in English and Mandarin. Jianjing Kuang, May Pik Yu Chan, Nari Rhee, Mark Y. Liberman, Hongwei Ding
2022	Three-dimensional finite-difference time-domain acoustic analysis of simplified vocal tract shapes. Debasish Ray Mohapatra, Mario Fleischer, Victor Zappi, Peter Birkholz, Sidney S. Fels
2022	Thutmose Tagger: Single-pass neural model for Inverse Text Normalization. Alexandra Antonova, Evelina Bakhturina, Boris Ginsburg
2022	Time-domain Ad-hoc Array Speech Enhancement Using a Triple-path Network. Ashutosh Pandey, Buye Xu, Anurag Kumar, Jacob Donley, Paul Calamia, DeLiang Wang
2022	Tiny-Sepformer: A Tiny Time-Domain Transformer Network For Speech Separation. Jian Luo, Jianzong Wang, Ning Cheng, Edward Xiao, Xulong Zhang, Jing Xiao
2022	Token-level Speaker Change Detection Using Speaker Difference and Speech Content via Continuous Integrate-and-fire. Zhiyun Fan, Zhenlin Liang, Linhao Dong, Yi Liu, Shiyu Zhou, Meng Cai, Jun Zhang, Zejun Ma, Bo Xu
2022	Tokenwise Contrastive Pretraining for Finer Speech-to-BERT Alignment in End-to-End Speech-to-Intent Systems. Vishal Sunder, Eric Fosler-Lussier, Samuel Thomas, Hong-Kwang Kuo, Brian Kingsbury
2022	TopicKS: Topic-driven Knowledge Selection for Knowledge-grounded Dialogue Generation. Shiquan Wang, Yuke Si, Xiao Wei, Longbiao Wang, Zhiqiang Zhuang, Xiaowang Zhang, Jianwu Dang
2022	Toward Corpus Size Requirements for Training and Evaluating Depression Risk Models Using Spoken Language. Tomasz Rutowski, Amir Harati, Elizabeth Shriberg, Yang Lu, Piotr Chlebek, Ricardo Oliveira
2022	Toward Fairness in Speech Recognition: Discovery and mitigation of performance disparities. Pranav Dheram, Murugesan Ramakrishnan, Anirudh Raju, I-Fan Chen, Brian King, Katherine Powell, Melissa Saboowala, Karan Shetty, Andreas Stolcke
2022	Toward Low-Cost End-to-End Spoken Language Understanding. Marco Dinarelli, Marco Naguib, François Portet
2022	Toward Zero Oracle Word Error Rate on the Switchboard Benchmark. Arlo Faria, Adam Janin, Sidhi Adkoli, Korbinian Riedhammer
2022	Towards Automated Counselling Decision-Making: Remarks on Therapist Action Forecasting on the AnnoMI Dataset. Zixiu Wu, Rim Helaoui, Diego Reforgiato Recupero, Daniele Riboni
2022	Towards Automated Dialog Personalization using MBTI Personality Indicators. Daniel Fernau, Stefan Hillmann, Nils Feldhus, Tim Polzehl
2022	Towards Cross-speaker Reading Style Transfer on Audiobook Dataset. Xiang Li, Changhe Song, Xianhao Wei, Zhiyong Wu, Jia Jia, Helen Meng
2022	Towards Disentangled Speech Representations. Cal Peyser, W. Ronny Huang, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho
2022	Towards Efficiently Learning Monotonic Alignments for Attention-based End-to-End Speech Recognition. Chenfeng Miao, Kun Zou, Ziyang Zhuang, Tao Wei, Jun Ma, Shaojun Wang, Jing Xiao
2022	Towards End-to-End Private Automatic Speaker Recognition. Francisco Teixeira, Alberto Abad, Bhiksha Raj, Isabel Trancoso
2022	Towards Error-Resilient Neural Speech Coding. Huaying Xue, Xiulian Peng, Xue Jiang, Yan Lu
2022	Towards Green ASR: Lossless 4-bit Quantization of a Hybrid TDNN System on the 300-hr Swithboard Corpus. Junhao Xu, Shoukang Hu, Xunying Liu, Helen Meng
2022	Towards Improved Zero-shot Voice Conversion with Conditional DSVAE. Jiachen Lian, Chunlei Zhang, Gopala Krishna Anumanchipalli, Dong Yu
2022	Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information. Shaohuan Zhou, Shun Lei, Weiya You, Deyi Tuo, Yuren You, Zhiyong Wu, Shiyin Kang, Helen Meng
2022	Towards Multi-Scale Speaking Style Modelling with Hierarchical Context Information for Mandarin Speech Synthesis. Shun Lei, Yixuan Zhou, Liyang Chen, Jiankun Hu, Zhiyong Wu, Shiyin Kang, Helen Meng
2022	Towards high-fidelity singing voice conversion with acoustic reference and contrastive predictive coding. Chao Wang, Zhonghao Li, Benlai Tang, Xiang Yin, Yuan Wan, Yibiao Yu, Zejun Ma
2022	Training Data Generation with DOA-based Selecting and Remixing for Unsupervised Training of Deep Separation Models. Hokuto Munakata, Ryu Takeda, Kazunori Komatani
2022	Training Text-To-Speech Systems From Synthetic Data: A Practical Approach For Accent Transfer Tasks. Lev Finkelstein, Heiga Zen, Norman Casagrande, Chun-an Chan, Ye Jia, Tom Kenter, Alexey Petelin, Jonathan Shen, Vincent Wan, Yu Zhang, Yonghui Wu, Rob Clark
2022	Training and typological bias in ASR performance for world Englishes. May Pik Yu Chan, June Choe, Aini Li, Yiran Chen, Xin Gao, Nicole R. Holliday
2022	Training speaker embedding extractors using multi-speaker audio with unknown speaker boundaries. Themos Stafylakis, Ladislav Mosner, Oldrich Plchot, Johan Rohdin, Anna Silnova, Lukás Burget, Jan Cernocký
2022	Training speaker recognition systems with limited data. Nik Vaessen, David A. van Leeuwen
2022	Trajectories predicted by optimal speech motor control using LSTM networks. Tsiky Rakotomalala, Pierre Baraduc, Pascal Perrier
2022	Transducer-based language embedding for spoken language identification. Peng Shen, Xugang Lu, Hisashi Kawai
2022	Transfer Learning Framework for Low-Resource Text-to-Speech using a Large-Scale Unlabeled Speech Corpus. Minchan Kim, Myeonghun Jeong, Byoung Jin Choi, Sunghwan Ahn, Joun Yeop Lee, Nam Soo Kim
2022	Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping. Jenthe Thienpondt, Kris Demuynck
2022	Transfer Learning from Multi-Lingual Speech Translation Benefits Low-Resource Speech Recognition. Geoffroy Vanderreydt, François Remy, Kris Demuynck
2022	Transformer Networks for Non-Intrusive Speech Quality Prediction. M. K. Jayesh, Mukesh Sharma, Praneeth Vonteddu, Mahaboob Ali Basha Shaik, Sriram Ganapathy
2022	Transformer-Based Automatic Speech Recognition with Auxiliary Input of Source Language Text Toward Transcribing Simultaneous Interpretation. Shuta Taniguchi, Tsuneo Kato, Akihiro Tamura, Keiji Yasuda
2022	Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Muti-Person Video. Dmitriy Serdyuk, Otavio Braga, Olivier Siohan
2022	Transformer-based quality assessment model for generalized user-generated multimedia audio content. Deebha Mumtaz, Ajit Jena, Vinit Jakhetiya, Karan Nathwani, Sharath Chandra Guntuku
2022	Transplantation of Conversational Speaking Style with Interjections in Sequence-to-Sequence Speech Synthesis. Raul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman, Alexander Sorin
2022	Transport-Oriented Feature Aggregation for Speaker Embedding Learning. Yusheng Tian, Jingyu Li, Tan Lee
2022	Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition. Guangzhi Sun, Chao Zhang, Philip C. Woodland
2022	TriniTTS: Pitch-controllable End-to-end TTS without External Aligner. Yooncheol Ju, Ilhwan Kim, Hongsun Yang, Ji-Hoon Kim, Byeongyeol Kim, Soumi Maiti, Shinji Watanabe
2022	Turn-Taking Prediction for Natural Conversational Speech. Shuo-Yiin Chang, Bo Li, Tara N. Sainath, Chao Zhang, Trevor Strohman, Qiao Liang, Yanzhang He
2022	Two Methods for Spoofing-Aware Speaker Verification: Multi-Layer Perceptron Score Fusion Model and Integrated Embedding Projector. Jungwoo Heo, Ju-ho Kim, Hyun-seo Shin
2022	Two-Pass Low Latency End-to-End Spoken Language Understanding. Siddhant Arora, Siddharth Dalmia, Xuankai Chang, Brian Yan, Alan W. Black, Shinji Watanabe
2022	Two-pass Decoding and Cross-adaptation Based System Combination of End-to-end Conformer and Hybrid TDNN ASR Systems. Mingyu Cui, Jiajun Deng, Shoukang Hu, Xurong Xie, Tianzi Wang, Shujie Hu, Mengzhe Geng, Boyang Xue, Xunying Liu, Helen Meng
2022	UNet-DenseNet for Robust Far-Field Speaker Verification. Zhenke Gao, Man-Wai Mak, Weiwei Lin
2022	UTMOS: UTokyo-SaruLab System for VoiceMOS Challenge 2022. Takaaki Saeki, Detai Xin, Wataru Nakata, Tomoki Koriyama, Shinnosuke Takamichi, Hiroshi Saruwatari
2022	Ultra-Low-Bitrate Speech Coding with Pretrained Transformers. Ali Siahkoohi, Michael Chinen, Tom Denton, W. Bastiaan Kleijn, Jan Skoglund
2022	Uncertainty Calibration for Deep Audio Classifiers. Tong Ye, Shijing Si, Jianzong Wang, Ning Cheng, Jing Xiao
2022	UniKW-AT: Unified Keyword Spotting and Audio Tagging. Heinrich Dinkel, Yongqing Wang, Zhiyong Yan, Junbo Zhang, Yujun Wang
2022	Unified Source-Filter GAN with Harmonic-plus-Noise Source Excitation Generation. Reo Yoneyama, Yi-Chiao Wu, Tomoki Toda
2022	Unify and Conquer: How Phonetic Feature Representation Affects Polyglot Text-To-Speech (TTS). Ariadna Sánchez, Alessio Falai, Ziyao Zhang, Orazio Angelini, Kayoko Yanagisawa
2022	Unifying Cosine and PLDA Back-ends for Speaker Verification. Zhiyuan Peng, Xuanji He, Ke Ding, Tan Lee, Guanglu Wan
2022	Unsupervised Acoustic-to-Articulatory Inversion with Variable Vocal Tract Anatomy. Yifan Sun, Qinlong Huang, Xihong Wu
2022	Unsupervised Data Selection via Discrete Speech Representation for ASR. Zhiyun Lu, Yongqiang Wang, Yu Zhang, Wei Han, Zhehuai Chen, Parisa Haghani
2022	Unsupervised Inference of Physiologically Meaningful Articulatory Trajectories with VocalTractLab. Yifan Sun, Qinlong Huang, Xihong Wu
2022	Unsupervised Instance Discriminative Learning for Depression Detection from Speech Signals. Jinhan Wang, Vijay Ravi, Jonathan Flint, Abeer Alwan
2022	Unsupervised Speaker Diarization that is Agnostic to Language, Overlap-Aware, and Tuning Free. Md. Iftekhar Tanveer, Diego Casabuena, Jussi Karlgren, Rosie Jones
2022	Unsupervised Symbolic Music Segmentation using Ensemble Temporal Prediction Errors. Shahaf Bassan, Yossi Adi, Jeffrey S. Rosenschein
2022	Unsupervised Text-to-Speech Synthesis by Unsupervised Automatic Speech Recognition. Junrui Ni, Liming Wang, Heting Gao, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson
2022	Unsupervised Training of Sequential Neural Beamformer Using Coarsely-separated and Non-separated Signals. Kohei Saijo, Tetsuji Ogawa
2022	Unsupervised Uncertainty Measures of Automatic Speech Recognition for Non-intrusive Speech Intelligibility Prediction. Zehai Tu, Ning Ma, Jon Barker
2022	Unsupervised Voice Activity Detection by Modeling Source and System Information using Zero Frequency Filtering. Eklavya Sarkar, RaviShankar Prasad, Mathew Magimai-Doss
2022	Unsupervised Word Segmentation using K Nearest Neighbors. Tzeviya Fuchs, Yedid Hoshen, Yossi Keshet
2022	Unsupervised domain adaptation for speech recognition with unsupervised error correction. Long Mai, Julie Carson-Berndsen
2022	Updating Only Encoders Prevents Catastrophic Forgetting of End-to-End ASR Models. Yuki Takashima, Shota Horiguchi, Shinji Watanabe, Leibny Paola García-Perera, Yohei Kawaguchi
2022	Use of Nods Less Synchronized with Turn-Taking and Prosody During Conversations in Adults with Autism. Keiko Ochi, Nobutaka Ono, Keiho Owada, Miho Kuroda, Shigeki Sagayama, Hidenori Yamasue
2022	Use of prosodic and lexical cues for disambiguating wh-words in Korean. Jieun Song, Hae-Sung Jeon, Jieun Kiaer
2022	User-Level Differential Privacy against Attribute Inference Attack of Speech Emotion Recognition on Federated Learning. Tiantian Feng, Raghuveer Peri, Shrikanth Narayanan
2022	UserLibri: A Dataset for ASR Personalization Using Only Text. Theresa Breiner, Swaroop Ramaswamy, Ehsan Variani, Shefali Garg, Rajiv Mathews, Khe Chai Sim, Kilol Gupta, Mingqing Chen, Lara McConnaughey
2022	Using Data Augmentation and Consistency Regularization to Improve Semi-supervised Speech Recognition. Ashtosh Sapru
2022	Using Fluency Representation Learned from Sequential Raw Features for Improving Non-native Fluency Scoring. Kaiqi Fu, Shaojun Gao, Xiaohai Tian, Wei Li, Zejun Ma
2022	Using Rater and System Metadata to Explain Variance in the VoiceMOS Challenge 2022 Dataset. Michael Chinen, Jan Skoglund, Chandan K. A. Reddy, Alessandro Ragano, Andrew Hines
2022	Using cross-model learnings for the Gram Vaani ASR Challenge 2022. Tanvina Patel, Odette Scharenborg
2022	Utterance-by-utterance overlap-aware neural diarization with Graph-PIT. Keisuke Kinoshita, Thilo von Neumann, Marc Delcroix, Christoph Böddeker, Reinhold Haeb-Umbach
2022	VAgyojaka: An Annotating and Post-Editing Tool for Automatic Speech Recognition. Rishabh Kumar, Devaraja Adiga, Mayank Kothyari, Jatin Dalal, Ganesh Ramakrishnan, Preethi Jyothi
2022	VCSE: Time-Domain Visual-Contextual Speaker Extraction Network. Junjie Li, Meng Ge, Zexu Pan, Longbiao Wang, Jianwu Dang
2022	VOT and F0 perturbations for the realization of voicing contrast in Tohoku Japanese. Hiroto Noguchi, Sanae Matsui, Naoya Watabe, Chuyu Huang, Ayako Hashimoto, Ai Mizoguchi, Mafuyu Kitahara
2022	VQ-T: RNN Transducers using Vector-Quantized Prediction Network States. Jiatong Shi, George Saon, David Haws, Shinji Watanabe, Brian Kingsbury
2022	VQTTS: High-Fidelity Text-to-Speech Synthesis with Self-Supervised VQ Acoustic Feature. Chenpeng Du, Yiwei Guo, Xie Chen, Kai Yu
2022	Vaccinating SER to Neutralize Adversarial Attacks with Self-Supervised Augmentation Strategy. Bo-Hao Su, Chi-Chun Lee
2022	Validation of the Neuro-Concept Detector framework for the characterization of speech disorders: A comparative study including Dysarthria and Dysphonia. Sondes Abderrazek, Corinne Fredouille, Alain Ghio, Muriel Lalain, Christine Meunier, Virginie Woisard
2022	Variability in Production of Non-Sibilant Fricative [ç] in /hi/. Tsukasa Yoshinaga, Kikuo Maekawa, Akiyoshi Iida
2022	Variations of multi-task learning for spoken language assessment. Jeremy Heng Meng Wong, Huayun Zhang, Nancy F. Chen
2022	Vector-quantized Variational Autoencoder for Phase-aware Speech Enhancement. Tuan Vu Ho, Quoc Huy Nguyen, Masato Akagi, Masashi Unoki
2022	Vietnamese Capitalization and Punctuation Recovery Models. Hoang Thi Thu Uyen, Nguyen Anh Tu, Ta Duc Huy
2022	View-Specific Assessment of L2 Spoken English. Stefano Bannò, Bhanu Balusu, Mark J. F. Gales, Kate M. Knill, Konstantinos Kyriakopoulos
2022	Visual Context-driven Audio Feature Enhancement for Robust End-to-End Audio-Visual Speech Recognition. Joanna Hong, Minsu Kim, Daehun Yoo, Yong Man Ro
2022	Visualising Model Training via Vowel Space for Text-To-Speech Systems. Binu Nisal Abeysinghe, Jesin James, Catherine I. Watson, Felix Marattukalam
2022	Visually-aware Acoustic Event Detection using Heterogeneous Graphs. Amir Shirian, Krishna Somandepalli, Victor Sanchez, Tanaya Guha
2022	VocaLiST: An Audio-Visual Synchronisation Model for Lips and Voices. Venkatesh Shenoy Kadandale, Juan F. Montesinos, Gloria Haro
2022	Vocal effort modeling in neural TTS for improving the intelligibility of synthetic speech in noise. Tuomo Raitio, Petko Petkov, Jiangchuan Li, P. V. Muhammed Shifas, Andrea Davis, Yannis Stylianou
2022	Vocal-Tract Area Functions with Articulatory Reality for Tract Opening. Zhao Zhang, Ju Zhang, Jianguo Wei, Kiyoshi Honda, Tatsuya Kitamura
2022	Voice Activity Projection: Self-supervised Learning of Turn-taking Events. Erik Ekstedt, Gabriel Skantze
2022	Voice Conversion Can Improve ASR in Very Low-Resource Settings. Matthew Baas, Herman Kamper
2022	Voice Puppetry with FastPitch. Emelie Van De Vreken, Korin Richmond, Catherine Lai
2022	Voice2Alliance: Automatic Speaker Diarization and Quality Assurance of Conversational Alignment. Baihan Lin
2022	VoiceFixer: A Unified Framework for High-Fidelity Speech Restoration. Haohe Liu, Xubo Liu, Qiuqiang Kong, Qiao Tian, Yan Zhao, DeLiang Wang, Chuanzeng Huang, Yuxuan Wang
2022	VoiceLab: Software for Fully Reproducible Automated Voice Analysis. David Feinberg
2022	VoiceMe: Personalized voice generation in TTS. Pol van Rijn, Silvan Mertes, Dominik Schiller, Piotr Dura, Hubert Siuzdak, Peter M. C. Harrison, Elisabeth André, Nori Jacoby
2022	Voicing decision based on phonemes classification and spectral moments for whisper-to-speech conversion. Luc Ardaillon, Nathalie Henrich Bernardoni, Olivier Perrotin
2022	Voicing neutralization in Romanian fricatives across different speech styles. Laura Spinu, Ioana Vasilescu, Lori Lamel, Jason Lilley
2022	W2V2-Light: A Lightweight Version of Wav2vec 2.0 for Automatic Speech Recognition. Dong-Hyun Kim, Jae-Hong Lee, Ji-Hwan Mo, Joon-Hyuk Chang
2022	WA-Transformer: Window Attention-based Transformer with Two-stage Strategy for Multi-task Audio Source Separation. Yang Wang, Chenxing Li, Feng Deng, Shun Lu, Peng Yao, Jianchao Tan, Chengru Song, Xiaorui Wang
2022	Watch Me Speak: 2D Visualization of Human Mouth during Speech. C. Siddarth, Sathvik Udupa, Prasanta Kumar Ghosh
2022	Wav2Vec-Aug: Improved self-supervised training with limited data. Anuroop Sriram, Michael Auli, Alexei Baevski
2022	Wav2vec behind the Scenes: How end2end Models learn Phonetics. Teena tom Dieck, Paula Andrea Pérez-Toro, Tomas Arias, Elmar Nöth, Philipp Klumpp
2022	Wav2vec-S: Semi-Supervised Pre-Training for Low-Resource ASR. Han Zhu, Li Wang, Gaofeng Cheng, Jindong Wang, Pengyuan Zhang, Yonghong Yan
2022	WavPrompt: Towards Few-Shot Spoken Language Understanding with Frozen Language Models. Heting Gao, Junrui Ni, Kaizhi Qian, Yang Zhang, Shiyu Chang, Mark Hasegawa-Johnson
2022	WavThruVec: Latent speech representation as intermediate features for neural speech synthesis. Hubert Siuzdak, Piotr Dura, Pol van Rijn, Nori Jacoby
2022	WeNet 2.0: More Productive End-to-End Speech Recognition Toolkit. Binbin Zhang, Di Wu, Zhendong Peng, Xingchen Song, Zhuoyuan Yao, Hang Lv, Lei Xie, Chao Yang, Fuping Pan, Jianwei Niu
2022	WeSinger: Data-augmented Singing Voice Synthesis with Auxiliary Losses. Zewang Zhang, Yibin Zheng, Xinhui Li, Li Lu
2022	Weak supervision for Question Type Detection with large language models. Jirí Martínek, Christophe Cerisara, Pavel Král, Ladislav Lenc, Josef Baloun
2022	Weakly-Supervised Neural Full-Rank Spatial Covariance Analysis for a Front-End System of Distant Speech Recognition. Yoshiaki Bando, Takahiro Aizawa, Katsutoshi Itoyama, Kazuhiro Nakadai
2022	What can Speech and Language Tell us About the Working Alliance in Psychotherapy. Sebastian Peter Bayerl, Gabriel Roccabruna, Shammur Absar Chowdhury, Tommaso Ciulli, Morena Danieli, Korbinian Riedhammer, Giuseppe Riccardi
2022	When Is TTS Augmentation Through a Pivot Language Useful? Nathaniel Romney Robinson, Perez Ogayo, Swetha R. Gangu, David R. Mortensen, Shinji Watanabe
2022	When Phonetics Meets Morphology: Intervocalic Voicing Within and Across Words in Romance Languages. Mathilde Hutin, Martine Adda-Decker, Lori Lamel, Ioana Vasilescu
2022	Where's the uh, hesitation? The interplay between filled pause location, speech rate and fundamental frequency in perception of confidence. Ambika Kirkland, Harm Lameris, Éva Székely, Joakim Gustafson
2022	Which Model is Best: Comparing Methods and Metrics for Automatic Laughter Detection in a Naturalistic Conversational Dataset. Gordon Rennie, Olga Perepelkina, Alessandro Vinciarelli
2022	Why does Self-Supervised Learning for Speech Recognition Benefit Speaker Recognition? Sanyuan Chen, Yu Wu, Chengyi Wang, Shujie Liu, Zhuo Chen, Peidong Wang, Gang Liu, Jinyu Li, Jian Wu, Xiangzhan Yu, Furu Wei
2022	Why is Korean lenis stop difficult to perceive for L2 Korean learners? Boram Lee, Naomi Yamaguchi, Cécile Fougeron
2022	WideResNet with Joint Representation Learning and Data Augmentation for Cover Song Identification. Shichao Hu, Bin Zhang, JinHong Lu, Yiliang Jiang, Wucheng Wang, Lingcheng Kong, Weifeng Zhao, Tao Jiang
2022	Word Discovery in Visually Grounded, Self-Supervised Speech Models. Puyuan Peng, David Harwath
2022	Word-wise Sparse Attention for Multimodal Sentiment Analysis. Fan Qian, Hongwei Song, Jiqing Han
2022	XLS-R: Self-supervised Cross-lingual Speech Representation Learning at Scale. Arun Babu, Changhan Wang, Andros Tjandra, Kushal Lakhotia, Qiantong Xu, Naman Goyal, Kritika Singh, Patrick von Platen, Yatharth Saraf, Juan Pino, Alexei Baevski, Alexis Conneau, Michael Auli
2022	XTREME-S: Evaluating Cross-lingual Speech Representations. Alexis Conneau, Ankur Bapna, Yu Zhang, Min Ma, Patrick von Platen, Anton Lozhkov, Colin Cherry, Ye Jia, Clara Rivera, Mihir Kale, Daan van Esch, Vera Axelrod, Simran Khanuja, Jonathan H. Clark, Orhan Firat, Michael Auli, Sebastian Ruder, Jason Riesa, Melvin Johnson
2022	Zero-Shot Cross-lingual Aphasia Detection using Automatic Speech Recognition. Gerasimos Chatzoudis, Manos Plitsis, Spyridoula Stamouli, Athanasia-Lida Dimou, Nassos Katsamanis, Vassilis Katsouros
2022	Zero-Shot Foreign Accent Conversion without a Native Reference. Waris Quamer, Anurag Das, John Levis, Evgeny Chukharev-Hudilainen, Ricardo Gutierrez-Osuna
2022	Zero-Shot Voice Conditioning for Denoising Diffusion TTS Models. Alon Levkovitch, Eliya Nachmani, Lior Wolf
2022	ema2wav: doing articulation by Praat. Philipp Buech, Simon Roessig, Lena Pagel, Doris Mücke, Anne Hermes
2022	g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation in Mandarin. Yi-Chang Chen, Yu-Chuan Steven, Yen-Cheng Chang, Yi-Ren Yeh
2022	iCNN-Transformer: An improved CNN-Transformer with Channel-spatial Attention and Keyword Prediction for Automated Audio Captioning. Kun Chen, Jun Wang, Feng Deng, Xiaorui Wang
2022	iDeepMMSE: An improved deep learning approach to MMSE speech and noise power spectrum estimation for speech enhancement. Minseung Kim, Hyungchan Song, Sein Cheong, Jong Won Shin
2022	kidsTALC: A Corpus of 3- to 11-year-old German Children's Connected Natural Speech. Lars Rumberg, Christopher Gebauer, Hanna Ehlert, Maren Wallbaum, Lena Bornholt, Jörn Ostermann, Ulrike Lüdtke
2022	mcBERT: Momentum Contrastive Learning with BERT for Zero-Shot Slot Filling. Seong-Hwan Heo, WonKee Lee, Jong-Hyeok Lee
2022	pMCT: Patched Multi-Condition Training for Robust Speech Recognition. Pablo Peso Parada, Agnieszka Dobrowolska, Karthikeyan Saravanan, Mete Ozay
2022	reducing multilingual context confusion for end-to-end code-switching automatic speech recognition. Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Yu Ting Yeung, Liqun Deng
2022	tPLCnet: Real-time Deep Packet Loss Concealment in the Time Domain Using a Short Temporal Context. Nils L. Westhausen, Bernd T. Meyer
2022	wav2vec2-based Speech Rating System for Children with Speech Sound Disorder. Yaroslav Getman, Ragheb Al-Ghezi, Katja Voskoboinik, Tamás Grósz, Mikko Kurimo, Giampiero Salvi, Torbjørn Svendsen, Sofia Strömbergsson