INTERSPEECH - RankMe

792 papers

Year	Title / Authors
2018	19th Annual Conference of the International Speech Communication Association, Interspeech 2018, Hyderabad, India, September 2-6, 2018. B. Yegnanarayana
2018	A Case Study on the Importance of Belief State Representation for Dialogue Policy Management. Margarita Kotti, Vassilios Diakoloukas, Alexandros Papangelis, Michail Lagoudakis, Yannis Stylianou
2018	A Compact and Discriminative Feature Based on Auditory Summary Statistics for Acoustic Scene Classification. Hongwei Song, Jiqing Han, Shiwen Deng
2018	A Comparative Study of Statistical Conversion of Face to Voice Based on Their Subjective Impressions. Yasuhito Ohsugi, Daisuke Saito, Nobuaki Minematsu
2018	A Comparison of Input Types to a Deep Neural Network-based Forced Aligner. Matthew C. Kelley, Benjamin V. Tucker
2018	A Comparison of Speaker-based and Utterance-based Data Selection for Text-to-Speech Synthesis. Kai-Zhan Lee, Erica Cooper, Julia Hirschberg
2018	A Convolutional Recurrent Neural Network for Real-Time Speech Enhancement. Ke Tan, DeLiang Wang
2018	A Deep Identity Representation for Noise Robust Spoofing Detection. Alejandro Gómez Alanís, Antonio M. Peinado, José A. González, Ángel M. Gómez
2018	A Deep Learning Approach to Assessing Non-native Pronunciation of English Using Phone Distances. Konstantinos Kyriakopoulos, Kate M. Knill, Mark J. F. Gales
2018	A Deep Learning Method for Pathological Voice Detection Using Convolutional Deep Belief Networks. Huiyi Wu, John J. Soraghan, Anja Lowit, Gaetano Di Caterina
2018	A Deep Neural Network Based Harmonic Noise Model for Speech Enhancement. Zhiheng Ouyang, Hongjiang Yu, Wei-Ping Zhu, Benoît Champagne
2018	A Deep Reinforcement Learning Based Multimodal Coaching Model (DCM) for Slot Filling in Spoken Language Understanding(SLU). Yu Wang, Abhishek Patel, Yilin Shen, Hongxia Jin
2018	A Discriminative Acoustic-Prosodic Approach for Measuring Local Entrainment. Megan M. Willi, Stephanie A. Borrie, Tyson S. Barrett, Ming Tu, Visar Berisha
2018	A First Investigation of the Timing of Turn-taking in Ruuli. Tuarik Buanzur, Margaret Zellers, Saudah Namyalo, Alena Witzlack-Makarevich
2018	A Framework for Speech Recognition Benchmarking. Franck Dernoncourt, Trung Bui, Walter Chang
2018	A French-Spanish Multimodal Speech Communication Corpus Incorporating Acoustic Data, Facial, Hands and Arms Gestures Information. Lucas D. Terissi, Gonzalo D. Sad, Mauricio Cerda, Slim Ouni, Rodrigo Galvez, Juan Carlos Gómez, Bernard Girau, Nancy Hitschfeld-Kahler
2018	A GPU-based WFST Decoder with Exact Lattice Generation. Zhehuai Chen, Justin Luitjens, Hainan Xu, Yiming Wang, Daniel Povey, Sanjeev Khudanpur
2018	A Generalization of PLDA for Joint Modeling of Speaker Identity and Multiple Nuisance Conditions. Luciana Ferrer, Mitchell McLaren
2018	A Hybrid Approach to Grapheme to Phoneme Conversion in Assamese. Somnath Roy, Shakuntala Mahanta
2018	A Knowledge Driven Structural Segmentation Approach for Play-Talk Classification During Autism Assessment. Manoj Kumar, Pooja Chebolu, So Hyun Kim, Kassandra Martinez, Catherine Lord, Shrikanth S. Narayanan
2018	A Lightly Supervised Approach to Detect Stuttering in Children's Speech. Sadeen Alharbi, Madina Hasan, Anthony J. H. Simons, Shelagh Brumfitt, Phil D. Green
2018	A Multi-Discriminator CycleGAN for Unsupervised Non-Parallel Speech Domain Adaptation. Ehsan Hosseini-Asl, Yingbo Zhou, Caiming Xiong, Richard Socher
2018	A Multistage Training Framework for Acoustic-to-Word Model. Chengzhu Yu, Chunlei Zhang, Chao Weng, Jia Cui, Dong Yu
2018	A Multitask Learning Approach to Assess the Dysarthria Severity in Patients with Parkinson's Disease. Juan Camilo Vásquez-Correa, Tomás Arias-Vergara, Juan Rafael Orozco-Arroyave, Elmar Nöth
2018	A Neural Model to Predict Parameters for a Generalized Command Response Model of Intonation. Bastian Schnell, Philip N. Garner
2018	A New Framework for Supervised Speech Enhancement in the Time Domain. Ashutosh Pandey, DeLiang Wang
2018	A New Frequency Coverage Metric and a New Subband Encoding Model, with an Application in Pitch Estimation. Shoufeng Lin
2018	A New Glottal Neural Vocoder for Speech Synthesis. Yang Cui, Xi Wang, Lei He, Frank K. Soong
2018	A Non-convolutive NMF Model for Speech Dereverberation. Nikhil Mohanan, Rajbabu Velmurugan, Preeti Rao
2018	A Novel Approach for Effective Recognition of the Code-Switched Data on Monolingual Language Model. Ganji Sreeram, Rohit Sinha
2018	A Novel Normalization Method for Autocorrelation Function for Pitch Detection and for Speech Activity Detection. Qiguang Lin, Yiwen Shao
2018	A Preliminary Study on Tonal Coarticulation in Continuous Speech. Lixia Hao, Wei Zhang, Yanlu Xie, Jinsong Zhang
2018	A Priori SNR Estimation Based on a Recurrent Neural Network for Robust Speech Enhancement. Yangyang Xia, Richard M. Stern
2018	A Probability Weighted Beamformer for Noise Robust ASR. Suliang Bu, Yunxin Zhao, Mei-Yuh Hwang, Sining Sun
2018	A Robust Context-Dependent Speech-to-Speech Phraselator Toolkit for Alexa. Manny Rayner, Nikos Tsourakis, Jan Stanek
2018	A Shifted Delta Coefficient Objective for Monaural Speech Separation Using Multi-task Learning. Chenglin Xu, Wei Rao, Eng Siong Chng, Haizhou Li
2018	A Simple Model for Detection of Rare Sound Events. Weiran Wang, Chieh-Chi Kao, Chao Wang
2018	A Study of Enhancement, Augmentation and Autoencoder Methods for Domain Adaptation in Distant Speech Recognition. Hao Tang, Wei-Ning Hsu, François Grondin, James R. Glass
2018	A Study of Lexical and Prosodic Cues to Segmentation in a Hindi-English Code-switched Discourse. Preeti Rao, Mugdha Pandya, Kamini Sabu, Kanhaiya Kumar, Nandini Bondale
2018	A Study of Objective Measurement of Comprehensibility through Native Speakers' Shadowing of Learners' Utterances. Yusuke Inoue, Suguru Kabashima, Daisuke Saito, Nobuaki Minematsu, Kumi Kanamura, Yutaka Yamauchi
2018	A Three-Layer Emotion Perception Model for Valence and Arousal-Based Detection from Multilingual Speech. Xingfeng Li, Masato Akagi
2018	A Two-Stage Approach to Noisy Cochannel Speech Separation with Gated Residual Networks. Ke Tan, DeLiang Wang
2018	A Unified Framework for the Generation of Glottal Signals in Deep Learning-based Parametric Speech Synthesis Systems. Min-Jae Hwang, Eunwoo Song, Jin-Seob Kim, Hong-Goo Kang
2018	A Voice Conversion Framework with Tandem Feature Sparse Representation and Speaker-Adapted WaveNet Vocoder. Berrak Sisman, Mingyang Zhang, Haizhou Li
2018	A Weighted Superposition of Functional Contours Model for Modelling Contextual Prominence of Elementary Prosodic Contours. Branislav Gerazov, Gérard Bailly, Yi Xu
2018	AGROASSAM: A Web Based Assamese Speech Recognition Application for Retrieving Agricultural Commodity Price and Weather Information. Abhishek Dey, Abhash Deka, Siddika Imani, Barsha Deka, Rohit Sinha, S. R. Mahadeva Prasanna, Priyankoo Sarmah, K. Samudravijaya, S. R. Nirmala
2018	ASe: Acoustic Scene Embedding Using Deep Archetypal Analysis and GMM. Pulkit Sharma, Vinayak Abrol, Anshul Thakur
2018	AVA-Speech: A Densely Labeled Dataset of Speech Activity in Movies. Sourish Chaudhuri, Joseph Roth, Daniel P. W. Ellis, Andrew C. Gallagher, Liat Kaver, Radhika Marvin, Caroline Pantofaru, Nathan Reale, Loretta Guarino Reid, Kevin W. Wilson, Zhonghua Xi
2018	Acoustic Analysis of Whispery Voice Disguise in Mandarin Chinese. Cuiling Zhang, Bin Li, Si Chen, Yike Yang
2018	Acoustic Features Associated with Sustained Vowel and Continuous Speech Productions by Chinese Children with Functional Articulation Disorders. Wang Zhang, Xiangquan Gui, Tianqi Wang, Manwa L. Ng, Feng Yang, Lan Wang, Nan Yan
2018	Acoustic Modeling Using Adversarially Trained Variational Recurrent Neural Network for Speech Synthesis. Joun Yeop Lee, Sung Jun Cheon, Byoung Jin Choi, Nam Soo Kim, Eunwoo Song
2018	Acoustic Modeling from Frequency Domain Representations of Speech. Pegah Ghahremani, Hossein Hadian, Hang Lv, Daniel Povey, Sanjeev Khudanpur
2018	Acoustic Modeling with DFSMN-CTC and Joint CTC-CE Learning. Shiliang Zhang, Ming Lei
2018	Acoustic Modeling with Densely Connected Residual Network for Multichannel Speech Recognition. Jian Tang, Yan Song, Lirong Dai, Ian McLoughlin
2018	Acoustic and Perceptual Characteristics of Mandarin Speech in Homosexual and Heterosexual Male Speakers. Puyang Geng, Wentao Gu, Hiroya Fujisaki
2018	Acoustic and Textual Data Augmentation for Improved ASR of Code-Switching Speech. Emre Yilmaz, Henk van den Heuvel, David A. van Leeuwen
2018	Acoustic-Prosodic Features of Tabla Bol Recitation and Correspondence with the Tabla Imitation. Rohit M. A., Preeti Rao
2018	Acoustic-Prosodic Indicators of Deception and Trust in Interview Dialogues. Sarah Ita Levitan, Angel Maredia, Julia Hirschberg
2018	Acoustic-dependent Phonemic Transcription for Text-to-speech Synthesis. Kévin Vythelingum, Yannick Estève, Olivier Rosec
2018	Acoustic-prosodic Entrainment in Structural Metadata Events. Vera Cabarrão, Fernando Batista, Helena Moniz, Isabel Trancoso, Ana Isabel Mata
2018	Active Learning for LF-MMI Trained Neural Networks in ASR. Yanhua Long, Hong Ye, Yijie Li, Jiaen Liang
2018	Active Memory Networks for Language Modeling. Oscar Chen, Anton Ragni, Mark J. F. Gales, Xie Chen
2018	Adding New Classes without Access to the Original Training Data with Applications to Language Identification. Hagai Taitelbaum, Ehud Ben-Reuven, Jacob Goldberger
2018	Adversarial Feature-Mapping for Speech Enhancement. Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang Fred Juang
2018	Age-related Effects on Sensorimotor Control of Speech Production. Anne Hermes, Jane Mertens, Doris Mücke
2018	Air-Tissue Boundary Segmentation in Real-Time Magnetic Resonance Imaging Video Using Semantic Segmentation with Fully Convolutional Networks. C. A. Valliappan, Renuka Mannem, Prasanta Kumar Ghosh
2018	All-Conv Net for Bird Activity Detection: Significance of Learned Pooling. Arjun Pankajakshan, Anshul Thakur, Daksh Thapar, Padmanabhan Rajan, Aditya Nigam
2018	All-Neural Multi-Channel Speech Enhancement. Zhong-Qiu Wang, DeLiang Wang
2018	An Active Feature Transformation Method for Attitude Recognition of Video Bloggers. Fasih Haider, Fahim A. Salim, Owen Conlan, Saturnino Luz
2018	An Attention Pooling Based Representation Learning Method for Speech Emotion Recognition. Pengcheng Li, Yan Song, Ian McLoughlin, Wu Guo, Lirong Dai
2018	An Automated Assistant for Medical Scribes. Gregory P. Finley, Erik Edwards, Amanda Robinson, Najmeh Sadoughi, James Fone, Mark Miller, David Suendermann-Oeft, Michael Brenndoerfer, Nico Axtmann
2018	An Automatic Speech Transcription System for Manipuri Language. Tanvina Patel, Krishna D. N, Noor Fathima, Nisar Shah, Mahima C, Deepak Kumar, Anuroop Iyengar
2018	An Efficient Approach to Encoding Context for Spoken Language Understanding. Raghav Gupta, Abhinav Rastogi, Dilek Hakkani-Tür
2018	An Empirical Analysis of the Correlation of Syntax and Prosody. Arne Köhn, Timo Baumann, Oskar Dörfler
2018	An End-to-End Deep Learning Framework for Speech Emotion Recognition of Atypical Individuals. Dengke Tang, Junlin Zeng, Ming Li
2018	An End-to-End Text-Independent Speaker Identification System on Short Utterances. Ruifang Ji, Xinyuan Cai, Bo Xu
2018	An Ensemble of Transfer, Semi-supervised and Supervised Learning Methods for Pathological Heart Sound Classification. Ahmed Imtiaz Humayun, Md. Tauhiduzzaman Khan, Shabnam Ghaffarzadegan, Zhe Feng, Taufiq Hasan
2018	An Exploration of Local Speaking Rate Variations in Mandarin Read Speech. Guan-Ting Liou, Chen-Yu Chiang, Yih-Ru Wang, Sin-Horng Chen
2018	An Exploration towards Joint Acoustic Modeling for Indian Languages: IIIT-H Submission for Low Resource Speech Recognition Challenge for Indian Languages, INTERSPEECH 2018. Hari Krishna Vydana, Krishna Gurugubelli, Vishnu Vidyadhara Raju Vegesna, Anil Kumar Vuppala
2018	An Improved Deep Embedding Learning Method for Short Duration Speaker Verification. Zhifu Gao, Yan Song, Ian McLoughlin, Wu Guo, Lirong Dai
2018	An Interlocutor-Modulated Attentional LSTM for Differentiating between Subgroups of Autism Spectrum Disorder. Yun-Shao Lin, Susan Shur-Fen Gau, Chi-Chun Lee
2018	An Investigation of Convolution Attention Based Models for Multilingual Speech Synthesis of Indian Languages. Pallavi Baljekar, Sai Krishna Rallabandi, Alan W. Black
2018	An Investigation of Mixup Training Strategies for Acoustic Models in ASR. Ivan Medennikov, Yuri Y. Khokhlov, Aleksei Romanenko, Dmitry Popov, Natalia A. Tomashenko, Ivan Sorokin, Alexander Zatvornitskiy
2018	An Investigation of Non-linear i-vectors for Speaker Verification. Nanxin Chen, Jesús Villalba, Najim Dehak
2018	An Open Source Emotional Speech Corpus for Human Robot Interaction Applications. Jesin James, Li Tian, Catherine Inez Watson
2018	An Optimization Based Approach for Solving Spoken CALL Shared Task. Mohammad A. Ateeq, Abualsoud Hanani, Aziz Qaroush
2018	An Optimization Framework for Recovery of Speech from Phase-Encoded Spectrograms. Abhilash Sainathan, Sunil Rudresh, Chandra Sekhar Seelamantula
2018	An Ultrasound Study of Gemination in Coronal Stops in Eastern Oromo. Maida Percival, Alexei Kochetov, Yoonjung Kang
2018	An Unsupervised Neural Prediction Framework for Learning Speaker Embeddings Using Recurrent Neural Networks. Arindam Jati, Panayiotis G. Georgiou
2018	Analysing the Focus of a Hierarchical Attention Network: the Importance of Enjambments When Classifying Post-modern Poetry. Timo Baumann, Hussein Hussein, Burkhard Meyer-Sickendiek
2018	Analysis and Detection of Phonation Modes in Singing Voice using Excitation Source Features and Single Frequency Filtering Cepstral Coefficients (SFFCC). Sudarsana Reddy Kadiri, Bayya Yegnanarayana
2018	Analysis of Breathiness in Contextual Vowel of Voiceless Nasals in Mizo. Pamir Gogoi, Sishir Kalita, Parismita Gogoi, Ratree Wayland, Priyankoo Sarmah, S. R. Mahadeva Prasanna
2018	Analysis of Complementary Information Sources in the Speaker Embeddings Framework. Mahesh Kumar Nandwana, Mitchell McLaren, Diego Castán, Julien van Hout, Aaron Lawson
2018	Analysis of L2 Learners' Progress of Distinguishing Mandarin Tone 2 and Tone 3. Yue Sun, Win Thuzar Kyaw, Jinsong Zhang, Yoshinori Sagisaka
2018	Analysis of Language Dependent Front-End for Speaker Recognition. Srikanth R. Madikeri, Subhadeep Dey, Petr Motlícek
2018	Analysis of Length Normalization in End-to-End Speaker Verification System. Weicheng Cai, Jinkun Chen, Ming Li
2018	Analysis of Phone Errors Attributable to Phonological Effects Associated With Language Acquisition Through Bottleneck Feature Visualisations. Eva Fringi, Martin J. Russell
2018	Analysis of Variational Mode Functions for Robust Detection of Vowels. Surbhi Sakshi, Avinash Kumar, Gayadhar Pradhan
2018	Analysis of sparse representation based feature on speech mode classification. Kumud Tripathi, K. Sreenivasa Rao
2018	Analysis of the Effect of Speech-Laugh on Speaker Recognition System. Sri Harsha Dumpala, Ashish Panda, Sunil Kumar Kopparapu
2018	Analyzing EEG Signals in Auditory Speech Comprehension Using Temporal Response Functions and Generalized Additive Models. Kimberley Mulder, Louis ten Bosch, Lou Boves
2018	Analyzing Effect of Physical Expression on English Proficiency for Multimodal Computer-Assisted Language Learning. Haoran Wu, Yuya Chiba, Takashi Nose, Akinori Ito
2018	Analyzing Reaction Time Sequences from Human Participants in Auditory Experiments. Louis ten Bosch, Mirjam Ernestus, Lou Boves
2018	Analyzing Thai Tone Distribution through Functional Data Analysis. Hong Zhang
2018	Analyzing Vocal Tract Movements During Speech Accommodation. Sankar Mukherjee, Thierry Legou, Leonardo Lancia, Pauline M. Hilt, Alice Tomassini, Luciano Fadiga, Alessandro D'Ausilio, Leonardo Badino, Noël Nguyen
2018	Angular Softmax for Short-Duration Text-independent Speaker Verification. Zili Huang, Shuai Wang, Kai Yu
2018	Annotator Trustability-based Cooperative Learning Solutions for Intelligent Audio Analysis. Simone Hantke, Christoph Stemp, Björn W. Schuller
2018	Anomaly Detection Approach for Pronunciation Verification of Disordered Speech Using Speech Attribute Features. Mostafa Ali Shahin, Beena Ahmed, Jim X. Ji, Kirrie J. Ballard
2018	Articulation Rate as a Speaker Discriminant in British English. Erica Gold
2018	Articulation-to-Speech Synthesis Using Articulatory Flesh Point Sensors' Orientation Information. Beiming Cao, Myung Jong Kim, Jun R. Wang, Jan P. H. van Santen, Ted Mau, Jun Wang
2018	Articulatory Consequences of Vocal Effort Elicitation Method. Elísabet Eir Cortes, Marcin Wlodarczak, Juraj Simko
2018	Articulatory Feature Classification Using Convolutional Neural Networks. Danny Merkx, Odette Scharenborg
2018	Articulatory Features for ASR of Pathological Speech. Emre Yilmaz, Vikramjit Mitra, Chris Bartels, Horacio Franco
2018	Articulatory and Stacked Bottleneck Features for Low Resource Speech Recognition. Vishwas M. Shetty, Rini A. Sharon, Basil Abraham, Tejaswi Seeram, Anusha Prakash, Nithya Ravi, Srinivasan Umesh
2018	Articulatory-to-speech Conversion Using Bi-directional Long Short-term Memory. Fumiaki Taguchi, Tokihiko Kaburagi
2018	Artificial Bandwidth Extension with Memory Inclusion Using Semi-supervised Stacked Auto-encoders. Pramod B. Bachhav, Massimiliano Todisco, Nicholas W. D. Evans
2018	Assessing Speaker Engagement in 2-Person Debates: Overlap Detection in United States Presidential Debates. Midia Yousefi, Navid Shokouhi, John H. L. Hansen
2018	Attention-based End-to-End Models for Small-Footprint Keyword Spotting. Changhao Shan, Junbo Zhang, Yujun Wang, Lei Xie
2018	Attention-based Sequence Classification for Affect Detection. Cristina Gorrostieta, Richard Brutti, Kye Taylor, Avi Shapiro, Joseph Moran, Ali Azarbayejani, John Kane
2018	Attentive Sequence-to-Sequence Learning for Diacritic Restoration of YorùBá Language Text. Iroro Orife
2018	Attentive Statistics Pooling for Deep Speaker Embedding. Koji Okabe, Takafumi Koshinaka, Koichi Shinoda
2018	Audio-Visual Prediction of Head-Nod and Turn-Taking Events in Dyadic Interactions. Bekir Berker Türker, Engin Erzin, Yücel Yemez, T. Metin Sezgin
2018	Audio-visual Voice Conversion Using Deep Canonical Correlation Analysis for Deep Bottleneck Features. Satoshi Tamura, Kento Horio, Hajime Endo, Satoru Hayamizu, Tomoki Toda
2018	Audiovisual Speech Activity Detection with Advanced Long Short-Term Memory. Fei Tao, Carlos Busso
2018	Auditory Filterbank Learning Using ConvRBM for Infant Cry Classification. Hardik B. Sailor, Hemant A. Patil
2018	Auditory Filterbank Learning for Temporal Modulation Features in Replay Spoof Speech Detection. Hardik B. Sailor, Madhu R. Kamble, Hemant A. Patil
2018	Automated Classification of Children's Linguistic versus Non-Linguistic Vocalisations. Zixing Zhang, Alejandrina Cristià, Anne S. Warlaumont, Björn W. Schuller
2018	Automated Classification of Vowel-Gesture Parameters Using External Broadband Excitation. Balamurali B. T., Jer-Ming Chen
2018	Automatic Assessment of Individual Culture Attribute of Power Distance Using a Social Context-Enhanced Prosodic Network Representation. Fu-Sheng Tsai, Hao-Chun Yang, Wei-Wen Chang, Chi-Chun Lee
2018	Automatic Assessment of L2 English Word Prosody Using Weighted Distances of F0 and Intensity Contours. Quy-Thao Truong, Tsuneo Kato, Seiichi Yamamoto
2018	Automatic DNN Node Pruning Using Mixture Distribution-based Group Regularization. Tsukasa Yoshida, Takafumi Moriya, Kazuho Watanabe, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono
2018	Automatic Detection of Expressiveness in Oral Reading. Kamini Sabu, Kanhaiya Kumar, Preeti Rao
2018	Automatic Detection of Multi-speaker Fragments with High Time Resolution. Evdokia Kazimirova, Andrey Belyaev
2018	Automatic Detection of Orofacial Impairment in Stroke. Andrea Bandini, Jordan R. Green, Brian Richburg, Yana Yunusova
2018	Automatic Early Detection of Amyotrophic Lateral Sclerosis from Intelligible Speech Using Convolutional Neural Networks. Kwanghoon An, Myung Jong Kim, Kristin Teplansky, Jordan R. Green, Thomas F. Campbell, Yana Yunusova, Daragh Heitzman, Jun Wang
2018	Automatic Evaluation of Soft Articulatory Contact for Stuttering Treatment. Keiko Ochi, Koichi Mori, Naomi Sakai
2018	Automatic Evaluation of Speech Intelligibility Based on I-vectors in the Context of Head and Neck Cancers. Imed Laaridh, Corinne Fredouille, Alain Ghio, Muriel Lalain, Virginie Woisard
2018	Automatic Glottis Localization and Segmentation in Stroboscopic Videos Using Deep Neural Network. M. V. Achuth Rao, Rahul Krishnamurthy, Pebbili Gopikishore, Veeramani Priyadharshini, Prasanta Kumar Ghosh
2018	Automatic Miscue Detection Using RNN Based Models with Data Augmentation. Yoon Seok Hong, Kyung Seo Ki, Gahgene Gweon
2018	Automatic Pronunciation Evaluation of Singing. Chitralekha Gupta, Haizhou Li, Ye Wang
2018	Automatic Question Detection from Acoustic and Phonetic Features Using Feature-wise Pre-training. Atsushi Ando, Reine Asakawa, Ryo Masumura, Hosana Kamiyama, Satoshi Kobashikawa, Yushi Aono
2018	Automatic Speech Assessment for People with Aphasia Using TDNN-BLSTM with Multi-Task Learning. Ying Qin, Tan Lee, Siyuan Feng, Anthony Pak-Hin Kong
2018	Automatic Speech Recognition System Development in the "Wild". Anton Ragni, Mark J. F. Gales
2018	Automatic Speech Recognition and Topic Identification from Speech for Almost-Zero-Resource Languages. Matthew Wiesner, Chunxi Liu, Lucas Ondel, Craig Harman, Vimal Manohar, Jan Trmal, Zhongqiang Huang, Najim Dehak, Sanjeev Khudanpur
2018	Automatic Speech Recognition with Articulatory Information and a Unified Dictionary for Hindi, Marathi, Bengali and Oriya. Debadatta Dash, Myung Jong Kim, Kristin Teplansky, Jun Wang
2018	Automatic Visual Augmentation for Concatenation Based Synthesized Articulatory Videos from Real-time MRI Data for Spoken Language Training. Chandana Srinivasan, Chiranjeevi Yarra, Ritu Aggarwal, Sanjeev Kumar Mittal, N. K. Kausthubha, Raseena K. T, Astha Singh, Prasanta Kumar Ghosh
2018	Automatically Measuring L2 Speech Fluency without the Need of ASR: A Proof-of-concept Study with Japanese Learners of French. Lionel Fontan, Maxime Le Coz, Sylvain Detey
2018	Auxiliary Feature Based Adaptation of End-to-end ASR Systems. Marc Delcroix, Shinji Watanabe, Atsunori Ogawa, Shigeki Karita, Tomohiro Nakatani
2018	Avoiding Speaker Overfitting in End-to-End DNNs Using Raw Waveform for Text-Independent Speaker Verification. Jee-weon Jung, Hee-Soo Heo, Il-Ho Yang, Hye-jin Shim, Ha-Jin Yu
2018	BLSTM-CRF Based End-to-End Prosodic Boundary Prediction with Context Sensitive Embeddings in a Text-to-Speech Front-End. Yibin Zheng, Jianhua Tao, Zhengqi Wen, Ya Li
2018	BUT OpenSAT 2017 Speech Recognition System. Martin Karafiát, Murali Karthick Baskar, Igor Szöke, Vladimír Malenovský, Karel Veselý, Frantisek Grézl, Lukás Burget, Jan Cernocký
2018	BUT System for DIHARD Speech Diarization Challenge 2018. Mireia Díez, Federico Landini, Lukás Burget, Johan Rohdin, Anna Silnova, Katerina Zmolíková, Ondrej Novotný, Karel Veselý, Ondrej Glembek, Oldrich Plchot, Ladislav Mosner, Pavel Matejka
2018	BUT System for Low Resource Indian Language ASR. Bhargav Pulugundla, Murali Karthick Baskar, Santosh Kesiraju, Ekaterina Egorova, Martin Karafiát, Lukás Burget, Jan Cernocký
2018	Bags in Bag: Generating Context-Aware Bags for Tracking Emotions from Speech. Jing Han, Zixing Zhang, Maximilian Schmitt, Zhao Ren, Fabien Ringeval, Björn W. Schuller
2018	Bidirectional Long-Short Term Memory Network-based Estimation of Reliable Spectral Component Locations. Aaron Nicolson, Kuldip K. Paliwal
2018	Binaural Speech Intelligibility Estimation Using Deep Neural Networks. Kazuhiro Kondo, Kazuya Taira, Yosuke Kobayashi
2018	Biophysically-inspired Features Improve the Generalizability of Neural Network-based Speech Enhancement Systems. Deepak Baby, Sarah Verhulst
2018	Bone-Conduction Sensor Assisted Noise Estimation for Improved Speech Enhancement. Ching Hua Lee, Bhaskar D. Rao, Harinath Garudadri
2018	Brain-Computer Interface using Electroencephalogram Signatures of Eye Blinks. Srihari Maruthachalam, Sidharth Aggarwal, Mari Ganesh Kumar, Mriganka Sur, Hema A. Murthy
2018	Breathy to Tense Voice Discrimination using Zero-Time Windowing Cepstral Coefficients (ZTWCCs). Sudarsana Reddy Kadiri, Bayya Yegnanarayana
2018	Bubble Cooperative Networks for Identifying Important Speech Cues. Viet Anh Trinh, Brian McFee, Michael I. Mandel
2018	Building Large-vocabulary Speaker-independent Lipreading Systems. Kwanchiva Thangthai, Richard W. Harvey
2018	Building State-of-the-art Distant Speech Recognition Using the CHiME-4 Challenge with a Setup of Speech Enhancement Baseline. Szu-Jui Chen, Aswin Shanmugam Subramanian, Hainan Xu, Shinji Watanabe
2018	Building a Unified Code-Switching ASR System for South African Languages. Emre Yilmaz, Astik Biswas, Ewald van der Westhuizen, Febe de Wet, Thomas Niesler
2018	CACTAS - Collaborative Audio Categorization and Transcription for ASR Systems. Mithul Mathivanan, Kinnera Saranu, Abhishek Pandey, Jithendra Vepa
2018	CNN Based Query by Example Spoken Term Detection. Dhananjay Ram, Lesly Miculicich, Hervé Bourlard
2018	COSMO SylPhon: A Bayesian Perceptuo-motor Model to Assess Phonological Learning. Marie-Lou Barnaud, Julien Diard, Pierre Bessière, Jean-Luc Schwartz
2018	CRIM's System for the MGB-3 English Multi-Genre Broadcast Media Transcription. Vishwa Gupta, Gilles Boulianne
2018	Capsule Networks for Low Resource Spoken Language Understanding. Vincent Renkens, Hugo Van hamme
2018	Captaina: Integrated Pronunciation Practice and Data Collection Portal. Aku Rouhe, Reima Karhila, Aija Elg, Minnaleena Toivola, Peter Smit, Anna-Riikka Smolander, Mikko Kurimo
2018	Categorical vs Dimensional Perception of Italian Emotional Speech. Emilia Parada-Cabaleiro, Giovanni Costantini, Anton Batliner, Alice Baird, Björn W. Schuller
2018	Category Similarity in Multilingual Pronunciation Training. Jacques C. Koreman
2018	Character-level Language Modeling with Gated Hierarchical Recurrent Neural Networks. Iksoo Choi, Jinhwan Park, Wonyong Sung
2018	Characterizing Rhythm Differences between Strong and Weak Accented L2 Speech. Chris Davis, Jeesun Kim
2018	Classification of Correction Turns in Multilingual Dialogue Corpus. Ivan Kraljevski, Diane Hirschfeld
2018	Classification of Disorders in Vocal Folds Using Electroglottographic Signal. Tanumay Mandal, K. Sreenivasa Rao, Sanjay Kumar Gupta
2018	Classification of Huntington Disease Using Acoustic and Lexical Features. Matthew Perez, Wenyu Jin, Duc Le, Noelle Carlozzi, Praveen Dayalu, Angela Roberts, Emily Mower Provost
2018	Classification of Nonverbal Human Produced Audio Events: A Pilot Study. Rachel E. Bouserhal, Philippe Chabot, Milton Sarria Paja, Patrick Cardinal, Jérémie Voix
2018	Co-whitening of I-vectors for Short and Long Duration Speaker Verification. Longting Xu, Kong-Aik Lee, Haizhou Li, Zhen Yang
2018	Code-switching in Indic Speech Synthesisers. Anju Leela Thomas, Anusha Prakash, Arun Baby, Hema A. Murthy
2018	Coherence Models for Dialogue. Alessandra Cervone, Evgeny A. Stepanov, Giuseppe Riccardi
2018	Cold Fusion: Training Seq2Seq Models Together with Language Models. Anuroop Sriram, Heewoo Jun, Sanjeev Satheesh, Adam Coates
2018	Collapsed Speech Segment Detection and Suppression for WaveNet Vocoder. Yi-Chiao Wu, Kazuhiro Kobayashi, Tomoki Hayashi, Patrick Lumban Tobing, Tomoki Toda
2018	Combined Speaker Clustering and Role Recognition in Conversational Speech. Nikolaos Flemotomos, Pavlos Papadopoulos, James Gibson, Shrikanth S. Narayanan
2018	Combining Natural Gradient with Hessian Free Methods for Sequence Training. Adnan Haider, Philip C. Woodland
2018	Compact Feedforward Sequential Memory Networks for Small-footprint Keyword Spotting. Mengzhe Chen, Shiliang Zhang, Ming Lei, Yong Liu, Haitao Yao, Jie Gao
2018	Comparing the Max and Noisy-Or Pooling Functions in Multiple Instance Learning for Weakly Supervised Sequence Learning Tasks. Yun Wang, Juncheng Li, Florian Metze
2018	Comparison of BLSTM-Layer-Specific Affine Transformations for Speaker Adaptation. Markus Kitza, Ralf Schlüter, Hermann Ney
2018	Comparison of Syllabification Algorithms and Training Strategies for Robust Word Count Estimation across Different Languages and Recording Conditions. Okko Räsänen, Shreyas Seshadri, Marisa Casillas
2018	Comparison of Unsupervised Modulation Filter Learning Methods for ASR. Purvi Agrawal, Sriram Ganapathy
2018	Comparison of an End-to-end Trainable Dialogue System with a Modular Statistical Dialogue System. Norbert Braunschweiler, Alexandros Papangelis
2018	Compensation for Domain Mismatch in Text-independent Speaker Recognition. Fahimeh Bahmaninezhad, John H. L. Hansen
2018	Completely Unsupervised Phoneme Recognition by Adversarially Learning Mapping Relationships from Audio Embeddings. Da-Rong Liu, Kuan-Yu Chen, Hung-yi Lee, Lin-Shan Lee
2018	Compressing End-to-end ASR Networks by Tensor-Train Decomposition. Takuma Mori, Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
2018	Compression of End-to-End Models. Ruoming Pang, Tara N. Sainath, Rohit Prabhavalkar, Suyog Gupta, Yonghui Wu, Shuyuan Zhang, Chung-Cheng Chiu
2018	Computational Modeling of Conversational Humor in Psychotherapy. Anil Ramakrishna, Timothy Greer, David C. Atkins, Shrikanth S. Narayanan
2018	Computational Paralinguistics: Automatic Assessment of Emotions, Mood and Behavioural State from Acoustics of Speech. Zafi Sherhan Syed, Julien Schroeter, Kirill A. Sidorov, A. David Marshall
2018	Concatenative Resynthesis with Improved Training Signals for Speech Enhancement. Ali Raza Syed, Viet Anh Trinh, Michael I. Mandel
2018	Conditional End-to-End Audio Transforms. Albert Haque, Michelle Guo, Prateek Verma
2018	Conditional-Computation-Based Recurrent Neural Networks for Computationally Efficient Acoustic Modelling. Raffaele Tavarone, Leonardo Badino
2018	Contextual Language Model Adaptation for Conversational Agents. Anirudh Raju, Behnam Hedayatnia, Linda Liu, Ankur Gandhe, Chandra Khatri, Angeliki Metallinou, Anu Venkatesh, Ariya Rastrow
2018	Contextual Slot Carryover for Disparate Schemas. Chetan Naik, Arpit Gupta, Hancheng Ge, Lambert Mathias, Ruhi Sarikaya
2018	Contextual Speech Recognition in End-to-end Neural Network Systems Using Beam Search. Ian Williams, Anjuli Kannan, Petar S. Aleksic, David Rybach, Tara N. Sainath
2018	Conversational Analysis Using Utterance-level Attention-based Bidirectional Recurrent Neural Networks. Chandrakant Bothe, Sven Magg, Cornelius Weber, Stefan Wermter
2018	Correlational Networks for Speaker Normalization in Automatic Speech Recognition. Rini A. Sharon, Sandeep Reddy Kothinti, Srinivasan Umesh
2018	Cosine Metric Learning for Speaker Verification in the I-vector Space. Zhongxin Bai, Xiao-Lei Zhang, Jingdong Chen
2018	Creak in the Respiratory Cycle. Kätlin Aare, Pärtel Lippus, Marcin Wlodarczak, Mattias Heldner
2018	Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement. Peter Guzewich, Stephen A. Zahorian, Xiao Chen, Hao Zhang
2018	Cross-Lingual Multi-Task Neural Architecture for Spoken Language Understanding. Yujiang Li, Xuemin Zhao, Weiqun Xu, Yonghong Yan
2018	Cross-cultural (A)symmetries in Audio-visual Attitude Perception. Hansjörg Mixdorff, Albert Rilliard, Tan Lee, Matthew K. H. Ma, Angelika Hönemann
2018	Cross-language Perception of Mandarin Lexical Tones by Mongolian-speaking Bilinguals in the Inner Mongolia Autonomous Region, China. Kimiko Tsukada, Yu Rong
2018	Cross-language Phoneme Mapping for Low-resource Languages: An Exploration of Benefits and Trade-offs. Nick K. Chibuye, Todd Rosenstock, Brian DeRenzi
2018	Cross-lingual Speech Emotion Recognition through Factor Analysis. Brecht Desplanques, Kris Demuynck
2018	Cultural Differences in Pattern Matching: Multisensory Recognition of Socio-affective Prosody. Takaaki Shochi, Jean-Luc Rouas, Marine Guerry, Donna Erickson
2018	Cycle-Consistent Speech Enhancement. Zhong Meng, Jinyu Li, Yifan Gong, Biing-Hwang Fred Juang
2018	DA-IICT/IIITV System for Low Resource Speech Recognition Challenge 2018. Hardik B. Sailor, Maddala Venkata Siva Krishna, Diksha Chhabra, Ankur T. Patil, Madhu R. Kamble, Hemant A. Patil
2018	DNN Driven Speaker Independent Audio-Visual Mask Estimation for Speech Separation. Mandar Gogate, Ahsan Adeel, Ricard Marxer, Jon Barker, Amir Hussain
2018	DNN-based Speech Synthesis for Small Data Sets Considering Bidirectional Speech-Text Conversion. Kentaro Sone, Toru Nakashika
2018	Data Augmentation Improves Recognition of Foreign Accented Speech. Takashi Fukuda, Raul Fernandez, Andrew Rosenberg, Samuel Thomas, Bhuvana Ramabhadran, Alexander Sorin, Gakuto Kurata
2018	Data Augmentation Using Healthy Speech for Dysarthric Speech Recognition. Bhavik Vachhani, Chitralekha Bhat, Sunil Kumar Kopparapu
2018	Data Independent Sequence Augmentation Method for Acoustic Scene Classification. Teng Zhang, Kailai Zhang, Ji Wu
2018	Data Requirements, Selection and Augmentation for DNN-based Speech Synthesis from Crowdsourced Data. Markus Toman, Geoffrey S. Meltzner, Rupal Patel
2018	Decision-level Feature Switching as a Paradigm for Replay Attack Detection. M. S. Saranya, Hema A. Murthy
2018	Deep Convex Representations: Feature Representations for Bioacoustics Classification. Anshul Thakur, Vinayak Abrol, Pulkit Sharma, Padmanabhan Rajan
2018	Deep Convolutional Neural Network with Scalogram for Audio Scene Modeling. Hangting Chen, Pengyuan Zhang, Haichuan Bai, Qingsheng Yuan, Xiuguo Bao, Yonghong Yan
2018	Deep Discriminative Embeddings for Duration Robust Speaker Verification. Na Li, Deyi Tuo, Dan Su, Zhifeng Li, Dong Yu
2018	Deep Extractor Network for Target Speaker Recovery from Single Channel Speech Mixtures. Jun Wang, Jie Chen, Dan Su, Lianwu Chen, Meng Yu, Yanmin Qian, Dong Yu
2018	Deep Learning Techniques for Koala Activity Detection. Ivan Himawan, Michael Towsey, Bradley Law, Paul Roe
2018	Deep Learning based Situated Goal-oriented Dialogue Systems. Dilek Hakkani-Tür
2018	Deep Learning for Acoustic Echo Cancellation in Noisy and Double-Talk Scenarios. Hao Zhang, DeLiang Wang
2018	Deep Learning in Paralinguistic Recognition Tasks: Are Hand-crafted Features Still Relevant? Johannes Wagner, Dominik Schiller, Andreas Seiderer, Elisabeth André
2018	Deep Lip Reading: A Comparison of Models and an Online Application. Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman
2018	Deep Metric Learning for the Target Cost in Unit-Selection Speech Synthesizer. Ruibo Fu, Jianhua Tao, Yibin Zheng, Zhengqi Wen
2018	Deep Neural Networks for Emotion Recognition Combining Audio and Transcripts. Jaejin Cho, Raghavendra Pappagari, Purva Kulkarni, Jesús Villalba, Yishay Carmiel, Najim Dehak
2018	Deep Noise Tracking Network: A Hybrid Signal Processing/Deep Learning Approach to Speech Enhancement. Shuai Nie, Shan Liang, Bin Liu, Yaping Zhang, Wenju Liu, Jianhua Tao
2018	Deep Personality Recognition for Deception Detection. Guozhen An, Sarah Ita Levitan, Julia Hirschberg, Rivka Levitan
2018	Deep Siamese Architecture Based Replay Detection for Secure Voice Biometric. Kaavya Sriskandaraja, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2018	Deep Speech Denoising with Vector Space Projections. Jeffrey Hetherly, Paul Gamble, Maria Alejandra Barrios, Cory Stephenson, Karl Ni
2018	Deeply Fused Speaker Embeddings for Text-Independent Speaker Verification. Gautam Bhattacharya, Jahangir Alam, Vishwa Gupta, Patrick Kenny
2018	Demonstrating and Modelling Systematic Time-varying Annotator Disagreement in Continuous Emotion Annotation. Mia Atcheson, Vidhyasaharan Sethu, Julien Epps
2018	Denoising and Raw-waveform Networks for Weakly-Supervised Gender Identification on Noisy Speech. Jilt Sebastian, Manoj Kumar, Pavan Kumar D. S., Mathew Magimai-Doss, Hema A. Murthy, Shrikanth S. Narayanan
2018	Densely Connected Networks for Conversational Speech Recognition. Kyu Jeong Han, Akshay Chandrashekaran, Jungsuk Kim, Ian R. Lane
2018	Depression Detection from Short Utterances via Diverse Smartphones in Natural Environmental Conditions. Zhaocheng Huang, Julien Epps, Dale Joachim, Michael Chen
2018	Dereverberation and Beamforming in Robust Far-Field Speaker Recognition. Ladislav Mosner, Oldrich Plchot, Pavel Matejka, Ondrej Novotný, Jan Cernocký
2018	Designing a Pneumatic Bionic Voice Prosthesis - A Statistical Approach for Source Excitation Generation. Farzaneh Ahmadi, Tomoki Toda
2018	Detecting Alzheimer's Disease Using Gated Convolutional Neural Network from Audio Data. Tifani Warnita, Nakamasa Inoue, Koichi Shinoda
2018	Detecting Depression with Audio/Text Sequence Modeling of Interviews. Tuka Al Hanai, Mohammad M. Ghassemi, James R. Glass
2018	Detecting Media Sound Presence in Acoustic Scenes. Constantinos Papayiannis, Justice Amoh, Viktor Rozgic, Shiva Sundaram, Chao Wang
2018	Detecting Packet-Loss Concealment Using Formant Features and Decision Tree Learning. Gabriel Mittag, Sebastian Möller
2018	Detecting Signs of Dementia Using Word Vector Representations. Bahman Mirheidari, Daniel Blackburn, Traci Walker, Annalena Venneri, Markus Reuber, Heidi Christensen
2018	Detection of Amyotrophic Lateral Sclerosis (ALS) via Acoustic Analysis. Raquel Norel, Mary Pietrowicz, Carla Agurto, Shay Rishoni, Guillermo A. Cecchi
2018	Detection of Dementia from Responses to Atypical Questions Asked by Embodied Conversational Agents. Tsuyoki Ujiro, Hiroki Tanaka, Hiroyoshi Adachi, Hiroaki Kazui, Manabu Ikeda, Takashi Kudo, Satoshi Nakamura
2018	Detection of Glottal Activity Errors in Production of Stop Consonants in Children with Cleft Lip and Palate. Vikram C. M., S. R. Mahadeva Prasanna, Ajish K. Abraham, Pushpavathi M, Girish K. S
2018	Detection of Glottal Closure Instants from Speech Signals: A Convolutional Neural Network Based Method. Shuai Yang, Zhiyong Wu, Binbin Shen, Helen Meng
2018	Detection of Glottal Closure Instants in Degraded Speech Using Single Frequency Filtering Analysis. Gunnam Aneeja, Sudarsana Reddy Kadiri, Bayya Yegnanarayana
2018	Detection of Glottal Excitation Epochs in Speech Signal Using Hilbert Envelope. Hirak Dasgupta, Prem C. Pandey, K. S. Nataraj
2018	Detection of Replay-Spoofing Attacks Using Frequency Modulation Features. Tharshini Gunendradasan, Buddhi Wickramasinghe, Phu Ngoc Le, Eliathamby Ambikairajah, Julien Epps
2018	Determining Speaker Location from Speech in a Practical Environment. B. H. V. S. Narayanamurthy, J. V. Satyanarayana, Bayya Yegnanarayana
2018	Development of Large Vocabulary Speech Recognition System with Keyword Search for Manipuri. Tanvina Patel, Krishna D. N, Noor Fathima, Nisar Shah, Mahima C, Deepak Kumar, Anuroop Iyengar
2018	Development of the CUHK Dysarthric Speech Recognition System for the UA Speech Corpus. Jianwei Yu, Xurong Xie, Shansong Liu, Shoukang Hu, Max W. Y. Lam, Xixin Wu, Ka Ho Wong, Xunying Liu, Helen Meng
2018	Device-directed Utterance Detection. Sri Harish Reddy Mallidi, Roland Maas, Kyle Goehner, Ariya Rastrow, Spyros Matsoukas, Björn Hoffmeister
2018	Dialect-geographical Acoustic-Tonetics: Five Disyllabic Tone Sandhi Patterns in Cognate Words from the Wu Dialects of ZhèJiāNg Province. Phil Rose
2018	DialogOS: Simple and Extensible Dialogue Modeling. Alexander Koller, Timo Baumann, Arne Köhn
2018	Diarization is Hard: Some Experiences and Lessons Learned for the JHU Team in the Inaugural DIHARD Challenge. Gregory Sell, David Snyder, Alan McCree, Daniel Garcia-Romero, Jesús Villalba, Matthew Maciejewski, Vimal Manohar, Najim Dehak, Daniel Povey, Shinji Watanabe, Sanjeev Khudanpur
2018	Dictionary Augmented Sequence-to-Sequence Neural Network for Grapheme to Phoneme Prediction. Antoine Bruguier, Anton Bakhtin, Dravyansh Sharma
2018	Discourse Marker Detection for Hesitation Events on Mandarin Conversation. Yu-Wun Wang, Hen-Hsen Huang, Kuan-Yu Chen, Hsin-Hsi Chen
2018	Discriminating Nasals and Approximants in English Language Using Zero Time Windowing. RaviShankar Prasad, Sudarsana Reddy Kadiri, Suryakanth V. Gangashetty, Bayya Yegnanarayana
2018	Dithered Quantization for Frequency-Domain Speech and Audio Coding. Tom Bäckström, Johannes Fischer, Sneha Das
2018	Domain Adaptation Using Factorized Hidden Layer for Robust Automatic Speech Recognition. Khe Chai Sim, Arun Narayanan, Ananya Misra, Anshuman Tripathi, Golan Pundak, Tara N. Sainath, Parisa Haghani, Bo Li, Michiel Bacchiani
2018	Domain-Adversarial Training for Session Independent EMG-based Speech Recognition. Michael Wand, Tanja Schultz, Jürgen Schmidhuber
2018	Double Joint Bayesian Modeling of DNN Local I-Vector for Text Dependent Speaker Verification with Random Digit Strings. Ziqiang Shi, Huibin Lin, Liu Liu, Rujie Liu
2018	Dual Language Models for Code Switched Speech Recognition. Saurabh Garg, Tanmay Parekh, Preethi Jyothi
2018	Dysarthric Speech Classification Using Glottal Features Computed from Non-words, Words and Sentences. N. P. Narendra, Paavo Alku
2018	Dysarthric Speech Recognition Using Convolutional LSTM Neural Network. Myung Jong Kim, Beiming Cao, Kwanghoon An, Jun Wang
2018	Dysarthric Speech Recognition Using Time-delay Neural Network Based Denoising Autoencoder. Chitralekha Bhat, Biswajit Das, Bhavik Vachhani, Sunil Kumar Kopparapu
2018	EMPHASIS: An Emotional Phoneme-based Acoustic Model for Speech Synthesis System. Hao Li, Yongguo Kang, Zhenyu Wang
2018	ESPnet: End-to-End Speech Processing Toolkit. Shinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson Enrique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, Adithya Renduchintala, Tsubasa Ochiai
2018	Early Detection of Continuous and Partial Audio Events Using CNN. Ian McLoughlin, Yan Song, Lam Dang Pham, Ramaswamy Palaniappan, Huy Phan, Yue Lang
2018	Early Vocabulary Development Through Picture-based Software Solutions. G. R. Kasthuri, Prabha Ramanathan, Hema A. Murthy, Namita Jacob, Anil Prabhakar
2018	Effect of TTS Generated Audio on OOV Detection and Word Error Rate in ASR for Low-resource Languages. Savitha Murthy, Dinkar Sitaram, Sunayana Sitaram
2018	Effective Acoustic Cue Learning Is Not Just Statistical, It Is Discriminative. Jessie S. Nixon
2018	Effectiveness of Dynamic Features in INCA and Temporal Context-INCA. Nirmesh J. Shah, Hemant A. Patil
2018	Effectiveness of Generative Adversarial Network for Non-Audible Murmur-to-Whisper Speech Conversion. Neil Shah, Nirmesh J. Shah, Hemant A. Patil
2018	Effectiveness of Single-Channel BLSTM Enhancement for Language Identification. Peter Sibbern Frederiksen, Jesús Villalba, Shinji Watanabe, Zheng-Hua Tan, Najim Dehak
2018	Effectiveness of Speech Demodulation-Based Features for Replay Detection. Madhu R. Kamble, Hemlata Tak, Hemant A. Patil
2018	Effectiveness of Voice Quality Features in Detecting Depression. Amber Afshan, Jinxi Guo, Soo Jin Park, Vijay Ravi, Jonathan Flint, Abeer Alwan
2018	Effects of Dimensional Input on Paralinguistic Information Perceived from Synthesized Dialogue Speech with Neural Network. Masaki Yokoyama, Tomohiro Nagata, Hiroki Mori
2018	Effects of Homophone Density on Spoken Word Recognition in Mandarin Chinese. Bhamini Sharma
2018	Effects of User Controlled Speech Rate on Intelligibility in Noisy Environments. John S. Novak III, Robert V. Kenyon
2018	Efficient Implementation of the Room Simulator for Training Deep Neural Network Acoustic Models. Chanwoo Kim, Ehsan Variani, Arun Narayanan, Michiel Bacchiani
2018	Efficient Keyword Spotting Using Time Delay Neural Networks. Samuel Myer, Vikrant Singh Tomar
2018	Efficient Language Model Adaptation with Noise Contrastive Estimation and Kullback-Leibler Regularization. Jesús Andrés-Ferrer, Nathan Bodenstab, Paul Vozila
2018	Efficient Voice Trigger Detection for Low Resource Hardware. Siddharth Sigtia, Rob Haynes, Hywel Richards, Erik Marchi, John Bridle
2018	Emotion Identification from Raw Speech Signals Using DNNs. Mousmita Sarma, Pegah Ghahremani, Daniel Povey, Nagendra Kumar Goel, Kandarpa Kumar Sarma, Najim Dehak
2018	Emotion Recognition from Human Speech Using Temporal Information and Deep Learning. John W. Kim, Rif A. Saurous
2018	Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms. Xi Ma, Zhiyong Wu, Jia Jia, Mingxing Xu, Helen Meng, Lianhong Cai
2018	Emotional Prosody Perception in Mandarin-speaking Congenital Amusics. Yixin Zhang, Tianzhu Geng, Jinsong Zhang
2018	Empirical Analysis of Score Fusion Application to Combined Neural Networks for Open Vocabulary Spoken Term Detection. Shi-wook Lee, Kazuyo Tanaka, Yoshiaki Itoh
2018	Empirical Evaluation of Speaker Adaptation on DNN Based Acoustic Model. Ke Wang, Junbo Zhang, Yujun Wang, Lei Xie
2018	Employing Phonetic Information in DNN Speaker Embeddings to Improve Speaker Recognition Performance. Md. Hafizur Rahman, Ivan Himawan, Mitchell McLaren, Clinton Fookes, Sridha Sridharan
2018	Encoder Transfer for Attention-based Acoustic-to-word Speech Recognition. Sei Ueno, Takafumi Moriya, Masato Mimura, Shinsuke Sakai, Yusuke Shinohara, Yoshikazu Yamaguchi, Yushi Aono, Tatsuya Kawahara
2018	Encoding Individual Acoustic Features Using Dyad-Augmented Deep Variational Representations for Dialog-level Emotion Recognition. Jeng-Lin Li, Chi-Chun Lee
2018	End-To-End Audio Replay Attack Detection Using Deep Convolutional Networks with Attention. Francis Tom, Mohit Jain, Prasenjit Dey
2018	End-to-End Speech Command Recognition with Capsule Network. Jaesung Bae, Dae-Shik Kim
2018	End-to-End Speech Recognition from the Raw Waveform. Neil Zeghidour, Nicolas Usunier, Gabriel Synnaeve, Ronan Collobert, Emmanuel Dupoux
2018	End-to-End Speech Separation with Unfolded Iterative Phase Reconstruction. Zhong-Qiu Wang, Jonathan Le Roux, DeLiang Wang, John R. Hershey
2018	End-to-end Deep Neural Network Age Estimation. Pegah Ghahremani, Phani Sankar Nidadavolu, Nanxin Chen, Jesús Villalba, Daniel Povey, Sanjeev Khudanpur, Najim Dehak
2018	End-to-end Speech Recognition Using Lattice-free MMI. Hossein Hadian, Hossein Sameti, Daniel Povey, Sanjeev Khudanpur
2018	End-to-end Text-dependent Speaker Verification Using Novel Distance Measures. Subhadeep Dey, Srikanth R. Madikeri, Petr Motlícek
2018	Engagement Recognition in Spoken Dialogue via Neural Network by Aggregating Different Annotators' Models. Koji Inoue, Divesh Lala, Katsuya Takanashi, Tatsuya Kawahara
2018	Enhancement of Noisy Speech Signal by Non-Local Means Estimation of Variational Mode Functions. Nagapuri Srinivas, Gayadhar Pradhan, Syed Shahnawazuddin
2018	Entity-Aware Language Model as an Unsupervised Reranker. Mohammad Sadegh Rasooli, Sarangarajan Parthasarathy
2018	Epoch Extraction from Pathological Children Speech Using Single Pole Filtering Approach. Vikram C. M., S. R. Mahadeva Prasanna
2018	Error Modeling via Asymmetric Laplace Distribution for Deep Neural Network Based Single-Channel Speech Enhancement. Li Chai, Jun Du, Chin-Hui Lee
2018	Estimation of Fundamental Frequency from Singing Voice Using Harmonics of Impulse-like Excitation Source. Sudarsana Reddy Kadiri, Bayya Yegnanarayana
2018	Estimation of Hypernasality Scores from Cleft Lip and Palate Speech. Vikram C. M., Ayush Tripathi, Sishir Kalita, S. R. Mahadeva Prasanna
2018	Estimation of the Asymmetry Parameter of the Glottal Flow Waveform Using the Electroglottographic Signal. João Cabral
2018	Estimation of the Number of Speakers with Variational Bayesian PLDA in the DIHARD Diarization Challenge. Ignacio Viñals, Pablo Gimeno, Alfonso Ortega, Antonio Miguel, Eduardo Lleida
2018	Estimation of the Vocal Tract Length of Vowel Sounds Based on the Frequency of the Significant Spectral Valley. T. V. Ananthapadmanabha, A. G. Ramakrishnan
2018	Evolution of Neural Network Architectures for Speech Recognition. Hervé Bourlard
2018	Evolving Learning for Analysing Mood-Related Infant Vocalisation. Zixing Zhang, Jing Han, Kun Qian, Björn W. Schuller
2018	Exemplar-Based Spectral Detail Compensation for Voice Conversion. Yu-Huai Peng, Hsin-Te Hwang, Yi-Chiao Wu, Yu Tsao, Hsin-Min Wang
2018	Exemplar-based Speech Waveform Generation. Oliver Watts, Cassia Valentini-Botinhao, Felipe Espic, Simon King
2018	Expectation-Maximization Algorithms for Itakura-Saito Nonnegative Matrix Factorization. Paul Magron, Tuomas Virtanen
2018	Experience-dependent Influence of Music and Language on Lexical Pitch Learning Is Not Additive. Akshay Raj Maggu, Patrick C. M. Wong, Hanjun Liu, Francis C. K. Wong
2018	Experiments with Training Corpora for Statistical Text-to-speech Systems. Monika Podsiadlo, Victor Ungureanu
2018	Exploiting Speaker and Phonetic Diversity of Mismatched Language Resources for Unsupervised Subword Modeling. Siyuan Feng, Tan Lee
2018	Exploration of Compressed ILPR Features for Replay Attack Detection. Sarfaraz Jelil, Sishir Kalita, S. R. Mahadeva Prasanna, Rohit Sinha
2018	Exploring How Phone Classification Neural Networks Learn Phonetic Information by Visualising and Interpreting Bottleneck Features. Linxue Bai, Philip Weber, Peter Jancovic, Martin J. Russell
2018	Exploring Spatio-Temporal Representations by Integrating Attention-based Bidirectional-LSTM-RNNs and FCNs for Speech Emotion Recognition. Ziping Zhao, Yu Zheng, Zixing Zhang, Haishuai Wang, Yiqin Zhao, Chao Li
2018	Exploring Temporal Reduction in Dialectal Spanish: A Large-scale Study of Lenition of Voiced Stops and Coda-s. Ioana Vasilescu, Nidia Hernández, Bianca Vieru, Lori Lamel
2018	Exploring the Relationship between Conic Affinity of NMF Dictionaries and Speech Enhancement Metrics. Pavlos Papadopoulos, Colin Vaz, Shrikanth S. Narayanan
2018	Expressive Speech Synthesis Using Sentiment Embeddings. Igor Jauk, Jaime Lorenzo-Trueba, Junichi Yamagishi, Antonio Bonafonte
2018	Expressive Speech Synthesis via Modeling Expressions with Variational Autoencoder. Kei Akuzawa, Yusuke Iwasawa, Yutaka Matsuo
2018	Extending Recurrent Neural Aligner for Streaming End-to-End Speech Recognition in Mandarin. Linhao Dong, Shiyu Zhou, Wei Chen, Bo Xu
2018	Extracting Speaker's Gender, Accent, Age and Emotional State from Speech. Nagendra Kumar Goel, Mousmita Sarma, Tejendra Kushwah, Dharmesh Agarwal, Zikra Iqbal, Surbhi Chauhan
2018	FACTS: A Hierarchical Task-based Control Model of Speech Incorporating Sensory Feedback. Benjamin Parrell, Vikram Ramanarayanan, Srikantan S. Nagarajan, John F. Houde
2018	Factorized Deep Neural Network Adaptation for Automatic Scoring of L2 Speech in English Speaking Tests. Dean Luo, Chunxiao Zhang, Linzhong Xia, Lixin Wang
2018	Far-Field Speech Recognition Using Multivariate Autoregressive Models. Sriram Ganapathy, Madhumita Harish
2018	Fast ASR-free and Almost Zero-resource Keyword Spotting Using DTW and CNNs for Humanitarian Monitoring. Raghav Menon, Herman Kamper, John A. Quinn, Thomas Niesler
2018	Fast Derivation of Cross-lingual Document Vectors from Self-attentive Neural Machine Translation Model. Wei Li, Brian Mak
2018	Fast Language Adaptation Using Phonological Information. Sibo Tong, Philip N. Garner, Hervé Bourlard
2018	Fast Variational Bayes for Heavy-tailed PLDA Applied to i-vectors and x-vectors. Anna Silnova, Niko Brümmer, Daniel Garcia-Romero, David Snyder, Lukás Burget
2018	Fearless Steps: Apollo-11 Corpus Advancements for Speech Technologies from Earth to the Moon. John H. L. Hansen, Abhijeet Sangwan, Aditya Joglekar, Ahmet Emin Bulut, Lakshmish Kaushik, Chengzhu Yu
2018	Feature Representation of Short Utterances Based on Knowledge Distillation for Spoken Language Identification. Peng Shen, Xugang Lu, Sheng Li, Hisashi Kawai
2018	Feature with Complementarity of Statistics and Principal Information for Spoofing Detection. Ji-Chen Yang, Changhuai You, Qianhua He
2018	Filter Sampling and Combination CNN (FSC-CNN): A Compact CNN Model for Small-footprint ASR Acoustic Modeling Using Raw Waveforms. Jinxi Guo, Ning Xu, Xin Chen, Yang Shi, Kaiyuan Xu, Abeer Alwan
2018	Flexible Tongue Housed in a Static Model of the Vocal Tract With Jaws, Lips and Teeth. Takayuki Arai
2018	Follow-up Question Generation Using Pattern-based Seq2seq with a Small Corpus for Interview Coaching. Ming-Hsiang Su, Chung-Hsien Wu, Kun-Yi Huang, Qian-Bei Hong, Huai-Hung Huang
2018	Formant Measures of Vowels Adjacent to Alveolar and Retroflex Consonants in Arrernte: Stressed and Unstressed Position. Marija Tabain, Richard Beare, Andrew Butcher
2018	Forward-Backward Attention Decoder. Masato Mimura, Shinsuke Sakai, Tatsuya Kawahara
2018	Frequency Domain Linear Prediction Features for Replay Spoofing Attack Detection. Buddhi Wickramasinghe, Saad Irtza, Eliathamby Ambikairajah, Julien Epps
2018	Frequency Domain Variants of Velvet Noise and Their Application to Speech Processing and Synthesis. Hideki Kawahara, Ken-Ichi Sakakibara, Masanori Morise, Hideki Banno, Tomoki Toda, Toshio Irino
2018	From Vocoders to Code-Excited Linear Prediction: Learning How We Hear What We Hear. Bishnu S. Atal
2018	Full Bayesian Hidden Markov Model Variational Autoencoder for Acoustic Unit Discovery. Thomas Glarner, Patrick Hanebrink, Janek Ebbers, Reinhold Haeb-Umbach
2018	Fully Automatic Speaker Separation System, with Automatic Enrolling of Recurrent Speakers. Raphael Cohen, Orgad Keller, Jason Levy, Russell Levy, Micha Breakstone, Amit Ashkenazi
2018	Fusing Text-dependent Word-level i-Vector Models to Screen 'at Risk' Child Speech. Prasanna V. Kothalkar, Johanna Rudolph, Christine Dollaghan, Jennifer McGlothlin, Thomas F. Campbell, John H. L. Hansen
2018	Game-based Spoken Dialog Language Learning Applications for Young Students. Keelan Evanini, Veronika Timpe-Laughlin, Eugene Tsuprun, Ian Blood, Jeremy Lee, James V. Bruno, Vikram Ramanarayanan, Patrick L. Lange, David Suendermann-Oeft
2018	Gated Convolutional Neural Network for Sentence Matching. Peixin Chen, Wu Guo, Zhi Chen, Jian Sun, Lanhua You
2018	Gated Recurrent Unit Based Acoustic Modeling with Future Context. Jie Li, Xiaorui Wang, Yuanyuan Zhao, Yan Li
2018	Gaussian Process Neural Networks for Speech Recognition. Max W. Y. Lam, Shoukang Hu, Xurong Xie, Shansong Liu, Jianwei Yu, Rongfeng Su, Xunying Liu, Helen Meng
2018	General Utterance-Level Feature Extraction for Classifying Crying Sounds, Atypical & Self-Assessed Affect and Heart Beats. Gábor Gosztolya, Tamás Grósz, László Tóth
2018	Gestural Lenition of Rhotics Captures Variation in Brazilian Portuguese. Phil Howson, Alexei Kochetov
2018	Global SNR Estimation of Speech Signals Using Entropy and Uncertainty Estimates from Dropout Networks. Rohith Aralikatti, Dilip Kumar Margam, Tanay Sharma, Abhinav Thanda, Shankar M. Venkatesan
2018	GlobalTIMIT: Acoustic-Phonetic Datasets for the World's Languages. Nattanun Chanchaochai, Christopher Cieri, Japhet Debrah, Hongwei Ding, Yue Jiang, Sishi Liao, Mark Y. Liberman, Jonathan Wright, Jiahong Yuan, Juhong Zhan, Yuqing Zhan
2018	Glottal Closure Instant Detection from Speech Signal Using Voting Classifier and Recursive Feature Elimination. Jindrich Matousek, Daniel Tihelka
2018	Glotto Vibrato Graph: A Device and Method for Recording, Analysis and Visualization of Glottal Activity. Kishalay Chakraborty, Senjam Shantirani Devi, Sanjeevan Devnath, S. R. Mahadeva Prasanna, Priyankoo Sarmah
2018	Harmonic-Percussive Source Separation of Polyphonic Music by Suppressing Impulsive Noise Events. Gurunath Reddy M., K. Sreenivasa Rao, Partha Pratim Das
2018	Hierarchical Accent Determination and Application in a Large Scale ASR System. Ramya Viswanathan, Periyasamy Paramasivam, Jithendra Vepa
2018	Hierarchical Recurrent Neural Networks for Acoustic Modeling. Jinhwan Park, Iksoo Choi, Yoonho Boo, Wonyong Sung
2018	High-quality Voice Conversion Using Spectrogram-Based WaveNet Vocoder. Kuan Chen, Bo Chen, Jiahao Lai, Kai Yu
2018	HoloCompanion: An MR Friend for EveryOne. Annam Naresh, Rushabh Gandhi, Mallikarjuna Rao Bellamkonda, Mithun Das Gupta
2018	Homogeneity vs Heterogeneity in Indian English: Investigating Influences of L1 on f0 Range. Olga Maxwell, Elinor Payne, Rosey Billington
2018	Homophone Identification and Merging for Code-switched Speech Recognition. Brij Mohan Lal Srivastava, Sunayana Sitaram
2018	How Did You like 2017? Detection of Language Markers of Depression and Narcissism in Personal Narratives. Eva-Maria Rathner, Julia Djamali, Yannik Terhorst, Björn W. Schuller, Nicholas Cummins, Gudrun Salamon, Christina Hunger-Schoppe, Harald Baumeister
2018	I-vector Transformation Using Conditional Generative Adversarial Networks for Short Utterance Speaker Verification. Jiacen Zhang, Nakamasa Inoue, Koichi Shinoda
2018	ISI ASR System for the Low Resource Speech Recognition Challenge for Indian Languages. Jayadev Billa
2018	Identification and Classification of Fricatives in Speech Using Zero Time Windowing Method. RaviShankar Prasad, Bayya Yegnanarayana
2018	Identifying Schizophrenia Based on Temporal Parameters in Spontaneous Speech. Gábor Gosztolya, Anita Bagi, Szilvia Szalóki, István Szendi, Ildikó Hoffmann
2018	Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task. Xiaotong Zhang, Xingliang Cheng, Mingxing Xu, Thomas Fang Zheng
2018	Impact of ASR Performance on Free Speaking Language Assessment. Kate M. Knill, Mark J. F. Gales, Konstantinos Kyriakopoulos, Andrey Malinin, Anton Ragni, Yu Wang, Andrew Caines
2018	Impact of Aliasing on Deep CNN-Based End-to-End Acoustic Models. Yuan Gong, Christian Poellabauer
2018	Impact of Different Speech Types on Listening Effort. Olympia Simantiraki, Martin Cooke, Simon King
2018	Implementation of Digital Hearing Aid as a Smartphone Application. Saketh Sharma, Nitya Tiwari, Prem C. Pandey
2018	Implementation of Respiration in Articulatory Synthesis Using a Pressure-Volume Lung Model. Keisuke Tanihara, Shogo Yonekura, Yasuo Kuniyoshi
2018	Implementing DIANA to Model Isolated Auditory Word Recognition in English. Filip Nenadic, Louis ten Bosch, Benjamin V. Tucker
2018	Implementing Fusion Techniques for the Classification of Paralinguistic Information. Bogdan Vlasenko, Jilt Sebastian, Pavan Kumar D. S., Mathew Magimai-Doss
2018	Improved ASR for Under-resourced Languages through Multi-task Learning with Acoustic Landmarks. Di He, Boon Pang Lim, Xuesong Yang, Mark Hasegawa-Johnson, Deming Chen
2018	Improved Accented Speech Recognition Using Accent Embeddings and Multi-task Learning. Abhinav Jain, Minali Upreti, Preethi Jyothi
2018	Improved Acoustic Modelling for Automatic Literacy Assessment of Children. Mauro Nicolao, Michiel Sanders, Thomas Hain
2018	Improved Epoch Extraction from Telephonic Speech Using Chebfun and Zero Frequency Filtering. B. Ganga Gowri, Soman K. P, D. Govind
2018	Improved Supervised Locality Preserving Projection for I-vector Based Speaker Verification. Lanhua You, Wu Guo, Yan Song, Sheng Zhang
2018	Improved Training for Online End-to-end Speech Recognition Systems. Suyoun Kim, Michael L. Seltzer, Jinyu Li, Rui Zhao
2018	Improved Training of End-to-end Attention Models for Speech Recognition. Albert Zeyer, Kazuki Irie, Ralf Schlüter, Hermann Ney
2018	Improvements to an Automated Content Scoring System for Spoken CALL Responses: the ETS Submission to the Second Spoken CALL Shared Task. Keelan Evanini, Matthew Mulholland, Rutuja Ubale, Yao Qian, Robert A. Pugh, Vikram Ramanarayanan, Aoife Cahill
2018	Improving Attention Based Sequence-to-Sequence Models for End-to-End English Conversational Speech Recognition. Chao Weng, Jia Cui, Guangsen Wang, Jun Wang, Chengzhu Yu, Dan Su, Dong Yu
2018	Improving CTC-based Acoustic Model with Very Deep Residual Time-delay Neural Networks. Sheng Li, Xugang Lu, Ryoichi Takashima, Peng Shen, Tatsuya Kawahara, Hisashi Kawai
2018	Improving Cross-Lingual Knowledge Transferability Using Multilingual TDNN-BLSTM with Language-Dependent Pre-Final Layer. Siyuan Feng, Tan Lee
2018	Improving DNNs Trained with Non-Native Transcriptions Using Knowledge Distillation and Target Interpolation. Amit Das, Mark Hasegawa-Johnson
2018	Improving Gender Identification in Movie Audio Using Cross-Domain Data. Rajat Hebbar, Krishna Somandepalli, Shrikanth S. Narayanan
2018	Improving Language Modeling with an Adversarial Critic for Automatic Speech Recognition. Yike Zhang, Pengyuan Zhang, Yonghong Yan
2018	Improving Mandarin Tone Recognition Using Convolutional Bidirectional Long Short-Term Memory with Attention. Longfei Yang, Yanlu Xie, Jinsong Zhang
2018	Improving Mongolian Phrase Break Prediction by Using Syllable and Morphological Embeddings with BiLSTM Model. Rui Liu, Feilong Bao, Guanglai Gao, Hui Zhang, Yonghe Wang
2018	Improving Response Time of Active Speaker Detection Using Visual Prosody Information Prior to Articulation. Fasih Haider, Saturnino Luz, Carl Vogel, Nick Campbell
2018	Improving Sparse Representations in Exemplar-Based Voice Conversion with a Phoneme-Selective Objective Function. Shaojin Ding, Guanlong Zhao, Christopher Liberatore, Ricardo Gutierrez-Osuna
2018	Incremental TTS for Japanese Language. Tomoya Yanagita, Sakriani Sakti, Satoshi Nakamura
2018	Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion. K. E. Manjunath, K. Sreenivasa Rao, Dinesh Babu Jayagopi, V. Ramasubramanian
2018	Infant Emotional Outbursts Detection in Infant-parent Spoken Interactions. Yijia Xu, Mark Hasegawa-Johnson, Nancy McElwain
2018	Inference-Invariant Transformation of Batch Normalization for Domain Adaptation of Acoustic Models. Masayuki Suzuki, Tohru Nagano, Gakuto Kurata, Samuel Thomas
2018	Influences of Fundamental Oscillation on Speaker Identification in Vocalic Utterances by Humans and Computers. Volker Dellwo, Thayabaran Kathiresan, Elisa Pellegrino, Lei He, Sandra Schwab, Dieter Maurer
2018	Information Bottleneck Based Percussion Instrument Diarization System for Taniavartanam Segments of Carnatic Music Concerts. Nauman Dawalatabad, Jom Kuriakose, Chellu Chandra Sekhar, Hema A. Murthy
2018	Information Encoding by Deep Neural Networks: What Can We Learn? Louis ten Bosch, Lou Boves
2018	Information Structure, Affect and Prenuclear Prominence in American English. Eleanor Chodroff, Jennifer S. Cole
2018	Integrated Presentation Attack Detection and Automatic Speaker Verification: Common Features and Gaussian Back-end Fusion. Massimiliano Todisco, Héctor Delgado, Kong-Aik Lee, Md. Sahidullah, Nicholas W. D. Evans, Tomi Kinnunen, Junichi Yamagishi
2018	Integrating Neural Network Based Beamforming and Weighted Prediction Error Dereverberation. Lukas Drude, Christoph Böddeker, Jahn Heymann, Reinhold Haeb-Umbach, Keisuke Kinoshita, Marc Delcroix, Tomohiro Nakatani
2018	Integrating Recurrence Dynamics for Speech Emotion Recognition. Efthymios Tzinis, Georgios Paraskevopoulos, Christos Baziotis, Alexandros Potamianos
2018	Integrating Spectral and Spatial Features for Multi-Channel Speaker Separation. Zhong-Qiu Wang, DeLiang Wang
2018	Intent Discovery Through Unsupervised Semantic Text Clustering. Padmasundari, Srinivas Bangalore
2018	Interaction Mechanisms between Glottal Source and Vocal Tract in Pitch Glides. Tiina Murtola, Jarmo Malinen
2018	Interactions between Vowels and Nasal Codas in Mandarin Speakers' Perception of Nasal Finals. Chong Cao, Wei Wei, Wei Wang, Yanlu Xie, Jinsong Zhang
2018	Intonation tutor by SPIRE (In-SPIRE): An Online Tool for an Automatic Feedback to the Second Language Learners in Learning Intonation. Anand P. A, Chiranjeevi Yarra, N. K. Kausthubha, Prasanta Kumar Ghosh
2018	Investigating Accuracy of Pitch-accent Annotations in Neural Network-based Speech Synthesis and Denoising Effects. Hieu-Thi Luong, Xin Wang, Junichi Yamagishi, Nobuyuki Nishizawa
2018	Investigating Generative Adversarial Networks Based Speech Dereverberation for Robust Speech Recognition. Ke Wang, Junbo Zhang, Sining Sun, Yujun Wang, Fei Xiang, Lei Xie
2018	Investigating Objective Intelligibility in Real-Time EMG-to-Speech Conversion. Lorenz Diener, Tanja Schultz
2018	Investigating Speech Enhancement and Perceptual Quality for Speech Emotion Recognition. Anderson R. Avila, Md. Jahangir Alam, Douglas D. O'Shaughnessy, Tiago H. Falk
2018	Investigating Speech Features for Continuous Turn-Taking Prediction Using LSTMs. Matthew Roddy, Gabriel Skantze, Naomi Harte
2018	Investigating Utterance Level Representations for Detecting Intent from Acoustics. Sai Krishna Rallabandi, Bhavya Karki, Carla Viegas, Eric Nyberg, Alan W. Black
2018	Investigating the Effect of Audio Duration on Dementia Detection Using Acoustic Features. Jochen Weiner, Miguel Angrick, Srinivasan Umesh, Tanja Schultz
2018	Investigating the Role of Familiar Face and Voice Cues in Speech Processing in Noise. Jeesun Kim, Sonya Karisma, Vincent Aubanel, Chris Davis
2018	Investigating the Role of L1 in Automatic Pronunciation Evaluation of L2 Speech. Ming Tu, Anna Grabek, Julie Liss, Visar Berisha
2018	Investigation of Using Disentangled and Interpretable Representations for One-shot Cross-lingual Voice Conversion. Seyed Hamidreza Mohammadi, Taehwan Kim
2018	Investigation on Bandwidth Extension for Speaker Recognition. Phani Sankar Nidadavolu, Cheng-I Lai, Jesús Villalba, Najim Dehak
2018	Investigation on Estimation of Sentence Probability by Combining Forward, Backward and Bi-directional LSTM-RNNs. Kazuki Irie, Zhihong Lei, Liuhui Deng, Ralf Schlüter, Hermann Ney
2018	Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition. Danqing Luo, Yuexian Zou, Dongyan Huang
2018	Investigation on LSTM Recurrent N-gram Language Models for Speech Recognition. Zoltán Tüske, Ralf Schlüter, Hermann Ney
2018	Investigation on the Combination of Batch Normalization and Dropout in BLSTM-based Acoustic Modeling for ASR. Wenjie Li, Gaofeng Cheng, Fengpei Ge, Pengyuan Zhang, Yonghong Yan
2018	Investigations on Data Augmentation and Loss Functions for Deep Learning Based Speech-Background Separation. Hakan Erdogan, Takuya Yoshioka
2018	Is ATIS Too Shallow to Go Deeper for Benchmarking Spoken Language Understanding Models? Frédéric Béchet, Christian Raymond
2018	Iterative Learning of Speech Recognition Models for Air Traffic Control. Ajay Srinivasamurthy, Petr Motlícek, Mittul Singh, Youssef Oualil, Matthias Kleinert, Heiko Ehr, Hartmut Helmke
2018	Joint Discriminative Embedding Learning, Speech Activity and Overlap Detection for the DIHARD Speaker Diarization Challenge. Valter Akira Miasato Filho, Diego Augusto Silva, Luis Gustavo Depra Cuozzo
2018	Joint Learning Using Denoising Variational Autoencoders for Voice Activity Detection. Youngmoon Jung, Younggwan Kim, Yeunju Choi, Hoirin Kim
2018	Joint Learning of Domain Classification and Out-of-Domain Detection with Dynamic Class Weighting for Satisficing False Acceptance Rates. Joo-Kyung Kim, Young-Bum Kim
2018	Joint Learning of Facial Expression and Head Pose from Speech. David Greenwood, Iain A. Matthews, Stephen D. Laycock
2018	Joint Learning of Interactive Spoken Content Retrieval and Trainable User Simulator. Pei-Hung Chung, Kuan Tung, Ching-Lun Tai, Hung-yi Lee
2018	Joint Learning of J-Vector Extractor and Joint Bayesian Model for Text Dependent Speaker Verification. Ziqiang Shi, Liu Liu, Huibin Lin, Rujie Liu
2018	Joint Localization and Classification of Multiple Sound Sources Using a Multi-task Neural Network. Weipeng He, Petr Motlícek, Jean-Marc Odobez
2018	Joint Noise and Reverberation Adaptive Learning for Robust Speaker DOA Estimation with an Acoustic Vector Sensor. Disong Wang, Yuexian Zou
2018	Keyword Based Speaker Localization: Localizing a Target Speaker in a Multi-speaker Environment. Sunit Sivasankaran, Emmanuel Vincent, Dominique Fohr
2018	Knowledge Distillation for Sequence Model. Mingkun Huang, Yongbin You, Zhehuai Chen, Yanmin Qian, Kai Yu
2018	Korean Singing Voice Synthesis Based on an LSTM Recurrent Neural Network. Juntae Kim, Heejin Choi, Jinuk Park, Minsoo Hahn, Sang-Jin Kim, Jong-Jin Kim
2018	L2-ARCTIC: A Non-native English Speech Corpus. Guanlong Zhao, Sinem Sonsaat, Alif Silpachai, Ivana Lucic, Evgeny Chukharev-Hudilainen, John Levis, Ricardo Gutierrez-Osuna
2018	LOCUST - Longitudinal Corpus and Toolset for Speaker Verification. Evgeny Dmitriev, Yulia Kim, Anastasia Matveeva, Claude Montacié, Yannick Boulard, Yadviga Sinyavskaya, Yulia Zhukova, Adam Zarazinski, Egor Akhanov, Ilya I. Viksnin, Andrei A. Shlykov, Maria Usova
2018	LSTBM: A Novel Sequence Representation of Speech Spectra Using Restricted Boltzmann Machine with Long Short-Term Memory. Toru Nakashika
2018	LSTM Based Attentive Fusion of Spectral and Prosodic Information for Keyword Spotting in Hindi Language. Laxmi Pandey, Karan Nathwani
2018	LSTM Based Cross-corpus and Cross-task Acoustic Emotion Recognition. Heysem Kaya, Dmitrii Fedotov, Ali Yesilkanat, Oxana Verkholyak, Yang Zhang, Alexey Karpov
2018	Ladder Networks for Emotion Recognition: Using Unsupervised Auxiliary Tasks to Improve Predictions of Emotional Attributes. Srinivas Parthasarathy, Carlos Busso
2018	Language Features for Automated Evaluation of Cognitive Behavior Psychotherapy Sessions. Nikolaos Flemotomos, Victor R. Martinez, James Gibson, David C. Atkins, Torrey A. Creed, Shrikanth S. Narayanan
2018	Language-Dependent Melody Embeddings. Daniil Kocharov, Alla Menshikova
2018	Large Vocabulary Concatenative Resynthesis. Soumi Maiti, Joey Ching, Michael I. Mandel
2018	Latent Factor Analysis of Deep Bottleneck Features for Speaker Verification with Random Digit Strings. Ziqiang Shi, Huibin Lin, Liu Liu, Rujie Liu
2018	Lattice-free State-level Minimum Bayes Risk Training of Acoustic Models. Naoyuki Kanda, Yusuke Fujita, Kenji Nagamatsu
2018	Layer Trajectory LSTM. Jinyu Li, Changliang Liu, Yifan Gong
2018	Learning Acoustic Word Embeddings with Temporal Context for Query-by-Example Speech Search. Yougen Yuan, Cheung-Chi Leung, Lei Xie, Hongjie Chen, Bin Ma, Haizhou Li
2018	Learning Conditional Acoustic Latent Representation with Gender and Age Attributes for Automatic Pain Level Recognition. Jeng-Lin Li, Yi-Ming Weng, Chip-Jin Ng, Chi-Chun Lee
2018	Learning Discriminative Features for Speaker Identification and Verification. Sarthak Yadav, Atul Rai
2018	Learning Interpretable Control Dimensions for Speech Synthesis by Using External Data. Zack Hodari, Oliver Watts, Srikanth Ronanki, Simon King
2018	Learning Spontaneity to Improve Emotion Recognition in Speech. Karttikeya Mangalam, Tanaya Guha
2018	Learning Structured Dictionaries for Exemplar-based Voice Conversion. Shaojin Ding, Christopher Liberatore, Ricardo Gutierrez-Osuna
2018	Learning Two Tone Languages Enhances the Brainstem Encoding of Lexical Tones. Akshay Raj Maggu, Wenqing Zong, Vina Law, Patrick C. M. Wong
2018	Learning Word Embeddings: Unsupervised Methods for Fixed-size Representations of Variable-length Speech Segments. Nils Holzenberger, Mingxing Du, Julien Karadayi, Rachid Riad, Emmanuel Dupoux
2018	Learning and Modeling Unit Embeddings for Improving HMM-based Unit Selection Speech Synthesis. Xiao Zhou, Zhen-Hua Ling, Zhi-Ping Zhou, Li-Rong Dai
2018	Learning to Adapt: A Meta-learning Approach for Speaker Adaptation. Ondrej Klejch, Joachim Fainberg, Peter Bell
2018	Length Contrast and Covarying Features: Whistled Speech as a Case Study. Rachid Ridouane, Giuseppina Turco, Julien Meyer
2018	Leveraging Native Language Information for Improved Accented Speech Recognition. Shahram Ghorbani, John H. L. Hansen
2018	Leveraging Second-Order Log-Linear Model for Improved Deep Learning Based ASR Performance. Ankit Raj, Shakti P. Rath, Jithendra Vepa
2018	Leveraging Translations for Speech Transcription in Low-resource Settings. Antonios Anastasopoulos, David Chiang
2018	Lexical and Acoustic Deep Learning Model for Personality Recognition. Guozhen An, Rivka Levitan
2018	Lightly Supervised vs. Semi-supervised Training of Acoustic Model on Luxembourgish for Low-resource Automatic Speech Recognition. Karel Veselý, Carlos Segura, Igor Szöke, Jordi Luque, Jan Cernocký
2018	Linear Prediction Residual based Short-term Cepstral Features for Replay Attacks Detection. Madhusudan Singh, Debadatta Pati
2018	Liulishuo's System for the Spoken CALL Shared Task 2018. Huy Nguyen, Lei Chen, Ramon Prieto, Chuan Wang, Yang Liu
2018	Long Distance Voice Channel Diagnosis Using Deep Neural Networks. Zhen Qin, Tom Ko, Guangjian Tian
2018	Loud and Shouted Speech Perception at Variable Distances in a Forest. Julien Meyer, Fanny Meunier, Laure Dentel, Noelia Do Carmo Blanco, Frédéric Sèbe
2018	Low Resource Acoustic-to-articulatory Inversion Using Bi-directional Long Short Term Memory. Aravind Illa, Prasanta Kumar Ghosh
2018	Low-Latency Neural Speech Translation. Jan Niehues, Ngoc-Quan Pham, Thanh-Le Ha, Matthias Sperber, Alex Waibel
2018	Low-Resource Speech-to-Text Translation. Sameer Bansal, Herman Kamper, Karen Livescu, Adam Lopez, Sharon Goldwater
2018	MTGAN: Speaker Verification through Multitasking Triplet Generative Adversarial Networks. Wenhao Ding, Liang He
2018	Machine Learning Powered Data Platform for High-Quality Speech and NLP Workflows. João Freitas, Jorge Ribeiro, Daan Baldewijns, Sara Oliveira, Daniela Braga
2018	Machine Speech Chain with One-shot Speaker Adaptation. Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
2018	Mandarin-English Code-switching Speech Recognition. Haihua Xu, Van Tung Pham, Zin Tun Kyaw, Zhi Hao Lim, Eng Siong Chng, Haizhou Li
2018	Measuring the Band Importance Function for Mandarin Chinese with a Bayesian Adaptive Procedure. Yufan Du, Yi Shen, Hongying Yang, Xihong Wu, Jing Chen
2018	Measuring the Cognitive Load of Synthetic Speech Using a Dual Task Paradigm. Avashna Govender, Simon King
2018	Memory Time Span in LSTMs for Multi-Speaker Source Separation. Jeroen Zegers, Hugo Van hamme
2018	Mining Multimodal Repositories for Speech Affecting Diseases. M. Joana Correia, Bhiksha Raj, Isabel Trancoso, Francisco Teixeira
2018	Mobile Application for Learning Languages for the Unlettered. Gayathri G, N. Mohana, Radhika Pal, Hema A. Murthy
2018	Modeling Interpersonal Influence of Verbal Behavior in Couples Therapy Dyadic Interactions. Sandeep Nallan Chakravarthula, Brian R. Baucom, Panayiotis G. Georgiou
2018	Modeling Self-Reported and Observed Affect from Speech. Jian Cheng, Jared Bernstein, Elizabeth Rosenfeld, Peter W. Foltz, Alex S. Cohen, Terje B. Holmlund, Brita Elvevåg
2018	Modulation Dynamic Features for the Detection of Replay Attacks. Gajan Suthokumar, Vidhyasaharan Sethu, Chamith Wijenayake, Eliathamby Ambikairajah
2018	Monaural Multi-Talker Speech Recognition with Attention Mechanism and Gated Convolutional Networks. Xuankai Chang, Yanmin Qian, Dong Yu
2018	Monitoring Infant's Emotional Cry in Domestic Environments Using the Capsule Network Architecture. Mehmet Ali Tugtekin Turan, Engin Erzin
2018	Monoaural Audio Source Separation Using Variational Autoencoders. Laxmi Pandey, Anurendra Kumar, Vinay P. Namboodiri
2018	Multi-Head Decoder for End-to-End Speech Recognition. Tomoki Hayashi, Shinji Watanabe, Tomoki Toda, Kazuya Takeda
2018	Multi-Lingual Depression-Level Assessment from Conversational Speech Using Acoustic and Text Features. Yasin Özkanca, Cenk Demiroglu, Asli Besirli, Selime Celik
2018	Multi-Modal Data Augmentation for End-to-end ASR. Adithya Renduchintala, Shuoyang Ding, Matthew Wiesner, Shinji Watanabe
2018	Multi-Task Learning of Speech Recognition and Speech Synthesis Parameters for Ultrasound-based Silent Speech Interfaces. László Tóth, Gábor Gosztolya, Tamás Grósz, Alexandra Markó, Tamás Gábor Csapó
2018	Multi-channel Attention for End-to-End Speech Recognition. Stefan Braun, Daniel Neil, Jithendar Anumula, Enea Ceolini, Shih-Chii Liu
2018	Multi-frame Coding of LSF Parameters Using Block-Constrained Trellis Coded Vector Quantization. Yaxing Li, Shan Xu, Shengwu Xiong, Anna Zhu, Pengfei Duan, Yueming Ding
2018	Multi-frame Quantization of LSF Parameters Using a Deep Autoencoder and Pyramid Vector Quantizer. Yaxing Li, Eshete Derb Emiru, Shengwu Xiong, Anna Zhu, Pengfei Duan, Yichang Li
2018	Multi-modal Attention Mechanisms in LSTM and Its Application to Acoustic Scene Classification. Teng Zhang, Kailai Zhang, Ji Wu
2018	Multi-resolution Gammachirp Envelope Distortion Index for Intelligibility Prediction of Noisy Speech. Katsuhiko Yamamoto, Toshio Irino, Narumi Ohashi, Shoko Araki, Keisuke Kinoshita, Tomohiro Nakatani
2018	Multi-talker Speech Separation Based on Permutation Invariant Training and Beamforming. Lu Yin, Ziteng Wang, Risheng Xia, Junfeng Li, Yonghong Yan
2018	Multi-target Voice Conversion without Parallel Data by Adversarially Learning Disentangled Audio Representations. Ju-Chieh Chou, Cheng-chieh Yeh, Hung-yi Lee, Lin-Shan Lee
2018	Multi-task Learning with Augmentation Strategy for Acoustic-to-word Attention-based Encoder-decoder Speech Recognition. Takafumi Moriya, Sei Ueno, Yusuke Shinohara, Marc Delcroix, Yoshikazu Yamaguchi, Yushi Aono
2018	Multi-task WaveNet: A Multi-task Generative Model for Statistical Parametric Speech Synthesis without Fundamental Frequency Conditions. Yu Gu, Yongguo Kang
2018	Multicomponent 2-D AM-FM Modeling of Speech Spectrograms. Jitendra Kumar Dhiman, Neeraj Sharma, Chandra Sekhar Seelamantula
2018	Multilingual Bottleneck Features for Subword Modeling in Zero-resource Languages. Enno Hermann, Sharon Goldwater
2018	Multilingual Deep Neural Network Training Using Cyclical Learning Rate. Andreas Søeborg Kirkedal, Yeon-Jun Kim
2018	Multilingual Grapheme-to-Phoneme Conversion with Global Character Vectors. Jinfu Ni, Yoshinori Shiga, Hisashi Kawai
2018	Multilingual Neural Network Acoustic Modelling for ASR of Under-Resourced English-isiZulu Code-Switched Speech. Astik Biswas, Febe de Wet, Ewald van der Westhuizen, Emre Yilmaz, Thomas Niesler
2018	Multimodal I-vectors to Detect and Evaluate Parkinson's Disease. Nicanor García, Juan Camilo Vásquez-Correa, Juan Rafael Orozco-Arroyave, Elmar Nöth
2018	Multimodal Name Recognition in Live TV Subtitling. Marek Hrúz, Ales Prazák, Michal Busta
2018	Multimodal Polynomial Fusion for Detecting Driver Distraction. Yulun Du, Alan W. Black, Louis-Philippe Morency, Maxine Eskénazi
2018	Multimodal Speaker Segmentation and Diarization Using Lexical and Acoustic Cues via Sequence to Sequence Neural Networks. Tae Jin Park, Panayiotis G. Georgiou
2018	Multimodal Speech Synthesis Architecture for Unsupervised Speaker Adaptation. Hieu-Thi Luong, Junichi Yamagishi
2018	Multiple Concurrent Sound Source Tracking Based on Observation-Guided Adaptive Particle Filter. Hong Liu, Haipeng Lan, Bing Yang, Cheng Pang
2018	Multiple Instance Deep Learning for Weakly Supervised Small-Footprint Audio Event Detection. Shao-Yen Tseng, Juncheng Li, Yun Wang, Florian Metze, Joseph Szurley, Samarjit Das
2018	Multiple Phase Information Combination for Replay Attacks Detection. Dongbo Li, Longbiao Wang, Jianwu Dang, Meng Liu, Zeyan Oo, Seiichi Nakagawa, Haotian Guan, Xiangang Li
2018	Music Genre Recognition Using Deep Neural Networks and Transfer Learning. Deepanway Ghosal, Maheshkumar H. Kolekar
2018	Music Source Activity Detection and Separation Using Deep Attractor Network. Rajath Kumar, Yi Luo, Nima Mesgarani
2018	Naturalness Improvement Algorithm for Reconstructed Glossectomy Patient's Speech Using Spectral Differential Modification in Voice Conversion. Hiroki Murakami, Sunao Hara, Masanobu Abe, Masaaki Sato, Shogo Minagi
2018	Nebula: F0 Estimation and Voicing Detection by Modeling the Statistical Properties of Feature Extractors. Kanru Hua
2018	Neural Error Corrective Language Models for Automatic Speech Recognition. Tomohiro Tanaka, Ryo Masumura, Hirokazu Masataki, Yushi Aono
2018	Neural Language Codes for Multilingual Acoustic Models. Markus Müller, Sebastian Stüker, Alex Waibel
2018	Neural MultiVoice Models for Expressing Novel Personalities in Dialog. Shereen Oraby, Lena Reed, Sharath T. S., Shubhangi Tandon, Marilyn A. Walker
2018	Neural Network Architecture That Combines Temporal and Summative Features for Infant Cry Classification in the Interspeech 2018 Computational Paralinguistics Challenge. Mark A. Huckvale
2018	Neural Response Development During Distributional Learning. Natalie Boll-Avetisyan, Jessie S. Nixon, Tomas O. Lentz, Liquan Liu, Sandrien van Ommen, Çagri Çöltekin, Jacolien van Rij
2018	Neural Speech Turn Segmentation and Affinity Propagation for Speaker Diarization. Ruiqing Yin, Hervé Bredin, Claude Barras
2018	Noise Robust Acoustic to Articulatory Speech Inversion. Nadee Seneviratne, Ganesh Sivaraman, Vikramjit Mitra, Carol Y. Espy-Wilson
2018	Non-Uniform Spectral Smoothing for Robust Children's Speech Recognition. Ishwar Chandra Yadav, Avinash Kumar, Syed Shahnawazuddin, Gayadhar Pradhan
2018	Novel Empirical Mode Decomposition Cepstral Features for Replay Spoof Detection. Prasad Tapkir, Hemant A. Patil
2018	Novel Linear Frequency Residual Cepstral Features for Replay Attack Detection. Hemlata Tak, Hemant A. Patil
2018	Novel Variable Length Energy Separation Algorithm Using Instantaneous Amplitude Features for Replay Detection. Madhu R. Kamble, Hemant A. Patil
2018	On Convolutional LSTM Modeling for Joint Wake-Word Detection and Text Dependent Speaker Verification. Rajath Kumar, Vaishnavi Yeruva, Sriram Ganapathy
2018	On Enhancing Speech Emotion Recognition Using Generative Adversarial Networks. Saurabh Sahu, Rahul Gupta, Carol Y. Espy-Wilson
2018	On Learning Vocal Tract System Related Speaker Discriminative Information from Raw Signal Using CNNs. Hannah Muckenhirn, Mathew Magimai-Doss, Sébastien Marcel
2018	On Learning to Identify Genders from Raw Speech Signal Using CNNs. Selen Hande Kabil, Hannah Muckenhirn, Mathew Magimai-Doss
2018	On Training and Evaluation of Grapheme-to-Phoneme Mappings with Limited Data. Dravyansh Sharma
2018	On the Application and Compression of Deep Time Delay Neural Network for Embedded Statistical Parametric Speech Synthesis. Yibin Zheng, Jianhua Tao, Zhengqi Wen, Ruibo Fu
2018	On the Difficulties of Automatic Speech Recognition for Kindergarten-Aged Children. Gary Yeung, Abeer Alwan
2018	On the Relationship between Glottal Pulse Shape and Its Spectrum: Correlations of Open Quotient, Pulse Skew and Peak Flow with Source Harmonic Amplitudes. Christer Gobl, Andy Murphy, Irena Yanushevskaya, Ailbhe Ní Chasaide
2018	On the Usefulness of the Speech Phase Spectrum for Pitch Extraction. Erfan Loweimi, Jon Barker, Thomas Hain
2018	Online Incremental Learning for Speaker-Adaptive Language Models. Chih Chi Hu, Bing Liu, John Shen, Ian R. Lane
2018	Online Speech Translation System for Tamil. Madhavaraj Ayyavu, Shiva Kumar H. R., A. G. Ramakrishnan
2018	Open Problems in Speech Recognition. Bhuvana Ramabhadran
2018	Output-Gate Projected Gated Recurrent Unit for Speech Recognition. Gaofeng Cheng, Daniel Povey, Lu Huang, Ji Xu, Sanjeev Khudanpur, Yonghong Yan
2018	Overview of the 2018 Spoken CALL Shared Task. Claudia Baur, Andrew Caines, Cathy Chua, Johanna Gerlach, Mengjie Qian, Manny Rayner, Martin J. Russell, Helmer Strik, Xizi Wei
2018	Paired Phone-Posteriors Approach to ESL Pronunciation Quality Assessment. Yujia Xiao, Frank K. Soong, Wenping Hu
2018	PannoMulloKathan: Voice Enabled Mobile App for Agricultural Commodity Price Dissemination in Bengali Language. Madhab Pal, Rajib Roy, Soma Khan, Milton Samirakshma Bepari, Joyanta Basu
2018	Patient Privacy in Paralinguistic Tasks. Francisco Teixeira, Alberto Abad, Isabel Trancoso
2018	Perceptual Sensitivity to Spectral Change in Australian English Close Front Vowels: An Electroencephalographic Investigation. Daniel Williams, Paola Escudero, Adamantios I. Gafos
2018	Perceptual and Automatic Evaluations of the Intelligibility of Speech Degraded by Noise Induced Hearing Loss Simulation. Imed Laaridh, Julien Tardieu, Cynthia Magnen, Pascal Gaillard, Jérôme Farinas, Julien Pinquier
2018	Performance Analysis of the 2017 NIST Language Recognition Evaluation. Seyed Omid Sadjadi, Timothée Kheyrkhah, Craig S. Greenberg, Elliot Singer, Douglas A. Reynolds, Lisa P. Mason, Jaime Hernandez-Cordero
2018	Permutation Invariant Training of Generative Adversarial Network for Monaural Speech Separation. Lianwu Chen, Meng Yu, Yanmin Qian, Dan Su, Dong Yu
2018	Phase-locked Loop (PLL) Based Phase Estimation in Single Channel Speech Enhancement. Priya Pallavi, Ch. V. Rama Rao
2018	PhaseNet: Discretized Phase Modeling with Deep Neural Networks for Audio Source Separation. Naoya Takahashi, Purvi Agrawal, Nabarun Goswami, Yuki Mitsufuji
2018	Phone Recognition Using a Non-Linear Manifold with Broad Phone Class Dependent DNNs. Mengjie Qian, Linxue Bai, Peter Jancovic, Martin J. Russell
2018	Phoneme Resistance and Phoneme Confusion in Noise: Impact of Dyslexia. Noelia Do Carmo Blanco, Julien Meyer, Michel Hoen, Fanny Meunier
2018	Phoneme-to-Articulatory Mapping Using Bidirectional Gated RNN. Théo Biasutto-Lervat, Slim Ouni
2018	Phonological Posterior Hashing for Query by Example Spoken Term Detection. Afsaneh Asaei, Dhananjay Ram, Hervé Bourlard
2018	Picture Naming or Word Reading: Does the Modality Affect Speech Motor Adaptation and Its Transfer? Tiphaine Caudrelier, Pascal Perrier, Jean-Luc Schwartz, Amélie Rochet-Capellan
2018	Pitch Characteristics of L2 English Speech by Chinese Speakers: A Large-scale Study. Jiahong Yuan, Qiusi Dong, Fei Wu, Huan Luan, Xiaofei Yang, Hui Lin, Yang Liu
2018	Pitch or Phonation: on the Glottalization in Tone Productions in the Ruokeng Hui Chinese Dialect. Minghui Zhang, Fang Hu
2018	Pitch-Adaptive Front-end Feature for Hypernasality Detection. Akhilesh Kumar Dubey, S. R. Mahadeva Prasanna, Samarendra Dandapat
2018	Play Duration Based User-Entity Affinity Modeling in Spoken Dialog System. Bo Xiao, Nicholas Monath, Shankar Ananthakrishnan, Abishek Ravi
2018	Postfiltering Using Log-Magnitude Spectrum for Speech and Audio Coding. Sneha Das, Tom Bäckström
2018	Postfiltering with Complex Spectral Correlations for Speech and Audio Coding. Sneha Das, Tom Bäckström
2018	Predicting Arousal and Valence from Waveforms and Spectrograms Using Deep Neural Networks. Zixiaofan Yang, Julia Hirschberg
2018	Predicting Categorical Emotions by Jointly Learning Primary and Secondary Emotions through Multitask Learning. Reza Lotfian, Carlos Busso
2018	Prediction of Aesthetic Elements in Karnatic Music: A Machine Learning Approach. Ragesh Rajan M, Ashwin Vijayakumar, Deepu Vijayasenan
2018	Prediction of Perceived Speech Quality Using Deep Machine Listening. Jasper Ooster, Rainer Huber, Bernd T. Meyer
2018	Prediction of Subjective Listening Effort from Acoustic Data with Non-Intrusive Deep Models. Paul Kranzusch, Rainer Huber, Melanie Krüger, Birger Kollmeier, Bernd T. Meyer
2018	Prediction of Turn-taking Using Multitask Learning with Prediction of Backchannels and Fillers. Kohei Hara, Koji Inoue, Katsuya Takanashi, Tatsuya Kawahara
2018	Preference-Learning with Qualitative Agreement for Sentence Level Emotional Annotations. Srinivas Parthasarathy, Carlos Busso
2018	Processing Transition Regions of Glottal Stop Substituted /S/ for Intelligibility Enhancement of Cleft Palate Speech. Protima Nomo Sudro, Sishir Kalita, S. R. Mahadeva Prasanna
2018	Prominence-based Evaluation of L2 Prosody. Heini Kallio, Antti Suni, Päivi Virkkunen, Juraj Simko
2018	Prosodic Focus Acquisition in French Early Cochlear Implanted Children. Chadi Farah, Stephane Roman, Mariapaola D'Imperio
2018	Punctuation Prediction Model for Conversational Speech. Piotr Zelasko, Piotr Szymanski, Jan Mizgajski, Adrian Szymczak, Yishay Carmiel, Najim Dehak
2018	Quality-Net: An End-to-End Non-intrusive Speech Quality Assessment Model Based on BLSTM. Szu-Wei Fu, Yu Tsao, Hsin-Te Hwang, Hsin-Min Wang
2018	Quaternion Convolutional Neural Networks for End-to-End Automatic Speech Recognition. Titouan Parcollet, Ying Zhang, Mohamed Morchid, Chiheb Trabelsi, Georges Linarès, Renato De Mori, Yoshua Bengio
2018	R-CRNN: Region-based Convolutional Recurrent Neural Network for Audio Event Detection. Chieh-Chi Kao, Weiran Wang, Ming Sun, Chao Wang
2018	Rapid Collection of Spontaneous Speech Corpora Using Telephonic Community Forums. Agha Ali Raza, Awais Athar, Shan Randhawa, Zain Tariq, Muhammad Bilal Saleem, Haris Bin Zia, Umar Saif, Roni Rosenfeld
2018	Rapid Style Adaptation Using Residual Error Embedding for Expressive Speech Synthesis. Xixin Wu, Yuewen Cao, Mu Wang, Songxiang Liu, Shiyin Kang, Zhiyong Wu, Xunying Liu, Dan Su, Dong Yu, Helen Meng
2018	Real-Time Scoring of an Oral Reading Assessment on Mobile Devices. Jian Cheng
2018	Real-time Single-channel Dereverberation and Separation with Time-domain Audio Separation Network. Yi Luo, Nima Mesgarani
2018	Recognition of Echolalic Autistic Child Vocalisations Utilising Convolutional Recurrent Neural Networks. Shahin Amiriparian, Alice Baird, Sahib Julka, Alyssa Alcorn, Sandra Ottl, Suncica Petrovic, Eloise Ainger, Nicholas Cummins, Björn W. Schuller
2018	Recognizing Overlapped Speech in Meetings: A Multichannel Separation Approach Using Neural Networks. Takuya Yoshioka, Hakan Erdogan, Zhuo Chen, Xiong Xiao, Fil Alleva
2018	Reconstructing Neutral Speech from Tracheoesophageal Speech. Abinay Reddy Naini, M. V. Achuth Rao, G. Nisha Meenakshi, Prasanta Kumar Ghosh
2018	Recurrent Neural Network Language Model Adaptation for Conversational Speech Recognition. Ke Li, Hainan Xu, Yiming Wang, Daniel Povey, Sanjeev Khudanpur
2018	Reducing Interference with Phase Recovery in DNN-based Monaural Singing Voice Separation. Paul Magron, Konstantinos Drossos, Stylianos Ioannis Mimilakis, Tuomas Virtanen
2018	Regional Variation of /r/ in Swiss German Dialects. Adrian Leemann, Stephan Schmid, Dieter Studer-Joho, Marie-José Kolly
2018	Relating Articulatory Motions in Different Speaking Rates. Astha Singh, G. Nisha Meenakshi, Prasanta Kumar Ghosh
2018	Respiratory and Respiratory Muscular Control in JL1's and JL2's Text Reading Utilizing 4-RSTs and a Soft Respiratory Mask with a Two-Way Bulb. Toshiko Isei-Jaakkola, Keiko Ochi, Keikichi Hirose
2018	Resyllabification in Indian Languages and Its Implications in Text-to-speech Systems. Mahesh M, Jeena J. Prakash, Hema A. Murthy
2018	Revealing Spatiotemporal Brain Dynamics of Speech Production Based on EEG and Eye Movement. Bin Zhao, Jinfeng Huang, Gaoyan Zhang, Jianwu Dang, Minbo Chen, YingjianFu, Longbiao Wang
2018	Robust Acoustic Event Classification Using Bag-of-Visual-Words. Manjunath Mulimani, Shashidhar G. Koolagudi
2018	Robust Mizo Continuous Speech Recognition. Abhishek Dey, Biswajit Dev Sarma, Wendy Lalhminghlui, Lalnunsiami Ngente, Parismita Gogoi, Priyankoo Sarmah, S. R. Mahadeva Prasanna, Rohit Sinha, S. R. Nirmala
2018	Robust Speaker Clustering using Mixtures of von Mises-Fisher Distributions for Naturalistic Audio Streams. Harishchandra Dubey, Abhijeet Sangwan, John H. L. Hansen
2018	Robust Speaker Recognition from Distant Speech under Real Reverberant Environments Using Speaker Embeddings. Mahesh Kumar Nandwana, Julien van Hout, Mitchell McLaren, Allen R. Stauffer, Colleen Richey, Aaron Lawson, Martin Graciarena
2018	Robust Spoken Language Understanding via Paraphrasing. Avik Ray, Yilin Shen, Hongxia Jin
2018	Robust TDOA Estimation Based on Time-Frequency Masking and Deep Neural Networks. Zhong-Qiu Wang, Xueliang Zhang, DeLiang Wang
2018	Robust Voice Activity Detection Using Frequency Domain Long-Term Differential Entropy. Debayan Ghosh, R. Muralishankar, Sanjeev Gurugopinath
2018	Robust and Discriminative Speaker Embedding via Intra-Class Distance Variance Regularization. Nam Le, Jean-Marc Odobez
2018	Role Play Dialogue Aware Language Models Based on Conditional Hierarchical Recurrent Encoder-Decoder. Ryo Masumura, Tomohiro Tanaka, Atsushi Ando, Hirokazu Masataki, Yushi Aono
2018	Role of Regularization in the Prediction of Valence from Speech. Kusha Sridhar, Srinivas Parthasarathy, Carlos Busso
2018	S4D: Speaker Diarization Toolkit in Python. Pierre-Alexandre Broux, Florent Desnous, Anthony Larcher, Simon Petitrenaud, Jean Carrive, Sylvain Meignier
2018	SPIRE-SST: An Automatic Web-based Self-learning Tool for Syllable Stress Tutoring (SST) to the Second Language Learners. Chiranjeevi Yarra, Anand P. A, N. K. Kausthubha, Prasanta Kumar Ghosh
2018	Sampling Strategies in Siamese Networks for Unsupervised Speech Representation Learning. Rachid Riad, Corentin Dancette, Julien Karadayi, Neil Zeghidour, Thomas Schatz, Emmanuel Dupoux
2018	Scalable Factorized Hierarchical Variational Autoencoder Training. Wei-Ning Hsu, James R. Glass
2018	Segmental Encoder-Decoder Models for Large Vocabulary Automatic Speech Recognition. Eugen Beck, Mirko Hannemann, Patrick Dötsch, Ralf Schlüter, Hermann Ney
2018	Self-Assessed Affect Recognition Using Fusion of Attentional BLSTM and Static Acoustic Features. Bo-Hao Su, Sung-Lin Yeh, Ming-Ya Ko, Huan-Yu Chen, Shun-Chang Zhong, Jeng-Lin Li, Chi-Chun Lee
2018	Self-Attentional Acoustic Models. Matthias Sperber, Jan Niehues, Graham Neubig, Sebastian Stüker, Alex Waibel
2018	Self-Attentive Speaker Embeddings for Text-Independent Speaker Verification. Yingke Zhu, Tom Ko, David Snyder, Brian Mak, Daniel Povey
2018	Self-similarity Matrix Based Intelligibility Assessment of Cleft Lip and Palate Speech. Sishir Kalita, S. R. Mahadeva Prasanna, Samarendra Dandapat
2018	Semantic Lattice Processing in Contextual Automatic Speech Recognition for Google Assistant. Leonid Velikovich, Ian Williams, Justin Scheiner, Petar S. Aleksic, Pedro J. Moreno, Michael Riley
2018	Semi-Orthogonal Low-Rank Matrix Factorization for Deep Neural Networks. Daniel Povey, Gaofeng Cheng, Yiming Wang, Ke Li, Hainan Xu, Mahsa Yarmohammadi, Sanjeev Khudanpur
2018	Semi-Supervised End-to-End Speech Recognition. Shigeki Karita, Shinji Watanabe, Tomoharu Iwata, Atsunori Ogawa, Marc Delcroix
2018	Semi-supervised Cross-domain Visual Feature Learning for Audio-Visual Broadcast Speech Transcription. Rongfeng Su, Xunying Liu, Lan Wang
2018	Semi-supervised Learning for Information Extraction from Dialogue. Anjuli Kannan, Kai Chen, Diana Jaunzeikare, Alvin Rajkomar
2018	Semi-supervised and Active-learning Scenarios: Efficient Acoustic Model Refinement for a Low Resource Indian Language. Maharajan Chellapriyadharshini, Anoop Toffy, Srinivasa Raghavan K. M., V. Ramasubramanian
2018	Semi-tied Units for Efficient Gating in LSTM and Highway Networks. Chao Zhang, Philip C. Woodland
2018	Sensorimotor Response to Tongue Displacement Imagery by Talkers with Parkinson's Disease. William F. Katz, Patrick Reidy, Divya Prabhakaran
2018	Sequence-to-sequence Neural Network Model with 2D Attention for Learning Japanese Pitch Accents. Antoine Bruguier, Heiga Zen, Arkady Arkhangorodsky
2018	Should Code-switching Models Be Asymmetric? Barbara E. Bullock, Gualberto A. Guzmán, Jacqueline Serigos, Almeida Jacqueline Toribio
2018	Siamese Recurrent Auto-Encoder Representation for Query-by-Example Spoken Term Detection. Ziwei Zhu, Zhiyong Wu, Runnan Li, Helen Meng, Lianhong Cai
2018	Singing Voice Phoneme Segmentation by Hierarchically Inferring Syllable and Phoneme Onset Positions. Rong Gong, Xavier Serra
2018	Single-Channel Dereverberation Using Direct MMSE Optimization and Bidirectional LSTM Networks. Wolfgang Mack, Soumitro Chakrabarty, Fabian-Robert Stöter, Sebastian Braun, Bernd Edler, Emanuël A. P. Habets
2018	Single-channel Late Reverberation Power Spectral Density Estimation Using Denoising Autoencoders. Ina Kodrasi, Hervé Bourlard
2018	Single-channel Speech Dereverberation via Generative Adversarial Training. Chenxing Li, Tieqiang Wang, Shuang Xu, Bo Xu
2018	Slot Filling with Delexicalized Sentence Generation. Youhyun Shin, Kang Min Yoo, Sang-goo Lee
2018	Spanish Statistical Parametric Speech Synthesis Using a Neural Vocoder. Antonio Bonafonte, Santiago Pascual, Georgina Dorca
2018	Sparsity-Constrained Weight Mapping for Head-Related Transfer Functions Individualization from Anthropometric Features. Xiaoke Qi, Jianhua Tao
2018	Speaker Activity Detection and Minimum Variance Beamforming for Source Separation. Enea Ceolini, Jithendar Anumula, Adrian E. G. Huber, Ilya Kiselev, Shih-Chii Liu
2018	Speaker Adaptation and Adaptive Training for Jointly Optimised Tandem Systems. Yu Wang, Chao Zhang, Mark J. F. Gales, Philip C. Woodland
2018	Speaker Adaptive Audio-Visual Fusion for the Open-Vocabulary Section of AVICAR. Leda Sari, Mark Hasegawa-Johnson, Kumaran S, Georg Stemmer, Krishnakumar N. Nair
2018	Speaker Adaptive Training and Mixup Regularization for Neural Network Acoustic Models in Automatic Speech Recognition. Natalia A. Tomashenko, Yuri Y. Khokhlov, Yannick Estève
2018	Speaker Diarization with Enhancing Speech for the First DIHARD Challenge. Lei Sun, Jun Du, Chao Jiang, Xueyang Zhang, Shan He, Bing Yin, Chin-Hui Lee
2018	Speaker Embedding Extraction with Phonetic Information. Yi Liu, Liang He, Jia Liu, Michael T. Johnson
2018	Speaker Recognition with Nonlinear Distortion: Clipping Analysis and Impact. Wei Xia, John H. L. Hansen
2018	Speaker and Language Recognition - From Laboratory Technologies to the Wild. Sriram Ganapathy
2018	Speaker-independent Raw Waveform Model for Glottal Excitation. Lauri Juvela, Vassilis Tsiaras, Bajibabu Bollepalli, Manu Airaksinen, Junichi Yamagishi, Paavo Alku
2018	Speaker-specific Structure in German Voiceless Stop Voice Onset Times. Marc Antony Hullebus, Stephen J. Tobin, Adamantios I. Gafos
2018	Speech Database and Protocol Validation Using Waveform Entropy. Itshak Lapidot, Héctor Delgado, Massimiliano Todisco, Nicholas W. D. Evans, Jean-François Bonastre
2018	Speech Emotion Recognition Using Spectrogram & Phoneme Embedding. Promod Yenigalla, Abhay Kumar, Suraj Tripathi, Chirag Singh, Sibsambhu Kar, Jithendra Vepa
2018	Speech Emotion Recognition by Combining Amplitude and Phase Information Using Convolutional Neural Network. Lili Guo, Longbiao Wang, Jianwu Dang, Linjuan Zhang, Haotian Guan, Xiangang Li
2018	Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function. Jian Huang, Ya Li, Jianhua Tao, Zhen Lian
2018	Speech Enhancement Using Deep Mixture of Experts Based on Hard Expectation Maximization. Pavan Karjol, Prasanta Kumar Ghosh
2018	Speech Enhancement Using the Minimum-probability-of-error Criterion. Jishnu Sadasivan, Subhadip Mukherjee, Chandra Sekhar Seelamantula
2018	Speech Intelligibility Enhancement Based on a Non-causal Wavenet-like Model. P. V. Muhammed Shifas, Vassilis Tsiaras, Yannis Stylianou
2018	Speech Processing in the Human Brain Meets Deep Learning. Nima Mesgarani
2018	Speech Recognition for Medical Conversations. Chung-Cheng Chiu, Anshuman Tripathi, Katherine Chou, Chris Co, Navdeep Jaitly, Diana Jaunzeikare, Anjuli Kannan, Patrick Nguyen, Hasim Sak, Ananth Sankar, Justin Tansuwan, Nathan Wan, Yonghui Wu, Xuedong Zhang
2018	Speech Source Separation Using ICA in Constant Q Transform Domain. Dheeraj Sai D. V. L. N, Kishor K. S, Sri Rama Murty Kodukula
2018	Speech Synthesis in the Wild. Ganesh Sivaraman, Parav Nagarsheth, Elie Khoury
2018	Speech and Language Processing for Learning and Wellbeing. Helen Meng
2018	Speech2Vec: A Sequence-to-Sequence Framework for Learning Word Embeddings from Speech. Yu-An Chung, James R. Glass
2018	Spoken Keyword Detection Using Joint DTW-CNN. Ravi Shankar, Vikram C. M., S. R. Mahadeva Prasanna
2018	Spoken SQuAD: A Study of Mitigating the Impact of Speech Recognition Errors on Listening Comprehension. Chia-Hsuan Li, Szu-Lin Wu, Chi-Liang Liu, Hung-yi Lee
2018	Spoofing Detection Using Adaptive Weighting Framework and Clustering Analysis. Yuanjun Zhao, Roberto Togneri, Victor Sreeram
2018	State Gradients for RNN Memory Analysis. Lyan Verwimp, Hugo Van hamme, Vincent Renkens, Patrick Wambacq
2018	State of Mind: Classification through Self-reported Affect and Word Use in Speech. Eva-Maria Rathner, Yannik Terhorst, Nicholas Cummins, Björn W. Schuller, Harald Baumeister
2018	Statistical Model Compression for Small-Footprint Natural Language Understanding. Grant P. Strimel, Kanthashree Mysore Sathyendra, Stanislav Peshterliev
2018	Stochastic Shake-Shake Regularization for Affective Learning from Speech. Che-Wei Huang, Shrikanth S. Narayanan
2018	Stream Attention for Distributed Multi-Microphone Speech Recognition. Xiaofei Wang, Ruizhi Li, Hynek Hermansky
2018	Stress Distribution of Given Information in Chinese Reading Texts. Yuan Jia, Xiaoxiao Ma
2018	Structural Effects on Properties of Consonantal Gestures in Tashlhiyt. Anne Hermes, Doris Mücke, Bastian Auris, Rachid Ridouane
2018	Structured Word Embedding for Low Memory Neural Network Language Model. Kaiyu Shi, Kai Yu
2018	Student-Teacher Learning for BLSTM Mask-based Speech Enhancement. Aswin Shanmugam Subramanian, Szu-Jui Chen, Shinji Watanabe
2018	Study of Semi-supervised Approaches to Improving English-Mandarin Code-Switching Speech Recognition. Pengcheng Guo, Haihua Xu, Lei Xie, Eng Siong Chng
2018	Studying Vowel Variation in French-Algerian Arabic Code-switched Speech. Jane Wottawa, Djegdjiga Amazouz, Martine Adda-Decker, Lori Lamel
2018	Sub-band Envelope Features Using Frequency Domain Linear Prediction for Short Duration Language Identification. Sarith Fernando, Vidhyasaharan Sethu, Eliathamby Ambikairajah
2018	Subband Weighting for Binaural Speech Source Localization. Girija Ramesan Karthik, Parth Suresh, Prasanta Kumar Ghosh
2018	Subword and Crossword Units for CTC Acoustic Models. Thomas Zenkel, Ramon Sanabria, Florian Metze, Alex Waibel
2018	Supervised I-vector Modeling - Theory and Applications. Shreyas Ramoji, Sriram Ganapathy
2018	Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese. Shiyu Zhou, Linhao Dong, Shuang Xu, Bo Xu
2018	TDNN-based Multilingual Speech Recognition System for Low Resource Indian Languages. Noor Fathima, Tanvina Patel, Mahima C, Anuroop Iyengar
2018	Talker Diarization in the Wild: the Case of Child-centered Daylong Audio-recordings. Alejandrina Cristià, Shobhana Ganesh, Marisa Casillas, Sriram Ganapathy
2018	Task Specific Sentence Embeddings for ASR Error Detection. Sahar Ghannay, Yannick Estève, Nathalie Camelin
2018	Temporal Attentive Pooling for Acoustic Event Detection. Xugang Lu, Peng Shen, Sheng Li, Yu Tsao, Hisashi Kawai
2018	Temporal Noise Shaping with Companding. Arijit Biswas, Per Hedelin, Lars F. Villemoes, Vinay Melkote
2018	Temporal Transformer Networks for Acoustic Scene Classification. Teng Zhang, Kailai Zhang, Ji Wu
2018	Term Extraction via Neural Sequence Labeling a Comparative Evaluation of Strategies Using Recurrent Neural Networks. Maren Kucza, Jan Niehues, Thomas Zenkel, Alex Waibel, Sebastian Stüker
2018	Testing Paradigms for Assistive Hearing Devices in Diverse Acoustic Environments. Ram Charan Chandra Shekar, Hussnain Ali, John H. L. Hansen
2018	Text-Dependent Speech Enhancement for Small-Footprint Robust Keyword Detection. Meng Yu, Xuan Ji, Yi Gao, Lianwu Chen, Jie Chen, Jimeng Zheng, Dan Su, Dong Yu
2018	The 'West Yorkshire Regional English Database': Investigations into the Generalizability of Reference Populations for Forensic Speaker Comparison Casework. Erica Gold, Sula Ross, Kate Earnshaw
2018	The ACLEW DiViMe: An Easy-to-use Diarization Tool. Adrien Le Franc, Eric Riebling, Julien Karadayi, Yun Wang, Camila Scaff, Florian Metze, Alejandrina Cristià
2018	The CSU-K Rule-Based System for the 2nd Edition Spoken CALL Shared Task. Dominik Jülg, Mario Kunstek, Cem Philipp Freimoser, Kay Berkling, Mengjie Qian
2018	The Conversation Continues: the Effect of Lyrics and Music Complexity of Background Music on Spoken-Word Recognition. Odette Scharenborg, Martha A. Larson
2018	The Conversation: Deep Audio-Visual Speech Enhancement. Triantafyllos Afouras, Joon Son Chung, Andrew Zisserman
2018	The Diphthongs of Formal Nigerian English: A Preliminary Acoustic Analysis. Natalia Dyrenko, Robert Fuchs
2018	The EURECOM Submission to the First DIHARD Challenge. Jose Patino, Héctor Delgado, Nicholas W. D. Evans
2018	The Effect of Exposure to High Altitude and Heat on Speech Articulatory Coordination. James R. Williamson, Thomas F. Quatieri, Adam C. Lammert, Katherine Mitchell, Katherine Finkelstein, Nicole Ekon, Caitlin Dillon, Robert Kenefick, Kristin Heaton
2018	The Effect of Real-Time Constraints on Automatic Speech Animation. Danny Websdale, Sarah Taylor, Ben Milner
2018	The Fifth 'CHiME' Speech Separation and Recognition Challenge: Dataset, Task and Baselines. Jon Barker, Shinji Watanabe, Emmanuel Vincent, Jan Trmal
2018	The IBM Virtual Voice Creator. Alexander Sorin, Slava Shechtman, Zvi Kons, Ron Hoory, Shay Ben-David, Joe Pavitt, Shai Rozenberg, Carmel Rabinovitz, Tal Drory
2018	The INTERSPEECH 2018 Computational Paralinguistics Challenge: Atypical & Self-Assessed Affect, Crying & Heart Beats. Björn W. Schuller, Stefan Steidl, Anton Batliner, Peter B. Marschik, Harald Baumeister, Fengquan Dong, Simone Hantke, Florian B. Pokorny, Eva-Maria Rathner, Katrin D. Bartl-Pokorny, Christa Einspieler, Dajie Zhang, Alice Baird, Shahin Amiriparian, Kun Qian, Zhao Ren, Maximilian Schmitt, Panagiotis Tzirakis, Stefanos Zafeiriou
2018	The Individual and the System: Assessing the Stability of the Output of a Semi-automatic Forensic Voice Comparison System. Vincent Hughes, Philip Harrison, Paul Foulkes, Peter French, Colleen Kavanagh, Eugenia San Segundo Fernández
2018	The PRIORI Emotion Dataset: Linking Mood to Emotion Detected In-the-Wild. Soheil Khorram, Mimansa Jaiswal, John Gideon, Melvin G. McInnis, Emily Mower Provost
2018	The Perception and Analysis of the Likeability and Human Likeness of Synthesized Speech. Alice Baird, Emilia Parada-Cabaleiro, Simone Hantke, Felix Burkhardt, Nicholas Cummins, Björn W. Schuller
2018	The Retroflex-dental Contrast in Punjabi Stops and Nasals: A Principal Component Analysis of Ultrasound Images. Alexei Kochetov, Matthew Faytak, Kiranpreet Nara
2018	The Role of Cognate Words, POS Tags and Entrainment in Code-Switching. Victor Soto, Nishmar Cestero, Julia Hirschberg
2018	The Role of Temporal Variation in Narrative Organization. Nassima Fezza
2018	The Trajectory of Voice Onset Time with Vocal Aging. Xuanda Chen, Ziyu Xiong, Jian Hu
2018	The University of Birmingham 2018 Spoken CALL Shared Task Systems. Mengjie Qian, Xizi Wei, Peter Jancovic, Martin J. Russell
2018	The Use of Machine Learning and Phonetic Endophenotypes to Discover Genetic Variants Associated with Speech Sound Disorder. Jason Lilley, Erin L. Crowgey, H. Timothy Bunnell
2018	The Zurich Corpus of Vowel and Voice Quality, Version 1.0. Dieter Maurer, Christian d'Heureuse, Heidy Suter, Volker Dellwo, Daniel Friedrichs, Thayabaran Kathiresan
2018	Time Aggregation Operators for Multi-label Audio Event Detection. Pankaj Joshi, Digvijaysingh Gautam, Ganesh Ramakrishnan, Preethi Jyothi
2018	Time-regularized Linear Prediction for Noise-robust Extraction of the Spectral Envelope of Speech. Manu Airaksinen, Lauri Juvela, Okko Räsänen, Paavo Alku
2018	Tone Recognition Using Lifters and CTC. Loren Lugosch, Vikrant Singh Tomar
2018	Tongue Segmentation with Geometrically Constrained Snake Model. Zhihua Su, Jianguo Wei, Qiang Fang, Jianrong Wang, Kiyoshi Honda
2018	Topic and Keyword Identification for Low-resourced Speech Using Cross-Language Transfer Learning. Wenda Chen, Mark Hasegawa-Johnson, Nancy F. Chen
2018	Toward Scalable Dialog Technology for Conversational Language Learning: Case Study of the TOEFL® MOOC. Vikram Ramanarayanan, David Pautler, Patrick L. Lange, Eugene Tsuprun, Rutuja Ubale, Keelan Evanini, David Suendermann-Oeft
2018	Towards Automated Single Channel Source Separation Using Neural Networks. Arpita Gang, Pravesh Biyani, Akshay Soni
2018	Towards Automatic Speech Identification from Vocal Tract Shape Dynamics in Real-time MRI. Pramit Saha, Praneeth Srungarapu, Sidney S. Fels
2018	Towards Temporal Modelling of Categorical Speech Emotion Recognition. Wenjing Han, Huabin Ruan, Xiaomin Chen, Zhixiang Wang, Haifeng Li, Björn W. Schuller
2018	Towards a Better Characterization of Parkinsonian Speech: A Multidimensional Acoustic Study. Véronique Delvaux, Kathy Huet, Myriam Piccaluga, Sophie van Malderen, Bernard Harmegnies
2018	Towards an Unsupervised Entrainment Distance in Conversational Speech Using Deep Neural Networks. Md. Nasir, Brian R. Baucom, Shrikanth S. Narayanan, Panayiotis G. Georgiou
2018	Training Augmentation with Adversarial Examples for Robust Speech Recognition. Sining Sun, Ching-Feng Yeh, Mari Ostendorf, Mei-Yuh Hwang, Lei Xie
2018	Training Recurrent Neural Network through Moment Matching for NLP Applications. Yue Deng, Yilin Shen, KaWai Chen, Hongxia Jin
2018	Training Utterance-level Embedding Networks for Speaker Identification and Verification. Heewoong Park, Sukhyun Cho, Kyubyong Park, Namju Kim, Jonghun Park
2018	Transcription Correction for Indian Languages Using Acoustic Signatures. Jeena J. Prakash, Rajan Golda Brunet, Hema A. Murthy
2018	Transfer Learning Based Progressive Neural Networks for Acoustic Modeling in Statistical Parametric Speech Synthesis. Ruibo Fu, Jianhua Tao, Yibin Zheng, Zhengqi Wen
2018	Transfer Learning for Improving Speech Emotion Classification Accuracy. Siddique Latif, Rajib Rana, Shahzad Younis, Junaid Qadir, Julien Epps
2018	Triplet Loss Based Cosine Similarity Metric Learning for Text-independent Speaker Recognition. Sergey Novoselov, Vadim Shchemelinin, Andrey Shulipa, Alexander Kozlov, Ivan Kremnev
2018	Triplet Network with Attention for Speaker Diarization. Huan Song, Megan M. Willi, Jayaraman J. Thiagarajan, Visar Berisha, Andreas Spanias
2018	Truncation and Compression in Southern German and Australian English. Jenny Yu, Katharina Zahner
2018	Twin Regularization for Online Speech Recognition. Mirco Ravanelli, Dmitriy Serdyuk, Yoshua Bengio
2018	UltraFit: A Speaker-friendly Headset for Ultrasound Recordings in Speech Science. Lorenzo Spreafico, Michael Pucher, Anna Matosova
2018	UltraSuite: A Repository of Ultrasound and Acoustic Data from Child Speech Therapy Sessions. Aciel Eshky, Manuel Sam Ribeiro, Joanne Cleland, Korin Richmond, Zoe Roxburgh, James M. Scobbie, Alan Wrench
2018	Universal Tendencies for Cross-Linguistic Prosodic Tendencies: A Review and Some New Proposals. Jacqueline Vaissière
2018	Unspeech: Unsupervised Speech Context Embeddings. Benjamin Milde, Chris Biemann
2018	Unsupervised Adaptation with Interpretable Disentangled Representations for Distant Conversational Speech Recognition. Wei-Ning Hsu, Hao Tang, James R. Glass
2018	Unsupervised Discovery of Non-native Phonetic Patterns in L2 English Speech for Mispronunciation Detection and Diagnosis. Xu Li, Shaoguang Mao, Xixin Wu, Kun Li, Xunying Liu, Helen Meng
2018	Unsupervised Temporal Feature Learning Based on Sparse Coding Embedded BoAW for Acoustic Event Recognition. Liwen Zhang, Jiqing Han, Shiwen Deng
2018	Unsupervised Vocal Tract Length Warped Posterior Features for Non-Parallel Voice Conversion. Nirmesh J. Shah, Maulik C. Madhavi, Hemant A. Patil
2018	Unsupervised Word Segmentation from Speech with Attention. Pierre Godard, Marcely Zanon Boito, Lucas Ondel, Alexandre Berard, François Yvon, Aline Villavicencio, Laurent Besacier
2018	Unsupervised and Efficient Vocabulary Expansion for Recurrent Neural Network Language Models in ASR. Yerbolat Khassanov, Eng Siong Chng
2018	User Information Augmented Semantic Frame Parsing Using Progressive Neural Networks. Yilin Shen, Xiangyu Zeng, Yu Wang, Hongxia Jin
2018	User-centric Evaluation of Automatic Punctuation in ASR Closed Captioning. Máté Ákos Tündik, György Szaszák, Gábor Gosztolya, András Beke
2018	Using Deep Neural Networks for Identification of Slavic Languages from Acoustic Signal. Lukás Mateju, Petr Cerva, Jindrich Zdánský, Radek Safarík
2018	Using Prosodic and Lexical Information for Learning Utterance-level Behaviors in Psychotherapy. Karan Singla, Zhuohao Chen, Nikolaos Flemotomos, James Gibson, Dogan Can, David C. Atkins, Shrikanth S. Narayanan
2018	Using Pupillometry to Measure the Cognitive Load of Synthetic Speech. Avashna Govender, Simon King
2018	Using Shifted Real Spectrum Mask as Training Target for Supervised Speech Separation. Yun Liu, Hui Zhang, Xueliang Zhang
2018	Using Voice Quality Supervectors for Affect Identification. Soo Jin Park, Amber Afshan, Zhi Ming Chua, Abeer Alwan
2018	Variation in the FACE Vowel across West Yorkshire: Implications for Forensic Speaker Comparisons. Kate Earnshaw, Erica Gold
2018	Variational Autoencoders for Learning Latent Representations of Speech Emotion: A Preliminary Study. Siddique Latif, Rajib Rana, Junaid Qadir, Julien Epps
2018	Visual Recognition of Continuous Cued Speech Using a Tandem CNN-HMM Approach. Li Liu, Thomas Hueber, Gang Feng, Denis Beautemps
2018	Visual Speech Enhancement. Aviv Gabbay, Asaph Shamir, Shmuel Peleg
2018	Visual Timing Information in Audiovisual Speech Perception: Evidence from Lexical Tone Contour. Hui Xie, Biao Zeng, Rui Wang
2018	Visualizing Phoneme Category Adaptation in Deep Neural Networks. Odette Scharenborg, Sebastian Tiesmeyer, Mark Hasegawa-Johnson, Najim Dehak
2018	Visualizing Punctuation Restoration in Speech Transcripts with Prosograph. Alp Öktem, Mireia Farrús, Antonio Bonafonte
2018	Vocal Biomarkers for Cognitive Performance Estimation in a Working Memory Task. Jennifer Sloboda, Adam C. Lammert, James R. Williamson, Christopher J. Smalt, Daryush D. Mehta, C. O. L. Ian Curry, Kristin Heaton, Jeff Palmer, Thomas F. Quatieri
2018	Vocalic, Lexical and Prosodic Cues for the INTERSPEECH 2018 Self-Assessed Affect Challenge. Claude Montacié, Marie-José Caraty
2018	Voice Analysis Using Acoustic and Throat Microphones for Speech Therapy. Lani Mathew, K. Gopakumar
2018	Voice Comparison and Rhythm: Behavioral Differences between Target and Non-target Comparisons. Moez Ajili, Jean-François Bonastre, Solange Rossato
2018	Voice Conversion Across Arbitrary Speakers Based on a Single Target-Speaker Utterance. Songxiang Liu, Jinghua Zhong, Lifa Sun, Xixin Wu, Xunying Liu, Helen Meng
2018	Voice Conversion with Conditional SampleRNN. Cong Zhou, Michael Horgan, Vivek Kumar, Cristina Vasco, Dan Darcy
2018	Voice Source Contribution to Prominence Perception: Rd Implementation. Andy Murphy, Irena Yanushevskaya, Ailbhe Ní Chasaide, Christer Gobl
2018	Voice-powered Solutions with Cloud AI. Dan Aharon
2018	VoiceGuard: Secure and Private Speech Processing. Ferdinand Brasser, Tommaso Frassetto, Korbinian Riedhammer, Ahmad-Reza Sadeghi, Thomas Schneider, Christian Weinert
2018	Voices Obscured in Complex Environmental Settings (VOiCES) Corpus. Colleen Richey, María Auxiliadora Barrios, Zeb Armstrong, Chris Bartels, Horacio Franco, Martin Graciarena, Aaron Lawson, Mahesh Kumar Nandwana, Allen R. Stauffer, Julien van Hout, Paul Gamble, Jeffrey Hetherly, Cory Stephenson, Karl Ni
2018	Vowel Space as a Tool to Evaluate Articulation Problems. Rob van Son, Catherine Middag, Kris Demuynck
2018	Vowels and Diphthongs in Hangzhou Wu Chinese Dialect. Yang Yue, Fang Hu
2018	VoxCeleb2: Deep Speaker Recognition. Joon Son Chung, Arsha Nagrani, Andrew Zisserman
2018	WaveNet Vocoder with Limited Training Data for Voice Conversion. Li-Juan Liu, Zhen-Hua Ling, Yuan Jiang, Ming Zhou, Li-Rong Dai
2018	Waveform to Single Sinusoid Regression to Estimate the F0 Contour from Noisy Speech Using Recurrent Deep Neural Networks. Akihiro Kato, Tomi Kinnunen
2018	Waveform-Based Speaker Representations for Speech Synthesis. Moquan Wan, Gilles Degottex, Mark J. F. Gales
2018	Wavelet Analysis of Speaker Dependent and Independent Prosody for Voice Conversion. Berrak Sisman, Haizhou Li
2018	Wavelet Transform Based Mel-scaled Features for Acoustic Scene Classification. Shefali Waldekar, Goutam Saha
2018	Weighting Pitch Contour and Loudness Contour in Mandarin Tone Perception in Cochlear Implant Listeners. Qinglin Meng, Nengheng Zheng, Ambika Prasad Mishra, Jacinta Dan Luo, Jan W. H. Schnupp
2018	Weighting Time-Frequency Representation of Speech Using Auditory Saliency for Automatic Speech Recognition. Cong-Thanh Do, Yannis Stylianou
2018	Weighting of Coda Voicing Cues: Glottalisation and Vowel Duration. Joshua Penney, Felicity Cox, Anita Szakay
2018	What Do Classifiers Actually Learn? a Case Study on Emotion Recognition Datasets. Patrick Meyer, Eric Buschermöhle, Tim Fingscheidt
2018	What to Expect from Expected Kneser-Ney Smoothing. Michael Levit, Sarangarajan Parthasarathy, Shuangyu Chang
2018	Whispered Speech to Neutral Speech Conversion Using Bidirectional LSTMs. G. Nisha Meenakshi, Prasanta Kumar Ghosh
2018	Whistle-blowing ASRs: Evaluating the Need for More Inclusive Speech Recognition Systems. Meredith Moore, Hemanth Venkateswara, Sethuraman Panchanathan
2018	Who Are You Listening to? Towards a Dynamic Measure of Auditory Attention to Speech-on-speech. Moïra-Phoebé Huet, Christophe Micheyl, Etienne Gaudrain, Etienne Parizet
2018	Who Said That? a Comparative Study of Non-negative Matrix Factorization Techniques. Teun F. Krikke, Frank Broz, David Lane
2018	Wide Learning for Auditory Comprehension. Elnaz Shafaei-Bajestan, R. Harald Baayen
2018	Word Emphasis Prediction for Expressive Text to Speech. Yosi Mass, Slava Shechtman, Moran Mordechay, Ron Hoory, Oren Sar Shalom, Guy Lev, David Konopnicki
2018	Wuxi Speakers' Production and Perception of Coda Nasals in Mandarin. Lei Wang, Jie Cui, Ying Chen
2018	ZCU-NTIS Speaker Diarization System for the DIHARD 2018 Challenge. Zbynek Zajíc, Marie Kunesová, Jan Zelinka, Marek Hrúz
2018	akeira™ - Virtual Assistant. Umesh Sachdev, Rajagopal Jayaraman, Zainab Millwala
2018	auMina™ - Enterprise Speech Analytics. Umesh Sachdev, Rajagopal Jayaraman, Zainab Millwala
2018	i-Vectors in Language Modeling: An Efficient Way of Domain Adaptation for Feed-Forward Models. Karel Benes, Santosh Kesiraju, Lukás Burget