LREC - RankMe – RankMe

805 papers

Year	Title / Authors
2022	"Beste Grüße, Maria Meyer" - Pseudonymization of Privacy-Sensitive Information in Emails. Elisabeth Eder, Michael Wiegand, Ulrike Krieg-Holz, Udo Hahn
2022	'Am I the Bad One'? Predicting the Moral Judgement of the Crowd Using Pre-trained Language Models. Areej Alhassan, Jinkai Zhang, Viktor Schlegel
2022	A (Psycho-)Linguistically Motivated Scheme for Annotating and Exploring Emotions in a Genre-Diverse Corpus. Aline Étienne, Delphine Battistelli, Gwénolé Lecorvé
2022	A Bayesian Topic Model for Human-Evaluated Interpretability. Justin Wood, Corey W. Arnold, Wei Wang
2022	A Benchmark Corpus for the Detection of Automatically Generated Text in Academic Publications. Vijini Liyanage, Davide Buscaldi, Adeline Nazarenko
2022	A Benchmark Dataset for Multi-Level Complexity-Controllable Machine Translation. Kazuki Tani, Ryoya Yuasa, Kazuki Takikawa, Akihiro Tamura, Tomoyuki Kajiwara, Takashi Ninomiya, Tsuneo Kato
2022	A Brief Survey of Textual Dialogue Corpora. Hugo Gonçalo Oliveira, Patrícia Sofia Pereira Ferreira, Daniel Martins, Catarina Silva, Ana Alves
2022	A Comparative Cross Language View On Acted Databases Portraying Basic Emotions Utilising Machine Learning. Felix Burkhardt, Anabell Hacker, Uwe D. Reichel, Hagen Wierstorf, Florian Eyben, Björn W. Schuller
2022	A Comparison of Praising Skills in Face-to-Face and Remote Dialogues. Toshiki Onishi, Asahi Ogushi, Yohei Tahara, Ryo Ishii, Atsushi Fukayama, Takao Nakamura, Akihiro Miyata
2022	A Comprehensive Evaluation and Correction of the TimeBank Corpus. Mustafa Ocal, Antonela Radas, Jared Hummer, Karine Megerdoomian, Mark A. Finlayson
2022	A Corpus for Commonsense Inference in Story Cloze Test. Bingsheng Yao, Ethan Joseph, Julian Lioanag, Mei Si
2022	A Corpus for Suggestion Mining of German Peer Feedback. Dominik Pfütze, Eva Ritz, Julius Janda, Roman Rietsche
2022	A Corpus of German Citizen Contributions in Mobility Planning: Supporting Evaluation Through Multidimensional Classification. Julia Romberg, Laura Mark, Tobias Escher
2022	A Corpus of Simulated Counselling Sessions with Dialog Act Annotation. John Lee, Haley Fong, Lai Shuen Judy Wong, Chun Chung Mak, Chi Hin Yip, Ching Wah Larry Ng
2022	A Cross-document Coreference Dataset for Longitudinal Tracking across Radiology Reports. Surabhi Datta, Hio Cheng Lam, Atieh Pajouhi, Sunitha Mogalla, Kirk Roberts
2022	A Dataset for Speech Emotion Recognition in Greek Theatrical Plays. Maria Moutti, Sofia Eleftheriou, Panagiotis Koromilas, Theodoros Giannakopoulos
2022	A Dataset of Offensive German Language Tweets Annotated for Speech Acts. Melina Plakidis, Georg Rehm
2022	A Dataset of Offensive Language in Kosovo Social Media. Adem Ajvazi, Christian Hardmeier
2022	A Deep Transfer Learning Method for Cross-Lingual Natural Language Inference. Dibyanayan Bandyopadhyay, Arkadipta De, Baban Gain, Tanik Saikh, Asif Ekbal
2022	A Distant Supervision Corpus for Extracting Biomedical Relationships Between Chemicals, Diseases and Genes. Dongxu Zhang, Sunil Mohan, Michaela Torkar, Andrew McCallum
2022	A First Corpus of AZee Discourse Expressions. Camille Challant, Michael Filhol
2022	A Framenet and Frame Annotator for German Social Media. Eckhard Bick
2022	A Free/Open-Source Morphological Analyser and Generator for Sakha. Sardana Ivanova, Jonathan Washington, Francis M. Tyers
2022	A Generalized Approach to Protest Event Detection in German Local News. Gregor Wiedemann, Jan Matti Dollbaum, Sebastian Haunss, Priska Daphi, Larissa Daria Meier
2022	A Graph-Based Method for Unsupervised Knowledge Discovery from Financial Texts. Joel Oksanen, Abhilash Majumder, Kumar Saunack, Francesca Toni, Arun Dhondiyal
2022	A Hmong Corpus with Elaborate Expression Annotations. David R. Mortensen, Xinyu Zhang, Chenxuan Cui, Katherine J. Zhang
2022	A Japanese Dataset for Subjective and Objective Sentiment Polarity Classification in Micro Blog Domain. Haruya Suzuki, Yuto Miyauchi, Kazuki Akiyama, Tomoyuki Kajiwara, Takashi Ninomiya, Noriko Takemura, Yuta Nakashima, Hajime Nagahara
2022	A Language Modelling Approach to Quality Assessment of OCR'ed Historical Text. Callum Booth, Robert Shoemaker, Robert J. Gaizauskas
2022	A Large Interlinked Knowledge Graph of the Italian Cultural Heritage. Stefano Faralli, Andrea Lenzi, Paola Velardi
2022	A Large-Scale Japanese Dataset for Aspect-based Sentiment Analysis. Yuki Nakayama, Koji Murakami, Gautam Kumar, Sudha Bhingardive, Ikuko Hardaway
2022	A Learning-Based Dependency to Constituency Conversion Algorithm for the Turkish Language. Büsra Marsan, Oguz Kerem Yildiz, Asli Kuzgun, Neslihan Cesur, Arife Betül Yenice, Ezgi Saniyar, Oguzhan Kuyrukçu, Bilge Nas Arican, Olcay Taner Yildiz
2022	A Linguistically Motivated Test Suite to Semi-Automatically Evaluate German-English Machine Translation Output. Vivien Macketanz, Eleftherios Avramidis, Aljoscha Burchardt, He Wang, Renlong Ai, Shushen Manakhimova, Ursula Strohriegel, Sebastian Möller, Hans Uszkoreit
2022	A Low-Cost Motion Capture Corpus in French Sign Language for Interpreting Iconicity and Spatial Referencing Mechanisms. Clémence Mertz, Vincent Barreaud, Thibaut Le Naour, Damien Lolive, Sylvie Gibet
2022	A Mapudüngun FST Morphological Analyser and its Web Interface. Andrés Chandía
2022	A Methodology for Building a Diachronic Dataset of Semantic Shifts and its Application to QC-FR-Diac-V1.0, a Free Reference for French. David Kletz, Philippe Langlais, François Lareau, Patrick Drouin
2022	A Multi-Party Dialogue Ressource in French. Maria Boritchev, Maxime Amblard
2022	A Multi-source Graph Representation of the Movie Domain for Recommendation Dialogues Analysis. Antonio Origlia, Martina Di Bratto, Maria Di Maro, Sabrina Mennella
2022	A Multimodal Corpus for Emotion Recognition in Sarcasm. Anupama Ray, Shubham Mishra, Apoorva Nunna, Pushpak Bhattacharyya
2022	A Multimodal German Dataset for Automatic Lip Reading Systems and Transfer Learning. Gerald Schwiebert, Cornelius Weber, Leyuan Qu, Henrique Siqueira, Stefan Wermter
2022	A Named Entity Recognition Corpus for Vietnamese Biomedical Texts to Support Tuberculosis Treatment. Uyen Phan, Phuong N. V. Nguyen, Nhung Nguyen
2022	A New Dataset for Topic-Based Paragraph Classification in Genocide-Related Court Transcripts. Miriam Schirmer, Udo Kruschwitz, Gregor Donabauer
2022	A Pragmatics-Centered Evaluation Framework for Natural Language Understanding. Damien Sileo, Philippe Muller, Tim Van de Cruys, Camille Pradel
2022	A Romanization System and WebMAUS Aligner for Arabic Varieties. Jalal Al-Tamimi, Florian Schiel, Ghada Khattab, Navdeep Sokhey, Djegdjiga Amazouz, Abdulrahman Dallak, Hajar Moussa
2022	A STEP towards Interpretable Multi-Hop Reasoning: Bridge Phrase Identification and Query Expansion. Fan Luo, Mihai Surdeanu
2022	A Semi-Automated Live Interlingual Communication Workflow Featuring Intralingual Respeaking: Evaluation and Benchmarking. Tomasz Korybski, Elena Davitti, Constantin Orasan, Sabine Braun
2022	A Semi-Automatic Approach to Create Large Gender- and Age-Balanced Speaker Corpora: Usefulness of Speaker Diarization & Identification. Rémi Uro, David Doukhan, Albert Rilliard, Laetitia Larcher, Anissa-Claire Adgharouamane, Marie Tahon, Antoine Laurent
2022	A Simple Yet Effective Corpus Construction Method for Chinese Sentence Compression. Yang Zhao, Hiroshi Kanayama, Issei Yoshida, Masayasu Muraoka, Akiko Aizawa
2022	A Speculative and Tentative Common Ground Handling for Efficient Composition of Uncertain Dialogue. Saki Sudo, Kyoshiro Asano, Koh Mitsuda, Ryuichiro Higashinaka, Yugo Takeuchi
2022	A Speech Recognizer for Frisian/Dutch Council Meetings. Martijn Bentum, Louis ten Bosch, Henk van den Heuvel, Simone Wills, Domenique van der Niet, Jelske Dijkstra, Hans Van de Velde
2022	A Spoken Drug Prescription Dataset in French for Spoken Language Understanding. Ali Can Kocabiyikoglu, François Portet, Prudence Gibert, Hervé Blanchon, Jean-Marc Babouchkine, Gaëtan Gavazzi
2022	A Study in Contradiction: Data and Annotation for AIDA Focusing on Informational Conflict in Russia-Ukraine Relations. Jennifer Tracey, Ann Bies, Jeremy Getman, Kira Griffitt, Stephanie M. Strassel
2022	A Study of Distant Viewing of ukiyo-e prints. Konstantina Liagkou, John Pavlopoulos, Ewa Machotka
2022	A Study on the Ambiguity in Human Annotation of German Oral History Interviews for Perceived Emotion Recognition and Sentiment Analysis. Michael Gref, Nike Matthiesen, Sreenivasa Hikkal Venugopala, Shalaka Satheesh, Aswinkumar Vijayananth, Duc Bach Ha, Sven Behnke, Joachim Köhler
2022	A Survey of Machine Translation Tasks on Nigerian Languages. Ebelechukwu Nwafor, Anietie Andy
2022	A Survey of Multilingual Models for Automatic Speech Recognition. Hemant Yadav, Sunayana Sitaram
2022	A Systematic Approach to Derive a Refined Speech Corpus for Sinhala. Disura Warusawithana, Nilmani Kulaweera, Lakshan Weerasinghe, Buddhika Karunarathne
2022	A Systematic Study Reveals Unexpected Interactions in Pre-Trained Neural Machine Translation. Ashleigh Richardson, Janet Wiles
2022	A Tale of Two Regulatory Regimes: Creation and Analysis of a Bilingual Privacy Policy Corpus. Siddhant Arora, Henry Hosseini, Christine Utz, Vinayshekhar Bannihatti Kumar, Tristan Dhellemmes, Abhilasha Ravichander, Peter Story, Jasmine Mangat, Rex Chen, Martin Degeling, Thomas B. Norton, Thomas Hupperich, Shomir Wilson, Norman M. Sadeh
2022	A Thesaurus-based Sentiment Lexicon for Danish: The Danish Sentiment Lexicon. Sanni Nimb, Sussi Olsen, Bolette S. Pedersen, Thomas Troelsgård
2022	A Turkish Hate Speech Dataset and Detection System. Fatih Beyhan, Buse Çarik, Inanç Arin, Aysecan Terzioglu, Berrin Yanikoglu, Reyyan Yeniterzi
2022	A Twitter Corpus for Named Entity Recognition in Turkish. Buse Çarik, Reyyan Yeniterzi
2022	A Unified Approach to Entity-Centric Context Tracking in Social Conversations. Ulrich Rückert, Srinivas Sunkara, Abhinav Rastogi, Sushant Prakash, Pranav Khaitan
2022	A Unifying View On Task-oriented Dialogue Annotation. Vojtech Hudecek, Léon-Paul Schaub, Daniel Stancl, Patrick Paroubek, Ondrej Dusek
2022	A Universal Dependencies Treebank of Ancient Hebrew. Daniel G. Swanson, Francis M. Tyers
2022	A Warm Start and a Clean Crawled Corpus - A Recipe for Good Language Models. Vésteinn Snæbjarnarson, Haukur Barri Símonarson, Pétur Orri Ragnarsson, Svanhvít Lilja Ingólfsdóttir, Haukur Páll Jónsson, Vilhjalmur Thorsteinsson, Hafsteinn Einarsson
2022	A Whole-Person Function Dictionary for the Mobility, Self-Care and Domestic Life Domains: a Seedset Expansion Approach. Ayah Zirikly, Bart Desmet, Julia Porcino, Jonathan Camacho Maldonado, Pei-Shu Ho, Rafael Jiménez Silva, Maryanne Sacco
2022	A new European Portuguese corpus for the study of Psychosis through speech analysis. Maria Forjó, Daniel Neto, Alberto Abad, H. Sofia Pinto, Joaquim Gago
2022	ACT2: A multi-disciplinary semi-structured dataset for importance and purpose classification of citations. Suchetha Nambanoor Kunnath, Valentin Stauber, Ronin Wu, David Pride, Viktor Botev, Petr Knoth
2022	AGILe: The First Lemmatizer for Ancient Greek Inscriptions. Evelien de Graaf, Silvia Stopponi, Jasper K. Bos, Saskia Peels-Matthey, Malvina Nissim
2022	ALBETO and DistilBETO: Lightweight Spanish Language Models. José Cañete, Sebastian Donoso, Felipe Bravo-Marquez, Andrés Carvallo, Vladimir Araujo
2022	ALEXSIS: A Dataset for Lexical Simplification in Spanish. Daniel Ferrés, Horacio Saggion
2022	ALIGNMEET: A Comprehensive Tool for Meeting Annotation, Alignment, and Evaluation. Peter Polák, Muskaan Singh, Anna Nedoluzhko, Ondrej Bojar
2022	APPReddit: a Corpus of Reddit Posts Annotated for Appraisal. Marco Antonio Stranisci, Simona Frenda, Eleonora Ceccaldi, Valerio Basile, Rossana Damiano, Viviana Patti
2022	ASCEND: A Spontaneous Chinese-English Dataset for Code-switching in Multi-turn Conversation. Holy Lovenia, Samuel Cahyawijaya, Genta Indra Winata, Peng Xu, Yan Xu, Zihan Liu, Rita Frieske, Tiezheng Yu, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung
2022	Abstract Meaning Representation for Gesture. Richard Brutti, Lucia Donatelli, Kenneth Lai, James Pustejovsky
2022	Adapting Language Models When Training on Privacy-Transformed Data. M. A. Tugtekin Turan, Dietrich Klakow, Emmanuel Vincent, Denis Jouvet
2022	Adversarial Speech Generation and Natural Speech Recovery for Speech Content Protection. Sheng Li, Jiyi Li, Qianying Liu, Zhuo Gong
2022	Aesop's fable "The North Wind and the Sun" Used as a Rosetta Stone to Extract and Map Spoken Words in Under-resourced Languages. Elena Knyazeva, Philippe Boula de Mareüil, Frédéric Vernier
2022	Afaan Oromo Hate Speech Detection and Classification on Social Media. Teshome Mulugeta Ababu, Michael Melese Woldeyohannis
2022	AiRO - an Interactive Learning Tool for Children at Risk of Dyslexia. Peter Juel Henrichsen, Stine Fuglsang Engmose
2022	Align-smatch: A Novel Evaluation Method for Chinese Abstract Meaning Representation Parsing based on Alignment of Concept and Relation. Liming Xiao, Bin Li, Zhixing Xu, Kairui Huo, Minxuan Feng, Junsheng Zhou, Weiguang Qu
2022	Aligning Images and Text with Semantic Role Labels for Fine-Grained Cross-Modal Understanding. Abhidip Bhattacharyya, Cecilia Mauceri, Martha Palmer, Christoffer Heckman
2022	Aligning the Romanian Reference Treebank and the Valence Lexicon of Romanian Verbs. Ana-Maria Barbu, Verginica Barbu Mititelu, Catalin Mititelu
2022	An Analysis of Dialogue Act Sequence Similarity Across Multiple Domains. Ayesha Enayet, Gita Sukthankar
2022	An Annotated Corpus of Textual Explanations for Clinical Decision Support. Roland Roller, Aljoscha Burchardt, Nils Feldhus, Laura Seiffe, Klemens Budde, Simon Ronicke, Bilgin Osmanodja
2022	An Architecture of resolving a multiple link path in a standoff-style data format to enhance the mobility of language resources. Kazushi Ohya
2022	An Empirical Study on the Overlapping Problem of Open-Domain Dialogue Datasets. Yuqiao Wen, Guoqing Luo, Lili Mou
2022	An Evaluation Framework for Legal Document Summarization. Ankan Mullick, Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, R. Raghav, Roshni Kar
2022	An Expanded Finite-State Transducer for Tsuut'ina Verbs. Joshua Holden, Christopher Cox, Antti Arppe
2022	An Inflectional Database for Gitksan. Bruce Harold Oliver, Clarissa Forbes, Changbing Yang, Farhan Samir, Edith Coates, Garrett Nicolai, Miikka Silfverberg
2022	An automatic model and Gold Standard for translation alignment of Ancient Greek. Tariq Yousef, Chiara Palladino, Farnoosh Shamsian, Anise d'Orange Ferreira, Michel Ferreira dos Reis
2022	Analysis and Prediction of NLP Models via Task Embeddings. Damien Sileo, Marie-Francine Moens
2022	Analysis of Dialogue in Human-Human Collaboration in Minecraft. Takuma Ichikawa, Ryuichiro Higashinaka
2022	Angry or Sad ? Emotion Annotation for Extremist Content Characterisation. Valentina Dragos, Delphine Battistelli, Aline Étienne, Yolène Constable
2022	Animacy Denoting German Nouns: Annotation and Classification. Manfred Klenner, Anne Göhring
2022	Annotating Arguments in a Corpus of Opinion Articles. Gil Rocha, Luís Trigo, Henrique Lopes Cardoso, Rui Sousa-Silva, Paula Carvalho, Bruno Martins, Miguel Won
2022	Annotating Attribution in Czech News Server Articles. Barbora Hladká, Jirí Mírovský, Matyás Kopp, Václav Moravec
2022	Annotating Interruption in Dyadic Human Interaction. Liu Yang, Catherine Achard, Catherine Pelachaud
2022	Annotating Verbal Multiword Expressions in Arabic: Assessing the Validity of a Multilingual Annotation Procedure. Najet Hadj Mohamed, Chérifa Ben Khelil, Agata Savary, Iskandar Keskes, Jean-Yves Antoine, Lamia Hadrich Belguith
2022	Annotating the Tweebank Corpus on Named Entity Recognition and Building NLP Models for Social Media Analysis. Hang Jiang, Yining Hua, Doug Beeferman, Deb Roy
2022	Annotation Study of Japanese Judgments on Tort for Legal Judgment Prediction with Rationales. Hiroaki Yamada, Takenobu Tokunaga, Ryutaro Ohara, Keisuke Takeshita, Mihoko Sumida
2022	Annotation of Communicative Functions of Short Feedback Tokens in Switchboard. Carol Figueroa, Adaeze Adigwe, Magalie Ochs, Gabriel Skantze
2022	Annotation of Valence Unfolding in Spoken Personal Narratives. Aniruddha Tammewar, Franziska Braun, Gabriel Roccabruna, Sebastian P. Bayerl, Korbinian Riedhammer, Giuseppe Riccardi
2022	Annotation of metaphorical expressions in the Basic Corpus of Polish Metaphors. Elzbieta Hajnicz
2022	Annotation-Scheme Reconstruction for "Fake News" and Japanese Fake News Dataset. Taichi Murayama, Shohei Hisada, Makoto Uehara, Shoko Wakamiya, Eiji Aramaki
2022	Anonymising the SAGT Speech Corpus and Treebank. Özlem Çetinoglu, Antje Schweitzer
2022	Applying Automatic Text Summarization for Fake News Detection. Philipp Hartl, Udo Kruschwitz
2022	ArCovidVac: Analyzing Arabic Tweets About COVID-19 Vaccination. Hamdy Mubarak, Sabit Hassan, Shammur Absar Chowdhury, Firoj Alam
2022	ArMATH: a Dataset for Solving Arabic Math Word Problems. Reem Alghamdi, Zhenwen Liang, Xiangliang Zhang
2022	ArMIS - The Arabic Misogyny and Sexism Corpus with Annotator Subjective Disagreements. Dina Almanea, Massimo Poesio
2022	Are Embedding Spaces Interpretable? Results of an Intrusion Detection Evaluation on a Large French Corpus. Thibault Prouteau, Nicolas Dugué, Nathalie Camelin, Sylvain Meignier
2022	Argument Similarity Assessment in German for Intelligent Tutoring: Crowdsourced Dataset and First Experiments. Xiaoyu Bai, Manfred Stede
2022	AsNER - Annotated Dataset and Baseline for Assamese Named Entity recognition. Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah
2022	Aspect-Based Emotion Analysis and Multimodal Coreference: A Case Study of Customer Comments on Adidas Instagram Posts. Luna De Bruyne, Akbar Karimi, Orphée De Clercq, Andrea Prati, Véronique Hoste
2022	Assessing Multilinguality of Publicly Accessible Websites. Rinalds Viksna, Inguna Skadina, Raivis Skadins, Andrejs Vasiljevs, Roberts Rozis
2022	Assessing the Quality of an Italian Crowdsourced Idiom Corpus: the Dodiom Experiment. Giuseppina Morza, Raffaele Manna, Johanna Monti
2022	At the Intersection of NLP and Sustainable Development: Exploring the Impact of Demographic-Aware Text Representations in Modeling Value on a Corpus of Interviews. Goya van Boven, Stephanie Hirmer, Costanza Conforti
2022	Atril: an XML Visualization System for Corpus Texts. Andressa Rodrigues Gomide, Conceição Carapinha, Cornelia Plag
2022	Attention Understands Semantic Relations. Anastasia Chizhikova, Sanzhar Murzakhmetov, Oleg Serikov, Tatiana Shavrina, Mikhail Burtsev
2022	Attention-Focused Adversarial Training for Robust Temporal Reasoning. Lis Kanashiro Pereira
2022	Audiobook Dialogues as Training Data for Conversational Style Synthetic Voices. Liisi Piits, Hille Pajupuu, Heete Sahkai, Rene Altrov, Liis Ermus, Kairi Tamuri, Indrek Hein, Meelis Mihkla, Indrek Kiissel, Egert Männisalu, Kristjan Suluste, Jaan Pajupuu
2022	Automatic Classification of Russian Learner Errors. Alla Rozovskaya
2022	Automatic Construction of an Annotated Corpus with Implicit Aspects. Aye Aye Mar, Kiyoaki Shirai
2022	Automatic Correction of Syntactic Dependency Annotation Differences. Andrew Zupon, Andrew Carnie, Michael Hammond, Mihai Surdeanu
2022	Automatic Detection of Stigmatizing Uses of Psychiatric Terms on Twitter. Véronique Moriceau, Farah Benamara, Abdelmoumene Boumadane
2022	Automatic Gloss-level Data Augmentation for Sign Language Translation. Jin Yea Jang, Han-Mu Park, Saim Shin, Suna Shin, Byungcheon Yoon, Gahgene Gweon
2022	Automatic Normalisation of Early Modern French. Rachel Bawden, Jonathan Poinhos, Eleni Kogkitsidou, Philippe Gambette, Benoît Sagot, Simon Gabay
2022	Automatic Speech Recognition Datasets in Cantonese: A Survey and New Dataset. Tiezheng Yu, Rita Frieske, Peng Xu, Samuel Cahyawijaya, Cheuk Tung Shadow Yiu, Holy Lovenia, Wenliang Dai, Elham J. Barezi, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung
2022	Automating Horizon Scanning in Future Studies. Tatsuya Ishigaki, Suzuko Nishino, Sohei Washino, Hiroki Igarashi, Yukari Nagai, Yuichi Washida, Akihiko Murai
2022	Automating Idea Unit Segmentation and Alignment for Assessing Reading Comprehension via Summary Protocol Analysis. Marcello Gecchele, Hiroaki Yamada, Takenobu Tokunaga, Yasuyo Sawaki, Mika Ishizuka
2022	BAN-Cap: A Multi-Purpose English-Bangla Image Descriptions Dataset. Mohammad Faiyaz Khan, S. M. Sadiq-Ur-Rahman Shifath, Md Saiful Islam
2022	BD-SHS: A Benchmark Dataset for Learning to Detect Online Bangla Hate Speech in Different Social Contexts. Nauros Romim, Mosahed Ahmed, Md Saiful Islam, Arnab Sen Sharma, Hriteshwar Talukder, Mohammad Ruhul Amin
2022	BEA-Base: A Benchmark for ASR of Spontaneous Hungarian. Péter Mihajlik, András Balog, Tekla Etelka Gráczi, Anna Kohári, Balázs Tarján, Katalin Mády
2022	BERTHA: Video Captioning Evaluation Via Transfer-Learned Human Assessment. Luis Lebron, Yvette Graham, Kevin McGuinness, Konstantinos Kouramas, Noel E. O'Connor
2022	BERTifying Sinhala - A Comprehensive Analysis of Pre-trained Language Models for Sinhala Text Classification. Vinura Dhananjaya, Piyumal Demotte, Surangika Ranathunga, Sanath Jayasena
2022	BERTology for Machine Translation: What BERT Knows about Linguistic Difficulties for Translation. Yuqian Dai, Marc de Kamps, Serge Sharoff
2022	BERTrade: Using Contextual Embeddings to Parse Old French. Loïc Grobol, Mathilde Regnault, Pedro Javier Ortiz Suárez, Benoît Sagot, Laurent Romary, Benoît Crabbé
2022	BILinMID: A Spanish-English Corpus of the US Midwest. Irati Hurtado
2022	BRATECA (Brazilian Tertiary Care Dataset): a Clinical Information Dataset for the Portuguese Language. Bernardo Scapini Consoli, Henrique D. P. dos Santos, Ana Helena D. P. S. Ulbrich, Renata Vieira, Rafael H. Bordini
2022	BU-NEmo: an Affective Dataset of Gun Violence News. Carley Reardon, Sejin Paik, Ge Gao, Meet Parekh, Yanling Zhao, Lei Guo, Margrit Betke, Derry Tanti Wijaya
2022	BaSCo: An Annotated Basque-Spanish Code-Switching Corpus for Natural Language Understanding. Maia Aguirre, Laura García-Sardiña, Manex Serras, Ariane Méndez, Jacobo López
2022	Barch: an English Dataset of Bar Chart Summaries. Iza Skrjanec, Muhammad Salman Edhi, Vera Demberg
2022	BasqueGLUE: A Natural Language Understanding Benchmark for Basque. Gorka Urbizu, Iñaki San Vicente, Xabier Saralegi, Rodrigo Agerri, Aitor Soroa
2022	BasqueParl: A Bilingual Corpus of Basque Parliamentary Transcriptions. Nayla Escribano, Jon Ander González, Julen Orbegozo-Terradillos, Ainara Larrondo-Ureta, Simón Peña-Fernández, Olatz Perez-de-Viñaspre, Rodrigo Agerri
2022	Bazinga! A Dataset for Multi-Party Dialogues Structuring. Paul Lerner, Juliette Bergoënd, Camille Guinaudeau, Hervé Bredin, Benjamin Maurice, Sharleyne Lefevre, Martin Bouteiller, Aman Berhe, Léo Galmant, Ruiqing Yin, Claude Barras
2022	BeSt: The Belief and Sentiment Corpus. Jennifer Tracey, Owen Rambow, Claire Cardie, Adam Dalton, Hoa Trang Dang, Mona T. Diab, Bonnie J. Dorr, Louise Guthrie, Magdalena Markowska, Smaranda Muresan, Vinodkumar Prabhakaran, Samira Shaikh, Tomek Strzalkowski
2022	BehanceCC: A ChitChat Detection Dataset For Livestreaming Video Transcripts. Viet Dac Lai, Amir Pouran Ben Veyseh, Franck Dernoncourt, Thien Huu Nguyen
2022	BehanceQA: A New Dataset for Identifying Question-Answer Pairs in Video Transcripts. Amir Pouran Ben Veyseh, Viet Dac Lai, Franck Dernoncourt, Thien Huu Nguyen
2022	BembaSpeech: A Speech Recognition Corpus for the Bemba Language. Claytone Sikasote, Antonios Anastasopoulos
2022	Bicleaner AI: Bicleaner Goes Neural. Jaume Zaragoza-Bernabeu, Gema Ramírez-Sánchez, Marta Bañón, Sergio Ortiz-Rojas
2022	Bidirectional Skeleton-Based Isolated Sign Recognition using Graph Convolutional Networks. Konstantinos M. Dafnis, Evgenia Chroni, Carol Neidle, Dimitris N. Metaxas
2022	Bootstrapping Text Anonymization Models with Distant Supervision. Anthi Papadopoulou, Pierre Lison, Lilja Øvrelid, Ildikó Pilán
2022	Borrowing or Codeswitching? Annotating for Finer-Grained Distinctions in Language Mixing. Elena Álvarez Mellado, Constantine Lignos
2022	Budget Argument Mining Dataset Using Japanese Minutes from the National Diet and Local Assemblies. Yasutomo Kimura, Hokuto Ototake, Minoru Sasaki
2022	Building Comparable Corpora for Assessing Multi-Word Term Alignment. Omar Adjali, Emmanuel Morin, Pierre Zweigenbaum
2022	Building Dataset for Grounding of Formulae - Annotating Coreference Relations Among Math Identifiers. Takuto Asakura, Yusuke Miyao, Akiko Aizawa
2022	Building Large-Scale Japanese Pronunciation-Annotated Corpora for Reading Heteronymous Logograms. Fumikazu Sato, Naoki Yoshinaga, Masaru Kitsuregawa
2022	Building Sentiment Lexicons for Mainland Scandinavian Languages Using Machine Translation and Sentence Embeddings. Peng Liu, Cristina Marco, Jon Atle Gulla
2022	Building Static Embeddings from Contextual Ones: Is It Useful for Building Distributional Thesauri? Olivier Ferret
2022	Building a Dataset for Automatically Learning to Detect Questions Requiring Clarification. Ivano Lauriola, Kevin Small, Alessandro Moschitti
2022	Building a Multilingual Taxonomy of Olfactory Terms with Timestamps. Stefano Menini, Teresa Paccosi, Serra Sinem Tekiroglu, Sara Tonelli
2022	Building a Synthetic Biomedical Research Article Citation Linkage Corpus. Sudipta Singha Roy, Robert E. Mercer
2022	Building an Endangered Language Resource in the Classroom: Universal Dependencies for Kakataibo. Roberto Zariquiey, Claudia Alvarado, Ximena Echevarría, Luisa Gomez, Rosa Gonzales, Mariana Illescas, Sabina Oporto, Frederic Blum, Arturo Oncevay, Javier Vera
2022	Building and curating conversational corpora for diversity-aware language science and technology. Andreas Liesenfeld, Mark Dingemanse
2022	CAMIO: A Corpus for OCR in Multiple Languages. Michael Arrigo, Stephanie M. Strassel, Nolan King, Thao Tran, Lisa P. Mason
2022	CAMS: An Annotated Corpus for Causal Analysis of Mental Health Issues in Social Media Posts. Muskan Garg, Chandni Saxena, Sriparna Saha, Veena Krishnan, Ruchi Joshi, Vijay Mago
2022	CATAMARAN: A Cross-lingual Long Text Abstractive Summarization Dataset. Zheng Chen, Hongyu Lin
2022	CATs are Fuzzy PETs: A Corpus and Analysis of Potentially Euphemistic Terms. Martha Gavidia, Patrick Lee, Anna Feldman, Jing Peng
2022	CCTAA: A Reproducible Corpus for Chinese Authorship Attribution Research. Haining Wang, Allen Riddell
2022	CEPOC: The Cambridge Exams Publishing Open Cloze dataset. Mariano Felice, Shiva Taslimipoor, Øistein E. Andersen, Paula Buttery
2022	CI-AVSR: A Cantonese Audio-Visual Speech Datasetfor In-car Command Recognition. Wenliang Dai, Samuel Cahyawijaya, Tiezheng Yu, Elham J. Barezi, Peng Xu, Cheuk Tung Yiu, Rita Frieske, Holy Lovenia, Genta Indra Winata, Qifeng Chen, Xiaojuan Ma, Bertram E. Shi, Pascale Fung
2022	CLGC: A Corpus for Chinese Literary Grace Evaluation. Yi Li, Dong Yu, Pengyuan Liu
2022	CLISTER : A Corpus for Semantic Textual Similarity in French Clinical Narratives. Nicolas Hiebel, Olivier Ferret, Karën Fort, Aurélie Névéol
2022	CLeLfPC: a Large Open Multi-Speaker Corpus of French Cued Speech. Brigitte Bigi, Maryvonne Zimmermann, Carine André
2022	COPA-SSE: Semi-structured Explanations for Commonsense Reasoning. Ana Brassard, Benjamin Heinzerling, Pride Kavumba, Kentaro Inui
2022	COSMOS: Experimental and Comparative Studies of Concept Representations in Schoolchildren. Jeanne Villaneau, Farida Saïd
2022	COVID-19 Mythbusters in World Languages. Mana Ashida, Jin-Dong Kim, Seunghun Lee
2022	CRASS: A Novel Data Set and Benchmark to Test Counterfactual Reasoning of Large Language Models. Jörg Frohberg, Frank Binder
2022	CTAP for Chinese: A Linguistic Complexity Feature Automatic Calculation Platform. Yue Cui, Junhui Zhu, Liner Yang, Xuezhi Fang, Xiaobin Chen, Yujie Wang, Erhong Yang
2022	CVSS Corpus and Massively Multilingual Speech-to-Speech Translation. Ye Jia, Michelle Tadmor Ramanovich, Quan Wang, Heiga Zen
2022	CWID-hi: A Dataset for Complex Word Identification in Hindi Text. Gayatri Venugopal, Dhanya Pramod, Ravi Shekhar
2022	Camel Treebank: An Open Multi-genre Arabic Dependency Treebank. Nizar Habash, Muhammed AbuOdeh, Dima Taji, Reem Faraj, Jamila El Gizuli, Omar Kallas
2022	Causal Investigation of Public Opinion during the COVID-19 Pandemic via Social Media Text. Michael Jantscher, Roman Kern
2022	Challenges with Sign Language Datasets for Sign Language Recognition and Translation. Mirella De Sisto, Vincent Vandeghinste, Santiago Egea Gómez, Mathieu De Coster, Dimitar Shterionov, Horacio Saggion
2022	Challenging the Assumption of Structure-based embeddings in Few- and Zero-shot Knowledge Graph Completion. Filip Cornell, Chenda Zhang, Jussi Karlgren, Sarunas Girdzijauskas
2022	Challenging the Transformer-based models with a Classical Arabic dataset: Quran and Hadith. Shatha Altammami, Eric Atwell
2022	ChiMST: A Chinese Medical Corpus for Word Segmentation and Medical Term Recognition. Yuanhe Tian, Han Qin, Fei Xia, Yan Song
2022	ChiSense-12: An English Sense-Annotated Child-Directed Speech Corpus. Francesco Cabiddu, Lewis Bott, Gary Jones, Chiara Gambi
2022	Claim Extraction and Law Matching for COVID-19-related Legislation. Niklas Dehio, Malte Ostendorff, Georg Rehm
2022	Clarifying Implicit and Underspecified Phrases in Instructional Text. Talita Anthonio, Anna Sauer, Michael Roth
2022	Classifying Implant-Bearing Patients via their Medical Histories: a Pre-Study on Swedish EMRs with Semi-Supervised GanBERT. Benjamin Danielsson, Marina Santini, Peter Lundberg, Yosef Al-Abasse, Arne Jönsson, Emma Eneling, Magnus Stridsman
2022	ClinIDMap: Towards a Clinical IDs Mapping for Data Interoperability. Elena Zotova, Montse Cuadros, German Rigau
2022	CoFiF Plus: A French Financial Narrative Summarisation Corpus. Nadhem Zmandar, Tobias Daudert, Sina Ahmadi, Mahmoud El-Haj, Paul Rayson
2022	CoQAR: Question Rewriting on CoQA. Quentin Brabant, Gwénolé Lecorvé, Lina Maria Rojas-Barahona
2022	CoRoSeOf - An Annotated Corpus of Romanian Sexist and Offensive Tweets. Diana Constantina Hoefels, Çagri Çöltekin, Irina Diana Madroane
2022	CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets. Isabelle Mohr, Amelie Wührl, Roman Klinger
2022	Collecting Visually-Grounded Dialogue with A Game Of Sorts. Bram Willemsen, Dmytro Kalpakchi, Gabriel Skantze
2022	Collection and Analysis of Travel Agency Task Dialogues with Age-Diverse Speakers. Michimasa Inaba, Yuya Chiba, Ryuichiro Higashinaka, Kazunori Komatani, Yusuke Miyao, Takayuki Nagai
2022	Combination of Contextualized and Non-Contextualized Layers for Lexical Substitution in French. Kévin Espasa, Emmanuel Morin, Olivier Hamon
2022	Combining ELECTRA and Adaptive Graph Encoding for Frame Identification. Fabio Tamburini
2022	Common Phone: A Multilingual Dataset for Robust Acoustic Modelling. Philipp Klumpp, Tomás Arias-Vergara, Paula Andrea Pérez-Toro, Elmar Nöth, Juan Rafael Orozco-Arroyave
2022	Comparing Annotated Datasets for Named Entity Recognition in English Literature. Rositsa V. Ivanova, Marieke van Erp, Sabrina Kirrane
2022	Comparing Approaches to Language Understanding for Human-Robot Dialogue: An Error Taxonomy and Analysis. Ada Tur, David R. Traum
2022	Compiling a Suitable Level of Sense Granularity in a Lexicon for AI Purposes: The Open Source COR Lexicon. Bolette S. Pedersen, Nathalie Carmen Hau Sørensen, Sanni Nimb, Ida Flørke, Sussi Olsen, Thomas Troelsgård
2022	Complementary Learning of Aspect Terms for Aspect-based Sentiment Analysis. Han Qin, Yuanhe Tian, Fei Xia, Yan Song
2022	Complex Labelling and Similarity Prediction in Legal Texts: Automatic Analysis of France's Court of Cassation Rulings. Thibault Charmet, Inès Cherichi, Matthieu Allain, Urszula Czerwinska, Amaury Fouret, Benoît Sagot, Rachel Bawden
2022	Connecting a French Dictionary from the Beginning of the 20th Century to Wikidata. Pierre Nugues
2022	Constrained Language Models for Interactive Poem Generation. Andrei Popescu-Belis, Àlex R. Atrio, Valentin Minder, Aris Xanthos, Gabriel Luthier, Simon Mattei, Antonio Rodriguez
2022	Constructing A Dataset of Support and Attack Relations in Legal Arguments in Court Judgements using Linguistic Rules. Basit Ali, Sachin Pawar, Girish K. Palshikar, Rituraj Singh
2022	Constructing Distributions of Variation in Referring Expression Type from Corpora for Model Evaluation. T. Mark Ellison, Fahime Same
2022	Constructing Parallel Corpora from COVID-19 News using MediSys Metadata. Dimitrios Roussis, Vassilis Papavassiliou, Sokratis Sofianopoulos, Prokopis Prokopidis, Stelios Piperidis
2022	Constructing a Culinary Interview Dialogue Corpus with Video Conferencing Tool. Taro Okahisa, Ribeka Tanaka, Takashi Kodama, Yin Jou Huang, Sadao Kurohashi
2022	Constructing a Lexical Resource of Russian Derivational Morphology. Lukás Kyjánek, Olga Lyashevskaya, Anna Nedoluzhko, Daniil Vodolazsky, Zdenek Zabokrtský
2022	Construction of Responsive Utterance Corpus for Attentive Listening Response Production. Koichiro Ito, Masaki Murata, Tomohiro Ohno, Shigeki Matsubara
2022	Construction of a Quality Estimation Dataset for Automatic Evaluation of Japanese Grammatical Error Correction. Daisuke Suzuki, Yujin Takahashi, Ikumi Yamashita, Taichi Aida, Tosho Hirasawa, Michitaka Nakatsuji, Masato Mita, Mamoru Komachi
2022	Context-based Virtual Adversarial Training for Text Classification with Noisy Labels. Do-Myoung Lee, Yeachan Kim, Chang-gyun Seo
2022	ConvTextTM: An Explainable Convolutional Tsetlin Machine Framework for Text Classification. Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao
2022	Conversational Analysis of Daily Dialog Data using Polite Emotional Dialogue Acts. Chandrakant Bothe, Stefan Wermter
2022	Conversational Speech Recognition Needs Data? Experiments with Austrian German. Julian Linke, Philip N. Garner, Gernot Kubin, Barbara Schuppler
2022	CorefUD 1.0: Coreference Meets Universal Dependencies. Anna Nedoluzhko, Michal Novák, Martin Popel, Zdenek Zabokrtský, Amir Zeldes, Daniel Zeman
2022	Corpus Design for Studying Linguistic Nudges in Human-Computer Spoken Interactions. Natalia Kalashnikova, Serge Pajak, Fabrice Le Guel, Ioana Vasilescu, Gemma Serrano, Laurence Devillers
2022	Corpus for Automatic Structuring of Legal Documents. Prathamesh Kalamkar, Aman Tiwari, Astha Agarwal, Saurabh Karn, Smita Gupta, Vivek Raghavan, Ashutosh Modi
2022	Creating a Basic Language Resource Kit for Faroese. Annika Simonsen, Sandra Saxov Lamhauge, Iben Nyholm Debess, Peter Juel Henrichsen
2022	Creating a Data Set of Abstractive Summaries of Turn-labeled Spoken Human-Computer Conversations. Iris Hendrickx
2022	Criteria for Useful Automatic Romanization in South Asian Languages. Isin Demirsahin, Cibu Johny, Alexander Gutkin, Brian Roark
2022	Criteria for the Annotation of Implicit Stereotypes. Wolfgang Schmeisser-Nieto, Montserrat Nofre, Mariona Taulé
2022	Cross-Level Semantic Similarity for Serbian Newswire Texts. Vuk Batanovic, Maja Milicevic Petrovic
2022	Cross-Lingual Knowledge Transfer for Clinical Phenotyping. Jens-Michalis Papaioannou, Paul Grundmann, Betty van Aken, Athanasios Samaras, Ilias Kyparissidis, George Giannakoulas, Felix A. Gers, Alexander Löser
2022	Cross-Lingual Link Discovery for Under-Resourced Languages. Michael Rosner, Sina Ahmadi, Elena Simona Apostol, Julia Bosque-Gil, Christian Chiarcos, Milan Dojchinovski, Katerina Gkirtzou, Jorge Gracia, Dagmar Gromann, Chaya Liebeskind, Giedre Valunaite Oleskeviciene, Gilles Sérasset, Ciprian-Octavian Truica
2022	Cross-lingual Approaches for the Detection of Adverse Drug Reactions in German from a Patient's Perspective. Lisa Raithel, Philippe Thomas, Roland Roller, Oliver Sapina, Sebastian Möller, Pierre Zweigenbaum
2022	Cross-lingual Emotion Detection. Sabit Hassan, Shaden Shaar, Kareem Darwish
2022	Cross-lingual Linking of Automatically Constructed Frames and FrameNet. Ryohei Sasano
2022	Cross-lingual Transfer of Monolingual Models. Evangelia Gogoulou, Ariel Ekgren, Tim Isbister, Magnus Sahlgren
2022	Cross-lingual and Cross-domain Transfer Learning for Automatic Term Extraction from Low Resource Data. Amir Hazem, Mérième Bouhandi, Florian Boudin, Béatrice Daille
2022	Cross-lingual and Multilingual CLIP. Fredrik Carlsson, Philipp Eisen, Faton Rekathati, Magnus Sahlgren
2022	Crowdsourcing Kazakh-Russian Sign Language: FluentSigners-50. Medet Mukushev, Aigerim Kydyrbekova, Alfarabi Imashev, Vadim Kimmelman, Anara Sandygulova
2022	CrudeOilNews: An Annotated Crude Oil News Corpus for Event Extraction. Meisin Lee, Lay-Ki Soon, Eu-Gene Siew, Ly Fie Sugianto
2022	Curras + Baladi: Towards a Levantine Corpus. Karim El Haff, Mustafa Jarrar, Tymaa Hammouda, Fadi A. Zaraket
2022	CxLM: A Construction and Context-aware Language Model. Yu-Hsiang Tseng, Cing-Fang Shih, Pin-Er Chen, Hsin-Yu Chou, Mao-Chang Ku, Shu-Kai Hsieh
2022	CyberAgressionAdo-v1: a Dataset of Annotated Online Aggressions in French Collected through a Role-playing Game. Anaïs Ollagnier, Elena Cabrio, Serena Villata, Catherine Blaya
2022	Cyberbullying Classifiers are Sensitive to Model-Agnostic Perturbations. Chris Emmery, Ákos Kádár, Grzegorz Chrupala, Walter Daelemans
2022	Cyrillic-MNIST: a Cyrillic Version of the MNIST Dataset. Bolat Tleubayev, Zhanel Zhexenova, Kenessary Koishybay, Anara Sandygulova
2022	Czech Dataset for Cross-lingual Subjectivity Classification. Pavel Pribán, Josef Steinberger
2022	D3: A Massive Dataset of Scholarly Metadata for Analyzing the State of Computer Science Research. Jan Philip Wahle, Terry Ruas, Saif M. Mohammad, Bela Gipp
2022	DDisCo: A Discourse Coherence Dataset for Danish. Linea Flansmose Mikkelsen, Oliver Kinch, Anders Jess Pedersen, Ophélie Lacroix
2022	Data Augmentation with Paraphrase Generation and Entity Extraction for Multimodal Dialogue System. Eda Okur, Saurav Sahay, Lama Nachman
2022	Data Collection for Empirically Determining the Necessary Information for Smooth Handover in Dialogue. Sanae Yamashita, Ryuichiro Higashinaka
2022	Data Expansion Using WordNet-based Semantic Expansion and Word Disambiguation for Cyberbullying Detection. Md Saroar Jahan, Djamila Romaissa Beddiar, Mourad Oussalah, Muhidin Mohamed
2022	Dataset Construction for Scientific-Document Writing Support by Extracting Related Work Section and Citations from PDF Papers. Keita Kobayashi, Kohei Koyama, Hiromi Narimatsu, Yasuhiro Minami
2022	Dataset and Baseline for Automatic Student Feedback Analysis. Missaka Herath, Kushan Chamindu, Hashan Maduwantha, Surangika Ranathunga
2022	Dataset of Student Solutions to Algorithm and Data Structure Programming Assignments. Fynn Petersen-Frey, Marcus Soll, Louis Kobras, Melf Johannsen, Peter Kling, Chris Biemann
2022	Decorate the Examples: A Simple Method of Prompt Design for Biomedical Relation Extraction. Hui-Syuan Yeh, Thomas Lavergne, Pierre Zweigenbaum
2022	Deep One-Class Hate Speech Detection Model. Saugata Bose, Guoxin Su
2022	Deep learning-based end-to-end spoken language identification system for domain-mismatched scenario. Woo Hyun Kang, Jahangir Alam, Abderrahim Fathan
2022	DeepREF: A Framework for Optimized Deep Learning-based Relation Classification. Igor Nascimento, Rinaldo Lima, Adrian-Gabriel Chifu, Bernard Espinasse, Sébastien Fournier
2022	Design Choices in Crowdsourcing Discourse Relation Annotations: The Effect of Worker Selection and Training. Merel C. J. Scholman, Valentina Pyatkin, Frances Yung, Ido Dagan, Reut Tsarfaty, Vera Demberg
2022	Design and Evaluation of the Corpus of Everyday Japanese Conversation. Hanae Koiso, Haruka Amatani, Yasuharu Den, Yuriko Iseki, Yuichi Ishimoto, Wakako Kashino, Yoshiko Kawabata, Ken'ya Nishikawa, Yayoi Tanaka, Yasuyuki Usuda, Yuka Watanabe
2022	Detecting Multiple Transitions in Literary Texts. Nuette Heyns, Menno van Zaanen
2022	Detecting Optimism in Tweets using Knowledge Distillation and Linguistic Analysis of Optimism. Stefan Cobeli, Ioan-Bogdan Iordache, Shweta Yadav, Cornelia Caragea, Liviu P. Dinu, Dragos Iliescu
2022	Developing A Multilabel Corpus for the Quality Assessment of Online Political Talk. Kokil Jaidka
2022	Developing Language Resources and NLP Tools for the North Korean Language. Arda Akdemir, Yeojoo Jeon, Tetsuo Shibuya
2022	Developing a Dataset of Overridden Information in Wikipedia. Masatoshi Tsuchiya, Yasutaka Yokoi
2022	Developing a Spell and Grammar Checker for Icelandic using an Error Corpus. Hulda Óladóttir, Thórunn Arnardóttir, Anton Karl Ingason, Vilhjalmur Thorsteinsson
2022	Development of Automatic Speech Recognition for the Documentation of Cook Islands Māori. Rolando Coto-Solano, Sally Akevai Nicholas, Samiha Datta, Victoria Quint, Piripi Wills, Emma Ngakuravaru Powell, Liam Koka'ua, Syed Tanveer, Isaac Feldman
2022	Development of a Benchmark Corpus to Support Entity Recognition in Job Descriptions. Thomas Green, Diana Maynard, Chenghua Lin
2022	Development of a Multilingual CCG Treebank via Universal Dependencies Conversion. Tu-Anh Tran, Yusuke Miyao
2022	DiHuTra: a Parallel Corpus to Analyse Differences between Human Translations. Ekaterina Lapshinova-Koltunski, Maja Popovic, Maarit Koponen
2022	DiaBiz - an Annotated Corpus of Polish Call Center Dialogs. Piotr Pezik, Gosia Krawentek, Sylwia Karasinska, Pawel Wilk, Paulina Rybinska, Anna Cichosz, Angelika Peljak-Lapinska, Mikolaj Deckert, Michal Adamczyk
2022	DiaWUG: A Dataset for Diatopic Lexical Semantic Variation in Spanish. Gioia Baldissin, Dominik Schlechtweg, Sabine Schulte im Walde
2022	DialCrowd 2.0: A Quality-Focused Dialog System Crowdsourcing Toolkit. Jessica Huynh, Ting-Rui Chiang, Jeffrey P. Bigham, Maxine Eskénazi
2022	Dialogue Collection for Recording the Process of Building Common Ground in a Collaborative Task. Koh Mitsuda, Ryuichiro Higashinaka, Yuhei Oga, Sen Yoshida
2022	Dialogue Corpus Construction Considering Modality and Social Relationships in Building Common Ground. Yuki Furuya, Koki Saito, Kosuke Ogura, Koh Mitsuda, Ryuichiro Higashinaka, Kazunori Takashio
2022	Did that happen? Predicting Social Media Posts that are Indicative of what happened in a scene: A case study of a TV show. Anietie Andy, Reno Kriz, Sharath Chandra Guntuku, Derry Tanti Wijaya, Chris Callison-Burch
2022	Dilated Convolutional Neural Networks for Lightweight Diacritics Restoration. Bálint Csanády, András Lukács
2022	DirectQuote: A Dataset for Direct Quotation Extraction and Attribution in News Articles. Yuanchi Zhang, Yang Liu
2022	DiscoGeM: A Crowdsourced Corpus of Genre-Mixed Implicit Discourse Relations. Merel C. J. Scholman, Tianai Dong, Frances Yung, Vera Demberg
2022	Distant Reading in Digital Humanities: Case Study on the Serbian Part of the ELTeC Collection. Ranka Stankovic, Cvetana Krstev, Branislava Sandrih Todorovic, Dusko Vitas, Mihailo Skoric, Milica Ikonic Nesic
2022	Distilling the Knowledge of Romanian BERTs Using Multiple Teachers. Andrei-Marius Avram, Darius Catrina, Dumitru-Clementin Cercel, Mihai Dascalu, Traian Rebedea, Vasile Florian Pais, Dan Tufis
2022	Do Transformer Networks Improve the Discovery of Rules from Text? Mahdi Rahimi, Mihai Surdeanu
2022	Do we Name the Languages we Study? The #BenderRule in LREC and ACL articles. Fanny Ducel, Karën Fort, Gaël Lejeune, Yves Lepage
2022	Domain Adaptation in Neural Machine Translation using a Qualia-Enriched FrameNet. Alexandre Diniz da Costa, Mateus Coutinho Marim, Ely Edison Matos, Tiago Timponi Torrent
2022	Domain Mismatch Doesn't Always Prevent Cross-lingual Transfer Learning. Daniel Edmiston, Phillip Keung, Noah A. Smith
2022	Downstream Task Performance of BERT Models Pre-Trained Using Automatically De-Identified Clinical Data. Thomas Vakili, Anastasios Lamproudis, Aron Henriksson, Hercules Dalianis
2022	DrugEHRQA: A Question Answering Dataset on Structured and Unstructured Electronic Health Records For Medicine Related Queries. Jayetri Bardhan, Anthony M. Colas, Kirk Roberts, Daisy Zhe Wang
2022	Dynamic Human Evaluation for Relative Model Comparisons. Thórhildur Thorleiksdóttir, Cédric Renggli, Nora Hollenstein, Ce Zhang
2022	E-ConvRec: A Large-Scale Conversational Recommendation Dataset for E-Commerce Customer Service. Meihuizi Jia, Ruixue Liu, Peiying Wang, Yang Song, Zexi Xi, Haobin Li, Xin Shen, Meng Chen, Jinhui Pang, Xiaodong He
2022	EENLP: Cross-lingual Eastern European NLP Index. Alexey Tikhonov, Alex Malkhasov, Andrey Manoshin, George-Andrei Dima, Réka Cserháti, Md. Sadek Hossain Asif, Matt Sárdi
2022	ELAL: An Emotion Lexicon for the Analysis of Alsatian Theatre Plays. Delphine Bernhard, Pablo Ruiz Fabo
2022	ELF22: A Context-based Counter Trolling Dataset to Combat Internet Trolls. Huije Lee, Young Ju Na, Hoyun Song, Jisu Shin, Jong C. Park
2022	ELITR Minuting Corpus: A Novel Dataset for Automatic Minuting from Multi-Party Meetings in English and Czech. Anna Nedoluzhko, Muskaan Singh, Marie Hledíková, Tirthankar Ghosal, Ondrej Bojar
2022	ELRC Action: Covering Confidentiality, Correctness and Cross-linguality. Tom Vanallemeersch, Arne Defauw, Sara Szoc, Alina Kramchaninova, Joachim Van den Bogaert, Andrea Lösch
2022	ELTE Poetry Corpus: A Machine Annotated Database of Canonical Hungarian Poetry. Péter Horváth, Péter Kundráth, Balázs Indig, Zsófia Fellegi, Eszter Szlávich, Tímea Borbála Bajzát, Zsófia Sárközi-Lindner, Bence Vida, Aslihan Karabulut, Mária Timári, Gábor Palkó
2022	EPIC UdS - Creation and Applications of a Simultaneous Interpreting Corpus. Heike Przybyl, Ekaterina Lapshinova-Koltunski, Katrin Menzel, Stefan Fischer, Elke Teich
2022	EXPRES Corpus for A Field-specific Automated Exploratory Study of L2 English Expert Scientific Writing. Ana-Maria Bucur, Madalina Chitez, Valentina Muresan, Andreea Dinca, Roxana Rogobete
2022	EZCAT: an Easy Conversation Annotation Tool. Gaël Guibon, Luce Lefeuvre, Matthieu Labeau, Chloé Clavel
2022	Effectiveness of Data Augmentation and Pretraining for Improving Neural Headline Generation in Low-Resource Settings. Matej Martinc, Syrielle Montariol, Lidia Pivovarova, Elaine Zosa
2022	Effectiveness of French Language Models on Abstractive Dialogue Summarization Task. Yongxin Zhou, François Portet, Fabien Ringeval
2022	Efficient Entity Candidate Generation for Low-Resource Languages. Alberto García-Durán, Akhil Arora, Robert West
2022	Efficiently and Thoroughly Anonymizing a Transformer Language Model for Dutch Electronic Health Records: a Two-Step Method. Stella Verkijk, Piek Vossen
2022	Elderly Conversational Speech Corpus with Cognitive Impairment Test and Pilot Dementia Detection Experiment Using Acoustic Characteristics of Speech in Japanese Dialects. Meiko Fukuda, Ryota Nishimura, Maina Umezawa, Kazumasa Yamamoto, Yurie Iribe, Norihide Kitaoka
2022	Elvis vs. M. Jackson: Who has More Albums? Classification and Identification of Elements in Comparative Questions. Meriem Beloucif, Seid Muhie Yimam, Steffen Stahlhacke, Chris Biemann
2022	Embeddings models for Buddhist Sanskrit. Ligeia Lugli, Matej Martinc, Andraz Pelicon, Senja Pollak
2022	EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in Hindi for Emotion Recognition in Dialogues. Gopendra Vikram Singh, Priyanshu Priya, Mauajama Firdaus, Asif Ekbal, Pushpak Bhattacharyya
2022	EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion Recognition in Task-Oriented Dialogue Systems. Shutong Feng, Nurul Lubis, Christian Geishauser, Hsien-Chin Lin, Michael Heck, Carel van Niekerk, Milica Gasic
2022	Emotion analysis and detection during COVID-19. Tiberiu Sosea, Chau Pham, Alexander Tekle, Cornelia Caragea, Junyi Jessy Li
2022	Empirical Analysis of Noising Scheme based Synthetic Data Generation for Automatic Post-editing. Hyeonseok Moon, Chanjun Park, Seolhwa Lee, Jaehyung Seo, Jungseob Lee, Sugyeong Eo, Heuiseok Lim
2022	English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics. Kyle Goslin, Markus Hofmann
2022	Enhanced Distant Supervision with State-Change Information for Relation Extraction. Jui Shah, Dongxu Zhang, Sam Brody, Andrew McCallum
2022	Enhanced Entity Annotations for Multilingual Corpora. Michael Strobl, Amine Trabelsi, Osmar Zaïane
2022	Enhancing Deep Learning with Embedded Features for Arabic Named Entity Recognition. Ali L. Hatab, Caroline Sabty, Slim Abdennadher
2022	Enhancing Relation Extraction via Adversarial Multi-task Learning. Han Qin, Yuanhe Tian, Yan Song
2022	Enriching Epidemiological Thematic Features For Disease Surveillance Corpora Classification. Edmond Odhiambo Menya, Mathieu Roche, Roberto Interdonato, Dickson Owuor
2022	Enriching Grammatical Error Correction Resources for Modern Greek. Katerina Korre, John Pavlopoulos
2022	Enriching Linguistic Representation in the Cantonese Wordnet and Building the New Cantonese Wordnet Corpus. Joanna Ut-Seong Sio, Luís Morgado da Costa
2022	EnsyNet: A Dataset for Encouragement and Sympathy Detection. Tiberiu Sosea, Cornelia Caragea
2022	Entity Linking over Nested Named Entities for Russian. Natalia V. Loukachevitch, Pavel Braslavski, Vladimir Ivanov, Tatiana Batura, Suresh Manandhar, Artem Shelmanov, Elena Tutubalina
2022	Estimating Confidence of Predictions of Individual Classifiers and TheirEnsembles for the Genre Classification Task. Mikhail Lepekhin, Serge Sharoff
2022	Ethical Issues in Language Resources and Language Technology - Tentative Categorisation. Pawel Kamocki, Andreas Witt
2022	Evaluating Gender Bias in Speech Translation. Marta R. Costa-jussà, Christine Basta, Gerard I. Gállego
2022	Evaluating Methods for Extraction of Aspect Terms in Opinion Texts in Portuguese - the Challenges of Implicit Aspects. Mateus Tarcinalli Machado, Thiago Alexandre Salgueiro Pardo
2022	Evaluating Multilingual Sentence Representation Models in a Real Case Scenario. Rocco Tripodi, Rexhina Blloshmi, Simon Levis Sullam
2022	Evaluating Pre-training Objectives for Low-Resource Translation into Morphologically Rich Languages. Prajit Dhar, Arianna Bisazza, Gertjan van Noord
2022	Evaluating Pretraining Strategies for Clinical BERT Models. Anastasios Lamproudis, Aron Henriksson, Hercules Dalianis
2022	Evaluating Retrieval for Multi-domain Scientific Publications. Nancy Ide, Keith Suderman, Jingxuan Tu, Marc Verhagen, Shanan Peters, Ian Ross, John Lawson, Andrew Borg, James Pustejovsky
2022	Evaluating Sampling-based Filler Insertion with Spontaneous TTS. Siyang Wang, Joakim Gustafson, Éva Székely
2022	Evaluating Subtitle Segmentation for End-to-end Generation Systems. Alina Karakanta, François Buet, Mauro Cettolo, François Yvon
2022	Evaluating Tokenizers Impact on OOVs Representation with Transformers Models. Alexandra Benamar, Cyril Grouin, Meryl Bothua, Anne Vilnat
2022	Evaluating Transformer Language Models on Arithmetic Operations Using Number Decomposition. Matteo Muffo, Aldo Cocco, Enrico Bertino
2022	Evaluating the Effects of Embedding with Speaker Identity Information in Dialogue Summarization. Yuji Naraki, Tetsuya Sakai, Yoshihiko Hayashi
2022	Evaluation Benchmarks for Spanish Sentence Representations. Vladimir Araujo, Andrés Carvallo, Souvik Kundu, José Cañete, Marcelo Mendoza, Robert E. Mercer, Felipe Bravo-Marquez, Marie-Francine Moens, Alvaro Soto
2022	Evaluation of HTR models without Ground Truth Material. Phillip Benjamin Ströbel, Martin Volk, Simon Clematide, Raphael Schwitter, Tobias Hodel, David Schoch
2022	Evaluation of Off-the-shelf Speech Recognizers on Different Accents in a Dialogue Domain. Divya Tadimeti, Kallirroi Georgila, David R. Traum
2022	Evaluation of Transfer Learning and Domain Adaptation for Analyzing German-Speaking Job Advertisements. Ann-Sophie Gnehm, Eva Bühlmann, Simon Clematide
2022	Evaluation of Transfer Learning for Polish with a Text-to-Text Model. Aleksandra Chrabrowa, Lukasz Dragan, Karol Grzegorczyk, Dariusz Kajtoch, Mikolaj Koszowski, Robert Mroczkowski, Piotr Rybak
2022	Every time I fire a conversational designer, the performance of the dialogue system goes down. Giancarlo A. Xompero, Michele Mastromattei, Samir Salman, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto
2022	Evolving Large Text Corpora: Four Versions of the Icelandic Gigaword Corpus. Starkaður Barkarson, Steinthór Steingrímsson, Hildur Hafsteinsdóttir
2022	Explainable Tsetlin Machine Framework for Fake News Detection with Credibility Score Assessment. Bimal Bhattarai, Ole-Christoffer Granmo, Lei Jiao
2022	Exploring Data Augmentation Strategies for Hate Speech Detection in Roman Urdu. Ubaid Azam, Hammad Rizwan, Asim Karim
2022	Exploring Text Recombination for Automatic Narrative Level Detection. Nils Reiter, Judith Sieker, Svenja Guhr, Evelyn Gius, Sina Zarrieß
2022	Exploring Transformers for Ranking Portuguese Semantic Relations. Hugo Gonçalo Oliveira
2022	Extended Parallel Corpus for Amharic-English Machine Translation. Andargachew Mekonnen Gezmu, Andreas Nürnberger, Tesfaye Bayu Bati
2022	Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities. Alexander Gutkin, Cibu Johny, Raiomond Doctor, Lawrence Wolf-Sonkin, Brian Roark
2022	Extracting Age-Related Stereotypes from Social Media Texts. Kathleen C. Fraser, Svetlana Kiritchenko, Isar Nejadgholi
2022	Extracting Linguistic Knowledge from Speech: A Study of Stop Realization in 5 Romance Languages. Yaru Wu, Mathilde Hutin, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker
2022	Extracting Space Situational Awareness Events from News Text. Zhengnan Xie, Alice Saebom Kwak, Enfa George, Laura W. Dozal, Hoang Van, Moriba K. Jah, Roberto Furfaro, Peter A. Jansen
2022	Extracting and Analysing Metaphors in Migration Media Discourse: towards a Metaphor Annotation Scheme. Ana Zwitter Vitez, Mojca Brglez, Marko Robnik-Sikonja, Tadej Skvorc, Andreja Vezovnik, Senja Pollak
2022	FABRA: French Aggregator-Based Readability Assessment toolkit. Rodrigo Wilkens, David Alfter, Xiaoou Wang, Alice Pintard, Anaïs Tack, Kevin P. Yancey, Thomas François
2022	FACTOID: A New Dataset for Identifying Misinformation Spreaders and Political Bias. Flora Sakketou, Joan Plepi, Riccardo Cervero, Henri-Jacques Geiss, Paolo Rosso, Lucie Flek
2022	FGraDA: A Dataset and Benchmark for Fine-Grained Domain Adaptation in Machine Translation. Wenhao Zhu, Shujian Huang, Tong Pu, Pingxuan Huang, Xu Zhang, Jian Yu, Wei Chen, Yanfeng Wang, Jiajun Chen
2022	FQuAD2.0: French Question Answering and Learning When You Don't Know. Quentin Heinrich, Gautier Viaud, Wacim Belblidia
2022	Far-Field Speaker Recognition Benchmark Derived From The DiPCo Corpus. Mickael Rouvier, Mohammad MohammadAmini
2022	Features of Perceived Metaphoricity on the Discourse Level: Abstractness and Emotionality. Prisca Piccirilli, Sabine Schulte im Walde
2022	Few-Shot Learning for Argument Aspects of the Nuclear Energy Debate. Lena Jurkschat, Gregor Wiedemann, Maximilian Heinrich, Mattes Ruckdeschel, Sunna Torge
2022	FinMath: Injecting a Tree-structured Solver for Question Answering over Financial Reports. Chenying Li, Wenbo Ye, Yilun Zhao
2022	Fine-Grained Error Analysis and Fair Evaluation of Labeled Spans. Katrin Ortmann
2022	Fine-tuning vs From Scratch: Do Vision & Language Models Have Similar Capabilities on Out-of-Distribution Visual Question Answering? Kristian Nørgaard Jensen, Barbara Plank
2022	Finnish Hate-Speech Detection on Social Media Using CNN and FinBERT. Md Saroar Jahan, Mourad Oussalah, Nabil Arhab
2022	Frame Shift Prediction. Zheng Xin Yong, Patrick D. Watson, Tiago Timponi Torrent, Oliver Czulo, Collin F. Baker
2022	FreeTalky: Don't Be Afraid! Conversations Made Easier by a Humanoid Robot using Persona-based Dialogue. Chanjun Park, Yoonna Jang, Seolhwa Lee, Sungjin Park, Heuiseok Lim
2022	From Examples to Rules: Neural Guided Rule Synthesis for Information Extraction. Robert Vacareanu, Marco Antonio Valenzuela-Escárcega, George Caique Gouveia Barbosa, Rebecca Sharp, Gustave Hahn-Powell, Mihai Surdeanu
2022	From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early Modern French. Simon Gabay, Pedro Ortiz Suarez, Alexandre Bartz, Alix Chagué, Rachel Bawden, Philippe Gambette, Benoît Sagot
2022	From Pattern to Interpretation. Using Colibri Core to Detect Translation Patterns in the Peshitta. Mathias Coeckelbergs
2022	Frustratingly Easy Performance Improvements for Low-resource Setups: A Tale on BERT and Segment Embeddings. Rob van der Goot, Max Müller-Eberstein, Barbara Plank
2022	GECO-MT: The Ghent Eye-tracking Corpus of Machine Translation. Toon Colman, Margot Fonteyne, Joke Daems, Nicolas Dirix, Lieve Macken
2022	GGPONC 2.0 - The German Clinical Guideline Corpus for Oncology: Curation Workflow, Annotation Policy, Baseline NER Taggers. Florian Borchert, Christina Lohr, Luise Modersohn, Jonas Witt, Thomas Langer, Markus Follmann, Matthias Gietzelt, Bert Arnrich, Udo Hahn, Matthieu-P. Schapranow
2022	GLoHBCD: A Naturalistic German Dataset for Language of Health Behaviour Change on Online Support Forums. Selina Meyer, David Elsweiler
2022	GRhOOT: Ontology of Rhetorical Figures in German. Ramona Kühn, Jelena Mitrovic, Michael Granitzer
2022	GeezSwitch: Language Identification in Typologically Related Low-resourced East African Languages. Fitsum Gaim, Wonsuk Yang, Jong C. Park
2022	Generating Artificial Texts as Substitution or Complement of Training Data. Vincent Claveau, Antoine Chaffin, Ewa Kijak
2022	Generating Extended and Multilingual Summaries with Pre-trained Transformers. Rémi Calizzano, Malte Ostendorff, Qian Ruan, Georg Rehm
2022	Generating Monolingual Dataset for Low Resource Language Bodo from old books using Google Keep. Sanjib Narzary, Maharaj Brahma, Mwnthai Narzary, Gwmsrang Muchahary, Pranav Kumar Singh, Apurbalal Senapati, Sukumar Nandi, Bidisha Som
2022	Generating Questions from Wikidata Triples. Kelvin Han, Thiago Castro Ferreira, Claire Gardent
2022	Generating Textual Explanations for Machine Learning Models Performance: A Table-to-Text Task. Isaac Ampomah, James Burton, Amir Enshaei, Noura Al Moubayed
2022	GerCCT: An Annotated Corpus for Mining Arguments in German Tweets on Climate Change. Robin Schaefer, Manfred Stede
2022	GerEO: A Large-Scale Resource on the Syntactic Distribution of German Experiencer-Object Verbs. Johanna Marie Poppek, Simon Masloch, Tibor Kiss
2022	German Light Verb Constructions in Business Process Models. Kristin Kutzner, Ralf Laue
2022	German Parliamentary Corpus (GerParCor). Giuseppe Abrami, Mevlüt Bagci, Leon Hammerla, Alexander Mehler
2022	Give me your Intentions, I'll Predict our Actions: A Two-level Classification of Speech Acts for Crisis Management in Social Media. Enzo Laurenti, Nils Bourgon, Farah Benamara, Alda Mari, Véronique Moriceau, Camille Courgeon
2022	GrASP: A Library for Extracting and Exploring Human-Interpretable Textual Patterns. Piyawat Lertvittayakumjorn, Leshem Choshen, Eyal Shnarch, Francesca Toni
2022	GujMORPH - A Dataset for Creating Gujarati Morphological Analyzer. Jatayu Baxi, Brijesh Bhatt
2022	HADREB: Human Appraisals and (English) Descriptions of Robot Emotional Behaviors. Josue Torres-Fonsesca, Casey Kennington
2022	HAWP: a Dataset for Hindi Arithmetic Word Problem Solving. Harshita Sharma, Pruthwik Mishra, Dipti Misra Sharma
2022	HECTOR: A Hybrid TExt SimplifiCation TOol for Raw Texts in French. Amalia Todirascu, Rodrigo Wilkens, Eva Rolin, Thomas François, Delphine Bernhard, Núria Gala
2022	HOPE: A Task-Oriented and Human-Centric Evaluation Framework Using Professional Post-Editing Towards More Effective MT Evaluation. Serge Gladkoff, Lifeng Han
2022	HRCA+: Advanced Multiple-choice Machine Reading Comprehension Method. Yuxiang Zhang, Hayato Yamana
2022	Handwritten Character Generation using Y-Autoencoder for Character Recognition Model Training. Tomoki Kitagawa, Chee Siang Leow, Hiromitsu Nishizaki
2022	Handwritten Paleographic Greek Text Recognition: A Century-Based Approach. Paraskevi Platanou, John Pavlopoulos, Georgios Papaioannou
2022	HashSet - A Dataset For Hashtag Segmentation. Prashant Kodali, Akshala Bhatnagar, Naman Ahuja, Manish Shrivastava, Ponnurangam Kumaraguru
2022	Hate Speech Dynamics Against African descent, Roma and LGBTQI Communities in Portugal. Paula Carvalho, Bernardo Cunha Matos, Raquel Bento Santos, Fernando Batista, Ricardo Ribeiro
2022	HateBR: A Large Expert Annotated Corpus of Brazilian Instagram Comments for Offensive Language and Hate Speech Detection. Francielle Alves Vargas, Isabelle Carvalho, Fabiana Rodrigues de Góes, Thiago A. S. Pardo, Fabrício Benevenuto
2022	HateCheckHIn: Evaluating Hindi Hate Speech Detection Models. Mithun Das, Punyajoy Saha, Binny Mathew, Animesh Mukherjee
2022	Hausa Visual Genome: A Dataset for Multi-Modal English to Hausa Machine Translation. Idris Abdulmumin, Satya Ranjan Dash, Musa Abdullahi Dawud, Shantipriya Parida, Shamsuddeen Hassan Muhammad, Ibrahim Said Ahmad, Subhadarshi Panda, Ondrej Bojar, Bashir Shehu Galadanci, Bello Shehu Bello
2022	HeLI-OTS, Off-the-shelf Language Identifier for Text. Tommi Jauhiainen, Heidi Jauhiainen, Krister Lindén
2022	HeadlineCause: A Dataset of News Headlines for Detecting Causalities. Ilya Gusev, Alexey Tikhonov
2022	HerBERT Based Language Model Detects Quantifiers and Their Semantic Properties in Polish. Marcin Wolinski, Bartlomiej Niton, Witold Kieras, Jakub Szymanik
2022	HiNER: A large Hindi Named Entity Recognition Dataset. V. Rudra Murthy, Pallab Bhattacharjee, Rahul Sharnagat, Jyotsana Khatri, Diptesh Kanojia, Pushpak Bhattacharyya
2022	Hierarchical Aggregation of Dialectal Data for Arabic Dialect Identification. Nurpeiis Baimukan, Houda Bouamor, Nizar Habash
2022	Hierarchical Annotation for Building A Suite of Clinical Natural Language Processing Tasks: Progress Note Understanding. Yanjun Gao, Dmitriy Dligach, Timothy Miller, Samuel Tesch, Ryan Laffin, Matthew M. Churpek, Majid Afshar
2022	HindiMD: A Multi-domain Corpora for Low-resource Sentiment Analysis. Mamta, Asif Ekbal, Pushpak Bhattacharyya, Tista Saha, Alka Kumar, Shikha Srivastava
2022	Holistic Evaluation of Automatic TimeML Annotators. Mustafa Ocal, Adrian Perez, Antonela Radas, Mark A. Finlayson
2022	Hollywood Identity Bias Dataset: A Context Oriented Bias Analysis of Movie Dialogues. Sandhya Singh, Prapti Roy, Nihar Sahoo, Niteesh Mallela, Himanshu Gupta, Pushpak Bhattacharyya, Milind Savagaonkar, Nidhi, Roshni R. Ramnani, Anutosh Maitra, Shubhashis Sengupta
2022	Hong Kong: Longitudinal and Synchronic Characterisations of Protest News between 1998 and 2020. Arya D. McCarthy, Giovanna Maria Dora Dore
2022	How Does the Experimental Setting Affect the Conclusions of Neural Encoding Models? Xiaohan Zhang, Shaonan Wang, Chengqing Zong
2022	How Much Context Span is Enough? Examining Context-Related Issues for Document-level MT. Sheila Castilho
2022	How to be FAIR when you CARE: The DGS Corpus as a Case Study of Open Science Resources for Minority Languages. Marc Schulder, Thomas Hanke
2022	How's Business Going Worldwide ? A Multilingual Annotated Corpus for Business Relation Extraction. Hadjer Khaldi, Farah Benamara, Camille Pradel, Grégoire Sigel, Nathalie Aussenac-Gilles
2022	Huqariq: A Multilingual Speech Corpus of Native Languages of Peru forSpeech Recognition. Rodolfo Zevallos, Luis Camacho, Nelsi Melgarejo
2022	HyperBox: A Supervised Approach for Hypernym Discovery using Box Embeddings. Maulik Parmar, Apurva Narayan
2022	I still have Time(s): Extending HeidelTime for German Texts. Andy Lücking, Manuel Stoeckel, Giuseppe Abrami, Alexander Mehler
2022	IRAC: A Domain-Specific Annotated Corpus of Implicit Reasoning in Arguments. Keshav Singh, Naoya Inoue, Farjana Sultana Mim, Shoichi Naitoh, Kentaro Inui
2022	ISO-based Annotated Multilingual Parallel Corpus for Discourse Markers. Purificação Silvano, Mariana Damova, Giedre Valunaite Oleskeviciene, Chaya Liebeskind, Christian Chiarcos, Dimitar Trajanov, Ciprian-Octavian Truica, Elena Simona Apostol, Anna Baczkowska
2022	IceBATS: An Icelandic Adaptation of the Bigger Analogy Test Set. Steinunn Rut Friðriksdóttir, Hjalti Daníelsson, Steinþór Steingrímsson, Einar Freyr Sigurðsson
2022	Identification and Analysis of Personification in Hungarian: The PerSECorp project. Gábor Simon
2022	Identification of Fine-Grained Location Mentions in Crisis Tweets. Sarthak Khanal, Maria Traskowsky, Doina Caragea
2022	Identification of Multiword Expressions in Tweets for Hate Speech Detection. Nicolas Zampieri, Carlos Ramisch, Irina Illina, Dominique Fohr
2022	Identifying Copied Fragments in a 18th Century Dutch Chronicle. Roser Morante, Eleanor L. T. Smith, Lianne Wilhelmus, Alie Lassche, Erika Kuijpers
2022	Identifying Draft Bills Impacting Existing Legislation: a Case Study on Romanian. Corina Ceausu, Sergiu Nisioi
2022	Identifying Tension in Holocaust Survivors' Interview: Code-switching/Code-mixing as Cues. Xinyuan Xia, Lu Xiao, Kun Yang, Yueyue Wang
2022	IgboBERT Models: Building and Training Transformer Models for the Igbo Language. Chiamaka Chukwuneke, Ignatius Ezeani, Paul Rayson, Mahmoud El-Haj
2022	Image Description Dataset for Language Learners. Kento Tanaka, Taichi Nishimura, Hiroaki Nanjo, Keisuke Shirai, Hirotaka Kameko, Masatake Dantsuji
2022	Impact Analysis of the Use of Speech and Language Models Pretrained by Self-Supersivion for Spoken Language Understanding. Salima Mdhaffar, Valentin Pelloin, Antoine Caubrière, Gaëlle Laperrière, Sahar Ghannay, Bassam Jabaian, Nathalie Camelin, Yannick Estève
2022	Improving Event Duration Question Answering by Leveraging Existing Temporal Information Extraction Data. Felix Giovanni Virgo, Fei Cheng, Sadao Kurohashi
2022	Improving Large-scale Language Models and Resources for Filipino. Jan Christian Blaise Cruz, Charibeth Cheng
2022	Incorporating LIWC in Neural Networks to Improve Human Trait and Behavior Analysis in Low Resource Scenarios. Isil Yakut Kilic, Shimei Pan
2022	Incorporating Zoning Information into Argument Mining from Biomedical Literature. Boyang Liu, Viktor Schlegel, Riza Batista-Navarro, Sophia Ananiadou
2022	Increasing CMDI's Semantic Interoperability with schema.org. Nino Meisinger, Thorsten Trippel, Claus Zinn
2022	IndoUKC: A Concept-Centered Indian Multilingual Lexical Resource. Nandu Chandran Nair, Rajendran Sankara Velayuthan, Yamini Chandrashekar, Gábor Bella, Fausto Giunchiglia
2022	Inducing Discourse Marker Inventories from Lexical Knowledge Graphs. Christian Chiarcos
2022	Informal Persian Universal Dependency Treebank. Roya Kabiri, Simin Karimi, Mihai Surdeanu
2022	Integrating a Phrase Structure Corpus Grammar and a Lexical-Semantic Network: the HOLINET Knowledge Graph. Jean-Philippe Prost
2022	Interactive Evaluation of Dialog Track at DSTC9. Shikib Mehri, Yulan Feng, Carla Gordon, Seyed Hossein Alavi, David R. Traum, Maxine Eskénazi
2022	Introducing Frege to Fillmore: A FrameNet Dataset that Captures both Sense and Reference. Levi Remijnse, Piek Vossen, Antske Fokkens, Sam Titarsolej
2022	Introducing RezoJDM16k: a French KnowledgeGraph DataSet for Link Prediction. Mehdi Mirzapour, Waleed Ragheb, Mohammad Javad Saeedizade, Kévin Cousot, Hélène Jacquenet, Lawrence Carbon, Mathieu Lafourcade
2022	Introducing the CURLICAT Corpora: Seven-language Domain Specific Annotated Corpora from Curated Sources. Tamás Váradi, Bence Nyéki, Svetla Koeva, Marko Tadic, Vanja Stefanec, Maciej Ogrodniczuk, Bartlomiej Niton, Piotr Pezik, Verginica Barbu Mititelu, Elena Irimia, Maria Mitrofan, Dan Tufis, Radovan Garabík, Simon Krek, Andraz Repar
2022	Introducing the Welsh Text Summarisation Dataset and Baseline Systems. Ignatius Ezeani, Mahmoud El-Haj, Jonathan Morris, Dawn Knight
2022	Investigating Active Learning Sampling Strategies for Extreme Multi Label Text Classification. Lukas Wertz, Katsiaryna Mirylenka, Jonas Kuhn, Jasmina Bogojeska
2022	Investigating Independence vs. Control: Agenda-Setting in Russian News Coverage on Social Media. Annerose Eichel, Gabriella Lapesa, Sabine Schulte im Walde
2022	Investigating Inter- and Intra-speaker Voice Conversion using Audiobooks. Aghilas Sini, Damien Lolive, Nelly Barbot, Pierre Alain
2022	Investigating User Radicalization: A Novel Dataset for Identifying Fine-Grained Temporal Shifts in Opinion. Flora Sakketou, Allison Lahnala, Liane Vogel, Lucie Flek
2022	Investigating the Relationship Between Romanian Financial News and Closing Prices from the Bucharest Stock Exchange. Ioan-Bogdan Iordache, Ana Sabina Uban, Catalin Stoean, Liviu P. Dinu
2022	Italian NLP for Everyone: Resources and Models from EVALITA to the European Language Grid. Valerio Basile, Cristina Bosco, Michael Fell, Viviana Patti, Rossella Varvara
2022	JADE: Corpus for Japanese Definition Modelling. Han Huang, Tomoyuki Kajiwara, Yuki Arase
2022	JGLUE: Japanese General Language Understanding Evaluation. Kentaro Kurihara, Daisuke Kawahara, Tomohide Shibata
2022	JParaCrawl v3.0: A Large-scale English-Japanese Parallel Corpus. Makoto Morishita, Katsuki Chousa, Jun Suzuki, Masaaki Nagata
2022	JaMIE: A Pipeline Japanese Medical Information Extraction System with Novel Relation Annotation. Fei Cheng, Shuntaro Yada, Ribeka Tanaka, Eiji Aramaki, Sadao Kurohashi
2022	Jojajovai: A Parallel Guarani-Spanish Corpus for MT Benchmarking. Luis Chiruzzo, Santiago Góngora, Aldo Alvarez, Gustavo Giménez Lugo, Marvin M. Agüero-Torales, Yliana Rodríguez
2022	KC4MT: A High-Quality Corpus for Multilingual Machine Translation. Vinh Van Nguyen, Ha Nguyen, Huong Thanh Le, Thai Phuong Nguyen, Tan Van Bui, Luan-Nghia Pham, Anh Tuan Phan, Cong Hoang-Minh Nguyen, Viet-Hong Tran, Anh Huu Tran
2022	KIMERA: Injecting Domain Knowledge into Vacant Transformer Heads. Benjamin Winter, Alexei Figueroa Rosero, Alexander Löser, Felix Alexander Gers, Amy Siu
2022	KIND: an Italian Multi-Domain Dataset for Named Entity Recognition. Teresa Paccosi, Alessio Palmero Aprosio
2022	KSoF: The Kassel State of Fluency Dataset - A Therapy Centered Dataset of Stuttering. Sebastian P. Bayerl, Alexander Wolff von Gudenberg, Florian Hönig, Elmar Nöth, Korbinian Riedhammer
2022	KazNERD: Kazakh Named Entity Recognition Dataset. Rustem Yeshpanov, Yerbolat Khassanov, Huseyin Atakan Varol
2022	KazakhTTS2: Extending the Open-Source Kazakh TTS Corpus With More Data, Speakers, and Topics. Saida Mussakhojayeva, Yerbolat Khassanov, Huseyin Atakan Varol
2022	Klexikon: A German Dataset for Joint Summarization and Simplification. Dennis Aumiller, Michael Gertz
2022	Know Better - A Clickbait Resolving Challenge. Benjamin Hättasch, Carsten Binnig
2022	Knowledge Graph - Deep Learning: A Case Study in Question Answering in Aviation Safety Domain. Ankush Agarwal, Raj Gite, Shreya Laddha, Pushpak Bhattacharyya, Satyanarayan Kar, Asif Ekbal, Prabhjit Thind, Rajesh Zele, Ravi Shankar
2022	Knowledge Graph Question Answering Leaderboard: A Community Resource to Prevent a Replication Crisis. Aleksandr Perevalov, Xi Yan, Liubov Kovriguina, Longquan Jiang, Andreas Both, Ricardo Usbeck
2022	Kompetencer: Fine-grained Skill Classification in Danish Job Postings via Distant Supervision and Transfer Learning. Mike Zhang, Kristian Nørgaard Jensen, Barbara Plank
2022	Korean Language Modeling via Syntactic Guide. Hyeondey Kim, Seonhoon Kim, Inho Kang, Nojun Kwak, Pascale Fung
2022	Korean-Specific Dataset for Table Question Answering. Changwook Jun, Jooyoung Choi, Myoseop Sim, Hyun Kim, Hansol Jang, Kyungkoo Min
2022	LARD: Large-scale Artificial Disfluency Generation. Tatiana Passali, Thanassis Mavropoulos, Grigorios Tsoumakas, Georgios Meditskos, Stefanos Vrochidis
2022	LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild. David Gimeno-Gómez, Carlos D. Martínez-Hinarejos
2022	LPAttack: A Feasible Annotation Scheme for Capturing Logic Pattern of Attacks in Arguments. Farjana Sultana Mim, Naoya Inoue, Shoichi Naito, Keshav Singh, Kentaro Inui
2022	LaVA - Latvian Language Learner corpus. Roberts Dargis, Ilze Auzina, Inga Kaija, Kristine Levane-Petrova, Kristine Pokratniece
2022	Language Identification for Austronesian Languages. Jonathan Dunn, Wikke Nijhof
2022	Language Patterns and Behaviour of the Peer Supporters in Multilingual Healthcare Conversational Forums. Ishani Mondal, Kalika Bali, Mohit Jain, Monojit Choudhury, Jacki O'Neill, Millicent Ochieng, Kagonya Awori, Keshet Ronen
2022	Language Resources to Support Language Diversity - the ELRA Achievements. Valérie Mapelli, Victoria Arranz, Khalid Choukri, Hélène Mazo
2022	Language Technologies for the Creation of Multilingual Terminologies. Lessons Learned from the SSHOC Project. Federica Gamba, Francesca Frontini, Daan Broeder, Monica Monachini
2022	Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR. Nina Markl, Stephen Joseph McNulty
2022	LaoPLM: Pre-trained Language Models for Lao. Nankai Lin, Yingwen Fu, Chuwei Chen, Ziyu Yang, Shengyi Jiang
2022	Large-Scale Hate Speech Detection with Cross-Domain Transfer. Cagri Toraman, Furkan Sahinuç, Eyup Halit Yilmaz
2022	Latvian National Corpora Collection - Korpuss.lv. Baiba Saulite, Roberts Dargis, Normunds Gruzitis, Ilze Auzina, Kristine Levane-Petrova, Lauma Pretkalnina, Laura Rituma, Peteris Paikens, Arturs Znotins, Laine Strankale, Kristine Pokratniece, Ilmars Poikans, Guntis Barzdins, Inguna Skadina, Anda Baklane, Valdis Saulespurens, Janis Ziedins
2022	LeConTra: A Learner Corpus of English-to-Dutch News Translation. Bram Vanroy, Lieve Macken
2022	LeSpell - A Multi-Lingual Benchmark Corpus of Spelling Errors to Develop Spellchecking Methods for Learner Language. Marie Bexte, Ronja Laarmann-Quante, Andrea Horbach, Torsten Zesch
2022	Learning How to Translate North Korean through South Korean. Hwichan Kim, Sangwhan Moon, Naoaki Okazaki, Mamoru Komachi
2022	Learning to Prioritize: Precision-Driven Sentence Filtering for Long Text Summarization. Alex Mei, Anisha Kabir, Rukmini Bapat, John Judge, Tony Sun, William Yang Wang
2022	Lessons Learned from GPT-SW3: Building the First Large-Scale Generative Language Model for Swedish. Ariel Ekgren, Amaru Cuba Gyllensten, Evangelia Gogoulou, Alice Heiman, Severine Verlinden, Joey Öhman, Fredrik Carlsson, Magnus Sahlgren
2022	Leveraging Hashtag Networks for Multimodal Popularity Prediction of Instagram Posts. Yu Yun Liao
2022	Leveraging Mental Health Forums for User-level Depression Detection on Social Media. Sravani Boinepelli, Tathagata Raha, Harika Abburi, Pulkit Parikh, Niyati Chhaya, Vasudeva Varma
2022	Leveraging Pre-trained Language Models for Gender Debiasing. Nishtha Jain, Declan Groves, Lucia Specia, Maja Popovic
2022	Leveraging a Bilingual Dictionary to Learn Wolastoqey Word Representations. Diego Bear, Paul Cook
2022	Lexical Resource Mapping via Translations. Hongchang Bao, Bradley Hauer, Grzegorz Kondrak
2022	LibriS2S: A German-English Speech-to-Speech Translation Corpus. Pedro Jeuris, Jan Niehues
2022	Life is not Always Depressing: Exploring the Happy Moments of People Diagnosed with Depression. Ana-Maria Bucur, Adrian Cosma, Liviu P. Dinu
2022	Linghub2: Language Resource Discovery Tool for Language Technologies. Cécile Robin, Gautham Vadakkekara Suresh, Víctor Rodríguez-Doncel, John P. McCrae, Paul Buitelaar
2022	Logic-Guided Message Generation from Raw Real-Time Sensor Data. Ernie Chang, Alisa Kovtunova, Stefan Borgwardt, Vera Demberg, Kathryn Chapman, Hui-Syuan Yeh
2022	Low-resource Neural Machine Translation: Benchmarking State-of-the-art Transformer for Wolof ↔ French. Cheikh M. Bamba Dione, Alla Lo, Elhadji Mamadou Nguer, Sileye O. Ba
2022	LuxemBERT: Simple and Practical Data Augmentation in Language Model Pre-Training for Luxembourgish. Cedric Lothritz, Bertrand Lebichot, Kevin Allix, Lisa Veiber, Tegawendé F. Bissyandé, Jacques Klein, Andrey Boytsov, Clément Lefebvre, Anne Goujon
2022	MAKED: Multi-lingual Automatic Keyword Extraction Dataset. Yash Verma, Anubhav Jangra, Sriparna Saha, Adam Jatowt, Dwaipayan Roy
2022	MASALA: Modelling and Analysing the Semantics of Adpositions in Linguistic Annotation of Hindi. Aryaman Arora, Nitin Venkateswaran, Nathan Schneider
2022	MHE: Code-Mixed Corpora for Similar Language Identification. Priya Rani, John P. McCrae, Theodorus Fransen
2022	MLQE-PE: A Multilingual Quality Estimation and Post-Editing Dataset. Marina Fomicheva, Shuo Sun, Erick R. Fonseca, Chrysoula Zerva, Frédéric Blain, Vishrav Chaudhary, Francisco Guzmán, Nina Lopatina, Lucia Specia, André F. T. Martins
2022	MMChat: Multi-Modal Chat Dataset on Social Media. Yinhe Zheng, Guanyi Chen, Xin Liu, Jian Sun
2022	MMDAG: Multimodal Directed Acyclic Graph Network for Emotion Recognition in Conversation. Shuo Xu, Yuxiang Jia, Changyong Niu, Hongying Zan
2022	MOTIF: Contextualized Images for Complex Words to Improve Human Reading. Xintong Wang, Florian Schneider, Özge Alaçam, Prateek Chaudhury, Chris Biemann
2022	MS-LaTTE: A Dataset of Where and When To-do Tasks are Completed. Sujay Kumar Jauhar, Nirupama Chandrasekaran, Michael Gamon, Ryen White
2022	MTLens: Machine Translation Output Debugging. Shreyas Sharma, Kareem Darwish, Lucas Pavanelli, Thiago Castro Ferreira, Mohamed Al-Badrashiny, Kamer Ali Yuksel, Hassan Sawaf
2022	MUSS: Multilingual Unsupervised Sentence Simplification by Mining Paraphrases. Louis Martin, Angela Fan, Éric de la Clergerie, Antoine Bordes, Benoît Sagot
2022	Making People Laugh like a Pro: Analysing Humor Through Stand-Up Comedy. Beatrice Turano, Carlo Strapparava
2022	Making a Semantic Event-type Ontology Multilingual. Zdenka Uresová, Karolina Zaczynska, Peter Bourgonje, Eva Fucíková, Georg Rehm, Jan Hajic
2022	Masader: Metadata Sourcing for Arabic Text and Speech Data Resources. Zaid Alyafeai, Maraim Masoud, Mustafa Ghaleb, Maged Saeed AlShaibani
2022	MeSHup: Corpus for Full Text Biomedical Document Indexing. Xindi Wang, Robert E. Mercer, Frank Rudzicz
2022	Mean Machine Translations: On Gender Bias in Icelandic Machine Translations. Agnes Sólmundsdóttir, Dagbjört Guðhmundsdóttir, Lilja Björk Stefánsdóttir, Anton Ingason
2022	Measuring Uncertainty in Translation Quality Evaluation (TQE). Serge Gladkoff, Irina Sorokina, Lifeng Han, Alexandra Alekseeva
2022	Medical Crossing: a Cross-lingual Evaluation of Clinical Entity Linking. Anton Alekseev, Zulfat Miftahutdinov, Elena Tutubalina, Artem Shelmanov, Vladimir Ivanov, Vladimir Kokh, Alexandr Nesterov, Manvel Avetisian, Andrey Chertok, Sergey I. Nikolenko
2022	MemoSen: A Multimodal Dataset for Sentiment Analysis of Memes. Eftekhar Hossain, Omar Sharif, Mohammed Moshiul Hoque
2022	MentSum: A Resource for Exploring Summarization of Mental Health Online Posts. Sajad Sotudeh, Nazli Goharian, Zachary Young
2022	MentalBERT: Publicly Available Pretrained Language Models for Mental Healthcare. Shaoxiong Ji, Tianlin Zhang, Luna Ansari, Jie Fu, Prayag Tiwari, Erik Cambria
2022	Merkel Podcast Corpus: A Multimodal Dataset Compiled from 16 Years of Angela Merkel's Weekly Video Podcasts. Debjoy Saha, Shravan Nayak, Timo Baumann
2022	Metaphor annotation for German. Markus Egg, Valia Kordoni
2022	Misogyny and Aggressiveness Tend to Come Together and Together We Address Them. Arianna Muti, Francesco Fernicola, Alberto Barrón-Cedeño
2022	Misspelling Semantics in Thai. Pakawat Nakwijit, Matthew Purver
2022	Mitigating Dataset Artifacts in Natural Language Inference Through Automatic Contextual Data Augmentation and Learning Optimization. Michail Mersinias, Panagiotis Valvis
2022	Modality Alignment between Deep Representations for Effective Video-and-Language Learning. Hyeongu Yun, Yongil Kim, Kyomin Jung
2022	Modeling Dutch Medical Texts for Detecting Functional Categories and Levels of COVID-19 Patients. Jenia Kim, Stella Verkijk, Edwin Geleijn, Marieke van der Leeden, Carel Meskers, Caroline Meskers, Sabina van der Veen, Piek Vossen, Guy Widdershoven
2022	Modeling Noise in Paraphrase Detection. Teemu Vahtola, Eetu Sjöblom, Jörg Tiedemann, Mathias Creutz
2022	Modeling the Impact of Syntactic Distance and Surprisal on Cross-Slavic Text Comprehension. Irina Stenger, Philip Georgis, Tania Avgustinova, Bernd Möbius, Dietrich Klakow
2022	Morphological Complexity of Children Narratives in Eight Languages. Gordana Hrzica, Chaya Liebeskind, Kristina S. Despot, Olga Dontcheva-Navratilova, Laura Kamandulyte-Merfeldiene, Sara Kosutar, Matea Kramaric, Giedre Valunaite Oleskeviciene
2022	MuLD: The Multitask Long Document Benchmark. George Thomas Hudson, Noura Al Moubayed
2022	MuLVE, A Multi-Language Vocabulary Evaluation Data Set. Anik Jacobsen, Salar Mohtaj, Sebastian Möller
2022	Multi-Aspect Transfer Learning for Detecting Low Resource Mental Disorders on Social Media. Ana Sabina Uban, Berta Chulvi, Paolo Rosso
2022	Multi-Task Learning for Cross-Lingual Abstractive Summarization. Sho Takase, Naoaki Okazaki
2022	Multi-source Multi-domain Sentiment Analysis with BERT-based Models. Gabriel Roccabruna, Steve Azzolin, Giuseppe Riccardi
2022	MultiSubs: A Large-scale Multimodal and Multilingual Dataset. Josiah Wang, Josiel Figueiredo, Lucia Specia
2022	Multidimensional Coding of Multimodal Languaging in Multi-Party Settings. Christophe Parisse, Marion Blondel, Stéphanie Caët, Claire Danet, Coralie Vincent, Aliyah Morgenstern
2022	Multilingual Image Corpus - Towards a Multimodal and Multilingual Dataset. Svetla Koeva, Ivelina Stoyanova, Jordan Kralev
2022	Multilingual Open Text Release 1: Public Domain News in 44 Languages. Chester Palen-Michel, June Kim, Constantine Lignos
2022	Multilingual Pragmaticon: Database of Discourse Formulae. Anton Buzanov, Polina Bychkova, Arina Molchanova, Anna Postnikova, Daria Ryzhova
2022	Multilingual Transfer Learning for Children Automatic Speech Recognition. Thomas Rolland, Alberto Abad, Catia Cucchiarini, Helmer Strik
2022	Multilingual and Multimodal Learning for Brazilian Portuguese. Júlia Sato, Helena de Medeiros Caseli, Lucia Specia
2022	Multimodal Negotiation Corpus with Various Subjective Assessments for Social-Psychological Outcome Prediction from Non-Verbal Cues. Nobukatsu Hojo, Satoshi Kobashikawa, Saki Mizuno, Ryo Masumura
2022	Multimodal Pipeline for Collection of Misinformation Data from Telegram. Jose Sosa, Serge Sharoff
2022	Multimodality for NLP-Centered Applications: Resources, Advances and Frontiers. Muskan Garg, Seema Wazarkar, Muskaan Singh, Ondrej Bojar
2022	Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in German Speech Recognition. Julia Pritzen, Michael Gref, Dietlind Zühlke, Christoph Andreas Schmidt
2022	Mutual Gaze and Linguistic Repetition in a Multimodal Corpus. Anais Murat, Maria Koutsombogera, Carl Vogel
2022	My Case, For an Adposition: Lexical Polysemy of Adpositions and Case Markers in Finnish and Latin. Daniel Chen, Mans Hulden
2022	N24News: A New Dataset for Multimodal News Classification. Zhen Wang, Xu Shan, Xiangxie Zhang, Jie Yang
2022	NaijaSenti: A Nigerian Twitter Sentiment Corpus for Multilingual Sentiment Analysis. Shamsuddeen Hassan Muhammad, David Ifeoluwa Adelani, Aremu Anuoluwapo, Idris Abdulmumin
2022	Named Entity Recognition in Estonian 19th Century Parish Court Records. Siim Orasmaa, Kadri Muischnek, Kristjan Poska, Anna Edela
2022	Named Entity Recognition to Detect Criminal Texts on the Web. Pawel Skórzewski, Mikolaj Pieniowski, Grazyna Demenko
2022	Natural Questions in Icelandic. Vésteinn Snæbjarnarson, Hafsteinn Einarsson
2022	Negation Detection in Dutch Spoken Human-Computer Conversations. Tom Sweers, Iris Hendrickx, Helmer Strik
2022	NerKor+Cars-OntoNotes++. Attila Novák, Borbála Novák
2022	Nkululeko: A Tool For Rapid Speaker Characteristics Detection. Felix Burkhardt, Johannes Wagner, Hagen Wierstorf, Florian Eyben, Björn W. Schuller
2022	NomVallex: A Valency Lexicon of Czech Nouns and Adjectives. Veronika Kolárová, Anna Vernerová
2022	NorDiaChange: Diachronic Semantic Change Dataset for Norwegian. Andrey Kutuzov, Samia Touileb, Petter Mæhlum, Tita Ranveig Enstad, Alexandra Wittemann
2022	Nunc profana tractemus. Detecting Code-Switching in a Large Corpus of 16th Century Letters. Martin Volk, Lukas Fischer, Patricia Scheurer, Bernard Silvan Schroffenegger, Raphael Schwitter, Phillip Ströbel, Benjamin Suter
2022	NyLLex: A Novel Resource of Swedish Words Annotated with Reading Proficiency Level. Daniel Holmer, Evelina Rennes
2022	Offensive language detection in Hebrew: can other languages help? Marina Litvak, Natalia Vanetik, Chaya Liebeskind, Omar Hmdia, Rizek Abu Madeghem
2022	On "Human Parity" and "Super Human Performance" in Machine Translation Evaluation. Thierry Poibeau
2022	On the Impact of Temporal Representations on Metaphor Detection. Giorgio Ottolina, Matteo Luigi Palmonari, Manuel Vimercati, Mehwish Alam
2022	On the Multilingual Capabilities of Very Large-Scale English Language Models. Jordi Armengol-Estapé, Ona De Gibert Bonet, Maite Melero
2022	On the Robustness of Cognate Generation Models. Winston Wu, David Yarowsky
2022	One Document, Many Revisions: A Dataset for Classification and Description of Edit Intents. Dheeraj Rajagopal, Xuchao Zhang, Michael Gamon, Sujay Kumar Jauhar, Diyi Yang, Eduard H. Hovy
2022	Open Terminology Management and Sharing Toolkit for Federation of Terminology Databases. Andis Lagzdins, Uldis Silins, Toms Bergmanis, Marcis Pinnis, Arturs Vasilevskis, Andrejs Vasiljevs
2022	OpenEL: An Annotated Corpus for Entity Linking and Discourse in Open Domain Dialogue. Wen Cui, Leanne Rolston, Marilyn A. Walker, Beth Ann Hockey
2022	OpenKorPOS: Democratizing Korean Tokenization with Voting-Based Open Corpus Annotation. Sangwhan Moon, Won-Ik Cho, Hye Joo Han, Naoaki Okazaki, Nam Soo Kim
2022	Opinions in Interactions : New Annotations of the SEMAINE Database. Valentin Barrière, Slim Essid, Chloé Clavel
2022	Organizing and Improving a Database of French Word Formation Using Formal Concept Analysis. Nyoman Juniarta, Olivier Bonami, Nabil Hathout, Fiammetta Namer, Yannick Toussaint
2022	Out of Thin Air: Is Zero-Shot Cross-Lingual Keyword Detection Better Than Unsupervised? Boshko Koloski, Senja Pollak, Blaz Skrlj, Matej Martinc
2022	Out-of-Domain Evaluation of Finnish Dependency Parsing. Jenna Kanerva, Filip Ginter
2022	Overlaps and Gender Analysis in the Context of Broadcast Media. Martin Lebourdais, Marie Tahon, Antoine Laurent, Sylvain Meignier, Anthony Larcher
2022	Overlooked Data in Typological Databases: What Grambank Teaches Us About Gaps in Grammars. Jakob Lesage, Hannah J. Haynie, Hedvig Skirgård, Tobias Weber, Alena Witzlack-Makarevich
2022	PAGnol: An Extra-Large French Generative Model. Julien Launay, E. L. Tommasone, Baptiste Pannier, François Boniface, Amélie Chatelain, Alessandro Cappelli, Iacopo Poli, Djamé Seddah
2022	PATATRA and PATAFreq: two French databases for the documentation of within-speaker variability in speech. Cécile Fougeron, Nicolas Audibert, Cédric Gendrot, Estelle Chardenon, Louise Wohmann
2022	PCR4ALL: A Comprehensive Evaluation Benchmark for Pronoun Coreference Resolution in English. Xinran Zhao, Hongming Zhang, Yangqiu Song
2022	PLOD: An Abbreviation Detection Dataset for Scientific Documents. Leonardo Zilio, Hadeel Saadany, Prashant Sharma, Diptesh Kanojia, Constantin Orasan
2022	ParCorFull2.0: a Parallel Corpus Annotated with Full Coreference. Ekaterina Lapshinova-Koltunski, Pedro Augusto Ferreira, Elina Lartaud, Christian Hardmeier
2022	Pars-ABSA: a Manually Annotated Aspect-based Sentiment Analysis Benchmark on Farsi Product Reviews. Taha Shangipour Ataei, Kamyar Darvishi, Soroush Javdan, Behrouz Minaei-Bidgoli, Sauleh Eetemadi
2022	PerCQA: Persian Community Question Answering Dataset. Naghme Jamali, Yadollah Yaghoobzadeh, Heshaam Faili
2022	PerPaDa: A Persian Paraphrase Dataset based on Implicit Crowdsourcing Data Collection. Salar Mohtaj, Fatemeh Tavakkoli, Habibollah Asghari
2022	Perceived Text Quality and Readability in Extractive and Abstractive Summaries. Julius Monsen, Evelina Rennes
2022	Personalized Filled-pause Generation with Group-wise Prediction Models. Yuta Matsunaga, Takaaki Saeki, Shinnosuke Takamichi, Hiroshi Saruwatari
2022	Phone Inventories and Recognition for Every Language. Xinjian Li, Florian Metze, David R. Mortensen, Alan W. Black, Shinji Watanabe
2022	PhysNLU: A Language Resource for Evaluating Natural Language Understanding and Explanation Coherence in Physics. Jordan Meadows, Zili Zhou, André Freitas
2022	Placing M-Phasis on the Plurality of Hate: A Feature-Based Corpus of Hate Online. Dana Ruiter, Liane Reiners, Ashwin Geet D'Sa, Thomas Kleinbauer, Dominique Fohr, Irina Illina, Dietrich Klakow, Christian Schemer, Angeliki Monnier
2022	Placing multi-modal, and multi-lingual Data in the Humanities Domain on the Map: the Mythotopia Geo-tagged Corpus. Voula Giouli, Anna Vacalopoulou, Nikolaos Sidiropoulos, Christina Flouda, Athanasios Doupas, Giorgos Giannopoulos, Nikos Bikakis, Vassilis Kaffes, Gregory Stainhaouer
2022	Please, Don't Forget the Difference and the Confidence Interval when Seeking for the State-of-the-Art Status. Yves Bestgen
2022	PoS Tagging, Lemmatization and Dependency Parsing of West Frisian. Wilbert Heeringa, Gosse Bouma, Martha Hofman, Jelle Brouwer, Eduard Drenth, Jan Wijffels, Hans Van de Velde
2022	Polar Quantification of Actor Noun Phrases for German. Anne Göhring, Manfred Klenner
2022	PoliBERTweet: A Pre-trained Language Model for Analyzing Political Content on Twitter. Kornraphop Kawintiranon, Lisa Singh
2022	Polysemy in Spoken Conversations and Written Texts. Aina Garí Soler, Matthieu Labeau, Chloé Clavel
2022	PortiLexicon-UD: a Portuguese Lexical Resource according to Universal Dependencies Model. Lucelene Lopes, Magali Sanches Duran, Paulo Fernandes, Thiago A. S. Pardo
2022	Potential Idiomatic Expression (PIE)-English: Corpus for Classes of Idioms. Tosin P. Adewumi, Roshanak Vadoodi, Aparajita Tripathy, Konstantina Nikolaidou, Foteini Liwicki, Marcus Liwicki
2022	Pre-Training Language Models for Identifying Patronizing and Condescending Language: An Analysis. Carla Pérez-Almendros, Luis Espinosa Anke, Steven Schockaert
2022	Pre-training and Evaluating Transformer-based Language Models for Icelandic. Jón Guðhnason, Hrafn Loftsson
2022	Predicting Embedding Reliability in Low-Resource Settings Using Corpus Similarity Measures. Jonathan Dunn, Haipeng Li, Damian Sastre
2022	Predicting the Proficiency Level of Nonnative Hebrew Authors. Isabelle Nguyen, Shuly Wintner
2022	Preliminary Results on the Evaluation of Computational Tools for the Analysis of Quechua and Aymara. Marcelo Yuji Himoro, Antonio Pareja-Lora
2022	Priming Ancient Korean Neural Machine Translation. Chanjun Park, Seolhwa Lee, Jaehyung Seo, Hyeonseok Moon, Sugyeong Eo, Heuiseok Lim
2022	Privacy-Preserving Graph Convolutional Networks for Text Classification. Timour Igamberdiev, Ivan Habernal
2022	Pro-TEXT: an Annotated Corpus of Keystroke Logs. Aleksandra Miletic, Christophe Benzitoun, Georgeta Cislaru, Santiago Herrera-Yanez
2022	ProDial - An Annotated Proactive Dialogue Act Corpus for Conversational Assistants using Crowdsourcing. Matthias Kraus, Nicolas Wagner, Wolfgang Minker
2022	ProQE: Proficiency-wise Quality Estimation dataset for Grammatical Error Correction. Yujin Takahashi, Masahiro Kaneko, Masato Mita, Mamoru Komachi
2022	Probing Pre-trained Auto-regressive Language Models for Named Entity Typing and Recognition. Elena V. Epure, Romain Hennequin
2022	Problem-solving Recognition in Scientific Text. Kevin Heffernan, Simone Teufel
2022	Proceedings of the Thirteenth Language Resources and Evaluation Conference, LREC 2022, Marseille, France, 20-25 June 2022 Nicoletta Calzolari, Frédéric Béchet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Hélène Mazo, Jan Odijk, Stelios Piperidis
2022	Progress in Multilingual Speech Recognition for Low Resource Languages Kurmanji Kurdish, Cree and Inuktut. Vishwa Gupta, Gilles Boulianne
2022	PyCantonese: Cantonese Linguistics and NLP in Python. Jackson L. Lee, Litong Chen, Charles Lam, Chaak Ming Lau, Tsz-Him Tsui
2022	QA4IE: A Quality Assurance Tool for Information Extraction. Rafael Jiménez Silva, Kaushik Gedela, Alex Marr, Bart Desmet, Carolyn P. Rosé, Chunxiao Zhou
2022	QT30: A Corpus of Argument and Conflict in Broadcast Debate. Annette Hautli-Janisz, Zlata Kikteva, Wassiliki Siskou, Kamila Górska, Ray Becker, Chris Reed
2022	Quality Control for Crowdsourced Bilingual Dictionary in Low-Resource Languages. Hiroki Chida, Yohei Murakami, Mondheera Pituxcoosuvarn
2022	Quality and Efficiency of Manual Annotation: Pre-annotation Bias. Marie Mikulová, Milan Straka, Jan Stepánek, Barbora Stepánková, Jan Hajic
2022	Quantification Annotation in ISO 24617-12, Second Draft. Harry Bunt, Maxime Amblard, Johan Bos, Karën Fort, Bruno Guillaume, Philippe de Groote, Chuyuan Li, Pierre Ludmann, Michel Musiol, Siyana Pavlova, Guy Perrier, Sylvain Pogodalla
2022	Query Obfuscation by Semantic Decomposition. Danushka Bollegala, Tomoya Machide, Ken-ichi Kawarabayashi
2022	Querying Interaction Structure: Approaches to Overlap in Spoken Language Corpora. Elena Frick, Thomas Schmidt, Henrike Helmer
2022	Querying a Dozen Corpora and a Thousand Years with Fintan. Christian Chiarcos, Christian Fäth, Maxim Ionov
2022	Question Generation and Answering for exploring Digital Humanities collections. Frédéric Béchet, Elie Antoine, Jérémy Auguste, Géraldine Damnati
2022	Question Modifiers in Visual Question Answering. William Britton, Somdeb Sarkhel, Deepak Venugopal
2022	Quevedo: Annotation and Processing of Graphical Languages. Antonio F. G. Sevilla, Alberto Díaz Esteban, José María Lahoz-Bengoechea
2022	RED v2: Enhancing RED Dataset for Multi-Label Emotion Detection. Alexandra Ciobotaru, Mihai Vlad Constantinescu, Liviu P. Dinu, Stefan Dumitrescu
2022	RELATE: Generating a linguistically inspired Knowledge Graph for fine-grained emotion classification. Annika Marie Schoene, Nina Dethlefs, Sophia Ananiadou
2022	RRGparbank: A Parallel Role and Reference Grammar Treebank. Tatiana Bladier, Kilian Evang, Valeria Generalova, Zahra Ghane, Laura Kallmeyer, Robin Möllemann, Natalia Moors, Rainer Osswald, Simon Petitjean
2022	RU-ADEPT: Russian Anonymized Dataset with Eight Personality Traits. C. Anton Rytting, Valerie Novak, James R. Hull, Victor M. Frank, Paul Rodrigues, Jarrett G. W. Lee, Laurel Miller-Sims
2022	RUSAVIC Corpus: Russian Audio-Visual Speech in Cars. Denis Ivanko, Alexandr Axyonov, Dmitry Ryumin, Alexey M. Kashevnik, Alexey Karpov
2022	RaFoLa: A Rationale-Annotated Corpus for Detecting Indicators of Forced Labour. Erick Mendez Guzman, Viktor Schlegel, Riza Batista-Navarro
2022	RadQA: A Question Answering Dataset to Improve Comprehension of Radiology Reports. Sarvesh Soni, Meghana Gudala, Atieh Pajouhi, Kirk Roberts
2022	Re-train or Train from Scratch? Comparing Pre-training Strategies of BERT in the Medical Domain. Hicham El Boukkouri, Olivier Ferret, Thomas Lavergne, Pierre Zweigenbaum
2022	Reading Time and Vocabulary Rating in the Japanese Language: Large-Scale Japanese Reading Time Data Collection Using Crowdsourcing. Masayuki Asahara
2022	Recovering Patient Journeys: A Corpus of Biomedical Entities and Relations on Twitter (BEAR). Amelie Wührl, Roman Klinger
2022	Recurrent Neural Networks with Mixed Hierarchical Structures and EM Algorithm for Natural Language Processing. Zhaoxin Luo, Michael Zhu
2022	RefCo and its Checker: Improving Language Documentation Corpora's Reusability Through a Semi-Automatic Review Process. Herbert Lange, Jocelyn Aznar
2022	Reflections on 30 Years of Language Resource Development and Sharing. Christopher Cieri, Mark Y. Liberman, Sunghye Cho, Stephanie M. Strassel, James Fiumara, Jonathan Wright
2022	Representing the Toddler Lexicon: Do the Corpus and Semantics Matter? Jennifer Weber, Eliana Colunga
2022	Resources and Experiments on Sentiment Classification for Georgian. Nicolas Stefanovitch, Jakub Piskorski, Sopho Kharazi
2022	Rhetorical Structure Approach for Online Deception Detection: A Survey. Francielle Alves Vargas, Jonas D'Alessandro, Zohar Rabinovich, Fabrício Benevenuto, Thiago A. S. Pardo
2022	RoBERTuito: a pre-trained language model for social media text in Spanish. Juan Manuel Pérez, Damián Ariel Furman, Laura Alonso Alemany, Franco M. Luque
2022	RoomReader: A Multimodal Corpus of Online Multiparty Conversational Interactions. Justine Reverdy, Sam O'Connor Russell, Louise Duquenne, Diego Garaialde, Benjamin R. Cowan, Naomi Harte
2022	Rosetta-LSF: an Aligned Corpus of French Sign Language and French for Text-to-Sign Translation. Élise Bertin-Lemée, Annelies Braffort, Camille Challant, Claire Danet, Boris Dauriac, Michael Filhol, Emmanuella Martinod, Jérémie Segouat
2022	RuPAWS: A Russian Adversarial Dataset for Paraphrase Identification. Nikita Martynov, Irina Krotova, Varvara Logacheva, Alexander Panchenko, Olga Kozlova, Nikita Semenov
2022	Russian Jeopardy! Data Set for Question-Answering Systems. Elena Mikhalkova, Alexander A. Khlyupin
2022	SCAI-QReCC Shared Task on Conversational Question Answering. Svitlana Vakulenko, Johannes Kiesel, Maik Fröbe
2022	SDS-200: A Swiss German Speech to Standard German Text Corpus. Michel Plüss, Manuela Hürlimann, Marc Cuny, Alla Stöckli, Nikolaos Kapotis, Julia Hartmann, Malgorzata Anna Ulasik, Christian Scheller, Yanick Schraner, Amit Jain, Jan Deriu, Mark Cieliebak, Manfred Vogel
2022	SHARE: A Lexicon of Harmful Expressions by Spanish Speakers. Flor Miriam Plaza del Arco, Ana Belén Parras Portillo, Pilar López-Úbeda, Beatriz Botella-Gil, María Teresa Martín Valdivia
2022	SHONGLAP: A Large Bengali Open-Domain Dialogue Corpus. Syed Mostofa Monsur, Sakib Chowdhury, Md Shahrar Fatemi, Shafayat Ahmed
2022	SLäNDa version 2.0: Improved and Extended Annotation of Narrative and Dialogue in Swedish Literature. Sara Stymne, Carin Östman
2022	SNuC: The Sheffield Numbers Spoken Language Corpus. Emma Barker, Jon Barker, Robert J. Gaizauskas, Ning Ma, Monica Lestari Paramita
2022	SPADE: A Big Five-Mturk Dataset of Argumentative Speech Enriched with Socio-Demographics for Personality Detection. Elma Kerz, Yu Qiao, Sourabh Zanwar, Daniel Wiechmann
2022	SPORTSINTERVIEW: A Large-Scale Sports Interview Benchmark for Entity-centric Dialogues. Hanfei Sun, Ziyuan Cao, Diyi Yang
2022	SSR7000: A Synchronized Corpus of Ultrasound Tongue Imaging for End-to-End Silent Speech Recognition. Naoki Kimura, Zixiong Su, Takaaki Saeki, Jun Rekimoto
2022	STAPI: An Automatic Scraper for Extracting Iterative Title-Text Structure from Web Documents. Nan Zhang, Shomir Wilson, Prasenjit Mitra
2022	Samrómur Children: An Icelandic Speech Corpus. Carlos Daniel Hernandez Mena, David Erik Mollberg, Michal Borský, Jón Guðnason
2022	Samrómur: Crowd-sourcing large amounts of data. Staffan Hedström, David Erik Mollberg, Ragnheiðhur Thórhallsdóttir, Jón Guðhnason
2022	SansTib, a Sanskrit - Tibetan Parallel Corpus and Bilingual Sentence Embedding Model. Sebastian Nehrdich
2022	Scaling up Discourse Quality Annotation for Political Science. Neele Falk, Gabriella Lapesa
2022	SciPar: A Collection of Parallel Corpora from Scientific Abstracts. Dimitrios Roussis, Vassilis Papavassiliou, Prokopis Prokopidis, Stelios Piperidis, Vassilis Katsouros
2022	Self-Contained Utterance Description Corpus for Japanese Dialog. Yuta Hayashibe
2022	Semantic Relations between Text Segments for Semantic Storytelling: Annotation Tool - Dataset - Evaluation. Michael Raring, Malte Ostendorff, Georg Rehm
2022	Semantic Role Labelling for Dutch Law Texts. Roos M. Bakker, Romy A. N. van Drie, Maaike de Boer, Robert van Doesburg, Tom M. van Engers
2022	Semi-automatically Annotated Learner Corpus for Russian. Anisia Katinskaia, Maria Lebedeva, Jue Hou, Roman Yangarber
2022	Sense and Sentiment. Francis Bond, Merrick Yeu Herng Choo
2022	Sentence Pair Embeddings Based Evaluation Metric for Abstractive and Extractive Summarization. Ramya Akula, Ivan Garibay
2022	Sentence Selection Strategies for Distilling Word Embeddings from BERT. Yixiao Wang, Zied Bouraoui, Luis Espinosa Anke, Steven Schockaert
2022	SenticNet 7: A Commonsense-based Neurosymbolic AI Framework for Explainable Sentiment Analysis. Erik Cambria, Qian Liu, Sergio Decherchi, Frank Xing, Kenneth Kwok
2022	Sentiment Analysis of Homeric Text: The 1st Book of Iliad. John Pavlopoulos, Alexandros Xenos, Davide Picca
2022	Sign Language Production With Avatar Layering: A Critical Use Case over Rare Words. Jung-Ho Kim, Eui Jun Hwang, Sukmin Cho, Du Hui Lee, Jong C. Park
2022	Simple TICO-19: A Dataset for Joint Translation and Simplification of COVID-19 Texts. Matthew Shardlow, Fernando Alva-Manchego
2022	Singlish Where Got Rules One? Constructing a Computational Grammar for Singlish. Siew Yeng Chow, Francis Bond
2022	Slovene SuperGLUE Benchmark: Translation and Evaluation. Ales Zagar, Marko Robnik-Sikonja
2022	Spanish Datasets for Sensitive Entity Detection in the Legal Domain. Ona De Gibert Bonet, Aitor García-Pablos, Montse Cuadros, Maite Melero
2022	Speak: A Toolkit Using Amazon Mechanical Turk to Collect and Validate Speech Audio Recordings. Christopher Song, David Harwath, Tuka Alhanai, James R. Glass
2022	SpecNFS: A Challenge Dataset Towards Extracting Formal Models from Natural Language Specifications. Sayontan Ghosh, Amanpreet Singh, Alex Merenstein, Wei Su, Scott A. Smolka, Erez Zadok, Niranjan Balasubramanian
2022	Speech Aerodynamics Database, Tools and Visualisation. Shi Yu, Clara Ponchard, Roland Trouville, Sergio Hassid, Didier Demolin
2022	Speech Resources in the Tamasheq Language. Marcely Zanon Boito, Fethi Bougares, Florentin Barbier, Souhir Gahbiche, Loïc Barrault, Mickael Rouvier, Yannick Estève
2022	Spoken Language Treebanks in Universal Dependencies: an Overview. Kaja Dobrovoljc
2022	Standard German Subtitling of Swiss German TV content: the PASSAGE Project. Jonathan David Mutal, Pierrette Bouillon, Johanna Gerlach, Veronika Haberkorn
2022	Standardisation of Dialect Comments in Social Networks in View of Sentiment Analysis : Case of Tunisian Dialect. Saméh Kchaou, Rahma Boujelbane, Emna Fsih, Lamia Hadrich Belguith
2022	Story Trees: Representing Documents using Topological Persistence. Pantea Haghighatkhah, Antske Fokkens, Pia Sommerauer, Bettina Speckmann, Kevin Verbeek
2022	Strategy-level Entrainment of Dialogue System Users in a Creative Visual Reference Resolution Task. Deepthi Karkada, Ramesh R. Manuvinakurike, Maike Paetzel-Prüsmann, Kallirroi Georgila
2022	StyleKQC: A Style-Variant Paraphrase Corpus for Korean Questions and Commands. Won-Ik Cho, Sangwhan Moon, Jong In Kim, Seok Min Kim, Nam Soo Kim
2022	SuMe: A Dataset Towards Summarizing Biomedical Mechanisms. Mohaddeseh Bastan, Nishant Shankar, Mihai Surdeanu, Niranjan Balasubramanian
2022	Subjective Text Complexity Assessment for German. Laura Seiffe, Fares Kallel, Sebastian Möller, Babak Naderi, Roland Roller
2022	Surfer100: Generating Surveys From Web Resources, Wikipedia-style. Irene Li, Alexander R. Fabbri, Rina Kawamura, Yixin Liu, Xiangru Tang, Jaesung Tae, Chang Shen, Sally Ma, Tomoe Mizutani, Dragomir Radev
2022	Survey on Thai NLP Language Resources and Tools. Ratchakrit Arreerard, Stephen Mander, Scott Piao
2022	Syntax-driven Approach for Semantic Role Labeling. Yuanhe Tian, Han Qin, Fei Xia, Yan Song
2022	TANDO: A Corpus for Document-level Machine Translation. Harritxu Gete, Thierry Etchegoyhen, David Ponce, Gorka Labaka, Nora Aranberri, Ander Corral, Xabier Saralegi, Igor Ellakuria, Maite Martín
2022	TArC: Tunisian Arabish Corpus, First complete release. Elisa Gugliotta, Marco Dinarelli
2022	TBD3: A Thresholding-Based Dynamic Depression Detection from Social Media for Low-Resource Users. Hrishikesh Kulkarni, Sean MacAvaney, Nazli Goharian, Ophir Frieder
2022	TUSC: Emotion Word Usage in Tweets from US and Canada. Krishnapriya Vishnubhotla, Saif M. Mohammad
2022	TWEET-FID: An Annotated Dataset for Multiple Foodborne Illness Detection Tasks. Ruofan Hu, Dongyu Zhang, Dandan Tao, Thomas Hartvigsen, Hao Feng, Elke A. Rundensteiner
2022	TYPIC: A Corpus of Template-Based Diagnostic Comments on Argumentation. Shoichi Naito, Shintaro Sawada, Chihiro Nakagawa, Naoya Inoue, Kenshi Yamaguchi, Iori Shimizu, Farjana Sultana Mim, Keshav Singh, Kentaro Inui
2022	TZOS: an Online Terminology Database Aimed at Working on Basque Academic Terminology Collaboratively. Izaskun Aldezabal, Jose Maria Arriola, Arantxa Otegi
2022	Tackling Irony Detection using Ensemble Classifiers. Christoph Turban, Udo Kruschwitz
2022	TallVocabL2Fi: A Tall Dataset of 15 Finnish L2 Learners' Vocabulary. Frankie Robertson, Li-Hsin Chang, Sini Söyrinki
2022	Task-Driven and Experience-Based Question Answering Corpus for In-Home Robot Application in the House3D Virtual Environment. Zhuoqun Xu, Liubo Ouyang, Yang Liu
2022	TeDDi Sample: Text Data Diversity Sample for Language Comparison and Multilingual NLP. Steven Moran, Christian Bentz, Ximena Gutierrez-Vasques, Olga Pelloni, Tanja Samardzic
2022	TeSum: Human-Generated Abstractive Summarization Corpus for Telugu. Ashok Urlana, Nirmal Surange, Pawan Baswani, Priyanka Ravva, Manish Shrivastava
2022	Telling a Lie: Analyzing the Language of Information and Misinformation during Global Health Events. Ankit Aich, Natalie Parde
2022	Testing Focus and Non-at-issue Frameworks with a Question-under-Discussion-Annotated Corpus. Christoph Hesse, Maurice Langner, Ralf Klabunde, Anton Benz
2022	Text Classification and Prediction in the Legal Domain. Minh-Quoc Nghiem, Paul Baylis, André Freitas, Sophia Ananiadou
2022	Textinator: an Internationalized Tool for Annotation and Human Evaluation in Natural Language Processing and Generation. Dmytro Kalpakchi, Johan Boye
2022	The ALPIN Sentiment Dictionary: Austrian Language Polarity in Newspapers. Thomas E. Kolb, Sekanina Katharina, Bettina Manuela Johanna Kern, Julia Neidhardt, Tanja Wissik, Andreas Baumann
2022	The Arabic Parallel Gender Corpus 2.0: Extensions and Analyses. Bashar Alhafni, Nizar Habash, Houda Bouamor
2022	The Automatic Extraction of Linguistic Biomarkers as a Viable Solution for the Early Diagnosis of Mental Disorders. Gloria Gagliardi, Fabio Tamburini
2022	The Badalona Corpus - An Audio, Video and Neuro-Physiological Conversational Dataset. Philippe Blache, Salomé Antoine, Dorina De Jong, Lena-Marie Huttner, Emilia Kerr, Thierry Legou, Eliot Maës, Clément François
2022	The Bahrain Corpus: A Multi-genre Corpus of Bahraini Arabic. Dana Abdulrahim, Go Inoue, Latifa Shamsan, Salam Khalifa, Nizar Habash
2022	The Brooklyn Multi-Interaction Corpus for Analyzing Variation in Entrainment Behavior. Andreas Weise, Matthew McNeill, Rivka Levitan
2022	The Bulgarian Event Corpus: Overview and Initial NER Experiments. Petya Osenova, Kiril Simov, Iva Marinova, Melania Berbatova
2022	The Bull and the Bear: Summarizing Stock Market Discussions. Ayush Kumar, Dhyey Jani, Jay Shah, Devanshu Thakar, Varun Jain, Mayank Singh
2022	The CLAMS Platform at Work: Processing Audiovisual Data from the American Archive of Public Broadcasting. Marc Verhagen, Kelley Lynch, Kyeongmin Rim, James Pustejovsky
2022	The CRECIL Corpus: a New Dataset for Extraction of Relations between Characters in Chinese Multi-party Dialogues. Yuru Jiang, Yang Xu, Yuhang Zhan, Weikai He, Yilin Wang, Zixuan Xi, Meiyun Wang, Xinyu Li, Yu Li, Yanchao Yu
2022	The Causal News Corpus: Annotating Causal Relations in Event Sentences from News. Fiona Anting Tan, Ali Hürriyetoglu, Tommaso Caselli, Nelleke Oostdijk, Tadashi Nomoto, Hansi Hettiarachchi, Iqra Ameer, Onur Uca, Farhana Ferdousi Liza, Tiancheng Hu
2022	The Chinese Causative-Passive Homonymy Disambiguation: an adversarial Dataset for NLI and a Probing Task. Shanshan Xu, Katja Markert
2022	The ComMA Dataset V0.2: Annotating Aggression and Bias in Multilingual Social Media Discourse. Ritesh Kumar, Shyam Ratan, Siddharth Singh, Enakshi Nandi, Laishram Niranjana Devi, Akash Bhagat, Yogesh Dawer, Bornini Lahiri, Akanksha Bansal, Atul Kr. Ojha
2022	The Construction and Evaluation of the LEAFTOP Dataset of Automatically Extracted Nouns in 1480 Languages. Gregory Baker, Diego Mollá
2022	The Copenhagen Corpus of Eye Tracking Recordings from Natural Reading of Danish Texts. Nora Hollenstein, Maria Barrett, Marina Björnsdóttir
2022	The Ellogon Web Annotation Tool: Annotating Moral Values and Arguments. Alexandros Fotios Ntogramatzis, Anna Gradou, Georgios Petasis, Marko Kokol
2022	The Engage Corpus: A Social Media Dataset for Text-Based Recommender Systems. Daniel Cheng, Kyle Yan, Phillip Keung, Noah A. Smith
2022	The EuroPat Corpus: A Parallel Corpus of European Patent Data. Kenneth Heafield, Elaine Farrow, Jelmer van der Linde, Gema Ramírez-Sánchez, Dion Wiggins
2022	The GINCO Training Dataset for Web Genre Identification of Documents Out in the Wild. Taja Kuzman, Peter Rupnik, Nikola Ljubesic
2022	The Hebrew Essay Corpus. Chen Gafni, Anat Prior, Shuly Wintner
2022	The IARPA BETTER Program Abstract Task Four New Semantically Annotated Corpora from IARPA's BETTER Program. Timothy Mckinnon, Carl Rubino
2022	The Index Thomisticus Treebank as Linked Data in the LiLa Knowledge Base. Francesco Mambrini, Marco Passarotti, Giovanni Moretti, Matteo Pellegrini
2022	The LTRC Hindi-Telugu Parallel Corpus. Vandan Mujadia, Dipti Misra Sharma
2022	The Lexometer: A Shiny Application for Exploratory Analysis and Visualization of Corpus Data. Oufan Hai, Matthew Sundberg, Katherine Trice, Rebecca Friedman, Scott Grimm
2022	The Maaloula Aramaic Speech Corpus (MASC): From Printed Material to a Lemmatized and Time-Aligned Corpus. Ghattas Eid, Esther Seyffarth, Ingo Plag
2022	The Makerere Radio Speech Corpus: A Luganda Radio Corpus for Automatic Speech Recognition. Jonathan Mukiibi, Andrew Katumba, Joyce Nakatumba-Nabende, Ali Hussein, Joshua Meyer
2022	The ManDi Corpus: A Spoken Corpus of Mandarin Regional Dialects. Liang Zhao, Eleanor Chodroff
2022	The Multilingual Microblog Translation Corpus: Improving and Evaluating Translation of User-Generated Text. Paul McNamee, Kevin Duh
2022	The Multimodal Annotation Software Tool (MAST). Bruno Cardoso, Neil Cohn
2022	The Norwegian Colossal Corpus: A Text Corpus for Training Large Norwegian Language Models. Per Egil Kummervold, Freddy Wetjen, Javier de la Rosa
2022	The Norwegian Dialect Corpus Treebank. Andre Kåsen, Kristin Hagen, Anders Nøklestad, Joel Priestley, Per Erik Solberg, Dag Trygve Truslew Haug
2022	The Norwegian Parliamentary Speech Corpus. Per Erik Solberg, Pablo Ortiz
2022	The PALMA Corpora of African Varieties of Portuguese. Tjerk Hagemeijer, Amália Mendes, Rita Gonçalves, Catarina Cornejo, Raquel Madureira, Michel Généreux
2022	The Persian Dependency Treebank Made Universal. Pegah Safari, Mohammad Sadegh Rasooli, Amirsaeid Moloodi, Alireza Nourian
2022	The Project Dialogism Novel Corpus: A Dataset for Quotation Attribution in Literary Texts. Krishnapriya Vishnubhotla, Adam Hammond, Graeme Hirst
2022	The Robotic Surgery Procedural Framebank. Marco Bombieri, Marco Rospocher, Simone Paolo Ponzetto, Paolo Fiorini
2022	The Search for Agreement on Logical Fallacy Annotation of an Infodemic. Claire Bonial, Austin Blodgett, Taylor Hudson, Stephanie M. Lukin, Jeffrey Micher, Douglas Summers-Stay, Peter Sutor Jr., Clare R. Voss
2022	The Speed-Vel Project: a Corpus of Acoustic and Aerodynamic Data to Measure Droplets Emission During Speech Interaction. Francesca Carbone, Gilles Bouchet, Alain Ghio, Thierry Legou, Carine André, Muriel Lalain, Sabrina Kadri, Caterina Petrone, Federica Procino, Antoine Giovanni
2022	The Spoken Language Understanding MEDIA Benchmark Dataset in the Era of Deep Learning: data updates, training and evaluation tools. Gaëlle Laperrière, Valentin Pelloin, Antoine Caubrière, Salima Mdhaffar, Nathalie Camelin, Sahar Ghannay, Bassam Jabaian, Yannick Estève
2022	The Subject Annotations of the Danish Parliament Corpus (2009-2017) - Evaluated with Automatic Multi-label Classification. Costanza Navarretta, Dorte Haltrup Hansen
2022	The TalkMoves Dataset: K-12 Mathematics Lesson Transcripts Annotated for Teacher and Student Discursive Moves. Abhijit Suresh, Jennifer Jacobs, Charis Harty, Margaret Perkoff, James H. Martin, Tamara Sumner
2022	The Tembusu Treebank: An English Learner Treebank. Luís Morgado da Costa, Francis Bond, Roger Vivek Placidus Winder
2022	The Universal Anaphora Scorer. Juntao Yu, Sopan Khosla, Nafise Sadat Moosavi, Silviu Paun, Sameer Pradhan, Massimo Poesio
2022	The VoxWorld Platform for Multimodal Embodied Agents. Nikhil Krishnaswamy, William Pickard, Brittany Cates, Nathaniel Blanchard, James Pustejovsky
2022	The slurk Interaction Server Framework: Better Data for Better Dialog Models. Jana Götze, Maike Paetzel-Prüsmann, Wencke Liermann, Tim Diekmann, David Schlangen
2022	Thematic Fit Bits: Annotation Quality and Quantity Interplay for Event Participant Representation. Yuval Marton, Asad B. Sayeed
2022	Thirumurai: A Large Dataset of Tamil Shaivite Poems and Classification of Tamil Pann. Shankar Mahadevan, Rahul Ponnusamy, Prasanna Kumar Kumaresan, Prabakaran Chandran, Ruba Priyadharshini, Sangeetha Sivanesan, Bharathi Raja Chakravarthi
2022	Towards Building a Spoken Dialogue System for Argument Exploration. Annalena Aicher, Nadine Gerstenlauer, Isabel Feustel, Wolfgang Minker, Stefan Ultes
2022	Towards Evaluation of Cross-document Coreference Resolution Models Using Datasets with Diverse Annotation Schemes. Anastasia Zhukova, Felix Hamborg, Bela Gipp
2022	Towards Latvian WordNet. Peteris Paikens, Mikus Grasmanis, Agute Klints, Ilze Lokmane, Lauma Pretkalnina, Laura Rituma, Madara Stade, Laine Strankale
2022	Towards Modelling Self-imposed Filter Bubbles in Argumentative Dialogue Systems. Annalena Aicher, Wolfgang Minker, Stefan Ultes
2022	Towards Speaker Verification for Crowdsourced Speech Collections. John Mendonça, Rui Correia, Mariana Lourenço, João Freitas, Isabel Trancoso
2022	Towards Speech-only Opinion-level Sentiment Analysis. Annalena Aicher, Alisa Gazizullina, Aleksei Gusev, Yuri Matveev, Wolfgang Minker
2022	Towards Understanding Gender-Seniority Compound Bias in Natural Language Generation. Samhita Honnavalli, Aesha Parekh, Lily Ou, Sophie Groenwold, Sharon Levy, Vicente Ordonez, William Yang Wang
2022	Towards Universal Segmentations: UniSegments 1.0. Zdenek Zabokrtský, Niyati Bafna, Jan Bodnár, Lukás Kyjánek, Emil Svoboda, Magda Sevcíková, Jonás Vidra
2022	Towards a Broad Coverage Named Entity Resource: A Data-Efficient Approach for Many Diverse Languages. Silvia Severini, Ayyoob Imani, Philipp Dufter, Hinrich Schütze
2022	Towards a Cleaner Document-Oriented Multilingual Crawled Corpus. Julien Abadji, Pedro Javier Ortiz Suárez, Laurent Romary, Benoît Sagot
2022	Towards a new Ontology for Sign Languages. Thierry Declerck
2022	Towards an Open-Source Dutch Speech Recognition System for the Healthcare Domain. Cristian Tejedor García, Berrie van der Molen, Henk van den Heuvel, Arjan van Hessen, Toine Pieters
2022	Towards the Construction of a WordNet for Old English. Anas Fahad Khan, Francisco J. Minaya Gómez, Rafael Cruz González, Harry Diakoff, Javier E. Díaz-Vera, John P. McCrae, Ciara O'Loughlin, William Michael Short, Sander Stolk
2022	Towards the Detection of a Semantic Gap in the Chain of Commonsense Knowledge Triples. Yoshihiko Hayashi
2022	Tracing Syntactic Change in the Scientific Genre: Two Universal Dependency-parsed Diachronic Corpora of Scientific English and German. Marie-Pauline Krielke, Luigi Talamo, Mahmoud Fawzi, Jörg Knappen
2022	Tracking Textual Similarities in Neo-Latin Drama Networks. Andrea Peverelli, Marieke van Erp, Jan Bloemendal
2022	Training on Lexical Resources. Kenneth Church, Xingyu Cai, Yuchen Bian
2022	Transfer Learning Methods for Domain Adaptation in Technical Logbook Datasets. Farhad Akhbardeh, Marcos Zampieri, Cecilia Ovesdotter Alm, Travis Desell
2022	Transformer versus LSTM Language Models trained on Uncertain ASR Hypotheses in Limited Data Scenarios. Imran A. Sheikh, Emmanuel Vincent, Irina Illina
2022	Translation Memories as Baselines for Low-Resource Machine Translation. Rebecca Knowles, Patrick Littell
2022	Trends, Limitations and Open Challenges in Automatic Readability Assessment Research. Sowmya Vajjala
2022	Turkish Universal Conceptual Cognitive Annotation. Necva Bölücü, Burcu Can
2022	TweetTaglish: A Dataset for Investigating Tagalog-English Code-Switching. Megan Herrera, Ankit Aich, Natalie Parde
2022	UMUTextStats: A linguistic feature extraction tool for Spanish. José Antonio García-Díaz, Pedro José Vivancos Vicente, Ángela Almela, Rafael Valencia-García
2022	UgChDial: A Uyghur Chat-based Dialogue Corpus for Response Space Classification. Zulipiye Yusupujiang, Jonathan Ginzburg
2022	UniMorph 4.0: Universal Morphology. Khuyagbaatar Batsuren, Omer Goldman, Salam Khalifa, Nizar Habash, Witold Kieras, Gábor Bella, Brian Leonard, Garrett Nicolai, Kyle Gorman, Yustinus Ghanggo Ate, Maria Ryskina, Sabrina J. Mielke, Elena Budianskaya, Charbel El-Khaissi, Tiago Pimentel, Michael Gasser, William Abbott Lane, Mohit Raj, Matt Coler, Jaime Rafael Montoya Samame, Delio Siticonatzi Camaiteri, Esaú Zumaeta Rojas, Didier López Francis, Arturo Oncevay, Juan López Bautista, Gema Celeste Silva Villegas, Lucas Torroba Hennigen, Adam Ek, David Guriel, Peter Dirix, Jean-Philippe Bernardy, Andrey Scherbakov, Aziyana Bayyr-ool, Antonios Anastasopoulos, Roberto Zariquiey, Karina Sheifer, Sofya Ganieva, Hilaria Cruz, Ritván Karahóga, Stella Markantonatou, George Pavlidis, Matvey Plugaryov, Elena Klyachko, Ali Salehi, Candy Angulo, Jatayu Baxi, Andrew Krizhanovsky, Natalia Krizhanovskaya, Elizabeth Salesky, Clara Vania, Sardana Ivanova, Jennifer C. White, Rowan Hall Maudslay, Josef Valvoda, Ran Zmigrod, Paula Czarnowska, Irene Nikkarinen, Aelita Salchak, Brijesh Bhatt, Christopher Straughn, Zoey Liu, Jonathan North Washington, Yuval Pinter, Duygu Ataman, Marcin Wolinski, Totok Suhardijanto, Anna Yablonskaya, Niklas Stoehr, Hossep Dolatian, Zahroh Nuriah, Shyam Ratan, Francis M. Tyers, Edoardo M. Ponti, Grant Aiton, Aryaman Arora, Richard J. Hatcher, Ritesh Kumar, Jeremiah Young, Daria Rodionova, Anastasia Yemelina, Taras Andrushko, Igor Marchenko, Polina Mashkovtseva, Alexandra Serova, Emily Prud'hommeaux, Maria Nepomniashchaya, Fausto Giunchiglia, Eleanor Chodroff, Mans Hulden, Miikka Silfverberg, Arya D. McCarthy, David Yarowsky, Ryan Cotterell, Reut Tsarfaty, Ekaterina Vylomova
2022	Unifying Morphology Resources with OntoLex-Morph. A Case Study in German. Christian Chiarcos, Christian Fäth, Maxim Ionov
2022	Universal Dependencies for Punjabi. Aryaman Arora
2022	Universal Dependencies for Western Sierra Puebla Nahuatl. Robert Pugh, Marivel Huerta Mendez, Mitsuya Sasaki, Francis M. Tyers
2022	Universal Grammatical Dependencies for Portuguese with CINTIL Data, LX Processing and CLARIN support. António Branco, João Ricardo Silva, Luís Gomes, João António Rodrigues
2022	Universal Proposition Bank 2.0. Ishan Jindal, Alexandre Rademaker, Michal Ulewicz, Ha Linh, Huyen Nguyen, Khoi-Nguyen Tran, Huaiyu Zhu, Yunyao Li
2022	Universal Semantic Annotator: the First Unified API for WSD, SRL and Semantic Parsing. Riccardo Orlando, Simone Conia, Stefano Faralli, Roberto Navigli
2022	Unmasking the Myth of Effortless Big Data - Making an Open Source Multi-lingual Infrastructure and Building Language Resources from Scratch. Linda Wiechetek, Katri Hiovain-Asikainen, Inga Lill Sigga Mikkelsen, Sjur N. Moshagen, Flammie A. Pirinen, Trond Trosterud, Børre Gaup
2022	Unraveling the Mystery of Artifacts in Machine Generated Text. Jiashu Pu, Ziyi Huang, Yadong Xi, Guandan Chen, Weijie Chen, Rongsheng Zhang
2022	Unsupervised Attention-based Sentence-Level Meta-Embeddings from Contextualised Language Models. Keigo Takahashi, Danushka Bollegala
2022	Unsupervised Embeddings with Graph Auto-Encoders for Multi-domain and Multilingual Hate Speech Detection. Gretel Liz De la Peña Sarracén, Paolo Rosso
2022	Unsupervised Machine Translation in Real-World Scenarios. Ona De Gibert Bonet, Iakes Goenaga, Jordi Armengol-Estapé, Olatz Perez-de-Viñaspre, Carla Parra Escartín, Marina Sanchez, Marcis Pinnis, Gorka Labaka, Maite Melero
2022	User Interest Modelling in Argumentative Dialogue Systems. Annalena Aicher, Nadine Gerstenlauer, Wolfgang Minker, Stefan Ultes
2022	Using Convolution Neural Network with BERT for Stance Detection in Vietnamese. Oanh Thi Tran, Anh Cong Phung, Ngo Xuan Bach
2022	Using Linguistic Typology to Enrich Multilingual Lexicons: the Case of Lexical Gaps in Kinship. Temuulen Khishigsuren, Gábor Bella, Khuyagbaatar Batsuren, Abed Alhakim Freihat, Nandu Chandran Nair, Amarsanaa Ganbold, Hadi Khalilia, Yamini Chandrashekar, Fausto Giunchiglia
2022	Using Semantic Role Labeling to Improve Neural Machine Translation. Reinhard Rapp
2022	Using Sentence-level Classification Helps Entity Extraction from Material Science Literature. Ankan Mullick, Shubhraneel Pal, Tapas Nayak, Seung-Cheol Lee, Satadeep Bhattacharjee, Pawan Goyal
2022	Using Wiktionary to Create Specialized Lexical Resources and Datasets. Lenka Bajcetic, Thierry Declerck
2022	Using a Knowledge Base to Automatically Annotate Speech Corpora and to Identify Sociolinguistic Variation. Yaru Wu, Fabian M. Suchanek, Ioana Vasilescu, Lori Lamel, Martine Adda-Decker
2022	Using the LARA Little Prince to compare human and TTS audio quality. Elham Akhlaghi, Ingibjörg Iðha Auðhunardóttir, Anna Baczkowska, Branislav Bédi, Hakeem Beedar, Harald Berthelsen, Cathy Chua, Catia Cucchiarini, Hanieh Habibi, Ivana Horváthová, Junta Ikeda, Christèle Maizonniaux, Neasa Ní Chiaráin, Chadi Raheb, Manny Rayner, John Sloan, Nikos Tsourakis, Chunlin Yao
2022	VIMQA: A Vietnamese Dataset for Advanced Reasoning and Explainable Multi-hop Question Answering. Khang Le, Hien Nguyen, Tung Le Thanh, Minh Nguyen
2022	VISA: An Ambiguous Subtitles Dataset for Visual Scene-aware Machine Translation. Yihang Li, Shuichiro Shimizu, Weiqi Gu, Chenhui Chu, Sadao Kurohashi
2022	VaccineLies: A Natural Language Resource for Learning to Recognize Misinformation about the COVID-19 and HPV Vaccines. Maxwell A. Weinzierl, Sanda M. Harabagiu
2022	Valet: Rule-Based Information Extraction for Rapid Deployment. Dayne Freitag, John Cadigan, Robert Sasseen, Paul Kalmar
2022	Validity, Agreement, Consensuality and Annotated Data Quality. Anaëlle Baledent, Yann Mathet, Antoine Widlöcher, Christophe Couronne, Jean-Luc Manguin
2022	ViHealthBERT: Pre-trained Language Models for Vietnamese in Health Text Mining. Nguyen Phuc Minh, Tran Hoang Vu, Vu Hoang, Ta Duc Huy, Trung Huu Bui, Steven Quoc Hung Truong
2022	VoxCommunis: A Corpus for Cross-linguistic Phonetic Analysis. Emily P. Ahn, Eleanor Chodroff
2022	WeCanTalk: A New Multi-language, Multi-modal Resource for Speaker Recognition. Karen Jones, Kevin Walker, Christopher Caruso, Jonathan Wright, Stephanie M. Strassel
2022	What a Creole Wants, What a Creole Needs. Heather C. Lent, Kelechi Ogueji, Miryam de Lhoneux, Orevaoghene Ahia, Anders Søgaard
2022	What do we really know about State of the Art NER? Sowmya Vajjala, Ramya Balasubramaniam
2022	Who's in, who's out? Predicting the Inclusiveness or Exclusiveness of Personal Pronouns in Parliamentary Debates. Ines Rehbein, Josef Ruppenhofer
2022	WiC-TSV-de: German Word-in-Context Target-Sense-Verification Dataset and Cross-Lingual Transfer Analysis. Anna Breit, Artem Revenko, Narayani Blaschke
2022	Wiktextract: Wiktionary as Machine-Readable Structured Data. Tatu Ylönen
2022	Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT. Mustafa Jarrar, Mohammed Khalilia, Sana Ghanem
2022	Work Hard, Play Hard: Collecting Acceptability Annotations through a 3D Game. Federico Bonetti, Elisa Leonardelli, Daniela Trotta, Raffaele Guarasci, Sara Tonelli
2022	Writing System and Speaker Metadata for 2, 800+ Language Varieties. Daan van Esch, Tamar Lucassen, Sebastian Ruder, Isaac Caswell, Clara Rivera
2022	XLM-T: Multilingual Language Models in Twitter for Sentiment Analysis and Beyond. Francesco Barbieri, Luis Espinosa Anke, José Camacho-Collados
2022	Xposition: An Online Multilingual Database of Adpositional Semantics. Luke Gessler, Nathan Schneider, Joseph C. Ledford, Austin Blodgett
2022	ZAEBUC: An Annotated Arabic-English Bilingual Writer Corpus. Nizar Habash, David Palfreyman
2022	gaBERT - an Irish Language Model. James Barry, Joachim Wagner, Lauren Cassidy, Alan Cowap, Teresa Lynn, Abigail Walsh, Mícheál J. Ó Meachair, Jennifer Foster
2022	gaHealth: An English-Irish Bilingual Corpus of Health Data. Séamus Lankford, Haithem Afli, Orla Ni Loinsigh, Andy Way
2022	x-enVENT: A Corpus of Event Descriptions with Experiencer-specific Emotion and Appraisal Annotations. Enrica Troiano, Laura Oberländer, Maximilian Wegge, Roman Klinger
2022	»textklang« - Towards a Multi-Modal Exploration Platform for German Poetry. Nadja Schauffler, Toni Bernhart, André Blessing, Gunilla Eschenbach, Markus Gärtner, Kerstin Jung, Anna Kinder, Julia Koch, Sandra Richter, Gabriel Viehhauser, Ngoc Thang Vu, Lorenz Wesemann, Jonas Kuhn