← Applications

Natural Language Processing › Applications ›

Question Answering

4032 directly classified papers

Papers per year

Papers

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision–Language Models EACL 2026

Retrieval Enhancements for RAG: Insights from a Deployed Customer Support Chatbot EACL 2026

Long-Context Long-Form Question Answering for Legal Domain EACL 2026

ARQA: A Benchmark for Grounded Table–Text QA in Enterprise Annual Reports EACL 2026

PharmaQA.IT: an Italian dataset for Q&A in the pharmaceutical domain EACL 2026

Multilingual Retrieval-Augmented Generation for Knowledge-Intensive Question Answering Task EACL 2026

DebateQA: Evaluating Question Answering on Debatable Knowledge EACL 2026

Towards the First NLP Benchmark for Ladin - an Extremely Low-Resource Language EACL 2026

DF-RAG: Query-Aware Diversity for Retrieval-Augmented Generation EACL 2026

TruthTrap: A Bilingual Benchmark for Evaluating Factually Correct Yet Misleading Information in Question Answering EACL 2026

DRIVINGVQA: A Dataset for Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios EACL 2026

DashboardQA: Benchmarking Multimodal Agents for Question Answering on Interactive Dashboards EACL 2026

Knowing What’s Missing: Assessing Information Sufficiency in Question Answering EACL 2026

PATS: Personality-Aware Teaching Strategies with Large Language Model Tutors EACL 2026

Tackling Distractor Documents in Multi-Hop QA with Reinforcement and Curriculum Learning EACL 2026

RoD-TAL: A Benchmark for Answering Questions in Romanian Driving License Exams EACL 2026

Building a Conversational AI Assistant for African Travel Services with LLMs and RAG EACL 2026

Who Judges the Judge? Evaluating LLM-as-a-Judge for French Medical open-ended QA EACL 2026

Evaluating Retrieval-Augmented Generation for Medication Question Answering on Nigerian Drug Labels in Yorùbá EACL 2026

"So, How Much Do LLMs Hallucinate on Low-Resource Languages?" A Quantitative and Qualitative Analysis EACL 2026

PMWP: A Benchmark for Math Word Problem Solving in Persian EACL 2026

One Language, Three of Its Voices: Evaluating Multilingual LLMs Across Persian, Dari, and Tajiki on Translation and Understanding Tasks EACL 2026

MedLA: A Logic-Driven Multi-Agent Framework for Complex Medical Reasoning with Large Language Models AAAI 2026

No Questions are Stupid, but some are Poorly Posed: Understanding Poorly-Posed Information-Seeking Questions ACL 2025

ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use ACL 2025