conftrace_

← Resources & Methods

Natural Language Processing › Resources & Methods ›

Large Language Models

9,067 papers

Papers per year

Papers

Leveraging Large Language Models to Measure Gender Representation Bias in Gendered Language Corpora ACL 2025

Towards Comprehensive Evaluation of Open-Source Language Models: A Multi-Dimensional, User-Driven Approach ACL 2025

Psycholinguistic Word Features: a New Approach for the Evaluation of LLMs Alignment with Humans ACL 2025

Spatial Representation of Large Language Models in 2D Scene ACL 2025

Does Biomedical Training Lead to Better Medical Performance? ACL 2025

Cleanse: Uncertainty Estimation Approach Using Clustering-based Semantic Consistency in LLMs ACL 2025

(Towards) Scalable Reliable Automated Evaluation with Large Language Models ACL 2025

HuGME: A benchmark system for evaluating Hungarian generative LLMs ACL 2025

Fine-Tune on the Format: First Improving Multiple-Choice Evaluation for Intermediate LLM Checkpoints ACL 2025

Improving Large Language Model Confidence Estimates using Extractive Rationales for Classification ACL 2025

Bridging the LLM Accessibility Divide? Performance, Fairness, and Cost of Closed versus Open LLMs for Automated Essay Scoring ACL 2025

Prompt, Translate, Fine-Tune, Re-Initialize, or Instruction-Tune? Adapting LLMs for In-Context Learning in Low-Resource Languages ACL 2025

Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models ACL 2025

Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics ACL 2025

PersonaTwin: A Multi-Tier Prompt Conditioning Framework for Generating and Evaluating Personalized Digital Twins ACL 2025

PATCH! Psychometrics-AssisTed BenCHmarking of Large Language Models against Human Populations: A Case Study of Proficiency in 8th Grade Mathematics ACL 2025

MCQFormatBench: Robustness Tests for Multiple-Choice Questions ACL 2025

(Dis)improved?! How Simplified Language Affects Large Language Model Performance across Languages ACL 2025

Fine-Grained Constraint Generation-Verification for Improved Instruction-Following ACL 2025

Finance Language Model Evaluation (FLaME) ACL 2025

sPhinX: Sample Efficient Multilingual Instruction Fine-Tuning Through N-shot Guided Prompting ACL 2025

U-MATH: A University-Level Benchmark for Evaluating Mathematical Skills in Large Language Models ACL 2025

SSR: Alignment-Aware Modality Connector for Speech Language Models ACL 2025

Prompting LLMs: Length Control for Isometric Machine Translation ACL 2025

NAVER LABS Europe Submission to the Instruction-following Track ACL 2025