Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

Alejandro Hernández-Cano; Alexander Hägele; Allen Hao Huang; Angelika Romanou; Antoni-Joan Solergibert; Barna Pásztor; Bettina Messmer; Dhia Garbaya; Eduard Frank Ďurech; Ido Hakimi; Juan Garcia Giraldo; Mete Ismayilzada; Negar Foroutan; Skander Moalla; Tiancheng Chen; Vinko Sabolčec; Yixuan Xu; Michael Aerni; Badr AlKhamissi; Inés Altemir Marinas; Mohammad Hossein Amani; Matin Ansaripour; Ilia Badanin; Harold Benoit; Emanuela Boros; Nicholas John Browning; Fabian Bösch; Maximilian Böther; Niklas Canova; Camille Challier; Clément Charmillot; Jonathan Coles; Jan Milan Deriu; Arnout Devos; Lukas Drescher; Daniil Dzenhaliou; Maud Ehrmann; Dongyang Fan; Simin Fan; Silin Gao; Miguel Gila; María Grandury; Diba Hashemi; Alexander Miserlis Hoyle; Jiaming Jiang; Mark Klein; Andrei Kucharavy; Anastasiia Kucherenko; Frederike Lübeck; Roman Machacek; Theofilos Ioannis Manitaras; Andreas Marfurt; Kyle Matoba; Simon Matrenok; Henrique Mendonça; Fawzi Roberto Mohamed; Syrielle Montariol; Luca Mouchel; Sven Najem-Meyer; Jingwei Ni; Gennaro Oliva; Matteo Pagliardini; Elia Palme; Andrei Panferov; Léo Paoletti; Marco Passerini; Ivan Pavlov; Auguste Poiroux; Kaustubh Ponkshe; Nathan Ranchin; Javier Rando; Mathieu Sauser; Jakhongir Saydaliev; Mukhammadali Sayfiddinov; Marian Schneider; Stefano Schuppli; Marco Scialanga; Andrei Semenov; Kumar Shridhar; Raghav Singhal; Anna Sotnikova; Alexander Sternfeld; Ayush Kumar Tarun; Paul Teiletche; Jannis Vamvas; Xiaozhe Yao; Hao Zhao; Alexander Ilic; Ana Klimovic; Andreas Krause; Caglar Gulcehre; David Rosenthal; Elliott Ash; Florian Tramer; Joost VandeVondele; Livio Veraldi; Martin Rajman; Thomas C. Schulthess; Torsten Hoefler; Antoine Bosselut; Martin Jaggi; Imanol Schlag

2026 ACL ACL 2026

Apertus: Democratizing Open and Compliant LLMs for Global Language Environments

Abstract

AbstractOpen LLMs enable AI practitioners to control development costs by building on an existing foundation for downstream applications. While offering substantial promise, current models often fail to meet the needs of users needing open solutions aligned with responsible AI principles, including data compliance, transparency, and inclusivity. In this work, we present Apertus, a fully open suite of large language models (LLMs) designed to address responsibility shortcomings in today’s open model ecosystem, namely data responsibility and global representation. Unlike many prior models that release weights without reproducible data pipelines or regard for content-owner rights, Apertus models are pretrained exclusively on openly available data, retroactively respecting robots.txt exclusions and filtering for non-permissive, toxic, and personally identifiable content. To mitigate risks of data memorization, we also adopt the Goldfish objective during pretraining, strongly suppressing verbatim recall of data while retaining downstream task performance. Apertus also drastically expands multilingual coverage, training on 15T tokens from over approximately 1800 languages, with about 40% of pretraining data allocated to non-English content. Released at 8B and 70B scales, Apertus approaches state-of-the-art results among fully open models on multilingual benchmarks, rivaling or surpassing open-weight counterparts.

Authors

Alejandro Hernández-Cano , Alexander Hägele , Allen Hao Huang , Angelika Romanou , Antoni-Joan Solergibert , Barna Pásztor , Bettina Messmer , Dhia Garbaya , Eduard Frank Ďurech , Ido Hakimi , Juan Garcia Giraldo , Mete Ismayilzada , Negar Foroutan , Skander Moalla , Tiancheng Chen , Vinko Sabolčec , Yixuan Xu , Michael Aerni , Badr AlKhamissi , Inés Altemir Marinas , Mohammad Hossein Amani , Matin Ansaripour , Ilia Badanin , Harold Benoit , Emanuela Boros , Nicholas John Browning , Fabian Bösch , Maximilian Böther , Niklas Canova , Camille Challier , Clément Charmillot , Jonathan Coles , Jan Milan Deriu , Arnout Devos , Lukas Drescher , Daniil Dzenhaliou , Maud Ehrmann , Dongyang Fan , Simin Fan , Silin Gao , Miguel Gila , María Grandury , Diba Hashemi , Alexander Miserlis Hoyle , Jiaming Jiang , Mark Klein , Andrei Kucharavy , Anastasiia Kucherenko , Frederike Lübeck , Roman Machacek , Theofilos Ioannis Manitaras , Andreas Marfurt , Kyle Matoba , Simon Matrenok , Henrique Mendonça , Fawzi Roberto Mohamed , Syrielle Montariol , Luca Mouchel , Sven Najem-Meyer , Jingwei Ni , Gennaro Oliva , Matteo Pagliardini , Elia Palme , Andrei Panferov , Léo Paoletti , Marco Passerini , Ivan Pavlov , Auguste Poiroux , Kaustubh Ponkshe , Nathan Ranchin , Javier Rando , Mathieu Sauser , Jakhongir Saydaliev , Mukhammadali Sayfiddinov , Marian Schneider , Stefano Schuppli , Marco Scialanga , Andrei Semenov , Kumar Shridhar , Raghav Singhal , Anna Sotnikova , Alexander Sternfeld , Ayush Kumar Tarun , Paul Teiletche , Jannis Vamvas , Xiaozhe Yao , Hao Zhao , Alexander Ilic , Ana Klimovic , Andreas Krause , Caglar Gulcehre , David Rosenthal , Elliott Ash , Florian Tramer , Joost VandeVondele , Livio Veraldi , Martin Rajman , Thomas C. Schulthess , Torsten Hoefler , Antoine Bosselut , Martin Jaggi , Imanol Schlag

Topics

Artificial Intelligence > Core AI > Responsible AI Natural Language Processing > Resources & Methods > Multilingual NLP Artificial Intelligence > Core AI > Large Language Models

Keywords

multilingual language model large language model responsible artificial intelligence data compliance goldfish objective

Download PDF

Related papers

No Reader Left Behind: Multi-Agent Summaries Everyone Can Understand 2026

One-step Nonautoregressive Natural Language Generation with Shortcut Flow Matching Models 2026

Optimizing Retrieval-Augmented Generation for E-Commerce How-To Assistance 2026

Make Mechanistic Interpretability Auditable: A Call to Develop Guidelines via Continuous Collaborative Reviewing 2026

MQM Re-Annotation: A Technique for Collaborative Evaluation of Machine Translation 2026