Counterfactual Explanations and Algorithmic Recourse for Trustworthy AI
Artificial Intelligence, Trustworthy AI, Counterfactual Explanations, Algorithmic Recourse
Summary

Many of the most celebrated recent advances in artificial intelligence (AI) have been built on the back of highly complex and opaque models that need little human oversight to achieve strong predictive performance. But while their capacity to recognize patterns from raw data is impressive, their decision-making process is neither robust nor well understood. This has so far inhibited trust and widespread adoption of these technologies. This thesis contributes to research efforts aimed at tackling these challenges, through interdisciplinary insights and methodological contributions.
The principle goal of this work is to contribute methods that help us in making opaque AI models more trustworthy. Specifically, we aim to (1) explore and challenge existing technologies and paradigms in the field; (2) improve our ability to hold opaque models accountable through thorough scrutiny; and, (3) leverage the results of such scrutiny during training to improve the trustworthiness of models.
Methodologically, the thesis focuses on counterfactual explanations and algorithmic recourse for individuals subjected to opaque AI systems. We explore what type of real-world dynamics can be expected to play out when recourse is provided and implemented in practice. Based on our finding that individual cost minimization–a core objective in recourse–neglects hidden external costs of recourse itself, we revisit yet another established objective: namely, that explanations should be plausible first and foremost. Our work demonstrates that a narrow focus on this objective can mislead us into trusting fundamentally untrustworthy systems. To avoid this scenario, we propose a novel method that aids us in disclosing explanations that are maximally faithful, that is consistent with the behavior of models. This not only allows us to assess the trustworthiness of models, but also improve it: we show that faithful explanations can be used during training to ensure that models learn plausible explanations.
Finally, we also critically assess efforts towards trustworthy AI in the context of modern large language models (LLM). Specifically, we cast doubt on recent findings and practices presented in the field of mechanistic interpretability and caution our fellow researchers in this space against misinterpreting and inflating their findings.
In summary, this thesis makes cutting-edge research contributions that improve our ability to make opaque AI models more trustworthy. Beyond our core research contributions, this thesis makes substantial contributions to open-source software. Through various software packages that we have developed, we make our research and that of others more accessible.
Samenvatting
Veel van de meest geprezen recente ontwikkelingen op het gebied van kunstmatige intelligentie (AI) zijn gebouwd op basis van zeer complexe en intransparante modellen die weinig menselijk toezicht nodig hebben om sterke voorspellende prestaties te behalen. Maar hoewel hun vermogen om patronen uit ruwe data te herkennen indrukwekkend is, is hun besluitvormingsproces noch robuust noch goed begrepen. Dit heeft tot nu toe het vertrouwen in en de wijdverspreide adoptie van deze technologieën belemmerd. Dit proefschrift draagt bij aan onderzoeksinspanningen die gericht zijn op het aanpakken van deze uitdagingen, door middel van interdisciplinaire inzichten en methodologische bijdragen.
Het hoofddoel van dit werk is om methoden bij te dragen die ons helpen met het betrouwbaarder maken van intransparante AI-modellen. Specifiek streven we ernaar om (1) bestaande technologieën en paradigma’s in het veld te verkennen en te bevragen; (2) ons vermogen te verbeteren om intransparante modellen verantwoordelijk te houden door middel van grondige inspectie; en, (3) de resultaten van dergelijke inspectie tijdens de modeltraining te benutten om de betrouwbaarheid van modellen te verbeteren.
Methodologisch richt het proefschrift zich op ‘counterfactual explanations’–contra-feitelijke verklaringen–en ‘algorithmic recourse’–algoritmische hulpmiddelen–voor individuen die worden blootgesteld aan intransparante AI-systemen. We onderzoeken welke dynamieken in de praktijk kunnen worden verwacht wanneer algorithmic recourse worden aangeboden en geïmplementeerd. Gebaseerd op onze bevinding dat individuele kostenminimalisatie—een kerndoelstelling bij recourse—verborgen externe kosten van recourse zelf negeert, heroverwegen we nog een ander algemeen aanvaard doel: namelijk dat de uitleg van algoritmische beslissingen in de eerste plaats plausibel moeten zijn. Ons werk toont aan dat een dergelijke interpretatie van uitlegbaarheid ons kan misleiden om fundamenteel onbetrouwbare systemen te vertrouwen.
Om dit scenario te voorkomen, stellen we een nieuwe methode voor die ons helpt bij het vinden van verklaringen die zo goed mogelijk aansluiten bij het daadwerkelijke gedrag van modellen. Dit stelt ons in staat de betrouwbaarheid van AI niet alleen te beoordelen, maar ook te verbeteren: we laten zien dat waarheidsgetrouwe verklaringen tijdens de training kunnen worden gebruikt om te verzekeren dat modellen plausibele verklaringen leren.
Tot slot kijken we kritisch naar het vraagstuk van betrouwbare AI in de context van moderne grote taalmodellen (LLMs). Specifieker stellen we vragen bij recente bevindingen en praktijken in het veld van mechanistische interpreteerbaarheid, en waarschuwen we onze collega-onderzoekers in dit gebied voor het verkeerd interpreteren en opblazen van hun resultaten.
Samenvattend levert dit proefschrift baanbrekende onderzoeksbijdragen die ons vermogen verbeteren om intransparante AI-modellen betrouwbaarder te maken. Naast onze kernonderzoeksbijdragen levert dit proefschrift substantiële bijdragen aan open-source software. Door middel van verschillende softwarepakketten die we hebben ontwikkeld, maken we ons onderzoek en dat van anderen toegankelijker.