Vertraubare KI durch Counterfactual Explanations

Technische Universität Delft

Arie van Deursen
Cynthia C. S. Liem

April 25, 2025

Kurz zu mir …

  • MA Hons Economics an der University of Edinburgh, dann Master in Economics and Finance an der Barcelona School of Economics (BSE)
  • Zwei Jahre Geldpolitik bei der Bank of England, dann Master in Data Science an der BSE.
  • Heute Doktorand im Fachbereich Vertraubare KI an der Technischen Universität Delft.

Hier geht’s zur Website:

Wieso? Weshalb? Warum?

“You cannot appeal to (algorithms). They do not listen. Nor do they bend.”

— Cathy O’Neil in Weapons of Math Destruction, 2016

Agenda

Einführung: Counterfactual Explantions

Wenn das Wörtchen “wenn” nicht wär …

Problemstellung

Typischerweise geht es um belangreiche diskrete Entscheidungen:

  • Kreditwürdig oder nicht?
  • Betrugsverdacht oder nicht?
  • Straßenzulassung oder nicht?
  • Krebs oder nicht?

Problemstellung

Typischerweise geht es um belangreiche diskrete Entscheidungen:

Hund 🐶 oder Katze 🐱?

  • Kreditwürdig oder nicht?
  • Betrugsverdacht oder nicht?
  • Straßenzulassung oder nicht?
  • Krebs oder nicht?

Counterfactual Explanations

Counterfactual Explanations (CE) erklären welche Veränderungen nötig gewesen wären, damit der Algorithmus eine andere Entscheidung trifft.1

Probleme bei der Anwendung

“No such thing as a free lunch”

Wer trägt die Kosten?

Individuelle Kostenminimierung ist nicht immer optimal.1

Wer die Wahl hat …

… hat meistens auch die Qual.

Mangelnde Eindeutigkeit

Diverse Erklärungen durch CE. Quelle: Altmeyer, Deursen, et al. (2023).

Diverse Erklärungen durch CE. Quelle: Altmeyer, Deursen, et al. (2023).

Viele Bedürfnisse

Vertrauenswürdig oder nicht?

Nicht alles, was gut aussieht, ist auch wirklich gut.

Pick your Poison

Alle Erklärungen in Figure 1 sind gültig.

Welche nehmen wir?

Figure 1: Aus 9 wird 7: CEs für einen Bildklassifikator generiert durch Wachter (Wachter, Mittelstadt, and Russell 2017), Schut (Schut et al. 2021) and REVISE (Joshi et al. 2019).

Treue trumpft Plausibilität

Figure 2: ECCCos für MLP (a), Ensemble (b), JEM (c), JEM Ensemble (d).

ECCCo generiert CE die1

Figure 3: Ergebnisse für verschiedene Generatoren (from 3 to 5).

Robustheit fördert Erklärbarkeit

Mehrere Bachelorarbeiten, die untersuchen welche Methoden die Qualität von Modellen verbessern.

Vorallem Aversarial Training scheint zu helfen (Figure 4)1.

Figure 4: ECCCos für standard Model (mitte) und Model mit Aversarial Training (rechts).

Weitere Themen

  • Forschung: Können wir CE schon während des Trainings verwenden?
  • Open-Source: Unser open-source Ökosystem for Trustworthy AI in Julia (Taija) wächst
  • Counterfactual Explanations
  • Conformal Prediction
  • Bayesian Deep Learning
  • Joint Energy Models
  • Adversarial Robustness

Fragen?

References

Altmeyer, Patrick, Giovan Angela, Aleksander Buszydlik, Karol Dobiczek, Arie van Deursen, and Cynthia CS Liem. 2023. “Endogenous Macrodynamics in Algorithmic Recourse.” In 2023 IEEE Conference on Secure and Trustworthy Machine Learning (SaTML), 418–31. IEEE.
Altmeyer, Patrick, Arie van Deursen, et al. 2023. “Explaining Black-Box Models Through Counterfactuals.” In Proceedings of the JuliaCon Conferences, 1:130. 1.
Altmeyer, Patrick, Mojtaba Farmanbar, Arie van Deursen, and Cynthia CS Liem. 2024. “Faithful Model Explanations Through Energy-Constrained Conformal Counterfactuals.” In Proceedings of the AAAI Conference on Artificial Intelligence, 38:10829–37. 10.
Joshi, Shalmali, Oluwasanmi Koyejo, Warut Vijitbenjaronk, Been Kim, and Joydeep Ghosh. 2019. “Towards Realistic Individual Recourse and Actionable Explanations in Black-Box Decision Making Systems.” https://arxiv.org/abs/1907.09615.
Mothilal, Ramaravind K, Amit Sharma, and Chenhao Tan. 2020. “Explaining Machine Learning Classifiers Through Diverse Counterfactual Explanations.” In Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency, 607–17. https://doi.org/10.1145/3351095.3372850.
Pawelczyk, Martin, Teresa Datta, Johannes van-den-Heuvel, Gjergji Kasneci, and Himabindu Lakkaraju. 2023. “Probabilistically Robust Recourse: Navigating the Trade-Offs Between Costs and Robustness in Algorithmic Recourse.” https://arxiv.org/abs/2203.06768.
Poyiadzi, Rafael, Kacper Sokol, Raul Santos-Rodriguez, Tijl De Bie, and Peter Flach. 2020. FACE: Feasible and Actionable Counterfactual Explanations.” In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, 344–50.
Schut, Lisa, Oscar Key, Rory Mc Grath, Luca Costabello, Bogdan Sacaleanu, Yarin Gal, et al. 2021. “Generating Interpretable Counterfactual Explanations By Implicit Minimisation of Epistemic and Aleatoric Uncertainties.” In International Conference on Artificial Intelligence and Statistics, 1756–64. PMLR.
Slack, Dylan, Anna Hilgard, Himabindu Lakkaraju, and Sameer Singh. 2021. “Counterfactual Explanations Can Be Manipulated.” Advances in Neural Information Processing Systems 34.
Upadhyay, Sohini, Shalmali Joshi, and Himabindu Lakkaraju. 2021. “Towards Robust and Reliable Algorithmic Recourse.” Advances in Neural Information Processing Systems 34: 16926–37.
Ustun, Berk, Alexander Spangher, and Yang Liu. 2019. “Actionable Recourse in Linear Classification.” In Proceedings of the Conference on Fairness, Accountability, and Transparency, 10–19. https://doi.org/10.1145/3287560.3287566.
Wachter, Sandra, Brent Mittelstadt, and Chris Russell. 2017. “Counterfactual Explanations Without Opening the Black Box: Automated Decisions and the GDPR.” Harv. JL & Tech. 31: 841. https://doi.org/10.2139/ssrn.3063289.