‘How Do i Fool You?’ Manipulating User Trust via Misleading Black Box Explanations.

Explainable AI

Surrogate Explainers

Critique

Paper

Author

Published

January 1, 2020

Description

Lakkaraju and Bastani (2020) show how misleading black box explanations can manipulate users into trusting an untrustworthy model.

References

Lakkaraju, Himabindu, and Osbert Bastani. 2020. “" How Do i Fool You?" Manipulating User Trust via Misleading Black Box Explanations.” In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society, 79–85.