AI ALIGNMENT FORUM
Wikitags
AF

Sandbagging (AI)

Sandbagging (AI)

Written by Raymond Arnold last updated 27th Mar 2025

Sandbagging is when an AI system pretends to be less capable during training/evaluation.