x

AI ALIGNMENT FORUM

AF

Ram Bharadwaj — AI Alignment Forum

Ram Bharadwaj

Top postsTop post

Ram Bharadwaj

Message

94

Ω

13

6

28

5y

Ram Bharadwaj

94

Ω

13

5y

Tracing Eval-Awareness Emergence Through Training of OLMo 3

TL;DR Recent work from Goodfire & UK AISI – Verbalized Eval Awareness Inflates Measured Safety – shows that newer open-weight models verbalize evaluation-awareness (VEA) more often, and that this inflates measured safety. Between OLMo-3-32B-Think and OLMo-3.1-32B-Think – identical base, SFT, DPO, and RL data, differing only in an additional ~3...