x

Hannes Whittingham

Subscribe

Message

AI Safety Technical Research Manager at Meridian Research, Cambridge UK. Background in AI Control (MARS, LASR)

64

2y

Hannes Whittingham

Subscribe

Message

AI Safety Technical Research Manager at Meridian Research, Cambridge UK. Background in AI Control (MARS, LASR)

64

2y

Unfaithful Reasoning Can Fool Chain-of-Thought Monitoring

by Benjamin Arnav, Pablo Bernabeu Perez, Tim Kostolansky, HanneWhitt, Nathan Helm-Burger, and Mary Phuong

This research was completed for LASR Labs 2025 by Benjamin Arnav, Pablo Bernabeu-Pérez, Nathan Helm-Burger, Tim Kostolansky and Hannes Whittingham. The team was supervised by Mary Phuong. Find out more about the program and express interest in upcoming iterations here. Read the full paper: "CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring."...

Jun 2, 202578