Joschka Braun

Exploration Hacking: Can LLMs Learn to Resist RL Training?

by Eyon Jang, Joschka Braun, Damon Falck, and David Lindner

We empirically investigate exploration hacking (EH) — where models strategically alter their exploration to resist RL training — by creating model organisms that resist capability elicitation, evaluating countermeasures, and auditing frontier models for their propensity. Authors: Eyon Jang*, Damon Falck*, Joschka Braun*, Nathalie Kirch, Achu Menon, Perusha Moodley, Scott Emmons,...

May 124

Joschka Braun

Joschka Braun

A Sober Look at Steering Vectors for LLMs

A Conceptual Framework for Exploration Hacking

Exploration hacking: can reasoning models subvert RL?

Exploration Hacking: Can LLMs Learn to Resist RL Training?

Joschka Braun

A Sober Look at Steering Vectors for LLMs

A Conceptual Framework for Exploration Hacking

Exploration hacking: can reasoning models subvert RL?

Exploration Hacking: Can LLMs Learn to Resist RL Training?

Exploration Hacking: Can LLMs Learn to Resist RL Training?

A Conceptual Framework for Exploration Hacking

Exploration hacking: can reasoning models subvert RL?

A Sober Look at Steering Vectors for LLMs