Anna Soligo

[Replication] Crosscoder-based Stage-Wise Model Diffing

Introduction Anthropic recently released Stage-Wise Model Diffing, which presents a novel way of tracking how transformer features change during fine-tuning. We've replicated this work on a TinyStories-33M language model to study feature changes in a more accessible research context. Instead of SAEs we worked with single-model all-layer crosscoders, and found...

Mar 22, 202525

Anna Soligo

Anna Soligo

Narrow Misalignment is Hard, Emergent Misalignment is Easy

Model Organisms for Emergent Misalignment

Convergent Linear Representations of Emergent Misalignment

[Replication] Crosscoder-based Stage-Wise Model Diffing

Anna Soligo

Narrow Misalignment is Hard, Emergent Misalignment is Easy

Model Organisms for Emergent Misalignment

Convergent Linear Representations of Emergent Misalignment

[Replication] Crosscoder-based Stage-Wise Model Diffing

Narrow Misalignment is Hard, Emergent Misalignment is Easy

Convergent Linear Representations of Emergent Misalignment

Model Organisms for Emergent Misalignment

[Replication] Crosscoder-based Stage-Wise Model Diffing