x

AI ALIGNMENT FORUM

AF

Armaan A. Abraham — AI Alignment Forum

Armaan A. Abraham

Armaan A. Abraham

Message

34

Ω

13

1

3

3y

Armaan A. Abraham

34

Ω

13

3y

Deep sparse autoencoders yield interpretable features too

Summary * I sandwich the sparse layer in a sparse autoencoder (SAE) between non-sparse lower-dimensional layers and refer to this as a deep SAE. * I find that features from deep SAEs are at least as interpretable as features from standard shallow SAEs. * I claim that this is not...

Feb 23, 2025•31