neverix

Extracting SAE task features for in-context learning

by Dmitrii Kharlapenko, neverix, Neel Nanda, and Arthur Conmy

TL;DR * We try to study task vectors in the SAE basis. This is challenging because there is no canonical way to convert an arbitrary vector in the residual stream to a linear combination of SAE features — you can't just pass an arbitrary vector through the encoder without going...

Aug 12, 202431

neverix

neverix

Self-explaining SAE features

Extracting SAE task features for in-context learning

SAE features for refusal and sycophancy steering vectors

Evolutionary prompt optimization for SAE feature visualization

neverix

Self-explaining SAE features

Extracting SAE task features for in-context learning

SAE features for refusal and sycophancy steering vectors

Evolutionary prompt optimization for SAE feature visualization

Evolutionary prompt optimization for SAE feature visualization

SAE features for refusal and sycophancy steering vectors

Extracting SAE task features for in-context learning

Self-explaining SAE features