Message

ML engineer turned AI safety researcher.

Reach out to me via email (tamera.lanham at gmail.com) or facebook / messenger (Tamera Lanham).

272

tamera

ML engineer turned AI safety researcher.

Reach out to me via email (tamera.lanham at gmail.com) or facebook / messenger (Tamera Lanham).

tamera — AI Alignment Forum

tamera

Message

ML engineer turned AI safety researcher.

Reach out to me via email (tamera.lanham at gmail.com) or facebook / messenger (Tamera Lanham).

272

tamera

ML engineer turned AI safety researcher.

Reach out to me via email (tamera.lanham at gmail.com) or facebook / messenger (Tamera Lanham).

Measuring and Improving the Faithfulness of Model-Generated Reasoning

by Ansh Radhakrishnan, tamera, karinanguyen, Sam Bowman, and Ethan Perez

TL;DR: In two new papers from Anthropic, we propose metrics for evaluating how faithful chain-of-thought reasoning is to a language model's actual process for answering a question. Our metrics show that language models sometimes ignore their generated reasoning and other times don't, depending on the particular task + model size...

Jul 18, 2023•111

Externalized reasoning oversight: a research direction for language model alignment

Summary In this post, I’ll present a research direction that I’m interested in for alignment of pretrained language models. TL;DR: Force a language model to think out loud, and use the reasoning itself as a channel for oversight. If this agenda is successful, it could defeat deception, power-seeking, and other...

Aug 3, 2022•140