AI ALIGNMENT FORUM
AF

562

AI ALIGNMENT FORUM
AF

562

Benjamin Hilton — AI Alignment Forum

Benjamin Hilton

Ω69100

Head of Alignment at UK AI Security Institute (AISI). Previously 80,000 Hours, HM Treasury, Cabinet Office, Department for International Trade, Imperial College London.

Sequences

Posts

Sorted by New

2Assuring Agent Safety Evaluations By Analysing Transcripts

20d

6Research Areas in Methods for Post-training and Elicitation (The Alignment Project by UK AISI)

3mo

7Research Areas in Benchmark Design and Evaluation (The Alignment Project by UK AISI)

3mo

3Research Areas in Probabilistic Methods (The Alignment Project by UK AISI)

3mo

8Research Areas in Evaluation and Guarantees in Reinforcement Learning (The Alignment Project by UK AISI)

3mo

13The Alignment Project by UK AISI

3mo

35An alignment safety case sketch based on debate

6mo

47UK AISI’s Alignment Team: Research Agenda

6mo

33A sketch of an AI control safety case

9mo

38Automation collapse

Wikitag Contributions

Comments

Sorted by

Newest

No Comments Found

No wikitag contributions to display.

The Alignment Project Research Agenda

UK AISI Alignment Team: Debate Sequence

2Assuring Agent Safety Evaluations By Analysing Transcripts

20d

6Research Areas in Methods for Post-training and Elicitation (The Alignment Project by UK AISI)

3mo

7Research Areas in Benchmark Design and Evaluation (The Alignment Project by UK AISI)

3mo

3Research Areas in Probabilistic Methods (The Alignment Project by UK AISI)

3mo

8Research Areas in Evaluation and Guarantees in Reinforcement Learning (The Alignment Project by UK AISI)

3mo

13The Alignment Project by UK AISI

3mo

35An alignment safety case sketch based on debate

6mo

47UK AISI’s Alignment Team: Research Agenda

6mo

33A sketch of an AI control safety case

9mo

38Automation collapse