AXRP - the AI X-risk Research Podcast

Transcripts of AXRP episodes.

AXRP - the AI X-risk Research Podcast

Transcripts of AXRP episodes.

7AXRP Episode 1 - Adversarial Policies with Adam Gleave

DanielFilan

7AXRP Episode 2 - Learning Human Biases with Rohin Shah

DanielFilan

11AXRP Episode 3 - Negotiable Reinforcement Learning with Andrew Critch

DanielFilan

21AXRP Episode 4 - Risks from Learned Optimization with Evan Hubinger

DanielFilan

17AXRP Episode 5 - Infra-Bayesianism with Vanessa Kosoy

DanielFilan

13AXRP Episode 6 - Debate and Imitative Generalization with Beth Barnes

DanielFilan

23AXRP Episode 7 - Side Effects with Victoria Krakovna

DanielFilan

14AXRP Episode 8 - Assistance Games with Dylan Hadfield-Menell

DanielFilan

34AXRP Episode 9 - Finite Factored Sets with Scott Garrabrant

DanielFilan

20AXRP Episode 10 - AI’s Future and Impacts with Katja Grace

DanielFilan

13AXRP Episode 11 - Attainable Utility and Power with Alex Turner

DanielFilan

22AXRP Episode 12 - AI Existential Risk with Paul Christiano

DanielFilan

15AXRP Episode 13 - First Principles of AGI Safety with Richard Ngo

DanielFilan

15AXRP Episode 14 - Infra-Bayesian Physicalism with Vanessa Kosoy

DanielFilan

18AXRP Episode 15 - Natural Abstractions with John Wentworth

DanielFilan

14AXRP Episode 16 - Preparing for Debate AI with Geoffrey Irving

DanielFilan

10AXRP Episode 17 - Training for Very High Reliability with Daniel Ziegler

DanielFilan

8AXRP Episode 18 - Concept Extrapolation with Stuart Armstrong

DanielFilan

25AXRP Episode 19 - Mechanistic Interpretability with Neel Nanda

DanielFilan

11AXRP Episode 20 - ‘Reform’ AI Alignment with Scott Aaronson

DanielFilan

10AXRP Episode 21 - Interpretability for Engineers with Stephen Casper

DanielFilan

30AXRP Episode 22 - Shard Theory with Quintin Pope

DanielFilan

15AXRP Episode 23 - Mechanistic Anomaly Detection with Mark Xu

DanielFilan

19AXRP Episode 24 - Superalignment with Jan Leike

DanielFilan

18AXRP Episode 25 - Cooperative AI with Caspar Oesterheld

DanielFilan

8AXRP Episode 26 - AI Governance with Elizabeth Seger

DanielFilan

38AXRP Episode 27 - AI Control with Buck Shlegeris and Ryan Greenblatt

DanielFilan

6AXRP Episode 28 - Suing Labs for AI Risk with Gabriel Weil

DanielFilan

15AXRP Episode 29 - Science of Deep Learning with Vikrant Varma

DanielFilan

11AXRP Episode 30 - AI Security with Jeffrey Ladish

DanielFilan

37AXRP Episode 31 - Singular Learning Theory with Daniel Murfet

DanielFilan

13AXRP Episode 32 - Understanding Agency with Jan Kulveit

DanielFilan

20AXRP Episode 33 - RLHF Problems with Scott Emmons

DanielFilan

13AXRP Episode 34 - AI Evaluations with Beth Barnes

DanielFilan

13AXRP Episode 35 - Peter Hase on LLM Beliefs and Easy-to-Hard Generalization

DanielFilan

14AXRP Episode 36 - Adam Shai and Paul Riechers on Computational Mechanics

DanielFilan

11AXRP Episode 37 - Jaime Sevilla on Forecasting AI

DanielFilan

9AXRP Episode 38.0 - Zhijing Jin on LLMs, Causality, and Multi-Agent Systems

DanielFilan

7AXRP Episode 38.1 - Alan Chan on Agent Infrastructure

DanielFilan

20AXRP Episode 38.2 - Jesse Hoogland on Singular Learning Theory

DanielFilan

25AXRP Episode 39 - Evan Hubinger on Model Organisms of Misalignment

DanielFilan

12AXRP Episode 38.3 - Erik Jenner on Learned Look-Ahead

DanielFilan

5AXRP Episode 38.4 - Shakeel Hashim on AI Journalism

DanielFilan

7AXRP Episode 38.5 - Adrià Garriga-Alonso on Detecting AI Scheming

DanielFilan

7AXRP Episode 38.6 - Joel Lehman on Positive Visions of AI

DanielFilan

8AXRP Episode 38.7 - Anthony Aguirre on the Future of Life Institute

DanielFilan

8AXRP Episode 38.8 - David Duvenaud on Sabotage Evaluations and the Post-AGI Future

DanielFilan

13AXRP Episode 40 - Jason Gross on Compact Proofs and Interpretability

DanielFilan

17AXRP Episode 41 - Lee Sharkey on Attribution-based Parameter Decomposition

DanielFilan

7AXRP Episode 42 - Owain Evans on LLM Psychology

DanielFilan

8AXRP Episode 43 - David Lindner on Myopic Optimization with Non-myopic Approval

DanielFilan

6AXRP Episode 44 - Peter Salib on AI Rights for Human Safety

DanielFilan

15AXRP Episode 45 - Samuel Albanie on DeepMind’s AGI Safety Approach

DanielFilan

10AXRP Episode 46 - Tom Davidson on AI-enabled Coups

DanielFilan

7AXRP Episode 47 - David Rein on METR Time Horizons

DanielFilan

7mo

7AXRP Episode 48 - Guive Assadi on AI Property Rights

DanielFilan

6mo