FAR․AI

Mantas Mazeika - Tamper-Resistant Safeguards for LLMs [Alignment Workshop]

5:22

Mantas Mazeika - Tamper-Resistant Safeguards for LLMs [Alignment Workshop]

12 сағат бұрын

Evan Hubinger - Alignment Stress-Testing at Anthropic [Alignment Workshop]

5:26

Evan Hubinger - Alignment Stress-Testing at Anthropic [Alignment Workshop]

14 сағат бұрын

Richard Ngo - Reframing AGI Threat Models [Alignment Workshop]

5:44

Richard Ngo - Reframing AGI Threat Models [Alignment Workshop]

16 сағат бұрын

Julian Michael - Empirical Progress on Debate [Alignment Workshop]

12:40

Julian Michael - Empirical Progress on Debate [Alignment Workshop]

Күн бұрын

Micah Carroll - Targeted Manipulation & Deception in LLMs [Alignment Workshop]

12:48

Micah Carroll - Targeted Manipulation & Deception in LLMs [Alignment Workshop]

Күн бұрын

Adam Gleave - Will Scaling Solve Robustness? [Alignment Workshop]

11:47

Adam Gleave - Will Scaling Solve Robustness? [Alignment Workshop]

Күн бұрын

Alex Wei - Paradigms & Robustness [Alignment Workshop]

11:44

Alex Wei - Paradigms & Robustness [Alignment Workshop]

14 күн бұрын

Stephen Casper - Powering Up Capability Evaluations [Alignment Workshop]

13:00

Stephen Casper - Powering Up Capability Evaluations [Alignment Workshop]

14 күн бұрын

Andy Zou - Top-Down Interpretability for AI Safety [Alignment Workshop]

19:08

Andy Zou - Top-Down Interpretability for AI Safety [Alignment Workshop]

14 күн бұрын

Atticus Geiger - State of Interpretability & Ideas for Scaling Up [Alignment Workshop]

21:14

Atticus Geiger - State of Interpretability & Ideas for Scaling Up [Alignment Workshop]

14 күн бұрын

Kwan Yee Ng - AI Policy in China [Alignment Workshop]

8:53

Kwan Yee Ng - AI Policy in China [Alignment Workshop]

14 күн бұрын

Anca Dragan - Optimized Misalignment [Alignment Workshop]

40:39

Anca Dragan - Optimized Misalignment [Alignment Workshop]

21 күн бұрын

Buck Shlegeris - AI Control [Alignment Workshop]

29:44

Buck Shlegeris - AI Control [Alignment Workshop]

21 күн бұрын

Beth Barnes - METR Updates & Research Directions [Alignment Workshop]

23:14

Beth Barnes - METR Updates & Research Directions [Alignment Workshop]

21 күн бұрын

FAR.Research: Planning in a recurrent neural network that plays Sokoban

2:16

FAR.Research: Planning in a recurrent neural network that plays Sokoban

Ай бұрын

Andrew Freedman - Campaigns in Emerging Issues: Lessons Learned from the Field

56:18

Andrew Freedman - Campaigns in Emerging Issues: Lessons Learned from the Field

2 ай бұрын

Stephen Casper - Generalized Adversarial Training and Testing

5:25

Stephen Casper - Generalized Adversarial Training and Testing

3 ай бұрын

Neel Nanda - Mechanistic Interpretability: A Whirlwind Tour

21:32

Neel Nanda - Mechanistic Interpretability: A Whirlwind Tour

3 ай бұрын

Nicholas Carlini - Some Lessons from Adversarial Machine Learning

16:29

Nicholas Carlini - Some Lessons from Adversarial Machine Learning

3 ай бұрын

Vincent Conitzer - Game Theory and Social Choice for Cooperative AI

5:17

Vincent Conitzer - Game Theory and Social Choice for Cooperative AI

3 ай бұрын

Mary Phuong - Dangerous Capability Evals: Basis for Frontier Safety

15:16

Mary Phuong - Dangerous Capability Evals: Basis for Frontier Safety

3 ай бұрын

Zhaowei Zhang - Research Proposal: The 3-Layer Paradigm for Implementing Sociotechnical AI Alignment

5:08

Zhaowei Zhang - Research Proposal: The 3-Layer Paradigm for Implementing Sociotechnical AI Alignment

3 ай бұрын

Vienna Alignment Workshop Panel Discussion - Current Issues in AI Safety

44:37

Vienna Alignment Workshop Panel Discussion - Current Issues in AI Safety

3 ай бұрын

Aditya Gopalan - Towards Reliable Alignment: Uncertainty-Aware RLHF

5:25

Aditya Gopalan - Towards Reliable Alignment: Uncertainty-Aware RLHF

3 ай бұрын

Vikrant Varma - Challenges With Unsupervised LLM Knowledge Discovery

6:31

Vikrant Varma - Challenges With Unsupervised LLM Knowledge Discovery

3 ай бұрын

Jan Leike - Supervising AI on hard tasks

33:35

Jan Leike - Supervising AI on hard tasks

3 ай бұрын

Oliver Klingefjord - What are Human Values, and How Do We Align AI to Them?

4:20

Oliver Klingefjord - What are Human Values, and How Do We Align AI to Them?

3 ай бұрын

Sophie Bridgers - Scalable Oversight: A Rater Assist Approach

5:39

Sophie Bridgers - Scalable Oversight: A Rater Assist Approach

3 ай бұрын

Alex Tamkin - Measuring and Improving Human Agency in a World of AI Agents

5:37

Alex Tamkin - Measuring and Improving Human Agency in a World of AI Agents

3 ай бұрын

Пікірлер