KZ
bin
Негізгі бет
Қазірдің өзінде танымал
Тікелей эфир
Ұнаған бейнелер
Қайтадан қараңыз
Жазылымдар
Кіру
Тіркелу
Ең жақсы KZbin
Фильм және анимация
Автокөліктер мен көлік құралдары
Музыка
Үй жануарлары мен аңдар
Спорт
Ойындар
Комедия
Ойын-сауық
Тәжірибелік нұсқаулар және стиль
Ғылым және технология
Жазылу
FAR․AI
Frontier alignment research to ensure the safe development and deployment of advanced AI systems.
5:22
Mantas Mazeika - Tamper-Resistant Safeguards for LLMs [Alignment Workshop]
12 сағат бұрын
5:26
Evan Hubinger - Alignment Stress-Testing at Anthropic [Alignment Workshop]
14 сағат бұрын
5:44
Richard Ngo - Reframing AGI Threat Models [Alignment Workshop]
16 сағат бұрын
12:40
Julian Michael - Empirical Progress on Debate [Alignment Workshop]
Күн бұрын
12:48
Micah Carroll - Targeted Manipulation & Deception in LLMs [Alignment Workshop]
Күн бұрын
11:47
Adam Gleave - Will Scaling Solve Robustness? [Alignment Workshop]
Күн бұрын
11:44
Alex Wei - Paradigms & Robustness [Alignment Workshop]
14 күн бұрын
13:00
Stephen Casper - Powering Up Capability Evaluations [Alignment Workshop]
14 күн бұрын
19:08
Andy Zou - Top-Down Interpretability for AI Safety [Alignment Workshop]
14 күн бұрын
21:14
Atticus Geiger - State of Interpretability & Ideas for Scaling Up [Alignment Workshop]
14 күн бұрын
8:53
Kwan Yee Ng - AI Policy in China [Alignment Workshop]
14 күн бұрын
40:39
Anca Dragan - Optimized Misalignment [Alignment Workshop]
21 күн бұрын
29:44
Buck Shlegeris - AI Control [Alignment Workshop]
21 күн бұрын
23:14
Beth Barnes - METR Updates & Research Directions [Alignment Workshop]
21 күн бұрын
2:16
FAR.Research: Planning in a recurrent neural network that plays Sokoban
Ай бұрын
56:18
Andrew Freedman - Campaigns in Emerging Issues: Lessons Learned from the Field
2 ай бұрын
5:25
Stephen Casper - Generalized Adversarial Training and Testing
3 ай бұрын
21:32
Neel Nanda - Mechanistic Interpretability: A Whirlwind Tour
3 ай бұрын
16:29
Nicholas Carlini - Some Lessons from Adversarial Machine Learning
3 ай бұрын
5:17
Vincent Conitzer - Game Theory and Social Choice for Cooperative AI
3 ай бұрын
15:16
Mary Phuong - Dangerous Capability Evals: Basis for Frontier Safety
3 ай бұрын
5:08
Zhaowei Zhang - Research Proposal: The 3-Layer Paradigm for Implementing Sociotechnical AI Alignment
3 ай бұрын
44:37
Vienna Alignment Workshop Panel Discussion - Current Issues in AI Safety
3 ай бұрын
5:25
Aditya Gopalan - Towards Reliable Alignment: Uncertainty-Aware RLHF
3 ай бұрын
6:31
Vikrant Varma - Challenges With Unsupervised LLM Knowledge Discovery
3 ай бұрын
33:35
Jan Leike - Supervising AI on hard tasks
3 ай бұрын
4:20
Oliver Klingefjord - What are Human Values, and How Do We Align AI to Them?
3 ай бұрын
5:39
Sophie Bridgers - Scalable Oversight: A Rater Assist Approach
3 ай бұрын
5:37
Alex Tamkin - Measuring and Improving Human Agency in a World of AI Agents
3 ай бұрын
Пікірлер