AI Safety Fundamentals: Alignment
Podcast készítő BlueDot Impact

Kategóriák:
83 Epizód
-
Is Power-Seeking AI an Existential Risk?
Közzétéve: 2023. 05. 13. -
Where I Agree and Disagree with Eliezer
Közzétéve: 2023. 05. 13. -
Supervising Strong Learners by Amplifying Weak Experts
Közzétéve: 2023. 05. 13. -
Measuring Progress on Scalable Oversight for Large Language Models
Közzétéve: 2023. 05. 13. -
Least-To-Most Prompting Enables Complex Reasoning in Large Language Models
Közzétéve: 2023. 05. 13. -
Summarizing Books With Human Feedback
Közzétéve: 2023. 05. 13. -
Takeaways From Our Robust Injury Classifier Project [Redwood Research]
Közzétéve: 2023. 05. 13. -
AI Safety via Debatered Teaming Language Models With Language Models
Közzétéve: 2023. 05. 13. -
High-Stakes Alignment via Adversarial Training [Redwood Research Report]
Közzétéve: 2023. 05. 13. -
AI Safety via Debate
Közzétéve: 2023. 05. 13. -
Robust Feature-Level Adversaries Are Interpretability Tools
Közzétéve: 2023. 05. 13. -
Introduction to Logical Decision Theory for Computer Scientists
Közzétéve: 2023. 05. 13. -
Debate Update: Obfuscated Arguments Problem
Közzétéve: 2023. 05. 13. -
Discovering Latent Knowledge in Language Models Without Supervision
Közzétéve: 2023. 05. 13. -
Feature Visualization
Közzétéve: 2023. 05. 13. -
Toy Models of Superposition
Közzétéve: 2023. 05. 13. -
Understanding Intermediate Layers Using Linear Classifier Probes
Közzétéve: 2023. 05. 13. -
Acquisition of Chess Knowledge in Alphazero
Közzétéve: 2023. 05. 13. -
Careers in Alignment
Közzétéve: 2023. 05. 13. -
Embedded Agents
Közzétéve: 2023. 05. 13.
Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment