AI Safety Fundamentals: Alignment
Podcast készítő BlueDot Impact
Kategóriák:
83 Epizód
-
Public by Default: How We Manage Information Visibility at Get on Board
Közzétéve: 2024. 05. 12. -
Writing, Briefly
Közzétéve: 2024. 05. 12. -
Being the (Pareto) Best in the World
Közzétéve: 2024. 05. 04. -
How to Succeed as an Early-Stage Researcher: The “Lean Startup” Approach
Közzétéve: 2024. 04. 23. -
Become a Person who Actually Does Things
Közzétéve: 2024. 04. 17. -
Planning a High-Impact Career: A Summary of Everything You Need to Know in 7 Points
Közzétéve: 2024. 04. 16. -
Working in AI Alignment
Közzétéve: 2024. 04. 14. -
Computing Power and the Governance of AI
Közzétéve: 2024. 04. 07. -
AI Control: Improving Safety Despite Intentional Subversion
Közzétéve: 2024. 04. 07. -
Emerging Processes for Frontier AI Safety
Közzétéve: 2024. 04. 07. -
AI Watermarking Won’t Curb Disinformation
Közzétéve: 2024. 04. 07. -
Challenges in Evaluating AI Systems
Közzétéve: 2024. 04. 07. -
Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small
Közzétéve: 2024. 04. 01. -
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
Közzétéve: 2024. 03. 31. -
Zoom In: An Introduction to Circuits
Közzétéve: 2024. 03. 31. -
Weak-To-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision
Közzétéve: 2024. 03. 26. -
Can We Scale Human Feedback for Complex AI Tasks?
Közzétéve: 2024. 03. 26. -
Machine Learning for Humans: Supervised Learning
Közzétéve: 2023. 05. 13. -
Visualizing the Deep Learning Revolution
Közzétéve: 2023. 05. 13. -
Four Background Claims
Közzétéve: 2023. 05. 13.
Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment