AI Safety Fundamentals: Alignment
Podcast készítő BlueDot Impact
Kategóriák:
83 Epizód
-
Constitutional AI Harmlessness from AI Feedback
Közzétéve: 2024. 07. 19. -
Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback
Közzétéve: 2024. 07. 19. -
Illustrating Reinforcement Learning from Human Feedback (RLHF)
Közzétéve: 2024. 07. 19. -
Chinchilla’s Wild Implications
Közzétéve: 2024. 06. 17. -
Deep Double Descent
Közzétéve: 2024. 06. 17. -
Intro to Brain-Like-AGI Safety
Közzétéve: 2024. 06. 17. -
Eliciting Latent Knowledge
Közzétéve: 2024. 06. 17. -
Toy Models of Superposition
Közzétéve: 2024. 06. 17. -
Least-To-Most Prompting Enables Complex Reasoning in Large Language Models
Közzétéve: 2024. 06. 17. -
Discovering Latent Knowledge in Language Models Without Supervision
Közzétéve: 2024. 06. 17. -
ABS: Scanning Neural Networks for Back-Doors by Artificial Brain Stimulation
Közzétéve: 2024. 06. 17. -
Two-Turn Debate Doesn’t Help Humans Answer Hard Reading Comprehension Questions
Közzétéve: 2024. 06. 17. -
Imitative Generalisation (AKA ‘Learning the Prior’)
Közzétéve: 2024. 06. 17. -
An Investigation of Model-Free Planning
Közzétéve: 2024. 06. 17. -
Low-Stakes Alignment
Közzétéve: 2024. 06. 17. -
Gradient Hacking: Definitions and Examples
Közzétéve: 2024. 06. 17. -
Empirical Findings Generalize Surprisingly Far
Közzétéve: 2024. 06. 17. -
Compute Trends Across Three Eras of Machine Learning
Közzétéve: 2024. 06. 13. -
Worst-Case Thinking in AI Alignment
Közzétéve: 2024. 05. 29. -
Public by Default: How We Manage Information Visibility at Get on Board
Közzétéve: 2024. 05. 12.
Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment