AI Safety Fundamentals: Alignment

Podcast készítő BlueDot Impact

Kategóriák:

83 Epizód

  1. Constitutional AI Harmlessness from AI Feedback

    Közzétéve: 2024. 07. 19.
  2. Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

    Közzétéve: 2024. 07. 19.
  3. Illustrating Reinforcement Learning from Human Feedback (RLHF)

    Közzétéve: 2024. 07. 19.
  4. Chinchilla’s Wild Implications

    Közzétéve: 2024. 06. 17.
  5. Deep Double Descent

    Közzétéve: 2024. 06. 17.
  6. Intro to Brain-Like-AGI Safety

    Közzétéve: 2024. 06. 17.
  7. Eliciting Latent Knowledge

    Közzétéve: 2024. 06. 17.
  8. Toy Models of Superposition

    Közzétéve: 2024. 06. 17.
  9. Least-To-Most Prompting Enables Complex Reasoning in Large Language Models

    Közzétéve: 2024. 06. 17.
  10. Discovering Latent Knowledge in Language Models Without Supervision

    Közzétéve: 2024. 06. 17.
  11. ABS: Scanning Neural Networks for Back-Doors by Artificial Brain Stimulation

    Közzétéve: 2024. 06. 17.
  12. Two-Turn Debate Doesn’t Help Humans Answer Hard Reading Comprehension Questions

    Közzétéve: 2024. 06. 17.
  13. Imitative Generalisation (AKA ‘Learning the Prior’)

    Közzétéve: 2024. 06. 17.
  14. An Investigation of Model-Free Planning

    Közzétéve: 2024. 06. 17.
  15. Low-Stakes Alignment

    Közzétéve: 2024. 06. 17.
  16. Gradient Hacking: Definitions and Examples

    Közzétéve: 2024. 06. 17.
  17. Empirical Findings Generalize Surprisingly Far

    Közzétéve: 2024. 06. 17.
  18. Compute Trends Across Three Eras of Machine Learning

    Közzétéve: 2024. 06. 13.
  19. Worst-Case Thinking in AI Alignment

    Közzétéve: 2024. 05. 29.
  20. Public by Default: How We Manage Information Visibility at Get on Board

    Közzétéve: 2024. 05. 12.

1 / 5

Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment

Visit the podcast's native language site