AI Safety Fundamentals: Alignment

Podcast készítő BlueDot Impact

Kategóriák:

83 Epizód

  1. Is Power-Seeking AI an Existential Risk?

    Közzétéve: 2023. 05. 13.
  2. Where I Agree and Disagree with Eliezer

    Közzétéve: 2023. 05. 13.
  3. Supervising Strong Learners by Amplifying Weak Experts

    Közzétéve: 2023. 05. 13.
  4. Measuring Progress on Scalable Oversight for Large Language Models

    Közzétéve: 2023. 05. 13.
  5. Least-To-Most Prompting Enables Complex Reasoning in Large Language Models

    Közzétéve: 2023. 05. 13.
  6. Summarizing Books With Human Feedback

    Közzétéve: 2023. 05. 13.
  7. Takeaways From Our Robust Injury Classifier Project [Redwood Research]

    Közzétéve: 2023. 05. 13.
  8. AI Safety via Debatered Teaming Language Models With Language Models

    Közzétéve: 2023. 05. 13.
  9. High-Stakes Alignment via Adversarial Training [Redwood Research Report]

    Közzétéve: 2023. 05. 13.
  10. AI Safety via Debate

    Közzétéve: 2023. 05. 13.
  11. Robust Feature-Level Adversaries Are Interpretability Tools

    Közzétéve: 2023. 05. 13.
  12. Introduction to Logical Decision Theory for Computer Scientists

    Közzétéve: 2023. 05. 13.
  13. Debate Update: Obfuscated Arguments Problem

    Közzétéve: 2023. 05. 13.
  14. Discovering Latent Knowledge in Language Models Without Supervision

    Közzétéve: 2023. 05. 13.
  15. Feature Visualization

    Közzétéve: 2023. 05. 13.
  16. Toy Models of Superposition

    Közzétéve: 2023. 05. 13.
  17. Understanding Intermediate Layers Using Linear Classifier Probes

    Közzétéve: 2023. 05. 13.
  18. Acquisition of Chess Knowledge in Alphazero

    Közzétéve: 2023. 05. 13.
  19. Careers in Alignment

    Közzétéve: 2023. 05. 13.
  20. Embedded Agents

    Közzétéve: 2023. 05. 13.

4 / 5

Listen to resources from the AI Safety Fundamentals: Alignment course!https://aisafetyfundamentals.com/alignment

Visit the podcast's native language site