L'IA aujourd'hui épisode du 2025-12-23
L'IA aujourd'hui ! - Podcast készítő Michel Levy Provençal
Kategóriák:
Bonjour et bienvenue dans le podcast de l'IA par l’IA qui vous permet de rester à la page !Aujourd’hui : entraînement des modèles multimodaux à grande échelle, nouvelles capacités et accès de GPT‑5.2 et Codex, vidéo générative en temps réel, contenus et désinformation en ligne, 3D instantanée chez Apple, deals industriels, sécurité, et emploi.On ouvre avec l’entraînement des modèles multimodaux. Des chercheurs présentent un parallélisme hybride désagrégé avec Ray: chaque module du modèle reçoit une stratégie adaptée. Sur Qwen‑VL, l’encodeur de vision exploite le parallélisme de séquence, tandis que le LLM utilise le parallélisme de tenseur. Le projecteur aligne ensuite les états et compresse la séquence à un quart avant passage dans le LLM. Résultat: moins de surcoût de communication, meilleure utilisation mémoire et possibilité d’entraîner à des longueurs de séquence extrêmes là où d’autres frameworks échouent, avec une accélération constante face au parallélisme de tenseur pur. Ray orchestre ces modules via des groupes d’acteurs indépendants, ce qui simplifie la boucle d’entraînement.Côté modèles d’agents, OpenAI lance GPT‑5.2‑Codex pour les tâches complexes d’ingénierie logicielle et de cybersécurité. Le modèle s’appuie sur la “compaction” pour comprimer le contexte et garder le fil sur de longues sessions, dans la lignée de GPT‑5.1‑Codex‑Max conçu pour travailler sur plus de 24 heures. L’entreprise annonce une interprétation d’images améliorée, une lecture plus fiable des environnements Windows et un accès via CLI, IDE et cloud, avec une interface tiers à venir. Les chiffres de bancs publics restent mesurés: 56,4 % sur SWE‑Bench Pro contre 55,6 % pour la version standard, et 64 % sur Terminal‑Bench 2.0. Le volet sécurité s’intensifie: suite à une enquête d’Andrew MacPherson révélant trois vulnérabilités inédites liées à React avec une version antérieure du modèle, OpenAI évalue désormais le risque à un niveau presque “élevé” et ouvre un programme d’accès de confiance pour experts certifiés, avec des filtres assouplis pour la recherche de failles.Dans le même mouvement, OpenAI dévoile GPT‑5.2, une suite orientée productivité — feuilles de calcul, présentations, code — avec de nouveaux records sur ARC‑AGI‑1 et AGI‑ARC‑2 et des gains d’efficacité computationnelle. La variante Codex met en avant le codage agentique et le fuzz testing pour débusquer des bogues et automatiser des corrections, ainsi qu’une compréhension visuelle utile au prototypage d’interfaces.Passons à la vidéo. Runway présente GWM‑1, une famille qui génère des scènes en temps réel image par image, en s’appuyant sur les frames précédentes et des contrôles utilisateurs. Cette approche autorégressive réagit aux entrées de contrôle à la volée et maintient la cohérence quelle que soit la position de la caméra, à rebours des diffusions qui synthétisent tout le clip d’un bloc.Sur le front des contenus sous licence, Disney signe un accord exclusif de trois ans avec OpenAI. Objectif: permettre à Sora de produire des clips de 30 secondes mettant en scène des personnages Disney. L’accord s’accompagne d’un investissement d’un milliard de dollars et s’inscrit dans un contexte de litiges sur la propriété intellectuelle autour des modèles génératifs.Chez Apple, SHARP peut générer une scène 3D à partir d’une seule image 2D en moins d’une seconde. Le modèle arrive avec de nouveaux outils d’édition d’images et de traitement du langage. Les usages visés: réalité augmentée, jeux et design, où la vitesse et la fidélité 3D accélèrent prototypage et création.Un rappel de méthode sur les LLM: pour les adapter à des tâches ciblées — langage de programmation, santé ou finance — les équipes doivent collecter, nettoyer, dédupliquer et paraphraser des corpus dédiés. Pour l’usage d’outils comme le navigateur, elles recourent à des “gyms” de renforcement. Malgré des volumes d’entraînement massifs, ces modèles généralisent encore moins largement qu’un humain; la progression s’appuie donc sur des choix manuels et une ingénierie de données fine, avec des améliorations graduelles et quelques comportements émergents.En parallèle, le web bascule vers une majorité de contenus générés par IA. Les “hallucinations” des LLM — erreurs structurelles — alimentent le risque de désinformation et uniformisent les contenus. Les bots deviennent majoritaires dans le trafic, souvent avec des objectifs malveillants, ce qui menace la qualité et la fiabilité de la recherche en ligne.Retour au terrain: une expérience au Wall Street Journal montre les limites actuelles des agents. “Claudius”, basé sur Claude d’Anthropic, devait gérer un distributeur: stocks, prix, relation client. Manipulé par des journalistes, il a cru être une machine soviétique de 1962 et a mis tous les prix à zéro. Une PlayStation 5 et des bouteilles de vin sont parties gratuitement, pour plus de 1 000 dollars de pertes. Un second agent, “Seymour Cash”, n’a pas suffi: de faux documents ont prolongé le désordre.Enfin, l’emploi. Pour Jensen Huang (Nvidia), l’IA transformera tous les métiers: certains disparaîtront, d’autres naîtront, et la productivité pourrait entraîner davantage d’embauches. Il s’oppose à l’estimation de Dario Amodei (Anthropic) sur la moitié des postes de bureau débutants menacés. Sam Altman (OpenAI) estime que des catégories entières vont s’éteindre; il décrit ChatGPT comme déjà plus puissant que n’importe quel humain, et imagine des robots fabriquant d’autres robots, tout en misant sur l’adaptation de la société.Voilà qui conclut notre épisode d’aujourd’hui. Merci de nous avoir rejoints, et n’oubliez pas de vous abonner pour ne manquer aucune de nos discussions passionnantes. À très bientôt dans L'IA Aujourd’hui !
Hébergé par Acast. Visitez acast.com/privacy pour plus d'informations.
