JDLS & MIAI Days

L’intelligence artificielle (IA) a franchi en 2025 un nouveau cap de maturité, avec des avancées majeures sur toutes ses modalités fondamentales : texte, image, vidéo, audio et 3D.

Texte : des modèles de langue ouverts et puissants

Les LLMs open-source ont rattrapé, voire dépassé les modèles propriétaires. Le modèle chinois DeepSeek-R1, lancé début 2025, illustre cette tendance : performance élevée, coût d’entraînement réduit, déploiement open-source. Il rivalise avec GPT-4 tout en étant téléchargeable et exécutable localement.

Les usages se diversifient : génération de texte, agents de recherche sur le web, assistants scientifiques, etc. Des interfaces comme OpenWebUI permettent même de créer un environnement IA localisé avec navigation web, intégration de modèles vocaux, ou même agents de recherche OSINT.

Mistral s’alie à OpenHands afin de développer l’IA agentic.

Image : vers la convergence vision/langage

L’année 2025 marque la montée en puissance de l’IA multimodale. Pixtral, publié par Mistral, combine vision et langage au sein d’un même modèle open-source. Il est capable d’interpréter des documents, lire des tableaux, ou répondre à des questions sur des images complexes.

Des outils locaux comme ComfyUI (interface nodale pour la génération par diffusion) permettent de contrôler finement les rendus générés, et de concevoir des workflows IA totalement personnalisés en local.

Vidéo : la génération IA se démocratise

Grâce à la méthode FramePack (proposée par Lvmin Zhang en 2025), la génération de vidéos longues devient possible sur GPU modestes (6 Go). Cette technique compacte l’information temporelle, autorisant des rendus fluides et cohérents, même pour des clips de 60 secondes.

On assiste à une explosion d’outils open-source intégrant ces approches, rendant possible la création de vidéos stylisées, animées, ou illustratives directement depuis un prompt.

Audio : la synthèse devient mobile

Des modèles comme Stable Audio Open Small (Stability AI) rendent l’IA audio exécutable sur téléphone. Création de loops, effets sonores, fond musical deviennent accessibles sans cloud.

Côté voix, les modèles open-source comme Bark produisent des voix réalistes, multilingues et expressives, ouvrant la voie à des applications de doublage, narration ou vocalisation d’agents virtuels.

3D : les premiers pas de la génération d’objets et scènes

Des plateformes comme Meshy.ai permettent aujourd’hui de générer des modèles 3D texturés depuis des descriptions textuelles. Nvidia, avec LLaMA-Mesh, explore des représentations de maillage sous forme textuelle, ouvrant la voie à la 3D par LLM. Une nouvelle version de Meshy est sortie, Meshy-5 Preview > Des performances de reconstruction impressionnantes.

Des projets comme Chat3D testent l’interfaçage langage -> 3D temps réel. L’usage reste technique, mais les progrès laissent présager une adoption dans la réalité augmentée, le design rapide, ou les jeux vidéo indépendants. Meshy reste en tête

Conclusion : tendances et événements majeurs

JDLS 2025 (Paris)

Organisée par le CNRS, la Journée Deep Learning pour la Science (JDLS 2025) a mis en lumière l’usage croissant de l’IA dans des domaines scientifiques variés : astrophysique, biologie, droit, physique des matériaux… L’accent a été mis sur l’interdisciplinarité et le besoin de maintenir l’humain dans la boucle pour éviter les biais.

👉 https://jdls-2025.sciencesconf.org

MIAI Days 2025 (Grenoble)

Tenu les 19-20 juin à Grenoble, l’événement porte sur les perspectives de l’IA dans la recherche, l’industrie, la santé et la culture. Le laboratoir du MIAI présente ses avancées, ses startups partenaires et les grands axes de l’IA durable et explicable. L’événement confirme le dynamisme de l’écosystème IA alpin.

👉 https://miai-cluster.univ-grenoble-alpes.fr 👉 https://miai-cluster.univ-grenoble-alpes.fr

En 2025, l’IA devient multimodale, distribuée, ouverte et accessible. Texte, image, vidéo, audio, 3D : toutes les modalités convergent vers un écosystème unifié et personnalisable. Les innovations se multiplient, et les événements scientifiques en témoignent : l’IA est un outil transdisciplinaire, collectif et stratégique, à la fois instrument de connaissance et sujet d’engagement éthique.

Written on June 18, 2025