IA : volée d’annonces chez Mistral, Github, OpenAI, Google et Kyutai

Wow, much IA !

Durant les deux derniers jours, de nombreuses annonces ont eu lieu dans le monde de l’intelligence artificielle. Alors que s’ouvre en France le sommet sur l’IA, plusieurs entreprises ont lancé de nouveaux produits, dont Mistral, GitHub, OpenAI, Google et Kyutai. Passage en revue.

On commence par Mistral, qui vient de lancer son application mobile pour Le Chat, son assistant maison. L’application est disponible pour iOS/iPadOS (15.1 minimum) et Android (7.0 minimum) et est traduite dans de nombreuses langues, dont le français bien sûr.

Les performances comme argument

Le lancement de ces applications mobiles était attendu. L’entreprise française doit lutter dans un marché à la concurrence féroce. Continuer à proposer une simple version web devenait donc problématique.

« Alimenté par les modèles Mistral les plus performants et à la latence la plus faible, ainsi que par les moteurs d’inférence les plus rapides de la planète, le Chat raisonne, réfléchit et répond plus rapidement que n’importe quel autre assistant de chat, jusqu’à environ 1000 mots par seconde. Nous appelons cette fonctionnalité Flash Answers, et elle est actuellement disponible en avant-première pour tous les utilisateurs », annonce ainsi tout de go Mistral dans son communiqué.

La société met donc en avant ses performances pour faire la différence. Difficile pour l’instant de juger réellement d’un potentiel écart avec des données chiffrées, mais d’après nos propres constatations, Le Chat s’est avéré particulièrement rapide, avec une grande réactivité.

Autre superlatif, Le Chat bénéficierait du « meilleur traitement des téléchargements au monde », renvoyant aux capacités de l’assistant sur tout ce qui touche à la reconnaissance de documents (OCR) et à leur analyse. Le Chat serait également à la pointe dans la génération d’images, la fonction étant alimentée par le modèle Flux Ultra de Black Forest Labs, présenté comme le plus performant. Dans le communiqué, l’entreprise n’hésite pas à se comparer à ChatGPT et Grok.

Mistral n’indique pas directement quels modèles sont utilisés pour son assistant. On sait en revanche que l’entreprise développe les siens propres, comme son modèle génératif Mistral Large, ou son modèle multimodal Pixtral. Quand la version Large de ce dernier est sortie en novembre, le communiqué mentionnait que l’un des moyens de le tester était justement Le Chat. Des améliorations pour ce dernier avaient été annoncées également il y a quelques mois. Dans l’annonce d’hier, c’est à nouveau le cas. À noter que Mistral Large et Pixtral sont tous deux présents dans Amazon Bedrock, Azure AI Studio et Google Vertex AI.

Plusieurs moyens de se différencier

Mais en dehors du délicat terrain des performances, où les percées sont vite oubliées, comment Mistral compte-t-elle se différencier ? L’entreprise dispose de plusieurs arguments. D’abord sur les prix, puisque l’entreprise profite de l’occasion pour introduire un forfait Pro, à 14,99 dollars/euros par mois.

Pour ce prix, la formule donne un accès illimité aux modèles les plus performances proposés, même si l’on ne sait pas lesquels. Mistral évoque également un « accès étendu aux réponses Flash », ce qui signifie une limite plus haute, mais une limite quand même. On note aussi la possibilité de désactiver le partage de ses informations et la présence d’un support dédié.

Mistral pourrait cependant avoir une carte à jouer sur la capacité de son assistant à tourner localement. L’offre Enterprise permet en effet de déployer Le Chat sur site, dans un environnement dédié et avec des outils personnalisés, pour exploiter si besoin les propres données de l’entreprise, sans communication avec les serveurs de Mistral. Le fonctionnement de l’assistant peut également se baser sur des modèles personnalisés. Cette capacité vient d’apparaitre, mais uniquement en accès anticipé pour l’instant.

Enfin, Mistral compte proposer bientôt des agents multi-étapes, nouveau grand axe de développement chez la concurrence également. Objectif, connecter ses contenus et systèmes avec des agents capables d’automatiser « les parties ennuyeuses de votre travail ». L’entreprise n’en dit pas plus pour l’instant, mais elle aura fort à faire. Les agents sont l’une des fonctions les plus mises en avant depuis l’année dernière, notamment chez Microsoft. La conférence Build 2024 revenait ainsi régulièrement sur cette thématique.

GitHub améliore son Copilot

Le Copilot de GitHub est devenu rapidement le produit phare de l’entreprise, rachetée par Microsoft. La filiale vient d’annoncer plusieurs évolutions importantes pour son assistant, dont… un mode agent. La nouvelle fonction doit permettre à Copilot d’itérer sur son propre code et de corriger automatiquement ses erreurs.

Le lancement de ce mode agent est une réponse du berger à bergère. GitHub a largement popularisé le concept d’assistant dans le développement, mais se retrouve menacé par de jeunes entreprises aux grandes ambitions, dont Bolt, Cursor ou encore Replit. GitHub imagine donc un monde où les développeurs seront bientôt rejoints par des équipes d’agents IA toujours plus intelligents, qui agiront comme autant de « pair-développeurs » pour prendre en charge les tâches quotidiennes.

Ce mode agent, plus autonome, cherche à analyser les exigences de la tâche complète avant de générer du code. Il peut, selon GitHub, « déduire » d’éventuelles tâches supplémentaires qui n’ont pas été spécifiées par les développeurs humains, mais qui lui semblent requises. Il va ensuite itérer sur le code produit et le résultat de ce dernier, jusqu’à ce que toutes les tâches « déduites » soient accomplies.

Et GitHub va encore plus loin. Selon l’entreprise, son mode agent est capable de reconnaitre automatiquement ses propres erreurs, peut corriger les problèmes identifiés sans intervention des développeurs, surveille les erreurs pendant l’exécution et fournit des corrections, et peut suggérer et exécuter les commandes nécessaires dans le terminal. Les nouveautés peuvent être testées en passant par la version Insiders de Visual Studio Code.

GitHub évoque également l’avenir en indiquant qu’à terme, son projet Padawan permettra d’aboutir à un agent totalement autonome, à qui on pourra confier une liste de tâches de développement. Plus précisément, on pourra confier à Padawan un problème, l’agent s’occupant alors d’en définir toutes les étapes intermédiaires et les solutions allant avec. La fonction doit arriver d’ici la fin de l’année, sans plus de précisions.

OpenAI ouvre sa recherche ChatGPT à tout le monde

Parallèlement, OpenAI vient d’ouvrir sa recherche ChatGPT à tout le monde, sans plus nécessiter de compte. Initialement, la fonction était apparue en octobre dernier pour les personnes payant un abonnement. Deux mois plus tard, elle a été étendue à l’ensemble des utilisateurs, mais en exigeant un compte. Désormais, le champ est libre pour partir plus frontalement à l’assaut de Google et des autres moteurs de recherche.

Cette ouverture aura attendu que plusieurs séries d’améliorations viennent enrichir le service. La dernière salve date de décembre, quand la recherche est devenue accessible à tous les détenteurs de comptes. OpenAI a alors ajouté diverses capacités, dont surtout l’affichage des cartes et d’informations liées, comme les points d’intérêt. Ce type de fonction progresse rapidement, Perplexity ayant par exemple fait de même récemment. Après tout, si ChatGPT et ses concurrents veulent concurrencer pleinement les moteurs de recherche, autant en reprendre tous les attributs.

Parallèlement, Microsoft a annoncé hier soir la disponibilité dans Azure OpenAI Service des préversions de GPT-4o-Mini-Realtime-Preview et GPT-4o-Mini-Audio-Preview. Le premier modèle est destiné aux interactions vocales en temps réel. Il se destine clairement aux chatbots, particulièrement ceux tournés vers la clientèle. Ce modèle doit permettre des échanges naturels avec la voix, permettant selon Microsoft une plus grande rapidité dans les questions/réponses. Le second modèle est plus général et se destine aux interactions audios au sens large. Il ne permet pas de faire plus que GPT-4o, mais peut le faire pour « une fraction de prix », selon l’éditeur.

Quand les deux modèles seront disponibles en versions finales, ils seront intégrés aux API Realtime et Chat Completion fournies par Azure OpenAI. Microsoft ne tarit pas d’éloges sur ces capacités, qui pourraient jouer un rôle dans tout ce qui touche à la génération vocale, aussi bien dans les jeux vidéo que les podcasts, en passant par le cinéma.

Google : du raisonnement et à nouveau des agents

Chez Google également la semaine a été chargée. Mercredi, la société a publié une série d’annonces sur ses modèles Gemini 2.0, dont une version expérimentale de son très attendu Gemini 2.0 Pro, qui prendra logiquement la succession de l’actuelle version 1.5 Pro. Cette préversion est disponible dans Vertex AI et Google AI Studio, et arrivera bientôt dans l’application mobile Gemini pour les détenteurs d’un compte Advanced.

Gemini 2.0 Pro prendra la relève en tant que modèle phare, avec une fenêtre de contexte de 2 milliards de jetons, ce qui correspond à peu près à 1,5 milliard de mots. Le modèle peut également « utiliser des outils tels que la recherche Google et l’exécution de code », précise l’éditeur. Dans son annonce, Google fournit un tableau réunissant différents benchmarks de ses modèles, et où Gemini 2.0 Pro arrive bien sûr en tête.

Parallèlement, Google a mis son modèle Gemini 2.0 Flash à la disposition du grand public. Annoncé initialement en décembre, il est désormais disponible depuis l’application Gemini, ainsi que dans Vertex AI et Google AI Studio.

Et puisque l’on parle de Flash, Google donne des nouvelles de deux variantes. D’abord, Gemini 2.0 Flash-Lite, une version qui se veut économique. Disponible, elle aussi, dans Google AI Studio et Vertex AI, elle doit donner le change dans un contexte largement bousculé par le modèle chinois DeepSeek. Flash-Lite garde la même fenêtre contextuelle d’un million de jetons et accepte les entrées multimodales. Selon Google, il préserve les performances de la version 1.5, tout en donnant de meilleurs résultats.

Quant à Gemini 2.0 Flash Thinking Experimental, un modèle de raisonnement disponible uniquement dans AI Studio jusqu’à présent, il arrivera bientôt dans l’application Gemini. Google n’indique cependant aucune date.

Kyutai revient avec une technologie de traduction simultanée

Kyutai, présenté comme un laboratoire en IA open-science à but non lucratif et fondé par Xavier Niel, Rodolphe Saadé et Eric Schmidt fin 2023, revient avec une nouvelle technologie. Dans un communiqué hier, Iliad annonce ainsi Hibiki, une technologie présentée comme capable d’assurer une traduction simultanée préservant la voix du locuteur. Hibiki pourrait « adapter son rythme au contenu sémantique du discours source ». La traduction orale se ferait en temps réel.

Toujours selon Iliad, Hibiki n’a pour l’instant été entrainé que pour traduire du français vers l’anglais. Il pourrait être déployé facilement dans le cloud et se montrerait assez efficace pour une « utilisation en temps réel sur mobile ».

La technologie a fait l’objet d’une publication sur ArXiv. Le modèle est open source et disponible sur Hugging Face. L’arrivée d’Hibiki se fait six mois après celle de Moshi, un prototype d’assistant vocal.

Enfin, toujours chez iliad, un plan d’investissement a été annoncé ce soir : « OpCore [le nouveau nom depuis juin 2023 de Scaleway Datacenter, NDLR], la filiale qui opère les 13 datacenters du Groupe, va investir 2,5 milliards d’euros afin de renforcer sa position de leader européen du datacenter hyperscale dédié notamment aux ressources de calcul IA ». Une annonce dans la continuité de celle de décembre 2024 quand iliad annonçait vouloir devenir « un leader européen du data center hyperscale ».

Dans la même veine, « le Groupe a aussi investi dans la plus grande capacité de calcul commercialisable en Europe pour l’IA. Ce sont ainsi près de 5 000 GPUs dernière génération qui sont mis à la disposition des entreprises pour entraîner et utiliser leurs modèles ». Parmi les partenaires il y a Mistral AI, H et Photoroom. Là encore, c’est la continuité d’une annonce de 2023.

IA : volée d’annonces chez Mistral, Github, OpenAI, Google et Kyutai

Wow, much IA !

Les performances comme argument

Plusieurs moyens de se différencier

GitHub améliore son Copilot

OpenAI ouvre sa recherche ChatGPT à tout le monde

Google : du raisonnement et à nouveau des agents

Kyutai revient avec une technologie de traduction simultanée

Trending Articles

Celleneuve - Isis Hammam

IPEF (liste d'aptitude)

Libreville : Studio à louer au ront point de nzeng ayong (Libreville)

Dakar : studio a louer a ouest foire au 2eme etage (Dakar) 100 000 FCFA

SUNU YOONOU ZIARRE GENERALE - Comment faire sa Ziarra? Les invocations et la...

Location maison à Hodan 1

[Thermique] Code erreur E60 chaudière Geminox FCX22

enregistrement / erreur F3416-1

PowerShell et Microsoft Graph : comment envoyer des e-mails avec...

Yvelines. Disparition inquiétante à Vélizy-Villacoublay : avez-vous vu...

Table de mixage ETP MPX 4005 - 20 €

Contribution n° 01/2024 du 13 juin 2024 concernant le projet de délibération...

Rufisque : Salle de séminaire

douchka dinant

Vincennes - R1C4 - Vendredi 18 Octobre 2024 - Tiercé-Quarté-Quinté

[QGIS] Re: QGIS 3.0.3: import fichier texte délimité

Recensement au titre du port sec à Tanghin-Dassouri : L'état nominatif des...

AMPLiS ANALOGIQUE STEREO D'EXCEPTION EAA PA 1000. Révisés, avec Factures. -...

Les sims 4 fichier scratch emdomagé

Le Prince d'Egypte [FRENCH DVDRiP] | Multi Liens