Nouveau modèle d'inférence de ChatGPT

o3 pro se distingue par sa capacité à gérer des requêtes complexes. Photo : OpenAI.

OpenAI a lancé o3 Pro dans sa formule Pro à 200 $/mois et Team via API. Version améliorée d'o3 lancée il y a quelques mois, o3 Pro est considérée par l'entreprise comme la plus puissante à ce jour.

Toutes les versions étiquetées « pro » permettront de répondre à des questions plus difficiles et plus longues. Contrairement aux versions classiques de l'IA, les modèles d'inférence résolvent les problèmes étape par étape, ce qui leur permet de fonctionner de manière plus fiable et cohérente dans des domaines tels que la physique, les mathématiques et la programmation.

« Nous recommandons l'o3-pro pour les questions difficiles où la fiabilité prime sur la rapidité, et où quelques minutes d'attente valent la peine », a déclaré l'entreprise. Lors des tests partagés, l'o3-pro a surpassé les versions o3 et o1-pro.

Ben Hylak, ancien employé d'Apple et cofondateur de la start-up d'IA Raindrop, a déclaré que le nouveau modèle était bien plus intelligent. Il a rassemblé l'historique de toutes les réunions précédentes au sein de son entreprise et a ensuite demandé à o3-pro d'élaborer un plan.

Les résultats ont été impressionnants, aussi précis et analytiques qu'il l'avait espéré pour un modèle de langage étendu (LLM). Le plan comprenait des indicateurs cibles, des échéanciers, des priorités et des instructions strictes sur les éléments à éliminer complètement. « C'était tellement précis et concret que j'ai dû repenser l'avenir de mon entreprise », écrit-il.

nouveau modèle de raisonnement image 1

Les résultats de l'o3 pro (à gauche) sont plus précis et plus concrets. Photo : Ben Hylak/X.

O3-pro coûte 20 $ par million de jetons d'entrée et 80 $ par million de jetons de sortie lorsqu'il est utilisé via l'API. Cela correspond à la capacité de l'IA à mémoriser et à traiter les données. Un million de jetons d'entrée équivaut à environ 750 000 mots, soit plus que le livre Guerre et Paix , selon The Verge .

OpenAI indique que les experts ont systématiquement attribué à l'o3 pro une note supérieure à celle de l'o3 dans toutes les catégories testées. Les évaluateurs ont également attribué à l'o3 pro une note supérieure pour la cohérence sur plusieurs critères, notamment la clarté, la facilité de suivi des instructions et la précision, en particulier dans des domaines clés comme les sciences, l'éducation , la programmation, les affaires et l'aide à la rédaction.

Lors de l'AIME 2024, un test évaluant les compétences mathématiques d'un modèle, l'o3 pro a obtenu un score supérieur à celui du Gemini 2.5 Pro, l'IA phare de Google. De plus, le modèle a également surpassé le Claude 4 Opus d'Anthropic au GPQA Diamond, un test de connaissances scientifiques de niveau doctorat.

o3 pro intègre également des outils permettant de rechercher sur le web, d'analyser des fichiers, d'utiliser Python pour les calculs et la programmation, et de personnaliser les réponses en exploitant la mémoire. À ce propos, Ben Hylak a déclaré que l'outil démontre clairement sa capacité à reconnaître son environnement, à savoir quand interroger le monde extérieur (au lieu de faire semblant de savoir) et à choisir l'outil adapté à chaque tâche.

Cependant, le principal inconvénient du modèle réside dans son temps de réponse, encore plus lent que celui du o1 pro. Le YouTubeur Bijan Bowen partage cet avis. « Bien que la réponse du modèle soit assez claire, en quelques phrases seulement, le temps de réponse est assez long », a-t-il déclaré. « Surtout lorsqu'il n'y a pas suffisamment de données externes, le modèle a tendance à penser de manière aléatoire », a ajouté Ben Hylak.

L'O3-pro présente également d'autres limitations, comme l'impossibilité de générer des images et la prise en charge de la fonctionnalité Canvas. La fonctionnalité de chat temporaire de ChatGPT est actuellement désactivée sur ce modèle, le temps qu'OpenAI corrige un problème technique.

Cependant, M. Hylak a déclaré que ce modèle ne permettait pas aux utilisateurs de discuter comme Claude 3.5 Sonnet ou ChatGPT 4o. Nate B. Jones, chef de produit chez Rockerbox, a conseillé d'utiliser o3 pro pour les tâches difficiles nécessitant 15 à 20 minutes de réflexion.

Source : https://znews.vn/mo-hinh-suy-luan-moi-cua-chatgpt-post1560084.html