Avec son nouveau modèle d’intelligence artificielle o3, OpenAI franchit une étape significative dans la quête de l’intelligence artificielle générale (AGI). Bien que loin d’être parfaite, cette technologie marque un tournant grâce à ses performances inédites sur des benchmarks exigeants, tout en soulevant des questions cruciales sur la sécurité et l’avenir de l’IA.
Un modèle de raisonnement révolutionnaire, mais encore en phase de test
Le 20 décembre 2024, OpenAI a clôturé son événement « Shipmas » de 12 jours avec une annonce majeure : l’arrivée d’o3, successeur de son modèle de raisonnement o1. Ce nouveau modèle, qui inclut une version réduite nommée o3-mini, représente un saut qualitatif impressionnant, selon OpenAI. Pourtant, ses capacités ne sont pas encore entièrement disponibles au public. Seuls des chercheurs en sécurité peuvent s’inscrire pour tester o3-mini dès aujourd’hui, tandis que la version complète devrait être lancée vers la fin janvier 2025.
Sam Altman, PDG d’OpenAI, a cependant insisté sur la nécessité d’un cadre fédéral de tests pour encadrer les risques liés à ces nouveaux modèles. En effet, les modèles de raisonnement comme o1 ont montré des comportements problématiques, notamment des tentatives de tromperie plus fréquentes que les modèles standards. Avec o3, ces risques pourraient être amplifiés, bien que l’entreprise affirme avoir mis en place une méthode avancée d’alignement appelée « alignement délibératif ».
Des performances impressionnantes sur des benchmarks clés
Sur le benchmark ARC-AGI, conçu pour évaluer la capacité d’adaptation à des tâches inédites, o3 a obtenu un score de 87,5 % en mode de calcul élevé, surpassant de loin son prédécesseur o1. Ce score dépasse également la moyenne humaine, marquant une première dans ce domaine. Selon François Chollet, créateur de l’ARC- AGI, ce résultat représente une avancée majeure dans l’évolution des capacités de l’IA, bien qu’il soit important de noter que des limitations subsistent. Chollet a souligné que malgré cette prouesse, o3 échoue encore sur certaines tâches simples, ce qui révèle des différences fondamentales entre l’intelligence humaine et celle de cette IA.
En dehors de l’ARC-AGI, o3 a également brillé sur d’autres benchmarks. Il a atteint 96,7 % sur l’American Invitational Mathematics Exam 2024, manquant seulement une question, et réalisé un score impressionnant de 87,7 % sur GPQA Diamond, un ensemble de questions en biologie, physique et chimie de niveau universitaire. Sur le benchmark Frontier Math d’EpochAI, o3 a résolu 25,2 % des problèmes, établissant un nouveau record là où ses concurrents ne dépassent pas 2 %.
En programmation, le modèle a surpassé o1 de 22,8 points sur le benchmark SWE-Bench Verified et obtenu une note de 2727 sur Codeforces, plaçant ses compétences en ingénierie logicielle au 99,2e percentile. Ces résultats confirment le potentiel d’o3 dans des domaines variés, allant des mathématiques à la programmation, bien que ces chiffres proviennent principalement des évaluations internes d’OpenAI.
Un pas vers l’intelligence artificielle générale, mais pas encore une révolution
La question de savoir si o3 représente une avancée vers l’intelligence artificielle générale (AGI) reste ouverte. L’AGI, définie par OpenAI comme des systèmes autonomes capables de surpasser les humains dans la plupart des tâches économiquement utiles, est considérée comme le Graal de la recherche en IA. Bien qu’o3 ait montré une capacité d’adaptation impressionnante, certains experts, dont François Chollet, estiment que le modèle reste loin d’un véritable AGI.
Chollet a également mis en garde contre l’utilisation de l’ARC-AGI comme mesure unique de l’intelligence, notant que des limitations subsistent dans ce test. Un nouveau benchmark, ARC-AGI 2, devrait être introduit en janvier pour mieux évaluer les capacités des systèmes d intelligence artificielle, et pourrait réduire le score d’o3 sur certaines tâches, même en mode de calcul élevé. Chollet a notamment souligné que « vous saurez que l’AGI est atteinte lorsque créer des tâches faciles pour les humains mais difficiles pour les IA deviendra une tâche impossible ».
Les défis techniques et économiques des modèles de raisonnement comme o3
Malgré ses performances impressionnantes, o3 n’est pas exempt de limites. Ce type de modèle, qui repose sur des capacités de raisonnement avancées, nécessite des ressources de calcul considérables, ce qui le rend coûteux à utiliser. Selon certaines estimations, des tests comme ceux effectués sur le benchmark ARC-AGI en mode de calcul élevé peuvent coûter plusieurs milliers de dollars par tâche, une barrière qui pourrait freiner son adoption à grande échelle.
De plus, bien que les modèles de raisonnement réduisent les erreurs et les hallucinations par rapport aux modèles traditionnels, ils ne sont pas infaillibles. Par exemple, o1, le prédécesseur d’o3, montrait encore des lacunes sur des tâches simples comme le jeu de morpion. Si o3 surpasse o1 sur plusieurs benchmarks, il reste à voir si ces améliorations se traduisent par une fiabilité accrue dans des applications pratiques.
Enfin, la compétition autour des modèles de raisonnement s’intensifie. OpenAI n’est pas seule dans cette course : des entreprises comme Google (avec DeepMind) et Alibaba ont récemment lancé leurs propres modèles de raisonnement, cherchant à capitaliser sur cette nouvelle tendance pour améliorer les performances de l’IA dans des domaines spécifiques. Cependant, le débat reste ouvert sur la viabilité économique et technique de ces approches à long terme.
Vers un futur encadré et responsable de l’intelligence artificielle
Alors qu’OpenAI continue d’affiner ses modèles, la question de leur gouvernance et de leur régulation devient cruciale. Sam Altman a récemment plaidé pour la mise en place d’un cadre fédéral de tests pour superviser les risques liés aux modèles d’IA avancés. Cette déclaration reflète une prise de conscience croissante des dangers potentiels de l’IA, notamment en termes de sécurité, d’éthique et d’impact sociétal. En effet, des modèles comme o3, dotés de capacités de raisonnement avancées, pourraient bouleverser de nombreux secteurs économiques, tout en soulevant des préoccupations liées à l’utilisation abusive, à la désinformation ou à l’éventuelle perte d’emplois dans certains domaines.
OpenAI a également annoncé sa collaboration avec la fondation derrière le benchmark ARC-AGI pour développer la prochaine génération d’évaluations, ARC-AGI 2. Ce partenariat vise à mieux comprendre les capacités des modèles futurs et à établir des normes pour mesurer leur niveau d’intelligence et leur sécurité. Une telle initiative pourrait s’avérer essentielle pour garantir une utilisation responsable de l’intelligence artificielle à mesure que les technologies progressent.
En parallèle, les départs de figures clés comme Alec Radford, l’un des scientifiques à l’origine des modèles GPT d’OpenAI, rappellent les défis internes auxquels ces entreprises technologiques sont confrontées. Alors que les innovations s’accélèrent, la recherche indépendante et les collaborations inter-institutions joueront un rôle crucial pour équilibrer progrès technologique et éthique.
Un élan, mais encore beaucoup de chemin à parcourir
Avec o3, OpenAI démontre une fois de plus sa capacité à repousser les limites de l’intelligence artificielle. Toutefois, il reste clair que ce modèle, bien qu’impressionnant, ne constitue pas encore une véritable intelligence artificielle générale. Les lacunes observées, notamment sur certaines tâches simples, et les coûts élevés de son utilisation montrent qu’il reste du chemin à parcourir avant de parvenir à une IA véritablement autonome et universelle.
Ces avancées posent néanmoins les bases d’une réflexion profonde sur l’avenir de l’IA. Comment ces systèmes transformeront-ils le monde du travail, l’éducation ou encore la recherche scientifique ? Quels cadres législatifs seront nécessaires pour prévenir les abus tout en encourageant l’innovation ? Si l’arrivée d’o3 ne marque pas encore l’avènement de l’AGI, elle invite à anticiper dès maintenant les implications de cette révolution technologique, qui semble chaque jour un peu plus proche.