La nouvelle technique rStar-Math de Microsoft met à jour les petits modèles pour surpasser l’aperçu o1 d’OpenAI sur les problèmes mathématiques
Rejoignez nos newsletters quotidiennes et hebdomadaires pour obtenir les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Plus d’informations
Microsoft double le potentiel des petits modèles de langage (SLM) avec la présentation de rStar-Mathune nouvelle technique de raisonnement qui peut être appliquée aux petits modèles pour améliorer leurs performances sur des problèmes mathématiques à l’aide de techniques de raisonnement : performances similaires et dans certains cas supérieures au modèle de prévisualisation o1 d’OpenAI.
Bien qu’il soit encore en phase de recherche, comme décrit dans un article publié sur le site de pré-revue arXiv.org et crédité à huit auteurs de Microsoft, de l’Université de Pékin et de l’Université Tsinghua en Chine : la technique a été appliquée à plusieurs modèles open source plus petits, y compris le Phi-3 mini de Microsoft, le Qwen-1.5B d’Alibaba (un modèle de 1,5 milliard de paramètres ) et Qwen-7B (un modèle à 7 milliards de paramètres). Il a montré des performances améliorées sur chacun d’entre eux, surpassant même le modèle le plus avancé d’OpenAI à l’époque. MATHÉMATIQUES (résolution de problèmes de mots) benchmark tiers de 12 500 questions couvrant diverses branches comme la géométrie et l’algèbre, et tous les niveaux de difficulté.
Bref, selon un poster sur un visage câlinLes chercheurs prévoient de rendre leur code et leurs données disponibles sur Github à l’adresse suivante : https://github.com/microsoft/rStarbien que l’un des auteurs de l’article, Li Lyna Zhang, ait écrit dans les commentaires du message de Hugging Face que l’équipe est “toujours dans le processus de révision interne de la version open source”. En tant que tel, « le référentiel reste privé pour l’instant. Restez à l’écoute!
Les membres de la communauté ont exprimé leur enthousiasme, qualifiant les innovations d’« impressionnantes » et louant la combinaison de Monte Carlo Tree Search (MCTS) avec un raisonnement étape par étape. Un commentateur a souligné la simplicité et l’utilité de l’utilisation des valeurs Q pour la notation des étapes, tandis que d’autres ont spéculé sur les applications futures dans les preuves géométriques et le raisonnement symbolique.
Cette nouvelle suit de près l’ouverture du modèle Phi-4 de Microsoft, un système d’IA plus petit de 14 milliards de paramètres désormais disponible sur Hugging Face sous la licence permissive du MIT.
Alors que la sortie de Phi-4 a élargi l’accès à de petits modèles hautes performances, rStar-Math démontre une approche spécialisée : utiliser des systèmes d’IA plus petits pour obtenir des résultats de pointe en matière de raisonnement mathématique.
rStar-Math fonctionne en utilisant plusieurs modèles et composants différents pour aider un petit modèle cible à « évoluer tout seul »
La clé de rStar-Math est qu’il exploite la recherche arborescente de Monte Carlo (MCTS), une méthode qui imite la « pensée profonde » humaine en affinant de manière itérative, étape par étape, des solutions à des problèmes mathématiques.
Les chercheurs ont utilisé MCTS car il « décompose les problèmes mathématiques complexes en tâches de génération plus simples en une seule étape, réduisant ainsi la difficulté » pour les modèles plus petits.
Cependant, ils n’ont pas simplement appliqué les SCTM comme l’ont fait d’autres chercheurs. Au lieu de cela, dans un coup de génie, ils demandent également au modèle qu’ils ont formé de toujours produire ses étapes de raisonnement de « chaîne de pensée » sous forme de descriptions en langage naturel. et Code Python.
Ils exigeaient que le modèle inclue des réponses en langage naturel sous forme de commentaires sur le code Python et que seules les sorties utilisant Python soient utilisées pour entraîner le modèle.
Les chercheurs ont également formé un « modèle politique » pour générer des étapes de raisonnement mathématique et un modèle de préférence de processus (PPM) pour sélectionner les étapes les plus prometteuses pour résoudre les problèmes, et les ont améliorés en quatre cycles « d’auto-évolution », avec chaque modèle. améliorer l’autre.
Pour leurs données initiales, les chercheurs ont déclaré avoir utilisé “747 000 problèmes de mots mathématiques provenant de sources accessibles au public”, ainsi que leurs solutions, mais avoir généré de nouvelles étapes pour les résoudre en utilisant les deux modèles décrits ci-dessus.
Enregistrer les résultats
Après quatre cycles d’auto-évolution, rStar-Math a franchi des étapes importantes :
• Dedans Référence MATHÉMATIQUESLa précision du modèle Qwen2.5-Math-7B est passée de 58,8 % à 90,0 %, dépassant OpenAI o1-preview.
• Dedans Examen américain de mathématiques sur invitation (AIME)a résolu 53,3 % des problèmes, se classant parmi les 20 % des meilleurs concurrents du secondaire.
Ces résultats mettent en évidence la puissance des SLM pour gérer un raisonnement mathématique complexe, traditionnellement dominé par des systèmes plus vastes.
Est-ce que c’est plus petit, c’est mieux ?
Ces dernières années, l’innovation dans le domaine de l’IA a été largement motivée par l’expansion des modèles linguistiques, et l’augmentation des paramètres est considérée comme un moyen d’améliorer les performances. Cependant, les coûts élevés associés à ces modèles massifs, depuis les ressources de calcul jusqu’à la consommation d’énergie, ont soulevé des questions sur l’évolutivité.
Microsoft propose une voie alternative, axée sur l’efficacité. Le lancement de rStar-Math souligne encore cet engagement en démontrant comment les SLM peuvent rivaliser (et dans certains cas surpasser) les capacités de leurs homologues plus grands.
Les doubles versions de Microsoft de Phi-4 et de l’article rStar-Math suggèrent que des modèles compacts et spécialisés peuvent fournir de puissantes alternatives aux plus grands systèmes de l’industrie.
De plus, en surpassant les plus grands concurrents dans des benchmarks clés, ces modèles remettent en question l’idée selon laquelle plus grand est toujours mieux. Ils ouvrent la porte aux organisations de taille moyenne et aux chercheurs universitaires pour accéder à des capacités de pointe sans le fardeau financier ou environnemental des modèles de masse.
Share this content:
Post Comment