Meta propose de nouvelles couches de mémoire évolutives qui améliorent la cognition et réduisent les hallucinations

Meta propose de nouvelles couches de mémoire évolutives qui améliorent la cognition et réduisent les hallucinations


Rejoignez nos newsletters quotidiennes et hebdomadaires pour obtenir les dernières mises à jour et du contenu exclusif sur la couverture de l’IA de pointe. Plus d’informations


Alors que les entreprises continuent d’adopter des modèles de langage étendus (LLM) dans diverses applications, l’un des principaux défis auxquels elles sont confrontées est d’améliorer la connaissance factuelle des modèles et de réduire les hallucinations. Dans un nouvel article, des chercheurs de Méta-IA proposer “couches de mémoire évolutives», ce qui pourrait être l’une des nombreuses solutions possibles à ce problème.

Les couches de mémoire évolutives ajoutent plus de paramètres aux LLM pour augmenter leur capacité d’apprentissage sans nécessiter de ressources informatiques supplémentaires. L’architecture est utile pour les applications où de la mémoire supplémentaire peut être économisée pour des connaissances factuelles, mais la vitesse d’inférence de modèles plus agiles est également souhaitée.

Couches denses et à mémoire.

Les modèles de langage traditionnels utilisent des « couches denses » pour coder de grandes quantités d’informations dans leurs paramètres. Dans les couches denses, tous les paramètres sont utilisés au maximum de leurs capacités et sont pour la plupart activés en même temps lors de l’inférence. Les couches denses peuvent apprendre des fonctions complexes, et les augmenter nécessite des ressources informatiques et énergétiques supplémentaires.

En revanche, pour une connaissance factuelle simple, des couches beaucoup plus simples avec des architectures de mémoire associatives seraient plus efficaces et interprétables. C’est ce que font les couches de mémoire. Ils utilisent de simples activations clairsemées et des mécanismes de recherche de valeurs-clés pour coder et récupérer des connaissances. Les couches clairsemées occupent plus de mémoire que les couches denses, mais elles n’utilisent qu’une petite partie des paramètres à la fois, ce qui les rend beaucoup plus efficaces en termes de calcul.

Les couches de mémoire existent depuis plusieurs années, mais sont rarement utilisées dans les architectures modernes d’apprentissage profond. Ils ne sont pas optimisés pour les accélérateurs matériels actuels.

Les LLM de pointe actuels utilisent généralement une forme d’architecture « mixte d’experts » (MoE), qui utilise un mécanisme vaguement similaire aux couches de mémoire. Les modèles MoE sont composés de nombreux composants experts plus petits spécialisés dans des tâches spécifiques. Au moment de l’inférence, un mécanisme de routage détermine quel expert est activé en fonction de la séquence d’entrée. PEER, une architecture récemment développée par Google DeepMind, étend MoE à des millions d’experts, offrant un contrôle plus granulaire sur les paramètres déclenchés lors de l’inférence.

Mise à jour des couches mémoire

Les couches de mémoire sont légères en calcul mais gourmandes en mémoire, ce qui présente des défis spécifiques pour les infrastructures matérielles et logicielles actuelles. Dans leur article, les chercheurs de Meta proposent plusieurs modifications qui résolvent ces défis et permettent de l’utiliser à grande échelle.

Memory-layers Meta propose de nouvelles couches de mémoire évolutives qui améliorent la cognition et réduisent les hallucinations
Les couches mémoire peuvent stocker des connaissances en parallèle sur plusieurs GPU sans ralentir le modèle (source : arXiv)

Tout d’abord, les chercheurs ont configuré les couches de mémoire pour la parallélisation, en les répartissant sur plusieurs GPU pour stocker des millions de paires clé-valeur sans modifier les autres couches du modèle. Ils ont également implémenté un noyau CUDA spécial pour gérer les opérations à bande passante mémoire élevée. Et ils ont développé un mécanisme de partage de paramètres qui prend en charge un seul ensemble de paramètres de mémoire sur plusieurs couches de mémoire au sein d’un modèle. Cela signifie que les clés et les valeurs utilisées pour les recherches sont partagées entre les couches.

Ces modifications permettent d’implémenter des couches mémoire au sein des LLM sans ralentir le modèle.

“Les couches de mémoire, avec leurs activations clairsemées, complètent très bien les réseaux denses, offrant une plus grande capacité d’acquisition de connaissances tout en étant légères en termes de calcul”, écrivent les chercheurs. “Ils peuvent évoluer efficacement et donner aux professionnels une nouvelle direction intéressante pour échanger de la mémoire avec le calcul.”

Pour tester les couches de mémoire, les chercheurs ont modifié les modèles Llama en remplaçant une ou plusieurs couches denses par une couche de mémoire partagée. Ils ont comparé des modèles à mémoire améliorée avec des LLM denses ainsi qu’avec des modèles MoE et PEER sur plusieurs tâches, notamment la réponse à des questions factuelles, la connaissance scientifique et de bon sens du monde et le codage.

Memory-model-vs-dense-layers Meta propose de nouvelles couches de mémoire évolutives qui améliorent la cognition et réduisent les hallucinations
Un modèle de mémoire de 1,3 milliard (ligne continue) formé sur 1 milliard de jetons se rapproche des performances d’un modèle 7B (ligne pointillée) sur des tâches de réponse à des questions factuelles, car davantage de paramètres de mémoire lui sont attribués (source : arxiv).

Leurs résultats montrent que les modèles de mémoire s’améliorent considérablement par rapport aux lignes de base denses et rivalisent avec les modèles qui utilisent 2 à 4 fois plus de calculs. Ils correspondent également aux performances des modèles MoE qui ont le même budget de calcul et le même nombre de paramètres. Les performances du modèle sont particulièrement remarquables dans les tâches qui nécessitent des connaissances factuelles. Par exemple, en termes de réponse à des questions objectives, un modèle de mémoire avec 1,3 milliard de paramètres se rapproche des performances de Llama-2-7B, qui a été entraîné avec deux fois plus de jetons et 10 fois plus de calculs.

De plus, les chercheurs ont constaté que les avantages des modèles de mémoire restent cohérents avec la taille du modèle alors qu’ils ont étendu leurs expériences de 134 millions à 8 milliards de paramètres.

“Compte tenu de ces résultats, nous recommandons fortement que les couches de mémoire soient intégrées dans toutes les architectures d’IA de nouvelle génération”, écrivent les chercheurs, tout en ajoutant qu’il reste encore beaucoup à faire. “En particulier, nous espérons que de nouvelles méthodes d’apprentissage pourront être développées pour renforcer davantage l’efficacité de ces couches, permettant ainsi moins d’oublis, moins d’hallucinations et un apprentissage continu.”

Share this content:

Post Comment

Vous avez peut-être manqué