Le cas court de l'action Nvidia
Traduction du post Linkedin de Jeffrey Emanuel intitulé "The Short Case for Nvidia Stock"
Traduction du post Linkedin de Jeffrey Emanuel intitulé "The Short Case for Nvidia Stock" écrit le 25/01/2025, soit deux jours avant la chute en bourse de Nvidia (600 milliards de dollars), la pire de l'Histoire de la Bourse US.
J'ai passé une dizaine d'années à travailler en tant qu'analyste d'investissement généraliste pour différents fonds spéculatifs long/short (notamment chez Millennium et Balyasny), tout en étant une sorte de nerd des mathématiques et de l'informatique qui étudie l'apprentissage profond depuis 2010 (à l'époque où Geoff Hinton parlait encore des machines de Boltzmann restreintes et où tout était encore programmé à l'aide de MATLAB...), et que les chercheurs essayaient encore de montrer qu'ils pouvaient obtenir de meilleurs résultats pour classer des chiffres manuscrits qu'en utilisant des machines à vecteurs de support), j'aime à penser que j'ai une perspective assez inhabituelle sur la façon dont la technologie de l'IA se développe et sur la façon dont elle est liée aux évaluations des actions sur le marché boursier.
Depuis quelques années, je travaille davantage en tant que développeur, et j'ai plusieurs projets open-source populaires pour travailler avec diverses formes de modèles/services d'IA (voir LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Source to Prompt, et Pastel Inference Layer pour quelques exemples récents). En fait, j'utilise ces modèles de frontière tous les jours, de la manière la plus intense possible. J'ai 3 comptes Claude pour ne pas être à court de requêtes, et je me suis inscrit à ChatGPT Pro dans les minutes qui ont suivi sa mise à disposition.
J'essaie également de me tenir au courant des dernières avancées en matière de recherche et je lis attentivement tous les rapports techniques importants publiés par les principaux laboratoires d'IA. Je pense donc avoir une bonne connaissance de l'espace et de l'évolution des choses. En même temps, j'ai shorté une tonne d'actions dans ma vie et j'ai gagné deux fois le prix de la meilleure idée sur le Value Investors Club (pour TMS long et PDH short si vous suivez le mouvement à la maison).
Je ne dis pas cela pour me vanter, mais plutôt pour aider à établir ma bonne foi en tant que personne capable de donner son avis sur le sujet sans passer pour désespérément naïf aux yeux des technologues ou des investisseurs professionnels. Et s'il y a certainement beaucoup de gens qui connaissent mieux les mathématiques/sciences et qui sont meilleurs que moi en matière d'investissement long/short sur le marché boursier, je doute qu'il y en ait beaucoup qui se situent au milieu du diagramme de Venn comme je peux prétendre l'être.
Cela dit, chaque fois que je rencontre mes amis et mes anciens collègues du monde des fonds spéculatifs et que je discute avec eux, la conversation tourne rapidement autour de Nvidia. Ce n'est pas tous les jours qu'une entreprise passe d'une relative obscurité à une valeur supérieure aux marchés boursiers combinés de l'Angleterre, de la France et de l'Allemagne ! Et naturellement, ces amis veulent connaître mon avis sur le sujet. Parce que je crois dur comme fer à l'impact transformateur à long terme de cette technologie - je pense sincèrement qu'elle va radicalement changer presque tous les aspects de notre économie et de notre société dans les 5 à 10 prochaines années, sans aucun précédent historique - il m'a été difficile d'affirmer que l'élan de Nvidia allait ralentir ou s'arrêter de sitôt.
Mais même si j'ai pensé que la valorisation était tout simplement trop élevée pour moi depuis environ un an, une confluence de développements récents m'a amené à revenir un peu à mon instinct habituel, qui est d'être un peu plus contrarien dans mes perspectives et de remettre en question le consensus lorsqu'il semble être plus qu'intégré dans les prix. Le dicton « ce que le sage croit au début, le fou le croit à la fin » est devenu célèbre pour une bonne raison.
Les arguments en faveur de la hausse
Avant d'aborder les développements qui me font réfléchir, faisons une pause pour examiner brièvement les arguments en faveur de l'action NVDA, qui sont désormais connus de tout le monde et de son frère. L'apprentissage profond et l'IA sont les technologies les plus transformatrices depuis Internet, et sont sur le point de changer pratiquement tout dans notre société. Nvidia s'est retrouvée en quelque sorte en situation de quasi-monopole en ce qui concerne la part des dépenses d'investissement de l'industrie consacrée à l'infrastructure d'apprentissage et d'inférence.
Certaines des entreprises les plus grandes et les plus rentables du monde, comme Microsoft, Apple, Amazon, Meta, Google, Oracle, etc., ont toutes décidé qu'elles devaient faire et dépenser tout ce qu'il fallait pour rester compétitives dans cet espace, car elles ne peuvent tout simplement pas se permettre d'être à la traîne. Le montant des investissements, les gigawatts d'électricité utilisés, la superficie des nouveaux centres de données et, bien sûr, le nombre de GPU ont absolument explosé et ne semblent montrer aucun signe de ralentissement. Et Nvidia est capable de réaliser des marges brutes incroyablement élevées de plus de 90 % sur les produits les plus haut de gamme, orientés vers les centres de données.
Nous n'avons fait qu'effleurer la surface de l'affaire. Il y a maintenant de nombreux autres aspects qui font que même les personnes qui étaient déjà très optimistes le sont de plus en plus. Outre des éléments tels que l'essor des robots humanoïdes, qui, à mon avis, prendront la plupart des gens par surprise lorsqu'ils seront rapidement capables d'effectuer un grand nombre de tâches qui nécessitent actuellement un travailleur humain non qualifié (ou même qualifié) (par exemple, faire la lessive, le ménage, l'organisation et la cuisine ; effectuer des travaux de construction tels que la rénovation d'une salle de bains ou la construction d'une maison par une équipe de travailleurs ; gérer un entrepôt et conduire des chariots élévateurs à fourche, etc.
), il existe d'autres facteurs que la plupart des gens n'ont même pas pris en compte. L'une des principales choses dont parlent les personnes intelligentes est l'apparition d'une « nouvelle loi de mise à l'échelle », qui a créé un nouveau paradigme sur la façon dont les besoins en calcul augmenteront au fil du temps. La loi d'échelle originale, qui est le moteur des progrès de l'IA depuis l'apparition d'AlexNet en 2012 et l'invention de l'architecture Transformer en 2017, est la loi d'échelle de pré-entraînement : plus nous pouvons utiliser de milliards (et maintenant de billions) de jetons comme données d'entraînement, plus le nombre de paramètres des modèles que nous entraînons est important, et plus nous dépensons de FLOPS de calcul pour entraîner ces modèles sur ces jetons, meilleures sont les performances des modèles résultants sur une grande variété de tâches très utiles en aval.
Non seulement cela, mais cette amélioration est en quelque sorte connue, au point que les principaux laboratoires d'IA comme OpenAI et Anthropic ont une idée assez précise de la qualité de leurs derniers modèles avant même de commencer l'entraînement proprement dit - dans certains cas, ils prédisent les points de référence des modèles finaux à quelques points de pourcentage près. Cette « loi d'échelle originale » a été d'une importance vitale, mais elle a toujours suscité quelques doutes dans l'esprit des personnes qui l'utilisaient pour établir des projections pour l'avenir.
D'une part, il semble que nous ayons déjà épuisé l'ensemble des données de formation de haute qualité accumulées dans le monde. Bien sûr, ce n'est pas tout à fait vrai : il existe encore de nombreux livres et périodiques anciens qui n'ont pas encore été correctement numérisés et qui, même s'ils l'ont été, ne font pas l'objet d'une licence en bonne et due forme pour être utilisés comme données de formation. Le problème est que, même si l'on accorde du crédit à toutes ces choses - disons la somme totale du contenu écrit en langue anglaise produit « professionnellement » entre l'an 1500 et, disons, l'an 2000, cela ne représente pas une quantité énorme en termes de pourcentage lorsque l'on parle d'un corpus d'entraînement de près de 15 trillions de tokens, ce qui est l'échelle des modèles de frontière actuels.
Pour une vérification rapide de la réalité de ces chiffres : Google Books a numérisé environ 40 millions de livres à ce jour ; si un livre typique contient entre 50 et 100 000 mots, ou entre 65 et 130 000 tokens, cela représente entre 2,6 et 5,2 milliards de tokens rien que pour les livres, bien qu'une grande partie soit déjà incluse dans les corpus d'entraînement utilisés par les grands laboratoires, que ce soit strictement légal ou non. Et il y a beaucoup d'articles universitaires, le site web arXiv contenant à lui seul plus de 2 millions d'articles. La Bibliothèque du Congrès possède quant à elle plus de 3 milliards de pages de journaux numérisées. Dans l'ensemble, cela pourrait représenter jusqu'à 7T tokens au total, mais étant donné qu'une grande partie de ces données est en fait incluse dans les corpus de formation, les données de formation « incrémentielles » restantes ne sont probablement pas si importantes que cela dans le grand ordre des choses.
Bien entendu, il existe d'autres moyens de collecter davantage de données de formation. Vous pourriez par exemple transcrire automatiquement chaque vidéo YouTube et utiliser ce texte. Et si cela peut être utile à la marge, c'est certainement de bien moindre qualité que, disons, un manuel de chimie organique très respecté en tant que source de connaissances utiles sur le monde. Bien que nous sachions que nous pouvons continuer à investir de plus en plus dans les GPU et construire de plus en plus de centres de données, il est beaucoup plus difficile de produire en masse de nouvelles connaissances humaines utiles qui soient correctes et complémentaires de ce qui existe déjà. Une réponse intrigante à cette situation a été l'essor des « données synthétiques », c'est-à-dire du texte qui est lui-même le résultat d'un LLM. Bien qu'il semble presque absurde d'imaginer que l'on puisse améliorer la qualité des modèles en « se défonçant sur sa propre réserve », cela semble très bien fonctionner dans la pratique, du moins dans le domaine des mathématiques, de la logique et de la programmation informatique.
La raison en est, bien sûr, qu'il s'agit de domaines où nous pouvons vérifier et prouver mécaniquement l'exactitude des choses. Nous pouvons donc prélever des échantillons dans le vaste univers des théorèmes mathématiques possibles ou des scripts Python possibles, puis vérifier s'ils sont corrects et ne les inclure dans notre corpus que s'ils le sont. De cette manière, nous pouvons élargir considérablement notre collection de données de formation de haute qualité, au moins dans ce type de domaines.
Et puis il y a tous les autres types de données sur lesquelles nous pourrions entraîner l'IA en plus du texte. Par exemple, que se passerait-il si nous prenions le séquençage complet du génome (environ 200 Go à 300 Go non compressés pour un seul être humain) de 100 millions de personnes ? Cela représente évidemment beaucoup de données, même si la grande majorité d'entre elles sont pratiquement identiques d'une personne à l'autre. Bien entendu, la comparaison avec les données textuelles des livres et de l'internet peut être trompeuse pour diverses raisons :
- La taille brute du génome n'est pas directement comparable au nombre de symboles
- Le contenu informatif des données génomiques est très différent de celui d'un texte
- La valeur d'entraînement des données hautement redondantes n'est pas claire.
- Les exigences informatiques pour le traitement des données génomiques sont différentes.
Il s'agit néanmoins d'une autre source importante d'informations diverses sur laquelle nous pourrions former d'énormes modèles à l'avenir, et c'est pourquoi je l'ai incluse.
Ainsi, bien qu'il y ait un certain espoir de pouvoir capturer de plus en plus de données d'entraînement supplémentaires, si vous regardez la vitesse à laquelle les corpus d'entraînement ont augmenté ces dernières années, il devient rapidement évident que nous sommes sur le point de nous heurter à un mur en termes de disponibilité des données pour les connaissances « généralement utiles » qui peuvent nous rapprocher de l'objectif ultime d'obtenir une super-intelligence artificielle 10 fois plus intelligente que John von Neumann et qui est un expert mondial absolu dans toutes les spécialités connues de l'homme.
Outre la quantité limitée de données disponibles, les partisans de la loi d'échelle de pré-entraînement se sont toujours heurtés à un certain nombre d'obstacles. L'une de ces questions est la suivante : une fois l'entraînement du modèle terminé, qu'êtes-vous censé faire de toute cette infrastructure de calcul ? Former le modèle suivant ? Bien sûr, vous pouvez le faire, mais compte tenu de l'amélioration rapide de la vitesse et de la capacité des GPU, et de l'importance de l'électricité et des autres frais généraux dans les calculs économiques, est-il vraiment judicieux d'utiliser votre cluster vieux de deux ans pour entraîner votre nouveau modèle ? Vous préféreriez certainement utiliser le tout nouveau centre de données que vous venez de construire, qui coûte 10 fois plus cher que l'ancien et qui est 20 fois plus puissant grâce à une meilleure technologie. Le problème, c'est qu'à un moment donné, vous devez amortir le coût initial de ces investissements et le récupérer grâce à un flux de bénéfices d'exploitation (que l'on espère positifs), n'est-ce pas ?
Le marché est tellement enthousiasmé par l'IA qu'il n'en a heureusement pas tenu compte, ce qui a permis à des entreprises comme OpenAI d'afficher des pertes d'exploitation cumulées époustouflantes depuis leur création, tout en obtenant des valorisations de plus en plus faramineuses lors des tours d'investissement suivants (bien que, à leur décharge, elles aient également été en mesure de démontrer une croissance très rapide de leurs revenus). Mais en fin de compte, pour que cette situation soit viable sur un cycle de marché complet, les coûts des centres de données doivent être récupérés, avec l'espoir d'un bénéfice qui, au fil du temps, soit compétitif par rapport à d'autres opportunités d'investissement sur une base ajustée au risque.
Le nouveau paradigme
D'accord, il s'agissait de la loi d'échelonnement avant la formation. Quelle est cette « nouvelle » loi d'échelonnement ? Eh bien, c'est quelque chose sur lequel les gens ont vraiment commencé à se concentrer l'année dernière : l'échelonnement du temps de calcul de l'inférence. Auparavant, la grande majorité des calculs effectués au cours du processus étaient des calculs d'entraînement initiaux destinés à créer le modèle en premier lieu. Une fois le modèle formé, l'inférence sur ce modèle - c'est-à-dire poser une question ou demander au LLM d'effectuer une tâche pour vous - utilisait une certaine quantité limitée de calcul.
De manière critique, la quantité totale de calcul d'inférence (mesurée de diverses manières, comme les FLOPS, l'empreinte mémoire du GPU, etc.) était très, très inférieure à ce qui était nécessaire pour la phase de pré-entraînement. Bien sûr, la quantité de calculs d'inférence augmente lorsque vous augmentez la taille de la fenêtre contextuelle des modèles et la quantité de données de sortie que vous générez en une seule fois (bien que les chercheurs aient apporté des améliorations algorithmiques époustouflantes sur ce front par rapport à l'échelle quadratique initiale à laquelle les gens s'attendaient à l'origine pour augmenter cette échelle). Mais essentiellement, jusqu'à récemment, le calcul d'inférence était généralement beaucoup moins intensif que le calcul d'entraînement, et s'étendait de façon linéaire avec le nombre de requêtes que vous traitez - plus la demande de complétions de texte de ChatGPT, par exemple, était importante, plus vous utilisiez de calcul d'inférence.
Avec l'avènement des modèles révolutionnaires de chaîne de pensée (« COT ») introduits l'année dernière, notamment dans le modèle phare O1 d'OpenAI (mais aussi très récemment dans le nouveau modèle R1 de DeepSeek, dont nous parlerons plus tard de manière beaucoup plus détaillée), tout cela a changé. Au lieu que la quantité de calcul d'inférence soit directement proportionnelle à la longueur du texte de sortie généré par le modèle (mise à l'échelle pour des fenêtres de contexte plus grandes, la taille du modèle, etc.), ces nouveaux modèles COT génèrent également des « jetons logiques » intermédiaires ; considérez cela comme une sorte de bloc-notes ou de « monologue interne » du modèle pendant qu'il essaie de résoudre votre problème ou d'accomplir la tâche qui lui a été assignée.
Cela représente un véritable changement dans la manière dont fonctionne le calcul d'inférence : désormais, plus vous utilisez de jetons pour cette chaîne de pensée interne, meilleure est la qualité du résultat final que vous pouvez fournir à l'utilisateur. En fait, cela revient à donner à un travailleur humain plus de temps et de ressources pour accomplir une tâche, afin qu'il puisse vérifier deux fois et trois fois son travail, effectuer la même tâche de base de plusieurs façons différentes et vérifier qu'elle aboutit au même résultat ; prendre le résultat qu'il a obtenu et le « brancher » à la formule pour vérifier qu'il résout bien l'équation, etc.
Il s'avère que cette approche fonctionne presque incroyablement bien ; elle exploite essentiellement la puissance attendue depuis longtemps de ce que l'on appelle « l'apprentissage par renforcement » avec la puissance de l'architecture Transformer. Elle s'attaque directement à la plus grande faiblesse du modèle Transformer, qui connaît par ailleurs un succès phénoménal, à savoir sa propension à « halluciner ».
Fondamentalement, la façon dont les Transformers fonctionnent en termes de prédiction du prochain jeton à chaque étape est que, s'ils commencent sur une mauvaise « voie » dans leur réponse initiale, ils deviennent presque comme un enfant qui tergiverse et qui essaie de raconter pourquoi il a raison, même s'il aurait dû se rendre compte à mi-parcours, en utilisant son bon sens, que ce qu'il dit ne peut pas être correct.
Étant donné que les modèles cherchent toujours à être cohérents en interne et à faire en sorte que chaque jeton généré successivement découle naturellement des jetons et du contexte précédents, il leur est très difficile de se corriger et de revenir en arrière. En divisant le processus d'inférence en plusieurs étapes intermédiaires, ils peuvent essayer beaucoup de choses différentes, voir ce qui fonctionne et continuer à essayer de se corriger et d'essayer d'autres approches jusqu'à ce qu'ils atteignent un seuil de confiance assez élevé dans le fait qu'ils ne racontent pas n'importe quoi.
L'aspect le plus extraordinaire de cette approche, outre le fait qu'elle fonctionne, est que plus vous utilisez de jetons de logique/COT, plus elle est efficace. Soudain, vous disposez d'un cadran supplémentaire que vous pouvez tourner de sorte que, plus vous augmentez le nombre de jetons de raisonnement COT (ce qui utilise beaucoup plus de calcul d'inférence, à la fois en termes de FLOPS et de mémoire), plus la probabilité est élevée que vous donniez une réponse correcte - un code qui s'exécute la première fois sans erreur, ou une solution à un problème de logique sans une étape déductive manifestement erronée.
Je peux vous dire par expérience que, aussi bon que soit le modèle Claude3.5 Sonnet d'Anthropic en programmation Python - et il est en effet TRÈS bon - chaque fois que vous avez besoin de générer quelque chose de long et compliqué, il finit invariablement par faire une ou plusieurs erreurs stupides. Maintenant, ces erreurs sont généralement assez faciles à corriger, et en fait vous pouvez normalement les corriger en fournissant simplement les erreurs générées par l'interpréteur Python, sans aucune autre explication, comme une invite d'inférence de suivi (ou, plus utilement, coller l'ensemble complet des « problèmes » détectés dans le code par votre éditeur de code, en utilisant ce qu'on appelle un Linter), c'était toujours une étape supplémentaire ennuyeuse. Et lorsque le code devient très long ou très compliqué, il peut parfois prendre beaucoup plus de temps à corriger, et peut même nécessiter un débogage manuel.
La première fois que j'ai essayé le modèle O1 d'OpenAI a été comme une révélation : J'ai été surpris de voir à quel point le code était souvent parfait dès la première fois. C'est parce que le processus COT trouve et corrige automatiquement les problèmes avant qu'ils n'atteignent un jeton de réponse final dans la réponse que le modèle vous donne.
En fait, le modèle O1 utilisé dans l'abonnement ChatGPT Plus d'OpenAI pour 20 $/mois est fondamentalement le même modèle que celui utilisé dans le modèle O1-Pro présenté dans leur nouvel abonnement ChatGPT Pro pour 10 fois le prix (200 $/mois, ce qui a soulevé beaucoup de sourcils dans la communauté des développeurs) ; la principale différence est que O1-Pro réfléchit beaucoup plus longtemps avant de répondre, générant beaucoup plus de jetons logiques COT, et consommant une quantité beaucoup plus importante de calcul d'inférence pour chaque réponse.
Ceci est assez frappant dans la mesure où, même une invite très longue et complexe pour Claude3.5 Sonnet ou GPT4o, avec ~400kb+ de contexte donné, prend généralement moins de 10 secondes pour commencer à répondre, et souvent moins de 5 secondes. Alors que la même invite à O1-Pro peut facilement prendre 5+ MINUTES avant d'obtenir une réponse (bien qu'OpenAI vous montre certaines des « étapes de raisonnement » qui sont générées au cours du processus pendant que vous attendez ; de manière critique, OpenAI a décidé, probablement pour des raisons de secret commercial, de vous cacher les jetons de raisonnement exacts qu'il génère, vous montrant à la place un résumé très abrégé de ces jetons).
Comme vous pouvez probablement l'imaginer, il y a des tonnes de contextes où la précision est primordiale - où vous préférez abandonner et dire à l'utilisateur que vous ne pouvez pas le faire du tout plutôt que de donner une réponse qui pourrait être trivialement prouvée fausse ou qui implique des faits hallucinés ou tout autre raisonnement spécieux. Tout ce qui concerne l'argent/les transactions, les questions médicales, les questions juridiques, pour n'en citer que quelques-unes.
En fait, lorsque le coût de l'inférence est négligeable par rapport à la rémunération horaire globale du travailleur intellectuel humain qui interagit avec le système d'IA, c'est un cas où il n'y a aucune raison d'augmenter le calcul COT (l'inconvénient majeur est que cela augmente considérablement la latence des réponses, de sorte qu'il existe encore des contextes dans lesquels il est préférable d'itérer plus rapidement en obtenant des réponses à faible latence qui sont moins précises ou moins correctes).
L'une des nouvelles les plus excitantes dans le monde de l'IA est apparue il y a quelques semaines et concernait le nouveau modèle O3 d'OpenAI, qui a été capable de résoudre une grande variété de tâches qui étaient auparavant considérées comme hors de portée des approches actuelles de l'IA à court terme. Et la façon dont il a été capable de résoudre ces problèmes les plus difficiles (qui comprennent des problèmes mathématiques « fondamentaux » exceptionnellement difficiles à résoudre, même pour des mathématiciens professionnels hautement qualifiés), c'est qu'OpenAI a utilisé des ressources de calcul considérables pour résoudre les problèmes - dans certains cas, en dépensant plus de 3 000 dollars de puissance de calcul pour résoudre une seule tâche (comparez cela aux coûts d'inférence traditionnels pour une seule tâche, qui ne dépasseraient probablement pas quelques dollars en utilisant des modèles Transformer normaux sans chaîne de pensée).
Il n'est pas nécessaire d'être un génie de l'IA pour comprendre que ce développement crée une nouvelle loi d'échelle totalement indépendante de la loi d'échelle originale de pré-entraînement. Maintenant, vous voulez toujours former le meilleur modèle possible en exploitant intelligemment autant de calcul que possible et autant de trillions de tokens de données d'entraînement de haute qualité que possible, mais ce n'est que le début de l'histoire dans ce nouveau monde ; maintenant, vous pourriez facilement utiliser des quantités incroyablement énormes de calcul juste pour faire de l'inférence à partir de ces modèles à un niveau de confiance très élevé ou lorsque vous essayez de résoudre des problèmes extrêmement difficiles qui nécessitent un raisonnement de « niveau génie » pour éviter tous les pièges potentiels qui conduiraient un LLM normal à s'égarer.
Mais pourquoi Nvidia devrait-elle profiter de toute la hausse ?
Même si vous pensez, comme moi, que les perspectives d'avenir de l'IA sont presque inimaginablement brillantes, la question demeure : « Pourquoi une entreprise devrait-elle extraire la majorité des bénéfices de cette technologie ? » Il existe certainement de nombreux cas historiques où une nouvelle technologie très importante a changé le monde, mais les principaux gagnants n'étaient pas les entreprises qui semblaient les plus prometteuses au cours des étapes initiales du processus. La société d'aviation des frères Wright, dans toutes ses incarnations actuelles à travers de nombreuses entreprises différentes, ne vaut pas plus de 10 milliards de dollars, bien qu'ils aient inventé et perfectionné la technologie bien avant tout le monde. Et si Ford a une capitalisation boursière respectable de 40 milliards de dollars aujourd'hui, elle ne représente que 1,1 % de la capitalisation boursière actuelle de Nvidia.
Pour comprendre cela, il est important de comprendre pourquoi Nvidia s'empare d'une telle part du gâteau aujourd'hui. Après tout, Nvidia n'est pas la seule entreprise à fabriquer des GPU. AMD fabrique des GPU respectables qui, sur le papier, ont un nombre comparable de transistors, qui sont fabriqués à l'aide de nœuds de processus similaires, etc. Bien sûr, ils ne sont pas aussi rapides ou aussi avancés que les GPU de Nvidia, mais ce n'est pas comme si les GPU de Nvidia étaient 10 fois plus rapides ou quelque chose comme ça. En fait, en termes de dollars naïfs/raw par FLOP, les GPU AMD sont environ deux fois moins chers que les GPU Nvidia.
Si l'on considère d'autres marchés de semi-conducteurs tels que le marché des DRAM, malgré le fait qu'il soit également très fortement consolidé avec seulement 3 acteurs mondiaux significatifs (Samsung, Micron, SK-Hynix), les marges brutes sur le marché des DRAM varient de négatives en bas de cycle à ~60% en haut de cycle, avec une moyenne de l'ordre de 20%. Comparez cela à la marge brute globale de Nvidia au cours des derniers trimestres, qui est d'environ 75 % et qui est tirée vers le bas par la catégorie des graphiques 3D grand public, dont les marges sont plus faibles et plus banalisées.
Comment cela est-il possible ? Eh bien, les principales raisons ont à voir avec les logiciels : de meilleurs pilotes qui « fonctionnent » sous Linux et qui sont hautement testés et fiables (contrairement à AMD, qui est connu pour la faible qualité et l'instabilité de ses pilotes Linux), et un code open-source hautement optimisé dans des bibliothèques populaires telles que PyTorch qui a été réglé pour fonctionner vraiment bien sur les GPU de Nvidia.
Mais ce n'est pas tout : le cadre de programmation que les codeurs utilisent pour écrire du code de bas niveau optimisé pour les GPU, CUDA, est totalement la propriété de Nvidia, et il est devenu un standard de facto. Si vous voulez embaucher un groupe de programmeurs extrêmement talentueux qui savent comment rendre les choses très rapides sur les GPU, et que vous les payez 650 000 dollars par an, ou quel que soit le taux en vigueur pour les personnes ayant cette expertise particulière, il y a de fortes chances pour qu'ils « pensent » et travaillent en CUDA.
Outre la supériorité logicielle, l'autre atout majeur de Nvidia est ce que l'on appelle l'interconnexion. Il s'agit essentiellement de la bande passante qui relie efficacement des milliers de GPU afin qu'ils puissent être exploités conjointement pour former les modèles fondamentaux de pointe d'aujourd'hui. En bref, la clé d'une formation efficace consiste à utiliser au maximum tous les GPU, tout le temps, sans attendre qu'ils reçoivent le prochain morceau de données dont ils ont besoin pour calculer l'étape suivante du processus de formation.
Les exigences en matière de bande passante sont extrêmement élevées, bien plus élevées que la bande passante typique nécessaire dans les cas d'utilisation des centres de données traditionnels. Il n'est pas possible d'utiliser du matériel de réseau traditionnel ou de la fibre optique pour ce type d'interconnexion, car cela introduirait trop de latence et ne permettrait pas d'obtenir les téraoctets par seconde de bande passante nécessaires pour que tous les GPU soient constamment occupés.
Nvidia a pris une décision incroyablement intelligente en rachetant la société israélienne Mellanox en 2019 pour la modique somme de 6,9 milliards de dollars, et c'est cette acquisition qui lui a permis d'obtenir sa technologie d'interconnexion de pointe. Notez que la vitesse d'interconnexion est beaucoup plus pertinente pour le processus d'entraînement, où vous devez exploiter ensemble la sortie de milliers de GPU en même temps, que le processus d'inférence (y compris l'inférence COT), qui peut utiliser juste une poignée de GPU - tout ce dont vous avez besoin est suffisamment de VRAM pour stocker les poids de modèle quantifiés (compressés) du modèle déjà entraîné.
Il s'agit là des principaux éléments du « fossé » de Nvidia et de la manière dont elle a pu maintenir des marges aussi élevées pendant si longtemps (il y a également un aspect « volant d'inertie » dans les choses, où ils investissent agressivement leurs profits super normaux dans des tonnes de R&D, ce qui leur permet d'améliorer leur technologie à un rythme plus rapide que la concurrence, de sorte qu'ils sont toujours en tête en termes de performances brutes).
Mais comme nous l'avons souligné précédemment, ce qui intéresse vraiment les clients, toutes choses égales par ailleurs, c'est la performance par dollar (à la fois en termes de coûts d'investissement initiaux de l'équipement et de consommation d'énergie, donc de performance par watt), et même si les GPU de Nvidia sont certainement les plus rapides, ils ne représentent pas le meilleur rapport prix/performance lorsqu'ils sont mesurés naïvement en termes de nombre de FLOPS.
Mais le fait est que toutes les autres choses ne sont PAS égales, et le fait que les pilotes d'AMD sont nuls, que les bibliothèques de logiciels d'IA populaires ne fonctionnent pas aussi bien sur les GPU AMD, que vous ne pouvez pas trouver de très bons experts en GPU spécialisés dans les GPU AMD en dehors du monde du jeu (pourquoi se donneraient-ils la peine alors qu'il y a plus de demande sur le marché pour les experts CUDA ? ), qu'il est impossible de relier des milliers de GPU entre eux de manière aussi efficace en raison de la mauvaise technologie d'interconnexion d'AMD - tout cela signifie qu'AMD n'est pas compétitif dans le monde des centres de données haut de gamme et qu'il ne semble pas avoir de très bonnes perspectives d'y parvenir à court terme.
Tout cela semble très optimiste pour Nvidia, n'est-ce pas ? Vous comprenez maintenant pourquoi l'action se négocie à une valeur aussi élevée ! Mais quels sont les autres nuages qui se profilent à l'horizon ? Il y en a quelques-uns qui, selon moi, méritent une attention particulière. Certains se sont cachés en arrière-plan au cours des dernières années, mais ils sont trop petits pour faire une entaille compte tenu de la rapidité avec laquelle le gâteau s'est agrandi, mais ils se préparent à infléchir potentiellement la courbe vers le haut. D'autres sont des développements très récents (comme les deux dernières semaines) qui pourraient changer radicalement la trajectoire à court terme de la demande incrémentale de GPU.
Les principales menaces
À un niveau très élevé, on peut envisager les choses comme suit : Nvidia a longtemps opéré dans un secteur de niche ; la concurrence était très limitée et les concurrents n'étaient pas particulièrement rentables ou ne se développaient pas assez rapidement pour représenter une réelle menace, puisqu'ils ne disposaient pas du capital nécessaire pour exercer une réelle pression sur un leader du marché tel que Nvidia. Le marché des jeux était vaste et en pleine croissance, mais ne présentait pas de marges mirobolantes ni de taux de croissance particulièrement fabuleux d'une année sur l'autre.
Quelques grandes entreprises technologiques ont commencé à augmenter leurs embauches et leurs dépenses en matière d'apprentissage automatique et d'IA vers 2016-2017, mais cela n'a jamais été un poste vraiment important pour aucune d'entre elles sur une base globale - il s'agissait plutôt d'une dépense de R&D « moonshot ». Mais une fois que la grande course à l'IA a commencé pour de bon avec la sortie de ChatGPT en 2022 - il y a seulement un peu plus de deux ans, même si cela semble être une éternité en termes de développements - la situation a changé de façon spectaculaire.
Soudain, les grandes entreprises étaient prêtes à dépenser très rapidement des milliards de dollars. Le nombre de chercheurs participant aux grandes conférences de recherche telles que Neurips et ICML a augmenté de manière très, très spectaculaire. Tous les étudiants intelligents qui auraient pu auparavant étudier les produits financiers dérivés étudiaient à présent Transformers, et les rémunérations de plus d'un million de dollars pour des fonctions d'ingénieur non exécutif (c'est-à-dire pour des contributeurs indépendants qui ne gèrent pas une équipe) sont devenues la norme dans les principaux laboratoires d'intelligence artificielle.
Il faut un certain temps pour changer la direction d'un énorme navire de croisière ; et même si vous agissez très rapidement et dépensez des milliards, il faut un an ou plus pour construire des centres de données entièrement nouveaux et commander tout l'équipement (avec des délais qui s'envolent) et le mettre en place et le faire fonctionner. Il faut beaucoup de temps pour embaucher et intégrer des codeurs, même intelligents, avant qu'ils ne puissent vraiment s'épanouir et se familiariser avec les bases de code et l'infrastructure existantes.
Mais maintenant, vous pouvez imaginer que des quantités absolument bibliques de capital, de matière grise et d'efforts sont dépensées dans ce domaine. Et Nvidia a la plus grande cible de tous les acteurs sur le dos, parce que ce sont eux qui font la part du lion des bénéfices AUJOURD'HUI, et non dans un futur hypothétique où l'IA dirige nos vies entières.
Ils trouvent des approches alternatives, radicalement innovantes, pour construire du matériel qui s'appuient sur des idées totalement nouvelles pour contourner les obstacles qui contribuent à renforcer le fossé de Nvidia.
La menace au niveau du matériel
Par exemple, les puces d'apprentissage de l'IA dites « wafer scale » de Cerebras, qui consacrent une plaque de silicium de 300 mm à une puce absolument gargantuesque contenant des ordres de grandeur de transistors et de cœurs en plus sur une seule puce (voir ce récent billet de blog expliquant comment ils ont pu résoudre le « problème de rendement » qui empêchait cette approche d'être économiquement pratique dans le passé).
Pour mettre les choses en perspective, si l'on compare la dernière puce WSE-3 de Cerebras au GPU phare de Nvidia pour les centres de données, le H100, la puce de Cerebras a une surface totale de 46 225 millimètres carrés contre seulement 814 pour le H100 (et le H100 est lui-même considéré comme une puce énorme selon les normes de l'industrie) ; c'est un multiple de ~57x ! Et au lieu d'avoir 132 cœurs « multiprocesseurs en continu » activés sur la puce comme le H100, la puce Cerebras a ~900 000 cœurs (certes, chacun de ces cœurs est plus petit et fait beaucoup moins de choses, mais cela reste un nombre presque insondable en comparaison). En termes plus concrets, la puce Cerebras peut réaliser environ 32 fois plus de FLOPS dans des contextes d'intelligence artificielle qu'une simple puce H100. Étant donné qu'un H100 se vend à près de 40 000 dollars, vous pouvez imaginer que la puce WSE-3 n'est pas bon marché.
Pourquoi tout cela est-il important ? Eh bien, au lieu d'essayer de lutter contre Nvidia en utilisant une approche similaire et en essayant d'égaler la technologie d'interconnexion de Mellanox, Cerebras a utilisé une approche radicalement innovante pour contourner le problème de l'interconnexion : la bande passante inter-processeurs devient beaucoup moins un problème lorsque tout fonctionne sur la même puce de grande taille. Il n'est même pas nécessaire d'avoir le même niveau d'interconnexion, car une méga-puce remplace des tonnes de H100.
Les puces Cerebras fonctionnent également très bien pour les tâches d'inférence de l'IA. En fait, vous pouvez l'essayer aujourd'hui gratuitement ici et utiliser le très respectable modèle Llama-3.3-70B de Meta. Il répond pratiquement instantanément, à raison d'environ 1 500 jetons par seconde. Pour mettre cela en perspective, tout ce qui est supérieur à 30 tokens par seconde semble relativement rapide aux utilisateurs d'après les comparaisons avec ChatGPT et Claude, et même 10 tokens par seconde est suffisamment rapide pour que vous puissiez lire la réponse pendant qu'elle est générée.
Cerebras n'est pas la seule entreprise du secteur ; il en existe d'autres, comme Groq (à ne pas confondre avec la famille de modèles Grok formés par X AI d'Elon Musk). Groq a adopté une autre approche innovante pour résoudre le même problème fondamental. Au lieu d'essayer de concurrencer directement la pile logicielle CUDA de Nvidia, elle a développé ce qu'elle appelle une « unité de traitement tensoriel » (TPU) qui est spécifiquement conçue pour les opérations mathématiques exactes que les modèles d'apprentissage profond doivent effectuer. Leurs puces sont conçues autour d'un concept appelé « calcul déterministe », ce qui signifie que, contrairement aux GPU traditionnels où le timing exact des opérations peut varier, leurs puces exécutent les opérations de manière totalement prévisible à chaque fois.
Cela peut sembler un détail technique mineur, mais il s'agit en fait d'une différence énorme pour la conception des puces et le développement des logiciels. Le timing étant totalement déterministe, Groq peut optimiser ses puces d'une manière qui serait impossible avec les architectures GPU traditionnelles. En conséquence, Groq a démontré au cours des six derniers mois des vitesses d'inférence de plus de 500 tokens par seconde avec la série de modèles Llama et d'autres modèles open source, dépassant de loin ce qui est possible avec des configurations GPU traditionnelles. Comme Cerebras, ce modèle est disponible aujourd'hui et vous pouvez l'essayer gratuitement ici.
En utilisant un modèle Llama3 comparable avec un « décodage spéculatif », Groq est capable de générer 1 320 jetons par seconde, à égalité avec Cerebras et bien au-delà de ce qui est possible avec des GPU classiques. On peut se demander quel est l'intérêt d'atteindre plus de 1 000 jetons par seconde alors que les utilisateurs semblent satisfaits de ChatGPT, qui fonctionne à moins de 10 % de cette vitesse. Le fait est que cela a de l'importance. Il est beaucoup plus rapide d'itérer et de ne pas se déconcentrer en tant que travailleur intellectuel humain lorsque vous obtenez un retour d'information instantané. Et si vous utilisez le modèle de manière programmatique via l'API, ce qui est de plus en plus souvent le cas, cela peut permettre de créer de nouvelles catégories d'applications qui nécessitent une inférence à plusieurs niveaux (où la sortie des étapes précédentes est utilisée comme entrée dans les étapes successives d'incitation/inférence) ou qui nécessitent des réponses à faible latence, telles que la modération de contenu, la détection de la fraude, la tarification dynamique, etc.
Mais plus fondamentalement encore, plus vous pouvez répondre rapidement aux demandes, plus vous pouvez faire tourner les choses rapidement et plus vous pouvez garder le matériel occupé. Bien que le matériel de Groq soit extrêmement coûteux, de l'ordre de 2 à 3 millions de dollars pour un seul serveur, il finit par coûter beaucoup moins cher par demande satisfaite si la demande est suffisante pour que le matériel soit occupé en permanence.
À l'instar de Nvidia avec CUDA, une grande partie de l'avantage de Groq provient de sa propre pile logicielle propriétaire. Ils sont capables de prendre les mêmes modèles open source que d'autres entreprises comme Meta, DeepSeek et Mistral développent et publient gratuitement, et de les décomposer de manière spéciale pour leur permettre de fonctionner beaucoup plus rapidement sur leur matériel spécifique.
Comme Cerebras, elles ont pris différentes décisions techniques pour optimiser certains aspects particuliers du processus, ce qui leur permet de faire les choses d'une manière fondamentalement différente. Dans le cas de Groq, c'est parce qu'ils se concentrent entièrement sur le calcul au niveau de l'inférence, et non sur l'apprentissage : tout leur matériel et logiciel à sauce spéciale ne donne ces énormes avantages en termes de vitesse et d'efficacité que lorsqu'ils font de l'inférence sur un modèle déjà appris.
Mais si la prochaine loi de mise à l'échelle qui enthousiasme les gens concerne le calcul au niveau de l'inférence - et si le plus grand inconvénient des modèles COT est le temps de latence élevé introduit par la nécessité de générer tous ces jetons logiques intermédiaires avant de pouvoir répondre - alors même une entreprise qui ne fait que du calcul d'inférence, mais qui le fait beaucoup plus rapidement et plus efficacement que Nvidia, peut représenter une menace concurrentielle sérieuse dans les années à venir. À tout le moins, Cerebras et Groq peuvent réduire les attentes élevées concernant la croissance du chiffre d'affaires de Nvidia au cours des deux ou trois prochaines années, attentes qui sont intégrées dans l'évaluation actuelle des actions.
Outre ces startups concurrentes particulièrement innovantes, bien que relativement peu connues, certains des plus gros clients de Nvidia eux-mêmes se livrent à une concurrence sérieuse en fabriquant du silicium personnalisé qui cible spécifiquement les charges de travail d'apprentissage et d'inférence de l'IA. Le plus connu d'entre eux est peut-être Google, qui développe ses propres TPU depuis 2016. Il est intéressant de noter que, bien qu'il ait brièvement vendu des TPU à des clients externes, Google utilise toutes ses TPU en interne depuis plusieurs années et en est déjà à sa 6e génération de matériel TPU.
Amazon a également développé ses propres puces personnalisées appelées Trainium2 et Inferentia2. Alors qu'Amazon construit des centres de données dotés de milliards de dollars de GPU Nvidia, l'entreprise investit également plusieurs milliards dans d'autres centres de données qui utilisent ces puces internes. L'un des clusters qu'elle met en ligne pour Anthropic comporte plus de 400 000 puces.
Amazon est très critiqué pour avoir totalement négligé le développement de ses modèles d'IA internes, gaspillant des quantités massives de ressources de calcul internes sur des modèles qui ne sont finalement pas compétitifs, mais le silicium personnalisé est une autre affaire. Encore une fois, ils n'ont pas nécessairement besoin que leurs puces soient meilleures et plus rapides que celles de Nvidia. Ce dont ils ont besoin, c'est que leurs puces soient suffisamment bonnes, mais qu'elles soient construites avec une marge brute au seuil de rentabilité au lieu de la marge brute de plus de 90 % que Nvidia réalise sur son activité H100.
OpenAI a également annoncé son intention de construire des puces personnalisées, et il est évident qu'ils sont (avec Microsoft) le plus grand utilisateur de matériel de centre de données de Nvidia. Comme si cela ne suffisait pas, Microsoft a annoncé ses propres puces personnalisées !
Et Apple, l'entreprise technologique la plus précieuse au monde, fait exploser les attentes depuis des années avec son opération de silicium personnalisé hautement innovante et perturbatrice, qui bat désormais complètement les CPU d'Intel et d'AMD en termes de performance par watt, ce qui est le facteur le plus important dans les applications mobiles (téléphone/tablette/ordinateur portable). Depuis des années, Apple fabrique ses propres GPU et « processeurs neuronaux », même si elle n'a pas encore démontré l'utilité de ces puces en dehors de ses propres applications personnalisées, comme le traitement d'image avancé basé sur un logiciel et utilisé dans l'appareil photo de l'iPhone.
Bien que l'objectif d'Apple semble quelque peu orthogonal par rapport à ces autres acteurs en termes de priorité au mobile, d'orientation vers le consommateur et de « edge compute », s'il finit par dépenser suffisamment d'argent pour son nouveau contrat avec OpenAI afin de fournir des services d'IA aux utilisateurs de l'iPhone, vous devez imaginer que des équipes cherchent à fabriquer leur propre silicium personnalisé pour l'inférence/l'entraînement (bien que, compte tenu de leur secret, vous n'en saurez peut-être jamais rien directement !)
Ce n'est un secret pour personne qu'il existe une forte distribution en loi de puissance de la base de clients hyper-scaler de Nvidia, la poignée de clients les plus importants représentant la part du lion des revenus à forte marge. Comment envisager l'avenir de cette activité lorsque chacun de ces clients VIP construit ses propres puces personnalisées spécifiquement pour l'apprentissage et l'inférence de l'IA ?
Lorsque vous réfléchissez à tout cela, vous devez garder à l'esprit une chose extrêmement importante : Nvidia est en grande partie une entreprise basée sur la propriété intellectuelle. Elle ne fabrique pas ses propres puces. La véritable sauce spéciale pour la fabrication de ces incroyables appareils provient sans doute davantage de TSMC, l'usine actuelle, et d'ASML, qui fabrique les machines spéciales de lithographie EUV utilisées par TSMC pour fabriquer ces puces à la pointe de la technologie. C'est d'une importance capitale, car TSMC vendra ses puces les plus avancées à toute personne qui lui proposera un investissement initial suffisant et qui sera prête à garantir un certain volume. Peu importe qu'il s'agisse d'ASIC pour le minage de Bitcoin, de GPU, de TPU, de SoC pour téléphones portables, etc.
Vu le salaire annuel des concepteurs de puces de Nvidia, certains des meilleurs d'entre eux pourraient certainement être attirés par ces autres géants de la technologie moyennant suffisamment d'argent et d'actions. Et une fois qu'ils ont une équipe et des ressources, ils peuvent concevoir des puces innovantes (encore une fois, peut-être même pas 50% aussi avancées qu'un H100, mais avec la marge brute de Nvidia, il y a beaucoup de place pour travailler) en 2 ou 3 ans, et grâce à TSMC, ils peuvent les transformer en silicium réel en utilisant exactement la même technologie de nœud de processus que Nvidia.
La (les) menace(s) logicielle(s)
Comme si ces menaces matérielles n'étaient pas suffisantes, il y a quelques développements dans le monde du logiciel au cours des deux dernières années qui, bien qu'ils aient commencé lentement, sont en train de prendre de l'ampleur et pourraient constituer une menace sérieuse pour la domination logicielle de CUDA de Nvidia. Le premier de ces problèmes concerne les horribles pilotes Linux pour les GPU AMD. Vous vous souvenez que nous avons parlé de la façon dont AMD a inexplicablement permis à ces pilotes d'être nuls pendant des années, tout en laissant des quantités massives d'argent sur la table ?
Il est amusant de constater que le célèbre hacker George Hotz (connu pour avoir jailbreaké l'iPhone original lorsqu'il était adolescent, et actuellement PDG de la startup de conduite autonome Comma. ai et l'entreprise d'ordinateurs d'IA Tiny Corp, qui produit également le cadre logiciel d'IA open-source tinygrad), a récemment annoncé qu'il en avait assez d'avoir affaire aux mauvais pilotes d'AMD, et qu'il souhaitait désespérément pouvoir exploiter les GPU AMD moins coûteux dans ses ordinateurs d'IA TinyBox (qui existent en plusieurs versions, certaines utilisant des GPU Nvidia, et d'autres des GPUS AMD).
Le 15 janvier 2025, il a tweeté via le compte X de sa société que "Nous sommes à une pièce d'une pile complètement souveraine sur AMD, l'assembleur RDNA3. Nous avons notre propre pilote, runtime, bibliothèques et émulateur. (le tout en ~12 000 lignes !)" Compte tenu de ses antécédents et de ses compétences, il est probable que tout cela fonctionnera dans les deux prochains mois, ce qui ouvrirait la voie à de nombreuses possibilités d'utilisation des GPU AMD pour toutes sortes d'applications pour lesquelles les entreprises se sentent actuellement obligées de payer pour des GPU Nvidia.
D'accord, il ne s'agit là que d'un pilote pour AMD, et ce n'est pas encore terminé. Qu'y a-t-il d'autre ? Eh bien, il y a quelques autres domaines du côté des logiciels qui ont beaucoup plus d'impact. Tout d'abord, il existe aujourd'hui un effort massif et concerté de la part de nombreuses grandes entreprises technologiques et de la communauté des logiciels open source dans son ensemble pour créer des cadres logiciels d'IA plus génériques dont CUDA n'est qu'une « cible de compilation » parmi d'autres.
En d'autres termes, vous écrivez votre logiciel en utilisant des abstractions de haut niveau, et le système lui-même peut automatiquement transformer ces constructions de haut niveau en un code de bas niveau très bien réglé qui fonctionne extrêmement bien sur CUDA. Mais parce qu'il est réalisé à ce niveau d'abstraction supérieur, il peut tout aussi bien être compilé en un code de bas niveau qui fonctionne extrêmement bien sur de nombreux autres GPU et TPU provenant d'une variété de fournisseurs, tels que le nombre massif de puces personnalisées en cours de développement par toutes les grandes entreprises technologiques.
Les exemples les plus connus de ces frameworks sont MLX (sponsorisé principalement par Apple), Triton (sponsorisé principalement par OpenAI) et JAX (développé par Google). MLX est particulièrement intéressant parce qu'il fournit une API de type PyTorch qui peut fonctionner efficacement sur l'Apple Silicon, ce qui montre comment ces couches d'abstraction peuvent permettre aux charges de travail d'IA de fonctionner sur des architectures complètement différentes. Triton, quant à lui, est devenu de plus en plus populaire car il permet aux développeurs d'écrire un code de haute performance qui peut être compilé pour fonctionner sur différentes cibles matérielles sans avoir à comprendre les détails de bas niveau de chaque plateforme.
Ces frameworks permettent aux développeurs d'écrire leur code une seule fois en utilisant des abstractions puissantes, puis de cibler automatiquement des tonnes de plates-formes - cela ne vous semble-t-il pas être une meilleure façon de faire les choses, qui vous donnerait beaucoup plus de flexibilité en termes d'exécution du code ?
Dans les années 1980, tous les logiciels les plus populaires et les plus vendus étaient écrits en langage assembleur. L'utilitaire de compression PKZIP, par exemple, était conçu à la main pour maximiser la vitesse, au point qu'une version bien codée, écrite dans le langage de programmation C standard et compilée à l'aide des meilleurs compilateurs optimisateurs disponibles à l'époque, s'exécuterait probablement à la moitié de la vitesse du code assembleur ajusté à la main. Il en va de même pour d'autres logiciels populaires tels que WordStar, VisiCalc, etc.
Au fil du temps, les compilateurs sont devenus de plus en plus performants et, à chaque fois que l'architecture des processeurs a changé (par exemple, lorsqu'Intel a lancé le 486, puis le Pentium, et ainsi de suite), il a souvent fallu jeter et réécrire cet assembleur manuel, ce dont seuls les codeurs les plus intelligents étaient capables (un peu comme les experts CUDA se situent à un niveau différent sur le marché du travail par rapport à un développeur de logiciels « ordinaire »). Finalement, les choses ont convergé de telle sorte que les avantages en termes de vitesse de l'assemblage à la main ont été largement compensés par la flexibilité de pouvoir écrire du code dans un langage de haut niveau comme le C ou le C++, où l'on compte sur le compilateur pour que les choses s'exécutent de manière optimale sur le processeur donné.
Aujourd'hui, très peu de nouveaux codes sont écrits en assembleur. Je pense qu'une transformation similaire finira par se produire pour le code d'apprentissage et d'inférence de l'IA, pour des raisons similaires : les ordinateurs sont doués pour l'optimisation, et la flexibilité et la vitesse de développement sont des facteurs de plus en plus importants - surtout si cela vous permet également d'économiser considérablement sur votre facture de matériel parce que vous n'avez pas besoin de continuer à payer la « taxe CUDA » qui donne à Nvidia des marges de plus de 90 %.
Un autre domaine où les choses pourraient changer radicalement est que CUDA pourrait très bien finir par être une abstraction de haut niveau en soi - un « langage de spécification » similaire à Verilog (utilisé comme standard industriel pour décrire les schémas des puces) que les développeurs qualifiés peuvent utiliser pour décrire des algorithmes de haut niveau qui impliquent un parallélisme massif (puisqu'ils sont déjà familiers avec lui, qu'il est très bien construit, que c'est la lingua franca, etc. ), mais au lieu de compiler ce code pour l'utiliser sur les GPU Nvidia comme vous le feriez normalement, il peut être introduit comme code source dans un LLM qui peut le porter dans n'importe quel code de bas niveau compris par la nouvelle puce Cerebras, ou le nouveau Trainium2 d'Amazon, ou le nouveau TPUv6 de Google, etc. Ce n'est pas aussi loin que vous le pensez ; c'est probablement déjà à portée de main en utilisant le dernier modèle O3 d'OpenAI, et ce sera certainement possible de manière générale d'ici un an ou deux.
La menace théorique
L'évolution la plus choquante à laquelle il a été fait allusion précédemment s'est produite au cours des deux dernières semaines. Il s'agit de la nouvelle qui a totalement bouleversé le monde de l'IA et qui a dominé le discours des personnes bien informées sur Twitter malgré son absence totale dans les médias grand public : une petite entreprise chinoise appelée DeepSeek a lancé deux nouveaux modèles qui ont des niveaux de performance fondamentalement compétitifs au niveau mondial, au même titre que les meilleurs modèles d'OpenAI et d'Anthropic (dépassant les modèles Meta Llama3 et d'autres modèles open source plus petits tels que Mistral). Ces modèles sont appelés DeepSeek-V3 (leur réponse à GPT-4o et Claude3.5 Sonnet) et DeepSeek-R1 (leur réponse au modèle O1 d'OpenAI).
Pourquoi tout cela est-il si choquant ? Tout d'abord, DeepSeek est une minuscule entreprise chinoise qui compterait moins de 200 employés. L'histoire raconte qu'elle a commencé comme un fonds spéculatif de trading quantique similaire à TwoSigma ou RenTec, mais qu'après que Xi Jinping ait sévi dans ce domaine, elle a utilisé ses compétences en mathématiques et en ingénierie pour s'orienter vers la recherche sur l'IA. Qui sait si tout cela est vraiment vrai ou s'il s'agit simplement d'une sorte de façade pour le PCC ou l'armée chinoise. Il n'en reste pas moins qu'ils ont publié deux rapports techniques incroyablement détaillés, pour DeepSeek-V3 et DeepSeekR1.
Il s'agit de rapports techniques lourds, et si vous ne connaissez pas beaucoup l'algèbre linéaire, vous ne comprendrez probablement pas grand-chose. Mais ce que vous devriez vraiment essayer, c'est de télécharger l'application gratuite DeepSeek sur l'AppStore ici et de l'installer en utilisant un compte Google pour vous connecter et l'essayer (vous pouvez également l'installer sur Android ici), ou simplement l'essayer sur votre ordinateur de bureau dans le navigateur ici. Veillez à sélectionner l'option « DeepThink » pour activer la chaîne de pensée (le modèle R1) et demandez-lui d'expliquer certaines parties des rapports techniques en termes simples.
Cela vous montrera simultanément plusieurs choses importantes :
- Premièrement, ce modèle est tout à fait légitime. Les benchmarks d'IA font l'objet d'un grand nombre de manipulations, de sorte que les modèles semblent très performants dans les benchmarks, mais qu'ils sont nuls dans les tests en conditions réelles. Google est certainement le pire des contrevenants à cet égard, se vantant constamment de l'excellence de ses LLM, alors qu'ils sont si mauvais dans les tests réels qu'ils ne peuvent même pas accomplir de manière fiable les tâches les plus simples, sans parler des tâches de codage les plus complexes. Les modèles de DeepSeek ne sont pas comme ça - les réponses sont cohérentes, convaincantes et absolument au même niveau que celles d'OpenAI et d'Anthropic.
- Deuxièmement, DeepSeek a réalisé de profondes avancées non seulement en termes de qualité des modèles, mais aussi et surtout en termes d'efficacité de l'apprentissage et de l'inférence des modèles. En étant extrêmement proche du matériel et en superposant une poignée d'optimisations distinctes et très intelligentes, DeepSeek a été en mesure d'entraîner ces modèles incroyables en utilisant les GPU de manière beaucoup plus efficace. Selon certaines mesures, l'efficacité est plus de 45 fois supérieure à celle d'autres modèles de pointe. DeepSeek affirme que le coût total de l'entraînement de DeepSeek-V3 s'est élevé à un peu plus de 5 millions de dollars. Ce n'est absolument rien par rapport aux normes d'OpenAI, d'Anthropic, etc., qui ont largement dépassé les 100 millions de dollars pour les coûts de formation d'un seul modèle dès 2024.
Comment cela a-t-il pu être possible ? Comment cette petite entreprise chinoise a-t-elle pu supplanter tous les esprits les plus intelligents de nos principaux laboratoires d'IA, qui disposent de 100 fois plus de ressources, d'effectifs, de salaires, de capitaux, de GPU, etc. La Chine n'était-elle pas censée être paralysée par la restriction imposée par M. Biden sur les exportations de GPU ? Les détails sont assez techniques, mais nous pouvons au moins les décrire à un niveau élevé. Il se pourrait que la pauvreté relative de DeepSeek en matière de traitement par GPU ait été l'ingrédient essentiel qui l'a rendu plus créatif et plus intelligent, la nécessité étant la mère de l'invention et tout le reste.
Une innovation majeure est leur cadre d'entraînement sophistiqué en précision mixte qui leur permet d'utiliser des nombres à virgule flottante de 8 bits (FP8) tout au long du processus d'entraînement. La plupart des laboratoires d'IA occidentaux utilisent des nombres de 32 bits de « pleine précision » (cela spécifie essentiellement le nombre de gradations possibles pour décrire la sortie d'un neurone artificiel ; 8 bits en FP8 vous permettent de stocker une gamme de nombres beaucoup plus large que vous ne le pensez - elle n'est pas limitée à 256 magnitudes différentes de taille égale comme vous l'obtiendriez avec des nombres entiers ordinaires, mais utilise plutôt des astuces mathématiques astucieuses pour stocker à la fois de très petits et de très grands nombres - bien que naturellement avec une précision moindre que celle que vous obtiendriez avec 32 bits). Le principal compromis est que le FP32 permet de stocker des nombres avec une précision incroyable sur une plage énorme, tandis que le FP8 sacrifie une partie de cette précision pour économiser de la mémoire et augmenter les performances, tout en conservant une précision suffisante pour de nombreuses charges de travail d'intelligence artificielle.
DeepSeek a résolu ce problème en développant un système intelligent qui décompose les nombres en petites tuiles pour les activations et en blocs pour les poids, et qui utilise stratégiquement des calculs de haute précision à des points clés du réseau. Contrairement à d'autres laboratoires qui s'entraînent en haute précision et compressent ensuite (perdant ainsi une partie de la qualité), l'approche native FP8 de DeepSeek leur permet d'économiser massivement de la mémoire sans compromettre les performances. Lorsque vous vous entraînez sur des milliers de GPU, cette réduction spectaculaire des besoins en mémoire par GPU se traduit par une réduction considérable du nombre total de GPU nécessaires.
Le système de prédiction multi-token constitue une autre avancée majeure. La plupart des modèles LLM basés sur Transformer font de l'inférence en prédisant le prochain jeton - un jeton à la fois. DeepSeek a trouvé le moyen de prédire plusieurs jetons tout en conservant la qualité de la prédiction d'un seul jeton. Cette approche permet d'obtenir une précision de 85 à 90 % sur ces prédictions de jetons supplémentaires, ce qui double la vitesse d'inférence sans sacrifier la qualité. L'aspect le plus intéressant est qu'ils conservent la chaîne causale complète des prédictions, de sorte que le modèle ne se contente pas de deviner, mais qu'il fait des prédictions structurées et contextuelles.
L'un de leurs développements les plus innovants est ce qu'ils appellent Multi-head Latent Attention (MLA). Il s'agit d'une avancée dans la manière de gérer ce que l'on appelle les indices clé-valeur, qui sont essentiellement la manière dont les tokens individuels sont représentés dans le mécanisme d'attention au sein de l'architecture Transformer. Bien que cela devienne un peu trop technique, il suffit de dire que ces indices KV constituent l'une des principales utilisations de la VRAM au cours du processus d'apprentissage et d'inférence, et qu'ils expliquent en partie pourquoi il est nécessaire d'utiliser des milliers de GPU en même temps pour apprendre ces modèles - chaque GPU dispose d'un maximum de 96 Go de VRAM, et ces indices mangent cette mémoire comme un petit déjeuner.
Leur système MLA trouve un moyen de stocker une version compressée de ces indices qui capture les informations essentielles tout en utilisant beaucoup moins de mémoire. Ce qui est génial, c'est que cette compression est intégrée directement dans la manière dont le modèle apprend - il ne s'agit pas d'une étape distincte à réaliser, mais d'une intégration directe dans le pipeline d'apprentissage de bout en bout. Cela signifie que l'ensemble du mécanisme est « différentiable » et peut être entraîné directement à l'aide d'optimiseurs standard. Tout cela fonctionne parce que ces modèles trouvent en fin de compte des représentations des données sous-jacentes à des dimensions beaucoup plus faibles que les « dimensions ambiantes ». Il est donc inutile de stocker les indices KV complets, même si c'est ce que tout le monde fait.
Non seulement vous gaspillez des tonnes d'espace en stockant beaucoup plus de nombres que nécessaire, ce qui donne un coup de pouce massif à l'empreinte et à l'efficacité de la mémoire d'entraînement (encore une fois, en réduisant le nombre de GPU nécessaires pour entraîner un modèle de classe mondiale), mais cela peut également finir par améliorer la qualité du modèle parce qu'il peut agir comme un « régularisateur », forçant le modèle à prêter attention aux éléments vraiment importants au lieu d'utiliser la capacité gaspillée pour s'adapter au bruit dans les données d'entraînement. Ainsi, non seulement vous économisez une tonne de mémoire, mais le modèle peut même être plus performant. À tout le moins, vous n'obtenez pas une baisse massive des performances en échange des énormes économies de mémoire, ce qui est généralement le genre de compromis auquel vous êtes confronté dans l'apprentissage de l'IA.
L'algorithme DualPipe et les noyaux de communication personnalisés ont également permis de réaliser des avancées majeures en matière d'efficacité de la communication entre les GPU. Ce système superpose intelligemment le calcul et la communication, en équilibrant soigneusement les ressources du GPU entre ces tâches. Ils n'ont besoin que d'une vingtaine de multiprocesseurs de streaming (SM) de leurs GPU pour la communication, laissant le reste libre pour le calcul. Il en résulte une utilisation des GPU bien supérieure à celle des configurations de formation habituelles.
Une autre chose très intelligente qu'ils ont faite est d'utiliser ce que l'on appelle une architecture Transformer de mélange d'experts (MOE), mais avec des innovations clés en matière d'équilibrage de la charge. Comme vous le savez peut-être, la taille ou la capacité d'un modèle d'intelligence artificielle est souvent mesurée en fonction du nombre de paramètres qu'il contient. Un paramètre est simplement un nombre qui stocke un attribut du modèle ; soit le « poids » ou l'importance d'un neurone artificiel particulier par rapport à un autre, soit l'importance d'un jeton particulier en fonction de son contexte (dans le « mécanisme d'attention »), etc.
Les derniers modèles Llama3 de Meta existent en plusieurs tailles, par exemple : une version à 1 milliard de paramètres (la plus petite), un modèle à 70 milliards de paramètres (le plus couramment utilisé), et même un modèle massif à 405 milliards de paramètres. Ce dernier modèle est d'une utilité limitée pour la plupart des utilisateurs, car il faudrait disposer de dizaines de milliers de dollars de GPU dans son ordinateur pour qu'il fonctionne à des vitesses tolérables pour l'inférence, du moins si on le déploie dans sa version naïve en pleine précision. Par conséquent, la plupart des utilisations dans le monde réel et l'enthousiasme suscité par ces modèles open source se situent au niveau des 8 milliards de paramètres ou des 70 milliards de paramètres hautement quantifiés, puisque c'est ce que peut contenir un GPU Nvidia 4090 grand public, que l'on peut acheter aujourd'hui pour moins de 1 000 dollars.
En quoi tout cela est-il important ? D'une certaine manière, le nombre et la précision des paramètres vous renseignent sur la quantité d'informations brutes ou de données que le modèle a stockées en interne. Notez que je ne parle pas de la capacité de raisonnement, ou du « QI » du modèle si vous voulez : il s'avère que les modèles ayant un nombre de paramètres étonnamment modeste peuvent présenter des performances cognitives remarquables lorsqu'il s'agit de résoudre des problèmes logiques complexes, de prouver des théorèmes de géométrie plane, des problèmes de mathématiques SAT, etc.
Mais ces petits modèles ne seront pas nécessairement en mesure de vous révéler tous les aspects de chaque intrigue de chaque roman de Stendhal, alors que les très grands modèles peuvent potentiellement le faire. Le « coût » de ce niveau de connaissance extrême est que les modèles deviennent très difficiles à entraîner et à inférer, parce qu'il faut toujours stocker chacun de ces 405B paramètres (ou quel que soit le nombre de paramètres) dans la VRAM du GPU en même temps pour pouvoir inférer avec le modèle.
La beauté de l'approche du modèle MOE est que vous pouvez décomposer le grand modèle en une collection de modèles plus petits qui connaissent chacun des éléments de connaissance différents, qui ne se chevauchent pas (au moins complètement). L'innovation de DeepSeek a consisté à développer ce qu'ils appellent une stratégie d'équilibrage de charge « sans perte d'auxiliaires » qui maintient une utilisation efficace des experts sans la dégradation habituelle des performances qui résulte de l'équilibrage de charge. Ensuite, en fonction de la nature de la demande d'inférence, il est possible d'acheminer intelligemment l'inférence vers les modèles « experts » de cette collection de modèles plus petits qui sont les plus à même de répondre à cette question ou de résoudre cette tâche.
En gros, on peut considérer qu'il s'agit d'un comité d'experts ayant leurs propres domaines de connaissances spécialisées : l'un peut être un expert juridique, l'autre un expert en informatique, l'autre un expert en stratégie d'entreprise. Ainsi, si une question portant sur l'algèbre linéaire est posée, elle ne sera pas confiée à l'expert juridique. Il s'agit bien sûr d'une analogie très vague et cela ne fonctionne pas comme cela dans la pratique.
En effet, même si le nombre total de paramètres est élevé pour tous les experts, seul un petit sous-ensemble de ces paramètres est « actif » à un moment donné, ce qui signifie qu'il suffit de stocker ce petit sous-ensemble de poids dans la mémoire vive pour procéder à l'inférence. Dans le cas de DeepSeek-V3, ils ont un modèle MOE absolument massif avec 671B paramètres, donc beaucoup plus grand que même le plus grand modèle Llama3, mais seulement 37B de ces paramètres sont actifs à tout moment - assez pour tenir dans la VRAM de deux GPU Nvidia 4090 de niveau consommateur (moins de 2000 $ de coût total), plutôt que de nécessiter un ou plusieurs GPU H100 qui coûtent quelque chose comme 40k $ chacun.
Selon certaines rumeurs, ChatGPT et Claude utiliseraient tous deux une architecture MoE, certaines fuites suggérant que GPT-4 disposait d'un total de 1,8 trillion de paramètres répartis sur 8 modèles contenant chacun 220 milliards de paramètres. Bien que cela soit beaucoup plus faisable que d'essayer de faire tenir tous les 1,8 trillion de paramètres dans la VRAM, cela nécessite toujours plusieurs GPU de niveau H100 rien que pour faire fonctionner le modèle en raison de la quantité massive de mémoire utilisée.
Au-delà de ce qui a déjà été décrit, les documents techniques mentionnent plusieurs autres optimisations clés. Il s'agit notamment de leur cadre de formation extrêmement efficace en termes de mémoire, qui évite le parallélisme tensoriel, recalcule certaines opérations pendant la rétropropagation au lieu de les stocker, et partage les paramètres entre le modèle principal et les modules de prédiction auxiliaires. La somme totale de toutes ces innovations, une fois superposées, a conduit aux chiffres d'amélioration de l'efficacité de ~45x qui ont été lancés en ligne, et je suis tout à fait disposé à croire que ces chiffres sont dans la bonne fourchette.
Le coût de l'API de DeepSeek est un indicateur très fort de la véracité de ces chiffres : malgré la performance de ce modèle qui est presque le meilleur de sa catégorie, DeepSeek facture les requêtes d'inférence via son API environ 95 % moins cher que les modèles comparables d'OpenAI et d'Anthropic. Dans un sens, c'est un peu comme comparer les GPU de Nvidia aux nouvelles puces personnalisées des concurrents : même s'ils ne sont pas aussi performants, le rapport qualité-prix est tellement meilleur que cela peut être une évidence en fonction de l'application, tant que vous pouvez qualifier le niveau de performance et prouver qu'il est suffisant pour vos besoins et que la disponibilité et la latence de l'API sont suffisantes (jusqu'à présent, les gens ont été étonnés de voir à quel point l'infrastructure de DeepSeek a tenu le coup malgré l'incroyable augmentation de la demande due à la performance de ces nouveaux modèles).
Mais contrairement au cas de Nvidia, où le différentiel de coût est le résultat de marges brutes monopolistiques de plus de 90 % sur leurs produits pour centres de données, le différentiel de coût de l'API DeepSeek par rapport à l'API OpenAI et Anthropic pourrait simplement être dû au fait qu'elle est près de 50 fois plus efficace en termes de calcul (cela pourrait même être beaucoup plus que cela si l'on en déduit que l'efficacité d'environ 45 fois était du côté de l'entraînement). En effet, il n'est même pas certain qu'OpenAI et Anthropic réalisent de grandes marges sur leurs services d'API - ils pourraient être plus intéressés par la croissance de leurs revenus et la collecte de plus de données en analysant toutes les demandes d'API qu'ils reçoivent.
Avant de poursuivre, je m'en voudrais de ne pas mentionner que de nombreuses personnes spéculent sur le fait que DeepSeek ment sur le nombre de GPU et d'heures de GPU consacrées à l'entraînement de ces modèles parce qu'ils possèdent en réalité beaucoup plus de H100 qu'ils ne sont censés en avoir étant donné les restrictions d'exportation de ces cartes, et qu'ils ne veulent pas se créer d'ennuis ou nuire à leurs chances d'acquérir davantage de ces cartes. Bien que cela soit certainement possible, je pense qu'il est plus probable qu'ils disent la vérité et qu'ils ont simplement été en mesure d'obtenir ces résultats incroyables en étant extrêmement intelligents et créatifs dans leur approche de la formation et de l'inférence. Ils expliquent comment ils procèdent et je pense que ce n'est qu'une question de temps avant que leurs résultats ne soient largement reproduits et confirmés par d'autres chercheurs dans d'autres laboratoires.
Un modèle qui peut vraiment penser
Le nouveau modèle R1 et le rapport technique pourraient même être encore plus époustouflants, puisqu'ils ont été capables de battre Anthropic à la chaîne de pensée et sont maintenant pratiquement les seuls, à part OpenAI, à avoir fait fonctionner cette technologie à l'échelle. Mais notez que le modèle de prévisualisation O1 n'a été publié par OpenAI qu'à la mi-septembre 2024. C'était il y a seulement 4 mois ! Il faut absolument garder à l'esprit que, contrairement à OpenAI, qui est incroyablement discret sur la façon dont ces modèles fonctionnent réellement à un bas niveau, et qui ne divulguera les poids réels des modèles à personne en dehors de partenaires comme Microsoft et d'autres qui signent des accords de confidentialité très stricts, les modèles de DeepSeek sont à la fois complètement libres et sous licence permissive. La société a publié des rapports techniques extrêmement détaillés expliquant leur fonctionnement, ainsi que le code que tout le monde peut consulter et essayer de copier.
Avec le modèle R1, DeepSeek est parvenu à résoudre l'un des principaux problèmes de l'IA : faire en sorte que les modèles raisonnent étape par étape sans s'appuyer sur des ensembles massifs de données supervisées. L'expérience DeepSeek-R1-Zero a montré quelque chose de remarquable : en utilisant l'apprentissage par renforcement pur avec des fonctions de récompense soigneusement conçues, ils ont réussi à faire en sorte que les modèles développent des capacités de raisonnement sophistiquées de manière totalement autonome. Il ne s'agissait pas seulement de résoudre des problèmes : le modèle a appris de manière organique à générer de longues chaînes de pensée, à auto-vérifier son travail et à allouer davantage de temps de calcul aux problèmes les plus difficiles.
L'avancée technique réside dans leur nouvelle approche de la modélisation de la récompense. Plutôt que d'utiliser des modèles de récompense neuronaux complexes pouvant conduire à un « piratage de la récompense » (où le modèle trouve de faux moyens d'augmenter ses récompenses qui ne conduisent pas réellement à une meilleure performance du modèle dans le monde réel), ils ont développé un système intelligent basé sur des règles qui combine des récompenses de précision (vérification des réponses finales) avec des récompenses de format (encouragement de la pensée structurée). Cette approche plus simple s'est avérée plus robuste et plus évolutive que les modèles de récompense basés sur le processus que d'autres ont essayés.
Ce qui est particulièrement fascinant, c'est qu'au cours de la formation, les chercheurs ont observé ce qu'ils ont appelé un « moment aha », une phase au cours de laquelle le modèle a spontanément appris à revoir son processus de réflexion en cours de route lorsqu'il est confronté à l'incertitude. Ce comportement émergent n'a pas été explicitement programmé ; il est né naturellement de l'interaction entre le modèle et l'environnement d'apprentissage par renforcement. Le modèle s'arrêtait littéralement, signalait les problèmes potentiels dans son raisonnement et recommençait avec une approche différente, tout cela sans avoir été explicitement formé à le faire.
Le modèle R1 complet s'est appuyé sur ces observations en introduisant ce qu'ils appellent des données de « démarrage à froid » - un petit ensemble d'exemples de haute qualité - avant d'appliquer leurs techniques d'apprentissage par renforcement. Ils ont également résolu l'un des principaux défis des modèles de raisonnement : la cohérence du langage. Les tentatives précédentes de raisonnement par chaîne de pensée aboutissaient souvent à des modèles mélangeant les langues ou produisant des résultats incohérents. DeepSeek a résolu ce problème en récompensant intelligemment la cohérence du langage pendant l'apprentissage du raisonnement logique, en échange d'une légère baisse de performance pour des résultats beaucoup plus lisibles et cohérents.
Les résultats sont époustouflants : sur AIME 2024, l'un des concours de mathématiques les plus difficiles du secondaire, R1 a atteint une précision de 79,8 %, égalant le modèle O1 d'OpenAI. Sur MATH-500, il a atteint 97,3 %, et il a atteint le percentile 96,3 sur les compétitions de programmation Codeforces. Mais le plus impressionnant est peut-être qu'ils ont réussi à distiller ces capacités dans des modèles beaucoup plus petits : leur version à 14B paramètres surpasse de nombreux modèles plusieurs fois plus grands, ce qui suggère que la capacité de raisonnement n'est pas seulement une question de nombre de paramètres bruts, mais aussi de la façon dont vous entraînez le modèle à traiter l'information.
Les retombées
Selon les dernières rumeurs sur Twitter et Blind (un site de rumeurs d'entreprise), ces modèles ont pris Meta complètement au dépourvu et sont plus performants que les nouveaux modèles Llama4, qui sont encore en cours d'apprentissage. Apparemment, le projet Llama au sein de Meta a attiré beaucoup d'attention en interne de la part de cadres techniques de haut niveau, et il en résulte que quelque 13 personnes travaillent sur le projet Llama et que chacune d'entre elles gagne plus par an en rémunération totale que le coût de formation combiné des modèles DeepSeek-V3, qui sont plus performants. Comment expliquer cela à Zuck en gardant la tête froide ? Comment Zuck peut-il garder le sourire alors qu'il verse plusieurs milliards de dollars à Nvidia pour acheter 100 000 H100, alors qu'un meilleur modèle a été formé en utilisant seulement 2 000 H100 pour un peu plus de 5 millions de dollars ?
Mais vous feriez mieux de croire que Meta et tous les autres grands laboratoires d'IA sont en train de démonter ces modèles DeepSeek, d'étudier chaque mot de ces rapports techniques et chaque ligne du code source ouvert qu'ils ont publié, en essayant désespérément d'intégrer ces mêmes astuces et optimisations dans leurs propres pipelines d'entraînement et d'inférence. Quel est l'impact de tout cela ? Eh bien, naïvement, il semble que la demande globale de calcul de formation et d'inférence devrait être divisée par un grand nombre. Peut-être pas par 45, mais peut-être par 25 ou même 30 ? Parce que ce dont vous pensiez avoir besoin avant la sortie de ces modèles, c'est maintenant beaucoup moins.
Un optimiste pourrait dire : « Vous parlez d'une simple constante de proportionnalité, d'un simple multiple. Lorsqu'il s'agit d'une courbe de croissance exponentielle, ces éléments sont si rapidement éliminés qu'ils n'ont finalement pas tant d'importance que cela ». Et il y a du vrai là-dedans : si l'IA est vraiment aussi transformationnelle que je le prévois, si l'utilité de cette technologie dans le monde réel se mesure en billions, si le calcul par inférence est la nouvelle loi d'échelle du pays, si nous allons avoir des armées de robots humanoïdes qui se promènent en faisant des quantités massives d'inférence en permanence, alors peut-être que la courbe de croissance est encore si raide et si extrême, et que Nvidia a une avance suffisamment grande, que cela fonctionnera encore.
Mais Nvidia prévoit BEAUCOUP de bonnes nouvelles dans les années à venir pour que cette valorisation ait du sens, et quand on commence à superposer tous ces éléments en une mosaïque totale, je commence à me sentir extrêmement mal à l'aise à l'idée de dépenser ~20x le chiffre d'affaires estimé pour 2025 pour leurs actions. Que se passe-t-il si l'on constate une légère modération de la croissance des ventes ? Que se passe-t-il si la croissance des ventes est de 85 % au lieu de plus de 100 % ? Et si les marges brutes passent de 75 % à 70 %, ce qui reste ridiculement élevé pour une entreprise de semi-conducteurs ?
Pour conclure
À un niveau élevé, NVIDIA est confrontée à une convergence sans précédent de menaces concurrentielles qui rendent sa valorisation de plus en plus difficile à justifier avec un chiffre d'affaires prévisionnel multiplié par 20 et des marges brutes de 75 %. Les prétendues marges de la société en matière de matériel, de logiciel et d'efficacité montrent toutes des fissures inquiétantes. Le monde entier - des milliers de personnes parmi les plus intelligentes de la planète, soutenues par d'innombrables milliards de dollars de ressources en capital - tente de les attaquer sous tous les angles.
Sur le plan matériel, les architectures innovantes de Cerebras et Groq démontrent que l'avantage de NVIDIA en matière d'interconnexion - pierre angulaire de sa domination dans les centres de données - peut être contourné grâce à des modifications radicales. Les puces à l'échelle du wafer de Cerebras et l'approche de calcul déterministe de Groq offrent des performances convaincantes sans nécessiter les solutions d'interconnexion complexes de NVIDIA. Plus traditionnellement, tous les principaux clients de NVIDIA (Google, Amazon, Microsoft, Meta, Apple) développent du silicium personnalisé qui pourrait réduire le chiffre d'affaires des centres de données à forte marge. Il ne s'agit plus de projets expérimentaux - Amazon à lui seul construit une infrastructure massive avec plus de 400 000 puces personnalisées pour Anthropic.
Le fossé des logiciels semble tout aussi vulnérable. De nouveaux cadres de haut niveau tels que MLX, Triton et JAX réduisent l'importance de CUDA, tandis que les efforts visant à améliorer les pilotes AMD pourraient débloquer des alternatives matérielles beaucoup moins chères. La tendance vers des abstractions de haut niveau reflète la façon dont le langage d'assemblage a cédé la place à C/C++, ce qui suggère que la domination de CUDA pourrait être plus temporaire qu'on ne le pense. Plus important encore, nous assistons à l'émergence d'une traduction de code alimentée par LLM qui pourrait automatiquement porter le code CUDA pour l'exécuter sur n'importe quelle cible matérielle, éliminant ainsi potentiellement l'un des effets de verrouillage les plus importants de NVIDIA.
La percée récente de DeepSeek en matière d'efficacité est peut-être la plus dévastatrice, puisqu'elle permet d'obtenir des performances de modèle comparables pour environ 1/45e du coût de calcul. Cela suggère que l'ensemble de l'industrie a massivement surprovisionné les ressources de calcul. Si l'on ajoute à cela l'émergence d'architectures d'inférence plus efficaces grâce à des modèles de réflexion en chaîne, la demande globale de ressources informatiques pourrait être nettement inférieure à ce que prévoient les projections actuelles. Les arguments économiques sont convaincants : lorsque DeepSeek peut atteindre le niveau de performance de GPT-4 tout en facturant 95 % de moins pour les appels d'API, cela suggère que soit les clients de NVIDIA brûlent inutilement de l'argent, soit les marges doivent baisser de façon spectaculaire.
Le fait que TSMC fabrique des puces compétitives pour tout client bien financé plafonne naturellement les avantages architecturaux de NVIDIA. Mais plus fondamentalement, l'histoire montre que les marchés finissent par trouver un moyen de contourner les goulets d'étranglement artificiels qui génèrent des profits super-normaux. Une fois réunies, ces menaces suggèrent que NVIDIA est confrontée à un chemin beaucoup plus rocailleux pour maintenir sa trajectoire de croissance et ses marges actuelles que ne le laisse supposer sa valorisation. Avec cinq vecteurs d'attaque distincts - innovation architecturale, intégration verticale des clients, abstraction logicielle, percées en matière d'efficacité et démocratisation de la fabrication - la probabilité qu'au moins l'un d'entre eux parvienne à avoir un impact significatif sur les marges ou le taux de croissance de NVIDIA semble élevée. Au vu des valorisations actuelles, le marché ne tient compte d'aucun de ces risques.
J'espère que vous avez apprécié la lecture de cet article. Si vous travaillez dans un fonds spéculatif et que vous souhaitez me consulter sur NVDA ou d'autres actions ou thèmes d'investissement liés à l'IA, je suis déjà inscrit en tant qu'expert sur GLG et Coleman Research.