Avec l'IA, le show n'en finit pas, au rythme d'évolutions par palier qui, de ce fait, prennent toujours au dépourvu. Ainsi, à peine venait-on de s'épousseter le derrière sur lequel l'on était tombé au visionnage des vidéos générées par Sora, que l'on est retombé dessus à l'écoute des musiques générées par Suno v3, Udio et autres Stable Audio 2.0.
Parallèlement, l'on assiste à l'explosion des infrastructures requises pour élaborer cette offre et faire face à la demande qu'elle suscite, au rythme d'annonces qui ne sont pas moins spectaculaires.
Bienvenue dans une nouvelle édition de la chronique qui s'efforce de suivre, où l'humain tient la plume, et l'IA tient le pinceau.
NB : Ce billet a été rédigé début mars par un humain et non une boîte de conserve, et publié dans le numéro #263 de Programmez! de mai 2024.
Le mur du son
Après le texte et l'image, la musique connaît son "ChatGPT moment". Entre fin mars et mi-avril, trois applications déboulent en fanfare : Suno v3, suivie de près par Stable Audio 2.0, puis par Udio. Comparés aux morceaux que l'on avait pu entendre jusqu'alors, ceux générés à partir d'une description par Suno et Udio sont d'une qualité stupéfiante, sachant que dans leur cas, il n'est pas seulement question de mélodie, mais aussi de paroles, ces dernières étant générées ou à fournir - en français, si l'on veut. La performance de Stable Audio 2.0 apparaît moindre, ne serait-ce que parce que l'application est sans paroles, mais elle présente l'intérêt de pouvoir générer un morceau non seulement à partir d'une description, mais aussi d'un morceau existant.
Pour le profane, ça passe vraiment très bien, même si comme le dit un commentateur sur Reddit, et comme ce fut le cas en matière de génération d'images au début, c'est assez la "slot machine", le rapport entre le prompt et le résultat pouvant être assez lointain. Pour les musiciens, c'est autre chose. Début avril, une cohorte de stars réunies au sein de l'Artists Right Alliance co-signent une lettre ouverte publiée sur Medium. Dans "Stop Devaluating Music", elles interpellent vivement les acteurs de l'IA en les accusant de "sabotage creativity and undermine artists, songwriters, musicians and rightholders" non seulement en utilisant leurs contenus sans leur autorisation, mais aussi en déversant un flot de contenus, ce qui dilue les droits qu'elles pourraient en tirer. En conclusion, "this assault on human creativity must be stopped".
Chacun se fera son avis, notamment les musiciens qui cherchent à s'approprier une technologie qui démocratise la création, plutôt que de se contenter de la dénoncer. Tout de même, si l'argument relatif au recueil de l'accord pour l'utilisation du contenu peut être pris au sérieux, au point d'ailleurs qu'il fait ici et là son petit bonhomme de chemin, celui relatif à la dilution des droits d'auteur par inondation de contenus dédaigneusement qualifiés de "sounds" et d'"images" - avec les guillemets, s'il vous plaît - a plutôt de quoi faire rire. Eh ! c'est quoi la contre-mesure ? Une police des goûts et des couleurs conduite par quelques rentiers qui contrôleraient le robinet, sur le mode du gouvernement tchéchène qui vient d'interdire les musiques dont le rythme n'est pas national ? Que Billie Eilish aille danser à Grozny si ça lui chante ; moi, j'irai pas !
Enfin, pour prendre un peu de hauteur, un point qu'il ne faut surtout pas manquer de relever, c'est qu'en même temps que Stable Audio 2.0, Stable Diffusion a inauguré Stable Radio, la première chaîne YouTube qui diffuse en continu de la musique générée en temps réel. En effet, et l'on s'en doute depuis le début, la vraie révolution ne serait-elle pas que tout contenu multimédia puisse être généré en temps réel en fonction d'attentes particulières ? La fin de l'ère du contenu figé, diffusé en boucle auprès de la masse ; le début de celle du contenu toujours réinventé, diffusé à la demande auprès d'un groupe, voire un individu. Bref, l'ère du streaming de contenu depuis sa génération...
Le mur de l'énergie
Conséquence de l'explosion de l'offre et de la demande, la question de la consommation d'énergie par l'IA prend chaque jour plus d'importance. Mi-février, The Verge pointe l'elephant in the room en posant la question : "How much electricity does AI consume?" Une vraie énigme, selon l'auteur, qui devient toujours plus insoluble que la perspective de gains incite toujours moins les éditeurs à communiquer. Citant les résultats d'une recherche pionnière, l'article rapporte que générer une image pourrait consommer autant d'électricité que pour recharger un smartphone, mais que les chercheurs observent une grande variabilité selon ce qui est généré et par quoi, si bien qu'à ce stade, le mérite de cette recherche est surtout de montrer qu'il est possible de mesurer cette consommation.
Mi-avril, The Economist constate généralement que "Generative AI has a clean-energy problem". Pour l'affirmer, l'hebdomadaire s'appuie sur une étude de l'International Energy Agency (IAE), déjà citée par The Verge, selon laquelle la consommation des datacenters pourrait doubler entre 2022 et 2026, pour représenter l'équivalent de celle du Japon. Certes, mais cela reste bien vague. En particulier, quelle part de ce regain faudra-t-il imputer exactement à l'IA, générative qui plus est ? Il faut supposer qu'en attendant que les éditeurs publient ne serait-ce que leurs factures d'électricité, le reste du monde ne pourra que se perdre en spéculations...
Dans ces conditions, c'est plutôt aux signes extérieurs de gourmandise électrique qu'il est le plus fiable de s'en remettre. On sait déjà que mi-décembre, le Wall Street Journal rapportait que Microsoft cherchait à obtenir l'autorisation de bâtir ses propres centrales nucléaires pour faire tourner son IA. L'histoire rebondit début avril, quand Axios relaie les propos que lui a tenus la secrétaire d'Etat à l'Energie du gouvernement américain. Loin de freiner des quatre fers, ce dernier entend accélérer la discussion avec les big techs pour trouver le moyen de moyenner, soit concrètement leur permettre d'installer de petites centrales nucléaires sur le site même de leurs datacenters.
C'est que, pour revenir sur le propos de The Economist, les Etats-Unis risquent d'être un peu courts pour résoudre autrement le problème, pour deux raisons. Tout d'abord, la demande d'électricité devrait vigoureusement progresser sous l'effet des politiques environnementales, notamment l'incitation à passer au véhicule électrique. Ensuite, il est difficile pour les pouvoirs publics d'augmenter la capacité de production, sous les effets conjugués de difficultés d'approvisionnement en matériels et d'explosion des coûts en cette période d'inflation.
Aventurons-nous à penser qu'il en ira de même sur le Vieux continent. D'ailleurs, début avril, The Register rapporte que les utilisateurs irlandais d'Amazon Web Services (AWS) ont été confrontés à des restrictions, voire carrément invités à recourir aux services d'AWS ailleurs. Success story nationale oblige, tant AWS que l'EDF local évitent soigneusement de pointer explicitement un problème de consommation d'électricité, mais cela n'empêche pas The Register de le penser très fort. De la clientèle pour l'EPR de Flamanville en France ? Oups ! Au même moment, France Bleu signale que le planning vient encore de déraper...
Le mur du hardware
Là-dessus, Nvidia ne manque pas d'en rajouter. Mi-mars, le sémillant CEO ouvre la GPU Technology Conference (GTC) de l'année par une keynote chargée d'annonces, tant sur le hardware que sur les applications qu'il permet. Côté hardware, c'est l'apparition du Blackwell, qui succède au Hopper : "a massive leap in compute", c'est le moins que l'on puisse dire, la performance annoncée dans les calculs AI quintuplant - Jensen Huang est fier d'exhiber une courbe pour démontrer que la loi de Moore est enfoncée. Côté applications, c'est un étalage de ce que Nvidia et ses partenaires, qui se sont démultipliés, peuvent réaliser à l'aide de l'AI à base du hardware maison : digital twin, weather forecasts, computational drug, etc. Cerise sur le gâteau, Nvidia investit la robotique avec le projet GR00T - pour Generalist Robot 00 Technology, avec des zéros je vous prie.
Bref, comme l'écrit The Economist dans la foulée, Jensen Huang est devenu le "generative-AI showman of our time" dans l'objectif d'étendre sa base de clientèle aussi rapidement que possible. Une semaine auparavant, dans un article où il analyse la répartition du "AI pie", l'hebdomadaire cite une étude selon laquelle Nvidia produirait actuellement 80% des chips du marché de l'IA. De ce fait, la firme trilliardaire serait en situation de quasi-monopole pour équiper les centres de calcul, ce qui lui assurerait des revenus considérables, du fait des marges plus que confortables qu'elle réalise.
Dès lors, l'on comprend tout l'intérêt pour Nvidia d'inciter le maximum d'entreprises à se lancer dans l'IA. Début mars, dans une rare interview qui présente un intérêt parce que son interlocuteur de la Stanford Graduate School of Business semble plus chercher à en apprendre qu'à se faire mousser, Jensen Huang a somme toute été très clair là-dessus : "almost everything we do, we create technology, we create markets". Partant, ce n'est pas faire preuve de cynisme, mais seulement de réalisme, que d'en déduire que peu importe que les applications annoncées ne se révèlent finalement pas à la hauteur des espérances, pourvu qu'elles nécessitent le matériel et les services de Nvidia pour tourner. De quoi inciter à prendre les annonces du bateleur avec des pincettes... ce dont l'on se doutait déjà, l'ayant entendu répéter à l'envi qu'"everyone is a programmer" aussitôt que ChatGPT a pu cracher trois lignes de code, comme rapporté dans une chronique précédente.
Reste que les perspectives apparaissent florissantes, si l'on en juge d'après ces quelques intentions affichées au fil des mois derniers :
- Mi-janvier, Mark Zuckerberg - vous savez, le cuistre dans The Social Network -, annonce sur Instagram que Meta a démarré la construction d'une infrastructure dont la puissance de calcul équivaudra à celle de 600 000 GPUs de modèle H100 - le Hopper évoqué à l'instant -, notamment à base de 350 000 de ces derniers - à 30 000 dollars pièce, cela représenterait déjà plus de 10 milliards de dollars. Livraison espérée fin 2024.
- Fin mars, The Information rapporte que Microsoft et OpenAI se lanceraient elles-aussi dans la construction d'une infrastructure monstrueuse, répondant au doux nom de Stargate. Ici, ce n'est pas la quantité de GPUs qui est évoquée, mais le montant de l'investissement consenti, qui s'élèverait à plus de 100 milliards de dollars. Livraison par tranches, la dernière espérée fin 2028.
- Début avril, Bloomberg révèle que pour faire face à la demande générée par le recours à l'IA générative, Amazon va investir 150 milliards de dollars dans des datacenters sur les quinze années à venir. Noter que pour en revenir à la question du mur de l'énergie évoquée plus tôt, il est précisé qu'Amazon est contrainte de choisir de s'implanter là... où il lui est encore possible de trouver de l'électricité !
Et ainsi de suite... Déjà bien gros, il apparaît donc que le gâteau n'en a pas fini de s'accroître. A terme, cela pose la question de savoir dans quelle mesure il se révélera soufflé, mais dans l'immédiat, cela pose celle du temps durant lequel Nvidia va pouvoir se l'accaparer. Une question dont Jensen Huang est parfaitement conscient, expliquant dans l'interview évoquée que le matin en se rasant, il ne pense qu’à faire survivre sa boîte menacée de mort.
Le mur des fonderies
De fait, vu le gâteau, c'est sans surprise qu'il faut constater que d'autres souhaitent s'en tailler une part, ne serait-ce que pour ne pas avoir plus longtemps à subir les goûts du pâtissier. Dans une précédente chronique, l'on avait déjà évoqué les ambitions d'AMD en la matière. Depuis, ça se bouscule au portillon.
Tout d'abord, il faut mentionner évidemment les favoris :
- Début avril, à l'occasion de l'Intel Vision 2024, le fabricant présente Gaudi 3, un "AI accelerator" dont il prétend que les performances dépassent largement celle du H100 de Nvidia. D'après ses tests réalisés sur certains modèles - du LLaMA 7B au Falcon 180B -, Gaudi 3 serait 50% plus rapide à l'entraînement, et presque autant à l'inférence, en consommant par ailleurs 40% moins d'énergie à cette étape.
- Presque concomitamment, Meta livre les premiers détails sur la deuxième génération du Meta Training and Inference Accelerator (MTIA). D'après la communication, la puissance de calcul et la bande passante seraient doublées par rapport à la première génération. Attention, comme le commente The Next Platform, en dépit de son nom, le MTIA sert à l'inférence, pas à l'entraînement - "in the future", indique Meta.
Mais il faut mentionner aussi les outsiders, qui évidemment n'entendent pas le rester :
- Mi-mars, IEEE Spectrum rapporte que Cerebras aurait produit "the largest single chip in the world". Un monstre de silicium, en effet, d'une vingtaine de centimètres de côté, dont la performance en matière de calculs pour l'AI s'élèverait à 125 petaflops, et qui serait destiné à construire un supercalculateur de 8 exaflops - pour comparaison, Frontier, le plus gros supercalculateur, dépote à 1,2 exaflops, et un Intel Core i9 comme celui qui équipe un PC flambant neuf, 850 gigaflops.
- Mi-février, CoinTelegraph rapporte que les réseaux sociaux s'enflamment à la communication des performances de Groq, impressionnante vidéo à l'appui. Rien à voir avec Grok d'Elon Musk : Groq est une startup qui a développé un nouveau type de circuit, dit Language Processing Unit (LPU). Ce dernier fait tellement carburer les LLMs, que TechCrunch rapporte quinze jours plus tard le rachat par Groq d'une autre startup afin de proposer une offre dans le cloud.
Tout ce petit monde entend donc marcher sur les terres de Nvidia. Toutefois, le leader a pris de l'avance, et comme l'on vient de le voir, entend bien la conserver. Par ailleurs, en plus de performances techniques et d'intégration verticale - la fameuse stack qui repose sur CUDA -, et comme le fait remarquer l'un des chroniqueurs de l'excellent podcast Last Week in AI, Nvidia a aussi pour elle son emprise sur la capacité de production en masse de circuits intégrés, autrement dit les fonderies, ou plutôt la fonderie, car pour l'heure il n'y a guère que TSMC : "The big question you always want to ask is When will the production run actually be scaled? When are we going to start to see Gaudi 3 chips coming off the production line in quantities that actually matter? Because remember, a lot of this stuff is bottlenecked by semiconductor fab capacity over TSMC." Bref, "the window for profitability here looks like it actually may be fairly narrow" Cela étant, conclut le chroniqueur, il faut déjà se satisfaire qu'Intel rentre dans la course.
Le mur du service
Autant pour l'offre, quid de la demande ? Ici encore, c'est la course, mais cette fois pour disposer des moyens requis pour entraîner et utiliser des modèles de tout poil.
En août dernier, Wired rapportait les difficultés rencontrées par les start-ups pour accéder au hardware dans un contexte où toutes se ruent sur le cloud pour accéder aux GPUs requis pour entraîner et faire tourner des modèles. Blâmez TMSC, expliquait Tom's Hardware dans la foulée, l'incontournable fondeur s'en excusant publiquement, et promettant une sortie du tunnel d'ici fin 2024.
Du coup, Wired expliquait comment cette pénurie suscitait un intérêt croissant pour l'optimisation, l'art de trouver des techniques d'entraînement et d'inférence plus économes sur tous les plans. Mais comme si les choses n'étaient pas devenues assez compliquées, l'on apprend qu'en dépit de tous ces efforts, il ne suffit pas de parvenir à mettre la main sur un cluster, encore faut-il qu'il fonctionne.
Début mars, Yi Tay, l'un des fondateurs de Reka, startup qui a produit des modèles multimodaux, a produit une très rare retour d'expérience sur l'entraînement de modèles conséquents sur des clusters loués ici et là. C'est à lire ! Dans Training great LLMs entirely from ground up in the wilderness as a startup, il décrit l'enfer que cela a été de travailler en dehors de l'infrastructure de Google, qu'il a bien connue. Il pointe des défaillances à tous les niveaux - la moindre n'étant pas la faiblesse des GPUs par rapport aux TPUs - et les efforts déployés pour les compenser, et surtout l'impression de se retrouver à la loterie : "The most frustrating part? It's almost impossible to really tell ahead of time, especially in the frenzy of everything, what kind of hardware one was going to get and how robust/fault-tolerant the experience would be." Yi Tay évoque même la suppression accidentelle de checkpoints par l'hébergeur. Sympa, vu ce que cela coûte d'en produire !
A cette lecture, l'on comprend que le travail de l'éditeur d'un modèle ne se borne pas à l'élaborer, constituer un corpus, et entraîner le premier avec le second : il faut encore consacrer beaucoup d'énergie à trouver et faire fonctionner l'infrastructure requise pour cela. L'on retombe sur une problématique désormais bien connue, qui a parfois débouché sur des (ré)internalisations : ce n'est pas parce que c'est dans le cloud que ça marche mieux, et que c'est par conséquent plus rentable.
En effet, loger son IA dans le cloud, cela coûte cher. Très cher. Début avril, The Register rapporte que les coffres de Stability AI - dont, mi-mars, Fortune rapporte que le fuligineux CEO Emad Mostaque a démissionné suite à de multiples problèmes - ont été vidés pour financer la location de clusters chez AWS, Google et compagnie, fournisseurs auxquels il reste d'ailleurs de belles factures à régler. Sans doute, la gestion de Stability AI telle qu'elle est décrite apparaît peu rigoureuse, mais cela traduit une difficulté plus générale qui est celle de la rentabilité de startups de l'IA qui brûlent le cash comme les flambeurs de Casino Royale.
Ainsi, quelques jours avant le départ de Mostaque, Bloomberg rapporte que Microsoft a sorti le carnet de chèques pour acquérir des droits sur la technologie d'Inflection AI, et par ailleurs en débaucher les talents - une opération dite d'acqui-hiring, où l'on vide de sa substance plutôt que l'on ne rachète, histoire d'éviter les foudres de l'antitrust. Fin connaisseur du milieu, l'un des chroniqueurs de Last Week In AI explique qu'"unfortunately, that just, you know, in a world where scaling is key to get to AGI, there's no real prize for second place". L'on rappelle que pas plus tard que fin juin dernier, Reuters rapportait qu'Inflection AI avait levé 1,3 milliards de dollars, et qu'à date de sa vampirisation, la licorne était valorisée à 4 milliards ...