L’intelligence artificielle (IA) était au centre de la conférence Google Cloud Next la semaine dernière, alors que Google annonçait des mises à jour de TPU, des instances de machines virtuelles alimentées par des GPU Nvidia, des améliorations de Google Distributed Cloud et une version premium de GKE.
Les méthodes traditionnelles de conception et de construction d’une infrastructure informatique, a déclaré Google dans un communiqué, ne sont plus adaptées aux demandes croissantes de charges de travail telles que l’IA générative et les grands modèles de langage (GML).
Cloud TPU (Tensor Processing Unit) 5ve, désormais disponible en avant-première, a déclaré la société, est le TPU infonuagique le plus rentable, le plus polyvalent et le plus évolutif à ce jour. Les Google Cloud TPU sont des puces d’IA personnalisées conçues pour la formation et l’inférence de grands modèles d’IA.
TPU 5ve offre une intégration avec Google Kubernetes Engine (GKE), le service Kubernetes entièrement géré de Google, ainsi qu’avec Vertex AI et des référentiels comme Pytorch, JAX et TensorFlow, afin que les clients puissent démarrer avec des interfaces familières.
À moins de la moitié du coût du TPU v4, sa puce d’IA de génération précédente sortie en 2021, le TPU 5ve offre des performances de formation et d’inférence supérieures pour les modèles d’IA plus complexes, affirme Google.
De plus, Google améliore d’un cran les performances des tâches de formation grâce à la technologie Multislice, disponible en version préliminaire, qui permet aux développeurs de faire évoluer les charges de travail avec jusqu’à des dizaines de milliers de puces infonuagiques TPU v5e ou TPU v4. Auparavant, les tâches de formation utilisant des TPU étaient limitées à une seule tranche de puces TPU (une tranche est un sous-ensemble d’un groupe de périphériques TPU interconnectés appelé Pod), plafonnant la taille des tâches les plus importantes à une taille de tranche maximale de 3 072 puces pour TPUv4.
Les puces IA de Nvidia ont également fait la une de l’événement, alors que Google a annoncé que les instances de machines virtuelles A3, alimentées par huit GPU Nvidia H100, deux processeurs Intel Xeon Scalable de 4e génération et 2 To de mémoire, seront disponibles le mois prochain. Ces instances ont été annoncées pour la première fois lors du Google IO en mai.
La combinaison des GPU de Nvidia avec les technologies d’infrastructure de Google Cloud constitue « un énorme pas en avant dans les capacités de calcul intensif, avec une formation 3 fois plus rapide et une bande passante réseau 10 fois supérieure par rapport à la génération précédente », a déclaré Google.
Le PDG de Nvidia, Jensen Huang, a rejoint le PDG de Google Cloud, Thomas Kurian, lors de son discours d’ouverture mardi pour souligner le partenariat de longue date entre les deux sociétés. Il a expliqué qu’effectuer un travail de pointe dans le domaine de l’IA générative et des GML est une science informatique révolutionnaire et de pointe, et que les deux sociétés travaillent ensemble pour repenser et réoptimiser la pile logicielle.
Google a également annoncé trois nouvelles optimisations de données et d’IA pour Google Distributed Cloud (GDC), notamment les intégrations de Vertex AI, AlloyDB Omni et Dataproc Spark.
Les intégrations de Vertex AI, notamment les services API de prédiction, de pipelines et de traduction de documents, seront disponibles en version préliminaire au deuxième trimestre 2024.
AlloyDB Omni est un nouveau moteur de base de données géré en version préliminaire, présenté comme étant plus de 2 fois plus rapide que PostgreSQL standard pour les charges de travail transactionnelles.
Dataproc Spark est le service géré de Google Cloud pour l’exécution d’outils de données open source qui, selon lui, permettra aux clients d’exécuter Spark avec un CTP (coût total de possession) inférieur de 54 %.
Google a également présenté une pile matérielle mise à jour pour GDC comprenant des processeurs évolutifs Intel Xeon de 4e génération et des structures réseau hautes performances avec un débit allant jusqu’à 400 Gbit/s. De plus, elle a ajouté de nouvelles configurations matérielles pour GDC Edge, conçues pour résister aux connectivités réseau incohérentes.
Enfin, Google a lancé la version entreprise de GKE, une nouvelle édition premium de GKE conçue pour augmenter la vitesse de charge de travail au sein de plusieurs équipes et réduire le coût total de possession grâce à une solution entièrement intégrée et gérée de Google Cloud.
Adaptation et traduction française par Renaud Larue-Langlois.