Services réseau pour les déploiements

Ce document décrit les services réseau que vous configurez pour les déploiements de clusters et de VM AI Hypercomputer. Les services réseau spécifiques que vous configurez pour AI Hypercomputer dépendent de l'option de déploiement que vous choisissez pour vos VM ou clusters.

Ce document est destiné aux architectes, aux ingénieurs réseau et aux développeurs qui souhaitent comprendre les services réseau pour leurs déploiements AI Hypercomputer. Dans ce document, nous partons du principe que vous connaissez les concepts de base de la mise en réseau cloud et du calcul distribué. Pour en savoir plus sur les options de déploiement, consultez la présentation de la création de VM et de clusters.

Ce document décrit les services réseau que vous configurez pour les options de déploiement suivantes :

Configurer la mise en réseau pour les déploiements GKE par défaut

Lorsque vous créez un cluster GKE optimisé pour l'IA avec les paramètres par défaut, vous définissez vos paramètres réseau dans le plan Cluster Toolkit. Le plan change en fonction du type de machine que vous sélectionnez. Par exemple, le plan Cluster Toolkit déploie un cluster GKE avec une machine A4.

Le plan configure le réseau de la manière suivante :

  • Utilise le VPC par défaut : le plan utilise le réseau cloud privé virtuel par défaut pour le cluster GKE principal.
  • Crée deux VPC supplémentaires : le plan configure deux réseaux cloud privé virtuel distincts. L'un est destiné à une deuxième carte d'interface réseau (NIC), et l'autre au trafic d'accès direct à la mémoire à distance (RDMA) entre les unités de traitement graphique (GPU). En utilisant cette configuration multi-VPC, vous pouvez améliorer l'isolation du réseau. Pour en savoir plus, consultez la section Environnement multi-VPC.
  • Définit des plages d'adresses IP : le plan définit l'espace d'adresses IP privées pour vos nœuds GKE. Il configure des plages d'adresses IP secondaires pour les pods et les services. GKE utilise l'alias d'adresses IP pour éviter les conflits d'adresses IP.
  • Applique un profil réseau optimisé pour le RDMA : le plan applique un profil réseau prédéfini et géré par Google au VPC utilisé pour le trafic GPU. Ce profil configure automatiquement le réseau pour les performances à haut débit et à faible latence dont le RDMA a besoin. Pour en savoir plus, consultez la section Profils réseau pour des cas d'utilisation spécifiques.
  • Automatise la création de sous-réseaux pour le RDMA : pour garantir des performances optimales, le plan crée automatiquement huit sous-réseaux dédiés dans le VPC RDMA. Il crée un sous-réseau pour chacune des huit cartes d'interface réseau RDMA sur une VM d'accélérateur.
  • Configure des règles de pare-feu : le plan configure des règles de pare-feu qui autorisent tout le trafic TCP (Transmission Control Protocol), UDP (protocole de datagramme utilisateur) et ICMP (Internet Control Message Protocol) entre les nœuds du cluster. Cela permet aux nœuds de communiquer librement. Il configure également une plage CIDR (Classless Inter-Domain Routing) autorisée pour limiter l'accès au plan de contrôle du cluster GKE pour des raisons de sécurité.

Mise en réseau pour les déploiements GKE avec une configuration personnalisée

Lorsque vous avez besoin d'un contrôle plus précis que celui fourni par les plans Cluster Toolkit par défaut, configurez manuellement les objets réseau pour un cluster GKE optimisé pour l'IA. Cette approche vous permet d'adapter la configuration réseau aux besoins spécifiques de votre charge de travail.

La configuration que vous utilisez dépend du fait que vous prévoyez d'exécuter des charges de travail d'IA distribuées ou non :

  • Pour les charges de travail non distribuées : créez un cluster GKE sans GPUDirect RDMA. Cette méthode utilise un seul réseau VPC pour toutes les communications.
  • Pour les charges de travail distribuées : créez un cluster GKE avec GPUDirect RDMA activé. L'activation de GPUDirect RDMA est essentielle pour obtenir des performances optimales à grande échelle. Cette configuration implique un environnement multi-VPC qui sépare le trafic à usage général de la communication à bande passante élevée et à faible latence entre les GPU.

Pour obtenir des instructions détaillées sur la création d'un cluster GKE personnalisé optimisé pour l'IA pour les deux scénarios, consultez la section Créer un cluster GKE personnalisé optimisé pour l'IA GKE cluster.

Mise en réseau pour les déploiements de clusters Slurm

Vous pouvez utiliser Cluster Toolkit pour déployer des charges de travail de calcul hautes performances (HPC), d'IA et de ML sur Google Cloud à l'aide de plans hautement personnalisables et extensibles. Par exemple, lorsque vous créez un cluster Slurm optimisé pour l'IA avec un type de machine A4. Cette section explique les services réseau configurés dans le plan A4, ce qui vous permet de comprendre les paramètres des réseaux que vous pouvez modifier lors de la création de clusters Slurm.

Lors du déploiement, le plan Cluster Toolkit utilise Packer pour créer automatiquement une image de système d'exploitation (OS) personnalisée. Packer crée l'image en lançant une VM temporaire et en exécutant des scripts pour personnaliser le disque de démarrage. Vous pouvez personnaliser l'image à l'aide de scripts de démarrage, de scripts shell ou de playbooks Ansible. Le plan utilise ensuite cette image personnalisée pour installer le logiciel système requis pour la gestion des clusters et des charges de travail sur les nœuds Slurm.

Les composants réseau configurés par le plan sont les suivants :

  • Crée trois VPC distincts : le plan crée un VPC principal pour le plan de contrôle Slurm, un VPC secondaire pour le trafic général au niveau de l'hôte et un VPC hautes performances dédié à la communication entre les GPU. Cette séparation empêche le trafic de gestion d'interférer avec le plan de données de la charge de travail. Pour en savoir plus, consultez la section Environnement multi-VPC.
  • Applique un profil réseau optimisé pour le RDMA : pour le plan de données GPU, le plan applique un profil réseau préconfiguré et géré par Google, optimisé pour RoCE. Il crée automatiquement huit sous-réseaux, un pour chaque carte d'interface réseau RDMA sur les VM d'accélérateur. Pour en savoir plus, consultez la section Profils réseau pour des cas d'utilisation spécifiques.
  • Réserve une plage d'adresses IP pour le stockage partagé : le plan définit une plage d'adresses IP dédiée requise par le service Filestore. Filestore fournit le répertoire /home partagé pour le cluster.
  • Fournit un réseau de création d'images isolé : le plan crée un VPC temporaire utilisé uniquement lors du processus de création de l'image de VM personnalisée pour les nœuds de cluster. Cela fournit un environnement réseau isolé pour les opérations Packer.

Pour en savoir plus sur les options de déploiement, consultez la documentation Cluster Toolkit.

Mise en réseau pour les instances Compute Engine

Avec Compute Engine, vous pouvez créer des VM autonomes, des instances de VM en bloc et des groupes d'instances gérés (MIG) pour différents types de machines optimisées pour les accélérateurs.

Ces types de machines nécessitent une configuration de réseau multi-VPC pour gérer différents types de trafic. Cette configuration sépare le trafic général d'hôte à hôte de la communication à bande passante élevée entre les GPU. Les exigences réseau spécifiques varient en fonction du type de machine.

Pour obtenir des informations détaillées sur les cartes d'interface réseau et la configuration réseau de votre type de machine, consultez la section Examiner la bande passante réseau et la configuration des cartes d'interface réseau.

Pour obtenir des instructions détaillées sur la création de ces réseaux VPC, consultez la section Créer des réseaux VPC.

Étape suivante