Terminologia

A terminologia a seguir é usada com frequência ao trabalhar com o Hipercomputador de IA.

Bloquear
Um conjunto de sub-blocos interconectados com malha não bloqueante, que oferece conectividade de alta largura de banda entre todos os hosts.

Cluster
Um conjunto de blocos interconectados por uma malha de rede de alta velocidade. Cada cluster é globalmente exclusivo. Para máquinas A4X, A4, A3 Ultra, A3 Mega e A3 High (8 GPUs), um cluster fornece uma malha de rede comum e não bloqueadora para seus blocos de capacidade de acelerador. Em um cluster, a rede leste-oeste não é bloqueadora para toda a coleção de blocos.

Implantação densa
Uma solicitação de recurso que aloca seus recursos de acelerador fisicamente próximos uns dos outros para minimizar os saltos de rede e otimizar para a menor latência.

Estrutura de rede
Uma estrutura de rede oferece conectividade de alta largura de banda e baixa latência em todos os blocos e serviços de um cluster. Google Cloud O Jupiter é a arquitetura de rede de data center do Google que usa redes definidas por software e comutadores de circuitos ópticos para evoluir a rede e otimizar a performance dela.

Nó ou host
Uma única máquina de servidor físico no data center. Cada host tem recursos de computação associados, como aceleradores. O número e a configuração desses recursos de computação dependem da família de máquinas. As instâncias do Compute Engine são provisionadas em um host físico.

Um domínio NVLink, também chamado de subbloco, é a unidade principal de capacidade para máquinas A4X Max e A4X. Um domínio NVLink consiste em 18 instâncias A4X Max ou A4X (72 GPUs) conectadas por um sistema NVLink de vários nós.

Sub-bloco
Um grupo de hosts e hardware de conectividade associado que estão em um único rack físico. No contexto das máquinas A4X Max e A4X, um sub-bloco também é chamado de domínio NVLink.

Mais informações

Os documentos a seguir oferecem mais explicações sobre as terminologias relevantes para os tópicos correspondentes: