Cloud TPU VM を作成する
TPU VM は、Create Node API、Queued Resources API、または Google Kubernetes Engine(GKE)を使用して作成します。
Create Node API は、Google Cloud CLI を使用して gcloud compute tpus tpu-vm create
コマンドを実行する場合と、
Google Cloud コンソールを使用して TPU VM を作成する場合に呼び出されます。Create Node API を使用すると、リクエストは直ちに処理されます。リクエストを処理するのに十分な容量がない場合、リクエストは失敗します。
Queued Resources API を使用して TPU VM を作成することをおすすめします。Queued Resources API を使用して TPU VM を作成すると、Cloud TPU サービスは、キューに格納されたリソース リクエストを、サービスが維持するキューに追加します。リクエストされたリソースが使用可能になると、サービスは それを Google Cloud プロジェクトに割り当て、すぐに独占的に使用できるようになります。詳細については、キューに入れられたリソースを管理するをご覧ください。
Google Kubernetes Engine(GKE)を使用して TPU リソースを管理する場合は、まず GKE クラスタを作成します。次に、TPU スライスを含むノードプールをクラスタに追加します。詳細については、 GKE の TPU についてをご覧ください。
前提条件
次の前提条件を満たしていることを確認してください。
TPU の Google Cloud プロジェクトを作成します。 TPU の Google Cloud プロジェクトを設定するをご覧ください。
Cloud TPU リソースを計画するの説明に従って、TPU の要件を決定します。
8 個のチップを備えた v5e TPU を作成するための環境変数を設定します。次の例では、8 個のチップを備えた v5e TPU を使用します。別のアクセラレータ タイプとバージョンを指定できます。詳細については、TPU のバージョン をご覧ください。
export TPU_NAME=your-tpu-name export PROJECT_ID=your-project export ZONE=us-central1-a export ACCELERATOR_TYPE=v5litepod-8 export VERSION=v2-alpha-tpuv5-lite
Create Node API を使用して Cloud TPU を作成する
Cloud TPU は、gcloud、コンソール Google Cloud 、
または Cloud TPU API を使用して作成します。
Cloud TPU を作成するときに、TPU ソフトウェア バージョン(ランタイム バージョンとも呼ばれます)を指定します。使用するソフトウェア バージョンを決定するには、 TPU ソフトウェア バージョンをご覧ください。
また、使用する TPU 構成の TensorCore 数または TPU チップ数を指定します。詳細については、システム アーキテクチャで、使用している TPU バージョンのセクション をご覧ください。
gcloud
Create Node API を使用して TPU を作成するには、gcloud compute tpus tpu-vm create
command を使用します。特定の内部または外部 IP アドレスを構成するには、
外部 IP アドレスと内部 IP アドレス
をご覧ください。
次のコマンドは、8 個の TPU チップを備えた v5e TPU VM を作成します。
gcloud compute tpus tpu-vm create $TPU_NAME \ --project=$PROJECT_ID --zone=$ZONE \ --accelerator-type=$ACCELERATOR_TYPE \ --version=$VERSION
コマンドフラグの説明
zone- Cloud TPU を作成するゾーン。
accelerator-type- アクセラレータ タイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU の各バージョンでサポートされているアクセラレータ タイプの詳細については、TPU のバージョンをご覧ください。
version- TPU ソフトウェアのバージョン。
コンソール
次の手順では、8 個の TPU チップを備えた v5e TPU VM を作成します。
コンソールで、[TPU] ページに移動します。 Google Cloud
[TPU を作成] をクリックします。
[名前] フィールドに、TPU の名前を入力します。
[ゾーン] フィールドで、TPU を作成するゾーンを選択します。
[TPU タイプ] フィールドで、アクセラレータ タイプを選択します。 アクセラレータ タイプでは、作成する Cloud TPU のバージョンとサイズを指定します。TPU の各バージョンでサポートされているアクセラレータ タイプの詳細については、TPU のバージョンをご覧ください。
[TPU ソフトウェア バージョン] フィールドで、ソフトウェア バージョンを選択します。Cloud TPU VM の作成時には、この TPU ソフトウェア バージョンによって、インストールされる TPU ランタイム バージョンが指定されます。詳細については、TPU ソフトウェア バージョンをご覧ください。
[作成] をクリックしてリソースを作成します。
curl
次のコマンドでは、curl を使用して 8 個の TPU チップを備えた v5e TPU VM を作成します。
curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" -H "Content-Type: application/json" -d "{accelerator_type: $ACCELERATOR_TYPE, \ runtime_version:'$VERSION', \ network_config: {enable_external_ips: true}, \ shielded_instance_config: { enable_secure_boot: true }}" \ https://tpu.googleapis.com/v2/projects/$PROJECT_ID/locations/$ZONE/nodes?node_id=$TPU_NAME
必須項目
runtime_version- 使用する Cloud TPU ランタイム バージョン。
project-id- 登録済みの Google Cloud プロジェクトの名前。
zone- Cloud TPU を作成するゾーン 。
node_name- 作成する TPU VM の名前。
Java
このコード例では、Java の Cloud TPU API を使用して 8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
このコード例では、Node.js の Cloud TPU API を使用して 8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
このコード例では、Python の Cloud TPU API を使用して 8 個の TPU チップを備えた v5e TPU VM を作成します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
起動スクリプトを実行する
TPU VM の作成時に --metadata startup-script フラグを指定すると、TPU VM で起動スクリプトを実行できます。
gcloud
このコマンドは、TPU VM を作成し、起動スクリプトを指定します。
gcloud compute tpus tpu-vm create $TPU_NAME \ --zone=$ZONE \ --accelerator-type=$ACCELERATOR_TYPE \ --version=$VERSION \ --metadata startup-script='#! /bin/bash pip3 install numpy EOF'
Java
このコード例では、TPU VM を作成し、Java で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
Node.js
このコード例では、TPU VM を作成し、Node.js で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
Python
このコード例では、TPU VM を作成し、Python で起動スクリプトを指定します。
Cloud TPU に対する認証を行うには、アプリケーションのデフォルト認証情報を設定します。 詳細については、ローカル開発環境の認証の設定をご覧ください。
次のステップ
- キューに格納されたリソースについて学習する。
- TPU VM を管理する方法を学習する。
- GKE の TPU について学習する。
- TPU VM で JAX コードを実行する方法を学習する。
- TPU VM で PyTorch コードを実行する方法を学習する。
- TPU で ML ワークロードを実行する方法を学習する(例: TPU で vLLM を使用して Qwen2-72B-Instruct をサービングする)。