יצירת מכונות וירטואליות של TPU Flex-start באמצעות Compute Engine

מכונות וירטואליות עם TPU Flex-start, שמבוססות על Dynamic Workload Scheduler, מציעות דרך גמישה וחסכונית לגשת למשאבי TPU לעומסי עבודה של AI למשך עד 7 ימים בלי הזמנות לטווח ארוך. כשמבקשים מכונות וירטואליות עם TPU Flex-start, הבקשה נשארת בתור עד שהקיבולת תהיה זמינה. אחרי ההקצאה, מכונות ה-TPU הווירטואליות פועלות למשך הזמן שציינתם.

מכונות וירטואליות עם TPU Flex-start מתאימות לניסויים מהירים, לבדיקות בקנה מידה קטן, להקצאה דינמית של TPUs לעומסי עבודה של הסקת מסקנות, לכוונון עדין של מודלים ולהרצת עומסי עבודה שנמשכים פחות מ-7 ימים. מידע נוסף על אפשרויות אחרות לשימוש ב-TPU זמין במאמר אפשרויות לשימוש ב-Cloud TPU.

אתם יכולים למחוק את משאבי ה-TPU בכל שלב כדי להפסיק את החיוב. למידע נוסף על תמחור TPU, ראו תמחור Cloud TPU.

מגבלות

למכונות וירטואליות עם TPU Flex-start יש את המגבלות הבאות:

  • אפשר לבקש מכונות וירטואליות עם TPU Flex-start למשך עד 7 ימים.
  • אפשר לבקש את הגרסאות והאזורים הבאים של Cloud TPU:
    • TPU7x: us-central1-c
    • TPU v6e: ‏ asia-northeast1-b, ‏ us-east5-a, ‏ us-south1-ai1b
    • TPU v5p: us-east5-a

ל-MIG עם TPU יש את המגבלות הבאות:

  • פעולות במחזור החיים: אי אפשר להפסיק, להתחיל, להמשיך או להשהות מופעי TPU. כדי לשנות הגדרות שדורשות הפעלה מחדש או כדי להפסיק את החיובים, צריך למחוק את המופעים.

  • חלוקת אזורים של קבוצת MIG אזורית: צריך להגדיר את צורת חלוקת היעד לערך ANY_SINGLE_ZONE.

  • עדכוני הגדרות אישיות בקבוצת מופעים מנוהלת (MIG):

    • אי אפשר לעדכן קבוצת MIG שיוצרת פלח TPU עם כמה מארחים בגלל טופולוגיית המאיץ המוגדרת.
    • כדי לעדכן קבוצת MIG שיוצרת פרוסות TPU במארח יחיד, אפשר להשתמש בשיטות אוטומטיות או סלקטיביות. עם זאת, העדכונים של פרוסת TPU עם מארח יחיד לא תומכים בפעולת ההפעלה מחדש (RESTART). אם נדרשת הפעלה מחדש והפעולה הכי משבשת שמותרת היא החלפה (REPLACE), כלי העדכון יחליף את המופע. אחרת, ניסיון העדכון ייכשל עם שגיאה.

  • בנוסף, המגבלות הבאות חלות על MIG שיוצרת פרוסת TPU מרובת מארחים:

    • מדיניות לגבי גודל יעד: צריך להגדיר את מצב המדיניות לגבי גודל יעד לערך BULK. אחרי שמגדירים את המצב הזה, אי אפשר לשנות אותו.

    • גודל היעד: במצב Bulk, אפשר להגדיר את גודל היעד ל-0 או למספר המכונות שנדרשים ליצירת הטופולוגיה של המאיץ.

    • מדיניות עומס עבודה: צריך לציין מדיניות עומס עבודה שבה מוגדרת טופולוגיית המאיץ. אחרי שמגדירים את מדיניות העומס, אי אפשר לשנות או להסיר את המדיניות מה-MIG.

  • תכונות שלא נתמכות: קבוצות של מכונות וירטואליות עם TPUs לא תומכות בתכונות הבאות:

לפני שמתחילים

לפני שמבקשים מכונות וירטואליות עם TPU Flex-start, צריך:

  • התקנת Google Cloud CLI
  • יצירת Google Cloud פרויקט
  • הפעלת Compute Engine API ‏ (compute.googleapis.com)
  • מוודאים שיש לכם את ההרשאות הנדרשות:
    • roles/compute.instanceAdmin.v1
    • roles/iam.serviceAccountUser

מידע נוסף זמין במאמר בנושא הגדרת פרויקט של Google Cloud TPU.

מוודאים שיש לכם מספיק מכסות של מכונות וירטואליות עם אפשרות קדימה כדי להשתמש במכונות וירטואליות של TPU עם הפעלה גמישה. אם עומס העבודה שלכם דורש יותר ליבות מההקצאה הנוכחית, אתם יכולים לבקש להגדיל את המכסה. פרטים נוספים זמינים במאמר בנושא מכסות של Cloud TPU.

יצירת מכונות וירטואליות של TPU Flex-start עם קבוצות MIG

כדי להשתמש במכונות וירטואליות עם TPU Flex-start, יוצרים קבוצת מופעי מכונה מנוהלים (MIG) עם הגדרה ספציפית של תבנית של הגדרות מכונה.

הוראות כלליות ליצירת מכונות וירטואליות מסוג Flex-start זמינות במאמר יצירת מכונות וירטואליות מסוג Flex-start.

יצירת מכונות וירטואליות של TPU Flex-start עם חלוקה למספר מארחים

יצירת תבנית של הגדרות מכונה

יוצרים תבנית של הגדרות מכונה ומציינים את FLEX_START מודל ההקצאה ואת משך ההפעלה הרצוי.

gcloud compute instance-templates create TEMPLATE_NAME \
    --machine-type=MACHINE_TYPE \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --provisioning-model=FLEX_START \
    --instance-termination-action=DELETE \
    --max-run-duration=DURATION \
    --region=REGION \
    --maintenance-policy=TERMINATE

מחליפים את ה-placeholders הבאים:

  • TEMPLATE_NAME: השם של תבנית של הגדרות מכונה.
  • MACHINE_TYPE: סוג המכונה של ה-TPU VM (לדוגמה, ct6e-standard-8t).
  • IMAGE_FAMILY: משפחת תמונות מערכת ההפעלה של מכונת ה-TPU (לדוגמה, ubuntu-accelerator-2204-amd64-with-tpu-v6e)
  • IMAGE_PROJECT: פרויקט תמונת מערכת ההפעלה של ה-TPU VM (לדוגמה, ubuntu-os-accelerator-images)
  • DURATION: משך ההרצה המקסימלי (לדוגמה, 7d ל-7 ימים).
  • REGION: האזור שבו רוצים ליצור את התבנית של הגדרות המכונה.

יצירת מדיניות של עומס עבודה

הפקודה הבאה יוצרת מדיניות של עומס עבודה. הפעולה הזו אופציונלית עבור פרוסות של מארח יחיד.

gcloud compute resource-policies create workload WORKLOAD_POLICY_NAME \
  --type=high-throughput \
  --accelerator-topology=TOPOLOGY

מחליפים את ה-placeholders הבאים:

  • WORKLOAD_POLICY_NAME: השם של מדיניות עומס העבודה.
  • TOPOLOGY: הטופולוגיה של מכונות ה-TPU הווירטואליות, לדוגמה, 4x4x8.

יצירת ה-MIG

יוצרים את ה-MIG באמצעות התבנית.

gcloud compute instance-groups managed create MIG_NAME \
    --zone=ZONE \
    --template=TEMPLATE_NAME \
    --size=SIZE \
    --workload-policy=projects/PROJECT_ID/regions/WORKLOAD_POLICY_REGION/resourcePolicies/WORKLOAD_POLICY_NAME \
    --target-size-policy-mode=bulk

מחליפים את ה-placeholders הבאים:

  • MIG_NAME: השם של קבוצת ה-MIG.
  • ZONE: האזור של ה-MIG.
  • TEMPLATE_NAME: השם של תבנית של הגדרות מכונה.
  • SIZE: מספר המופעים שרוצים ליצור.
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
  • WORKLOAD_POLICY_REGION: האזור שבו מוגדרת מדיניות עומס העבודה.
  • WORKLOAD_POLICY_NAME: השם של מדיניות עומס העבודה.

יצירת מכונות וירטואליות של TPU Flex-start עם פלחים של מארח יחיד

יצירת תבנית של הגדרות מכונה

יוצרים תבנית של הגדרות מכונה ומציינים את FLEX_START מודל ההקצאה ואת משך ההפעלה הרצוי.

gcloud compute instance-templates create TEMPLATE_NAME \
    --machine-type=MACHINE_TYPE \
    --image-family=IMAGE_FAMILY \
    --image-project=IMAGE_PROJECT \
    --provisioning-model=FLEX_START \
    --instance-termination-action=DELETE \
    --max-run-duration=DURATION \
    --region=REGION \
    --maintenance-policy=TERMINATE

מחליפים את ה-placeholders הבאים:

  • TEMPLATE_NAME: השם של תבנית של הגדרות מכונה.
  • MACHINE_TYPE: סוג המכונה של ה-TPU VM (לדוגמה, ct6e-standard-8t).
  • IMAGE_FAMILY: משפחת תמונות מערכת ההפעלה של מכונת ה-TPU (לדוגמה, ubuntu-accelerator-2204-amd64-with-tpu-v6e)
  • IMAGE_PROJECT: פרויקט תמונת מערכת ההפעלה של מכונת ה-TPU (לדוגמה, ubuntu-os-accelerator-images)
  • DURATION: משך ההרצה המקסימלי (לדוגמה, 7d ל-7 ימים).
  • REGION: האזור שבו רוצים ליצור את התבנית של הגדרות המכונה.

יצירת מדיניות של עומס עבודה

הפקודה הבאה יוצרת מדיניות של עומס עבודה. הפעולה הזו אופציונלית עבור פרוסות של מארח יחיד.

gcloud compute resource-policies create workload WORKLOAD_POLICY_NAME \
  --type=high-throughput

מחליפים את ה-placeholders הבאים:

  • WORKLOAD_POLICY_NAME: שם למדיניות של עומס העבודה.

יצירת ה-MIG

יוצרים את ה-MIG באמצעות התבנית.

gcloud compute instance-groups managed create MIG_NAME \
    --zone=ZONE \
    --template=TEMPLATE_NAME \
    --size=SIZE \
    --workload-policy=projects/PROJECT_ID/regions/WORKLOAD_POLICY_REGION/resourcePolicies/WORKLOAD_POLICY_NAME

מחליפים את ה-placeholders הבאים:

  • MIG_NAME: השם של קבוצת ה-MIG.
  • ZONE: האזור של ה-MIG.
  • TEMPLATE_NAME: השם של תבנית של הגדרות מכונה.
  • SIZE: מספר המופעים שרוצים ליצור.
  • PROJECT_ID: מזהה הפרויקט ב- Google Cloud .
  • WORKLOAD_POLICY_REGION: האזור שבו מוגדרת מדיניות עומס העבודה.
  • WORKLOAD_POLICY_NAME: השם של מדיניות עומס העבודה.