תיוג טבלאות ב-Data Catalog על סמך תובנות מפרופילי נתונים

בדף הזה מוסבר איך להחיל באופן אוטומטי תגים של Data Catalog על טבלאות ב-BigQuery אחרי שפרופילים של Sensitive Data Protection נוצרו עבור הטבלאות האלה. בדף הזה מוצגות גם דוגמאות לשאילתות שאפשר להשתמש בהן כדי למצוא נתונים מתויגים בארגון ובפרויקטים.

התכונה הזו שימושית אם רוצים להעשיר את המטא-נתונים שנאספו ידנית ב-Knowledge Catalog בתובנות שנאספו מפרופילים של נתונים של Sensitive Data Protection. התובנות הבאות כלולות בתגים שנוצרו:

  • סוגי המידע (infoTypes) שזוהו בעמודות של הטבלה
  • רמת הרגישות המחושבת של הטבלה
  • רמת הסיכון המחושבת של הנתונים בטבלה

תובנות מפרופילי נתונים של Sensitive Data Protection יכולות לעזור לכם להשתמש ב-Knowledge Catalog כדי לגלות נתונים רגישים ונתונים בסיכון גבוה בארגון. אפשר להשתמש בתובנות האלה כדי לקבל החלטות מושכלות לגבי ניהול הנתונים והשליטה בהם.

אם רוצים לשלוח את התוצאות של עבודות בדיקה – ולא פעולות של יצירת פרופיל נתונים – אל Knowledge Catalog, אפשר לעיין במאמר שליחת תוצאות בדיקה של Sensitive Data Protection אל Data Catalog.

מידע על פרופילי נתונים

אתם יכולים להגדיר את Sensitive Data Protection כך שיפיק באופן אוטומטי פרופילים של נתונים בארגון, בתיקייה או בפרויקט. פרופילים של נתונים מכילים מדדים ומטא-נתונים על הנתונים שלכם, ועוזרים לכם לקבוע איפה נמצאים נתונים רגישים ונתונים בסיכון גבוה. הדוחות של Sensitive Data Protection כוללים את המדדים האלה ברמות שונות של פירוט. מידע על סוגי הנתונים שאפשר ליצור להם פרופיל זמין במאמר בנושא משאבים נתמכים.

מידע על Knowledge Catalog ועל Data Catalog

Knowledge Catalog הוא Google Cloud שירות שמאחד נתונים מבוזרים ומבצע אוטומציה של ניהול הנתונים והשליטה בהם. ‫Data Catalog (יצא משימוש) הוא שירות מנוהל מלא לניהול מטא-נתונים שאפשר להתאים לעומס.

‫Data Catalog מאפשר לכם להשתמש בתגים ובתבניות תגים כדי לצרף מטא-נתונים עסקיים לנתונים. אחרי מכן תוכלו לחפש ולנהל את כל המטא-נתונים של הארגון או הפרויקט בשירות מאוחד. מידע נוסף זמין במאמר בנושא תגים ותבניות תגים.

איך זה עובד

אם הפעלתם את הפעולה Send to Dataplex as tags בהגדרות של סריקת הגילוי, בכל פעם שמערכת Sensitive Data Protection יוצרת פרופיל של הנתונים שלכם, היא מבצעת את הפעולות הבאות: הפעולה הזו חלה רק על פרופילים חדשים ומעודכנים. פרופילים קיימים שלא עודכנו לא נשלחים אל Knowledge Catalog.

  1. יוצרת תבנית תגים פרטית שמכילה את הסכימה של התגים שיצורפו לטבלאות ב-BigQuery. מידע על השם, המזהה והמיקום של תבנית ליצירת תג זמין במאמר פרטים על תבנית התג.

    רק ישות מורשית עם התפקידים וההרשאות המתאימים יכולים לראות את תבנית ליצירת תג.

  2. יוצר תג לכל טבלה ב-BigQuery שיוצרים לה פרופיל. התג מבוסס על תבנית ליצירת תג החדשה שנוצרה.

    לדוגמה, תג שנוצר ומצורף לטבלה יכול לכלול את המטא-נתונים הבאים:

    השם המוצג ערך
    Column Insights ccn: CREDIT_CARD_NUMBER
    first_name: PERSON_NAME
    last_name: PERSON_NAME
    ssn: US_SOCIAL_SECURITY_NUMBER
    email: EMAIL_ADDRESS
    Column Sensitivity ccn: HIGH
    first_name: MODERATE
    last_name: MODERATE
    favorite_animal: LOW
    ssn: HIGH
    email: MODERATE
    id: LOW
    Data Risk Level HIGH
    Other InfoTypes PHONE_NUMBER
    Predicted InfoTypes CREDIT_CARD_NUMBER,US_SOCIAL_SECURITY_NUMBER,EMAIL_ADDRESS,PERSON_NAME
    Profile Last Generated DATE at TIME
    Sensitive Data Profile organizations/ORGANIZATION_ID/locations/REGION/tableDataProfiles/TABLE_DATA_PROFILE_ID
    Sensitivity Score HIGH

לטבלה יש שני תגים אם היא עברה פרופיל דרך שני התהליכים הבאים:

  • הגדרת סריקה ברמת הארגון או ברמת התיקייה
  • הגדרת סריקה ברמת הפרויקט

אחרי שתייגתם את הטבלאות, תוכלו לחפש ב-Knowledge Catalog את כל הנתונים בארגון או בפרויקט עם ערכי תיוג ספציפיים.

פרטי תבנית ליצירת תג

שם התבנית, מזהה התבנית והפרויקט שבו מאוחסנת תבנית ליצירת תג החדשה תלויים במשאב שאליו מתייחסת הגדרת הסריקה.

  • אם הגדרת הסריקה היא ברמת הארגון או התיקייה, תבנית ליצירת תג מאוחסנת במאגר של סוכן השירות. השם של תבנית ליצירת תג הוא Sensitive Data Profile. מזהה התבנית שלו הוא sensitive_data_profile.
  • אם הגדרת הסריקה היא הגדרה ברמת הפרויקט, תבנית התגים מאוחסנת בפרויקט שיוצר עבורו פרופיל. השם של תבנית ליצירת תג הוא Sensitive Data Profile (Project). מזהה התבנית שלו הוא sensitive_data_profile_project.

תמחור

מידע על חיובים אפשריים בשירותים אחרים על ייצוא פרופילי נתונים זמין במאמר תמחור של ייצוא פרופילי נתונים. Google Cloud

תיוג אוטומטי של טבלאות ב-BigQuery על סמך פרופילי נתונים

  1. יוצרים הגדרות סריקה. אפשר גם לערוך הגדרת סריקה קיימת.

  2. בשלב Add actions (הוספת פעולות), מוודאים שהאפשרות Send to Dataplex as tags (שליחה ל-Dataplex כתגים) מופעלת.

    • אם אתם יוצרים הגדרת סריקה, הפעולה הזו מופעלת כברירת מחדל.
    • אם עורכים הגדרת סריקה, צריך להפעיל את הפעולה הזו.

אחרי שהנתונים עוברים פרופיל ותיוג, אפשר להתחיל לחפש נתונים מתויגים ב-Knowledge Catalog.

תפקידים והרשאות לצפייה בתגים

בתוצאות החיפוש ב-Knowledge Catalog מוצגים רק הנתונים שיש לכם גישה אליהם. כדי לחפש את התגים שמצורפים לטבלאות BigQuery, אתם צריכים את התפקידים או ההרשאות הבאים בניהול זהויות והרשאות גישה (IAM):

מטרה תפקיד מוגדר מראש הרשאות רלוונטיות
הצגת תבנית ליצירת תג פרטי צפייה ב-TagTemplate ב-Data Catalog (roles/datacatalog.tagTemplateViewer) datacatalog.tagTemplates.getTag
הצגת התגים שמוחלים על טבלאות BigQuery BigQuery Metadata Viewer (צפייה במטא-נתונים של BigQuery) (roles/bigquery.metadataViewer) bigquery.datasets.get
bigquery.tables.get

מידע נוסף על תפקידים ב-Knowledge Catalog זמין במאמר תפקידים לצפייה בתגים ציבוריים ופרטיים.

מידע על הקצאת תפקיד מוגדר מראש מופיע במאמר הקצאת תפקיד יחיד. אם אתם רוצים להשתמש בתפקיד בהתאמה אישית במקום בתפקיד מוגדר מראש, ודאו שלתפקיד בהתאמה אישית יש את ההרשאות הרלוונטיות. מידע נוסף זמין במאמר בנושא יצירת תפקיד בהתאמה אישית.

איתור תבנית ליצירת תג שנוצרה

  1. נכנסים לדף Tag Templates בקטלוג הידע במסוף Google Cloud .

    מעבר אל Tag templates

  2. ברשימה, מוצאים את תבנית ליצירת תג. מידע על השם, המזהה והמיקום של תבנית התגים זמין במאמר פרטים על תבנית התגים.

  3. אופציונלי: כדי למצוא את תבנית ליצירת תג שנוצרה על ידי הגדרת סריקה מסוימת של גילוי, מזינים את הטקסט הבא בשדה Filter (סינון):

    name:PROJECT_ID.TAG_TEMPLATE_ID
    

    מחליפים את מה שכתוב בשדות הבאים:

    • PROJECT_ID: מזהה הפרויקט שמשויך להגדרת הסריקה. אם יצרתם פרופיל לנתונים ברמת הארגון או התיקייה, צריך להזין את מזהה הפרויקט של מאגר סוכן השירות.
    • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.

איך מוצאים את התג שנוצר לפרופיל נתוני טבלה מסוים

  1. נכנסים לדף Search בקטלוג הידע במסוף Google Cloud .

    מעבר אל חיפוש

  2. בשדה חיפוש, מזינים את הערך הבא:

    name:TABLE_ID tag:PROJECT_ID.TAG_TEMPLATE_ID
    

    מחליפים את מה שכתוב בשדות הבאים:

    • TABLE_ID: המזהה של הטבלה שנוצר לה פרופיל.
    • PROJECT_ID: מזהה הפרויקט שמכיל את תבנית התג. אם יצרתם פרופיל לנתונים ברמת הארגון או התיקייה, צריך להזין את מזהה הפרויקט של מאגר סוכן השירות.
    • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  3. ברשימה שמופיעה, לוחצים על מזהה הטבלה. פרטי הטבלה ב-BigQuery מופיעים לצד תגי Sensitive Data Profile או Sensitive Data Profile (Project) שמצורפים אליה.

    לטבלה יש שני תגים אם היא עברה פרופיל דרך שני התהליכים הבאים:

    • הגדרת סריקה ברמת הארגון או ברמת התיקייה
    • הגדרת סריקה ברמת הפרויקט

מידע על ביצוע חיפוש באמצעות Data Catalog API זמין במאמר איך מחפשים נכסי נתונים.

שאילתות חיפוש לדוגמה

בקטע הזה מופיעות דוגמאות לשאילתות חיפוש שאפשר להשתמש בהן ב-Knowledge Catalog כדי למצוא נתונים בארגון או בפרויקט עם ערכי תגים ספציפיים.

תוכלו לראות רק את הנתונים שיש לכם גישה אליהם. הגישה לנתונים נשלטת באמצעות הרשאות IAM. מידע נוסף זמין בקטע תפקידים והרשאות לצפייה בתגים בדף הזה.

אפשר להזין את השאילתות האלה בדף Search של Knowledge Catalog במסוף Google Cloud .

מעבר אל חיפוש

מידע על ניסוח השאילתות מופיע במאמר תחביר החיפוש ב-Data Catalog. מידע על ביצוע חיפוש באמצעות Data Catalog API זמין במאמר איך מחפשים נכסי נתונים.

חיפוש כל הטבלאות שתויגו באמצעות תבנית ליצירת תג חדשה

tag:PROJECT_ID.TAG_TEMPLATE_ID

מחליפים את מה שכתוב בשדות הבאים:

  • PROJECT_ID: מזהה הפרויקט שמכיל את תבנית התג. אם יצרתם פרופיל לנתונים ברמת הארגון או התיקייה, צריך להזין את מזהה הפרויקט של מאגר סוכן השירות.
  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.

בדוגמאות הבאות בדף הזה לא מופיע מזהה הפרויקט, ולכן יכול להיות שתקבלו תוצאות שמשויכות להגדרות שונות של סריקת גילוי. כדי להגביל את התוצאות לתצורת סריקה מסוימת, מוסיפים את מזהה הפרויקט לשאילתה, כמו בדוגמה הזו.

חיפוש של כל הטבלאות שהפרופיל שלהן נוצר לפני תאריך מסוים

tag:TAG_TEMPLATE_ID.profile_last_generated<DATE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • DATE: תאריך בפורמט YYYY-MM-DD. לדוגמה: 2023-01-15.

חיפוש כל הטבלאות עם ציון רגישות נתון ברמת הטבלה

tag:TAG_TEMPLATE_ID.sensitivity_score=SENSITIVITY_SCORE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • SENSITIVITY_SCORE: אחת מהאפשרויות HIGH,‏ MODERATE או LOW.

מידע נוסף זמין במאמר רמות הסיכון והרגישות של הנתונים.

חיפוש כל הטבלאות עם רמת סיכון נתונים מסוימת

tag:TAG_TEMPLATE_ID.data_risk_level=DATA_RISK_LEVEL

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • DATA_RISK_LEVEL: אחת מהאפשרויות HIGH,‏ MODERATE או LOW.

מידע נוסף זמין במאמר רמות הסיכון והרגישות של הנתונים.

מציאת כל הטבלאות שמכילות סוג מידע חזוי מסוים

tag:TAG_TEMPLATE_ID.predicted_info_types:INFOTYPE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • INFOTYPE: סוג המידע. לדוגמה: PERSON_NAME.

רשימה של כל ה-infoType המובנים זמינה במאמר חומר עזר בנושא גילוי infoType.

מידע נוסף זמין במאמר בנושא Predicted infoType (סוג מידע חזוי) בהפניה למדדים.

חיפוש כל הטבלאות שמכילות חלקית סוג מידע מסוים

tag:TAG_TEMPLATE_ID.other_info_types:INFOTYPE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • INFOTYPE: סוג המידע. לדוגמה: PERSON_NAME.

רשימה של כל ה-infoType המובנים זמינה במאמר חומר עזר בנושא גילוי infoType.

מידע נוסף זמין במאמר בנושא סוגי מידע אחרים בהפניה למדדים.

חיפוש כל הטבלאות שמכילות עמודה מסוימת עם infoType מסוים שחזוי

tag:TAG_TEMPLATE_ID.column_insights:COLUMN_NAME:INFOTYPE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • COLUMN_NAME: שם העמודה בטבלת BigQuery.
  • INFOTYPE: סוג המידע. לדוגמה: PERSON_NAME.

רשימה של כל ה-infoType המובנים זמינה במאמר חומר עזר בנושא גילוי infoType.

מידע נוסף זמין במאמר בנושא Predicted infoType (סוג מידע חזוי) בהפניה למדדים.

חיפוש כל הטבלאות שמכילות עמודה מסוימת עם ציון רגישות מסוים ברמת העמודה

tag:TAG_TEMPLATE_ID.column_sensitivity:COLUMN_NAME:SENSITIVITY_SCORE

מחליפים את מה שכתוב בשדות הבאים:

  • TAG_TEMPLATE_ID: ‫sensitive_data_profile אם הגדרת הסריקה היא לארגון או לתיקייה; sensitive_data_profile_project אם הגדרת הסריקה היא לפרויקט.
  • COLUMN_NAME: שם העמודה בטבלת BigQuery.
  • SENSITIVITY_SCORE: אחת מהאפשרויות HIGH,‏ MODERATE או LOW.

מידע נוסף זמין במאמר רמות הסיכון והרגישות של הנתונים.

ערכי תגים שקוצרו

אם נתוני כותרת העמודה בטבלת BigQuery חורגים מ-10MB, יכול להיות שיוצג [TRUNCATED] בתג שנוצר בשדה Column Insights או Column Sensitivity. במקרה כזה, מומלץ להיכנס אל Sensitive Data Protection כדי לבדוק את פרופיל הנתונים של הטבלה ואת פרופילי הנתונים של העמודות המשויכות.