אם הגדרתם את שירות גילוי המידע הרגיש כך שישלח את כל פרופילי הנתונים שנוצרו בהצלחה אל BigQuery, תוכלו לשלוח שאילתות לגבי פרופילי הנתונים האלה כדי לקבל תובנות לגבי הנתונים שלכם. אפשר גם להשתמש בכלים להצגה חזותית כמו Data Studio כדי ליצור דוחות בהתאמה אישית שמותאמים לצרכים העסקיים שלכם. לחלופין, אפשר להשתמש בדוח מוכן מראש ש-Sensitive Data Protection מספק, לשנות אותו ולשתף אותו לפי הצורך.
בדף הזה מוצגות דוגמאות לשאילתות SQL שאפשר להשתמש בהן כדי לקבל מידע נוסף על פרופילי הנתונים. בנוסף, תלמדו איך ליצור תצוגה חזותית של פרופילי נתונים ב-Data Studio.
מידע נוסף על פרופילי נתונים זמין במאמר סקירה כללית של גילוי מידע אישי רגיש.
לפני שמתחילים
בדף הזה מניחים שהגדרתם פרופילים ברמת הארגון, התיקייה או הפרויקט. במסגרת ההגדרה של סריקת הגילוי, מוודאים שהפעולה שמירת עותקים של פרופיל הנתונים ב-BigQuery מופעלת. מידע נוסף על יצירת הגדרות לסריקת גילוי זמין במאמר בנושא יצירת הגדרות לסריקה.
טבלת הפלט
במסמך הזה, הטבלה שמכילה את פרופילי הנתונים שיוצאו נקראת טבלת הפלט.
חשוב לוודא שמזהה הפרויקט, מזהה מערך הנתונים ומזהה הטבלה של טבלת הפלט זמינים. ההרשאות האלה נדרשות כדי לבצע את הפעולות שמתוארות בדף הזה.
התצוגה latest
כש-Sensitive Data Protection מייצאת פרופילי נתונים לטבלת הפלט, היא גם יוצרת את התצוגה latest. התצוגה הזו היא טבלה וירטואלית שסיננו מראש את הנתונים שלה, והיא כוללת רק את תמונות המצב העדכניות ביותר של פרופילי הנתונים. לתצוגה latest יש את אותה סכימה כמו לטבלת הפלט, כך שאפשר להשתמש בשתיהן לסירוגין בשאילתות SQL ובדוחות Data Studio. התוצאות יכולות להיות שונות כי טבלת הפלט מכילה תמונות מצב ישנות יותר של פרופילי הנתונים.
התצוגה latest מאוחסנת באותו מיקום שבו מאוחסנת טבלת הפלט. השם שלו הוא בפורמט הבא:
OUTPUT_TABLE_latest_VERSION
מחליפים את מה שכתוב בשדות הבאים:
- OUTPUT_TABLE: המזהה של הטבלה שמכילה את פרופילי הנתונים המיוצאים.
- VERSION: מספר הגרסה של התצוגה.
לדוגמה, אם שם טבלת הפלט הוא table-profile, אז לתצוגה latest
יש שם כמו table-profile_latest_v1.
כשמשתמשים בתצוגה latest בשאילתות SQL, צריך להשתמש בשם המלא של התצוגה, שכולל את מזהה הפרויקט, מזהה מערך הנתונים, מזהה הטבלה והסיומת – לדוגמה, myproject.mydataset.table-profile_latest_v1.
PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION
בחירה בין טבלת הפלט לבין התצוגה latest
בתצוגה latest מוצגות רק תמונות המצב העדכניות ביותר של פרופיל הנתונים, ואילו בטבלת הפלט מוצגות כל תמונות המצב של פרופיל הנתונים, כולל תמונות מצב לא עדכניות. לדוגמה, שאילתה בטבלת הפלט יכולה להחזיר כמה פרופילים של נתוני עמודות לאותה עמודה – אחד לכל פעם שהעמודה הזו עברה פרופיל.
כשבוחרים בין שימוש בטבלת הפלט לבין שימוש בתצוגה בשאילתות SQL או בדוחות Data Studio, כדאי לשקול את הנקודות הבאות:latest
התצוגה
latestשימושית אם יש לכם נכסי נתונים שעברו פרופיל מחדש ואתם רוצים לראות רק את הפרופילים האחרונים – לא את הגרסאות הקודמות שלהם. כלומר, אתם רוצים לראות את המצב הנוכחי של הנתונים בפרופיל.טבלת הפלט שימושית אם רוצים לקבל תצוגה היסטורית של הנתונים שנוצרו בפרופיל. לדוגמה, אתם מנסים לקבוע אם הארגון שלכם אי פעם שמר סוג מידע מסוים, או שאתם רוצים לראות את השינויים שנעשו בפרופיל נתונים מסוים.
שאילתות SQL לדוגמה
בקטע הזה מופיעות דוגמאות לשאילתות שאפשר להשתמש בהן כשמנתחים פרופילים של נתונים. הוראות להרצת השאילתות האלה מופיעות במאמר בנושא הרצת שאילתות אינטראקטיביות.
בדוגמאות הבאות, מחליפים את TABLE_OR_VIEW באחד מהערכים הבאים:
- השם של טבלת הפלט, שהיא הטבלה שמכילה את פרופילי הנתונים המיוצאים – לדוגמה,
myproject.mydataset.table-profile. - השם של התצוגה
latestשל טבלת הפלט – לדוגמה,myproject.mydataset.table-profile_latest_v1.
בכל מקרה, צריך לכלול את מזהה הפרויקט ואת מזהה קבוצת הנתונים.
מידע נוסף מופיע בקטע בחירה בין טבלת הפלט לבין תצוגת latest בדף הזה.
כדי לפתור בעיות שנתקלתם בהן, אפשר לעיין במאמר בנושא הודעות שגיאה.
רשימה של כל העמודות עם ציון גבוה של טקסט חופשי וראיות להתאמות של infoType אחרות
SELECT
column_profile.table_full_resource,
column_profile.COLUMN,
other_matches.info_type.name,
column_profile.profile_last_generated
FROM
`TABLE_OR_VIEW`
LEFT JOIN UNNEST(column_profile.other_matches) AS other_matches
WHERE
column_profile.free_text_score = 1
AND ( column_profile.column_info_type.info_type.name>""
OR ARRAY_LENGTH(column_profile.other_matches)>0 )
במאמר אסטרטגיות מומלצות לצמצום הסיכון לנתונים מוסבר איך לטפל בבעיות האלה.
מידע נוסף על המדדים ציון טקסט חופשי וסוגי מידע אחרים זמין במאמר פרופילים של נתונים בעמודות.
תציג רשימה של כל הטבלאות שמכילות עמודה של מספרי כרטיסי אשראי
SELECT
column_profile.table_full_resource,
column_profile.profile_last_generated
FROM
`TABLE_OR_VIEW`
WHERE
column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"
CREDIT_CARD_NUMBER הוא סוג מידע מובנה שמייצג מספר כרטיס אשראי.
במאמר אסטרטגיות מומלצות לצמצום הסיכון לנתונים מוסבר איך לטפל בבעיות האלה.
הצגת פרופילים של טבלאות שמכילים עמודות עם מספרי כרטיסי אשראי, מספרי ביטוח לאומי בארה"ב ושמות של אנשים
SELECT
table_full_resource,
COUNT(*) AS count_findings
FROM (
SELECT
DISTINCT column_profile.table_full_resource,
column_profile.column_info_type.info_type.name
FROM
`TABLE_OR_VIEW`
WHERE
column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
'CREDIT_CARD_NUMBER',
'US_SOCIAL_SECURITY_NUMBER')
ORDER BY
column_profile.table_full_resource ) ot1
GROUP BY
table_full_resource
#increase this number to match the total distinct infoTypes that must be present
HAVING
count_findings>=3
השאילתה הזו משתמשת בסוגי המידע המובנים הבאים:
-
CREDIT_CARD_NUMBER: מייצג מספר כרטיס אשראי -
PERSON_NAME: מייצג את השם המלא של אדם -
US_SOCIAL_SECURITY_NUMBERמייצג מספר ביטוח לאומי בארה"ב
במאמר אסטרטגיות מומלצות לצמצום הסיכון לנתונים מוסבר איך לטפל בבעיות האלה.
רשימת קטגוריות שבהן ציון הרגישות הוא SENSITIVITY_HIGH
SELECT file_store_profile.file_store_path, file_store_profile.resource_visibility, file_store_profile.sensitivity_score
FROM `TABLE_OR_VIEW`
WHERE file_store_profile.sensitivity_score.score ='SENSITIVITY_HIGH'
;
מידע נוסף זמין במאמר בנושא פרופילים של נתוני חנויות.
רשימה של כל הנתיבים, האשכולות וסיומות הקבצים של הדלי שנבדקו, שבהם ציון הרגישות הוא SENSITIVITY_HIGH
SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions, file_store_profile.profile_last_generated.timestamp
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND summaries.sensitivity_score.score ='SENSITIVITY_HIGH'
GROUP BY 1, 2, 4
;
מידע נוסף זמין במאמר בנושא פרופילים של נתוני חנויות.
רשימה של כל הנתיבים, האשכולות והסיומות של הקבצים שנמצאו בהם מספרי כרטיסי אשראי
SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name='CREDIT_CARD_NUMBER'
GROUP BY 1, 2
;
CREDIT_CARD_NUMBER הוא סוג מידע מובנה שמייצג מספר כרטיס אשראי.
מידע נוסף זמין במאמר בנושא פרופילים של נתוני חנויות.
רשימה של כל הנתיבים של דליים, אשכולות וסיומות קבצים שנסרקו, שבהם זוהה מספר כרטיס אשראי, שם של אדם או מספר ביטוח לאומי בארה"ב
SELECT file_store_profile.file_store_path, summaries.file_cluster_type.cluster, STRING_AGG(scanned_file_extensions.file_extension) AS scanned_extensions
FROM `TABLE_OR_VIEW`
LEFT JOIN UNNEST(file_store_profile.file_cluster_summaries) as summaries
LEFT JOIN UNNEST(summaries.file_store_info_type_summaries) as info_types
LEFT JOIN UNNEST(summaries.file_extensions_scanned) as scanned_file_extensions
WHERE file_store_profile.data_source_type.data_source = 'google/storage/bucket'
AND info_types.info_type.name IN ('CREDIT_CARD_NUMBER', 'PERSON_NAME', 'US_SOCIAL_SECURITY_NUMBER')
GROUP BY 1, 2
;
השאילתה הזו משתמשת בסוגי המידע המובנים הבאים:
-
CREDIT_CARD_NUMBER: מייצג מספר כרטיס אשראי -
PERSON_NAME: מייצג את השם המלא של אדם -
US_SOCIAL_SECURITY_NUMBERמייצג מספר ביטוח לאומי בארה"ב
מידע נוסף זמין במאמר בנושא פרופילים של נתוני חנויות.
עבודה עם פרופילי נתונים ב-Data Studio
כדי להמחיש את פרופילי הנתונים ב-Data Studio, אפשר להשתמש בדוח מוכן מראש או ליצור דוח משלכם.
שימוש בדוח מוכן מראש
Sensitive Data Protection מספק דוח מוכן מראש של Data Studio שמציג את התובנות העשירות של פרופילי הנתונים. מרכז הבקרה של Sensitive Data Protection הוא דוח רב-דפי שמאפשר לכם לקבל במהירות תצוגה כללית של פרופילי הנתונים, כולל פירוטים לפי סיכון, לפי סוג מידע ולפי מיקום. אפשר לעיין בכרטיסיות האחרות כדי לראות תצוגות לפי אזור גיאוגרפי וסיכון, או להציג פירוט של מדדים ספציפיים. אפשר להשתמש בדוח הזה שנוצר מראש כמו שהוא, או להתאים אותו אישית לפי הצורך. זו הגרסה המומלצת של הדוח המובנה.
כדי לראות את הדוח המובנה עם הנתונים שלכם, מזינים את הערכים הנדרשים בכתובת ה-URL הבאה. לאחר מכן, מעתיקים את כתובת ה-URL שמתקבלת לדפדפן.
https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false
מחליפים את מה שכתוב בשדות הבאים:
- PROJECT_ID: הפרויקט שמכיל את טבלת הפלט.
- DATASET_ID: מערך הנתונים שמכיל את טבלת הפלט.
TABLE_OR_VIEW: אחת מהאפשרויות הבאות:
- השם של טבלת הפלט, שהיא הטבלה שמכילה את פרופילי הנתונים המיוצאים – לדוגמה,
myproject.mydataset.table-profile. - השם של התצוגה
latestשל טבלת הפלט – לדוגמה,myproject.mydataset.table-profile_latest_v1.
מידע נוסף מופיע בקטע בחירה בין טבלת הפלט לתצוגה
latestבדף הזה.- השם של טבלת הפלט, שהיא הטבלה שמכילה את פרופילי הנתונים המיוצאים – לדוגמה,
יכול להיות שיחלפו כמה דקות עד שהדוח ייטען ב-Data Studio עם הנתונים שלכם. אם נתקלתם בשגיאות או שהדוח לא נטען, אפשר לעיין בקטע פתרון שגיאות בדוח מוכן מראש בדף הזה.
בדוגמה הבאה, בלוח הבקרה מוצגות נתונים ברמת רגישות נמוכה וברמת רגישות גבוהה בכמה מדינות ברחבי העולם.
גרסה קודמת של הדוח המוכן מראש
הגרסה הראשונה של הדוח המוגדר מראש עדיין זמינה בכתובת הבאה:
https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false
יצירת דוח
Data Studio מאפשר ליצור דוחות אינטראקטיביים. בקטע הזה, תיצרו דוח פשוט של טבלה ב-Data Studio שמבוסס על פרופילי הנתונים שיוצאו לטבלת הפלט ב-BigQuery.
חשוב לוודא שמזהה הפרויקט, מזהה מערך הנתונים ומזהה הטבלה של טבלת הפלט או של התצוגה latest זמינים לכם. צריך אותם כדי לבצע את התהליך הזה.
בדוגמה הזו מוסבר איך ליצור דוח שמכיל טבלה שבה מוצג כל infoType שדווח בפרופילי הנתונים והתדירות המתאימה שלו.
בדרך כלל, כשניגשים ל-BigQuery דרך Data Studio, נוצרות עלויות שימוש ב-BigQuery. מידע נוסף זמין במאמר בנושא המחשה חזותית של נתוני BigQuery באמצעות Data Studio.
כדי ליצור דוח:
- פותחים את Data Studio ונכנסים לחשבון.
- לוחצים על דוח ריק.
- בכרטיסייה Connect to data (התחברות לנתונים), לוחצים על הכרטיס BigQuery.
- אם מוצגת בקשה, מאשרים ל-Data Studio לגשת לפרויקטים ב-BigQuery.
מתחברים לנתוני BigQuery:
- בשדה Project, בוחרים את הפרויקט שמכיל את טבלת הפלט. אפשר לחפש את הפרויקט בכרטיסיות פרויקטים אחרונים, הפרויקטים שלי ופרויקטים משותפים.
- בשדה Dataset, בוחרים את מערך הנתונים שמכיל את טבלת הפלט.
בקטע Table (טבלה), בוחרים את טבלת הפלט או את התצוגה
latestשל טבלת הפלט.מידע נוסף זמין בקטע בחירה בין טבלת הפלט לתצוגה
latestבדף הזה.לוחצים על הוספה.
בתיבת הדו-שיח שמופיעה, לוחצים על הוספה לדוח.
כדי להוסיף טבלה שמציגה כל סוג מידע שדווח והתדירות המתאימה שלו (מספר הרשומות), פועלים לפי השלבים הבאים:
- לוחצים על הוספת תרשים.
- בוחרים סגנון טבלה.
לוחצים על האזור שבו רוצים למקם את התרשים.
התרשים מופיע בפורמט של טבלה.
משנים את גודל הטבלה לפי הצורך.
כל עוד הטבלה נבחרת, המאפיינים שלה מופיעים בחלונית תרשים.
בחלונית תרשים, בכרטיסייה הגדרה, מסירים את המאפיינים והמדדים שנבחרו מראש.
בקטע מאפיין, מוסיפים את
column_profile.column_info_type.info_type.nameאו אתfile_store_profile.file_cluster_summaries.file_store_info_type_summaries.info_type.name.בדוגמאות האלה מוצגים נתונים ברמת העמודה וברמת קובץ האשכול. אפשר לנסות גם ממדים אחרים. לדוגמה, אתם יכולים להשתמש במאפיינים ברמת הטבלה וברמת הקטגוריה.
בקטע מדד, מוסיפים את האפשרות מספר הרשומות.
הטבלה שמתקבלת נראית כך:
מידע נוסף על טבלאות ב-Data Studio
פתרון בעיות בדוח מוכן מראש
אם מופיעות שגיאות, אמצעי בקרה חסרים או תרשימים חסרים כשמטעינים את הדוח המוגדר מראש, צריך לוודא שהדוח המוגדר מראש משתמש בשדות העדכניים ביותר:
אם הדוח המוכן מראש מחובר לטבלת הפלט, צריך לוודא שהטבלה הזו מצורפת להגדרת סריקה פעילה של גילוי נתונים. כדי לראות את ההגדרות של תצורות הסריקה, אפשר לעיין במאמר הצגת תצורת סריקה.
אם הדוח המוכן מראש מקושר לתצוגה המפורטת
latest, צריך לוודא שהתצוגה המפורטת הזו עדיין קיימת ב-BigQuery. אם הוא מופיע, נסו לשנות את התצוגה. אפשר גם ליצור עותק של התצוגה המפורטת ולקשר את הדוח המוכן מראש לעותק הזה. מידע נוסף על התצוגהlatestמופיע בקטע התצוגהlatestבדף הזה.
אם השגיאות ממשיכות להופיע אחרי שניסיתם את השלבים האלה, פנו אל Cloud Customer Care.
המאמרים הבאים
מידע על פעולות שאפשר לבצע כדי לטפל בתוצאות של פרופיל הנתונים