Sensitive Data Protection משתמש בסוגי מידע – או infoTypes – כדי להגדיר את מה שהוא סורק. סוג מידע (infoType) הוא סוג של מידע אישי רגיש, כמו שם, כתובת אימייל, מספר טלפון, מספר זיהוי, מספר כרטיס אשראי וכו'. גלאי מסוג infoType הוא מנגנון הזיהוי המתאים שמתאים לקריטריונים של infoType.
שיטות מומלצות לבחירת סוגי מידע
אחד השלבים הראשונים והחשובים בהגנה על הנתונים הוא להבין אותם. השיטה המומלצת היא לאסוף, לאחסן ולעבד רק את המידע שאתם צריכים לצורך עסקי. זיהוי הנתונים שאתם מטפלים בהם מאפשר לכם לקבל החלטות מושכלות לגבי העסק, המשתמשים, אבטחת הנתונים והפרטיות.
יכול להיות שחלק מהתרחישים העסקיים שלכם ידרשו מידע רגיש מסוים, ואחרים לא. אין פתרון יחיד שתומך בכל תרחישי השימוש. לכן, Sensitive Data Protection מאפשר שליטה גמישה בסוגי הנתונים שנסרקים. אם אתם משתמשים ב-infoTypes לביטול הזיהוי או להסתרת נתונים, אתם גם יכולים לשלוט מתי ואיך הנתונים עוברים טרנספורמציה.
הנחיות כלליות
כשבוחרים את סוגי המידע, חשוב להקפיד על ההנחיות הכלליות הבאות:
שימוש בסוגי מידע כלליים במקום בסוגי מידע ספציפיים
אם אתם לא צריכים שתוצאות הסריקה יציגו את סוגי המידע הספציפיים שזוהו, כדאי להשתמש בסוגי מידע כלליים במקום בסוגי מידע ספציפיים בהגדרות הבדיקה. בקטע גלאי סוגי מידע כלליים וספציפיים בדף הזה מוסבר על היתרונות של שימוש בגלאי סוגי מידע כלליים בבקשות.
רשימה מלאה של סוגי מידע כלליים וסוגי המידע הספציפיים שהם כוללים זמינה במאמר סוגי מידע כלליים.
מידע רגיש שאין צורך לאסוף
כל שירות בעסק שלכם צריך לאסוף רק את הנתונים שהוא צריך. לדוגמה, שירותים מסוימים בעסק לא צריכים לאסוף מידע פיננסי. בשירותים האלה, כדאי להפעיל גלאי infoType כמו CREDIT_CARD_NUMBER, FINANCIAL_ACCOUNT_NUMBER ו-infoTypes אחרים בקטגוריית ענף FINANCE.
מידע שאתם צריכים לאסוף אבל לא רוצים לשתף עם כל הצוות
יכול להיות שיש מקרים מוצדקים לאיסוף מידע אישי, אבל לא כדאי לשתף אותו עם כל הצוות. לדוגמה, לקוח ששולח כרטיס תמיכה עשוי לספק לכם פרטים ליצירת קשר, כדי שתוכלו ליצור איתו קשר ולפתור בעיות. אתם לא רוצים שכל מי שצופה בכרטיס בצוות יראה את הפרטים האישיים המזהים (PII). מומלץ להפעיל גלאים של infoType כמו PHONE_NUMBER, EMAIL_ADDRESS ו-infoTypes אחרים בקטגוריית הסוג PII.
קטגוריות של מידע אישי רגיש שחלות עליהן תקנות בתחום, תקנות בנושא פרטיות נתונים או תקנות שיפוטיות
סוגי מידע מסוימים נחשבים רגישים בגלל האופן שבו הם מונפקים או בגלל השימוש שאפשר לעשות בהם. במקרים אחרים, מידע הקשרי ודמוגרפי נחשב לקטגוריה מוגנת. יכול להיות שיהיו הגבלות נוספות על אופן האיסוף, השימוש והניהול של סוגי המידע האלה. מומלץ להפעיל גלאי סוגי מידע בקטגוריות הבאות:
- הקלדת קטגוריה
SPII,GOVERNMENT_IDוDEMOGRAPHIC - קטגוריית התחום
HEALTH
בחירה בין סוגי מידע דומים
כשבוחרים בין גלאים דומים של infoType, כדאי להביא בחשבון את הנקודות הבאות.
דרכונים
אם אין צורך לסרוק מזהי דרכון ממדינה ספציפית, בוחרים בגלאי הכללי: PASSPORT.
יש גלאי דרכונים שמתמקדים במדינות מסוימות, כמו UK_PASSPORT. עם זאת, חלק מהגלאים של דרכונים ספציפיים למדינה יכולים לזהות רק דרכונים בפורמטים מסוימים או דרכונים שכוללים רמזים הקשריים.
שמות של אנשים
כשסורקים שמות של אנשים, ברוב תרחישי השימוש כדאי להשתמש ב-PERSON_NAME במקום ב-FIRST_NAME או ב-LAST_NAME.
PERSON_NAME הוא מזהה של שמות אנשים. הוא כולל שמות שמורכבים ממילה אחת ושמות מלאים. המזהה הזה מנסה לזהות, לדוגמה, שמות כמו Jane, Jane Smith ו-Jane Marie Smith באמצעות טכנולוגיות שונות, כולל הבנת שפה טבעית. FIRST_NAME ו-LAST_NAME הם קבוצות משנה של המזהה הזה שמנסות לזהות חלקים משם. הממצאים של המזהים האלה הם תמיד קבוצות משנה של הממצאים של PERSON_NAME.
תאריכים ושעות
אם אין צורך לסרוק את כל התאריכים, אפשר להשתמש בכלי לזיהוי תאריכים ממוקד כמו DATE_OF_BIRTH. המזהה הזה מנסה לזהות הקשר שמצביע על כך שהתאריך קשור למועד הלידה של אדם.
המזהה DATE מנסה למצוא את כל התאריכים בלי קשר להקשר. הוא גם מסמן תאריכים יחסיים, כמו היום או אתמול. באופן דומה, TIME מנסה למצוא את כל חותמות הזמן.
מיקומים
אם לא צריך לסרוק את כל המיקומים, כדאי להשתמש ב-STREET_ADDRESS במקום בכלי לזיהוי LOCATION. הכלי STREET_ADDRESSdetector מנסה למצוא כתובות מוגדרות במלואן, שבדרך כלל מדויקות יותר ממיקומים כלליים, ויכולות להיחשב כרגישות יותר.
הכלי LOCATION infoType detector מנסה למצוא מיקום כלשהו בלי קשר להקשר – לדוגמה, Paris או Canada.
מזהים של סוגי מידע שדורשים הקשר
הרבה גלאים של סוגי מידע דורשים רמזים הקשריים כדי לזהות התאמה. אם גלאי מובנה של סוגי מידע לא מסמן פריטים שאתם מצפים שיסומנו, כי אין רמזים הקשריים בקרבה לפריטים האלה, כדאי להשתמש במקום זאת ב-GENERIC_ID או בגלאי מותאם אישית של סוגי מידע.
סוגי מידע שאין להם הגדרה משותפת בתחום
לסוגי מידע מסוימים אין הגדרה משותפת בתחום. דוגמאות: מספרים של רשומות רפואיות, מספרי חשבונות, קודי אימות וקודי אבטחה. במקרים כאלה, כדאי להשתמש ב-infoTypes כמו GENERIC_ID, FINANCIAL_ACCOUNT_NUMBER ו-MEDICAL_RECORD_NUMBER. המזהים האלה משתמשים בשילוב של זיהוי ישויות והקשר כדי למצוא רכיבים שעלולים להיות רגישים.
מזהים של סוגי מידע עם זמן אחזור ארוך יותר
אל תפעילו גלאי סוגי מידע שאתם לא צריכים. למרות שסוגי המידע הבאים שימושיים בתרחישים מסוימים, הם עלולים לגרום להרצת בקשות לאט יותר בהשוואה לבקשות שלא כוללות אותם:
PERSON_NAMEFEMALE_NAMEMALE_NAMEFIRST_NAMELAST_NAMEDATE_OF_BIRTHLOCATIONSTREET_ADDRESSORGANIZATION_NAME
תמיד צריך לציין גלאי infoType באופן מפורש. אל תשתמשו ברשימה ריקה של infoTypes.
איך משתמשים ב-infoTypes
כדי לקבוע מה לבדוק ואיך לשנות את הממצאים, מערכת Sensitive Data Protection משתמשת בגלאי Infotype בהגדרות של הסריקות שלה. שמות של סוגי מידע משמשים גם להצגה או לדיווח של תוצאות הסריקה.
לדוגמה, אם רוצים לחפש כתובות אימייל בבלוק טקסט, צריך לציין את EMAIL_ADDRESSהגלאי infoType בהגדרות הבדיקה. אם רוצים לצנזר כתובות אימייל מבלוק הטקסט, צריך לציין EMAIL_ADDRESS גם בהגדרות הבדיקה וגם בהגדרות הסרת הפרטים המזהים, כדי לציין איך לצנזר או לשנות את הסוג הזה.
בנוסף, אפשר להשתמש בשילוב של גלאי infoType מובנים ובהתאמה אישית כדי להחריג קבוצת משנה של כתובות אימייל מתוצאות הסריקה. קודם צריך ליצור סוג מידע מותאם אישית בשם INTERNAL_EMAIL_ADDRESS ולהגדיר אותו כך שכתובות אימייל של בדיקה פנימית לא ייכללו בו. אחר כך אפשר להגדיר את הסריקה כך שתכלול ממצאים לגבי EMAIL_ADDRESS, אבל להוסיף כלל החרגה שיחריג ממצאים שתואמים ל-INTERNAL_EMAIL_ADDRESS. מידע נוסף על כללי החרגה ותכונות אחרות של גלאי סוגי מידע בהתאמה אישית זמין במאמר בנושא יצירת גלאי סוגי מידע בהתאמה אישית.
Sensitive Data Protection מספק קבוצה של גלאי infoType מובנים שאתם מציינים לפי שם. כל אחד מהם מפורט בחומר העזר בנושא גלאי infoType. המזהים האלה משתמשים במגוון טכניקות כדי לגלות ולסווג כל סוג. לדוגמה, חלק מהסוגים ידרשו התאמה לתבנית, חלקם עשויים לכלול סכומי ביקורת מתמטיים, חלקם כוללים הגבלות מיוחדות על ספרות, ואחרים עשויים לכלול קידומות ספציפיות או הקשר סביב הממצאים.
דוגמאות
כשמגדירים את Sensitive Data Protection כדי לסרוק את התוכן, צריך לכלול את גלאי ה-infoType שבהם רוצים להשתמש בהגדרת הסריקה.
לדוגמה, בדוגמאות הקוד וה-JSON הבאות מוצגת בקשת סריקה פשוטה ל-DLP API. שימו לב שגלאי PHONE_NUMBER
מצוין ב-inspectConfig, שמורה ל-Sensitive Data Protection לסרוק את המחרוזת הנתונה כדי למצוא מספר טלפון.
C#
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Go
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Java
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Node.js
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
PHP
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
Python
מידע על התקנת ספריית הלקוח של Sensitive Data Protection והשימוש בה מופיע במאמר ספריות הלקוח של Sensitive Data Protection.
כדי לבצע אימות ב-Sensitive Data Protection, צריך להגדיר את Application Default Credentials. מידע נוסף זמין במאמר הגדרת אימות לסביבת פיתוח מקומית.
REST
קלט JSON:
POST https://dlp.googleapis.com/v2/projects/[PROJECT-ID]/content:inspect?key={YOUR_API_KEY}
{
"item":{
"value":"My phone number is (415) 555-0890"
},
"inspectConfig":{
"includeQuote":true,
"minLikelihood":"POSSIBLE",
"infoTypes":{
"name":"PHONE_NUMBER"
}
}
}
כששולחים את הבקשה הקודמת לנקודת הקצה שצוינה, Sensitive Data Protection מחזיר את הפרטים הבאים:
פלט JSON:
{
"result":{
"findings":[
{
"quote":"(415) 555-0890",
"infoType":{
"name":"PHONE_NUMBER"
},
"likelihood":"VERY_LIKELY",
"location":{
"byteRange":{
"start":"19",
"end":"33"
},
"codepointRange":{
"start":"19",
"end":"33"
}
},
"createTime":"2018-10-29T23:46:34.535Z"
}
]
}
}
בהגדרת הבדיקה צריך לציין infoTypes מסוימים שמופיעים בהפניה. אם לא מציינים infoTypes, Sensitive Data Protection משתמש ברשימת infoTypes שמוגדרת כברירת מחדל ומיועדת למטרות בדיקה בלבד. יכול להיות שהרשימה שמוגדרת כברירת מחדל לא מתאימה לתרחישי השימוש שלכם.
למידע נוסף על שימוש בגלאי infoType לסריקת התוכן, אפשר לעיין באחד מהמאמרים עם הוראות בנושא בדיקה, עריכה או הסרת פרטים מזהים.
מהימנות ובדיקות
התוצאות מדווחות עם ציון ודאות שנקרא סבירות. הציון של הסבירות מציין עד כמה סביר שממצא מסוים תואם לסוג המתאים. לדוגמה, סוג מסוים עשוי להחזיר סבירות נמוכה יותר אם הוא תואם רק לתבנית, וסבירות גבוהה יותר אם הוא תואם לתבנית ויש סביבו הקשר חיובי. לכן יכול להיות שתשימו לב שממצא יחיד יכול להתאים לכמה סוגים ברמת סבירות נמוכה יותר. בנוסף, יכול להיות שממצא לא יופיע או שרמת הוודאות שלו תהיה נמוכה יותר אם הוא לא תואם בצורה נכונה, או אם יש סביבו הקשר שלילי. לדוגמה, יכול להיות שממצא לא ידווח אם הוא תואם למבנה של סוג המידע שצוין, אבל לא עובר את בדיקת הסכום המשולב של סוג המידע. לחלופין, יכול להיות שממצא מסוים יתאים ליותר מסוג מידע אחד, אבל ההקשר שלו יחזק את אחד מהם, ולכן הוא ידווח רק עבור הסוג הזה.
אם אתם בודקים גלאים שונים, יכול להיות שתשימו לב שנתונים מזויפים או נתונים לדוגמה לא מדווחים, כי הם לא עוברים מספיק בדיקות כדי שיהיה אפשר לדווח עליהם.
סוגים של מזהי סוגי מידע
Sensitive Data Protection כולל כמה סוגים של גלאי infoType, וכולם מסוכמים כאן:
- גלאי infoType מובנים הם חלק מ-Sensitive Data Protection. הם כוללים גלאים לסוגי מידע אישי רגיש שספציפיים למדינה או לאזור, וגם לסוגי נתונים שרלוונטיים באופן גלובלי. אפשר גם להשתמש בסוגי מידע כלליים כדי לפשט את ההגדרות.
- מזהים מותאמים אישית של סוגי מידע הם מזהים שאתם יוצרים בעצמכם. יש שלושה סוגים של גלאי סוגי מידע בהתאמה אישית:
- מזהים של מילונים קטנים בהתאמה אישית הם רשימות מילים פשוטות ש-Sensitive Data Protection מתאים להן. כדאי להשתמש בגלאים של מילון מותאם אישית קטן אם יש לכם רשימה של עד כמה עשרות אלפי מילים או ביטויים. מומלץ להשתמש במזהים של מילונים קטנים בהתאמה אישית אם לא צפויים שינויים משמעותיים ברשימת המילים.
- גלאים גדולים של מילונים בהתאמה אישית נוצרים על ידי Sensitive Data Protection באמצעות רשימות גדולות של מילים או ביטויים שמאוחסנים ב-Cloud Storage או ב-BigQuery. כדאי להשתמש בגלאים של מילון מותאם אישית גדול אם יש לכם רשימה גדולה של מילים או ביטויים – עד עשרות מיליונים.
- מזהים של ביטויים רגולריים (regex) מאפשרים ל-Sensitive Data Protection לזהות התאמות על סמך דפוס של ביטוי רגולרי.
כדי לשפר את תוצאות הסריקה, אפשר ליצור כללי בדיקה.
מזהים מובנים של infoType
מזהים מובנים של infoType מוטמעים ב-Sensitive Data Protection, וכוללים גלאים של סוגי מידע אישי רגיש שספציפיים למדינה או לאזור מסוימים, כמו Numéro d'Inscription au Répertoire (NIR) (FRANCE_NIR) בצרפת, מספר רישיון נהיגה בבריטניה (UK_DRIVERS_LICENSE_NUMBER) ומספר תעודת זהות בארה"ב (US_SOCIAL_SECURITY_NUMBER). הם כוללים גם סוגי נתונים שרלוונטיים באופן גלובלי, כמו שם של אדם (PERSON_NAME), מספרי טלפון (PHONE_NUMBER), כתובות אימייל (EMAIL_ADDRESS) ומספרי כרטיסי אשראי (CREDIT_CARD_NUMBER).
רשימת הגלאים המובנים של סוגי המידע מתעדכנת כל הזמן. רשימה מלאה של מזהי InfoType מובנים שנתמכים כרגע זמינה בחומר העזר בנושא גילוי InfoType.
אפשר גם להציג רשימה מלאה של כל הגלאים המובנים של Infotype על ידי קריאה לשיטה infoTypes.list של Sensitive Data Protection.
טכניקות זיהוי
כדי לזהות תוכן שתואם לסוגי מידע מובנים, Sensitive Data Protection משתמש בטכניקות שונות, כולל התאמת תבניות, אימות של סכומי ביקורת, למידת מכונה וניתוח הקשר. לדוגמה, כדי לזהות את סוג המידע CREDIT_CARD_NUMBER, הכלי 'הגנה על מידע רגיש' מחפש קידומות ידועות של מנפיקים, מאמת את סכומי הביקורת, מנתח את אורכי התווים ומתייחס להקשר שבו מופיע מספר כרטיס האשראי הפוטנציאלי.
הדגמה של Sensitive Data Protection היא אפליקציה מבוססת-אינטרנט שבה אפשר לבדוק גלאי infoType מובנים.
שפות
סוגי מידע ספציפיים למדינה תומכים בשפה האנגלית ובשפות של המדינה הרלוונטית. רוב סוגי המידע הגלובליים פועלים עם כמה שפות. כדאי לבדוק את Sensitive Data Protection עם הנתונים שלכם כדי לוודא שהיא עונה על הדרישות.
מזהים כלליים וספציפיים של סוגי מידע
גלאי infoType כללי הוא גלאי שמוגדר בצורה רחבה יותר מגלאי infoType רגילים, ויכול להתאים למגוון רחב של סוגי מידע רגיש פוטנציאלי. מידע כללימזהים של סוגי מידע הם קבוצות-על של מזהים ספציפיים של סוגי מידע שחולקים מאפיין או מטרה משותפים. לדוגמה, גלאי מסוג infoType DRIVERS_LICENSE_NUMBER יכול לזהות תוכן שתואם לסוגי המידע GERMANY_DRIVERS_LICENSE_NUMBER ו-CANADA_DRIVERS_LICENSE_NUMBER.
במקרים רבים, גלאי Infotype כלליים יכולים גם למצוא התאמות שגלאי Infotype ספציפיים לא יכולים למצוא. לדוגמה, גלאי PASSPORT טוב יותר באיתור מספרי דרכון מאשר גלאי דרכון ספציפיים למדינה, שלפעמים דורשים נוכחות של רמזים הקשריים או תוכן בפורמט ספציפי.
בהגדרת הבדיקה, אפשר להשתמש בגלאי כללי של סוג מידע במקום בגלאי ספציפי של סוג מידע. התוצאות של Sensitive Data Protection מוצגות על סמך הגלאי שציינתם בבקשה. לדוגמה, אם מחרוזת שבדקתם תואמת ל-GERMANY_DRIVERS_LICENSE_NUMBER infoType וסרקתם את DRIVERS_LICENSE_NUMBER ואת GERMANY_DRIVERS_LICENSE_NUMBER בבקשה, תקבלו שתי תוצאות לגבי אותה מחרוזת – אחת לגבי DRIVERS_LICENSE_NUMBER ואחת לגבי GERMANY_DRIVERS_LICENSE_NUMBER. עם זאת, אם בבקשה שלכם סרקתם רק את DRIVERS_LICENSE_NUMBER, בתוצאת הבדיקה יוצג רק הממצא שקשור ל-DRIVERS_LICENSE_NUMBER.
היתרונות של שימוש בכלי כללי לזיהוי סוגי מידע:
במקרים רבים, לגלאי infoType כלליים יש recall גבוה יותר מאשר לגלאי infoType ספציפיים. ההחזרה היא מספר המקרים החיוביים האמיתיים מתוך המספר הכולל של המקרים הרלוונטיים.
אתם יכולים לפשט את הבקשות שלכם ל-Sensitive Data Protection כי אתם לא צריכים לציין כל סוג מידע ספציפי שאתם צריכים לסרוק. לדוגמה, רק
GOVERNMENT_IDמזהה סוגי המידע כולל יותר מ-100 מזהים שונים של סוגי מידע.הסבירות שתגיעו למגבלה של 150 גלאי סוגי מידע לכל בקשה נמוכה יותר.
אם Sensitive Data Protection מפרסם infoType חדש ומוסיף אותו ל-infoType כללי שכבר צוין בהגדרות הקיימות, אז Sensitive Data Protection כולל באופן אוטומטי את ה-infoType החדש בסריקות שלו. אתם לא צריכים להוסיף ידנית סוגי מידע חדשים שפורסמו להגדרות הקיימות שלכם.
לסוגי מידע כלליים ולסוגי מידע ספציפיים יש קשר של רבים לרבים. כלומר, סוג מידע כללי יכול לכלול הרבה סוגי מידע ספציפיים, וסוג מידע ספציפי יכול להשתייך להרבה סוגי מידע כלליים. רשימה מלאה של סוגי מידע כלליים וסוגי המידע הספציפיים שהם כוללים זמינה במאמר סוגי מידע כלליים.
מזהים מותאמים אישית של סוגי מידע
יש שלושה סוגים של גלאי סוגי מידע בהתאמה אישית:
כדי לשפר את תוצאות הסריקה, אפשר ליצור כללי בדיקה.
מזהים מותאמים אישית של מילונים קטנים
כדאי להשתמש במזהים של מילונים מותאמים אישית קטנים (שנקראים גם 'מזהים של מילונים מותאמים אישית רגילים') כדי להתאים לרשימה קצרה (עד כמה עשרות אלפים) של מילים או ביטויים. מילון מותאם אישית קטן יכול לשמש כמזהה ייחודי משלו.
מזהים של מילונים בהתאמה אישית שימושיים כשרוצים לסרוק רשימה של מילים או ביטויים שלא קל להתאים להם ביטוי רגולרי או מזהה מובנה. לדוגמה, נניח שאתם רוצים לסרוק חדרי ישיבות שמתייחסים אליהם בדרך כלל לפי השמות שהוקצו להם ולא לפי מספרי החדרים, כמו שמות של מדינות או אזורים, ציוני דרך, דמויות בדיוניות וכן הלאה. אפשר ליצור מזהה מותאם אישית קטן של מילון שמכיל רשימה של שמות החדרים האלה. Sensitive Data Protection יכול לסרוק את התוכן שלכם כדי למצוא את כל אחד משמות החדרים, ולהחזיר התאמה כשהוא נתקל באחד מהם בהקשר. בקטע פרטים ספציפיים על התאמה למילון במאמר יצירת גלאי מותאם אישית רגיל למילון מוסבר איך Sensitive Data Protection מתאימה מילים וביטויים במילון.
למידע נוסף על אופן הפעולה של גלאים של סוגי מידע בהתאמה אישית עם מילון קטן, וגם דוגמאות לשימוש, אפשר לעיין במאמר בנושא יצירת גלאי מילון רגיל בהתאמה אישית.
מזהים גדולים של מילונים מותאמים אישית
כדאי להשתמש במזהים של מילונים גדולים בהתאמה אישית (שנקראים גם 'מזהים של מילונים מאוחסנים בהתאמה אישית') אם יש לכם יותר מכמה מילים או ביטויים לסריקה, או אם רשימת המילים או הביטויים משתנה לעיתים קרובות. מזהים של מילונים מותאמים אישית גדולים יכולים להתאים לעשרות מיליוני מילים או ביטויים.
מזהים של מילונים גדולים בהתאמה אישית נוצרים באופן שונה ממזהים של ביטויים רגילים בהתאמה אישית וממזהים של מילונים קטנים בהתאמה אישית. כל מילון גדול מותאם אישית מכיל שני רכיבים:
- רשימה של ביטויים שאתם יוצרים ומגדירים. הרשימה מאוחסנת כקובץ טקסט ב-Cloud Storage או כעמוד בטבלה ב-BigQuery.
- קובצי המילון שנוצרו, שנבנו על ידי Sensitive Data Protection על סמך רשימת הביטויים שלכם. קובצי המילון מאוחסנים ב-Cloud Storage וכוללים עותק של נתוני הביטויים מהמקור, בנוסף למסנני בלום, שמסייעים בחיפוש ובהתאמה. אי אפשר לערוך את הקבצים האלה ישירות.
אחרי שיוצרים רשימת מילים ואז משתמשים ב-Sensitive Data Protection כדי ליצור מילון מותאם אישית, מתחילים סריקה או מתזמנים סריקה באמצעות גלאי מילון מותאם אישית גדול, באופן דומה לגלאי Infotype אחרים.
לפרטים נוספים על אופן הפעולה של גלאים של מילונים גדולים בהתאמה אישית, וגם דוגמאות לשימוש, אפשר לעיין במאמר יצירת גלאי של מילון בהתאמה אישית שמאוחסן.
ביטויים רגולריים
מזהה מידע אישי רגיש בהתאמה אישית באמצעות ביטוי רגולרי (regex) מאפשר לכם ליצור מזהים משלכם של מידע אישי רגיש, כדי ש-Sensitive Data Protection יוכל לזהות התאמות על סמך דפוס של ביטוי רגולרי. לדוגמה, נניח שיש לכם מספרי תיקים רפואיים בפורמט ###-#-#####. אפשר להגדיר תבנית regex כמו זו שבהמשך:
[1-9]{3}-[1-9]{1}-[1-9]{5}
לאחר מכן, Sensitive Data Protection מתאים פריטים כמו אלה:
123-4-56789
אפשר גם לציין סבירות להקצאה לכל התאמה של סוג מידע מותאם אישית. כלומר, אם Sensitive Data Protection יזהה התאמה לרצף שציינתם, הוא יקצה את הסבירות שציינתם. השימוש בשיטה הזו מועיל כי אם הביטוי הרגולרי המותאם אישית מגדיר רצף שכיח מספיק, הוא עלול להתאים בקלות לרצף אקראי אחר. במקרה כזה, לא תרצו ש-Sensitive Data Protection יסווג כל התאמה כ-VERY_LIKELY. פעולה כזו תפגע באמינות של תוצאות הסריקה, ועלולה לגרום להתאמה או להסרה של מידע שגוי.
מידע נוסף על גלאים של סוגי מידע בהתאמה אישית באמצעות ביטויים רגולריים ודוגמאות לשימוש זמין במאמר יצירת גלאי מותאם אישית של ביטויים רגולריים.
כללי בדיקה
משתמשים בכללי בדיקה כדי לשפר את התוצאות שמוחזרות על ידי גלאי סוגי מידע קיימים – מובנים או מותאמים אישית. כללי בדיקה יכולים להיות שימושיים במקרים שבהם צריך להוסיף לתוצאות שמתקבלות מ-Sensitive Data Protection או להחריג מהן, או להוסיף לזיהוי הקיים של סוג המידע או להחריג ממנו.
מידע נוסף על כללי בדיקה זמין במאמר בנושא שינוי של גלאי סוגי מידע כדי לשפר את תוצאות הסריקה.
כללי החרגה
כללי החרגה מאפשרים לכם להקטין את הכמות או את רמת הדיוק של הממצאים שמוחזרים על ידי הוספת כללים לגלאי מובנה או מותאם אישית של סוגי מידע. כללי החרגה יכולים לעזור לכם לצמצם את הרעש או ממצאים לא רצויים אחרים שמוחזרים על ידי כלי לזיהוי סוגי מידע.
לדוגמה, אם סורקים מסד נתונים כדי למצוא כתובות אימייל, אפשר להוסיף כלל החרגה בצורה של ביטוי רגולרי מותאם אישית שמורה ל-Sensitive Data Protection להחרגת ממצאים שמסתיימים ב-@example.com.
מידע נוסף על כללי החרגה מופיע במאמר בנושא שינוי של גלאי סוגי מידע כדי לשפר את תוצאות הסריקה.
כללים להרחבה (Hotword)
כללי מילות הפעלה מאפשרים לכם להגדיל את הכמות או את הדיוק של הממצאים שמוחזרים על ידי הוספת כללים לגלאי מובנה או מותאם אישית של סוגי מידע. כללים של מילות הפעלה יכולים לעזור לכם להרחיב את הכללים של גלאי קיים של סוג מידע.
לדוגמה, נניח שרוצים לסרוק מסד נתונים רפואי כדי לאתר שמות של מטופלים. אפשר להשתמש בכלי המובנה PERSON_NAME infoType detector של Sensitive Data Protection, אבל הוא יזהה את כל השמות של האנשים, ולא רק את השמות של המטופלים. כדי לפתור את הבעיה, אפשר לכלול כלל הרחבה (Hotword) בצורה של ביטוי רגולרי (regex) custom infoType שמחפש את המילה patient (מטופל) בקרבה מסוימת לתו הראשון של התאמות פוטנציאליות. לאחר מכן תוכלו להקצות לממצאים שתואמים לדפוס הזה סבירות של 'סביר מאוד', כי הם תואמים לקריטריונים המיוחדים שלכם.
מידע נוסף על כללים של מילות הפעלה זמין במאמר שינוי של גלאי סוגי מידע כדי לשפר את תוצאות הסריקה.
דוגמאות
כדי להבין טוב יותר איך סוגי המידע מתאימים לממצאים, אפשר לעיין בדוגמאות הבאות להתאמה לסדרת ספרות כדי לקבוע אם מדובר במספר ביטוח לאומי בארה"ב או במספר Individual Taxpayer Identification Number (ITIN) בארה"ב. חשוב לזכור שהדוגמאות האלה מתייחסות לגלאי סוגי מידע מובנים. כשיוצרים מזהה מותאם אישית של סוג מידע, מציינים את הקריטריונים שקובעים את הסבירות להתאמה לסריקה.
דוגמה 1
"SSN 222-22-2222"
הדוח מציג ציון גבוה של סבירות להמרה VERY_LIKELY עבור US_SOCIAL_SECURITY_NUMBER כי:
- הוא בפורמט הרגיל של מספר תעודת זהות, מה שמגביר את רמת הוודאות.
- יש הקשר בסביבה ("מספר ביטוח לאומי") שמחזק את
US_SOCIAL_SECURITY_NUMBER.
דוגמה 2
"999-99-9999"
הדוח מציג ציון נמוך של סבירות להפרה, VERY_UNLIKELY, עבור US_SOCIAL_SECURITY_NUMBER כי:
- הוא בפורמט הרגיל, ולכן רמת הוודאות גבוהה יותר.
- הוא מתחיל בספרה 9, שאסור להשתמש בה במספרי תעודת זהות, וזה מפחית את רמת הוודאות.
- חסר בו הקשר, ולכן רמת הוודאות נמוכה יותר.
דוגמה 3
"999-98-9999"
הדוח מציג ניקוד סבירות של POSSIBLE עבור US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER ושל VERY_UNLIKELY עבור US_SOCIAL_SECURITY_NUMBER כי:
- הפורמט הוא הפורמט הרגיל של
US_SOCIAL_SECURITY_NUMBERושלUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER. - המספר מתחיל ב-9 ויש בו בדיקת ספרה נוספת, מה שמגדיל את רמת הוודאות לגבי
US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER. - אין הקשר, ולכן רמת הוודאות של שניהם נמוכה.
כללי התאמה
כללי התאמה יכולים לעזור לכם לשפר את דיוק הזיהוי על ידי הגדלה (שנקראת גם הגברה) או הקטנה של ערכי הסבירות של הממצאים על סמך ההקשר שבו הם מופיעים.
לדוגמה, אפשר להשתמש בכלל התאמה כדי להגדיל את ערכי הסבירות של GENERIC_ID ממצאים כשהם מופיעים במסמכים שתואמים ל-DOCUMENT_TYPE/CONTEXT/FINANCE.
מידע נוסף זמין במאמר בנושא כללי התאמה.
המאמרים הבאים
צוות Sensitive Data Protection מפרסם מעת לעת גלאים וקבוצות חדשים של infoType. במאמר רשימה של מזהי Infotype מובנים מוסבר איך מקבלים את הרשימה העדכנית של מזהי Infotype מובנים.