סבירות להתאמה

תוצאות הסריקה מסווגות לפי הסבירות שהן מייצגות התאמה. ‫Sensitive Data Protection משתמש בייצוג של הסתברות שמחולק לקטגוריות, שמטרתו להצביע על הסבירות שפריט נתונים תואם לinfoType מסוים.

איך פועל מדד הסבירות

כשמגדירים סריקה של Sensitive Data Protection, קובעים את ה-infoTypes שרוצים ש-Sensitive Data Protection יסרוק. כדי לצמצם את תוצאות הסריקה, אפשר להגדיר רמת סבירות מינימלית בבקשה.

לכל התאמה פוטנציאלית (ממצא) שזוהתה במהלך הסריקה, Sensitive Data Protection מקצה רמת סבירות. רמת הסבירות של ממצא מתארת את הסבירות שהממצא תואם לסוג מידע שאתם סורקים כדי למצוא. לדוגמה, יכול להיות ש-Sensitive Data Protection יקצה את רמת הסבירות LIKELY לממצא שנראה כמו כתובת אימייל.

כש-Sensitive Data Protection מחזיר את התוצאות, הוא מסנן את כל הממצאים שרמת הסבירות שלהם נמוכה מרמת הסבירות המינימלית שהגדרתם בבקשה. לדוגמה, אם מגדירים את הסבירות המינימלית ל-POSSIBLE, מקבלים רק את הממצאים שסווגו כ-POSSIBLE, LIKELY ו-VERY_LIKELY. אם מגדירים את הסבירות המינימלית ל-VERY_LIKELY, מקבלים את המספר הקטן ביותר של ממצאים.

רמות סבירות

בטבלה הבאה מפורטים ערכי הסבירות האפשריים ש-Sensitive Data Protection יכול להקצות לממצא.

ENUM תיאור
VERY_UNLIKELY המאפיינים של המדיניות הזו הם:
  • אות חלש.
  • אין רמזים הקשריים.
  • אותות שליליים לגבי infoType מסוים.
UNLIKELY המאפיינים של המדיניות הזו הם:
  • אות חלש אחד או יותר.
  • אות חזק יותר עבור סוג מידע אחר.
POSSIBLE המאפיינים של המדיניות הזו הם:
  • אות אחד או יותר לגבי סוג מידע מסוים. האותות יכולים לכלול סכומי ביקורת תקינים.
  • אין רמז חזק להקשר ואין פורמט ייחודי וספציפי.
LIKELY מאופיין באות חזק אחד או יותר עבור סוג מידע נתון. האותות יכולים לכלול סיכומי ביקורת שעברו בהצלחה, רמזים חזקים מההקשר ופורמט ייחודי וספציפי.
VERY_LIKELY מאופיין בכך שיש הרבה אותות חזקים עבור infoType נתון. האותות יכולים לכלול סיכומי ביקורת שעברו בהצלחה, רמזים חזקים מההקשר ועיצוב ייחודי וספציפי.

בחירת רמת הסבירות המינימלית לתוצאות הסריקה

באופן כללי, כשמגדירים רמת סבירות מינימלית גבוהה יותר בבקשה ל-Sensitive Data Protection, התוצאות כוללות מספר נמוך יותר של תוצאות חיוביות שגויות (לפעמים נקראות רעשי רקע). עם זאת, התוצאות יכולות גם לא לכלול יותר תוצאות חיוביות אמיתיות. כשבוחרים רמת סבירות מינימלית, צריך למצוא את האיזון הנכון בין היזכרות ודיוק.

לדוגמה, נניח שיש 10 כתובות רחוב במסמך, ושירות Sensitive Data Protection זיהה 5 כתובות רחוב. עם זאת, מבין הממצאים שזוהו על ידי Sensitive Data Protection, יש למעשה רק 4 כתובות.

  • היזכרות היא מספר המקרים החיוביים האמיתיים מתוך המספר הכולל של המקרים הרלוונטיים. בדוגמה הזו, הזיכרון הוא 4/10.
  • דיוק הוא מספר המקרים החיוביים האמיתיים מתוך המספר הכולל של המקרים שמזוהים על ידי Sensitive Data Protection. בדוגמה הזו, הדיוק הוא 4/5.

בדוגמה הזו, רמת הדיוק גבוהה אבל רמת האחזור נמוכה יחסית.

רמת הסבירות המינימלית שאתם מגדירים משפיעה על רמת ההיזכרות ועל רמת הדיוק שמתקבלות בתוצאות הסריקה. בטבלה הבאה מתואר מתי כל רמת סבירות מינימלית שימושית, ואיך משתנים ההחזרה והדיוק בכל רמה.

רמת הסבירות המינימלית תיאור
LIKELIHOOD_UNSPECIFIED ערך ברירת המחדל זהה לערך POSSIBLE.
VERY_UNLIKELY האפשרות הזו שימושית אם אתם צריכים את רמת ההיזכרות הגבוהה ביותר. רמת הסבירות המינימלית הזו יוצרת הכי הרבה רעש.
UNLIKELY האפשרות הזו שימושית אם אתם צריכים דיוק גבוה יותר. רמת הסבירות המינימלית הזו יוצרת רעש מסוים.
POSSIBLE כדאי להשתמש בשיטה הזו אם רוצים איזון בין דיוק לבין היקף התוצאות.
LIKELY האפשרות הזו שימושית אם אתם צריכים דיוק גבוה יותר, גם אם זה אומר שחלק מהתוצאות לא יהיו רלוונטיות.
VERY_LIKELY האפשרות הזו שימושית אם רוצים לקבל את הדיוק הכי גבוה, גם אם זה בא על חשבון ההיזכרות.

סבירות מינימלית שמוגדרת כברירת מחדל

אם לא מגדירים סבירות מינימלית בבקשה, או אם מגדירים אותה ל-LIKELIHOOD_UNSPECIFIED, Sensitive Data Protection מחזירה רק את הממצאים עם סבירות של POSSIBLE ומעלה.