הסרת פרטים מזהים מנתונים רגישים ב-Cloud Storage

בדף הזה מוסבר איך אפשר ליצור באמצעות Sensitive Data Protection עותקים של נתונים שמאוחסנים ב-Cloud Storage, אחרי הסרת הפרטים המזהים. במאמר מפורטות גם המגבלות של הפעולה הזו והנקודות שחשוב לקחת בחשבון לפני שמתחילים.

במאמרים הבאים מוסבר איך להשתמש ב-Sensitive Data Protection כדי ליצור עותקים של הנתונים ב-Cloud Storage שעברו הסרת פרטים מזהים:

מידע על הסרת פרטי הזיהוי

הסרת פרטי הזיהוי היא תהליך של הסרת פרטים אישיים מזהים מנתונים. המטרה שלו היא לאפשר שימוש במידע אישי ושיתוף שלו – כמו מידע בריאותי, פיננסי או דמוגרפי – תוך עמידה בדרישות בנושא פרטיות. מידע נוסף על הסרת פרטי הזיהוי מהנתונים זמין במאמר הסרת פרטי הזיהוי ממידע אישי רגיש.

מידע נוסף על טרנספורמציות של הסרת פרטים מזהים ב-Sensitive Data Protection זמין במאמר חומר עזר בנושא טרנספורמציות. מידע נוסף על האופן שבו Sensitive Data Protection מצנזר מידע אישי רגיש מתמונות זמין במאמר בדיקה וצנזור של תמונות.

מתי כדאי להשתמש בתכונה הזו

התכונה הזו שימושית אם הקבצים שבהם אתם משתמשים בפעילות העסקית שלכם מכילים מידע אישי רגיש, כמו פרטים אישיים מזהים (PII). התכונה הזו מאפשרת לכם להשתמש במידע ולשתף אותו כחלק מהתהליכים העסקיים שלכם, תוך הסתרת נתונים רגישים.

תהליך הסרת פרטי הזיהוי

בקטע הזה מתואר תהליך הסרת הפרטים המזהים ב-Sensitive Data Protection עבור תוכן ב-Cloud Storage.

כדי להשתמש בתכונה הזו, יוצרים משימת בדיקה (DlpJob) שמוגדרת ליצירת עותקים של קובצי Cloud Storage שעברו הסרת פרטים מזהים. השירות Sensitive Data Protection סורק את הקבצים במיקום שצוין ובודק אותם בהתאם להגדרות שלכם. במהלך הבדיקה של כל קובץ, Sensitive Data Protection מסירה את הפרטים המזהים מכל נתון שתואם לקריטריונים שלכם למידע אישי רגיש, ואז כותבת את התוכן לקובץ חדש. הקובץ החדש תמיד מקבל את אותו שם כמו הקובץ המקורי. הקובץ החדש הזה נשמר בספריית פלט שאתם מציינים. אם קובץ נכלל בסריקה, אבל אין בו נתונים שתואמים לקריטריונים של הסרת הפרטים המזהים, ואין שגיאות בעיבוד שלו, הקובץ מועתק ללא שינוי לספריית הפלט.

ספריית הפלט שאתם מגדירים צריכה להיות בקטגוריה של Cloud Storage ששונה מהקטגוריה שמכילה את קובצי הקלט. בתיקיית הפלט, Sensitive Data Protection יוצר מבנה קבצים שמשקף את מבנה הקבצים של תיקיית הקלט.

לדוגמה, נניח שהגדרתם את ספריות הקלט והפלט הבאות:

  • ספריית קלט: gs://input-bucket/folder1/folder1a
  • ספריית פלט: gs://output-bucket/output-directory

במהלך הסרת פרטי הזיהוי, שירות Sensitive Data Protection מאחסן את הקבצים שפרטי הזיהוי שלהם הוסרו ב-gs://output-bucket/output-directory/folder1/folder1a.

אם בספריית הפלט קיים קובץ עם אותו שם קובץ כמו קובץ שעבר הסרת פרטים מזהים, הקובץ הזה יידרס. אם לא רוצים שקובציים קיימים יימחקו, צריך לשנות את ספריית הפלט לפני שמריצים את הפעולה הזו. אפשרות נוספת היא להפעיל ניהול גרסאות של אובייקטים בקטגוריית הפלט.

רשימות בקרת הגישה (ACL) ברמת הקובץ של הקבצים המקוריים מועתקות לקבצים החדשים, בלי קשר לשאלה אם נמצאו מידע אישי רגיש ועברו הסרת פרטים מזהים. עם זאת, אם קטגוריית הפלט מוגדרת רק להרשאות אחידות ברמת הקטגוריה, ולא להרשאות מפורטות (ברמת האובייקט), רשימות ה-ACL לא מועתקות לקבצים שבוטלה בהם האפשרות לזיהוי.

בתרשים הבא מוצג תהליך הסרת הפרטים המזהים של ארבעה קבצים שמאוחסנים בקטגוריה של Cloud Storage. כל קובץ מועתק, בלי קשר לשאלה אם Sensitive Data Protection מזהה מידע אישי רגיש. לכל קובץ מועתק יש את אותו השם כמו לקובץ המקורי.

הסרת פרטים מזהים מקבצים שמאוחסנים ב-Cloud Storage.
הסרת פרטים מזהים מקבצים שמאוחסנים ב-Cloud Storage (לחצו כדי להגדיל).

תמחור

למידע על תמחור, אפשר לעיין במאמר בנושא בדיקה ושינוי של נתונים באחסון.

סוגי קבצים נתמכים

הכלי Sensitive Data Protection יכול להסיר את הפרטים המזהים מקבוצות סוגי הקבצים הבאות:

  • CSV
  • תמונה
  • טקסט
  • TSV

התנהגות ברירת המחדל של הסרת פרטי הזיהוי

אם רוצים להגדיר איך Sensitive Data Protection משנה את הממצאים, אפשר לספק תבניות לביטול הזיהוי לסוגי הקבצים הבאים:

  • קבצים לא מובְנים, כמו קובצי טקסט עם טקסט חופשי
  • קבצים מובְנים, כמו קובצי CSV
  • תמונות

אם לא מספקים תבנית לביטול הזיהוי, Sensitive Data Protection משנה את הממצאים באופן הבא:

  • בקובצי נתונים לא מובְנים ומובְנים, Sensitive Data Protection מחליף את כל הממצאים ב-infoType המתאים, כמו שמתואר בקטע החלפת infoType.
  • בתמונות, כל הממצאים מוסתרים על ידי תיבה שחורה ב-Sensitive Data Protection.

מגבלות ושיקולים

לפני שיוצרים עותקים של נתונים ב-Cloud Storage שעברו הסרת פרטים מזהים, כדאי לשים לב לנקודות הבאות.

נפח דיסק

הפעולה הזו תומכת רק בתוכן שמאוחסן ב-Cloud Storage.

במהלך הפעולה הזו, נוצר עותק של כל קובץ בזמן שהוא נבדק על ידי Sensitive Data Protection. הוא לא משנה או מסיר את התוכן המקורי. הנתונים שהועתקו יתפסו בערך את אותו נפח אחסון נוסף בדיסק כמו הנתונים המקוריים.

גישת כתיבה לאחסון

מכיוון ש-Sensitive Data Protection יוצר עותק של הקבצים המקוריים, לסוכן השירות של הפרויקט צריכה להיות הרשאת כתיבה בקטגוריית הפלט של Cloud Storage.

דגימה והגדרת מגבלות על תוצאות החיפוש

הפעולה הזו לא תומכת בדגימה. באופן ספציפי, אי אפשר להגביל את כמות הנתונים ש-Sensitive Data Protection סורק ומסיר פרטי זיהוי בכל קובץ. כלומר, אם אתם משתמשים ב-Cloud Data Loss Prevention API, אתם לא יכולים להשתמש ב-bytesLimitPerFile וב-bytesLimitPerFilePercent באובייקט CloudStorageOptions של DlpJob.

בנוסף, אי אפשר לשלוט במספר הממצאים המקסימלי שיוחזרו. אם אתם משתמשים ב-DLP API, אתם לא יכולים להגדיר אובייקט FindingLimits ב-DlpJob.

הדרישה לבדיקת הנתונים

כשמריצים את עבודת הבדיקה, Sensitive Data Protection בודק קודם את הנתונים בהתאם להגדרות הבדיקה, ורק אחר כך מבצע הסרת פרטי הזיהוי. אי אפשר לדלג על תהליך הבדיקה.

הדרישה להשתמש בסיומות קבצים

השירות Sensitive Data Protection מסתמך על סיומות קבצים כדי לזהות את סוגי הקבצים בספריית הקלט. יכול להיות שהכלי לא יסיר את הפרטים המזהים מקבצים ללא סיומות, גם אם מדובר בקבצים מסוגים נתמכים.

קבצים שהמערכת דילגה עליהם

כשמבטלים את הזיהוי של קבצים באחסון, Sensitive Data Protection מדלג על הקבצים הבאים:

  • קבצים שגדולים מ-60,000KB. אם יש לכם קבצים גדולים שחורגים מהמגבלה הזו, כדאי לפצל אותם לחלקים קטנים יותר.
  • סוגי קבצים שלא מופיעים ברשימה סוגי קבצים נתמכים בדף הזה.
  • סוגי קבצים שהחרגתם בכוונה מהגדרת הסרת הפרטים המזהים. אם משתמשים ב-DLP API, המערכת מדלגת על סוגי הקבצים שהחרגתם מהשדה file_types_to_transform של פעולת Deidentify ב-DlpJob.
  • קבצים שנתקלו בשגיאות המרה.

סדר השורות בפלט בטבלאות שעברו הסרת פרטים מזהים

אין ערובה לכך שסדר השורות בטבלה שעברה הסרת פרטים מזהים יהיה זהה לסדר השורות בטבלה המקורית. אם רוצים להשוות בין הטבלה המקורית לטבלה שעברה הסרת פרטים מזהים, אי אפשר להסתמך על מספר השורה כדי לזהות את השורות התואמות. אם אתם רוצים להשוות בין שורות בטבלאות, אתם צריכים להשתמש במזהה ייחודי כדי לזהות כל רשומה.

מקשים זמניים

אם בוחרים שיטה קריפטוגרפית כשיטת ההמרה, צריך קודם ליצור מפתח עטוף באמצעות Cloud Key Management Service. לאחר מכן, מספקים את המפתח בתבנית להסרת פרטי הזיהוי. אין תמיכה במפתחות זמניים (גולמיים).

המאמרים הבאים