איגוד מטא-נתונים הוא שירות שמאפשר לכם לגשת לכמה מקורות של מטא-נתונים מנקודת קצה אחת.
כדי להגדיר איחוד, יוצרים שירות איחוד ואז מגדירים את מקורות המטא-נתונים. לאחר מכן, השירות חושף נקודת קצה אחת של gRPC שבה אפשר להשתמש כדי לגשת לכל המטא-נתונים.
לדוגמה, באמצעות פדרציה, אפשר ליצור אשכול Dataproc שחושף כמה שירותי Dataproc Metastore דרך נקודת קצה אחת. לאחר מכן, תוכלו להריץ משימות של Big Data באמצעות מנועי תוכנה בקוד פתוח (OSS), כמו Spark או Hive, כדי לגשת למטא-נתונים שלכם בכמה מאגרי מטא-נתונים.
איך פועל איחוד
עומסי עבודה של Big Data ב-OSS שפועלים ב-Spark או ב-Hive שולחים בקשות ל-Hive Metastore API כדי לאחזר מטא-נתונים בזמן ריצה.
- ממשק Hive Metastore תומך בשיטות קריאה וכתיבה. שירות האיחוד חושף גרסת gRPC של ממשק Hive Metastore.
- בזמן הריצה, כששירות הפדרציה מקבל בקשה, הוא בודק את סדר המקורות כדי לאחזר את המטא-נתונים המתאימים.
מקורות מטא-נתונים
כשיוצרים שירות פדרציה, צריך להוסיף מקור מטא-נתונים. אפשר להשתמש במקורות הבאים כמטא-מאגרי נתונים (metastores) של העורף:
- מופע של Dataproc Metastore.
- פרויקט שמכיל מערך נתונים אחד או יותר של BigQuery.
- אגם Dataplex Universal Catalog (תצוגה מקדימה).
הגבלות על מקורות
בקטע הבא מפורטות המגבלות שחלות על שימוש במקורות שונים של מטא-נתונים.
כל המקורות
ההגבלות הבאות חלות על כל מקורות המטא-נתונים:
- שירות פדרציה לא מכיל נתונים משלו. במקום זאת, שירות הפדרציה רק מציג מטא-נתונים מאחד ממקורות המטא-נתונים שלו.
- שירות פדרציה לא יכול להיות מקור של מטא-נתונים בשירות פדרציה אחר.
Dataproc Metastore
אם אתם משתמשים ב-Dataproc Metastore כמקור, חלות ההגבלות הבאות:
- שירותי הפדרציה זמינים רק דרך נקודות קצה של gRPC. כדי להשתמש ב-Dataproc Metastore עם איחוד, צריך ליצור את ה-Metastore עם נקודת קצה של gRPC.
BigQuery
אם אתם משתמשים בפרויקט שמכיל מערכי נתונים של BigQuery כמקור, אתם צריכים לעמוד בתנאים הבאים:
- צריך להעניק את התפקידים הנכונים בניהול זהויות וגישה (IAM) כדי לגשת לפרויקט שמכיל את מערכי הנתונים ב-BigQuery.
- מוסיפים לפחות שירות אחד של Dataproc Metastore כמקור, יחד עם מערכי הנתונים של BigQuery.
Dataplex Universal Catalog Lakes
- נותנים תפקיד ב-IAM שכולל את ההרשאה
dataplex.lakes.get. - מוסיפים לפחות שירות Dataproc Metastore אחד כמקור, יחד עם אגם Dataplex Universal Catalog.
סדר המקורות
שירות הפדרציה מעבד בקשות למטא-נתונים לפי סדר עדיפות. המושג הזה נקרא סדר המקורות. בזמן הריצה, כששירות הפדרציה מקבל בקשה, הוא בודק את סדר המקורות ומשלים אחת מהפעולות הבאות:
- אם הבקשה מכילה שם של מסד נתונים. הבקשה מנותבת למאגר המטא-נתונים של ה-backend שמכיל את שם מסד הנתונים. אם יותר מ-metastore אחד מכיל את אותו שם מסד נתונים, הבקשה מנותבת ל-metastore עם הדירוג הכי נמוך.
- אם הבקשה יוצרת או מסירה מסד נתונים. הבקשה מנותבת למאגר המטא-נתונים עם הדירוג הנמוך ביותר.
- אם הבקשה לא מכילה שם של מסד נתונים, והיא לא יוצרת או מסירה מסד נתונים. הבקשה מנותבת למופע Dataproc Metastore עם הדירוג הנמוך ביותר. דוגמאות לבקשות Hive Metastore שלא מציינות מסד נתונים הן
set_ugiו-create_database. - אם אף אחד ממאגרי המטא-נתונים לא מכיל מסד נתונים. מנוע ה-OSS מגיב עם שגיאה ששווה לשגיאת 'לא נמצא'.