Hierarchische Zeitreihen mit einem univariaten ARIMA_PLUS-Modell prognostizieren
In dieser Anleitung erfahren Sie, wie Sie mit einem
ARIMA_PLUS univariaten Zeitreihenmodell
hierarchische Zeitreihen prognostizieren. Dabei wird der zukünftige Wert für eine bestimmte Spalte auf Grundlage der historischen Werte für diese Spalte prognostiziert. Außerdem werden Roll-up-Werte für diese Spalte für eine oder mehrere Dimensionen von Interesse berechnet.
Prognostizierte Werte werden für jeden Zeitpunkt und für jeden Wert in einer oder mehreren Spalten berechnet, die die Dimensionen von Interesse angeben. Wenn Sie beispielsweise tägliche Verkehrsunfälle prognostizieren und eine Dimensionsspalte mit Daten zum Bundesstaat angeben, enthalten die prognostizierten Daten Werte für jeden Tag für Bundesstaat A, dann Werte für jeden Tag für Bundesstaat B usw. Wenn Sie tägliche Verkehrsunfälle prognostizieren und Dimensionsspalten mit Daten zum Bundesstaat und zur Stadt angeben, enthalten die prognostizierten Daten Werte für jeden Tag für Bundesstaat A und Stadt A, dann Werte für jeden Tag für Bundesstaat A und Stadt B usw. In hierarchischen Zeitreihenmodellen wird die hierarchische Abstimmung verwendet, um jede untergeordnete Zeitreihe mit ihrer übergeordneten Zeitreihe zusammenzufassen und abzustimmen. Die Summe der prognostizierten Werte für alle Städte in Bundesstaat A muss beispielsweise dem prognostizierten Wert für Bundesstaat A entsprechen.
In dieser Anleitung erstellen Sie zwei Zeitreihenmodelle, die dieselben Daten nutzen. Ein Modell verwendet hierarchische Prognosen und das andere nicht. So können Sie die von den Modellen zurückgegebenen Ergebnisse vergleichen.
In dieser Anleitung werden Daten aus der öffentlichen
bigquery-public-data.iowa_liquor.sales.sales
Tabelle verwendet. Diese Tabelle enthält Informationen zu über einer Million Spirituosenprodukten in verschiedenen Geschäften anhand der öffentlichen Verkaufsdaten für Spirituosen in Iowa.
Bevor Sie diese Anleitung lesen, sollten Sie unbedingt Prognosen für mehrere Zeitreihen mit einem univariaten Modell durchführen lesen.
Erforderliche Berechtigungen
Sie benötigen die IAM-Berechtigung
bigquery.datasets.create, um das Dataset zu erstellen.Zum Erstellen des Modells benötigen Sie die folgenden Berechtigungen:
bigquery.jobs.createbigquery.models.createbigquery.models.getDatabigquery.models.updateData
Zum Ausführen von Inferenzen benötigen Sie die folgenden Berechtigungen:
bigquery.models.getDatabigquery.jobs.create
Weitere Informationen zu IAM-Rollen und Berechtigungen in BigQuery finden Sie unter Einführung in IAM.
Ziele
In dieser Anleitung verwenden Sie Folgendes:
- Erstellen eines Modells für mehrere Zeitreihen und eines Modells für mehrere hierarchische Zeitreihen, um die Verkaufszahlen von Flaschen mit der
CREATE MODELAnweisung zu prognostizieren. - Abrufen der prognostizierten Verkaufszahlen von Flaschen aus den Modellen mit der
ML.FORECASTFunktion.
Kosten
In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloudverwendet, darunter:
- BigQuery
- BigQuery ML
Weitere Informationen zu den Kosten von BigQuery finden Sie auf der Seite BigQuery-Preise.
Weitere Informationen zu den Kosten für BigQuery ML finden Sie unter BigQuery ML-Preise.
- Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch kein Google Cloud-Nutzer sind, erstellen Sie ein Konto, um zu sehen, wie sich unsere Produkte in realen Szenarien schlagen. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator role
(
roles/resourcemanager.projectCreator), which contains theresourcemanager.projects.createpermission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
- BigQuery ist in neuen Projekten automatisch aktiviert.
Wenn Sie BigQuery in einem bereits vorhandenen Projekt aktivieren möchten, rufen Sie
die BigQuery API auf.
Rollen, die zum Aktivieren von APIs erforderlich sind
Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (
roles/serviceusage.serviceUsageAdmin), die die Berechtigungserviceusage.services.enableenthält. Informationen zum Zuweisen von Rollen.
Dataset erstellen
Erstellen Sie ein BigQuery-Dataset, um Ihr ML-Modell zu speichern.
Console
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.
Klicken Sie auf Aktionen ansehen > Dataset erstellen
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
Geben Sie unter Dataset-ID
bqml_tutorialein.Wählen Sie als Standorttyp die Option Multiregional und dann USA aus.
Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.
bq
Verwenden Sie den
bq mk --dataset Befehl, um ein neues Dataset zu erstellen.
Erstellen Sie ein Dataset mit dem Namen
bqml_tutorialund legen Sie den Datenstandort aufUSfest.bq mk --dataset \ --location=US \ --description "BigQuery ML tutorial dataset." \ bqml_tutorial
Prüfen Sie, ob das Dataset erstellt wurde:
bq ls
API
Rufen Sie die datasets.insert
Methode mit einer definierten Dataset-Ressource auf.
{ "datasetReference": { "datasetId": "bqml_tutorial" } }
Zeitachsenmodell erstellen
Erstellen Sie ein Zeitachsenmodell mit den Verkaufsdaten für Spirituosen in Iowa.
Mit der folgenden GoogleSQL-Abfrage wird ein Modell erstellt, das die tägliche Gesamtzahl der im Jahr 2015 in Polk, Linn und Scott-Landkreisen verkauften Flaschen prognostiziert.
In der folgenden Abfrage gibt die
OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...)
Klausel an, dass Sie ein
ARIMA-basiertes
Zeitreihenmodell erstellen. Mit der
TIME_SERIES_ID Option
der CREATE MODEL Anweisung geben Sie eine oder mehrere Spalten in den Eingabedaten an,
für die Sie Prognosen erhalten möchten. Die
auto_arima_max_order Option
der Anweisung CREATE MODEL steuert den
Suchbereich für die Hyperparameter-Abstimmung im Algorithmus auto.ARIMA. Die
decompose_time_series Option
der CREATE MODEL Anweisung ist standardmäßig auf TRUE gesetzt, sodass Informationen zu
den Zeitreihendaten zurückgegeben werden, wenn Sie das Modell im nächsten Schritt auswerten.
Die OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) Klausel gibt an, dass Sie ein ARIMA-basiertes Zeitreihenmodell erstellen. Standardmäßig ist
auto_arima=TRUE,
sodass der auto.ARIMA Algorithmus die Hyperparameter in
ARIMA_PLUS-Modellen automatisch abstimmt. Der Algorithmus passt Dutzende von Kandidatenmodellen an und wählt
das beste Modell aus, das das Modell mit dem niedrigsten
Akaike-Informationskriterium (AIC)ist.
Wenn Sie die
holiday_region Option
auf US setzen, können Sie eine genauere Modellierung für diese Zeitpunkte der Feiertage in den USA vornehmen, wenn in der Zeitreihe Muster für Feiertage in den USA vorhanden sind.
So erstellen Sie das Modell:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
Die Abfrage dauert etwa 37 Sekunden. Danach können Sie auf das Modell
liquor_forecastzugreifen. Da die Abfrage eine AnweisungCREATE MODELzum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.
Modell zum Prognostizieren von Daten verwenden
Prognostizieren Sie zukünftige Zeitreihenwerte mit der Funktion ML.FORECAST.
In der folgenden Abfrage gibt die Klausel STRUCT(20 AS horizon, 0.8 AS confidence_level) an, dass die Abfrage 20 zukünftige Zeitpunkte prognostiziert und ein Vorhersageintervall mit einem Konfidenzniveau von 80% generiert.
So prognostizieren Sie Daten mit dem Modell:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:
SELECT * FROM ML.FORECAST( MODEL `bqml_tutorial.liquor_forecast`, STRUCT(20 AS horizon, 0.8 AS confidence_level)) ORDER BY store_number, county, city, zip_code, forecast_timestamp;
Die Antwort sollte in etwa so aussehen:
Die Ausgabe beginnt mit den prognostizierten Daten für die erste Zeitreihe:
store_number=2190,zip_code=50314,city=DES MOINES,county=POLK. Wenn Sie durch die Daten scrollen, sehen Sie die Prognosen für jede nachfolgende eindeutige Zeitreihe. Wenn Sie Prognosen generieren möchten, die Summen für verschiedene Dimensionen aggregieren, z. B. Prognosen für ein bestimmtes Landkreis, müssen Sie eine hierarchische Prognose generieren.
Hierarchisches Zeitreihenmodell erstellen
Erstellen Sie eine hierarchische Zeitreihenprognose mit den Verkaufsdaten für Spirituosen in Iowa.
Mit der folgenden GoogleSQL-Abfrage wird ein Modell erstellt, das hierarchische Prognosen für die tägliche Gesamtzahl der im Jahr 2015 in Polk, Linn und Scott-Landkreisen verkauften Flaschen generiert.
In der folgenden Abfrage gibt die Option HIERARCHICAL_TIME_SERIES_COLS in der Anweisung CREATE MODEL an, dass Sie eine hierarchische Prognose basierend auf einer Reihe von Spalten erstellen, die Sie angeben. Jede dieser Spalten wird für die Aggregation zusammengefügt. Aus der vorherigen Abfrage bedeutet dies beispielsweise, dass der Wert der Spalte store_number zusammengefasst wird, um Prognosen für jeden Wert von county, city und zip_code anzuzeigen. Außerdem werden die Werte von zip_code und store_number separat zusammengefasst, um Prognosen für jeden Wert von county und city anzuzeigen.
Die Reihenfolge der Spalten ist wichtig, da sie die Struktur der Hierarchie definiert.
So erstellen Sie das Modell:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:
CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical` OPTIONS ( MODEL_TYPE = 'ARIMA_PLUS', TIME_SERIES_TIMESTAMP_COL = 'date', TIME_SERIES_DATA_COL = 'total_bottles_sold', TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'], HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'], HOLIDAY_REGION = 'US') AS SELECT store_number, zip_code, city, county, date, SUM(bottles_sold) AS total_bottles_sold FROM `bigquery-public-data.iowa_liquor_sales.sales` WHERE date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31') AND county IN ('POLK', 'LINN', 'SCOTT') GROUP BY store_number, date, city, zip_code, county;
Die Abfrage dauert etwa 45 Sekunden. Danach kann im Bereich Explorer auf das Modell
bqml_tutorial.liquor_forecast_hierarchicalzugegriffen werden. Da die Abfrage eine AnweisungCREATE MODELzum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.
Hierarchisches Modell zum Prognostizieren von Daten verwenden
Rufen Sie hierarchische Prognosedaten aus dem Modell mit der Funktion ML.FORECAST ab.
So prognostizieren Sie Daten mit dem Modell:
Rufen Sie in der Google Cloud Console die Seite BigQuery auf.
Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:
SELECT * FROM ML.FORECAST( MODEL `bqml_tutorial.liquor_forecast_hierarchical`, STRUCT(30 AS horizon, 0.8 AS confidence_level)) WHERE city = 'LECLAIRE' ORDER BY county, city, zip_code, store_number, forecast_timestamp;
Die Antwort sollte in etwa so aussehen:
Beachten Sie, wie die aggregierte Prognose für die Stadt LeClaire angezeigt wird:
store_number=NULL,zip_code=NULL,city=LECLAIRE,county=SCOTT. In den übrigen Zeilen sehen Sie die Prognosen für die anderen Untergruppen. Die folgende Abbildung zeigt beispielsweise die Prognosen, die aggregiert wurden für die Postleitzahl52753,store_number=NULL,zip_code=52753,city=LECLAIRE,county=SCOTT:
Bereinigen
Damit Ihrem -Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, können Sie entweder das Projekt löschen, das die Ressourcen enthält, oder das Projekt beibehalten und die einzelnen Ressourcen löschen. Google Cloud
- Sie können das von Ihnen erstellte Projekt löschen.
- Sie können das Projekt aber auch behalten und das Dataset löschen.
Dataset löschen
Wenn Sie Ihr Projekt löschen, werden alle Datasets und Tabellen entfernt. Wenn Sie das Projekt wieder verwenden möchten, können Sie das in dieser Anleitung erstellte Dataset löschen:
Rufen Sie, falls erforderlich, die Seite „BigQuery“ in der Google Cloud Console auf.
Wählen Sie im Navigationsbereich das Dataset bqml_tutorial aus, das Sie erstellt haben.
Klicken Sie rechts im Fenster auf Delete dataset (Dataset löschen). Dadurch werden das Dataset, die Tabelle und alle Daten gelöscht.
Bestätigen Sie im Dialogfeld Dataset löschen den Löschbefehl. Geben Sie dazu den Namen des Datasets (
bqml_tutorial) ein und klicken Sie auf Löschen.
Projekt löschen
So löschen Sie das Projekt:
- Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
- Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
- Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Herunterfahren), um das Projekt zu löschen.
Nächste Schritte
- Erfahren Sie, wie Sie eine einzelne Zeitreihe mit einem univariaten Modell prognostizieren
- Erfahren Sie, wie Sie mit einem univariaten Modell Prognosen für mehrere Zeitreihen erstellen
- Anleitung zum Skalieren eines univariaten Modells beim Prognostizieren mehrerer Zeitreihen über viele Zeilen hinweg
- Erfahren Sie, wie Sie Prognosen für einzelne Zeitreihen mit einem multivariaten Modell erstellen
- Eine Übersicht über BigQuery ML finden Sie unter Einführung in KI und ML in BigQuery.