Hierarchische Zeitreihen mit einem univariaten ARIMA_PLUS-Modell prognostizieren

In dieser Anleitung erfahren Sie, wie Sie mit einem ARIMA_PLUS univariaten Zeitreihenmodell hierarchische Zeitreihen prognostizieren. Dabei wird der zukünftige Wert für eine bestimmte Spalte auf Grundlage der historischen Werte für diese Spalte prognostiziert. Außerdem werden Roll-up-Werte für diese Spalte für eine oder mehrere Dimensionen von Interesse berechnet.

Prognostizierte Werte werden für jeden Zeitpunkt und für jeden Wert in einer oder mehreren Spalten berechnet, die die Dimensionen von Interesse angeben. Wenn Sie beispielsweise tägliche Verkehrsunfälle prognostizieren und eine Dimensionsspalte mit Daten zum Bundesstaat angeben, enthalten die prognostizierten Daten Werte für jeden Tag für Bundesstaat A, dann Werte für jeden Tag für Bundesstaat B usw. Wenn Sie tägliche Verkehrsunfälle prognostizieren und Dimensionsspalten mit Daten zum Bundesstaat und zur Stadt angeben, enthalten die prognostizierten Daten Werte für jeden Tag für Bundesstaat A und Stadt A, dann Werte für jeden Tag für Bundesstaat A und Stadt B usw. In hierarchischen Zeitreihenmodellen wird die hierarchische Abstimmung verwendet, um jede untergeordnete Zeitreihe mit ihrer übergeordneten Zeitreihe zusammenzufassen und abzustimmen. Die Summe der prognostizierten Werte für alle Städte in Bundesstaat A muss beispielsweise dem prognostizierten Wert für Bundesstaat A entsprechen.

In dieser Anleitung erstellen Sie zwei Zeitreihenmodelle, die dieselben Daten nutzen. Ein Modell verwendet hierarchische Prognosen und das andere nicht. So können Sie die von den Modellen zurückgegebenen Ergebnisse vergleichen.

In dieser Anleitung werden Daten aus der öffentlichen bigquery-public-data.iowa_liquor.sales.sales Tabelle verwendet. Diese Tabelle enthält Informationen zu über einer Million Spirituosenprodukten in verschiedenen Geschäften anhand der öffentlichen Verkaufsdaten für Spirituosen in Iowa.

Bevor Sie diese Anleitung lesen, sollten Sie unbedingt Prognosen für mehrere Zeitreihen mit einem univariaten Modell durchführen lesen.

Erforderliche Berechtigungen

  • Sie benötigen die IAM-Berechtigung bigquery.datasets.create, um das Dataset zu erstellen.

  • Zum Erstellen des Modells benötigen Sie die folgenden Berechtigungen:

    • bigquery.jobs.create
    • bigquery.models.create
    • bigquery.models.getData
    • bigquery.models.updateData
  • Zum Ausführen von Inferenzen benötigen Sie die folgenden Berechtigungen:

    • bigquery.models.getData
    • bigquery.jobs.create

Weitere Informationen zu IAM-Rollen und Berechtigungen in BigQuery finden Sie unter Einführung in IAM.

Ziele

In dieser Anleitung verwenden Sie Folgendes:

  • Erstellen eines Modells für mehrere Zeitreihen und eines Modells für mehrere hierarchische Zeitreihen, um die Verkaufszahlen von Flaschen mit der CREATE MODEL Anweisung zu prognostizieren.
  • Abrufen der prognostizierten Verkaufszahlen von Flaschen aus den Modellen mit der ML.FORECAST Funktion.

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloudverwendet, darunter:

  • BigQuery
  • BigQuery ML

Weitere Informationen zu den Kosten von BigQuery finden Sie auf der Seite BigQuery-Preise.

Weitere Informationen zu den Kosten für BigQuery ML finden Sie unter BigQuery ML-Preise.

  1. Melden Sie sich in Ihrem Google Cloud -Konto an. Wenn Sie noch kein Google Cloud-Nutzer sind, erstellen Sie ein Konto, um zu sehen, wie sich unsere Produkte in realen Szenarien schlagen. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator role (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. BigQuery ist in neuen Projekten automatisch aktiviert. Wenn Sie BigQuery in einem bereits vorhandenen Projekt aktivieren möchten, rufen Sie

    die BigQuery API auf.

    Rollen, die zum Aktivieren von APIs erforderlich sind

    Zum Aktivieren von APIs benötigen Sie die IAM-Rolle „Service Usage-Administrator“ (roles/serviceusage.serviceUsageAdmin), die die Berechtigung serviceusage.services.enable enthält. Informationen zum Zuweisen von Rollen.

    API aktivieren

Dataset erstellen

Erstellen Sie ein BigQuery-Dataset, um Ihr ML-Modell zu speichern.

Console

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    Zur Seite „BigQuery“

  2. Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.

  3. Klicken Sie auf Aktionen ansehen > Dataset erstellen

  4. Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:

    • Geben Sie unter Dataset-ID bqml_tutorial ein.

    • Wählen Sie als Standorttyp die Option Multiregional und dann USA aus.

    • Übernehmen Sie die verbleibenden Standardeinstellungen unverändert und klicken Sie auf Dataset erstellen.

bq

Verwenden Sie den bq mk --dataset Befehl, um ein neues Dataset zu erstellen.

  1. Erstellen Sie ein Dataset mit dem Namen bqml_tutorial und legen Sie den Datenstandort auf US fest.

    bq mk --dataset \
      --location=US \
      --description "BigQuery ML tutorial dataset." \
      bqml_tutorial
  2. Prüfen Sie, ob das Dataset erstellt wurde:

    bq ls

API

Rufen Sie die datasets.insert Methode mit einer definierten Dataset-Ressource auf.

{
  "datasetReference": {
     "datasetId": "bqml_tutorial"
  }
}

Zeitachsenmodell erstellen

Erstellen Sie ein Zeitachsenmodell mit den Verkaufsdaten für Spirituosen in Iowa.

Mit der folgenden GoogleSQL-Abfrage wird ein Modell erstellt, das die tägliche Gesamtzahl der im Jahr 2015 in Polk, Linn und Scott-Landkreisen verkauften Flaschen prognostiziert.

In der folgenden Abfrage gibt die OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) Klausel an, dass Sie ein ARIMA-basiertes Zeitreihenmodell erstellen. Mit der TIME_SERIES_ID Option der CREATE MODEL Anweisung geben Sie eine oder mehrere Spalten in den Eingabedaten an, für die Sie Prognosen erhalten möchten. Die auto_arima_max_order Option der Anweisung CREATE MODEL steuert den Suchbereich für die Hyperparameter-Abstimmung im Algorithmus auto.ARIMA. Die decompose_time_series Option der CREATE MODEL Anweisung ist standardmäßig auf TRUE gesetzt, sodass Informationen zu den Zeitreihendaten zurückgegeben werden, wenn Sie das Modell im nächsten Schritt auswerten.

Die OPTIONS(model_type='ARIMA_PLUS', time_series_timestamp_col='date', ...) Klausel gibt an, dass Sie ein ARIMA-basiertes Zeitreihenmodell erstellen. Standardmäßig ist auto_arima=TRUE, sodass der auto.ARIMA Algorithmus die Hyperparameter in ARIMA_PLUS-Modellen automatisch abstimmt. Der Algorithmus passt Dutzende von Kandidatenmodellen an und wählt das beste Modell aus, das das Modell mit dem niedrigsten Akaike-Informationskriterium (AIC)ist. Wenn Sie die holiday_region Option auf US setzen, können Sie eine genauere Modellierung für diese Zeitpunkte der Feiertage in den USA vornehmen, wenn in der Zeitreihe Muster für Feiertage in den USA vorhanden sind.

So erstellen Sie das Modell:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:

    CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast`
      OPTIONS (
        MODEL_TYPE = 'ARIMA_PLUS',
        TIME_SERIES_TIMESTAMP_COL = 'date',
        TIME_SERIES_DATA_COL = 'total_bottles_sold',
        TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
        HOLIDAY_REGION = 'US')
    AS
    SELECT
      store_number,
      zip_code,
      city,
      county,
      date,
      SUM(bottles_sold) AS total_bottles_sold
    FROM
      `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE
      date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
      AND county IN ('POLK', 'LINN', 'SCOTT')
    GROUP BY store_number, date, city, zip_code, county;

    Die Abfrage dauert etwa 37 Sekunden. Danach können Sie auf das Modell liquor_forecast zugreifen. Da die Abfrage eine Anweisung CREATE MODEL zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.

Modell zum Prognostizieren von Daten verwenden

Prognostizieren Sie zukünftige Zeitreihenwerte mit der Funktion ML.FORECAST.

In der folgenden Abfrage gibt die Klausel STRUCT(20 AS horizon, 0.8 AS confidence_level) an, dass die Abfrage 20 zukünftige Zeitpunkte prognostiziert und ein Vorhersageintervall mit einem Konfidenzniveau von 80% generiert.

So prognostizieren Sie Daten mit dem Modell:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:

    SELECT *
    FROM
      ML.FORECAST(
        MODEL `bqml_tutorial.liquor_forecast`,
        STRUCT(20 AS horizon, 0.8 AS confidence_level))
    ORDER BY store_number, county, city, zip_code, forecast_timestamp;

    Die Antwort sollte in etwa so aussehen:

    Mehrere Zeitreihen mit einem univariaten Modell

    Die Ausgabe beginnt mit den prognostizierten Daten für die erste Zeitreihe: store_number=2190, zip_code=50314, city=DES MOINES, county=POLK. Wenn Sie durch die Daten scrollen, sehen Sie die Prognosen für jede nachfolgende eindeutige Zeitreihe. Wenn Sie Prognosen generieren möchten, die Summen für verschiedene Dimensionen aggregieren, z. B. Prognosen für ein bestimmtes Landkreis, müssen Sie eine hierarchische Prognose generieren.

Hierarchisches Zeitreihenmodell erstellen

Erstellen Sie eine hierarchische Zeitreihenprognose mit den Verkaufsdaten für Spirituosen in Iowa.

Mit der folgenden GoogleSQL-Abfrage wird ein Modell erstellt, das hierarchische Prognosen für die tägliche Gesamtzahl der im Jahr 2015 in Polk, Linn und Scott-Landkreisen verkauften Flaschen generiert.

In der folgenden Abfrage gibt die Option HIERARCHICAL_TIME_SERIES_COLS in der Anweisung CREATE MODEL an, dass Sie eine hierarchische Prognose basierend auf einer Reihe von Spalten erstellen, die Sie angeben. Jede dieser Spalten wird für die Aggregation zusammengefügt. Aus der vorherigen Abfrage bedeutet dies beispielsweise, dass der Wert der Spalte store_number zusammengefasst wird, um Prognosen für jeden Wert von county, city und zip_code anzuzeigen. Außerdem werden die Werte von zip_code und store_number separat zusammengefasst, um Prognosen für jeden Wert von county und city anzuzeigen. Die Reihenfolge der Spalten ist wichtig, da sie die Struktur der Hierarchie definiert.

So erstellen Sie das Modell:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:

    CREATE OR REPLACE MODEL `bqml_tutorial.liquor_forecast_hierarchical`
      OPTIONS (
        MODEL_TYPE = 'ARIMA_PLUS',
        TIME_SERIES_TIMESTAMP_COL = 'date',
        TIME_SERIES_DATA_COL = 'total_bottles_sold',
        TIME_SERIES_ID_COL = ['store_number', 'zip_code', 'city', 'county'],
        HIERARCHICAL_TIME_SERIES_COLS = ['zip_code', 'store_number'],
        HOLIDAY_REGION = 'US')
    AS
    SELECT
      store_number,
      zip_code,
      city,
      county,
      date,
      SUM(bottles_sold) AS total_bottles_sold
    FROM
      `bigquery-public-data.iowa_liquor_sales.sales`
    WHERE
      date BETWEEN DATE('2015-01-01') AND DATE('2015-12-31')
      AND county IN ('POLK', 'LINN', 'SCOTT')
    GROUP BY store_number, date, city, zip_code, county;

    Die Abfrage dauert etwa 45 Sekunden. Danach kann im Bereich Explorer auf das Modell bqml_tutorial.liquor_forecast_hierarchical zugegriffen werden. Da die Abfrage eine Anweisung CREATE MODEL zum Erstellen eines Modells verwendet, gibt es keine Abfrageergebnisse.

Hierarchisches Modell zum Prognostizieren von Daten verwenden

Rufen Sie hierarchische Prognosedaten aus dem Modell mit der Funktion ML.FORECAST ab.

So prognostizieren Sie Daten mit dem Modell:

  1. Rufen Sie in der Google Cloud Console die Seite BigQuery auf.

    BigQuery aufrufen

  2. Fügen Sie die folgende Abfrage in den Abfrageeditor ein und klicken Sie auf Ausführen:

    SELECT
      *
    FROM
      ML.FORECAST(
        MODEL `bqml_tutorial.liquor_forecast_hierarchical`,
        STRUCT(30 AS horizon, 0.8 AS confidence_level))
    WHERE city = 'LECLAIRE'
    ORDER BY county, city, zip_code, store_number, forecast_timestamp;

    Die Antwort sollte in etwa so aussehen:

    Beispiel für eine hierarchische Zeitreihe

    Beachten Sie, wie die aggregierte Prognose für die Stadt LeClaire angezeigt wird: store_number=NULL, zip_code=NULL, city=LECLAIRE, county=SCOTT. In den übrigen Zeilen sehen Sie die Prognosen für die anderen Untergruppen. Die folgende Abbildung zeigt beispielsweise die Prognosen, die aggregiert wurden für die Postleitzahl 52753, store_number=NULL, zip_code=52753, city=LECLAIRE, county=SCOTT:

    Beispiel für eine hierarchische Zeitreihe

Bereinigen

Damit Ihrem -Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, können Sie entweder das Projekt löschen, das die Ressourcen enthält, oder das Projekt beibehalten und die einzelnen Ressourcen löschen. Google Cloud

  • Sie können das von Ihnen erstellte Projekt löschen.
  • Sie können das Projekt aber auch behalten und das Dataset löschen.

Dataset löschen

Wenn Sie Ihr Projekt löschen, werden alle Datasets und Tabellen entfernt. Wenn Sie das Projekt wieder verwenden möchten, können Sie das in dieser Anleitung erstellte Dataset löschen:

  1. Rufen Sie, falls erforderlich, die Seite „BigQuery“ in der Google Cloud Console auf.

    Zur Seite „BigQuery“

  2. Wählen Sie im Navigationsbereich das Dataset bqml_tutorial aus, das Sie erstellt haben.

  3. Klicken Sie rechts im Fenster auf Delete dataset (Dataset löschen). Dadurch werden das Dataset, die Tabelle und alle Daten gelöscht.

  4. Bestätigen Sie im Dialogfeld Dataset löschen den Löschbefehl. Geben Sie dazu den Namen des Datasets (bqml_tutorial) ein und klicken Sie auf Löschen.

Projekt löschen

So löschen Sie das Projekt:

  1. Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.

    Zur Seite „Ressourcen verwalten“

  2. Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
  3. Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Herunterfahren), um das Projekt zu löschen.

Nächste Schritte