注: Vertex AI Search は Agent Search に名称変更されます。現在、新しいブランディングを反映するようにコンテンツの更新を進めています。

Google uses AI technology to translate content into your preferred language. AI translations can contain errors.

検索結果のランキングをカスタマイズする

検索のニーズは業種によって異なり、時間とともに変化する可能性があるため、デフォルトのランキング動作がすべてのビジネスニーズに最適であるとは限りません。この問題を解決するには、カスタムランキングを使用してランキング動作を変更します。

このページでは、検索リクエストでカスタムランキング式を使用する方法と、式を調整する方法について説明します。この機能は、構造化データ、非構造化データ、ウェブサイトデータで使用できます。

概要

カスタムランキングを使用すると、セマンティック関連性スコアやキーワード類似度スコアなどのモデルで計算された一連のシグナルと、距離やドキュメントの経過時間などのドキュメントベースのシグナルに依存する数式を指定できます。

カスタムランキングを使用すると、次のことが可能になります。

可視化: 検索結果の最終的なランキングに影響するシグナルを把握します。
既存のシグナルの調整: セマンティック類似度、キーワードのマッチタイプ、ドキュメントの鮮度など、さまざまなシグナルの重みを調整します。
ビジネスロジックの組み込み: ドキュメントデータから独自のカスタムシグナルをランキング式に直接追加します。
体系的な最適化: オープンソースの Python ライブラリを使用して、最適なランキング式をプログラムで検出します。

カスタムランキングが必要な理由 - 例

ホテル予約ウェブサイトで次の文字列がクエリされるシナリオを考えてみましょう。

luxury hotel with a large rooftop pool in Vancouver, pet-friendly and close to airport.

次のようなエントリが取得されたとします。

ホテル A: 「空港を見下ろすバンクーバー屈指の高級ホテル。素晴らしい屋上プール があります。ペット不可。」
ホテル B: 「バンクーバーのダウンタウンにあるモダンでスタイリッシュなホテル。広々とした客室でペット可 。大きな屋内プール とフィットネスセンターがあります。」
ホテル C: 「水族館近くの魅力的なペット可 ブティックホテル（ダウンタウンから徒歩 10 分）。素敵なガーデンコートヤードがあります。プールなし。」
ホテル D: "象徴的な ラスティック リゾート。絶品の料理と完璧なサービスで知られています。屋内プールとスパがあります。リクエストに応じてペット可 のオプションをご利用いただけます。」

カタログ内のすべてのホテルには、空港からの距離（km）を示す distance_from_airport フィールドが含まれています。

エンベディングベースのランキング

検索システムは、クエリを単一のエンベディングに変換します。次に、このクエリエンベディングをカタログ内のすべてのホテルのエンベディングと比較します。エンベディングがクエリのエンベディングに数値的に最も近いホテルが上位にランク付けされます。

純粋なエンベディングベースの関連性検索によるランキングは次のようになります。

ランキング	ホテル	このランキングの理由
1	ホテル A	高級、空港、屋上プールとのセマンティックマッチングが非常に強力です。「ペット不可」は望ましくありませんが、他の強力なマッチングが優先されます。
2	ホテル B	「ペット可」と「プール」とのセマンティックマッチングは良好です。ただし、「屋上」ではなく「屋内」、「高級」ではなく「モダン」と「スタイリッシュ」、「空港」ではなく「ダウンタウン」であるため、A よりも関連性が低くなります。
3	ホテル D	ペット可、大きなプールとのセマンティックマッチングは強力ですが、「屋上」ではなく「屋内」、「高級」ではなく「ラスティック」であるため A と B よりもセマンティック関連性がわずかに低くなります。
4	ホテル C	ペット可ですが、「プールなし」と「ブティック」であるため、この特定のクエリとの関連性が大幅に低下します。

このランキングでは、最も関連性の高い結果が得られません。ホテル A は「ペット不可」であるため、多くのユーザーに好まれない可能性がありますが、上位にランク付けされています。ホテル D は多くの条件を満たしていますが、「ラスティック」というステータスが必ずしも「高級」にマッピングされるとは限らず、「屋内」プールは「大きな」と「屋外」の完全一致よりも低いランク付けになるため、下位にランク付けされています。

カスタムランキング

このシナリオ例では、次のランキング式を構成したとします。この式のコンポーネントについては、カスタムランキングの実装についてをご覧ください。

rankingExpression = drr(semantic_similarity_score, 32) * 0.4 + drr(keyword_similarity_score, 32) * 0.3 + drr(c.distance_from_airport * -1, 32) * 0.8

distance_from_airport はカタログ内の取得可能なフィールドであり、 c.distance_from_airport はシグナルとして機能します。

カスタムランキングでは、ドキュメントの関連性に影響するさまざまなシグナルを考慮します。次に、有効な構文を使用して、これらのシグナルを含む数式を作成します。この式では、シグナルを正規化し、導出されたスコアに重みを追加します。最終的なカスタムスコアが計算され、ドキュメントがランク付けされます。

この例では、このプロセスは次のように説明できます。

各ホテルには、セマンティック類似度スコアとキーワード類似度スコアが割り当てられます。また、空港からの距離は、ドキュメントから導出される重要なシグナルです。
密な逆ランク変換関数 drr() を使用して、すべてのスコアを同じスケールに変換します。
各シグナルから導出されたスコアに重みが付けられ、個々のスコアの合計が各ホテルのカスタムランキングスコアになります。

各ホテルのさまざまなシグナルを次の表に示します。

ホテル	`semantic_similarity_score`	`keyword_similarity_score`	`c.distance_from_airport`	カスタムランキングスコア	カスタムランキング	エンベディングベースのランキング
ホテル A	9.0	6.2（「空港」、「高級」、「屋上プール」）	5.0	0.04879	2	1
ホテル B	7.5	5.6（「ペット可」、「ダウンタウン」、「屋内プール」、「スタイリッシュ」）	12.5	0.04691	3	2
ホテル C	5.0	3.4（「ペット可」、「ダウンタウン」）	18	0.04525	4	4
ホテル D	8.0	4.5（「屋内プール」、「ペット可」、「ラスティック」）	1	0.04890	1	3

2 つのランキング方法を比較すると、カスタムランキングでは、純粋なエンベディングベースのランキングよりもユーザーのニーズに合ったランキングが考慮されます。

カスタムランキングの実装について

検索結果でカスタムランキングを取得するには、 search メソッドを呼び出す必要があります。

ランキング式バックエンド （rankingExpressionBackend）: このフィールドは、次のランキングメカニズムのどれを使用するかを示します。
- RANK_BY_EMBEDDING: このフィールドが指定されていない場合のデフォルト値です。これを選択すると、エンベディングベースまたは関連性ベースのいずれかの事前定義されたランキング式に従って結果がランク付けされます。
- RANK_BY_FORMULA: デフォルトのランキングがオーバーライドされ、rankingExpression フィールドにカスタム数式を指定できます。
ランキング式 （rankingExpression）: このフィールドには、取得したドキュメントのランキングを決定する数式が含まれています。
- RANK_BY_EMBEDDING の場合、関連性スコアベース（double * relevanceScore）またはエンベディングベース（double * dotProduct(embedding_field_path)）のいずれかになります。
- RANK_BY_FORMULA の場合、複数のシグナルを組み合わせて各検索結果の新しいスコアを計算するキュレートされた式になります。

標準シグナル

Agent Search には、カスタムランキングの作成に使用できるさまざまなシグナルが用意されています。使用可能な標準シグナルは次のとおりです。

シグナル名	説明
`default_rank`	標準の Agent Search ランキングアルゴリズムによって決定されるドキュメントのデフォルトのランク。
`semantic_similarity_score`	クエリエンベディングとコンテンツエンベディングに基づいて計算されたスコア。検索クエリがドキュメントのコンテンツにどの程度類似しているかを判断します。これは、Google 独自のアルゴリズムを使用して計算されます。
`relevance_score`	複雑なクエリとドキュメントのインタラクションを処理するディープ関連性モデルによって生成されるスコア。このモデルは、コンテンツのコンテキストでクエリの意味と意図を判断します。これは、Google 独自のアルゴリズムを使用して計算されます。
`keyword_similarity_score`	キーワードのマッチタイプを重視したスコア。このシグナルは、 Best Match 25（BM25）ランキング関数を使用します。
`document_age`	ドキュメントの経過時間（時間単位）。浮動小数点値をサポートしています。たとえば、0.5 は 30 分、50 は 2 日と 2 時間を意味します。
`pctr_rank`	ユーザーイベントデータに基づいて計算された、予測コンバージョン率を示すランク。このシグナルは、予測されるクリック率（pCTR）を使用して、ユーザーの視点から検索結果の関連性を測定します。
`topicality_rank`	Google 独自のアルゴリズムを使用して計算された、キーワード類似度調整を示すランク。
`boosting_factor`	ドキュメントに適用したすべてのカスタムブーストの組み合わせ。

カスタムシグナル

標準シグナルに加えて、取得可能としてマークされているドキュメントの任意の数値カスタムフィールドのシグナルを使用できます。これを行うには、フィールド名の先頭に c. プレフィックスを追加します。たとえば、カスタムフィールドの名前が date_approved の場合は、c.date_approved をカスタムシグナルとして使用できます。

シグナル名は、英字とアンダースコア（_）の組み合わせです。次の名前は予約済みであり、シグナル名として使用できません: log、exp、rr、drr、is_nan、fill_nan、geo_distance。

地理距離 - 導出されたシグナル

地理距離などの導出されたシグナルは、標準シグナルとカスタムシグナルに基づいて計算されます。地理距離は、出発地と目的地の間の距離を計算する関数です。geo_distance() 関数は geo_distance(source_location, destination_location) と表されます。次の引数で構成されます。

出発地または source_location: 距離を計算する出発地。次のいずれかのタイプを指定できます。
- クエリの場所: 自然言語理解モデルを使用してクエリから解析される場所。たとえば、クエリ Hotels along the M6では、自然言語理解モデルは Hotelsを検索パラメータの「何」として、M6を「どこ」として抽出します。「どこ」の部分はクエリの場所であり、点、ポリライン、円、ポリゴンとして表すことができます。
```
{
 "query": "Hotels along M6",
 "ranking_expression": "geo_distance(query_loc, c.hotel_location)",
 "ranking_expression_backend": "RANK_BY_FORMULA"
}
```
- リクエストの場所の座標: 検索リクエストで明示的に指定された場所（ユーザーの緯度と経度など）。たとえば、クエリとして Hotels を指定し、緯度と経度を使用して場所を指定できます。
```
{
  "query": "Hotels",
  "user_info": {
    "precise_location": {
      "point": {
        "lat": 52.23034637633789,
        "lon": 20.98339855121653,
      }
    }
  },
  "ranking_expression": "geo_distance(request_loc, c.hotel_location)",
  "ranking_expression_backend": "RANK_BY_FORMULA"
}
```
- リクエストの場所の住所: 検索リクエストで明示的に指定された住所。たとえば、クエリとして Hotels を指定し、参照用のアドレスを指定できます。
```
{
  "query": "Hotels",
  "user_info": {
    "precise_location": {
      "address": "1800 Amphibious Blvd. Mountain View, CA 94045"
    }
  },
  "ranking_expression": "geo_distance(request_loc, c.hotel_location)",
  "ranking_expression_backend": "RANK_BY_FORMULA"
}
```
目的地または destination_location: 距離を計算する目的地。c.office_location や c.home_location などのカスタム取得可能フィールドです。

関数内のこれらの引数の順序は変更できません。つまり、出発地は常に geo_distance() 関数内の最初の引数であり、その後に目的地が続きます。この関数は、出発地と目的地の緯度と経度を使用して、距離をメートル単位で計算します。

レスポンス内のシグナル

検索レスポンスでドキュメントが返されると、検索結果には、データストアからドキュメントを取得するために使用される標準シグナルとカスタムシグナルが一覧表示されます。 rankSignals フィールドにこれらのシグナルが一覧表示されます。

キーワード類似度のテキストフィールド

構造化データストアで検索レスポンスに keywordSimilarityScore シグナルを取得するには、スキーマを更新して次の操作を行う必要があります。

キーワードのマッチタイプに不可欠なテキストフィールドをキープロパティ title と description にマッピングする
テキストフィールドのアノテーションを Searchable に更新する

検索でランキング式を使用してランキングをカスタマイズする

検索結果のドキュメントのランキングをカスタマイズするには、数式を手動で作成して search API 呼び出しに追加します。

ランキング式を作成します。

検索結果を取得します。

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:search" \
-d '{
"servingConfig": "projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search",
"query": "QUERY",
"rankingExpression": "RANKING_EXPRESSION",
"rankingExpressionBackend": "RANK_BY_FORMULA"
}'

次のように置き換えます。

PROJECT_ID: 実際の Google Cloud プロジェクト ID。
APP_ID: クエリする Agent Search アプリの ID。
QUERY: 検索するクエリテキスト。
RANKING_EXPRESSION：有効なランキング式の構文で、使用可能なシグナルを使用して記述できるカスタムランキング式。
- 有効な例については、ランキング式の例をご覧ください。
- 最適な結果が得られるランキング式を調整するには、 Python ライブラリを使用してランキング式を調整するをご覧ください。

コマンドの例と部分的な結果

curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://discoveryengine.googleapis.com/v1/projects/my-project-123/locations/global/collections/default_collection/engines/my-app/servingConfigs/default_search:search" \
-d '{
      "servingConfig": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/servingConfigs/default_config",
      "query": "psychologist",
      "userInfo": {
        "preciseLocation": {
          "point": {
            "latitude": 40.0193498,
            "longitude": -105.2684099
          }
        }
      },
      "rankingExpression": "drr(default_rank * -1, 16) + drr(geo_distance(request_loc, c.geolocation) * -1, 16, 0.00001) * 0.8",
      "rankingExpressionBackend": "RANK_BY_FORMULA",
      "customRankingParams": {
        "expressionsToPrecompute": ["geo_distance(request_loc, c.geolocation)"]
      }
    }'
    
{
  "results": [{
    "id": "123456789f35fe90f22612713a7e875c",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/123456789f35fe90f22612713a7e875c",
      "id": "123456789f35fe90f22612713a7e875c",
      "structData": {
        ...
        "full_address": "5992 Maple St Franklin NM 87505",
        "generatedKey": "1234567-123456789-T-123456789CD9EAB7CC3FBECA9158B289",
        "geolocation": {
          "address": "5992 Maple St Franklin NM 87505"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.8188466,
      "semanticSimilarityScore": 0.6672727,
      "topicalityRank": 3.0,
      "boostingFactor": 0.0,
      "defaultRank": 1.0,
      "precomputedExpressionValues": [488792.47]
    },
    "retrievalSignals": {
      "retrievalSources": ["KEYWORD_SEARCH", "SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.40226308
    }
  }, {
    "id": "123456789746002ab3a03501b2e1874f",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/123456789746002ab3a03501b2e1874f",
      "id": "123456789746002ab3a03501b2e1874f",
      "structData": {
        ...
        "full_address": "6056 Elm Dr Springfield NM 87401",
        "generatedKey": "1234567-123456789-T-123456789761975E686DA90FBFD2BB89",
        "geolocation": {
          "address": "6056 Elm Dr Springfield NM 87401"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.8188466,
      "semanticSimilarityScore": 0.66934514,
      "topicalityRank": 2.0,
      "boostingFactor": 0.0,
      "defaultRank": 2.0,
      "precomputedExpressionValues": [443257.2]
    },
    "retrievalSignals": {
      "retrievalSources": ["KEYWORD_SEARCH", "SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.37744346
    }
  ...
  }, {
    "id": "123456789474eac8327437f2ad81b103",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/123456789474eac8327437f2ad81b103",
      "id": "123456789474eac8327437f2ad81b103",
      "structData": {
        ...
        "full_address": "4780 Main St Riverside NY 10011",
        "generatedKey": "1234567-123456789-T-123456789E9EEFB0A72810951FD36389",
        "geolocation": {
          "address": "4780 Main St Riverside NY 10011"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.0,
      "semanticSimilarityScore": 0.691086,
      "topicalityRank": 61.0,
      "boostingFactor": 0.0,
      "defaultRank": 47.0,
      "precomputedExpressionValues": [2635880.2]
    },
    "retrievalSignals": {
      "retrievalSources": ["SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.4156605
    }
  }, {
    "id": "123456789c31f73ac73e9c8de9301217",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/123456789c31f73ac73e9c8de9301217",
      "id": "123456789c31f73ac73e9c8de9301217",
      "structData": {
        ...
        "full_address": "5738 Main St Riverside NY 10016",
        "generatedKey": "1234567-123456789-T-12345678936C42C29E94F3F86EACA689",
        "geolocation": {
          "address": "5738 Main St Riverside NY 10016"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.0,
      "semanticSimilarityScore": 0.6795519,
      "topicalityRank": 38.0,
      "boostingFactor": 0.0,
      "defaultRank": 48.0,
      "precomputedExpressionValues": [2637175.0]
    },
    "retrievalSignals": {
      "retrievalSources": ["SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.40063128
    }
  }, {
    "id": "1234567899a3eacea2d4960e60784e68",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/1234567899a3eacea2d4960e60784e68",
      "id": "1234567899a3eacea2d4960e60784e68",
      "structData": {
        ...
        "full_address": "5738 Main St Riverside NY 10016",
        "generatedKey": "1234567-123456789-T-12345678936C42C29E94F3F86EACA689",
        "geolocation": {
          "address": "5738 Main St Riverside NY 10016"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.0,
      "semanticSimilarityScore": 0.6898086,
      "topicalityRank": 57.0,
      "boostingFactor": 0.0,
      "defaultRank": 49.0,
      "precomputedExpressionValues": [2637175.0]
    },
    "retrievalSignals": {
      "retrievalSources": ["SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.41399607
    }
  }, {
    "id": "123456789e996d10a49bdfd9c560e1c5",
    "document": {
      "name": "projects/my-project-123/locations/us/collections/default_collection/dataStores/my-data-store/branches/0/documents/123456789e996d10a49bdfd9c560e1c5",
      "id": "123456789e996d10a49bdfd9c560e1c5",
      "structData": {
        ...
        "full_address": "3750 Elm Dr Georgetown OH 43065",
        "generatedKey": "1234567-123456789-T-123456789818D290812B3E1BC5999489",
        "geolocation": {
          "address": "3750 Elm Dr Georgetown OH 43065"
        },
        ...
      }
    },
    "rankSignals": {
      "keywordSimilarityScore": 0.8188466,
      "semanticSimilarityScore": 0.6374469,
      "topicalityRank": 17.0,
      "boostingFactor": 0.0,
      "defaultRank": 50.0,
      "precomputedExpressionValues": [1881946.8]
    },
    "retrievalSignals": {
      "retrievalSources": ["SEMANTIC_SEARCH"],
      "semanticRelevanceScore": 0.35366622
    }
  }],
  "totalSize": 2591,
  "attributionToken": "kAL0DwEKDAWZhdWx0...iN35rOBhCmlncy9kZX2NvbmZpZw",
  "nextPageToken": "QWZ2AjYzYDN0cDN30yNkNjYtIzM2ITLwADMw0SNhlzM2UWO2QiGCw71ceKEG4sqI7ICMIBM1IgC",
  "guidedSearchResult": {
  },
  "summary": {
  },
  "queryExpansionInfo": {
  },
  "queryInfo": {
    "isAnswerSeeking": false
  },
  "personalizationInfo": {
    "userEventCount": "0"
  },
  "semanticState": "ENABLED"
}

この例では、位置情報に `userInfo`、 `customRankingParams`、`expressionsToPrecompute` パラメータが含まれています。

Python ライブラリを使用してランキング式を調整する

高度なユースケースでは、数式の最適な重みを見つけるのが難しい場合があります。これを解決するには、オープンソースツールである Agent Search のランキング調整 Python ライブラリを使用して、ユースケースに適した数式を作成できます。

一般的なワークフローは次のとおりです。

対応するゴールデンラベルを含むクエリのデータセットを準備します。これらのゴールデンラベルは、ドキュメント ID など、検索レスポンスの SearchResult オブジェクトを関連付けるのに役立つ一意の識別フィールドです。
代表的なクエリのセットについて、 search API を呼び出して、返されたすべてのドキュメントの使用可能なランキングシグナルを取得します。これは SearchResult.rankSignals フィールドにあります。このデータをゴールデンラベルとともに保存します。
Python ライブラリを使用して、このデータセットでランキングモデルをトレーニングします。詳細については、 Clearbox Python ライブラリをご覧ください。

調整された数式を使用したカスタムランキングの例を確認するには、ノートブック「カスタムランキングの調整」を次のいずれかの環境で実行します。
[Colab で開く] | [GitHub で表示]
トレーニング結果の数式をランキング式に変換します。これは、API 呼び出しで使用できます。

検索結果のランキングをカスタマイズする コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

概要

カスタム ランキングが必要な理由 - 例

エンベディングベースのランキング

カスタム ランキング

カスタム ランキングの実装について