要約の自動評価指標

要約の自動評価(自動評価)では、生成 AI を使用して、精度、完全性、遵守に基づいて AI が生成した要約 の品質を評価します。

遵守と完全性のスコアが [該当なし] と表示されることがあります。

  • 遵守では、カスタム セクションを使用する要約のみが評価されます。要約で事前構築済みセクションを使用する場合、スコアは [該当なし] になります。
  • 完全性では、自由形式のテキストを含むカテゴリ以外の要約のみが評価されます。要約でカテゴリ値を使用する場合、スコアは [該当なし] になります。

精度

精度は、要約が会話のトランスクリプトの事実の詳細とどの程度一致しているかを測定します。自動評価では、要約ごとに正しさの割合と、対応する正当性が判断されます。精度スコアが低い場合は、要約に事実に関する問題があることを意味します。

精度結果は次のようになります。

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • 上記の例の各 point は、要約の分解された部分です。バイナリ パラメータ is_accurate には、精度の評価結果が表示されます。accuracy パラメータには、正当性が示されます。

遵守

要約の自動評価では、指定された要約に一連の質問が適用されます。自動評価では、これらの質問と会話のトランスクリプトを使用して、各指示に対する要約の遵守状況を評価します。ただし、要約の自動評価は Gemini に依存しているため、文法上の指示を正確に検証できない場合があります。そのため、要約が文法上の指示に準拠しているかどうかを正確に評価できない可能性があります。

遵守スコアが低い場合は、要約が要約セクションの定義で指定された指示に準拠していないことを意味します。遵守スコアを生成できるのは、カスタム セクションを使用した要約のみです。

遵守の場合、要約の自動評価では、次の 2 種類の要約タスクが認識されます。

  • カテゴリの要約: 指示で定義されたカテゴリ値を指定します。たとえば、指示で「 晴れ 」または「 曇り 」の回答を求められます。自動評価では、要約で説明テキストなしで「 晴れ 」または「 曇り 」のみが指定されているかどうかが確認されます。
  • カテゴリ以外の要約: 自由形式のテキストを指定します。自動評価では、カテゴリ以外の要約がタスクの説明で定義された指示に従っているかどうかが確認されます。

遵守の結果は次のようになります。

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • 各質問は、指定された要約セクションの定義から派生します。バイナリ パラメータ is_addressed には、遵守の評価結果が表示されます。reasoning パラメータには、正当性が示されます。

  • 質問が目標と一致しない場合、その目標の要約セクションの定義が不明確です。問題を把握して、セクションの定義を改善できます。

完全性

AI が生成した要約のセクション定義の指示に基づいて、要約の自動評価ではルーブリックを適用して要約の完全性を評価します。スコアが低い場合は、要約にトランスクリプトの重要な情報が不足していることを意味します。

完全性の結果の例を次に示します。

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

上記の例では、次のシナリオを示しています。

  • 要約にトランスクリプトの関連コンテンツが含まれている場合、バイナリ パラメータ is_coveredTrue に設定されます。
  • 要約にトランスクリプトの関連コンテンツが含まれていない場合、related_content_from_summary パラメータは空の文字列で構成され、要約で関連するポイントが抽出されなかったことを示します。これにより、最終スコアとルーブリックの完全性スコアが低下します。また、バイナリ パラメータ is_coveredFalse に設定されます。
  • トランスクリプトの質問に関連するコンテンツがない場合、content_list パラメータは空のリストで構成され、要約にペナルティは適用されません。最終的な集計スコアには、このケースは含まれません。

例の各質問は、指定されたタスクの説明から派生します。トランスクリプトの関連情報は、transcript_content パラメータの値として含まれます。バイナリ パラメータ is_covered には、この特定のポイントの完全性の結果が表示され、related_content_from_summary には証明が表示されます。質問が目標と一致しない場合、要約のセクション定義が不明確です。問題を把握して、セクションの定義を改善してください。