Automatische Bewertungsmesswerte für die Zusammenfassung

Bei der automatischen Bewertung von Zusammenfassungen (Auto-Bewertung) wird generative KI verwendet, um die Qualität von KI-generierten Zusammenfassungen anhand von Genauigkeit, Vollständigkeit und Einhaltung zu bewerten.

Manchmal wird für die Werte für Einhaltung und Vollständigkeit N/A angezeigt.

  • Bei der Bewertung der Einhaltung werden nur Zusammenfassungen berücksichtigt, die benutzerdefinierte Abschnitte verwenden. Wenn eine Zusammenfassung vorgefertigte Abschnitte verwendet, wird N/A angezeigt.
  • Bei der Bewertung der Vollständigkeit werden nur nichtkategorische Zusammenfassungen mit Text in freiem Format berücksichtigt. Wenn eine Zusammenfassung kategoriale Werte verwendet, wird N/A angezeigt.

Genauigkeit

Die Genauigkeit gibt an, wie gut eine Zusammenfassung mit den Fakten im Transkript des Gesprächs übereinstimmt. Bei der Auto-Bewertung wird für jede Zusammenfassung ein Prozentsatz für die Korrektheit sowie eine entsprechende Begründung ermittelt. Ein niedriger Wert für die Genauigkeit bedeutet, dass es in der Zusammenfassung faktische Probleme gibt.

Die Ergebnisse für die Genauigkeit sehen so aus:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Jeder point im vorherigen Beispiel ist ein Teil der Zusammenfassung. Der binäre Parameter is_accurate zeigt das Ergebnis der Bewertung der Genauigkeit an. Der Parameter accuracy enthält die Begründung.

Einhaltung

Bei der Auto-Bewertung von Zusammenfassungen wird eine Reihe von Fragen auf die bereitgestellte Zusammenfassung angewendet. Anhand dieser Fragen und des Transkripts des Gesprächs wird bewertet, ob die Zusammenfassung die einzelnen Anweisungen einhält. Die Auto-Bewertung von Zusammenfassungen basiert jedoch auf Gemini, das grammatische Anweisungen möglicherweise nicht genau überprüfen kann. Daher kann es sein, dass bei der Auto-Bewertung von Zusammenfassungen nicht genau bewertet wird, ob eine Zusammenfassung grammatische Anweisungen einhält.

Ein niedriger Wert für die Einhaltung bedeutet, dass die Zusammenfassung die Anweisungen in der Definition des Zusammenfassungsabschnitts nicht einhält. Nur Zusammenfassungen, die benutzerdefinierte Abschnitte verwenden, können einen Wert für die Einhaltung generieren.

Bei der Auto-Bewertung von Zusammenfassungen werden für die Einhaltung die folgenden beiden Arten von Zusammenfassungsaufgaben berücksichtigt:

  • Kategorische Zusammenfassungen: Geben Sie einen kategorialen Wert an, der in den Anweisungen definiert ist. In den Anweisungen wird beispielsweise eine Antwort mit Sonnig oder Bewölkt gefordert. Bei der Auto-Bewertung wird geprüft, ob die Zusammenfassung nur Sonnig oder Bewölkt ohne beschreibenden Text enthält.
  • Nichtkategorische Zusammenfassungen: Geben Sie Text in freiem Format an. Bei der Auto-Bewertung wird geprüft, ob eine nichtkategorische Zusammenfassung die Anweisungen in der Aufgabenbeschreibung einhält.

Die Ergebnisse für die Einhaltung sehen so aus:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Jede Frage wird aus der bereitgestellten Definition des Zusammenfassungsabschnitts abgeleitet. Der binäre Parameter is_addressed zeigt das Ergebnis der Bewertung der Einhaltung an. Der Parameter reasoning enthält eine Begründung.

  • Wenn Fragen nicht mit Ihrem Ziel übereinstimmen, war die Definition des Zusammenfassungsabschnitts für dieses Ziel nicht eindeutig. Sie können das Problem nachvollziehen und Ihre Abschnittsdefinitionen verbessern.

Vollständigkeit

Anhand der Anweisungen in der Abschnittsdefinition einer KI-generierten Zusammenfassung werden bei der Auto-Bewertung von Zusammenfassungen Rubriken angewendet, um die Vollständigkeit der Zusammenfassung zu bewerten. Ein niedriger Wert bedeutet, dass in der Zusammenfassung wichtige Informationen aus dem Transkript fehlen.

Hier ein Beispiel für Ergebnisse zur Vollständigkeit:

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

Im vorherigen Beispiel werden die folgenden Szenarien dargestellt:

  • Wenn die Zusammenfassung die relevanten Inhalte aus dem Transkript enthält, wird der binäre Parameter is_covered auf True gesetzt.
  • Wenn die Zusammenfassung die relevanten Inhalte aus dem Transkript nicht enthält, besteht der Parameter related_content_from_summary aus einem leeren String, was bedeutet, dass die Zusammenfassung die relevanten Punkte nicht extrahiert hat. Dies führt wiederum zu einer niedrigeren Gesamtpunktzahl und einer niedrigeren Punktzahl für die Vollständigkeit dieser Rubrik. Außerdem wird der binäre Parameter is_covered auf False gesetzt.
  • Wenn im Transkript keine Inhalte zur Frage vorhanden sind, enthält der Parameter content_list eine leere Liste, was sich nicht negativ auf die Zusammenfassung auswirkt. Dieser Fall wird nicht in die aggregierte Gesamtpunktzahl einbezogen.

Jede Frage im Beispiel wird aus der bereitgestellten Aufgabenbeschreibung abgeleitet. Die relevanten Informationen aus dem Transkript sind als Wert des Parameters transcript_content enthalten. Der binäre Parameter is_covered zeigt das Ergebnis der Bewertung der Vollständigkeit für diesen Punkt an und related_content_from_summary enthält den Nachweis. Wenn Fragen nicht mit Ihrem Ziel übereinstimmen, war die Abschnittsdefinition Ihrer Zusammenfassung nicht eindeutig. Sie können das Problem nachvollziehen und Ihre Abschnittsdefinition verbessern.