Metrik evaluasi otomatis peringkasan

Evaluasi otomatis (autoevaluasi) peringkasan menggunakan AI generatif untuk menilai kualitas ringkasan yang dihasilkan AI berdasarkan akurasi, kelengkapan, dan kepatuhan.

Terkadang, skor kepatuhan dan kelengkapan menampilkan T/A.

  • Kepatuhan hanya mengevaluasi ringkasan yang menggunakan bagian kustom. Jika ringkasan menggunakan bagian bawaan, skornya adalah T/A.
  • Kelengkapan hanya mengevaluasi ringkasan nonkategoris dengan teks bentuk bebas. Jika ringkasan menggunakan nilai kategoris, skornya adalah T/A.

Akurasi

Akurasi mengukur seberapa dekat ringkasan selaras dengan detail faktual transkrip percakapan. Untuk setiap ringkasan, evaluasi otomatis menentukan persentase kebenaran, beserta justifikasi yang sesuai. Skor akurasi yang rendah berarti ada masalah faktual dalam ringkasan.

Hasil akurasi akan terlihat seperti berikut:

{
  "decomposition": [
    {
        "point": "The customer wants to cancel their subscription.",
        "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.",
        "is_accurate": true
    },
    {
        "point": "The customer asks about a $30 credit.",
        "accuracy": "This is inaccurate. The customer mentioned $10.",
        "is_accurate": false
    }
  ]
}
  • Setiap point dalam contoh sebelumnya adalah bagian ringkasan yang diuraikan. Parameter biner is_accurate menampilkan hasil evaluasi akurasi. Parameter accuracy memberikan justifikasi.

Kepatuhan

Evaluasi otomatis ringkasan menerapkan serangkaian pertanyaan pada ringkasan yang diberikan. Evaluasi otomatis menggunakan pertanyaan ini dan transkrip percakapan untuk menilai kepatuhan ringkasan terhadap setiap petunjuk. Namun, evaluasi otomatis ringkasan mengandalkan Gemini, yang mungkin tidak memverifikasi petunjuk tata bahasa secara akurat. Jadi, evaluasi otomatis ringkasan mungkin tidak secara akurat menilai apakah ringkasan mematuhi petunjuk tata bahasa.

Skor kepatuhan yang rendah berarti ringkasan tidak mematuhi petunjuk yang diberikan dalam definisi bagian ringkasan. Hanya ringkasan yang menggunakan bagian kustom yang dapat menghasilkan skor kepatuhan.

Untuk kepatuhan, evaluasi otomatis peringkasan mengenali dua jenis tugas ringkasan berikut:

  • Ringkasan kategoris: Berikan nilai kategoris yang ditentukan dalam petunjuk. Misalnya, petunjuk meminta respons Cerah atau Berawan. Evaluasi otomatis memeriksa apakah ringkasan yang diberikan hanya Cerah atau Berawan tanpa teks deskriptif.
  • Ringkasan nonkategoris: Memberikan teks bentuk bebas. Evaluasi otomatis memeriksa apakah ringkasan nonkategoris mengikuti petunjuk yang ditentukan dalam deskripsi tugas.

Hasil kepatuhan akan terlihat seperti berikut:

(Categorical):
{
  "rubrics": [
    "question": "Does the summary follow the instruction and return only one of the allowed categorical values?",
    "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.",
    "is_addressed": "False"
  ]
}
(Noncategorical):
{
  "rubrics": [
    {
      "question": "Does the summary follow the instruction 'State the product name being returned'?",
      "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.",
      "is_addressed": "True"
    }
  ]
}
  • Setiap pertanyaan berasal dari definisi bagian ringkasan yang diberikan. Parameter biner is_addressed menampilkan hasil evaluasi kepatuhan. Parameter reasoning memberikan justifikasi.

  • Jika ada pertanyaan yang tidak sesuai dengan sasaran Anda, definisi bagian ringkasan sasaran tersebut tidak jelas. Anda dapat memahami masalah dan meningkatkan kualitas definisi bagian.

Kelengkapan

Berdasarkan petunjuk dalam definisi bagian ringkasan buatan AI, evaluasi otomatis ringkasan menerapkan rubrik untuk menilai kelengkapan ringkasan. Skor rendah berarti ringkasan tidak memiliki informasi penting dari transkrip.

Berikut adalah contoh hasil kelengkapan:

[
  {
        'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue  or request'?",
        'content_list': [
    {
        'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.',
        'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.',
        'is_covered': 'True'
    },
    {
        'transcript_content': 'The agent clarified that the arrival window information is sent via text message.',
        'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message',
        'is_covered': 'True'
    },
    {
        'transcript_content': "The agent confirmed the phone number is 123-456-7890.",
        'related_content_from_summary': "and confirmed the phone number is 123-456-7890.",
        'is_covered': 'True'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?",
        'content_list': [
    {
        'transcript_content': 'The ABC appointment is on June 2nd.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?",
        'content_list': [
    {
        'transcript_content': 'The appointment is for a Google Pixel.',
        'related_content_from_summary': '',
        'is_covered': 'False'
    } ]
  },
  {
        'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?",
        'content_list': []
  },
  {
        'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?",
        'content_list': []
  }
]

Contoh sebelumnya menyajikan skenario berikut:

  • Jika ringkasan mencakup konten terkait dari transkrip, parameter biner is_covered disetel ke True.
  • Jika ringkasan tidak mencakup konten terkait dari transkrip, parameter related_content_from_summary terdiri dari string kosong yang menandakan bahwa ringkasan tidak mengekstrak poin yang relevan. Hal ini pada gilirannya akan mengurangi skor akhir dan skor kelengkapan rubrik tersebut. Selain itu, parameter biner is_covered disetel ke False.
  • Jika tidak ada konten yang terkait dengan pertanyaan dalam transkrip, parameter content_list terdiri dari daftar kosong, yang tidak mengurangi kualitas ringkasan. Skor gabungan akhir tidak menyertakan kasus ini.

Setiap pertanyaan dalam contoh berasal dari deskripsi tugas yang diberikan. Informasi yang relevan dari transkrip disertakan sebagai nilai parameter transcript_content. Parameter biner is_covered menampilkan hasil kelengkapan titik tertentu ini dan related_content_from_summary menampilkan buktinya. Jika ada pertanyaan yang tidak sesuai dengan sasaran Anda, definisi bagian ringkasan Anda tidak jelas. Pahami masalahnya dan tingkatkan definisi bagian Anda.