La valutazione automatica del riepilogo (autovalutazione) utilizza l'AI generativa per valutare la qualità dei riepiloghi generati dall'AI in base ad accuratezza, completezza e aderenza.
A volte, i punteggi di aderenza e completezza mostrano N/D.
- L'aderenza valuta solo i riepiloghi che utilizzano sezioni personalizzate. Se un riepilogo utilizza sezioni predefinite, il punteggio è N/D.
- La completezza valuta solo i riepiloghi non categorici con testo in formato libero. Se un riepilogo utilizza valori categorici, il punteggio è N/D.
Accuratezza
L'accuratezza misura la corrispondenza di un riepilogo con i dettagli fattuali della trascrizione della conversazione. Per ogni riepilogo, l'autovalutazione determina una percentuale di correttezza, insieme a una giustificazione corrispondente. Un punteggio di accuratezza basso indica che nel riepilogo sono presenti problemi fattuali.
I risultati di accuratezza sono simili ai seguenti:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Ogni
pointnell'esempio precedente è una parte scomposta del riepilogo. Il parametro binariois_accuratemostra il risultato della valutazione dell'accuratezza. Il parametroaccuracyfornisce la giustificazione.
Aderenza
L'autovalutazione del riepilogo applica una serie di domande al riepilogo fornito. L'autovalutazione utilizza queste domande e la trascrizione della conversazione per valutare la conformità del riepilogo a ogni istruzione. Tuttavia, l'autovalutazione del riepilogo si basa su Gemini, che potrebbe non verificare con precisione le istruzioni grammaticali. Pertanto, l'autovalutazione del riepilogo potrebbe non valutare con precisione se un riepilogo rispetta le istruzioni grammaticali.
Un punteggio di aderenza basso indica che il riepilogo non rispetta le istruzioni fornite nella definizione della sezione del riepilogo. Solo i riepiloghi che utilizzano sezioni personalizzate possono generare un punteggio di aderenza.
Per l'aderenza, l'autovalutazione del riepilogo riconosce i seguenti due tipi di attività di riepilogo:
- Riepiloghi categorici: fornisci un valore categorico definito nelle istruzioni. Ad esempio, le istruzioni richiedono una risposta Soleggiato o Nuvoloso. L'autovalutazione controlla se il riepilogo fornito contiene solo Soleggiato o Nuvoloso senza testo descrittivo.
- Riepiloghi non categorici: fornisci testo in formato libero. L'autovalutazione controlla se un riepilogo non categorico segue le istruzioni definite nella descrizione dell'attività.
I risultati di aderenza sono simili ai seguenti:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Ogni domanda deriva dalla definizione della sezione del riepilogo fornita. Il parametro binario
is_addressedmostra il risultato della valutazione dell'aderenza. Il parametroreasoningfornisce una giustificazione.Se alcune domande non sono in linea con il tuo obiettivo, la definizione della sezione del riepilogo di quell'obiettivo non era chiara. Puoi comprendere il problema e migliorare le definizioni delle sezioni.
Completezza
In base alle istruzioni nella definizione della sezione di un riepilogo generato dall'AI, l'autovalutazione del riepilogo applica le rubriche per valutare la completezza del riepilogo. Un punteggio basso indica che nel riepilogo mancavano informazioni importanti della trascrizione.
Di seguito è riportato un esempio di risultati di completezza:
[ { 'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue or request'?", 'content_list': [ { 'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.', 'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.', 'is_covered': 'True' }, { 'transcript_content': 'The agent clarified that the arrival window information is sent via text message.', 'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message', 'is_covered': 'True' }, { 'transcript_content': "The agent confirmed the phone number is 123-456-7890.", 'related_content_from_summary': "and confirmed the phone number is 123-456-7890.", 'is_covered': 'True' } ] }, { 'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?", 'content_list': [ { 'transcript_content': 'The ABC appointment is on June 2nd.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?", 'content_list': [ { 'transcript_content': 'The appointment is for a Google Pixel.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?", 'content_list': [] }, { 'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?", 'content_list': [] } ]
L'esempio precedente presenta i seguenti scenari:
- Se il riepilogo copre i contenuti correlati della trascrizione, il parametro binario
is_coveredè impostato suTrue. - Se il riepilogo non copre i contenuti correlati della trascrizione, il parametro
related_content_from_summarycomprende una stringa vuota che indica che il riepilogo non ha estratto i punti pertinenti. Questo, a sua volta, riduce il punteggio finale e il punteggio di completezza della rubrica. Inoltre, il parametro binariois_coveredè impostato suFalse. - Se nella trascrizione non sono presenti contenuti correlati alla domanda, il parametro
content_listcomprende un elenco vuoto, che non penalizza il riepilogo. Il punteggio aggregato finale non include questo caso.
Ogni domanda nell'esempio deriva dalla descrizione dell'attività fornita. Le informazioni pertinenti della trascrizione sono incluse come valore del parametro transcript_content. Il parametro binario is_covered mostra il risultato di completezza di questo punto specifico e related_content_from_summary mostra la prova. Se alcune domande non sono in linea con il tuo obiettivo, la definizione della sezione del riepilogo non era chiara. Comprendi il problema e migliora la definizione della sezione.