L'évaluation automatique de la synthèse (auto-évaluation) utilise l'IA générative pour évaluer la qualité des résumés générés par l'IA en fonction de leur précision, de leur exhaustivité et de leur conformité.
Parfois, les scores de conformité et d'exhaustivité affichent la mention N/A.
- La conformité n'évalue que les résumés qui utilisent des sections personnalisées. Si un résumé utilise des sections prédéfinies, le score est N/A.
- L'exhaustivité n'évalue que les résumés non catégoriels avec du texte libre. Si un résumé utilise des valeurs catégorielles, le score est N/A.
Précision
La précision mesure dans quelle mesure un résumé correspond aux détails factuels de la transcription de la conversation. Pour chaque résumé, l'auto-évaluation détermine un pourcentage d'exactitude, ainsi qu'une justification correspondante. Un faible score de précision signifie qu'il y a des problèmes factuels dans le résumé.
Les résultats de précision se présentent comme suit :
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- Chaque
pointde l'exemple précédent est une partie décomposée du résumé. Le paramètre binaireis_accurateaffiche le résultat de l'évaluation de la précision. Le paramètreaccuracyfournit la justification.
Conformité
L'auto-évaluation de la synthèse applique un ensemble de questions au résumé fourni. Elle utilise ces questions et la transcription de la conversation pour évaluer la conformité du résumé à chaque instruction. Toutefois, l'auto-évaluation de la synthèse repose sur Gemini, qui peut ne pas vérifier avec précision les instructions grammaticales. Par conséquent, l'auto-évaluation de la synthèse peut ne pas évaluer avec précision si un résumé respecte les instructions grammaticales.
Un faible score de conformité signifie que le résumé ne respecte pas les instructions fournies dans la définition de la section du résumé. Seuls les résumés qui utilisent des sections personnalisées peuvent générer un score de conformité.
Pour la conformité, l'auto-évaluation de la synthèse reconnaît les deux types de tâches de résumé suivants :
- Résumés catégoriels : fournissent une valeur catégorielle définie dans les instructions. Par exemple, les instructions demandent une réponse Ensoleillé ou Nuageux. L'auto-évaluation vérifie si le résumé ne fournit que Ensoleillé ou Nuageux sans texte descriptif.
- Résumés non catégoriels : fournissent du texte au format libre. L'auto-évaluation vérifie si un résumé non catégoriel suit les instructions définies dans la description de la tâche.
Les résultats de conformité se présentent comme suit :
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
Chaque question est dérivée de la définition de la section de résumé fournie. Le paramètre binaire
is_addressedaffiche le résultat de l'évaluation de la conformité. Le paramètrereasoningfournit une justification.Si des questions ne sont pas alignées sur votre objectif, la définition de la section de résumé de cet objectif n'était pas claire. Vous pouvez comprendre le problème et améliorer vos définitions de section.
Exhaustivité
En fonction des instructions de la définition de section d'un résumé généré par l'IA, l'auto-évaluation de la synthèse applique des rubriques pour évaluer l'exhaustivité du résumé. Un faible score signifie que le résumé ne contenait pas d'informations importantes de la transcription.
Voici un exemple de résultats d'exhaustivité :
[ { 'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue or request'?", 'content_list': [ { 'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.', 'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.', 'is_covered': 'True' }, { 'transcript_content': 'The agent clarified that the arrival window information is sent via text message.', 'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message', 'is_covered': 'True' }, { 'transcript_content': "The agent confirmed the phone number is 123-456-7890.", 'related_content_from_summary': "and confirmed the phone number is 123-456-7890.", 'is_covered': 'True' } ] }, { 'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?", 'content_list': [ { 'transcript_content': 'The ABC appointment is on June 2nd.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?", 'content_list': [ { 'transcript_content': 'The appointment is for a Google Pixel.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?", 'content_list': [] }, { 'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?", 'content_list': [] } ]
L'exemple précédent présente les scénarios suivants :
- Si le résumé couvre le contenu associé de la transcription, le paramètre binaire
is_coveredest défini surTrue. - Si le résumé ne couvre pas le contenu associé de la transcription, le paramètre
related_content_from_summarycomprend une chaîne vide indiquant que le résumé n'a pas extrait les points pertinents. Cela réduit à son tour le score final et le score d'exhaustivité de cette rubrique. De plus, le paramètre binaireis_coveredest défini surFalse. - Si aucun contenu n'est lié à la question dans la transcription, le paramètre
content_listcomprend une liste vide, ce qui ne pénalise pas le résumé. Le score agrégé final n'inclut pas ce cas.
Chaque question de l'exemple est dérivée de la description de la tâche fournie. Les informations pertinentes de la transcription sont incluses en tant que valeur du paramètre transcript_content. Le paramètre binaire is_covered affiche le résultat d'exhaustivité de ce point particulier, et related_content_from_summary affiche la preuve. Si des questions ne sont pas alignées sur votre objectif, la définition de la section de votre résumé n'était pas claire. Comprenez le problème et améliorez votre définition de section.