总结自动评估(自动评估)使用生成式 AI 根据准确性、完整性和一致性来评估 AI 生成的摘要的质量。
有时,依从性和完整性得分会显示为不适用。
- 依从性仅评估使用自定义部分的摘要。如果摘要使用预构建的部分,则得分为 N/A。
- 完整性仅评估包含自由格式文本的非类别型摘要。如果摘要使用类别型值,则得分为 N/A。
准确率
准确性用于衡量摘要与对话转录的实际细节的贴合程度。对于每个摘要,自动评估会确定正确百分比以及相应的理由。如果准确度得分较低,则表示摘要中存在事实性问题。
准确率结果如下所示:
{ "decomposition": [ { "point": "The customer wants to cancel their subscription.", "accuracy": "This is accurate. The customer calls to get support of cancelling their subscription.", "is_accurate": true }, { "point": "The customer asks about a $30 credit.", "accuracy": "This is inaccurate. The customer mentioned $10.", "is_accurate": false } ] }
- 上例中的每个
point都是摘要的分解部分。二元形参is_accurate显示准确率评估结果。accuracy形参提供理由。
依从性
总结自动评估功能会针对提供的总结提出一组问题。自动评估功能会使用这些问题和对话转写内容来评估总结是否符合每条指令。不过,总结自动评估功能依赖于 Gemini,而 Gemini 可能无法准确验证语法指令。因此,总结自动评估功能可能无法准确评估总结是否符合语法指令。
较低的遵从度得分表示摘要未能遵循摘要部分定义中提供的说明。只有使用自定义部分的摘要才能生成遵从度得分。
对于一致性,总结自动评估可识别以下两种类型的总结任务:
- 分类摘要:提供说明中定义的分类值。例如,指令要求回答“晴天”或“阴天”。自动评估会检查提供的摘要是否仅包含晴或阴,而没有描述性文字。
- 非类别总结:提供自由形式的文本。自动评估会检查非类别摘要是否遵循任务说明中定义的指令。
依从性结果如下所示:
(Categorical): { "rubrics": [ "question": "Does the summary follow the instruction and return only one of the allowed categorical values?", "reasoning": "The summary is not a categorical value. It contains descriptive text instead of providing only one of the allowed categorical values.", "is_addressed": "False" ] } (Noncategorical): { "rubrics": [ { "question": "Does the summary follow the instruction 'State the product name being returned'?", "reasoning": "Summary followed instruction. It correctly stated the product name, for example: 'return the \\'Stealth Bomber X5\\' gaming mouse'.", "is_addressed": "True" } ] }
每个问题都源自提供的摘要部分定义。二元形参
is_addressed显示的是一致性评估结果。形参reasoning提供的是理由。如果任何问题与您的目标不一致,则说明相应目标的摘要部分定义不明确。您可以了解问题并改进版块定义。
完整性
根据 AI 生成的摘要的章节定义中的说明,总结自动评估功能会应用评分标准来评估摘要的完整性。如果得分较低,则表示摘要缺少转写内容中的重要信息。
以下是完整性结果的示例:
[ { 'question': "Does the summary follow 'Describe the specific actions the agent took to assist the customer with their issue or request'?", 'content_list': [ { 'transcript_content': 'The agent provided the customer with the arrival window for the ABC appointment.', 'related_content_from_summary': 'The agent, Robyn, provided the customer with the arrival window for the ABC appointment, which is from 01:30 PM to 2:45 PM.', 'is_covered': 'True' }, { 'transcript_content': 'The agent clarified that the arrival window information is sent via text message.', 'related_content_from_summary': 'The agent also clarified that the arrival window information is sent via text message', 'is_covered': 'True' }, { 'transcript_content': "The agent confirmed the phone number is 123-456-7890.", 'related_content_from_summary': "and confirmed the phone number is 123-456-7890.", 'is_covered': 'True' } ] }, { 'question': "Does the summary follow 'Identify any dates explicitly mentioned by the agent or the customer'?", 'content_list': [ { 'transcript_content': 'The ABC appointment is on June 2nd.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Identify the brand and any relevant specifications mentioned in the conversation'?", 'content_list': [ { 'transcript_content': 'The appointment is for a Google Pixel.', 'related_content_from_summary': '', 'is_covered': 'False' } ] }, { 'question': "Does the summary follow 'Describe any updates the agent made, such as price, address, or order updates'?", 'content_list': [] }, { 'question': "Does the summary follow 'Extract the customer's order number and include it in the summary'?", 'content_list': [] } ]
上述示例展示了以下场景:
- 如果摘要涵盖了转写中的相关内容,则二进制参数
is_covered会设置为True。 - 如果摘要未涵盖转写中的相关内容,则
related_content_from_summary参数包含一个空字符串,表示摘要未提取相关要点。这反过来会降低最终得分和相应评分标准的完整性得分。此外,二元形参is_covered设置为False。 - 如果转写内容中没有与问题相关的内容,则
content_list参数包含一个空列表,这不会影响摘要。最终的汇总得分不包含此情况。
示例中的每个问题都源自提供的任务说明。转写中的相关信息会作为 transcript_content 参数的值包含在内。二元参数 is_covered 显示相应点的完整性结果,related_content_from_summary 显示证明。如果任何问题与您的目标不符,则说明您的摘要部分定义不明确。请了解问题并改进部分定义。