Robust (Controlled) Table-to-Text Generation with Structure-Aware Equivariance Learning

最新推荐文章于 2025-02-13 11:24:24 发布

原创

最新推荐文章于 2025-02-13 11:24:24 发布 · 772 阅读

标签

#人工智能 #机器学习

文章提出了LATTICE框架，通过结构感知的自注意力机制和转换不变的位置编码增强表到文本生成的模型，特别是针对内容不变的表转换的鲁棒性。LATTICE改进了T5模型在ToTTo和HiTab数据集上的性能，并在内容不变的表转换中保持稳定。

摘要

可控的表到文本生成目的在于为表中需要强调的部分生成自然语言描述。目前（2022.05）的SOTA仍采用序列到序列的生成方法，该方法仅将表捕获为线性结构，并且在表布局改变时表现得很脆弱。我们试图通过（1）有效的表达表中内容块的关系，（2）使得我们的模型对内容不变的结构转换具有鲁棒性这两个改进来超越原本的范式。因此，我们提出了等效方差学习（equivariance learning）框架LATTICE，它使用结构感知的自注意力机制对表进行编码。这个机制把全自注意力结构剪枝成一个顺序不变的图注意力结构，该图注意力捕获属于同一行或同一列单元格的连通图结构，并从结构角度区分相关和不相关单元格。我们的框架还修改了位置编码机制，以保留同意单元格的tokens的相对位置，但强制保留不同单元格之间的位置不变性。我们的技术可以免费插入到现有表到文本生成模型中，并改进了T5-base模型以在ToTTo和HiTab数据集上提供更好的性能。此外，在ToTTo的harder版本上，我们保证了普通版本的性能，而以前的SOTA即使具有基于转换的数据增强，也会出现显著的性能下降。

1.简介

表到文本生成旨在为表中的内容和相关结论生成自然语言描述。它不仅使无处不在的表格数据更容易被发现和访问，而且还支持表格语义检索、推理、事实检测、表辅助的问答等下游任务。虽然丰富多样的事实可以在表格中呈现，但受控的表到文本生成任务(为表格的突出显示子部分生成重点文本描述)最近引起了广泛关注。
先前关于受控的表到文本生成研究通常采用序列到序列的生成方法，该方法仅将表捕获为线性结构。然而，表格布局虽然被先前的研究忽略了，但从两个角度来看，它是生成的关键。首先，表格布局指出了共同呈现事实的单元格之间的关系，然而线性化的表格并不能简单地捕获这些关系。例如，如果我们将下图中的第一个表按行线性化，Wai Siu-bo同时与Royal Tramp和King of Beggers相邻，以至于不清楚这个角色属于哪部电影。
在这里插入图片描述
其次，相同的内容可以等效地表达在不同布局的表格中。虽然线性化简化了布局表示，但当表布局改变时，它会导致脆弱的生成。图中为两张内容相同但布局不同的表，由T5生成的两张表在很大程度上不一致。
在本文中，我们通过结合结构感知和转换不变性两个特性来改进受控表到文本生成系统。结构感知(structure -awareness)试图理解由表结构指示的单元格关系，对于捕获上下文化的单元格信息至关重要。转换不变性(Transformationinvariance)旨在使模型对内容不变的结构转换(包括转置、行变换和列变换)不敏感，这对模型的鲁棒性至关重要。然而，将结构感知和转换不变性整合到现有的生成神经网络中并非易事，特别是在尽可能保留预训练模型的生成能力时。
我们使用等效方差学习框架，即布局感知和转换不变的受控表到文本生成(Layout Aware and TransformaTion Invariant Controlled Table-to-Text GEneration，LATTICE），在预训练的生成模型上加强表布局意识和内容不变结构转换的鲁棒性。LATTICE使用变换不变图掩码机制对表进行编码。
它用顺序不变的图注意力机制来代替全注意力机制，用以捕获相同行或相同列的单元格的连接图以及从结构视角的相关或不相关单元格的差异。LATTICE还修改了位置编码机制，以保留同一单元格内标记的相对位置，但强制不同单元格之间的位置不变性。
我们的贡献有三方面。首先，我们提出了精确且鲁棒的受控表到文本生成系统的两个基本属性，即结构感知和转换不变性。其次，我们证明了我们的变换不变图掩码技术如何加强这两个属性，并有效地增强一组具有代表性的基于transformer的生成模型，例如T5-base模型，以实现更好的泛化性和准确的生成。第三，除了在ToTTo和HiTab基准上的实验之外，我们还在ToTTo的harder版本上评估了我们的模型，特别关注对内容不变结构转换的鲁棒性。

2.方法

在本节中，我们将首先介绍内容不变的表转换、基本模型和受控表到文本生成的输入格式(§2.1)。然后我们介绍了LATTICE中的变换不变图掩码技术如何使模型具有结构感知和变换不变的技术细节(§2.2)。最后，我们提出了两种增强变换不变性的备选技术，并与LATTICE(§2.3)进行比较。

2.1 预备知识

内容不变的表转换
表按行和列组织和显示信息。一条信息以单元格(带有标题)的形式呈现，单元格是表的基本单元。行和列是高级单位，表示单元格之间的关系，并结合起来表示更全面的信息。我们讨论可以在表上进行的两类转换，如图2所示。
首先，内容变化的转换修改或交换不同行或列中的部分单元格，因此改变了表的语义。在这种情况下，创建新的表格内容来表示与原始表不一致的信息。其次，内容不变的转换由不影响内部内容的操作，同一行或同一列的组合，表示的是语义上相等的子集。具体包括转置、行变换和列变换。通过执行这些操作的一种或多种，我们可以在不同的表布局中表示相同的信息。
基本模型
预训练的基于transformer的生成模型在各种文本生成任务上实现SOTA性能(Raffel等人，2020;刘易斯等人，2020)。为了使这种模型能应用到表到文本的生成，先前的工作提出将表线性化成文本序列(Kale和Rastogi, 2020;Chen et al.， 2020b;Su等人，2021)。我们的方法LATTICE是模型不可知的，可以被纳入到任何这样的模型中。继Kale和Rastogi(2020)之后，我们选择了一个表现最好的模型家族T5 (Raffel et al.， 2020)作为我们的基本模型。这个家族的模型在一系列监督和自监督的文本到文本任务上进行联合预训练。模型可以通过在输入前添加特定于任务的前缀来在不同的任务之间切换。我们的实验指出，基本模型对于内容不变的表转换是脆弱的，并且只能捕获有限的布局信息。
输入格式
之前的工作(Kale和Rastogi，2020;Chen et al.， 2020b;Su等人，2021)线性化
(突出显示)基于行和列索引的表单元格。输入序列通常从表的元数据开始，例如页标题和节标题。然后，它按行从左上单元格遍历到右下单元格。每个单元格的标题可以作为单独的单元格处理，也可以附加到单元格内容中。每个元数据/单元格/头部都用特殊的标记分开。这种线性化过程适合文本到文本生成模型的输入，但会丢弃表的大部分结构信息(例如，同一列中的两个单元格可以用序列中不相关的单元格分隔，而相邻行中的最后一个单元格和第一个单元格可以相邻，尽管它们是不相关的)，并且对内容不变的表转换非常敏感。

2.2 转换不变的图掩码

LATTICE通过修改Transformer编码器架构来实现等值学习。它还提高了基本模型捕获突出显示的表格内容结构的能力。具体来说，我们在基本模型中加入了结构感知的自注意机制和转换不变的位置编码机制工作流程如图3所示。
在这里插入图片描述

结构感知的自注意力机制
Transformer采用自注意力来聚合输入序列中所有token的信息。注意流形成一个连接每个标记的完整图。这种机制适用于序列建模，但不能捕获表状结构。非线性的布局结构反映了单元格之间的语义关系，因此应该被自注意力捕获。
我们通过修剪注意流来合并结构信息。根据表中信息排列的性质，不是同一行或同一列中的两个单元格在语义上没有关联，或者至少它们的组合不能直接表达该表想要传达的信息。直观地说，这些单元格的表示不应该直接相互传递信息。在LATTICE中，从注意图中移除结构不相关的单元格标记之间的注意流，即使他们在元数据中，或者在每个单元格内以及元数据和每个单元格之间都被保存。这样，我们也保证了自注意力机制的变换不变性，因为在注意力图中，同一行或同列的相关单元格都是以无序的方式链接的。容易发现，对于任何一个单元格，在应用任何内容不变操作后，注意力图中的链接将保持不变。
转换不变的位置编码
当计算每对标记之间的注意力得分时，基本模型将它们在线性化表序列中的相对位置作为有影响的特征。具体来说，从第 $i$ 个token到第 $j$ 个token的注意力流与相对位置 $P_{i j}=|i-j|$ 配对。这很容易导致不同单元格之间的位置偏差，因为序列中的相对位置不能完全反映表中单元格之间的关系。而且，同一令牌对之间的相对位置会随着表布局的改变而改变，这就是图1所示产生不一致的根源。
如§2.1所述，对于给定的单元格，它与同行或同列的其他单元格的关系应同等考虑。很自然的根据给同行或者同列(tokens)单元格分配相同的相对位置，无论它们在线性序列中的距离有多远。同时，我们保留同一单元格(或元数据)内标记的相对位置。具体地说，输入序列中第i个令牌和第j个令牌之间的相对位置为
$P_{i j}=P_{j i}= \begin{cases}|i-j|, & \text { if in the same field } \\ P_{\max }, & \text { otherwise }\end{ca$

最低0.47元/天解锁文章