fairseq transformer训练中的一些问题

最新推荐文章于 2026-05-03 15:29:57 发布

原创最新推荐文章于 2026-05-03 15:29:57 发布 · 4.9k 阅读

18 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#fairseq #transformer #nlp

自然语言处理专栏收录该内容

4 篇文章

订阅专栏

本文探讨了fairseq中Transformer模型训练过程中数据的流向、Decoder的工作原理，以及源目标输入方式。在训练结束后，了解解码预测阶段如何通过Encoder和Decoder生成单词。解码时，根据min_len和max_len控制输出长度，决定何时结束翻译。

fairseq transformer训练中的一些问题

这两天看fairseq transformer的代码，并在服务器用transformer跑实验。今天遇到一些问题，和师兄进行了一些交流，记录下来。

另一篇梳理nlp中的一些英文名词的还在写，整理好再发布。

transformer中的数据的流向和形式的变化？

在训练前，数据基本都是以 $batch\_size*src\_len$ 的形式传入，即维度为（句子数，单词数）的一个矩阵。

假设现在有3个句子：

s1: I am a student.

s2: I like play basketball.

s3: I have a dog.

那么，在输入之前，src数据就是这样的形式：


I	am	a	student	.
I	like	play	basketball	.
I	have	a	dog	.

也就是按一句一行，每一行都有src_len个单词。不过真正传入的不是单词，而是单词的token，即在词典中的位置。

在传入模型之前，会对数据进行embedding操作。embedding简单来说就是对每个token进行以dim为维度的扩展。在《attention is all you need》中，dim即d_model = 512。如果把源数据视为一个长方形，那么经过embedding后，数据就变成了长方体，它的维度为 $batch\_size * src\_len * dim$ 。
接下来，经过positional embedding后（维度没变化），还需要进行一次transpose(0，1)的操作。可能是为了后面multihead attention，但具体还没看到，之后就进六层encode layer，然后输出。这中间没有变化。
之后进入decoder的过程和encoder一样，只不过decoder的输入包括两部分：prev_output_token和encoder_out，而prev_output_token是tgt数据，下面会介绍。
在经过decoder的6层layer之后，维度为 $batch\_size * src\_len * dim$ 。之后数据会经过decoder::output_layer()，映射成 $batch\_size * src\_len * dim$ 的维度。
查dictionary，把token转变成单词，最后经过loss等，之后进入下轮数据循环。

transformer::decoder部分运行完，是怎样变成一个个词的？

从transformer::decoder出来后，数据经过decoder::output_layer()，由原先的 $batch\_size * src\_len * dim$ 映射成了 $batch\_size * src\_len * dim$ 。这样，对于每个词都能在词典dictionary中找到对应的位置，进而确定是哪个单词。

transformer训练时，source和target是如何传入的？

假设有一对src和tgt，即src_token和tgt_token，那么，src_token将会传入encoder，然后经过encoder部分后，变成encoder_out 。而tgt_token则传入decoder的prev_output_tokens参数，进行计算。

由于transformer的并行性，所以会把一组句子以src_token和tgt_token的形式传入，这里也把这组数据称作一个batch，句子个数即batch_size。

在整个模型训练好之后，解码（predict）是个怎样的过程？

训练时是以维度为 $batch\_size * src\_len * dim$ 传入，在解码时，首先还是以 $batch\_size * src\_len * dim$ 的维度传入encoder，因为encoder的功能只是编码，所以仍然可以利用transformer的并行性。而decoder却不能像训练时一样一次输出一整个batch的单词，而是像RNN一样，每次只输出一个单词。但由于传入的是一个batch，所以实际上是在第i步输出第1到第batch_size句的第i个词。最终得出所有句子。
解码的时候，有两个参数，min_len和max_len，使输出长度控制在min_len和max_len之间。如果当前词的最大概率是时，而句长小于min-len，会选择概率第二大的词；同样如果句长到了max-len但当前词的最大概率不是,则会强制生成；如果最大概率是且句子长度在min-len到max-len之间，就生成并停止翻译。详见fairseq.sequence_generator.py的339行if step < max_len: ……，感谢一楼的指正。