(四)数据准备

你需要的数据是什么样的

  1. 高质量:符合你任务的正确输入输出

  2. Diversity:如果输入输出很相似,模型很可能会记住这些信息,模型只会一直回答相似的内容

  3. Real:最好使用真实的数据,特别是在写作中,因为生成的数据总会有一些特定的模式

  4. More:数据量越大越好

数据收集的步骤

Tokenize:padding&truncation

每个分词器实际上和特定的模型相关联,确保使用了正确的分词器。否则模型的词典和tokenizer的词典不然不一样,会出大事。

例如:text -> [encoder] -> tokenized_text -> [decoder] -> [text(decoded_text)]

此外,对模型来说,批次中所有内容(不同句子)的长度是一样的是非常重要的。这就引入了”padding“的概念:

当然,现实中,你不可能来者不拒,任何长度你都要介绍。所以,引入了截断的概念”truncation“。 你可以选择从左边截断或者从右边截断,自定义截断长度。

确定截断的长度(max_length)的方式可以是,所有tokenizer之后的所有decoded text里面的最大长度,也可以是固定一个长度

使用map函数来批量进行toke处理

分割数据集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值