LLaMA-Factory训练数据集

原创已于 2024-09-22 21:04:32 修改 · 2.5k 阅读

19 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#LLaMA-Factory #微调

于 2024-09-22 21:01:17 首次发布

大模型专栏收录该内容

28 篇文章

订阅专栏

Step3-VL-10B-Base阶跃星辰轻量级多模态基础模型

视觉理解：图像识别、OCR、实体定位、计数、空间理解、GUI 交互多模态推理：看图问答、图文理解、复杂逻辑推理（STEM、数学、代码）

1.指令监督微调数据集

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "output": "模型回答（必填）",
    "system": "系统提示词（选填）",
    "history": [
      ["第一轮指令（选填）", "第一轮回答（选填）"],
      ["第二轮指令（选填）", "第二轮回答（选填）"]
    ]
  }
]

对于上述格式的数据， dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "system": "system",
    "history": "history"
  }
}

2.预训练数据集

[
  {"text": "document"},
  {"text": "document"}
]

对于上述格式的数据， dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "text"
  }
}

3.偏好数据集

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "chosen": "优质回答（必填）",
    "rejected": "劣质回答（必填）"
  }
]

对于上述格式的数据，dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "ranking": true,
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "chosen": "chosen",
    "rejected": "rejected"
  }
}

4.多模态数据集

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "output": "模型回答（必填）",
    "images": [
      "图像路径（必填）"
    ]
  }
]

对于上述格式的数据， dataset_info.json 中的 数据集描述 应为：

"数据集名称": {
  "file_name": "data.json",
  "columns": {
    "prompt": "instruction",
    "query": "input",
    "response": "output",
    "images": "images"
  }
}

您可能感兴趣的与本文相关的镜像