关键词: 医疗数据集,大模型微调训练
开源项目:llm-medical-data 用于大模型微调训练的医疗数据集
项目地址:https://github.com/donote/llm-medical-data
该项目主要参考了几篇关于医学领域大模型的论文或项目中的医疗大模型微调项目,收集整理项目涉及到的微调样本数据,数据说明如下:
1. chinese_medical_dialogue_data
源地址:https://github.com/Toyhom/Chinese-medical-dialogue-data
- 文件名及对应的样本量:
| 文件名 | 样本量 |
|---|---|
| IM_内科.csv | 307,596 |
| andriatria_男科.csv | 113,877 |
| obgyn_妇产科.csv | 229,706 |
| oncology_肿瘤科.csv | 96,627 |
| pediatric_儿科.csv | 117,099 |
| surgical_外科.csv | 149,576 |
- 数据格式:utf8编码,csv格式,具体见样例

文章提供了多个用于大模型微调的医疗数据集资源,包括不同科室的医学对话数据、JSON和CSV格式的数据,以及如何生成和使用这些数据的说明。这些数据集可用于训练和优化聊天机器人或AI医疗咨询系统。

1943

被折叠的 条评论
为什么被折叠?



