[AI医学] llm-medical-data:用于大模型微调训练的医疗数据集

文章提供了多个用于大模型微调的医疗数据集资源,包括不同科室的医学对话数据、JSON和CSV格式的数据,以及如何生成和使用这些数据的说明。这些数据集可用于训练和优化聊天机器人或AI医疗咨询系统。

关键词: 医疗数据集,大模型微调训练

开源项目:llm-medical-data 用于大模型微调训练的医疗数据集

项目地址https://github.com/donote/llm-medical-data

该项目主要参考了几篇关于医学领域大模型的论文或项目中的医疗大模型微调项目,收集整理项目涉及到的微调样本数据,数据说明如下:

1. chinese_medical_dialogue_data

源地址:https://github.com/Toyhom/Chinese-medical-dialogue-data

  • 文件名及对应的样本量:
文件名 样本量
IM_内科.csv 307,596
andriatria_男科.csv 113,877
obgyn_妇产科.csv 229,706
oncology_肿瘤科.csv 96,627
pediatric_儿科.csv 117,099
surgical_外科.csv 149,576
  • 数据格式:utf8编码,csv格式,具体见样例
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值