[AI医学] llm-medical-data:用于大模型微调训练的医疗数据集

最新推荐文章于 2026-04-26 15:57:04 发布

原创

最新推荐文章于 2026-04-26 15:57:04 发布 · 3.8k 阅读

标签

#人工智能

收录于

文章提供了多个用于大模型微调的医疗数据集资源，包括不同科室的医学对话数据、JSON和CSV格式的数据，以及如何生成和使用这些数据的说明。这些数据集可用于训练和优化聊天机器人或AI医疗咨询系统。

关键词：医疗数据集，大模型微调训练

开源项目：llm-medical-data 用于大模型微调训练的医疗数据集

项目地址：https://github.com/donote/llm-medical-data

该项目主要参考了几篇关于医学领域大模型的论文或项目中的医疗大模型微调项目，收集整理项目涉及到的微调样本数据，数据说明如下：

1. chinese_medical_dialogue_data

源地址：https://github.com/Toyhom/Chinese-medical-dialogue-data

文件名及对应的样本量：

文件名	样本量
IM_内科.csv	307,596
andriatria_男科.csv	113,877
obgyn_妇产科.csv	229,706
oncology_肿瘤科.csv	96,627
pediatric_儿科.csv	117,099
surgical_外科.csv	149,576

数据格式：utf8编码，csv格式，具体见样例

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

晨阳2023

关注关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

llm-medical-data用于大模型微调训练的医疗数据集_llm-medical-data.zip

09-15

llm-medical-data用于大模型微调训练的医疗数据集_llm-medical-data

参与评论您还未登录，请先登录后发表或查看评论

llm-medical-data 大型模型微调训练用医疗数据集

06-19

llm-medical-data 是用于大模型微调训练的医疗数据集。内容来源于网络分享，如有侵权请联系我删除。

炮炮寻找数据集的坎坷之路2——UCI数据集Heart Disease

weixin_48137421的博客

07-22

1943

基于CNN、RNN、LSTM等深度学习模型来预测心血管疾病

LLM数据集格式解析与Hugging Face最佳实践

最新发布

weixin_42453228的博客

04-26

212

在自然语言处理（NLP）领域，数据集格式是模型训练的基础环节。JSON Lines、CSV和Parquet等格式各有优劣：JSON Lines支持流式读取且内存效率高，CSV需注意文本分隔符问题，而Parquet在加载速度和存储空间上表现突出。正确选择数据格式能显著提升训练效率，例如使用明确定义的Features可使训练速度提升15%。Hugging Face数据集工具链（如DatasetDict和内存映射技术）为处理超大规模数据提供了工程实践方案。本文通过性能对比和实战案例，详解如何避开数据格式陷阱，实现

[论文笔记] LLM数据集——金融数据集

心宝的博客

07-24

1961

【代码】[论文笔记] LLM数据集——金融数据集。

[AI医学] 医学领域几个微调&预训练大模型的项目

chenyang2203的博客

05-15

8731

一是对海量领域数据继续进行生成式语言模型预训练（continue pretrain）；二是在通用大模型的基础上引入领域数据进行指令微调训练（通用大模型底座+领域数据指令微调）；生成式语言模型继续预训练对数据量和计算资源的要求较高，目前大部分项目的工作多是集中在对通用模型进行领域数据指令微调训练。在指令微调训练方面，差异性的工作主要表现在「领域样本数据的生成」（如各种self-instruct生成样本）和「低资源训练」上（如各种PEFT方法进行部分参数的微调）。医学领域大模型建设是有其必要性的。

使用QLoRA微调医疗领域LLM：专业数据集处理与评估

gitblog_00170的博客

03-13

1049

QLoRA（Quantized Low-Rank Adaptation）是一种高效的量化大型语言模型（LLM）微调技术，能够在消费级GPU上实现对7B-65B参数模型的微调。本文将详细介绍如何使用QLoRA技术针对医疗领域LLM进行微调，包括专业数据集处理流程和评估方法，帮助开发者快速掌握医疗AI模型的优化技巧。 ## 为什么选择QLoRA进行医疗LLM微调？医疗领域LLM需要处理专业术语密

【LLM】医疗大语言模型：CareGPT

2401_82469710的博客

08-13

1231

CareGPT (关怀GPT)是一个医疗大语言模型，同时它集合了数十个公开可用的医疗微调数据集和开放可用的医疗大语言模型，包含LLM的训练、测评、部署等以促进医疗LLM快速发展。

探索合成数据，在医学视觉语言预训练中的应用可行性

Debroon

10-30

1155

医学视觉语言预训练在医学图像理解的零样本任务中展现出巨大潜力。但是,这类模型的训练需要大量高质量的图像-文本配对数据,而医疗领域恰恰缺乏此类数据。随着大语言模型和扩散模型的发展,我们现在可以大规模生成合成的图像-文本数据对。这让我们不禁思考:是否可以仅使用合成数据来训练医学视觉语言模型?为探索这个问题,我们利用现有的生成模型创建了合成的放射学报告和对应的胸部X光图像。我们设计了一套自动化流程来构建一个多样化、高质量的合成数据集,这使我们能够专注于研究数据本身对模型性能的影响。

【LLM大模型】医疗大语言模型：CareGPT

Langchain的博客

06-30

561

LLM - Baichuan7B Tokenizer 生成训练数据

BITDDD小栈

07-11

2282

AIGC - Lora baichuan7B 之原始训练数据 tokenizer

meta大模型llama系列数据集合-医疗养生问题生成模型数据训练集

05-25

meta大模型llama系列（llama2，llama3）数据集合-医疗养生问题生成模型数据训练集

大模型微调方法（非常详细），收藏这一篇就够了！

bagell的博客

09-28

3116

众所周知，大语言模型(LLM)正在飞速发展，各行业都有了自己的大模型。其中，大模型微调技术在此过程中起到了非常关键的作用，它提升了模型的生成效率和适应性，使其能够在多样化的应用场景中发挥更大的价值。那么，今天这篇文章就带大家深入了解大模型微调。其中主要包括什么是大模型微调、什么时候需要大模型微调、大模型微调方法总结、大模型微调最佳实践等。

【大模型微调】一文掌握7种大模型微调的方法

热门推荐

python123456_的博客

05-16

5万+

本篇文章深入分析了大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。大型语言模型(LLM)的训练过程通常分为两大阶段：阶段一：预训练阶段在这个阶段，大型模型会在大规模的无标签数据集上接受训练，目标是使模型掌握语言的统计特征和基础知识。

医疗大模型微调是什么？零基础入门到实战精通，看这篇就够了（收藏版）

youmaob的博客

07-16

1138

医疗大模型微调是什么？零基础入门到实战精通，看这篇就够了（收藏版）

大模型微调技术在医疗领域有哪些应用？

alankuo的专栏

09-06

472

1. 疾病辅助诊断：通过分析大量的医疗数据，包括病历、症状描述、检查结果等，大模型可以学习到疾病的模式和特征，从而为医生提供辅助诊断建议。6. 医学文献分析与知识发现：自动从大量医学文献中提取知识，识别重要的疾病信息、治疗方法和疾病 - 基因关联等，帮助医学研究人员迅速整合多个数据源的信息，提供有价值的医学知识，加速医学研究的进展。4. 医疗影像分析：除了辅助诊断，大模型还可以用于医疗影像的分割、配准、量化等任务，帮助医生更精确地评估影像中的病变区域和组织结构，为疾病的诊断和治疗提供更详细的信息。

强化学习曾小健

07-08

1747

它是医学模型、数据集、基准和跟踪会议截止日期的中心枢纽，促进了人工智能辅助医疗保健领域的合作、创新和进步。此外，随着电子健康记录 (EHR)、医学文献和患者生成的数据的指数级增长，LLM 可以帮助医疗保健专业人员提取有价值的见解并做出明智的决策。它不促进这些模型的分发、部署或临床使用。评估完成后，您的模型的得分将添加到排行榜中，以便您将其表现与其他提交的模型进行比较。如果您对人工智能与医疗保健的交叉点充满热情，对为医疗保健领域构建模型充满热情，并且关心医学法学硕士的安全和幻觉问题，我们邀请您加入我们。

医疗大模型微调是什么？医疗大模型微调入门到精通，收藏这一篇就够了！

2301_76168381的博客

05-19

2235

首先，整个项目的灵感源于一档名为《十字路口》的播客中分享的“2024年最令人惊艳的十大AI落地项目”之一。项目详情如下：某全国万店连锁药房推出驻店销售APP，可对到店客户的病情描述进行录音并转为文字输入大模型。大模型输出对应药品介绍及推销文案，辅助销售人员完成高利润药品的推荐。与传统AI辅助应用不同

聊聊大模型微调训练全流程的思考

2401_85325397的博客

06-06

1295

在预训练阶段，模型会从大量无标注文本数据集中学习领域/通用知识；其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令；最后使用对齐技术使LLM更有用更安全的响应用户的提示。