deepseek快速体验(推理，微调，训练)

最新推荐文章于 2026-06-24 09:01:03 发布

原创

最新推荐文章于 2026-06-24 09:01:03 发布 · 518 阅读

标签

#deekseek #llama #llamafactory #大模型 #gpt

收录于

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

源码

源码：https://gitee.com/agricultureiot/agi/tree/master/deepseek
微调：https://gitee.com/agricultureiot/agi/tree/master/deepseek

ollama ， vllm，llama.cpp
等方式也可快速部署，但是无法微调和训练，只能推理使用(线上正式使用)，下面使用另一种简单的方式部署，可训练，微调，推理

环境

以下配置是最小配置，仅仅能运行起来，测试体验使用，无法并发

GPU显存 >= 24G
CUDA>=11.8，建议 12.1
python==3.10
nvcc -V 命令正确输出，并且版本匹配
CPU >= 16核
运行内存 >= 64G

创建 python 3.10 环境

conda create -n py310 python=3.10

下载框架

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e ".[torch,metrics]"
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 transformers==4.43.2 vllm==0.6.1 openai==1.61.0

设置环境变量，将 HuggingFace设置为ModelScope

export USE_OPENMIND_HUB=1 // 1=ModelScope，0=HuggingFace

下载模型到本地(下载小模型测试比较快)

最大模型需要800G运行内存，这里使用小模型

pip

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏，讲透 AI 如何接管脏活累活

一键订阅

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

深度物联网

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

【DeepSeek微调实践】DeepSeek-R1大模型基于MS-Swift框架部署/推理/微调实践大全

寻道AI，探索AI无限可能！

03-31

9817

MS - Swift 是一款专为大模型部署而精心打造的高效框架，具备出色的兼容性与丰富的功能特性。在模型类型支持上，无论是专注于文本处理的纯文本模型，还是融合文本、图像、音频等多种信息模态的多模态模型，亦或是擅长文本序列分类任务的序列分类模型，MS - Swift 均能为其提供适配的部署环境。另外在功能层面，MS - Swift 框架提供了基于 Gradio 的 Web UI。

参与评论您还未登录，请先登录后发表或查看评论

Python调用本地部署Deepseek源代码

02-08

755

对于非流式响应，直接解析并返回 JSON 中的响应内容。对于流式响应，逐行读取响应数据，将每行解码并解析为 JSON，然后提取并拼接响应部分，最终返回完整结果。函数接收用户输入的提示文本，并可选地以流式方式接收响应。示例部分展示了如何使用该函数进行非流式和流式调用，并打印返回的响应内容。非流式调用一次性返回完整结果，而流式调用则逐部分打印响应。代码中还包含异常处理机制，以捕获并打印请求过程中的错误，确保程序的健壮性。print("\n流式响应：")print("非流式响应：")

【免费下载】 DeepSeek V2 开源项目教程

gitblog_00134的博客

08-22

3854

DeepSeek V2 项目的目录结构如下： ``` DeepSeek-V2/ ├── docs/ │ ├── README.md │ └── ... ├── src/ │ ├── main.py │ ├── config.py │ └── ... ├── tests/ │ └── ... ├── .gitignore ├── LICENSE └── README.md ...

Deepseek开源大模型本地配置使用

花开莫与流年错_的博客

01-13

6144

Deepseek开源大模型本地开发使用，帮忙创建项目，解决问题

开源：基于DeepSeek打造RAG系统

m0_59235245的博客

02-10

942

RAG系统，全称Retrieval-Augmented Generation（检索增强生成）系统，是一种结合了信息检索与生成模型的技术方法。其核心思想在于通过整合外部知识源来增强大型语言模型（LLM）的能力，从而提供准确、相关且上下文连贯的响应。RAG系统通常包括以下几个关键组件：检索器（Retriever）：负责从外部知识库或数据库中检索与用户查询相关的信息。检索器使用向量相似性度量等方法，在海量数据中快速找到与查询最匹配的内容。

VSCode使用deepseek-v3

最新发布

gitblog_00223的博客

06-24

819

DeepSeek-671B-SFT-Guide是DeepSeek-V3/R1 671B大模型全参数微调的开源解决方案，包含从训练到推理的完整工具链。本文将聚焦**vLLM推理服务部署**，通过5分钟快速搭建高性能大模型API服务，让你轻松体验千亿参数模型的强大能力！ ## 🚀 准备工作：环境与依赖在开始部署前，请确保你的系统满足以下条件： - **硬件要求**：至少4节点×8张A100 G

开源7B模型Moxin-7B实战：低成本复现DeepSeek强化学习全流程

MoonbeamOwl67的博客

10-27

434

可以快速搭建演示环境，无需配置复杂的环境依赖。平台内置的AI助手能协助完成API对接和界面开发，实测从创建到部署只需10分钟左右，特别适合想要快速验证模型效果的研究者。对于需要长期运行的模型服务，推荐使用平台的一键部署功能，自动生成可公开访问的演示地址，方便团队协作和效果展示。数据集采用SlimPajama和DCLM-BASELINE等高质量语料。代码数据来自The Stack-dedup，覆盖358种语言。数学推理任务表现超越70B参数的大模型。能力强化阶段(32K上下文)

【AIGC】冷启动数据与多阶段训练在 DeepSeek 中的作用

禅宗里有一个词叫做“因缘和合”。所谓因缘，是指事件要发生所必须的条件。因缘和合就是当你聚集了这件事的一切条件，它就会自然而然的发生。“它就会自然而然的发生”，这种朴素而坚定的价值观让我们感到无比安心，安心到可以不用有任何担心焦虑。

02-08

4839

在人工智能领域，深度学习模型的训练和优化往往需要大量的标注数据和计算资源。然而，面对复杂任务时，即使是最先进的技术和大量的训练数据也未必能够保证模型的最优表现。DeepSeek 在推理能力的提升上做出了突破，其中冷启动数据和多阶段训练是至关重要的组成部分。这些技术不仅提升了模型的推理效果，还确保了模型在各种复杂推理任务中具备了更高的准确度和稳定性。 2025.2.8-✍56min

【DeepSeek微调实践】复现前沿模型：基于 DeepSeek-R1 蒸馏数据训练专属中文推理模型全攻略

寻道AI，探索AI无限可能！

04-02

2119

DeepSeek-R1 模型以其卓越的性能在自然语言处理领域引起了广泛关注，其基于 R1 蒸馏数据进行 SFT（Supervised Fine-Tuning）的小模型也展现出了强大的效果。近期，一位在 NLP 领域极具影响力的专家“刘聪 NLP”开源了中文 DeepSeek-R1（满血）蒸馏数据集，包括 SFT 版本和普通版本。这一数据集的发布，迅速吸引了众多研究者和开发者的目光，并成功登上了 HuggingFace Trending 榜。

LoRA微调deepseek R1（7B）

蓝羽飞鸟的博客

02-24

4659

数据集准备，模型加载，LoRA适配，微调训练，推理全流程

基于deepseek的私有数据集微调及多卡分布式训练

weixin_41688410的博客

02-17

3277

分布式训练能够更快地完成模型训练，从而加速模型迭代和优化过程。

Deepseek训练与微调

CCbleach的专栏

02-10

3594

deepseek部署，训练，微调，推理。

解锁DeepSeek-R1大模型微调：从训练到部署，打造定制化AI会话系统

c18213590220的博客

03-09

2万+

大模型微调技术通过对预训练的大模型进行进一步训练，能够根据特定领域的需求进行优化，从而有效避免AI幻觉的发生，并且提供更加准确、有价值的输出。

DeepSeek-llm-7B-Chat微调教程

zhishi0000的博客

12-25

1万+

高性价比：DeepSeek-V2模型以其史无前例的性价比著称，推理成本被降到每百万token仅1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。架构创新：DeepSeek对模型架构进行了全方位创新，提出崭新的MLA（一种新的多头潜在注意力机制）架构，把显存占用降到了过去最常用的MHA架构的5%-13%，同时，独创的DeepSeekMoESparse结构，也把计算量降到极致。

DeepSeek-7B-chat 4bits量化 Qlora 微调

TheJustice_的博客

06-08

4127

模型量化是将高精度的浮点数表示转换为低精度表示（如4bits），以减少模型的存储和计算资源。量化可以显著降低模型的内存占用和计算复杂度，同时保持较高的推理性能。Qlora（Quantized Low-Rank Adapter）是一种优化微调技术，适用于量化后的模型。通过低秩近似和适应层的结合，Qlora在微调阶段保持高效，并在不显著增加计算成本的情况下提高模型性能。环境配置task_type：模型类型：需要训练的模型层的名字，主要就是attention。

大模型微调实战：LORA轻量级微调DeepSeek

dmx123789的博客

05-26

2135

LORA（Low-Rank Adaptation）是一种高效的参数高效微调方法，其核心思想是通过在预训练模型的权重矩阵中引入低秩适配矩阵（低秩分解矩阵 A 和 B），仅对这部分新增参数进行训练，从而大幅减少计算和显存开销。与传统全参数微调相比，LORA 通过冻结原始模型参数，仅更新适配层参数，实现了轻量化训练。

从零开始的DeepSeek微调训练实战（SFT）

qq_38220914的博客

03-16

880

本文重点介绍使用微调框架unsloth，围绕DeepSeek R1 Distill 7B模型进行高效微调，并介绍用于推理大模型高效微调的COT数据集的创建和使用方法，并在一个medical-o1-reasoning-SFT数据集上完成高效微调实战，并最终达到问答风格优化&知识灌注目的。你能收获什么：亲手完成DeepSeek R1蒸馏模型的微调实战对模型微调、推理数据集等知识有一定了解对大模型运行的机制和原理有一定的了解有机会制作一个属于自己的定制化大模型。