windows服务器本地部署deepseek并训练

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

1.安装python3.10

       下载地址 Index of python-local/3.10.9

        安装64位windows版本

2.下载到LLaMA-Factory

github地址:

GitHub - hiyouga/LLaMA-Factory: Unified Efficient Fine-Tuning of 100+ LLMs & VLMs (ACL 2024)

3. 修改pip镜像源
-- 将pip使用镜像源更新为最新版
python -m pip install -i https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple --upgrade pip

-- 修改pip镜像源
pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple

参考: 

pip 使用国内镜像源 | 菜鸟教程

4.安装LLama-Factory及所需依赖

进入第二步下载的LLaMA-Factory-main  文件夹,输入 

pip install -e".[torch,metrics]"

会报错:

 The Meson build system
      Version: 1.2.1
      Source dir: C:\Users\admin\AppData\Local\Temp\pip-install-6ydmaptf\pandas_5de9343fe55647d897afde828b9c3cd9
      Build dir: C:\Users\admin\AppData\Local\Temp\pip-install-6ydmaptf\pandas_5de9343fe55647d897afde828b9c3cd9\.mesonpy-_m3_eubb\build
      Build type: native build
      Project name: pandas
      Project version: 2.2.3

      ..\..\meson.build:2:0: ERROR: Could not find C:\Program Files (x86)\Microsoft Visual Studio\Installer\vswhere.exe

      A full log can be found at C:\Users\admin\AppData\Local\Temp\pip-install-6ydmaptf\pandas_5de9343fe55647d897afde828b9c3cd9\.mesonpy-_m3_eubb\build\meson-logs\meson-log.txt
      [end of output]

把报错信息复制给deepseek,说需要安装visualstudio 

按照deepseek的步骤安装visual studio后,问题解决

5. 检查llama-Factory是否安装完成
llamafactory-cli version

有响应,即安装成功

6.下载LLama-Factory版本的deepseek

cmd 输入python 进入python环境

from modelscope import snapshot_download

# 指定下载后的路径,你可以根据实际情况修改这个路径
custom_cache_dir = "D:/your_custom_model_path"  

model_dir = snapshot_download("deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B", revision="master", cache_dir=custom_cache_dir)
print(f"模型已下载到: {model_dir}")
 7.启动LLama-Factory的web界面

在第二步的LLama-Factory文件夹,打开命令行输入如下内容

--model-path 是第六步下载的模型地址

set TRANSFORMERS_OFFLINE=1
llamafactory-cli webui --model-path "C:\Users\admin\.cache\modelscope\hub\models\deepseek-ai\DeepSeek-R1-Distill-Qwen-1___5B"
8.插件待训练模型是否安装成功

选择第7步下载的版本、下载的路径后,点击下面的chat,加载模型,对话一下,看看是不是成功安装了

 

9. 配置训练所用的数据集

选择官方的示例数据集,可以在上面第二步的文件夹(/data)修改数据集的内容,让训练时间短一点。

其他参数不用修改,点击开始训练

可能会报 未检测到cuda环境

可能因为torch是cpu版本的,参考下面链接解决。

Torch not compiled with CUDA enabled问题解决过程记录-CSDN博客

名词解释:

1.损失

   表示训练后的模型和 数据集的差异。差异越小,表示训练结果越好。

2.梯度

  表示优化的一种算法

3.学习率

  学习的效率,如果太多模型可能记不过来,太少可能模型啥都学不到,所以要控制在合理范围。

4.轮次

  调整了几次

AI 时代程序员必备技能

Codex、Claude Code、Cursor、Hermes Agent、OpenClaw等工程化实战专栏 ,讲透 AI 如何接管脏活累活

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值