运用llama.cpp将LoRA训练模型转换为GGUF，适配Ollama本地化部署，降低企业资源投入成本！（接上篇，AI实战系列）

原创已于 2025-07-23 18:14:16 修改 · 1.3k 阅读

20 ·

本内容遵循CC 4.0 BY-SA版权协议

GEO检测

标签

#llama #人工智能 #python #语言模型 #创业创新

于 2025-07-23 18:12:35 首次发布

AI实战系列专栏收录该内容

5 篇文章

订阅专栏

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

图片生成

LoRA

「The Leather Archive」是一个基于 Anything V5 与 Stable Yogi 皮衣系列 LoRA 构建的高端 AI 穿搭实验室。与传统的工具化界面不同，本项目采用了非对称剪贴报布局 (Asymmetrical Zine Layout)，旨在为 AI 绘画提供一种如时尚杂志内页般的沉浸式创作体验。

【背景概述】

“企业在各自垂直领域训练大模型，往往是要通过模型微调完成的，经过微调后的模型，也就可以进行模型的自定义以及本地部署，进而投入使用了。”

本文是紧接着上一篇FineTune的文章，将继续从企业AI落地的角度，介绍如何将LoRA训练结果和模型合并，通过llama.cpp将LLaMA-Factory导出的模型转换为guff格式，然后通过Ollama进行本地化部署及使用，正好也补充一下第二篇中提到的，基于Ollama仓库中没有的模型如何实现自定义模型。

【AI实战系列】前四篇详见：

DeepSeek本地运行全流程解析，企业私有化，数据安全、降本增效双搞定！含ollama命令聊天、chatbox界面聊天效果（AI实战系列，保姆级教程）

教你打造企业自有大模型（基于ollama、deepseek），走出定制化第一步，沉淀AI技术能力，让AI变成生产力！【AI实战系列】

企业知识管理混乱？RAG+LangChain+DeepSeek构建会思考的企业知识库！（AI实战系列，附有详细代码）

FineTune+LLaMA-Factory+DeepSeek+LoRA企业数据训练，全流程详细教程，构建AI电商客服等应用（AI实战系列，附实战经验）

一、llama.cpp是什么？

llama.cpp‌是一个开源项目，是纯C/C++语言模型推理框架，目标是高效的运行大型语言模型在资源受限的设备上，如CPU、GPU或低端硬件上实现本地推理。也可以说它是为了将训练好的量化模型转换为可在CPU上运行的低配推理版本。这样恰恰降低了中小企业的资源投入成本！其主要有以下特性：‌

支持多系统、多模态。完全使用C/C++编写，不依赖外部库，支持Windows、macOS、Linux等主流操作系统及ARM、x86架构的CPU，并通过SIMD指令集（如 AVX、NEON）优化性能；支持多模态推理，包括文本生成、图像处理等。‌‌

‌高效、加速推理‌。采用模型量化技术（1.5bit至8bit整型量化），显著降低内存占用并加速推理速度；支持CPU+GPU混合推理，当GPU显存不足时，可通过系统内存协同计算。

‌扩展性、兼容性强。支持多种模型格式（如GGUF），兼容DeepSeek、LLaMA等开源大模型；提供HTTP/WebSocket API服务接口，可嵌入到其他应用中。

‌边缘设备场景应用。适用于个人电脑等边缘设备，无需显卡即可运行大型语言模型，降低部署门槛；支持多轮对话和流式输出，适合构建本地知识库或数据安全、隐私保护等场景。

二、llama.cpp的安装、模型导出与转换

1、安装llama.cpp

运行以下指令以安装LLaMA-Factory及其依赖：

# 也可以点击左下角关注，回复“AI实战系列资料”获取git clone https://github.com/ggml-org/llama.cpp.git# 切换到目录下cd llama.cpp# 安装依赖（最后也创建一个独立环境，可以参考上一篇）pip3 install -r requirements.txt

2、从LLaMA-Factory导出模型

继续使用上一篇中的LoRA训练结果。选择好“检查点路径”，输入“导出目录”，点击“开始导出”即可。

会显示正在导出模型，如下：

过一会儿会显示模型导出完成。

导出后文件，我填写的模型目录是star-model，如下：

此时文件已准备完成。

3、将以上导出的文件，转换为GUFF

执行以下命令。

# 切换到llama.cpp目录下cd llama.cpp# 执行命令python convert_hf_to_gguf.py /xxx/LLaMAFactory/star-model \ --outfile /xxx/LLaMAFactory/star-model/star-model.gguf \ --outtype q8_0

同样等待一会儿，会把safetensors格式转换为gguf格式，导出模型的名称是star-model.gguf。

此时格式转换大功告成了！

三、Ollama本地部署

创建Modelfile，将模型导入Ollama

创建Modelfile。

touch star-model-modelfile // 创建modelfile文件
vi star-model-modelfile // 编辑文件

文件内容如下：

FROM /xxx/LLaMAFactory/star-model/star-model.gguf

创建模型。

ollama create star-model -f star-model-modelfile

运行模型。

ollama run star-model

至此，就可以本地使用该模型了。（因为前几篇都写过了，就不重复演示了。）

本次内容不多，但有些内容不熟的可以看下前几篇。遇到问题可以关注，私信交流。有企业模型定制需求的，也欢迎私信。

若有需要源码，可以私信，也可以看下图的方式获取。

欢迎点赞、收藏、评论、关注，后续持续分享，如何基于DeepSeek等大模型，实现企业AI集成、企业知识库、电商场景应用、模型微调、智能问答、多模态、RPA等项目实战。致力为中小企业提供实用的企业级AI解决方案！

您可能感兴趣的与本文相关的镜像

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

图片生成

LoRA