运用llama.cpp将LoRA训练模型转换为GGUF,适配Ollama本地化部署,降低企业资源投入成本!(接上篇,AI实战系列)

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

图片生成
LoRA

「The Leather Archive」 是一个基于 Anything V5 与 Stable Yogi 皮衣系列 LoRA 构建的高端 AI 穿搭实验室。与传统的工具化界面不同,本项目采用了非对称剪贴报布局 (Asymmetrical Zine Layout),旨在为 AI 绘画提供一种如时尚杂志内页般的沉浸式创作体验。

【背景概述】

企业在各自垂直领域训练大模型,往往是要通过模型微调完成的,经过微调后的模型,也就可以进行模型的自定义以及本地部署,进而投入使用了。

本文是紧接着上一篇FineTune的文章,将继续从企业AI落地的角度,介绍如何将LoRA训练结果和模型合并,通过llama.cpp将LLaMA-Factory导出的模型转换为guff格式,然后通过Ollama进行本地化部署及使用,正好也补充一下第二篇中提到的,基于Ollama仓库中没有的模型如何实现自定义模型。

【AI实战系列】前四篇详见:

DeepSeek本地运行全流程解析,企业私有化,数据安全、降本增效双搞定!含ollama命令聊天、chatbox界面聊天效果(AI实战系列,保姆级教程)

教你打造企业自有大模型(基于ollama、deepseek),走出定制化第一步,沉淀AI技术能力,让AI变成生产力!【AI实战系列】

企业知识管理混乱?RAG+LangChain+DeepSeek构建会思考的企业知识库!(AI实战系列,附有详细代码)

FineTune+LLaMA-Factory+DeepSeek+LoRA企业数据训练,全流程详细教程,构建AI电商客服等应用(AI实战系列,附实战经验)

一、llama.cpp是什么?

llama.cpp‌是一个开源项目,是纯C/C++语言模型推理框架,目标是高效的运行大型语言模型在资源受限的设备上,如CPU、GPU或低端硬件上实现本地推理。也可以说它是为了将训练好的量化模型转换为可在CPU上运行的低配推理版本。这样恰恰降低了中小企业的资源投入成本!其主要有以下特性:‌

  • 支持多系统、多模态。完全使用C/C++编写,不依赖外部库,支持Windows、macOS、Linux等主流操作系统及ARM、x86架构的CPU,并通过SIMD指令集(如 AVX、NEON)优化性能;支持多模态推理,包括文本生成、图像处理等。‌‌

  • ‌高效、加速推理‌。采用模型量化技术(1.5bit至8bit整型量化),显著降低内存占用并加速推理速度;支持CPU+GPU混合推理,当GPU显存不足时,可通过系统内存协同计算。

  • 扩展性、兼容性强。支持多种模型格式(如GGUF),兼容DeepSeek、LLaMA等开源大模型;提供HTTP/WebSocket API服务接口,可嵌入到其他应用中。

  • 边缘设备场景应用。适用于个人电脑等边缘设备,无需显卡即可运行大型语言模型,降低部署门槛;支持多轮对话和流式输出,适合构建本地知识库或数据安全、隐私保护等场景。

二、llama.cpp的安装、模型导出与转换

1、安装llama.cpp

运行以下指令以安装LLaMA-Factory及其依赖:

# 也可以点击左下角关注,回复“AI实战系列资料”获取git clone https://github.com/ggml-org/llama.cpp.git# 切换到目录下cd llama.cpp# 安装依赖(最后也创建一个独立环境,可以参考上一篇)pip3 install -r requirements.txt

2、从LLaMA-Factory导出模型

继续使用上一篇中的LoRA训练结果。选择好“检查点路径”,输入“导出目录”,点击“开始导出”即可。

图片

会显示正在导出模型,如下:

图片

过一会儿会显示模型导出完成。

图片

导出后文件,我填写的模型目录是star-model,如下:

图片

此时文件已准备完成。

3、将以上导出的文件,转换为GUFF

执行以下命令。

# 切换到llama.cpp目录下cd llama.cpp# 执行命令python convert_hf_to_gguf.py /xxx/LLaMAFactory/star-model \ --outfile /xxx/LLaMAFactory/star-model/star-model.gguf \ --outtype q8_0

同样等待一会儿,会把safetensors格式转换为gguf格式,导出模型的名称是star-model.gguf。

此时格式转换大功告成了!

三、Ollama本地部署

创建Modelfile,将模型导入Ollama

创建Modelfile。

touch star-model-modelfile // 创建modelfile文件
vi star-model-modelfile // 编辑文件

文件内容如下:

FROM /xxx/LLaMAFactory/star-model/star-model.gguf

创建模型。

ollama create star-model -f star-model-modelfile

运行模型。

ollama run star-model

至此,就可以本地使用该模型了。(因为前几篇都写过了,就不重复演示了。)

本次内容不多,但有些内容不熟的可以看下前几篇。遇到问题可以关注,私信交流。有企业模型定制需求的,也欢迎私信。

若有需要源码,可以私信,也可以看下图的方式获取

欢迎点赞、收藏、评论、关注,后续持续分享,如何基于DeepSeek等大模型,实现企业AI集成、企业知识库、电商场景应用、模型微调、智能问答、多模态、RPA等项目实战。致力为中小企业提供实用的企业级AI解决方案!

您可能感兴趣的与本文相关的镜像

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

🎞️ THE LEATHER ARCHIVE高端 AI 穿搭实验室

图片生成
LoRA

「The Leather Archive」 是一个基于 Anything V5 与 Stable Yogi 皮衣系列 LoRA 构建的高端 AI 穿搭实验室。与传统的工具化界面不同,本项目采用了非对称剪贴报布局 (Asymmetrical Zine Layout),旨在为 AI 绘画提供一种如时尚杂志内页般的沉浸式创作体验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

StarkLi

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值