手把手教你如何使用 llama.cpp 构建 AI 智能体！

原创

已于 2025-06-26 13:09:52 修改 · 1k 阅读

标签

#AI Agent #AI

收录于

于 2025-06-26 13:08:48 首次发布

llama.cpp 是一个高性能的本地大模型运行框架，它为众多流行的本地 AI 工具提供了底层支持，包括 Ollama、本地聊天机器人以及各种设备端的 LLM 应用。通过直接使用 llama.cpp，你可以最大限度地减少系统开销，获得更精细的控制能力，并针对自身硬件优化运行效率，从而让你的本地 AI 智能体和应用程序更加快速且可定制。

接下来你将学会如何构建一个基于 llama.cpp 的 AI 应用，具体包括搭建 llama.cpp 服务器、与 Langchain 的集成，以及构建能够使用 Web 搜索和 Python REPL 等工具的 ReAct 智能体。

搭建 llama.cpp 服务器

本节介绍如何安装 llama.cpp 及其依赖项，配置 CUDA 支持，构建所需的二进制文件，并启动服务器。

注：本示例环境为 NVIDIA RTX 4090 显卡、Linux 系统，CUDA 工具链已预配置。如没有类似本地硬件，也可通过 https://vast.ai/ 以较低成本租用 GPU 实例。

首先更新系统包列表并安装必要的依赖，包括编译工具、cmake、curl、git、libcurl 等：

apt-get update
apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev git -y

克隆官方 llama.cpp 仓库并配置构建：

# 克隆 llama.cpp 仓库
git clone https://github.com/ggml-org/llama.cpp

# 启用 CUDA 和 CURL 支持
cmake llama.cpp -B llama.cpp/build \
    -DBUILD_SHARED_LIBS=OFF \
    -DGGML_CUDA=ON \
    -DLLAMA_CURL=ON

编译所有工具和服务端程序，并将生成的二进制文件复制到主目录中：

cmake --build llama.cpp/build --config Release -j --clean-first
cp llama.cpp/build/bin/* llama.cpp/

使用 unsloth/gemma-3-4b-it-GGUF 模型启动 llama.cpp 服务器：

./lla

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蜗牛沐雨

关注关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

llama.cpp一种在本地CPU上部署的量化模型（超低配推理llama）

god_Zeo的安全博客

04-23

2万+

前不久，Meta前脚发布完开源大语言模型LLaMA，随后就被网友“泄漏”，直接放了一个磁力链接下载链接。然而那些手头没有顶级显卡的朋友们，就只能看看而已了但是 Georgi Gerganov 开源了一个项目llama.cpp次项目的牛逼之处就是没有GPU也能跑LLaMA模型大大降低的使用成本，本文就是时间如何在我的 mac m1 pro 上面跑起来这个模型。

参与评论您还未登录，请先登录后发表或查看评论

一文熟悉新版llama.cpp使用并本地部署LLAMA

热门推荐

lovely_yoshino的博客

11-08

5万+

>关于UCloud(优刻得)旗下的compshare算力共享平台 UCloud(优刻得)是中国知名的中立云计算服务商，科创板上市，中国云计算第一股。 Compshare GPU算力平台隶属于UCloud，专注于提供高性价4090算力资源，配备独立IP，支持按时、按天、按月灵活计费，支持github、huggingface访问加速。 [https://www.compshare.cn/?ytag=GPU_lovelyyoshino_Lcsdn_csdn_display]

Windows平台下CUDA安装及llama.cpp使用教程

LYSHARK

04-29

771

本文详细介绍了在Windows平台下安装CUDA工具包并配置llama.cpp加载大模型的全过程。首先需根据nvidia-smi命令获取的CUDA版本（如12.8）下载匹配的驱动，推荐安装Cuda 12.4自定义版本。随后下载兼容的llama.cpp 12系列版本，通过命令llama-server.exe启动服务时设置30层GPU加速（--n-gpu-layers 30），并关闭防火墙确保连接。最后通过Python测试脚本验证模型运行效果，成功调用本地部署的通义千问模型生成500字概述。整个过程配有详细截图

【AIGC】Mac Intel 本地 LLM 部署经验汇总（llama.cpp）

Kida 的躺平小屋

05-20

2423

看到标题的各位都知道了。是的，终于也轮到 llama.cpp 了。先说结论，本次 llama.cpp 部署已能在 Intel 核心的 MBP 中使用 Metal GPUs 进行推理。

Llama.cpp工具main使用手册

新缸中之脑

09-15

3746

Llama.cpp提供的 main工具允许你以简单有效的方式使用各种 LLaMA 语言模型。它专门设计用于与 llama.cpp 项目配合使用。推荐：用快速搭建可编程3D场景Llama.cpp的工具 main提供简单的 C/C++ 实现，具有可选的 4 位量化支持，可实现更快、更低的内存推理，并针对桌面 CPU 进行了优化。该程序可用于使用 LLaMA 模型执行各种推理任务，包括根据用户提供的提示生成文本以及使用反向提示进行类似聊天的交互。

大模型部署工具 llama.cpp 介绍与安装使用

youmaob的博客

04-07

1万+

另外一个是量化，量化是通过牺牲模型参数的精度，来换取模型的推理速度。llama.cpp 提供了大模型量化的工具，可以将模型参数从 32 位浮点数转换为 16 位浮点数，甚至是 8、4 位整数。训练的过程，实际上就是在寻找模型参数，使得模型的损失函数最小化，推理结果最优化的过程。训练完成之后，模型的参数就固定了，这时候就可以使用模型进行推理，对外提供服务。大模型时代，企业对人才的需求变了，AIGC相关岗位人才难求，薪资持续走高，AI运营薪资平均值约。llama.cpp 提供了模型量化的工具。

手把手教你如何使用 llama.cpp 构建 AI 智能体，大模型入门到精通，收藏这篇就足够了！

2301_81888214的博客

11-03

859

llama.cpp 是一个高性能的本地大模型运行框架，它为众多流行的本地 AI 工具提供了底层支持，包括 Ollama、本地聊天机器人以及各种设备端的 LLM 应用。

用 llama.cpp 构建高性能本地 AI 应用：从环境搭建到多工具智能体开发全流程实战

Xianxiancq的博客

07-23

1261

在本教程中，我将带你一步步使用 llama.cpp——一个强大的 C/C++ 库，高效运行大语言模型（LLM）——来构建 AI 应用。我们将涵盖以下内容：如何搭建 llama.cpp 服务器、与 Langchain 集成，以及构建能够调用 Web 检索和 Python REPL 等工具的 ReAct 智能体。

Windows本地AI智能体搭建：Hermes+llama.cpp+微信接入实战

weixin_32136203的博客

06-20

316

智能体（Agent）是大模型落地的关键范式，其核心在于任务编排、工具调用与长期记忆能力。在企业私有化部署场景中，本地化运行成为刚性需求——既要保障数据不出内网，又要兼顾Windows主流终端兼容性。Hermes作为轻量级Agent运行时框架，通过Rust核心调度、C++模型加载（如llama.cpp）、Python插件扩展三层解耦设计，实现了Windows原生支持、中文路径鲁棒性及自定义GGUF模型即插即用。结合微信个人号桥接能力，可快速构建响应快、可审计、零云依赖的办公自动化助手，适用于知识库问答、Exc

从零构建本地AI语音助手：Whisper.cpp与Llama.cpp实战指南

weixin_30565327的博客

05-25

333

语音识别与自然语言处理是人工智能领域的基础技术，它们使计算机能够理解和响应人类语言。其核心原理涉及音频信号处理、深度学习模型架构以及意图理解算法。在工程实践中，本地化部署成为关键需求，它确保了数据隐私、低延迟响应和个性化工作流集成。通过结合Whisper.cpp进行高效的语音转文本，以及Llama.cpp运行量化大语言模型，开发者可以构建完全离线的智能语音助手。这种技术方案特别适用于开发环境、内容创作和日常办公等场景，能够将复杂的多步操作简化为一句自然语言指令，实现真正的自动化生产力提升。

服务大型模型：VLLM、LLAMA CPP 服务器和 SGLang

iCloudEnd的博客

10-08

1018

在快速发展的人工智能领域，有效地服务大型语言模型 (LLM) 和视觉语言模型 (VLM) 对于充分发挥其潜力至关重要。随着这些模型变得越来越复杂，找到强大且可扩展的服务解决方案变得越来越重要。在本指南中，我们将重点介绍在这个领域取得进展的三个杰出项目：VLLM、LLAMA CPP Server 和 SGLang。本系列的这一部分将深入探讨如何使用这些工具并探索它们的独特功能。我们不会比较它们的性能，因为每个项目都提供针对不同需求量身定制的独特功能。在本系列的第二部分中，我们将扩大对其他项目的探索。

基于llama.cpp构建跨平台本地AI助手：从模型部署到智能体开发实战

weixin_26775679的博客

05-02

525

大型语言模型（LLM）的本地化部署正成为AI应用的重要趋势，其核心在于将云端模型能力下沉至终端设备。这一过程依赖于高效的推理引擎，如经过极致优化的C++库llama.cpp，它通过量化技术和内存映射等原理，实现了在消费级CPU上的流畅运行。本地部署的技术价值在于彻底解决数据隐私和网络延迟问题，同时赋予开发者对AI工作流的完全控制权。其典型应用场景包括构建私有聊天助手、自动化脚本以及离线文档分析工具。本文聚焦于Asbestos项目，这是一个面向生产环境的跨平台研究项目，它深度集成了llama.cpp引擎，并构

终极指南：如何构建专属Eigent单智能体工作器，打造高效AI助手

gitblog_00463的博客

05-13

839

Eigent是一款开源的协作桌面应用，旨在释放你的卓越生产力，作为Claude Cowork的本地免费替代方案。本文将详细介绍如何构建Eigent单智能体工作器，帮助你打造专属的AI助手，提升工作效率。 ## 什么是Eigent单智能体工作器？ Eigent单智能体工作器是一种专注于特定任务的AI助手，它能够根据用户需求，通过配置不同的技能和模型，实现自动化工作流程。与通用AI助手相比，单智能

轻量级本地智能体：Rust+llama.cpp构建离线可运行AI协作者

weixin_30654583的博客

05-08

155

本地智能体（Local Agent）是一种在用户设备端完成感知、规划、工具调用与响应的轻量级AI系统，其核心原理是将大语言模型推理、状态机控制与本地工具链深度耦合，规避网络依赖与数据外泄风险。技术价值在于确定性低延迟、强隐私保障与边缘环境鲁棒性，适用于离线会议转录、敏感代码分析、嵌入式日志诊断等场景。本文聚焦‘轻量级本地优先智能体’实践，基于Rust与llama.cpp实现内存≤300MB、冷启动≤1.4秒、零外部依赖的可执行Agent，并详解Q4_K_M量化模型选型、原子化工具设计及显式状态机架构。

Hermes Agent本地智能体CLI部署指南：Linux+llama.cpp+GGUF模型零污染落地

最新发布

weixin_30482181的博客

06-22

364

本地智能体（Local Agent）是大模型时代开发者在终端构建可编程AI工作流的核心范式，其本质是将模型调用抽象为标准化命令接口。技术原理上依赖三层解耦架构：轻量CLI运行时、可插拔推理后端（如llama.cpp）、与GGUF格式模型文件。该架构显著提升工程可控性与国产化适配能力，避免GUI依赖和Python环境碎片化问题。典型应用场景包括Git驱动的提示词版本管理、Shell管道集成、CI/CD自动化测试及信创环境（UOS/麒麟）下的离线AI服务。本文聚焦纯CLI方式，在主流Linux发行版上完成Her

llama.cpp模板系统：Jinja2与自定义聊天模板

gitblog_00241的博客

08-28

2012

在大语言模型（LLM）的应用中，聊天模板（Chat Template）是连接用户输入和模型理解的关键桥梁。不同的模型厂商使用不同的对话格式，如OpenAI的ChatML、Meta的Llama格式、Mistral的特殊标记等。llama.cpp通过Jinja2模板引擎实现了强大的聊天模板系统，让开发者能够灵活处理各种模型的对话格式需求。 ## 核心概念解析 ### 什么是聊天模板？聊天模板是...

Llama.cpp运行流程

weixin_60146555的博客

11-07

1851

在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。top-k 的值越高（例如 100），考虑的词元越多，文本就越多样化，而值越低（例如 10），则侧重于最可能的词元，并生成更保守的文本。在极端情况下，温度为 0 将始终选择最可能的下一个 token，从而导致每次运行中产生相同的输出。该选项有助于防止模型生成重复或单调的文本。

【保姆级教程】llama.cpp大模型部署全攻略：CPU/GPU全兼容，小白也能轻松上手！

2401_84495872的博客

11-06

4889

llama.cpp是一个基于C/C++开发的高效大语言模型推理工具，支持跨平台部署和Docker快速启动。文章详细介绍了通过Docker方式部署llama.cpp的步骤，包括模型选择、CPU/GPU配置及启动参数说明。该工具提供Web UI界面和OpenAI兼容API，支持文本和多模态对话，对电脑配置要求不高，完全免费且私密，让普通用户也能轻松在本地运行大语言模型。

llama.cpp编译和运行 API调用

yinjl123456的博客

01-15

3334

llama.cpp是一个开源项目,官方地址：https://github.com/ggerganov/llama.cpp，使用纯 C/C++推理 Meta 的LLaMA模型,专门为在本地CPU上部署量化模型而设计。它提供了一种简单而高效的方法，将训练好的量化模型转换为可在CPU上运行的低配推理版本,可加快推理速度并减少内存使用。

突破llama.cpp模板解析困境：Jinja引擎适配与性能优化指南

gitblog_00629的博客

09-10

678

你是否在使用llama.cpp构建本地化AI应用时，遭遇过模板解析失败、响应延迟或格式错乱？本文将系统分析Jinja模板在llama.cpp项目中的集成痛点，提供3套实操解决方案，并通过性能对比测试验证优化效果，帮助开发者快速解决90%的模板相关问题。 ## 问题诊断：llama.cpp模板系统的三大核心挑战 llama.cpp作为C/C++实现的高效LLM推理框架，其模板解析模块面临着Pyt...