Ollama(本地模型运行平台)
- 能运行:✅
- 能调优:❌(只能推理)
- 适用场景:开发、验证、快速体验
- 特点:一条命令跑模型,自带 API
“给本地开发者用的,一键跑大模型的运行平台”
它到底干了什么?
- 下载模型
- 自动量化
- 管 GPU / CPU
- 提供本地 API
用它不是在“跑模型”,而是在:用别人封装好的推理系统
工程定位
- 快速验证
- 模型对比
- 本地开发
如何使用Ollama
安装Ollama管理工具
curl -fsSL https://ollama.com/install.sh | sh

安装脚本检测到系统中安装了 NVIDIA GPU,意味着 ollama 可以利用 GPU 进行模型推理,提升性能
启动Ollama服务
ollama serve

运行qwen2.5:14b模型
ollama run qwen2.5:14b

提问AI时,观察显存占用率
watch -n 1 nvidia-smi
提问前

提问后


2096

被折叠的 条评论
为什么被折叠?



