昇腾MindSpeed LLM实战：从零完成Qwen2.5-7B模型的预训练与指令微调-CSDN博客

1. 环境准备：搭建你的昇腾AI开发工作站

嘿，朋友们，我是老张，在AI大模型和硬件这块摸爬滚打了十来年。今天咱们不聊虚的，直接上手干。如果你想在昇腾Atlas系列NPU上玩转Qwen2.5-7B这样的大模型，第一步就是把“厨房”收拾好。环境配置听起来枯燥，但这是最稳的一步，配置对了，后面一路绿灯；配置错了，那就是各种“玄学”报错的开始。我踩过的坑，争取让你一步跨过去。

昇腾的软件栈，你可以把它理解为一个为NPU量身定做的“操作系统+驱动+开发工具”全家桶。它的核心是CANN（Compute Architecture for Neural Networks），相当于连接上层AI框架（比如PyTorch）和底层昇腾硬件的桥梁。而我们今天的主角MindSpeed LLM，则是基于这个桥梁，专门为大语言模型训练优化过的“赛车引擎”。我们的目标，就是把这套赛车引擎稳稳地装到你的昇腾服务器上。

1.1 驱动与固件：给硬件“通上电”

首先，你得确认你的硬件型号，比如Atlas 800训练服务器（基于910B芯片）。去昇腾社区的“版本配套表”里，找到对应你操作系统（比如Ubuntu 20.04 aarch64）和硬件的最新驱动和固件包。这一步千万别图省事用旧版本，版本不匹配是后续所有问题的万恶之源。

下载完 Ascend-hdk-910b-npu-driver_*.run 和 Ascend-hdk-910b-npu-firmware_*.run 这两个文件后，上传到你的服务器。安装顺序一般是先固件后驱动。打开终端，进入文件所在目录，执行安装。这里有个小技巧，安装驱动时加上 --full 和 --force 参数，可以避免一些因残留旧版本导致的冲突。

# 安装固件，版本号以你下载的为准
sudo bash Ascend-hdk-910b-npu-firmware_7.5.0.5.220.run --full
# 安装驱动
sudo bash Ascend-hdk-910b-npu-driver_24.1.0.3_linux-aarch64.run --full --force

安装完成后，跑个 npu-smi info 命令看看。如果能看到NPU设备列表、算力利用率等信息，就像在Linux下用 nvidia-smi 看GPU一样，那就恭喜你，硬件驱动层打通了。如果报错，首先检查安装日志，最常见的问题是内核版本不匹配或者有旧的驱动没卸载干净。

1.2 CANN与PyTorch插件：搭建核心“桥梁”

驱动装好，硬件能认了，接下来装CANN。同样去社区下载对应版本的 cann-toolkit、cann-kernel 和 cann-nnal 安装包。我个人的经验是，严格遵循官方推荐的版本组合，比如CANN 8.0.RC1 搭配 PyTorch 2.1.0 和 torch_npu 2.1.0.post12，这是一个经过验证的稳定组合。

安装过程就是按顺序执行三个 .run 文件。安装 cann-nnal（内含ATB加速库）前，务必记得先执行 source 命令激活CANN的环境变量，不然会找不到依赖。

# 安装CANN Toolkit
sudo bash Ascend-cann-toolkit_8.1.RC1_linux-aarch64.run --install
# 安装Kernel包
sudo bash Ascend-cann-kernels-910b_8.1.RC1_linux-aarch64.run --install
# 激活环境变量，非常重要！
source /usr/local/Ascend/ascend-toolkit/set_env.sh
# 安装NNAL包
sudo bash Ascend-cann-nnal_8.1.RC1_linux-aarch64.run --install

接下来是PyTorch适配层。昇腾提供了 torch_npu 插件，让PyTorch的算子能跑到NPU上。你需要安装指定版本的PyTorch（通常是CPU版本）和对应的 torch_npu 插件whl包。这里直接从官方源下载安装就行。至于 apex（混合精度训练库），昇腾提供了优化版本，需要从Gitee仓库克隆后自己用 python setup.py 编译生成whl包再安装。这一步稍微有点折腾，但为了后续训练的稳定性，值得。

# 安装指定版本的PyTorch (CPU版本即可)
pip install torch==2.1.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
# 安装昇腾PyTorch插件
pip install torch_npu==2.1.0.post12
# 编译并安装昇腾优化版apex
git clone https://gitee.com/ascend/apex.git
cd apex
pip install -v --disable-pip-version-check --no-cache-dir --global-option="--cpp_ext" --global-option="--npu_float_status" ./

1.3 MindSpeed LLM与依赖：安装终极“引擎”

最后，我们来安装今天的主角——MindSpeed LLM套件。它依赖Megatron-LM这个分布式训练框架。所以我们需要克隆两个仓库：昇腾的MindSpeed-LLM和NVIDIA的Megatron-LM（注意checkout到指定兼容版本）。

# 设置环境变量，确保CANN和ATB库路径被正确加载
source /usr/local/Ascend/ascend-toolkit/set_env.sh
source /usr/local/Asc