ubuntu RTX2080Ti pytorch使用fp16

最新推荐文章于 2026-06-13 10:56:02 发布

原创

最新推荐文章于 2026-06-13 10:56:02 发布 · 7.7k 阅读

收录于

本文介绍了在Ubuntu系统中，使用RTX2080Ti显卡配合PyTorch进行fp16训练的配置步骤和实际体验。通过apex库实现fp16，减少了显存占用并加快了速度，但可能影响模型准确度，且部分非官方模块不支持fp16。

被安利了很久说2080ti下使用fp16可以提速而且几乎不影响效果，所以今天试着弄了一下，整体感觉是显存占用少很多，速度比较快，但是还是会影响准确度，而且一些非官方提供的模块使用起来不方便（因为不支持fp16）。这里记录一下安装过程和详细的使用体验，毕竟我金鱼记忆。

1. 配置apex

使用fp16，官方推荐用apex包。在安装apex时需要注意driver和cuda版本对应，不然可能会报错（顺便唠叨一句，以前感觉driver和cuda版本不对应影响不大，程序照样可以跑，但最近发现配置很多环境出错是它们版本不对应造成的）。然后按照apex官方提供的安装过程安装https://github.com/NVIDIA/apex。为了不影响速度，我选用了“installing Apex with CUDA and C++ extensions”，在conda环境下配置了pytorch1.0，我截的安装过程：

$ git clone apex
$ cd apex
$ pip install -v --no-cache-dir --global-option="--cpp_ext" --global-option="--cuda_ext" .

注意：pip install命令最后的“.”不要漏掉，这个表明在当前环境下操作。

遇到的错误：

（1）好象是cuda版本和driver版本不对应造成的，改了cuda后就可以了。（记得还要装对应cuda版本的pytorch）

RuntimeError: cublas runtime error : the GPU program failed to execute at /opt/conda/conda-bld/pytorch_1549616138213/work/aten/src/THC/THCBlas.cu:258

2. 使用fp16

可以参考<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

britney_f

关注关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
14
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

NVIDIA Tesla GPU系列P40参数性能——不支持半精度(FP16)模型训练

凝眸伏笔的博客

01-21

4万+

Tesla GPU系列P40不支持半精度(FP16)模型训练。因为它没有Tensor core。训练bert非常慢，想要加速，了解到半精度混合训练，能提速一倍，研究了下混合精度，以及其对设备的要求。发现当前设备不能使用半精度混合训练。 NVIDIA Tesla系列GPU适用于高性能计算（HPC）、深度学习等超大规模数据计算，Tesla系列GPU能够处理解析PB级的数据，速度比使用传统CPU快几个数量级，NVIDIA Tesla GPU系列P4、T4、P40以及V100是Tesla GPU系列的明.

14 条评论您还未登录，请先登录后发表或查看评论

1080T、2080T、4070T显卡的深度学习性能测试和结论

不精，不诚，不足以动人

02-24

1万+

1080T、2080T、4070T显卡的深度学习性能测试和结论

从FP32到FP16：手把手教你用PyTorch AMP给模型训练‘瘦身’加速（内存减半，速度翻倍）

weixin_28733637的博客

04-30

232

本文详细介绍了如何使用PyTorch的AMP（Automatic Mixed Precision）技术实现混合精度训练，显著降低显存占用并提升训练速度。通过autocast和GradScaler等工具，开发者可以在保持模型精度的同时，实现内存减半、速度翻倍的优化效果。文章包含从原理到实战的完整指南，特别适合面临显存不足或需要加速训练的研究人员。

解决2080Ti使用节点ComfyUI-PuLID-Flux-Enhanced中遇到的问题

zslefour的专栏

04-12

1291

中提到，修改pulidflux.py中的dtype 为。当然，由bf16变为fp32后，显存占用肯定就大了。

常见GPU算力（2080Ti，TU102-300A）

qq_45351564的博客

02-03

6560

注意到，完整 TU102 核心共有 6 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 TU102 核心共有 72 个 SM 单元，但 TU102-300A 只开启其中的 68 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 2 个 FP64 计算单元。支持的数据类型有 FP16、INT8、INT4，不支持 FP64、BF16、TF32。

PyTorch Cookbook by Eric

墨门

03-30

2978

1 致谢感谢网友ShellCollector的帮助，原文链接如下： https://blog.csdn.net/jacke121/article/details/80824575 2 前言今天在学习FaceBoxes~ 感觉PyTorch中的维度操作挺多的，于是想着想要记一下笔记~ 2 张量——torch.Tensor 2.1 张量的复制操作获得不进行反向传播的tensor副本（“类似于.copy()”） tensor.clone().detach_() 2.2 张量的索引操作掩码选择——tor

双2080Ti加持：Ubuntu下vllm与openweb-ui高效部署deepseek-r1实战指南

weixin_29032337的博客

02-15

549

本文详细介绍了如何在Ubuntu系统下，利用两张2080Ti显卡，通过vLLM推理引擎和Open WebUI界面高效部署DeepSeek-R1模型。文章提供了从环境搭建、驱动安装、vLLM配置、Open WebUI部署到性能调优与问题排查的完整实战指南，旨在帮助开发者充分利用现有硬件资源，实现低成本、高性能的大模型本地化部署与推理。

系统按照安装（二）：Ubuntu16.04 + RTX 2080Ti + cuda 10.1 + cudnn 7.5 + pytorch 1.0

04-23

2916

Ubuntu16.04 + RTX 2080Ti + cuda 10.1 + cudnn 7.5 一、安装显卡驱动对应的版本是418.43 sudo service lightdm stop ctl+ait+f1 ./NVIDIA-Linux-x86_64-418.43 --no-opengl-files sudo service lightdm start 二、安装Python3...

【detectron】ubuntu16.04配置detectron2

Mr_health的博客

10-23

2946

参考：https://github.com/facebookresearch/detectron2/blob/master/INSTALL.md https://github.com/pytorch/pytorch https://pytorch.org/ 安装anaconda（自行百度）安装pytorch 1、创建环境： conda c...

RTX 2080Ti/2060实测：避坑指南！用Python 3.7和PyTorch 1.4.0搞定SOLO/SOLOv2实例分割环境

最新发布

crhwkrhpunow61910的博客

06-13

269

本文详细介绍了如何在RTX 2080Ti/2060显卡上配置SOLO/SOLOv2实例分割的深度学习环境，包括Python 3.7和PyTorch 1.4.0的精确版本匹配，以及从环境搭建到模型训练的全流程指南，帮助开发者高效完成实例分割任务。

显卡算力总结

liguandong

12-06

2万+

fp16和fp32，神经网络混合精度训练,PYTORCH 采用FP16,Libtorch采用FP16,神经网络混合精度三种避免损失，TensorRT模型转换及部署（一）

AbiUni（YY熊）

03-18

2万+

文章目录基础知识利用fp16 代替 fp32PYTORCH 采用FP16后的速度提升问题Libtorch采用FP16后的速度提升问题CPU上tensor不支持FP16tf 的调用如何在TensorRT上用半精度(FP16)对Caffemodel进行inference神经网络混合精度训练三种避免损失TensorRT模型转换及部署，FP32/FP16/INT8精度区分转换流程Parser如今支持：优化策略tensorRT 运行使用IExecutionContext进行推理的基本步骤：onnx使用python接口

2024年 AI大模型我该买一张什么显卡？

zslefour的专栏

09-23

1万+

2024年 AI大模型我该买一张什么卡？我也还在犹豫选择中....

想提速但TensorRT的FP16不得劲？怎么办？在线支招！

老潘的博客

04-11

4448

问题的开始前些天尝试使用TensorRT转换一个模型，模型用TensorFlow训练，包含LSTM+Transform+CNN，是一个典型的时序结构模型，包含编码解码结构，暂称为debug.onnx吧。这个debug.onnx使用tf2onnx导出，导出后tf2onnx会自动对这个onnx做一些优化，例如常量折叠、算子融合等等一些常规操作，一般来说这些操作不会影响网络结构(也会出现影响的情况！之后老潘会说)，而且有助于模型的优化。然后导出来之后使用onnxruntime简单测试一下导出模型是否正确，是

2080Ti显卡运行ComfyUI-PuLID-Flux工作流避坑指南：从bf16报错到显存优化的完整解决方案

weixin_29233857的博客

03-18

436

本文详细解析了2080Ti显卡运行ComfyUI-PuLID-Flux工作流时遇到的bf16报错和显存优化问题，提供了从数据类型转换到代码修改的完整解决方案。针对KSampler节点类型不匹配等常见问题，给出了实用优化策略和最佳实践建议，帮助用户在中端显卡上实现稳定运行。

GTX 2080TI TensorFlow GPU基准测试：2018年最佳GPU

张伟的专栏

10-12

1万+

有人经常问，深度学习的最佳GPU是什么？近日Lambda给出了答案，他们通过比较研究人员常用的前5个GPU来获得答案（测试结果也考虑到了成本和性能）： RTX 2080 Ti RTX 2080 GTX 1080 Ti Titan V Tesla V100 · 结 · 果 · 总 · 结 · 截至2018年10月8日，N...

混合精度训练 | fp16 用于神经网络训练和预测

qq_35985044的博客

08-28

5718

混合精度训练混合精度训练是在尽可能减少精度损失的情况下利用半精度浮点数加速训练。它使用FP16即半精度浮点数存储权重和梯度。在减少占用内存的同时起到了加速训练的效果。 IEEE标准中的FP16格式如下：取值范围是5.96× 10−8 ~ 65504，而FP32则是1.4×10-45 ~ 3.4×1038。从FP16的范围可以看出，用FP16代替原FP32神经网络计算的最大问题就是精度损失。 float ：1个符号位、8个指数位和23个尾数位利用fp16 代替 fp32 ...

半精度（FP16），单精度（FP32），双精度（FP64）