如何使用RAPIDS-PIP实现 GPU 加速数据科学

本文介绍了如何配置RAPIDS环境以利用GPU加速数据科学。RAPIDS是一个开源库,能够在GPU上运行完整的数据科学管道,提供与pandas类似的易用性。通过pip安装RAPIDS时,需要满足特定的前提条件,并可能遇到CUDA版本兼容性问题,需要针对性地解决。

面对大量数据,单个 CPU 难以做到切分它。

一个超过 100GB 的数据集将有许多数据点,数据点的数值在数百万甚至数十亿的范围内。有了这么多的数据点要处理,不管你的 CPU 有多快,它都没有足够的内核来进行有效的并行处理。如果你的 CPU 有 20 个内核(这将是相当昂贵的 CPU),你一次只能处理 20 个数据点!

CPUs 在时钟频率更重要的任务中会更好—或者由于你根本没有 GPU 实现。如果你尝试执行的流程有一个 GPU 实现,且该任务可以从并行处理中受益,那么 GPU 将更加有效。

RAPIDS 是一个开源软件库套件,使您可以完全在 GPU 上执行端到端的数据科学和分析管道,旨在通过利用 GPU 加速数据科学。它使用底层 CUDA 代码来实现快速的、GPU 优化的算法,同时在顶层还有一个易于使用的 Python 层。Rapids 的美妙之处在于它与数据科学库的整合非常顺畅:像 pandas DataFrames 可以容易地传递到 Rapids,以实现 GPU 加速。下图说明了 Rapids 如何在保持顶层易用性的同时实现低层的优化和加速。

cce6b91807a666f987be7d6f933c8f1b.png

RAPIDS 官方文档

今天我们在这里介绍rapids环境的配置,对于大多数安装,您需要为 RAPIDS 安装 Conda 或 Docker 环境,我们今天在这里介绍如何利用pip配置rapids环境。

首先我们进入RAPIDS-PIP的官方文档:RAPIDS-PIP

e63af17b3aae2d87e3e1dc2b91708669.png

RAPIDS用户可以再次通过pip安装RAPIDS!这是一个支持单个 GPU 使用的实验版本。

首先需要满足用pip安装的前提条件,可以看下图:

d16f1af6eb4903987c3e9e9f9cc3dcb2.png

在满足前提条件后:在终端中的安装命令为:

pip install cudf-cu11 dask-cudf-cu11 --extra-index-url=https://pypi.ngc.nvidia.com
pip install cuml-cu11 --extra-index-url=https://pypi.ngc.nvidia.com
pip install cugraph-cu11 --extra-index-url=https://pypi.ngc.nvidia.com

如今的RAPIDS pip packages托管于NVIDIA NGC上,如果在ARM architecture (aarch64)上,cupy需要被分开安装。

pip install cupy-cuda11x -f https://pip.cupy.dev/aarch64

对于使用 CUDA 11.2、11.3 或 11.4 安装这些软件包时,您可能会遇到“无法导入 CuPy”错误。要解决此错误,请卸载cupy-cuda115并安装cupy-cuda11x, 如同以下情形:

be3e9ecaac2a6f4511f41f690dbc1483.png

此时我们使用命令:

pip uninstall cupy-cuda115; pip install cupy-cuda11x

在进行完这些步骤之后我们发现仍然会出现上述命令错误,我们从官方文档中可以进行一步一步排除:

5312c7d58cc66ef95cc6ab28d211a08a.png

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值