理解PCIE设备透传

原创

已于 2025-12-13 15:25:55 修改 · 1.8k 阅读

标签

#linux

于 2024-01-19 23:33:40 首次发布

PCIE设备透传解决的是使虚拟机直接访问PCIE设备的技术，通常情况下，为了使虚拟机能够访问Hypervisor上的资源，QEMU，KVMTOOL等虚拟机工具提供了"trap and emulate"， Virtio半虚拟化等机制实现。但是这些实现都需要软件的参与，性能较低。

trap and emulate情况下，虚拟机每次访问硬件资源都要进行VMExit退出虚拟机执行相应的设备模拟或者访问设备的操作，完成后再执行VMEnter进入虚拟机。频繁的模式切换导致IO访问的低效。

而Virtio则是一种半虚拟化机制，要求虚拟机中运行的操作系统需要加载特殊的virtio前端驱动(Virtio-xxx)，虚拟机通过循环命令队列和Hypervisor上运行的Virtio后端驱动进行通信，后端驱动负责适配不同的物理硬件设备，再收到命令后，后端驱动执行命令。

PCIE设备透传到底"透"了什么？

参考如下两篇文章搭建PCIE设备PASS-THROUGH的环境：

KVM虚拟化之小型虚拟机kvmtool的使用-CSDN博客

ubuntu18.04下pass-through直通realteck PCI设备到qemu-kvm虚拟机实践_kvm网卡直通-CSDN博客

透了HOST MEMORY

设备透传解决了让虚拟机中的驱动使用IOVA访问物理内存的问题，在KVMTOOL中，它是通过调用VFIO的VFIO_IOMMU_MAP_DMA 命令来实现的，用来将IOVA映射到具体的物理页面上（通过HVA 得到HVA对应的物理页面，再进行映射）。下图说明了一切问题：

0.映射SIZE为整个GPA大小，也就是虚拟机的整个物理内存。

1.kvm->ram_start和bank->host_addr相同，表示被映射的区域，VFIO驱动会通过bank->host_addr找到对应的PAGE页面。

2.iova为bank->guest_phys_addr，也就是虚拟机内的GPA。也就是说，IOMMU页表建立后，透传的设备驱动可以通过和CPU一致的物理地址，访问到真实的物理页面上（HPA），这样，从CPU和涉笔的角度，可以做大IOVA==GPA。

3.映射完成后，从虚拟机的角度来看，CPU看到的物理地址（GPA）和硬件看到的物理地址（IOVA）都通过各自的路径（前者通过EPT，后者通过IOMMU）访问同一个存储单元。

4. IOVA到HPA的映射通过HOST主机的VFIO驱动完成，VFIO驱动代码规模比较小，VFIO驱动的一个重要功能之一通过设备节点的方式，使用户态应用能够进行IOMMU映射，从这个角度来讲，VFIO是一个精简的IOMMU驱动和管理框架。

GPA和IOVA建立后的效果如下，设备和CPU通过相同的地址，就可以访问到同一个物理单元，这样虚拟机系统不需通过VMM就可以直接访问到设备，这就是设备“透传”的本质吧。

下面是一个演示设备透传的程序：

#include <stdio.h>
#include <stdlib.h>
#include <sys/stat.h>
#include <fcntl.h>
#include <sys/ioctl.h>
#include <unistd.h>
#include <string.h>
#include <sys/mman.h>
#include <errno.h>
#include <linux/vfio.h>

#define IOVA_DMA_MAPSZ  (1*1024UL*1024UL)
#define IOVA_START      (0UL)
#define VADDR           0x400000000000
// refer https://www.cnblogs.com/dream397/p/13546968.html
// container fd: the container provides little functionality, with all but a couple vrson and extension query interfaces.
// 1. first identify the group associated wth the desired device.
// 2. unbinding the device from the host driver and binding it to a vfio driver, then a new group would appear for the group as /dev/vfio/$group.
//    make sure all the devices belongs to the g