GPU 设备¶

GPU 插件是一个基于 OpenCL 的插件，用于在英特尔 GPU 上推理深度神经网络，包括集成 GPU 和独立 GPU。有关 GPU 插件的深入描述，请参见：

GPU 插件是英特尔® 发行版 OpenVINO™ 工具套件的一部分。有关如何配置系统以便使用它的更多详细信息，请参见 GPU 配置。

设备命名约定¶

设备被枚举为 GPU.X 。其中 X={0, 1, 2,...} （仅考虑英特尔® GPU 设备）。
如果系统具有集成 GPU，则其 id 始终为 0 (GPU.0)。
其他 GPU 的顺序不是预定义的，并且取决于 GPU 驱动程序。
GPU 是 GPU.0 的别名。
如果系统没有集成 GPU，则从 0 开始枚举设备。
对于具有多块架构的 GPU（用 OpenCL 术语来说指的是多个子设备），特定块可以作为 GPU.X.Y 进行寻址。其中 X,Y={0, 1, 2,...}，X 是 GPU 设备的 ID，Y 是设备 X 内块的 ID

为了演示目的，请参见 Hello 查询设备 C++ 样本，使用该样本可以打印出具有关联索引的可用设备列表。下面是一个示例输出（仅截断为设备名称）：

./hello_query_device
Available devices:
    Device: CPU
...
    Device: GPU.0
...
    Device: GPU.1
...
    Device: HDDL

然后，设备名称可以传递到 ov::Core::compile_model() 方法：

在默认设备上运行

C++

    ov::Core core;
    auto model = core.read_model("model.xml");
    auto compiled_model = core.compile_model(model, "GPU");

Python

core = Core()
model = core.read_model("model.xml")
compiled_model = core.compile_model(model, "GPU")

在特定 GPU 上运行

C++

    ov::Core core;
    auto model = core.read_model("model.xml");
    auto compiled_model = core.compile_model(model, "GPU.1");

Python

core = Core()
model = core.read_model("model.xml")
compiled_model = core.compile_model(model, "GPU.1")

在特定块上运行

C++

    ov::Core core;
    auto model = core.read_model("model.xml");
    auto compiled_model = core.compile_model(model, "GPU.1.0");

Python

core = Core()
model = core.read_model("model.xml")
compiled_model = core.compile_model(model, "GPU.1.0")

支持的推理数据类型¶

GPU 插件支持以下数据类型作为内部基元的推理精度：

浮点数据类型：
- f32
- f16
量化数据类型：
- u8
- i8
- u1

每个基元的所选精度取决于 IR 中的操作精度、量化基元和可用的硬件功能。 u1/u8/i8 数据类型仅用于量化操作，这意味着不会为非量化操作自动选择它们。有关如何获得量化模型的更多详细信息，请参阅模型优化指南。

GPU 基元的浮点精度是根据 OpenVINO™ IR 中的操作精度选择的，但压缩的 f16 OpenVINO™ IR 格式除外。该格式以 f16 精度执行。

Note

i8/u8 精度的硬件加速在某些平台上可能不可用。在这种情况下，以从 IR 获取的浮点精度执行模型。可以通过 ov::device::capabilities 属性查询支持 u8/i8 加速的硬件。

Hello 查询设备 C++ 样本可以用于打印出所有检测到的设备支持的数据类型。

支持的属性¶

插件支持以下所列属性。

读写属性¶

在调用 ov::Core::compile_model() 之前必须设置所有参数才能生效或作为附加参数传递给 ov::Core::compile_model() 。

只读属性¶

限制¶

在某些情况下，GPU 插件可能会使用内部实现在 CPU 上隐式地执行多个基元，这可能会导致 CPU 利用率增加。以下是此类操作的列表：

提案
NonMaxSuppression
DetectionOutput

行为取决于操作的特定参数和硬件配置。

GPU 性能清单：摘要¶

由于 OpenVINO™ 依赖 OpenCL 内核进行 GPU 实现。因此许多通用 OpenCL 提示都适用：

FP16 推理精度优于 FP32，因为模型优化器可以生成两个变体，并且 FP32 是默认值。此外，请考虑使用训练后优化工具。
尝试使用自动批处理对各个推理作业进行分组。
考虑缓存，以尽量减少模型加载时间。
如果您的应用在 CPU 和 GPU 上执行推理，或者以其他方式重载主机，请确保 OpenCL 驱动程序线程不会停顿。CPU 配置选项可以用于限制 CPU 插件的推理线程数量。
即使仅在 GPU 上执行推理，GPU 驱动程序可能会占用 CPU 核心，并通过自旋循环轮询来完成。如果 CPU 负载是一个问题，请考虑前面提到的专用 queue_throttle 属性。请注意，此选项可能会增加推理延迟。因此请考虑将其与多个 GPU 流或吞吐量性能提示结合使用。
操作媒体输入时，请考虑 GPU 插件的远程张量 API 。

GPU 设备¶

设备命名约定¶

支持的推理数据类型¶

支持的功能¶

多设备执行¶

自动批处理¶

多流执行¶

动态输入¶

预处理加速¶

模型缓存¶

扩展性¶

GPU 上下文和内存通过 RemoteTensor API 共享¶

支持的属性¶

读写属性¶

只读属性¶

限制¶

GPU 性能清单：摘要¶

其他资源¶