OpenVINO™ 工具套件英特尔预训练模型概览

OpenVINO™ 工具套件提供了一组英特尔预训练模型,可用于学习和演示目的或用于开发深度学习软件。GitHub 上的存储库中提供了最新版本。英特尔预训练模型设备支持表格总结了每种型号支持的设备。

模型可以通过模型下载器进行下载。

温馨提示:您也可以在 OpenVINO™ 深度学习工作台 (DL Workbench) 中下载和分析英特尔® 预训练模型。DL Workbench 是一个基于 OpenVINO™ 构建的平台,提供基于 Web 的图形环境,使您能够优化、微调、分析、可视化和比较深度学习模型在各种英特尔® 架构配置上的性能。在深度学习工作台中,您可以使用大多数 OpenVINO™ 工具套件组件。
继续从 Docker 轻松安装以开始。

对象检测模型

多种检测模型可用于检测一组最流行的对象 - 例如:人脸、人、车辆。大多数网络都是基于固态硬盘的,并提供合理的准确性/性能权衡。检测相同类型对象(例如face-detection-adas-0001face-detection-retail-0004)的网络以较低的性能为代价提供了更高准确度/更广泛适用性的选择,因此您可以期望“更大”的网络能够更好地检测相同类型的对象。

模型名称复杂性 (GFLOP)尺寸 (Mp)
faster-rcnn-resnet101-coco-sparse-60-0001364.2152.79
face-detection-adas-00012.8351.053
face-detection-retail-00041.0670.588
face-detection-retail-00050.9821.021
face-detection-02000.7851.828
face-detection-02021.7671.842
face-detection-02042.4051.851
face-detection-02052.8532.392
face-detection-0206339.59769.920
person-detection-retail-000212.4273.244
person-detection-retail-00132.3000.723
person-detection-action-recognition-00057.1401.951
person-detection-action-recognition-00068.2252.001
person-detection-action-recognition-teacher-00027.1401.951
person-detection-raisinghand-recognition-00017.1381.951
person-detection-02000.7861.817
person-detection-02011.7681.817
person-detection-02023.1431.817
person-detection-02036.5192.394
person-detection-0106404.26471.565
pedestrian-detection-adas-00022.8361.165
pedestrian-and-vehicle-detector-adas-00013.9741.650
vehicle-detection-adas-00022.7981.079
vehicle-detection-02000.7861.817
vehicle-detection-02011.7681.817
vehicle-detection-02023.1431.817
person-vehicle-bike-detection-crossroad-00783.9641.178
person-vehicle-bike-detection-crossroad-10163.5602.887
person-vehicle-bike-detection-crossroad-yolov3-102065.98461.922
person-vehicle-bike-detection-20000.7871.821
person-vehicle-bike-detection-20011.7701.821
person-vehicle-bike-detection-20023.1631.821
person-vehicle-bike-detection-20036.5502.416
person-vehicle-bike-detection-20041.8112.327
vehicle-license-plate-detection-barrier-01060.3490.634
product-detection-00013.5983.212
person-detection-asl-00010.9861.338
yolo-v2-ava-000129.3848.29
yolo-v2-ava-sparse-35-000129.3848.29
yolo-v2-ava-sparse-70-000129.3848.29
yolo-v2-tiny-ava-00016.97515.12
yolo-v2-tiny-ava-sparse-30-00016.97515.12
yolo-v2-tiny-ava-sparse-60-00016.97515.12
yolo-v2-tiny-vehicle-detection-00015.42411.229

对象识别模型

对象识别模型用于分类、回归和字符识别。在相应的检测器之后使用这些网络(例如:人脸检测之后的年龄/性别识别)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
age-gender-recognition-retail-00130.0942.138
head-pose-estimation-adas-00010.1051.911
license-plate-recognition-barrier-00010.3281.218
vehicle-attributes-recognition-barrier-00390.1260.626
vehicle-attributes-recognition-barrier-00420.46211.177
emotions-recognition-retail-00030.1262.483
landmarks-regression-retail-00090.0210.191
facial-landmarks-35-adas-00020.0424.595
person-attributes-recognition-crossroad-02300.1740.735
person-attributes-recognition-crossroad-02342.16723.510
person-attributes-recognition-crossroad-02381.03421.797
gaze-estimation-adas-00020.1391.882

重新识别模型

精确跟踪视频中的对象是计算机视觉的常见应用(例如:人员统计)。它通常被一组事件复杂化,这些事件可以被描述为“一个对象的相对长期缺席”。例如,这可能是由遮挡或帧外移动引起的。在这种情况下,最好将对象识别为“以前见过”,而不管其在图像中的当前位置或自上次已知位置以来经过的时间。

以下网络可用于此类场景。他们拍摄一个人的图像并评估嵌入 - 高维空间中的一个向量,代表这个人的外表。该向量可用于进一步评估:对应于同一个人的图像将具有按 L2 度量(欧几里得距离)“接近”的嵌入向量。

有多种模型在性能和准确性之间提供各种权衡(期望更大的模型表现更优)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
face-reidentification-retail-00950.5881.107
person-reidentification-retail-02880.1740.183
person-reidentification-retail-02870.5640.595
person-reidentification-retail-02861.1701.234
person-reidentification-retail-02771.9932.103

语义分割模型

语义分割是对象检测问题的扩展。语义分割模型不返回边界框,而是返回输入图像的“绘制”版本,其中每个像素的“颜色”代表某个类别。这些网络比各自的对象检测网络大得多,但它们提供了更好的(像素级)对象定位,并且它们可以检测具有复杂形状的区域(例如,道路上的自由空间)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
road-segmentation-adas-00014.7700.184
semantic-segmentation-adas-000158.5726.686
unet-camvid-onnx-0001260.131.03
icnet-camvid-ava-0001151.8225.45
icnet-camvid-ava-sparse-30-0001151.8225.45
icnet-camvid-ava-sparse-60-0001151.8225.45

实例分割模型

实例分割是对象检测和语义分割问题的扩展。实例分割模型不是预测每个对象实例周围的边界框,而是为所有实例输出逐像素掩码。

模型名称复杂性 (GFLOP)尺寸 (Mp)
instance-segmentation-security-0002423.084248.3732
instance-segmentation-security-0091828.6324101.236
instance-segmentation-security-0228147.235249.8328
instance-segmentation-security-103913.967210.5674
instance-segmentation-security-104029.33413.5673

人类姿态估计演示

人体姿势估计任务是为输入图像或视频中的每个人预测姿势:身体骨架,它由关键点和它们之间的连接组成。关键点是身体关节,即耳朵、眼睛、鼻子、肩膀、膝盖等。这种方法有两大类:自上而下和自下而上。第一个检测给定帧中的人,裁剪或重新调整检测,然后为每个检测运行姿势估计网络。这些方法非常准确。第二个找到给定帧中的所有关键点,然后按人物实例将它们分组,因此比以前更快,因为网络运行一次。

模型名称复杂性 (GFLOP)尺寸 (Mp)
人体-姿态-估计-000115.4354.099
human-pose-estimation-00055.93938.1504
human-pose-estimation-00068.87208.1504
human-pose-estimation-000714.37078.1504

图像处理

深度学习模型在各种图像处理任务中得到应用,以提高输出质量。

模型名称复杂性 (GFLOP)尺寸 (Mp)
single-image-super-resolution-103211.6540.030

| single-image-super-resolution-1033 | 30.97 | 16.062 | 0.030 | | text-image-super-resolution-0001 | 1.379 | 0.003 |

文字检测

用于各种应用中文本检测的深度学习模型。

模型名称复杂性 (GFLOP)尺寸 (Mp)
text-detection-000351.2566.747
text-detection-000423.3054.328
horizontal-text-detection-00017.7182.259

文本识别

用于各种应用中文本识别的深度学习模型。

模型名称复杂性 (GFLOP)尺寸 (Mp)
text-recognition-00121.4855.568
text-recognition-00140.54422.839
text-recognition-0015
编码器12.4398
解码器0.034.33
handwritten-score-recognition-00030.7925.555
handwritten-japanese-recognition-0001117.13615.31
handwritten-simplified-chinese-recognition-0001134.51317.270
formula-recognition-medium-scan-0001
编码器16.561.86
解码器1.692.56
formula-recognition-polynomials-handwritten-0001
编码器12.84470.2017
解码器8.68382.5449

文本识别

用于文本识别的深度学习模型(同时检测和识别)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
text-spotting-0005
text-spotting-0005-detector184.49527.010
text-spotting-0005-recognizer-encoder2.0821.328
text-spotting-0005-recognizer-decoder0.0020.273

动作识别模型

动作识别模型预测正在短视频剪辑(通过堆叠输入视频中的采样帧形成的张量)上执行的动作。某些模型(例如:driver-action-recognition-adas-0002可能使用预先计算的高级空间或时空)特征(嵌入)来自单个剪辑片段,然后将它们聚合在时间模型中以预测具有分类分数的向量。计算嵌入的模型称为编码器,而预测实际标签的模型称为解码器

模型名称复杂性 (GFLOP)尺寸 (Mp)
driver-action-recognition-adas-0002
driver-action-recognition-adas-0002-encoder0.6762.863
driver-action-recognition-adas-0002-decoder0.1474.205
action-recognition-0001
action-recognition-0001-encoder7.34021.276
action-recognition-0001-decoder0.1474.405
asl-recognition-00046.6604.133
common-sign-language-00024.2274.113
weld-porosity-detection-00013.63611.173

图像检索

用于图像检索的深度学习模型(根据“图库”图像与某些“探测”图像的相似性对它们进行排名)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
image-retrieval-00010.6132.535

压缩的模型

深度学习压缩模型

模型名称复杂性 (GFLOP)尺寸 (Mp)
resnet50-binary-00011.0027.446
resnet18-xnor-binary-onnx-0001--

回答问题

模型名称复杂性 (GFLOP)尺寸 (Mp)
bert-large-uncased-whole-word-masking-squad-0001246.93333.96
bert-large-uncased-whole-word-masking-squad-int8-0001246.93333.96
bert-large-uncased-whole-word-masking-squad-emb-0001246.93(面向 [1,384] 的输入尺寸)333.96
bert-small-uncased-whole-word-masking-squad-000123.957.94
bert-small-uncased-whole-word-masking-squad-000223.941.1
bert-small-uncased-whole-word-masking-squad-int8-000223.941.1
bert-small-uncased-whole-word-masking-squad-emb-int8-000123.9(面向 [1,384] 的输入尺寸)41.1

机器翻译

模型名称复杂性 (GFLOP)尺寸 (Mp)
machine-translation-nar-en-ru-000123.1769.29
machine-translation-nar-ru-en-000123.1769.29
machine-translation-nar-en-de-000223.1977.47
machine-translation-nar-de-en-000223.1977.47

文字转语音

用于语音合成的深度学习模型(梅尔频谱生成和波形生成)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
text-to-speech-en-0001
text-to-speech-en-0001-duration-prediction15.8413.569
text-to-speech-en-0001-regression7.654.96
text-to-speech-en-0001-generation48.3812.77

用于语音合成的深度学习模型(梅尔频谱生成和波形生成)。

模型名称复杂性 (GFLOP)尺寸 (Mp)
text-to-speech-en-multi-0001
text-to-speech-en-multi-0001-duration-prediction28.7526.18
text-to-speech-en-multi-0001-regression7.815.12
text-to-speech-en-multi-0001-generation48.3812.77

用于噪声抑制的深度学习模型。

模型名称复杂性 (GFLOP)尺寸 (Mp)
noise-suppression-poconetlike-00011.27.22

时间序列预测方法

用于时间序列预测的深度学习模型。

模型名称复杂性 (GFLOP)尺寸 (Mp)
time-series-forecasting-electricity-00010.402.26

另请参阅

法律信息

[*]文中涉及的其它名称及商标属于各自所有者资产。