将模型压缩到 FP16¶

模型优化器可以将所有浮点权重转换为 FP16 数据类型。由此生成的中间表示称为压缩 FP16 模型。得到的模型所占文件系统空间将会减少大约三分之二，但精度可能会出现一定程度的下降。对于大多数模型，该精度的下降可以忽略不计。

要压缩模型，请使用 --compress_to_fp16 选项：

Note

自 2022.3 版本起，已弃用 –data_type 选项。请使用 –compress_to_fp16，而不要使用 –data_type FP16。使用 --data_type FP32 不会生成任何结果，也不会在模型中强制使用 FP32 精度。如果模型中存在 FP16 常数，则此类常数在中间表示中也会具有 FP16 精度。

mo --input_model INPUT_MODEL --compress_to_fp16

有关插件如何处理压缩 FP16 模型的详细信息，请参阅使用设备。

Note

FP16 压缩有时被用作 INT8 量化的初始步骤。如需了解更多相关信息，请参阅训练后优化指南。