将模型压缩到 FP16

模型优化器可以将所有浮点权重转换为 FP16 数据类型。由此生成的中间表示称为 压缩 FP16 模型。得到的模型所占文件系统空间将会减少大约三分之二, 但精度可能会出现一定程度的下降。对于大多数模型,该精度的下降可以忽略不计。

要压缩模型,请使用 --compress_to_fp16 选项:

Note

自 2022.3 版本起,已弃用 –data_type 选项。 请使用 –compress_to_fp16,而不要使用 –data_type FP16。 使用 --data_type FP32 不会生成任何结果,也不会在模型中强制使用 FP32 精度。如果模型中存在 FP16 常数,则此类常数在中间表示中也会具有 FP16 精度。

mo --input_model INPUT_MODEL --compress_to_fp16

有关插件如何处理压缩 FP16 模型的详细信息,请参阅 使用设备

Note

FP16 压缩有时被用作 INT8 量化的初始步骤。 如需了解更多相关信息,请参阅 训练后优化 指南。