将模型压缩到 FP16¶
模型优化器可以将所有浮点权重转换为 FP16 数据类型。由此生成的中间表示称为
压缩 FP16 模型。得到的模型所占文件系统空间将会减少大约三分之二,
但精度可能会出现一定程度的下降。对于大多数模型,该精度的下降可以忽略不计。
要压缩模型,请使用 --compress_to_fp16 选项:
Note
自 2022.3 版本起,已弃用 –data_type 选项。
请使用 –compress_to_fp16,而不要使用 –data_type FP16。
使用 --data_type FP32 不会生成任何结果,也不会在模型中强制使用 FP32 精度。如果模型中存在 FP16 常数,则此类常数在中间表示中也会具有 FP16 精度。
mo --input_model INPUT_MODEL --compress_to_fp16
有关插件如何处理压缩 FP16 模型的详细信息,请参阅 使用设备 。
Note
FP16 压缩有时被用作 INT8 量化的初始步骤。
如需了解更多相关信息,请参阅 训练后优化 指南。