蒸馏翻译模型的详细过程
模型 opus-mt-small320d-opus100-joint32k-ft-money-coffee-ct2-int8 完整训练手册 这个模型是用来做 en –> zh 的翻译用的极小模型 原本模型本体是 opus-mt ,模型大小296M。 -rw-rw-r-- 1 ubuntu ubuntu 1.4K May 19 08:20 config.json -rw-rw-r-- 1 ubuntu ubuntu 287 May 19 08:20 generation_config.json -rw-rw-r-- 1 ubuntu ubuntu 296M May 19 08:20 model.safetensors -rw-rw-r-- 1 ubuntu ubuntu 788K May 19 08:20 source.spm -rw-rw-r-- 1 ubuntu ubuntu 786K May 19 08:20 target.spm -rw-rw-r-- 1 ubuntu ubuntu 822 May 19 08:20 tokenizer_config.json -rw-rw-r-- 1 ubuntu ubuntu 1.7M May 19 08:20 vocab.json 蒸馏量化完变成了20M,这样整个en <–> zh的翻译软件,就只有60M左右,完美 -rw-rw-r-- 1 ubuntu ubuntu 223 Apr 21 05:27 config.json -rw-rw-r-- 1 ubuntu ubuntu 1007 Apr 21 05:27 generation_config.json -rw-rw-r-- 1 ubuntu ubuntu 20M Apr 21 05:27 model.bin -rw-rw-r-- 1 ubuntu ubuntu 620K Apr 21 05:27 shared_vocabulary.json -rw-rw-r-- 1 ubuntu ubuntu 778K Apr 21 05:27 source.spm -rw-rw-r-- 1 ubuntu ubuntu 778K Apr 21 05:27 target.spm -rw-rw-r-- 1 ubuntu ubuntu 819 Apr 21 05:27 tokenizer_config.json -rw-rw-r-- 1 ubuntu ubuntu 828K Apr 21 05:27 vocab.json 整个蒸馏的过程和代码都放到github了:https://github.com/zhangrr/distill-opus-mt-en-zh ...