【机器翻译】Fairseq常用checkpoint相关训练参数
-eval-bleu-remove-bpe sentencepiece 不适合目标端为中文。--patience x个epoch后不再出现checkpoint_best训练终止。--eval-bleu-detok moses 不适合目标端为中文。目标端为中文可以使用sacremoses生成bleu的待测文档。--finetune-from-model 迁移学习可以用。sacremoses的效果。
·
--finetune-from-model 迁移学习可以用
--patience x个epoch后不再出现checkpoint_best训练终止
--keep-last-epochs
--eval-bleu-detok moses 不适合目标端为中文
--eval-bleu-remove-bpe sentencepiece 不适合目标端为中文
--best-checkpoint-metric bleu
--maximize-best-checkpoint-metric
目标端为中文可以使用sacremoses生成bleu的待测文档
#中文完整后处理流程
#从fairseq-generate或fairseq-interactive生成的结果中抽取预测结果
grep ^H beam8.txt | cut -f3- > predict.en-zh.zh
#用sacremoses做tokenize,中文将被分割为字,英文是单词
#预测文件
sacremoses -j 4 tokenize < predict.en-zh.zh > predict.en-zh.zh.multi
#参考文件
sacremoses -j 4 tokenize < answer.en-zh.zh > answer.en-zh.zh.multi
#计算multibleu
fairseq-score -r answer.en-zh.zh.multi -s predict.en-zh.zh.multi \
| tee "en-zh.multibleu"
sacremoses的效果
在 美 国 , 投 资 几 乎 没 有 超 过 危 机 前 水 平 , 尽 管 GDP 增 长 了 10 % 。
在 拉 美 国 家 经 济 学 教 授 诺 拉 · 卢 斯 蒂 格 ( Nora Lustig ) 的 领 导 下 , 飓 风 大 学 平 等 研 究 所 的 一 支 团 队 为 收 入 分 配 状 况 和 政 府 政 策 对 分 配 的 影 响 创 造 了 全 面 数 据 库 。
更多推荐




所有评论(0)