
我们提出了将attention建模成隐变量(注意是在simplex上的attention本身而不是从attention计算出来的固定维度的context vector),应用VAE和policy gradient训练模型,在不使用kl annealing等trick的情况下训练,在IWSLT 14 German-English上建立了新的state of art。
Auto Byte
专注未来出行及智能汽车科技
微信扫一扫获取更多资讯
Science AI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展
微信扫一扫获取更多资讯
我们提出了将attention建模成隐变量(注意是在simplex上的attention本身而不是从attention计算出来的固定维度的context vector),应用VAE和policy gradient训练模型,在不使用kl annealing等trick的情况下训练,在IWSLT 14 German-English上建立了新的state of art。