
我们提出了将attention建模成隐变量(注意是在simplex上的attention本身而不是从attention计算出来的固定维度的context vector),应用VAE和policy gradient训练模型,在不使用kl annealing等trick的情况下训练,在IWSLT 14 German-English上建立了新的state of art。
我们提出了将attention建模成隐变量(注意是在simplex上的attention本身而不是从attention计算出来的固定维度的context vector),应用VAE和policy gradient训练模型,在不使用kl annealing等trick的情况下训练,在IWSLT 14 German-English上建立了新的state of art。