哈佛自然语言处理

我们提出了将attention建模成隐变量（注意是在simplex上的attention本身而不是从attention计算出来的固定维度的context vector），应用VAE和policy gradient训练模型，在不使用kl annealing等trick的情况下训练，在IWSLT 14 German-English上建立了新的state of art。