Transformer-XL

在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级语言建模有着非常优秀的表现,这得益于它能 … 继续阅读 Transformer-XL