Transformer-XL

在 Character-Level Language Modeling with Deeper Self-Attention 中,作者提到 LSTM 和 RNN 变体能够在对字符级 … 继续阅读 Transformer-XL