论文标题
变压器的广义注意机制和相对位置
Generalized Attention Mechanism and Relative Position for Transformer
论文作者
论文摘要
在本文中,我们首先提出了对Vaswani等人的自我注意机制的新解释,提出了广义注意机制(GAM)。 。在解释之后,我们为共同形成GAM的不同注意机制的不同变体提供了描述。此外,我们在GAM框架内提出了一个新的相对位置表示。可以轻松地用于在实际数据集/语料库中的随机位置中,可以轻松地用于彼此相邻元素的情况。
In this paper, we propose generalized attention mechanism (GAM) by first suggesting a new interpretation for self-attention mechanism of Vaswani et al. . Following the interpretation, we provide description for different variants of attention mechanism which together form GAM. Further, we propose a new relative position representation within the framework of GAM. This representation can be easily utilized for cases in which elements next to each other in input sequence can be at random locations in actual dataset/corpus.