Token Statistics Transformer (ToST) 提出了一种新的注意力机制,它的时间复杂度是线性的。通过对序列特征的统计建模,ToST 提高了序列处理任务中的效率。
Token Statistics Transformer (ToST) 提出了一种新的注意力机制,它的时间复杂度是线性的。 本文第一作者为加州大学伯克利分校三年级博士生吴梓阳,导师为马毅教授。吴的主要研究方向为表征学习与多模态学习。该工作由多所学校与机构的研究者共同完成,包括加州 ...