在深度学习技术的飞速发展中,Transformer模型无疑成为了当今研究的热点,它凭借其独特的架构和强大的表达能力,在自然语言处理、计算机视觉和语音识别等领域取得了令人瞩目的成果。

今天,特意为大家整理了14篇Transformer热门论文,这些论文涵盖了注意力机制、架构改进以及适用性扩展等多个方向,一起看看Transformer方向近期的研究成果和进展吧!

┃Attention机制改进与替代

1、Rethinking Attention: Exploring Shallow Feed-Forward Neural Networks as an Alternative to Attention Layers in Transformers(AAAI2024)

重新思考注意力:探索浅层前馈神经网络作为Transformer中注意力层的替代方案

简述:本文研究探讨了使用简单的浅层前馈网络来模拟Transformer模型中注意力机制的有效性,研究用浅层前馈网络替换了Transformer中注意力机制的关键元素,并通过知识蒸馏对这些网络进行训练。在IWSLT2017数据集上的实验表明,这些“无注意力的变形金刚”与原始架构的性能相当。通过消融研究和替代网络试验,支持了该方法的可行性,这表明浅层前馈网络在简化序列到序列任务的复杂架构方面具有潜力。

2、Fairness-Aware Structured Pruning in Transformers(AAAI2024)

Transformer中的公平感知结构化剪枝

简述:本文研究分析了注意力头如何影响基于转换器的预训练语言模型中的公平性和性能,并提出了一种新方法,用于修剪对公平性产生负面影响的注意力头,同时保留对性能至关重要的注意力头。这种方法实用,因为它不需要微调最终修剪的模型。研究结果表明,与有偏见的模型相比,不同尺寸的模型在减少性别偏见的同时,性能仅略有下降。

3、FLatten Transformer: Vision Transformer using Focused Linear Attention(ICCV2023)

FLattenTransformer:使用聚焦线性注意力的视觉Transformer

简述:本文提出了一种聚焦线性注意力模块,旨在提高效率和性能。通过分析线性注意力的局限性,研究人员引入了映射函数和秩恢复模块,增强了自我注意力的表现力,同时保持较低的计算复杂度。实验证明,该模块适用于多种视觉转换器,并在多个基准测试中实现了性能提升。

┃Transformer架构改进

4、SeTformer is What You Need for Vision and Language(AAAI2024)

SeTformer:视觉与语言任务所需的模型

简述:本文提出了一种新型变压器SeTformer,完全用自优化传输(SeT)替代了点积自注意力(DPSA),以提高性能和计算效率。SeT基于两个基本softmax属性:保持非负注意力矩阵和使用非线性重新加权机制强调重要标记。在ImageNet-1K上,SeTformer实现了84.7%和86.2%的前1准确率,并在目标检测和语义分割任务中优于其他模型。SeTformer还在GLUE基准测试中实现了最先进的语言建模结果,展示了其在视觉和语言任务中的适用性。

5、Simplifying Transformer Blocks

简化Transformer块

简述:深度 Transformer 的复杂构建块可能导致训练困难,本文研究探索了简化标准 Transformer 块的可行性。通过结合理论和观察,研究人员修改了模块,移除了跳过连接、投影或值参数、顺序子块和归一化层,以简化结构。在自回归解码器和 BERT 编码器模型实验中,简化版 Transformer 与标准版速度和性能相当,但训练吞吐量提高 15%,参数减少 15%。

6、Token Merging: Your ViT But Faster(ICLR 2023)

Token合并:你的ViT但更快

简述:本文提出了令牌合并(ToMe),一种简单且无需训练的方法,能够提高现有ViT模型的吞吐量。ToMe使用准确的匹配算法将相似标记组合在一起,使得图像和视频吞吐量大幅提升,精度下降很小。ToMe也能够用于训练,加速MAE视频微调,并且使音频吞吐量提高2倍,mAP下降仅0.4%。总体而言,ToMe在图像、视频和音频方面的准确性和速度与最先进的产品相媲美。

7、Effcient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer(EMNLP2023)

高效长程Transformer:你需要更多地关注,但不必在每一层都进行注意

简述:本文提出了 MASFormer,这是一种转换器变体,它使用混合注意跨度来高效处理远程和短程依赖关系。在自然语言建模和生成任务中,MASFormer 表现出与普通变压器相当的性能,但计算成本显著降低(高达 75%)。此外,研究人员还研究了使用长序列数据进行持续训练的有效性,以及序列长度对生成性能的影响。

8、Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture(NeurIPS 2023)

Monarch Mixer:基于GEMM的简单亚二次架构

简述:本文提出了一种新架构Monarch Mixer(M2),使用亚二次基元沿序列长度和模型维度扩展。M2通过Monarch矩阵实现,这是一种简单但富有表现力的结构化矩阵类,能够在GPU上实现高硬件效率。实验表明,M2在非因果BERT风格语言建模、ViT风格图像分类和因果GPT风格语言建模中表现出色,与BERT-base和BERT-large在GLUE质量上相匹配,参数最多减少27%,在ImageNet上精度提高,同时在The PILE的预训练困惑中以360M参数匹配GPT风格的Transformers,表明了在缺乏注意力或MLP的情况下匹配Transformer质量的可能性。

┃Transformer适用性扩展

9、iTransformer: Inverted Transformers Are Effective for Time Series Forecasting(ICLR 2024)

iTransformer:反相变压器对时间序列预测有效

简述:本文提出了iTransformer模型,通过将时间序列中的每个变量独立嵌入为变量子token,并应用自注意力机制和前馈网络来学习非线性表示,有效地捕捉多变量相关性并提高预测性能。iTransformer在具有挑战性的真实数据集上实现了最先进的技术,增强了Transformer系列的性能、泛化能力以及对任意回溯窗口的利用,使其成为时间序列预测的基本支柱。

10、Vision Transformers Need Registers(ICLR 2024)

视觉 Transformer 需要寄存器

简述:本文研究了监督和自监督视觉Transformer(ViT)网络中的特征图伪影,这些伪影与推理时的高范数标记相关,主要位于图像的低信息背景区域。为了解决这个问题,研究人员提出了一种为输入序列添加额外令牌的方法,这有效解决了监督和自监督模型的问题。这项改进为自监督视觉模型在密集视觉预测任务上设定了新的技术标准,使得使用更大模型的对象检测方法成为可能,并为下游视觉处理提供了更平滑的特征图和注意力图。

11、Multi-scale Transformers with Adaptive Pathways for Time Series Forecasting(ICLR 2024)

具有自适应路径的多尺度变换器用于时间序列预测

简述:本文提出了Pathformer,一种具有自适应通路的多尺度Transformer模型,用于时间序列预测。该模型通过将时间序列划分为不同尺度的斑块并进行双重注意力机制,捕捉全局和局部特征。自适应路径进一步优化了多尺度建模过程,提升了预测精度和泛化性。实验证明,Pathformer在多个真实数据集上超越了当前所有模型,展现了卓越的性能和泛化能力。

12、OneFormer: One Transformer to Rule Universal Image Segmentation(CVPR2023)

OneFormer:一个Transformer统治通用图像分割

简述:本文提出了OneFormer,一个通用的图像分割框架,通过将分割与多任务训练相结合,实现了对语义、实例和全景分割的联合训练。OneFormer使用任务令牌动态调节模型,支持多任务训练和推理。此外,研究人员在训练中引入了查询文本对比损失,以增强任务间和类间的区分。实验表明,OneFormer在ADE20k、Cityscapes和COCO的三个分割任务上都优于单独训练的Mask2Former模型。

13、Crossformer: Transformer Utilizing Cross-Dimension Dependency for Multivariate Time Series Forecasting(ICLR 2023)

Crossformer:利用跨维度依赖关系进行多变量时间序列预测的 Transformer

简述:本文提出了一种基于Transformer的模型Crossformer,专为多变量时间序列(MTS)预测而设计,它通过DSW嵌入方法将MTS数据转为2D阵列,并使用两阶段注意力(TSA)层捕捉时间和跨维度依赖。该模型采用了分层编码器-解码器(HED)框架,以便有效地利用不同尺度的信息进行预测。实验结果表明,Crossformer 在真实世界数据集上的表现优于之前的技术。

┃精度与效率平衡

14、EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention(CVPR2023)

EfficientViT: 具有级联组注意力的内存高效视觉Transformer

简述:本文提出了一种称为Efficient ViT的高速视觉Transformer,为了提高现有transformer模型的速度,研究人员使用了一种三明治布局的新构建块,使用单个内存绑定的MHSA,在保证通道通信的同时提高内存效率。还使用了级联的群体注意力模块来提高注意力多样性,避免计算冗余。实验表明,Efficient ViT优于现有的高效模型,在速度和精度方面获得了良好的平衡。

码字不易,欢迎大家点赞评论收藏!

关注下方《享享学AI》

回复【Transformer】获取完整论文