傅里叶变换取代Transformer自注意力层,谷歌这项研究GPU上快7倍、TPU上快2倍
来自谷歌的研究团队表明,将傅里叶变换取代 transformer 自监督子层,可以在 GLUE 基准测试中实现 92% 的准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的训练时间快 2 倍。
通过用标准的非参数化傅里叶变换代替注意力子层,FNet 在 GLUE 基准测试中实现 92% 的 BERT 准确率,在 GPU 上的训练时间快 7 倍,在 TPU 上的训练时间快 2 倍。
仅包含两个自注意子层的 FNet 混合模型在 GLUE 基准上可达到 97%的 BERT 准确率,但在 GPU 上的训练速度快近 6 倍,而在 TPU 上则是 2 倍。
FNet 在「Long Range Arena」基准评估中,与所有的高效 transformer 具有竞争力,同时在所有序列长度上拥有更少的内存占用。
2021 AI 100 Connect Webinar
交流分享、直播互动、产业对接,识别海报二维码加入交流群,英特尔AI百佳AI算法与平台专场等你来撩!
??THE END?
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com