《A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS》的作者团队来自Princeton University 和 IBM Research,发表在 ICLR 2023 会议上。
动机
Transformer模型因其自注意力机制在处理序列数据方面的优势,在自然语言处理(NLP)、计算机视觉(CV)、语音等多个领域取得了巨大成功。这种机制使得模型能够自动学习序列元素之间的联系,使其成为序列建模任务的理想选择。
尽管Transformer及其变体在时间序列预测中取得了一定的成功,但最近的研究表明,简单的线性模型在多个常见基准测试中的表现可能优于这些复杂的模型。这引发了对Transformer在时间序列预测中有效性的质疑。
为了回答这个问题,论文提出了一种新的基于Transformer的模型,称为PatchTST(Patch Time Series Transformer),它包含两个关键设计:分块(Patching)和通道独立性(Channel-independence)。这些设计旨在提高模型在长期预测任务中的准确性,同时减少计算和内存使用,使模型能够处理更长的历史序列。
除了监督学习,论文还探讨了自监督预训练任务,并展示了模型在迁移学习场景下的性能&#