type
status
date
slug
summary
tags
category
icon
password
作者:的泼墨佛给克呢
链接:https://www.zhihu.com/question/24021704/answer/56871231886
来源:知乎
 
最近在ICLR 2025上看到了一篇很有意思的文章(分数为8866)。文章的方法很简单,一句话就能概括,就是引入了一个频域上的损失函数,但提出和分析问题的角度却很别致。

论文链接:

代码链接:

Key Point

Motivation

正常来讲,多步时序预测的范式可以分为两类:
  • 自回归迭代(iterative forecast,简称IF):预测出下一步后,把下一步当作输入再得到下下步,这样自回归迭代式地产生多步预测结果。
  • 直接多步(direct forecast,简称DF):直接预测出多步。
由于自回归迭代方法有个致命的缺点——误差累积(假如下一步错了一点,那将它作为输入来得到下下步时,会错的更多),所以现在几乎所有的时序模型都默认是直接多步预测。但是,DF也有个问题没有考虑到,即未来多步之间是具有相关性的(也就是label correlation现象),但DF的MSE损失则是假设它们是不相关的。

Label Correlation

如下图所示,DF方法建模了未来任何一个时刻( Y_i )和过去的序列 L 之间的相关性,却没有建模未来时刻和未来时刻之间存在的自回归相关性。
notion image
作者还推导出,DF的MSE损失和真实数据的负对数似然(NLL)损失存在如下的偏差:
notion image
其中 ρij\rho_{ij} 就是未来时刻 Y_i 和 Y_j 之间的相关性。也就是说,由于未来标签(不同时刻)之间具有相关性,优化DF的MSE损失时,并不等价于优化真实数据的NLL损失。作者也对标签之间的相关性进行了可视化,如下图,发现确实存在Label Correlation的现象:
notion image

Solution

既然时域上不同未来时刻之间存在相关性,那转化到频域上,是不是就消除相关性了?
我们都知道傅里叶变换是将时域序列投影到正弦正交基上,得到的投影值就是频域的分量。由于是投影到一组正交基上,不同基上投影的系数之间( FkF_k 和 Fk′F_{k'} )就几乎没有相关性了:
notion image
所以,仍然采取DF预测范式,但是将模型预测结果和真实未来序列都直接变换到频域,在频域上计算傅里叶系数之间的损失(注意这里的系数都是复数):
notion image
这样就得到了频域的损失。将频域的损失和时域的MSE损失加权组合起来,就可以用来训练模型了。整个过程如下,其中 g(⋅)g(\cdot) 是任意多步预测模型(例如DlinearTransformer等), L(tmp)\mathcal L^{(tmp)} 是时域MSE损失, F(⋅)\mathcal F(\cdot) 是傅里叶变换。
notion image
作者发现变换到频域后,不同分量傅里叶系数之间确实几乎没有相关性了(下图中一个是实部一个是虚部):
notion image
所以,整个文章的方法其实就是提出了一个额外的频域损失(把模型预测结果序列和真实未来序列都做傅里叶变换后计算损失)。而且,文章实验部分还发现,对于大部分情况,不要时域的MSE损失,只保留频域损失,效果也不会下降。

Comments

很简洁而又有意思的工作,也给了一些理论和实验上的证据。作者提到说这种方法还可以扩展到其他领域,比如图像任务中不同像素位置之间也有相关性,而很多图像相关任务比如图像增强都是直接输出一张图像(类似于这里的DF范式)而不考虑像素之间的相关性。隐约记得似乎之前看过在cv领域中有人这样搞过,但也记不清是什么工作了。
 
 
作者:水莲
链接:https://www.zhihu.com/question/24021704/answer/2245867156
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

第一种分类

notion image
notion image

第二种分类

统计域(Statistical Domain)、谱域(Spectral Domain)和时域(Temporal Domain)的角度出发,共容纳数十种特征提取方法:
  • 基于统计域的时序特征包含:最大值(Maximum)、最小值(Minimum)、均值(Mean)、中位数(Median)、偏度(Skewness)、峰度(Kurtosis)、直方图(Histogram)、四分位距(Interquartile Range)、绝对误差均值(Mean Absolute Deviation)、绝对误差中位数(Median Absolute Deviation)、均方根(Root Mean Square)、标准差(Standard Deviation)、方差(Variance)、经验分布函数百分位数(Empirical Distribution Function Percentile Count)、经验分布函数斜率(ECDF Slope)等;
  • 基于谱域的时序特征包含:快速傅里叶变换(Fast Fourier Transform)、傅里叶变换平均系数(FFT Mean Coefficient)、小波变换(Wavelet Transform)、小波绝对均值(Wavelet Absolute Mean)、小波标准差(Wavelet Standard Deviation)、小波方差(Wavelet Variance)、谱距离(Spectral Distance)、频谱基频(Spectral Fundamental Frequency)、频谱最大频率(Spectral Maximum Frequency)、频谱中频(Spectral Median Frequency)、频谱最大峰值(Spectral Maximum Peaks)等;
  • 基于时域的时序特征包含:自相关(Autocorrelation)、质心(Centroid)、差分均值(Mean Differences)、差分绝对值均值(Mean Absolute Differences)、差分中位数(Median Differences)、差分绝对值中位数(Median Absolute Differences)、差分绝对值之和(Sum of Absolute Differences)、熵(Entropy)、波峰与波谷距离(Peak to Peak Distance)、曲线覆盖面积(Area Under the Curve)、最大峰值个数(The Number of Maximum Peaks)、最小峰值个数(The Number of Minimum Peaks)、跨零率(Zero Crossing Rate)等。

时序特征库 TSFEL

  • 直观、快速部署和可重现性: 用于特征选择和定制的交互式用户界面
  • 计算复杂度评估: 在提取特征之前估计计算量
  • 综合文献: 每种特征提取方法都有详细的说明
  • 单元测试: 我们为每个特性提供单元测试
  • 容易扩展: 添加新功能很容易,我们鼓励您贡献您的自定义功能
从统计、时间、谱域上提供超过60种特征

统计类特征

  1. 经验分布函数ECDF
是统计学中一个与样本的经验测度有关的分布函数。该累积分布函数是在所有n个数据点上都跳跃1/n的阶跃函数。在这个取值处的值为所有观测样本中小于或者等于该取值的比例。
ECDF(x)=numberofelementsinthesample≤tnECDF(x) = \frac{number\quad of \quad elements \quad in \quad the \quad sample \leq t}{n}
notion image
2. 经验分布函数百分位数
x, y = calc_ecdf(signal) x[y <= percentile].max()
notion image

谱域类特征

notion image
notion image
notion image
notion image
notion image
notion image

时域类特征

notion image
notion image
notion image
notion image
傅立叶原理表明:任何连续测量的时序或信号,都可以表示为不同频率的正弦波信号的无限叠加。而根据该原理创立的傅立叶变换算法利用直接测量到的原始信号,以累加方式来计算该信号中不同正弦波信号的频率、振幅和相位。
功率谱的概念是针对功率有限信号的,所表现的是单位频带内信号功率随频率的变化情况。保留了频谱的幅度信息,但是丢掉了相位信息,所以频谱不同的信号其功率谱是可能相同的。
小波变换(wavelet transform,WT)是一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。
其他时序特征库
FATS [2], CESIUM [3], TSFRESH [4] and HCTSA [5].
相关文章
好文留档:关于论证的本土教育现状好文留档:抓状元
Loading...