当前位置: 去除器 >> 去除器前景 >> JournalClubJCHROMA
第一作者:AlexanderKensert
通讯作者:DeirdreCabooter
通讯单位:UniversityofLeuven(KULeuven),DepartmentforPharmaceuticalandPharmacologicalSciences,PharmaceuticalAnalysis,Leuven,Belgium;
:
色谱中对于基线噪音以及基线漂移的去除对于准确检测和量化混合物种的分析物是至关重要的。
常用的基线噪音和基线漂移去除算法有使用各类窗函数的平滑算法以及多项式拟合,非对称最小二乘法等。但是存在窗口大小难以选择,对峰的处理不准确等问题。
本工作中,开发了一种深度一维卷积自动编码器,可以实现同时去除基线噪音和基线漂移,同时以最小的信息损失处理大量和种类繁多的色谱图。为了使自动编码器能够有效地训练并检测其性能,开发了一种模拟色谱的模拟器,生成个具有代表性的模拟色谱图,用于训练自动编码器。
:
1.色谱模拟
模拟色谱图包含三部分:理想色谱信号,噪音和基线。其中理想色谱信号为图1中的Y,是不包含噪音和基线的数据。由于色谱经常会出现拖尾的现象,因此此峰由含有不对称因子的高斯峰生成,峰的个数是1-之间随机产生的,其他峰相关参数也是通过均匀随机采样产生的。噪音包括高斯白噪音和粉红噪音两种类型。白噪音主要是模拟仪器等因素造成的热噪音等,粉红噪音主要包括环境噪音,其参数同样是均匀随机采样获得。背景是使用了10个sigmoidal函数的平均值生成的,相关的宽度,偏差及高度参数值也是均匀随机误差产生。此处使用10个sigmoidal函数是因为色谱的背景情况更加复杂,因此没有仅使用多项式或者正弦函数来生成背景基线。将信号,噪音和基线相加后便可以得到模拟色谱峰。
其中Y是作为自动编码器训练时的目标,X1和X2都可以作为输入来训练自动编码器。总共使用的三元组数量为。
图1如何生成模拟数据。左侧色谱图用作目标色谱图Y,而中间和右侧色谱图分别用作输入色谱图X1和X2。
2.深度卷积自动编码器
自动编码器使用TensorFlow及Python实现的。最终确定的结构如图2所示,输入谱的大小为×1,其分辨率足够高,可以保证峰的信息,也能够在比较快的速度下进行运算。编码器有7层(包括输入层),第二层有个过滤器;第三和第四层有个过滤器;第五层和第六层有64个过滤器;第七层有32个过滤器。在每个编码器层中,大小为9的滤波器以步长或步长为2卷积到输入特征图上,将输出投影到下一层,下一层特征图的维度减少了1倍。得到的输入的低维特征表示的大小为×32。解码器有6层(+1输出层),它镜像编码器的层以产生与输入大小相同的重建色谱图。对于每一层中的每个滤波器(除了最后一个输出层),都应用了一个整流线性单元(ReLU)激活。对于每一层,添加了一个L2正则化以防止过拟合。
通过最小化目标色谱图(Y)和重建色谱图(X?)之间的均方误差(MSE)损失函数来完成(自动编码器的)优化。使用的优化器是Adam优化器,初始学习率为0.,在10个周期后衰减了为0.8倍。
另外,值得注意的是,此种做法自动编码器的性能与模拟光谱的质量有很大的关系并且自动编码器中层数,过滤器数(核数),过滤器大小以及步长等超参数的确定都是通过人为调参确定的。最终确定的模型训练时间小于一周。
图2本工作中使用的自动编码器结构。
3.结果与讨论
我们从图3左图中看出,重构后的谱图信噪比以及基线噪音都得到了非常好的消除,并且重构后的色谱图峰面积与理想情况下的峰面积差也非常的小。图3右图同样可以看到该自动编码器的去噪效果非常好,重构的色谱与目标谱基本重合。
图3左图为重构前后色谱与高质量色谱(目标谱)之间的对比关系。右图为重构前后对比及重构后与目标色谱的关系。
:
本工作设计了一种有效的色谱模拟方法,并且使用其产生的数据训练了自动编码器,以实现色谱数据背景基线和背景噪音的同时消除。但是其对于模拟数据的质量要求大,并且使用的数量为组数据,训练时间为少于一周。
:
1.对于我们而言,或许可以使用相同的思路,产生模拟拉曼谱图,构建相应的自动编码器以实现拉曼谱图中的噪音和基线同时消除的效果。
2.重构的思路对于谱图标准化也是一种很好的方法,但是如何从不同仪器上获得如此大数量的训练集是难以解决的,并且如何实现对于未知样品的重构也会值得考虑的问题。
预览时标签不可点收录于话题#个上一篇下一篇