预测白酒储存年份的方法
技术领域
本发明涉及白酒年份预测领域,具体涉及一种预测白酒储存年份的方法。
背景技术
酒往往是越陈越香的,针对这一特点,如今市场上出现了许多“年份酒”,价格也相对昂贵。可是目前不乏一些企业存在年份标注较随意的情况,增加了年份酒市场的混乱程度,影响了白酒行业的形象。因此消费者强烈呼吁加强对白酒年份酒市场规范,而酒企也在加大投入研发力量,以期建立鉴别年份的方法,明正视听。在这种市场需求下,解析年份酒的高品质特征,用科学的语言和数据展示年份酒的产品品质,建立稳定的、操作性高的年份酒鉴别方法是如今白酒行业势必考虑的问题。
在白酒年份酒监管鉴别技术研究领域,目前尚无适用的国家标准,研究人员提出的主要鉴别技术包括:徐占成提出了白酒年份鉴别挥发系数法,通过构建白酒年份酒存储年限与挥发物含量间的函数关系,实现白酒年份鉴定。杨涛等提出,利用年份酒中Al、Fe、Cu等金属离子在不同年份酒中含量变化关系,利用酒体黏度与白酒贮存时间关系,利用白酒中微量共轭不饱和双键分子与年份酒贮存时间关系,多个方面鉴别年份酒。秦人伟提出利用碳-14衰变率与年份酒贮存时间关系,鉴别确定年份酒生产年份。以上研究方法,为白酒年份酒鉴别提供了多种鉴别方案,不过这些方法,或需要较为专业的大型仪器设备,或分析步骤较为繁琐、分析时间较长。
此外,白酒是一个复杂的系统,挥发组分受多种因素的影响,因此,老化的信息经常淹没在嘈杂的背景中。目前白酒年份鉴定常用的红外光谱、荧光光谱、拉曼光谱或电化学方法,通过整个挥发组分的数据集来判别白酒年龄,较难剔除噪声的干扰,并且检测准确度不高。因此,对特定标记化合物的科学统计分析、量化关联仍存在较大研究空间。目前,白酒年份酒市场日益庞大,待检样品数量日益增多,如何发展简单、快速准确的检测鉴别技术,成为新的迫切需求。
发明内容
本发明的目的是提供一种预测白酒储存年份的方法,实现了对白酒储存年份快速准确地预测。
本发明采取如下技术方案实现上述目的,预测白酒储存年份的方法,包括:
步骤1、采用GC-MS获取不同储存时间白酒的挥发性风味组分指纹图谱;
步骤2、通过极端随机森林回归以及sklearn特征在指纹图谱中筛选出建模特征;
步骤3、将建模特征作为XGboost回归模型的特征建立预测模型;
步骤4、通过预测模型预测白酒储存年份。
进一步的是,步骤1中,采用GC-MS获取不同储存时间白酒的挥发性风味组分指纹图谱的具体方法包括:
步骤101、以不同储存时间的白酒基酒为待测样品,采用超纯水将白酒样品酒精度降度至设置值以下,并同时加入氯化钠和内标物,得到待测样;
步骤102、使用顶空固相微萃取方法,通过萃取头从待测样中顶空萃取挥发性化合物;
步骤103、萃取头在进样口解析吸附后,采用GC-MS采集挥发性成分指纹图谱信息,统计相应数据,得到不同储存时间白酒的挥发性风味组分指纹图谱。
进一步的是,步骤101中,得到待测样的具体方法包括:
以不同陈酿时间的白酒为待测样品,将白酒样品降度至5~10%vol,取4~8mL置于进样瓶中,加入0.2g/mL氯化钠至溶液饱和,并加入10μL内标物,得待测样;其中所述内标物为叔戊醇;所述内标物的浓度为8.05g/L。
进一步的是,步骤102中,顶空固相微萃取的参数为:40~60℃平衡1~25min,提取时间为5~180min。
进一步的是,步骤103中,GC分析条件为:使用60m×0.25mm×0.50μm TG-WAXMS毛细管气相色谱柱,载气为高纯氦气,流速为1.0mL/min,分流比:20:1,程序升温为:起始50℃维持2min,以3℃/min升温至145℃,再以15℃/min升温至230℃并保持3min,进样口温度保持在250℃。
步骤103中,MS分析条件为:传输线温度200℃,离子源温度260℃,扫描质量范围m/z:33~350amu,电离方式:EI+;电子能量:70eV。
进一步的是,步骤2中,通过极端随机森林回归以及sklearn特征筛选在指纹图谱中筛选出建模特征的具体方法包括:
步骤201、按照设置比例将统计的相应数据划分为测试集与训练集;
步骤202、对训练集采用极端随机森林回归模型,筛选对白酒储存年份回归分析贡献度前N1-N2的特征,N1、N2为正整数,N1<N2;
步骤203、利用sklearn特征选择模块中的F_regression和mutual_info_regression筛选与白酒储存年份最相关的前N1-N2的特征;
步骤204、获取步骤202与步骤203筛选出的交集特征,交集特征作为建模特征。
进一步的是,步骤3中,预测模型的模型评估指标为R2,其中有效特征为步骤202与步骤203筛选出的前N3个特征中共有的特征,N3为正整数,N1<N3<N2。
进一步的是,步骤4中,通过预测模型预测白酒储存年份的具体方法包括:
将步骤202与步骤203筛选出的前N3个特征进行韦恩分析,并以其中共有的N4种特征作为建模特征建立预测模,并将预测模型应用到测试集中进行预测,N4为正整数,N4<N3。
进一步的是,建模特征包括反油酸乙酯、亚油酸乙酯、十一醇、乙酸2-苯乙酯、1-亚甲基-1H-茚、丁酸、3-己烯酸乙酯、己酸、异丁醛、十五酸乙酯、丁二酸二乙酯、庚酸3-甲基丁酯、十六酸乙酯、植物酮、9-十六碳烯酸乙酯、辛酸辛酯、十三酸乙酯、L(-)-乳酸乙酯、己酸-2-苯乙酯、3-甲基丁酸辛酯、反式-4-癸酸乙酯、庚酸、糠醛、2,4-二叔丁基苯酚、戊酸丁酯、2-十五烷酮、乙酸正丙酯、丁酸辛酯、己酸1-甲基己基酯、十一烷酸乙酯、十四酸乙酯以及辛酸3-甲基丁酯。
本发明处理步骤简单,操作方便,适用于大规模样品的处理和筛选,气相色谱质谱联用仪(GC-MS)技术稳定成熟,仪器分析的精度较高,样品之间的误差小,重复性高,结果可靠,分析通量大;利用极端随机森林回归、sklearn特征筛选有效的特征建模,成功实现特征空间维数的压缩,有效、可靠地提高了建模质量;XGboost算法具有允许缺失值为缺失值、支持多线程计算、内部的正则化可有效防止过拟合等优势,可显著提高鉴定白酒储存年份的准确性。
附图说明
图1是本发明预测白酒储存年份的方法流程图。
图2是本发明各取59个特征的韦恩分析实施例。
图3是将预测模型应用到测试集中进行预测的实施例示意图。
图4训练集上筛选特征建模前后的准确率对比示意图。
图5是测试集上筛选特征建模前后模型分类混淆矩阵的示意图。
具体实施方式
本发明预测白酒储存年份的方法如图1,包括:
步骤S1、采用GC-MS获取不同储存时间白酒的挥发性风味组分指纹图谱;
步骤S2、通过极端随机森林回归以及sklearn特征在指纹图谱中筛选出建模特征;
步骤S3、将建模特征作为XGboost回归模型的特征建立预测模型;
步骤S4、通过预测模型预测白酒储存年份。
步骤S1中,采用GC-MS获取不同储存时间白酒的挥发性风味组分指纹图谱的具体方法包括:
步骤101、以不同储存时间的白酒基酒为待测样品,采用超纯水将白酒样品酒精度降度至设置值以下,并同时加入氯化钠和内标物,得到待测样;
步骤102、使用顶空固相微萃取方法,通过萃取头从待测样中顶空萃取挥发性化合物;
步骤103、萃取头在进样口解析吸附后,采用GC-MS采集挥发性成分指纹图谱信息,统计相应数据,得到不同储存时间白酒的挥发性风味组分指纹图谱。
步骤101中,得到待测样的具体方法包括:
以不同陈酿时间的白酒为待测样品,将白酒样品降度至5~10%vol,取4~8mL置于进样瓶中,加入0.2g/mL氯化钠至溶液饱和,并加入10μL内标物,得待测样;其中所述内标物为叔戊醇;所述内标物的浓度为8.05g/L;叔戊醇性质稳定,不易发生不必要的反应影响结果,同时,不会因为存放发生变化,是合适的内标选择,且理化性质和白酒中易挥发组分相近,能够降低误差。
步骤102中,顶空固相微萃取的参数为:40~60℃平衡1~25min,提取时间为5~180min。
步骤103中,GC分析条件为:使用60m×0.25mm×0.50μm TG-WAXMS毛细管气相色谱柱,载气为高纯氦气,流速为1.0mL/min,分流比:20:1,程序升温为:起始50℃维持2min,以3℃/min升温至145℃,再以15℃/min升温至230℃并保持3min,进样口温度保持在250℃。
步骤103中,MS分析条件为:传输线温度200℃,离子源温度260℃,扫描质量范围m/z:33~350amu,电离方式:EI+;电子能量:70eV。
步骤S2中,通过极端随机森林回归以及sklearn特征筛选在指纹图谱中筛选出建模特征的具体方法包括:
步骤201、按照设置比例将统计的相应数据划分为测试集与训练集;
步骤202、对训练集采用极端随机森林回归模型,筛选对白酒储存年份回归分析贡献度前N1-N2的特征,N1、N2为正整数,N1<N2;
步骤203、利用sklearn特征选择模块中的F_regression和mutual_info_regression筛选与白酒储存年份最相关的前N1-N2的特征;
步骤204、获取步骤202与步骤203筛选出的交集特征,交集特征作为建模特征。
其中根据极端随机森林回归算法得出的特征变量重要性排序见表2;
根据sklearn特征选择模块中的f_regression得出的特征变量重要性排序见表3;
根据sklearn特征选择模块中的mutual_info_regression得出的特征变量重要性排序见表4。
步骤S3中,预测模型的模型评估指标为R2,其中有效特征为步骤202与步骤203筛选出的前N3个特征中共有的特征,N3为正整数,N1<N3<N2。
步骤S4中,通过预测模型预测白酒储存年份的具体方法包括:
将步骤202与步骤203筛选出的前N3个特征进行韦恩分析,并以其中共有的N4种特征作为建模特征建立预测模,并将预测模型应用到测试集中进行预测,N4为正整数,N4<N3。
建模特征包括反油酸乙酯、亚油酸乙酯、十一醇、乙酸2-苯乙酯、1-亚甲基-1H-茚、丁酸、3-己烯酸乙酯、己酸、异丁醛、十五酸乙酯、丁二酸二乙酯、庚酸3-甲基丁酯、十六酸乙酯、植物酮、9-十六碳烯酸乙酯、辛酸辛酯、十三酸乙酯、L(-)-乳酸乙酯、己酸-2-苯乙酯、3-甲基丁酸辛酯、反式-4-癸酸乙酯、庚酸、糠醛、2,4-二叔丁基苯酚、戊酸丁酯、2-十五烷酮、乙酸正丙酯、丁酸辛酯、己酸1-甲基己基酯、十一烷酸乙酯、十四酸乙酯以及辛酸3-甲基丁酯,当以上述32种化合物建模,通过次模型对测试集的预测结果与实际值的R2可达至0.987。
实施例1
本实施例预测白酒储存年份的方法包括:
A、白酒样品制备:将7个生产批次的浓香型白酒基酒降度至52%vol并过滤,每个批次分装至10个样品瓶,并依次储存0个月、2个月、4个月、6个月、9个月、12个月、15个月、17个月、21个月和24个月,7个批次不同储存时间的样本点共计70个;
B、萃取样品制备:以不同储存时间的白酒基酒为待测样品,采用超纯水将白酒样品酒精度降度至10%vol以下,并同时加入氯化钠和内标物,得待测样;
C、挥发性化合物萃取:使用顶空固相微萃取方法,通过萃取头从步骤B所得待测样中顶空萃取挥发性化合物;
D、指纹图谱采集:萃取头在进样口解析附后,采用GC-MS采集挥发性成分指纹图谱信息,统计相应数据;
气相色谱分(GC)析条件:
使用60m×0.25mm×0.50μm TG-WAXMS毛细管气相色谱柱,载气为高纯氦气,流速为1.0mL/min,分流比:20:1,程序升温为:起始50℃维持2min,以3℃/min升温至145℃,再以15℃/min升温至230℃并保持3min,进样口温度保持在250℃。
质谱(MS)分析条件:
传输线温度200℃,离子源温度260℃,扫描质量范围m/z:33~350amu,电离方式:EI+;电子能量:70eV。
E、以8:2的比例将数据集划分为测试集和训练集;
F、在测试集上,采用极端随机森林回归算法,收集对白酒储存年份回归分析贡献度前25-80特征(第一种特征筛选方法);利用sklearn特征选择模块中的F_regression和mutual_info_regression筛选与白酒储存年份最相关的前25-80重要特征的交集,(第二种特征筛选方法);取所述两种特征筛选方法得出的交集特征作为XGBoost回归模型的特征建立模型,模型评估指标为R2,最终最有效的建模特征为三种筛选方法前59个特征中共有的特征;
其中将两种特征筛选方法得出的前25-80重要特征的交集,按照8:2划分训练集和测试集后,对训练集进行10折交叉验证的数据见表5。
G、将步骤F中两种特征筛选方法前59个特征进行韦恩分析,并以其中的交集作为建模特征建模,应用到测试集中进行预测。其中韦恩分析图如图2,特征分别来自ExtraTrees(极端随机树极端随机树)回归,sklearn特征选择模块中的F_regression和mutual_info_regression筛选出的特征。
将在训练集上表现较好的模型应用到测试集上进行预测的分析示意图如图3,图3中横坐标是真实值,纵坐标是预测值,MSE是均方差,值越小说明拟合程度越高,如果拟合曲线是y=x的话说明预测值和实际值完全相同,越接近这个拟合曲线说明拟合程度越高。
图4训练集上筛选特征建模前后的准确率对比示意图,可以看出优化特征对应的准确率比全特征对应的准确率高出很多。
经本发明方法筛选后,最有效的建模特征为反油酸乙酯、甲酸乙酯、己酸丁酯等32种化合物(见表1),并且利用此模型对测试集的预测结果与实际值的R2可达至0.987。
表1两种筛选方法筛选共有化合物
表2根据极端随机森林回归算法得出的特征变量重要性排序
表3根据sklearn特征选择模块中的f_regression得出的特征变量重要性排序
表4根据sklearn特征选择模块中的mutual_info_regression得出的特征变量重要性排序
表5前25-80重要特征的交集,按照8:2划分训练集和测试集后,对训练集进行10折交叉验证的结果
实施例2
本实施例预测白酒储存年份的方法包括:
A、取5个品牌的浓香型瓶装白酒,根据出厂标签分为4组:0~1年、1~2年、2~3年和3~4年,每个年份1个样品,共20个样品,每个样品平行测定6次。其余分析均与实施例1一致;
B-D、获得白酒挥发性风味物质指纹图谱的方法与实施例一的步骤B到步骤D一致;
E、以8:2的比例将数据集划分为测试集和训练集;
F、在测试集上,采用极端随机森林分类模型,收集对白酒储存年份分类分析贡献度前25-80特征(第一种特征筛选方法);利用sklearn特征选择模块中的F_classif和mutual_info_classif筛选与白酒储存年份分类最相关的前25-80特征(第二种特征筛选方法);取两种特征筛选方法得出的交集特征作为XGBoost分类模型的特征建立模型,模型评估指标为准确率(accuracy)。
图5是测试集上筛选特征建模前后模型分类混淆矩阵的示意图,图5中a是全特征建模,b是优化特征建模,其中数字体现的是该类别中样品的个数,例如1表示真实值和预测值相同类别有1个,2表示真实值和预测值相同的类别有2个,如果都在对角线上说明预测和实际的类别是一致的,b图中,对角线上的数字比a中多,说明优化特征建模相对于全特征建模的分类效果要好。
经过特征筛选后,分类模型的准确率获得了大幅提高。并且应用到测试集上的分类效果较未经特征筛选前的分类模型,同样有显著的提升。
综上所述,本发明实现了对白酒储存年份快速准确地预测。