基于大数据的玉米淀粉制果糖生产过程建模优化

郭丽娟 ,  徐晨阳 ,  张忠义 ,  孟嘉琦 ,  杨铭杨 ,  董亚超 ,  刘琳琳 ,  庄钰 ,  都健 ,  张磊

现代化工 ›› 2025, Vol. 45 ›› Issue (7) : 249 -253.

PDF (2265KB)
现代化工 ›› 2025, Vol. 45 ›› Issue (7) : 249-253. DOI: 10.16606/j.cnki.issn0253-4320.2025.07.039
工业技术

基于大数据的玉米淀粉制果糖生产过程建模优化

作者信息 +

Big-data based modeling and optimization of corn starch to fructose production process

Author information +
文章历史 +
PDF (2318K)

摘要

传统玉米深加工工厂进行玉米淀粉制糖的工艺复杂,产生大量结构复杂的工业数据,且生产过程中受多种因素影响,导致产品质量波动大。为解决此问题,提出一种考虑数据不确定性构建代理模型并进行优化操作参数的方法。首先,利用实际工业生产的数据作为数据源,采用人工神经网络作为代理模型拟合输入输出数据,通过高斯考虑方差和置信区间分析数据的不确定性,最后以果糖含量最高为目标,分别采用遗传算法和粒子群优化算法对操作参数优化,结果对比表明,遗传算法优化得到的果糖含量较粒子群优化算法提高1.45%。提出的优化模型可用于辅助工业生产,从而提高产品质量。

Abstract

The traditional corn deep-processing plant for corn starch to sugar has a complex process,which generates a large amount of industrial data with complex structure,and the production process can be affected by a variety of factors,resulting in large fluctuation in product quality.In order to solve this problem,a method is proposed to construct an agent model considering the uncertainty of data and optimize the operation parameters.First of all,using the actual industrial production data as a data source,artificial neural network is used as an agent model to fit the input and output data,the uncertainty of the data is analyzed through the variance and confidence intervals,and finally the operating parameters are optimized by using genetic algorithm and particle swarm optimization algorithm,respectively with the highest fructose content as the goal.It is found that the fructose content obtained by genetic algorithm optimization is 1.45% higher than that by particle swarm optimization algorithm.The optimization model proposed can be applied to assist industrial production,thus improving product quality.

Graphical abstract

关键词

玉米淀粉 / 遗传算法 / 人工神经网络 / 数据驱动 / 果糖

Key words

corn starch / genetic algorithm / artificial neural network / data-driven / fructose

Author summay

郭丽娟(2000-),女,硕士生。

引用本文

引用格式 ▾
郭丽娟,徐晨阳,张忠义,孟嘉琦,杨铭杨,董亚超,刘琳琳,庄钰,都健,张磊. 基于大数据的玉米淀粉制果糖生产过程建模优化[J]. 现代化工, 2025, 45(7): 249-253 DOI:10.16606/j.cnki.issn0253-4320.2025.07.039

登录浏览全文

4963

注册一个新账户 忘记密码

玉米深加工工厂制备淀粉糖的生产过程中,涉及大量复杂物理和化学过程,产生的大量复杂工业数据不仅具有大数据的海量性、多样性、高速性和易变性的特点,还具有高维度、强非线性、样本分布不均和低信噪比的难点[1],且各参数之间存在复杂机理关系[2],导致系统收敛困难。玉米深加工过程存在反应机理复杂、原料成分波动大、时滞长和耦合性强等问题,仅仅依靠传统化工流程模拟软件构建机理模型进行模拟与优化,计算挑战大,耗时严重,因此,可通过大数据技术对海量数据进行采集、存储、分析和应用,通过数据驱动建立代理模型[3]揭示变量间关联和影响。
相对于原始过程模型,代理模型不仅能解决有效性问题,还具有高精度、高计算效率和无噪声的优点,近年来,很多学者利用能够处理高度非线性关系[4-6]的机器学习方法构建代理模型,代替复杂机理模型。不同机器学习方法构建代理模型比较拟合效果可知,人工神经网络是大数据分析中较为成功的方法[7],并在工业数据建模过程中得到了广泛应用。实际生产过程中,操作波动造成数据源的不确定性,也造成建模输出数据的不确定性。不确定性分为偶然不确定性和认知不确定性[8],偶然不确定性多指通过数据造成的不确定性,认知不确定性多指模型引起的不确定性。通过高斯参数既可描述预测值的可信度,亦可基于数据的方差[9]与置信区间[10]量化不确定性,为实际化工生产决策提供指导信息。
另一方面,基于代理模型进行操作参数优化在生产实践中也得到广泛关注。其中,智能算法如遗传算法[11]、粒子群算法[12]、模拟退火法[13]等具有较强的全局搜索能力。曾玉娇等[14]基于磷酸生产过程代理模型,运用粒子群优化算法得到最优生产操作参数。Wang等[7]利用数据驱动方法,将遗传算法和粒子群优化技术与回归模型相结合,优化工业废水处理中混凝剂用量。
本文中首先采用数据清洗后的玉米淀粉制果糖工业生产数据和检验数据构建数据库,构建ANN代理模型,以R2和MSE为指标衡量模型性能,通过均值、方差和置信区间分析衡量数据不确定性,在最大化果糖含量的目标下,采用遗传算法和粒子群优化算法分别优化得到玉米淀粉制果糖工艺生产过程的最优操作参数,以指导实际生产,减少资源消耗,提升转化率。

1 玉米淀粉制果糖生产过程机器学习模型

1.1 数据集生成

淀粉糖是我国玉米淀粉深加工产业的主要支柱产品[15]。玉米淀粉制果糖作为一种重要的工业糖产品工艺,包含玉米上料、浸泡、研磨、分离、淀粉的水解、糖化、精制等过程。DCS系统记录收集的玉米深加工工厂长期积累的原材料数据、产品分析数据及设备运行时监控数据,构成本文中研究的原始数据集,包括654个检测位点,13 608组数据样本。玉米深加工工艺流程如图1所示[16]
葡萄糖当量(dextrose equivalent,DE)值是评价糖化效果最重要的参数,其值越高产品质量越优。DE值指糖浆干物质中还原糖所占比例,可由式(1)计算得到:
D E = R S C / ( D M C · S R D )
式中,RSC为还原糖含量;DMC为干物质含量;SRD为糖溶液的相对密度。
由于测量设备的误差,工厂采集到的原始数据不可避免地含有噪声和异常值,这可能会导致原始数据与实际值产生偏差,因此对数据进行预处理很有必要。对Meng等[17]的工作进行数据清洗,取平均值补足缺失值,依据肖维勒准则[18]处理异常值,采用(2n+1)简单移动平均法[19]平滑和过滤数据噪声,对数据库进行LASSO分析[20]数据降维的基础上,运用Olden方法[21]进行灵敏度分析识别关键位点,放弃一些工厂中不易操作的位点,最终识别出影响生产效率和产品质量的对DE值影响最大的18个关键位点。经过数据降维后,数据维度降至 18×5 735,为后续建模优化过程提供较好的先验知识。以上18个位点的名称与含义如表1所示。

1.2 考虑数据不确定性的代理模型构建

本文中基于玉米淀粉制果糖工业生产的数据构建代理模型。人工神经网络模型构建评估过程中,使用均方误差(MSE)和平均绝对误差(MAE)以及R2作为模型的评价指标。如式(2)、式(3)所示,MSE和MAE用于衡量模型的预测误差,其值越小,预测性能越好,保真度越高。如式(4)所示,R2用于反映模型拟合过程中预测数据与真实数据之间的一致性程度。
M S E = [ i = 1 n ( y i - y i * ) 2 ] / n
M A E = ( i = 1 n | y i - y i * | ) / n
R 2 = 1 - [ i = 1 n ( y i - y i * ) 2 ] / [ i = 1 n ( y i - y - ) 2 ]
式中,n为样本数; y i *为代理模型预测值;yi为真实值; y -为真实值的均值。
构建代理模型过程中,选取前90%的数据作为训练集,后10%作为测试集进行模型验证。人工神经网络模型架构由输入层、隐藏层、Dropout层、输出层组成。输入层有18个神经元,对应于影响DE值变化的决策变量(表1中的18个关键位点),输入神经元接受输入变量并进行归一化和标准化处理,使数据分布趋于正态分布后,传递到隐藏层神经元。隐含层包括37个神经元,使用Sigmoid函数进行加权和非线性变换。Dropout层的Dropout概率为0.1,避免过拟合。最后,输出神经元通过反归一化后获得代理模型输出值。本文中使用了Adam自适应优化算法,最大训练次数Epoch=1 000,目标误差E0=0.000 1,学习率为0.1。模型训练结果如图2所示。
图2展示了数据训练过程中的训练效果,横坐标表示目标值(真实DE值),纵坐标分别表示在训练集、验证集、测试集训练过程中模型输出值(所预测的DE值)。散点值离拟合对角线越接近训练效果越好。人工神经网络模型回归决定系数R2为0.99,均方误差(MSE)为0.586,平均绝对误差(MAE)为0.381,说明在案例中基于ANN代理模型预测精度较高,拟合效果较好,泛化能力强,能够在一定程度上反映出各位点与目标变量的相互关系。
玉米淀粉制果糖生产过程中,由于操作装置的不定时停车、设备检修和测量误差等问题,部分检测数据会偏离正常生产状态,尽管对数据进行清洗、去噪、降维处理,仍会存在数据不完整、不准确的问题。
在使用代理模型预测输出值时,不仅需要得到每次迭代过程中的预测值,还需要计算其可靠性。不确定性的量化指标主要包括方差、方差比、预测熵等,大多数研究采用预测方差度量不确定性。
本文中不确定性分析是基于数据建立代理模型,将均值μ和方差σ2修正为神经网络的损失函数,通过多次前向传播模型预测输出值,计算其均值和方差实现。旨在通过预测均值体现模型输出的可信度,预测方差和置信区间量化输出数据的不确定性。
在人工神经网络模型的输出ANN(X)上设置概率分布,对不确定性进行建模,这里使用高斯分布:
f ~ N [ A N N ( X ) , σ 2 ]
经过神经网络拟合的输出是一个高斯分布,对输出分布求取均值μ和标准差σ,μ衡量模型预测的DE值,σ用于构造置信区间。高斯分布使用了经验性的常数(1.96)[11]来计算置信区间,即基于标准统计学的方法计算了95%置信区间的上限和下限,从而量化不确定性。模型预测过程输出的置信区间如图3所示。
模型输出的均值和置信区间都在可接受的范围内,区间预测不仅可以预测输出值的具体数值,还可以预测模型输出数据在置信区间范围内,可以更好地保证其可信度,降低实际工程应用中预测的偶然性,增加产率提高的概率。

2 操作优化

2.1 优化变量

基于上述代理模型,对玉米淀粉制果糖过程进行操作参数优化,本文中的优化内容在基于输入输出数据建立代理模型后,DE值作为目标函数,进行最大值搜索,其中人工神经网络模型ANN(X)(即DE值)作为适应度函数。
优化的数学模型可以表示为:
M a x   D E
s.t. D E = A N N X
X = [ x i , i = 1,2 , , 18 ] T
L B i x i U B i ( i = 1,2 , , 18 )
式中,xi分别表示各个位点对应变量,与表1表2表3中变量相互对应。
确定输入输出变量后,为降低优化难度,限定工业生产过程中变量的变化范围,变量范围[LB,UB]如表2所示。
由于该模型的目标函数为非线性函数,且无解析表达式,故以下对该模型采用遗传算法(GA)和粒子群(PSO)算法分别进行求解。

2.2 优化算法

遗传算法优化步骤如图4所示。首先,将18个输入变量编码为染色体,随机生成初始种群,使用训练好的神经网络模型评估种群中每个个体的适应度,即预测每组输入变量对应的输出变量值,适应度高、满足DE值要求的个体被保留,通过逐步优化输入变量并进行评估和选择,再产生新后代,不断循环,以获得最大DE值。当迭代过程中达到最大迭代次数时,或者DE值不再显著提高时,停止优化程序。本文中遗传算法中的种群数设定为1 000,交叉概率设定为0.8,变异概率设定为0.3,运行的最大迭代代数为100。
粒子群优化步骤如图5所示。PSO优化过程中将18个输入变量编码为粒子的位置向量,每个粒子代表一个输入组合。随机生成一个初始粒子群,使用训练好的人工神经网络模型评估粒子群中每个粒子位置,即预测每组输入变量对应适应度即DE值。根据粒子位置和速度进行搜索,评估粒子新位置并计算新DE值。当迭代过程中达到最大迭代次数时,或者DE值不再显著提高时,停止优化程序。粒子群优化设计过程中最大迭代次数为100,粒子群数量为50,交叉率为0.5,变异率为0.01,适应度函数设置与遗传算法相同,通过不断迭代获得该优化算法迭代过程中最优解。

2.3 优化结果与分析

遗传算法与粒子群优化算法在优化代理模型过程中,适应度函数与优化目标均相同,各个变量的变化范围均相同,停止条件均设置为完成100次迭代。最终得到2种优化算法优化后各个位点对应值及相应DE值如表3所示。
对DE值影响最大的18个参数通过单变量灵敏度分析,负相关较强的位点是x5和x11,高压力会影响到淀粉的热稳定性,从而影响淀粉的完整性和后续的酶解效率;高干物质浓度下,淀粉分子间的相互作用增加,但会影响酶对淀粉的作用效率。正相关较强的位点是x12和x17,淀粉糖化液的出口流量增加时,单位时间内有更多的糖化液被处理和转化,糖化效果越好,DE值越高;纤维干燥机的流量增加有助于改善整个系统的物料处理能力和热效率,间接促进了更高效的糖化反应。在相同迭代次数下,优化过程中呈正相关的参数位点值越大越好,呈负相关的参数位点值越小越好。遗传算法优化在未达到最大迭代次数即收敛,收敛速度较快,各位点优化值更符合位点灵敏度,得到的DE值为101.42;粒子群优化算法优化得到的DE值为99.97。对比可知,通过遗传算法优化后的目标DE值较粒子群优化结果高1.45%,即优化后的果糖含量更高。

3 结论

本研究证明了在玉米深加工过程中,基于数据驱动的方法在考虑生产波动造成的数据不确定性建模的有效性,并使用了优化算法对操作变量进行优化。本研究结合数据驱动的代理模型与优化方法,将经过数据清洗的工业生产测试数据作为数据库,选取ANN建立代理模型,随后,通过均值验证输出的可信度,通过方差与置信区间考虑数据的不确定性。最后,在流程操作参数优化方面,本研究基于代理模型,以最大化DE值为目标,分别运用遗传算法和粒子群优化算法对操作参数进行优化,结果显示遗传算法具有更快的收敛速度,以及更优的目标值,遗传算法优化得到的DE值较粒子群优化算法提高1.45%,且各参数满足实际玉米制糖工艺生产要求。基于以上方法,可以优化玉米深加工工厂的操作参数。

参考文献

[1]

苏鑫, 吴迎亚, 裴华健, . 大数据技术在过程工业中的应用研究进展[J]. 化工进展, 2016, 35(6):1652-1659.

[2]

宋泓阳, 孙晓岩, 项曙光. 人工神经网络在化工过程中的应用进展[J]. 化工进展, 2016, 35(12):3755-3762.

[3]

Biegler L T, Lang Y D, Lin W. Multi-scale optimization for process systems engineering[J]. Computers & Chemical Engineering, 2014, 60(2):17-30.

[4]

Arabloo M, Ziaee H, Lee M, et al. Prediction of the properties of brines using least squares support vector machine (LS-SVM) computational strategy[J]. Journal of the Taiwan Institute of Chemical Engineers, 2015, 50:123-130.

[5]

Hiromi, Baba, Jun-ichi, et al. In Silico predictions of human skin permeability using nonlinear quantitative structure-property relationship models[J]. Pharmaceutical Research, 2015, 32(7):2360-2371.

[6]

Zhou T, Jhamb S, Liang X, et al. Prediction of acid dissociation constants of organic compounds using group contribution methods[J]. Chemical Engineering Science, 2018, 183:95-105.

[7]

Wang K J, Wang P S, Nguyen H P. A data-driven optimization model for coagulant dosage decision in industrial wastewater treatment[J]. Computers & Chemical Engineering, 2021, 152:107383.

[8]

Kwon Y, Lee D, Choi Y S, et al. Uncertainty-aware prediction of chemical reaction yields with graph neural networks[J]. Journal of Cheminformatics, 2022, 14(1):1-10.

[9]

季文强. 基于深度学习和不确定性量化的数据驱动剩余寿命预测方法研究[D]. 合肥: 中国科学技术大学, 2021.

[10]

Lowe D, Zapart C. Point-wise confidence interval estimation by neural networks:A comparative study based on automotive engine calibration[J]. Neural Computing and Applications, 1999, 8(1):77-85.

[11]

Wu L L, Chang W X, Guan G F. Extractants design based on an improved genetic algorithm[J]. Industrial & Engineering Chemistry Research, 2007, 46(4):1254-1258.

[12]

Li Y Q, Yang X G, Liu Y J. An improved PSO algorithm for solving non-convex NLP/MINLP problems with equality constraints[J]. Computers & Chemical Engineering, 2007, 31(3):153-162.

[13]

Jezowski J, Poplewski G, Jezowska A. Simulated annealing optimization in chemical and process engineering Ⅰ.Optimisation method with the use of a simplex and simulated annealing[J]. Inzynieria Chemiczna i Procesowa, 2003, 24(1):47-62.

[14]

曾玉娇, 肖炘, 杨刚, . 基于机理与数据混合驱动的湿法磷酸生产过程代理建模与优化[J]. 化工学报, 2024, 75(3):936-944.

[15]

姚宇晨, 徐光辉, 杨钊, . 淀粉糖行业发展趋势分析及展望[J]. 农产品加工, 2021,(21):77-82.

[16]

Tong Y, Shu M, Li M, et al. A neural network-based production process modeling and variable importance analysis approach in corn to sugar factory[J]. Frontiers of Chemical Science and Engineering, 2023, 17:358-371.

[17]

Meng J, Li C, Tao J, et al. RNN-LSTM-based model predictive control for a corn-to-sugar process[J]. Processes, 2023, 11:1080.

[18]

Maples M P, Reichart D E, Konz N C, et al. Robust chauvenet outlier rejection[J]. The Astrophysical Journal Supplement Series, 2018, 238(1):2-21.

[19]

Elko G W, Sondhi M M, West J E. Noise reduction processing arrangement for microphone arrays[J]. Journal of the Acoustical Society of America, 1998, 88(6):134-140.

[20]

Lin J, Li S. Sparse recovery with coherent tight frames via analysis Dantzig selector and analysis LASSO[J]. Applied and Computational Harmonic Analysis, 2014, 37(1):126-139.

[21]

Zhang X, Liu L, Long G, et al. Episodic memory governs choices:An RNN-based reinforcement learning model for decision-making task[J]. Neural Networks, 2021, 134:1-10.

基金资助

国家重点研发计划项目(2021YFD2101000)

AI Summary AI Mindmap
PDF (2265KB)

282

访问

0

被引

导航
相关文章

AI思维导图

/