基于互信息和Just-in-Time优化的回声状态网络

摘要： 为了提高回声状态网络(ESN)的适应性，提出基于互信息(MI)和Just-in-Time(JIT)的优化方法，对ESN的输入伸缩参数以及输出层进行优化，所得网络称为MI-JIT-ESN.ESN的优化方法分为两部分：一是基于网络输入与输出之间的互信息，对网络的多个输入伸缩参数进行调整；二是基于JIT优化的局部输出层，对ESN的隐层输出数据进行局部重新建模，从而提升ESN输出层的回归拟合精度.将MI-JIT-ESN应用于青霉素补料分批发酵过程建模.结果显示,MI-JIT优化方法能提高模型的适应性，并优于其他比较方法.

关键词： 回声状态网络；互信息；Just-in-Time；优化；建模；青霉素发酵

0 引言

发酵过程广泛应用于化工、制药、食品、环境科学等行业，补料分批发酵是发酵工业代表性的操作方法[1].发酵过程机理复杂，又具有极强的非线性、时变性以及非确定性，同时缺少关键生物参数实时测量仪器.发酵过程的优化与控制需要对营养物和产物等重要参数进行精确预测.因此，数据驱动的建模方法广泛地应用于补料分批发酵过程，并取得了一定的成果.常见的数据驱动方法包括偏最小二乘法[2-3]、支持向量回归[4-5]、神经网络等[6-7].递归神经网络(RNN)能记忆历史信息并能体现出动态特性，非常适用于发酵过程建模.

作为一种新型递归神经网络—回声状态网络(echo state network, ESN)[8]利用“动态储备池”代替传统神经网络的隐层，提取输入的相关特征并提供期望输出动态信息，可以有效处理非线性系统辨识[9]和混沌时间序列预测问题[10].ESN储备池由大量的稀疏连接神经元组成，通常有几十到几百个神经元，连接权值随机产生.与传统递归神经网络相比，ESN最大的优势是只需训练输出权值，简化了训练过程，解决了前者训练算法过于复杂以及记忆渐消问题[11]，因此，ESN网络更适用于对发酵过程中重要生物参数进行建模预测.

实际应用中，ESN良好的适应性起了关键作用.除了结合经验知识进行的尝试以及交叉验证法之外，众多学者还提出大量的改进方法对储备池和输出权值进行优化.对储备池的优化包括：内部拓扑结构的改善[12]，以及对储备池关键参数(包括规模、内部连接权矩阵谱半径、输入伸缩参数等)进行优化[13].对输出权值的优化包括：用智能算法[14]计算权值，以及对结构连接的调整等[15]，这些方法一定程度上改善了网络性能.为了提高ESN网络对多输入多输出(MIMO)系统的适应性，笔者提出基于互信息(MI)和Just-in-Time(JIT)学习的优化方法，对ESN网络的输入伸缩参数以及网络输出层进行优化，并将优化所得网络MI-JIT-ESN应用在青霉素补料分批发酵过程建模中.

1 回声状态网络

1.1 网络结构

ESN的网络结构通常分为3层：输入层、状态储备池以及输出层.假设输入层和输出层神经元个数分别为r和m，储备层规模即神经元个数为n.笔者采用的ESN网络表达式为

式中:x(k)、u(k)、y(k)分别为k时刻储备池的状态变量、网络输入和网络输出；f(·)为储备池激活函数，通常为双曲正切函数；Wres是储备池的内部连接权值，为随机产生的、稀疏连接的高维方阵(稀疏度通常在0.01～0.05之间，谱半径小于1),一经产生则保持不变；Win是输入权值矩阵，随机产生而且保持不变；Wout和b分别为输出权值矩阵和输出偏置向量.

1.2 网络训练

ESN的训练过程可以转换为线性回归问题.依次输入M训练样本后，从M0步开始收集储备池状态以及对应的期望输出，构成增广状态矩阵S和期望输出矩阵D,

因此，输出权值和偏置可由下式求得，

2 基于互信息和JIT优化的回声状态网络

2.1 互信息理论

互信息(mutual information)是信息论里一种用来体现两个事件集合之间相关性的理论概念[16].给定两个随机变量X和Y，若它们各自的边缘概率分布和联合概率分布分别为p(x)、p(y)和p(x,y)，则它们之间的互信息I(X;Y)定义为

笔者采用Pocock的互信息工具箱计算互信息，其中将多维变量转化为一个联合随机变量，更好地计算了两个事件集合之间的互信息[17].

2.2 Just-in-Time学习

JIT学习算法是目前很流行的一种在线过程监控建模方法，JIT学习模型是根据当前需测量数据和历史训练数据的最近空间距离来建立多个局部模型的建模方法.JIT学习模型可以更好地处理过程的非线性特性，从而提升整个过程的测量和预测精度.

笔者对ESN的输出层进行JIT学习优化，由于ESN的输出层维数较高(通常在100以上)，输出层进行回归拟合时，处理的数据量很大，通过JIT建立输出层的局部回归模型可以有效地提升ESN回归拟合时的精度.

2.3 MI-JIT-ESN建模过程

将用于学习的数据归一化，并分为3部分：训练数据、验证数据和测试数据.

建立MI-JIT-ESN模型的主要步骤如下：

(1)初始化r输入m输出的ESN网络.默认输入缩放参数均为1，储备池规模和谱半径可由经验法或试凑法确定.

(2)基于互信息的输入伸缩参数优化.ⓐ计算输入与输出间互信息.依据训练数据中的输入数据与输出数据，计算每一个输入变量与输出之间的互信息，得到互信息I=[I1 I2 … Ir].令

式中：α为调整系数；Imax为最大互信息值.ⓑ对β进行调整.从0.1开始以0.1为间隔逐步增大β，直到验证误差增大，即ESN网络对验证数据的处理能力下降为止，所得到的缩放参数为

ⓒ保存以

为输入缩放参数的新网络.

(3)更新所得网络的状态.收集得到的增广状态矩阵S可以表示为

式中：s0为均是1的列向量，sl(l=1,2,…,n)为储备层第l个神经元的输出列向量.期望输出矩阵D表示为

式中：dj(j=1,2,…,m)为输出层第j个神经元的输出列向量.

(4)在网络训练阶段得到ESN输出层的所有状态，即训练数据库Strain，然后针对每一组新的验证数据，用距离测度方法在训练数据库Strain中选取和当前验证样本最近距离的子训练样本集，子训练样本集的长度为L，L的值采用试凑法确定，建立局部ESN输出回归模型.

(5)对每个输出重复步骤(4)，得到最终的网络结构，即MI-JIT-ESN模型.

3 应用

3.1 青霉素补料分批发酵过程

采用MI-JIT-ESN方法对青霉素补料分批发酵过程进行建模.本研究中，过程数据来自基于内核的Pensim发酵仿真平台[18].

研究中，选用空气流量、搅拌功率、底物流加速率、底物温度、溶解氧浓度、排气二氧化碳浓度、培养体积、发酵罐中pH值、发酵罐中温度和产生的热量这10个可在线测量的变量作为输入变量，选用底物浓度、菌体浓度、青霉素产物浓度这3个无法在线测量的关键生物变量作为输出变量进行建模研究.用Pensim平台生成10个批次的数据用来建立和优化模型，另外5个批次的数据用来评估模型的准确性和可靠性.一个批次的反应时间为400 h，采样时间为0.5 h，所以每个批次有800个样本点.同时，利用测试数据的均方根误差(RMSE)来判断所建模型的性能.含有N个样本点的一个批次中，第j个输出变量

式中：yaj(k)、ypj(k)分别为k时刻第j个输出的实际值和模型预测值.

3.2 青霉素发酵过程的MI-JIT-ESN模型

首先将默认状态下10个批次的学习数据分别归一化，其中6个批次数据用来训练，4个批次作为验证数据.建立10输入、3输出、初始储备池规模为500的ESN网络结构，并初始化，内部连接权矩阵谱半径定为0.9.

(1)伸缩参数的调整.由输入与输出数据互信息可得到伸缩参数

基于MI信息的试凑法过程如图1所示.可得这次选择α=0.6，此时10个输入伸缩参数为：

[

…

]=[0.040.020.260.020.250.600.340.150.060.38].

JIT局部回归模型的建立.笔者的输出层训练数据长度为4 800，维度为500维，在不同的子样本训练集长度下，分别建立局部回归模型，并用验证集进行测试，测试结果如表1所示.

由表1可知，在子训练集样本长度为3 800时，验证数据的测试效果最好.最终L取3 800建立局部回归模型，然后再对网络进行测试.

3.3 结果与对比

(1)采用未参与建模优化过程的全新测试数据来检验所得MI-JIT-ESN模型的效果.

优化后的MI-JIT-ESN模型与未优化的ESN模型对3个关键生物量：底物浓度、菌体浓度、青霉素浓度的一个批次内预测效果如图2～4所示.可以看出MI-JIT-ESN模型很好地同时预测了青霉素补料分批发酵过程中的3个关键生物量.为了更好地显示优化效果，图5展示了未优化ESN模型和MI-JIT-ESN模型对一个测试批次3个关键生物量的预测误差之间的对比.表2为优化前后的模型对多个不同批次的测试RMSE值.与未优化ESN模型相比，笔者所提出的MI-JIT-ESN模型大大提高了对青霉素发酵过程中生物量的预测效果.

(2)在不同初始底物和菌体浓度条件下，青霉素发酵过程反应很不同.为进一步检验模型的性能，对低工况、中工况、高工况进行了仿真研究，具体设定条件如表3所示(其余条件采用默认值).

将MI-JIT-ESN模型与传统递归神经网络Elman网络模型以及前向网络BP网络模型作对比，Elman神经网络和BP神经网络的隐层神经元个数都选15个，训练算法都采用传统的LM算法.比较标准为5个测试批次的平均RMSE误差MRMSE，如表4所示.表4所列结果为多次试验平均值，可以看出，大部分情况下，MI-JIT-ESN模型优于传统神经网络模型，尤其在菌体浓度的预测和高工况即初始底物和菌体浓度较大的情况下.

为了验证MI-JIT-ESN模型的性能，笔者选取了一些最新文献中的青霉素发酵过程预测模型，例如：Relevance Vector Machine(RVM)[19]、BI-SVR[20]、核偏最小二乘法(KPLS)和MGMM[21]，并与其作比较，比较结果如表5.

从表5中我们可以看出，MI-JIT-ESN在青霉素建模过程中性能良好，因此，笔者所提的MI-JIET-ESN建模方法在青霉素批处理建模过程中是一个更优的选择，同时，笔者所提的模型也适合和青霉素批处理建模相似的建模过程.

4 结论

笔者提出一种基于互信息和JIT学习的优化方法对ESN进行优化，以提高其对MIMO系统的适应性.该方法中，不仅基于网络的输入与输出之间的互信息对网络的多个输入伸缩参数进行调整优化；而且基于JIT学习，对ESN输出层回归部分进行局部重新建模，达到结构优化的目的.将该方法运用到对青霉素补料分批发酵过程中关键生物参数的建模中，与优化前的ESN模型的测试效果比较，取得良好的优化效果，达到了提高适应度的目的.另外，在不同情况下的建模结果体现出了MI-JIT-ESN模型的有效性与准确性，而与其他传统神经网络建模方法的对比也体现出了MI-JIT-ESN模型的优越性.

[1] LEE J, LEE S Y, PARK S, et al. Control of fed-batch fermentations[J]. Biotechnology advances, 1999, 17(1):29-48.

[2] 周彩荣,刘中平. 偏最小二乘-速差动力学分光光度法同时测定

与

]. 郑州大学学报(理学版), 2015, 47(1):97-102.

[3] 李宗坤, 陈乐意, 孙颖章. 偏最小二乘回归在渗流监控模型中的应用[J]. 郑州大学学报(工学版), 2006, 27(2):117-119.

[4] 杨高飞，徐睿，秦鸣，等.基于ARMA和卡尔滤波的短时交通预测[J].郑州大学学报(工学版)，2017，38(2)：36-40.

[5] 李凌均, 陈超, 韩捷,等. 全矢支持向量回归频谱预测方法[J]. 郑州大学学报(工学版), 2016, 37(3):78-82.

[6] 胡燕，宋晓瑛，马刚.基于K-means和时间匹配的预测模型[J].郑州大学学报(工学版), 2017, 38(2):17-2 .

[7] 王杰, 陈春宇. 基于神经网络逆系统的循环流化床内模控制[J]. 郑州大学学报(工学版), 2013, 34(2):71-75.

[8] JAEGER H. The “echo state” approach to analysing and training recurrent neural networks-with an erratum note[R]. Bonn, Germany: German National Research Center for Information Technology GMD Technical Report, 2001(148):34.

[9] JAEGER H. Adaptive nonlinear system identification with echo state networks//Advances in neural information processing systems[C]. 2002: 593-600.

[10] JAEGER H, HAAS H. Harnessing nonlinearity: predicting chaotic systems and saving energy in wireless communication[J]. Science, 2004, 304(5667):78-80.

[11] PENG Y, WANG J, PENG X. Survey on reservoir computing[J]. Acta electronica Sinica, 2011, 39(10):2387-96.

[12] RODAN A, TINO P. Minimum complexity echo state network[J]. IEEE Transactions on neural networks, 2011, 22(1):131-44.

[13] VERSTRAETEN D, SCHRAUWEN B, Haene M, et al. An experimental unification of reservoir computing methods[J]. Neural networks, 2007, 20(3):391-403.

[14] WANG J S, HAN S, GUO Q P. Echo state networks based predictive model of vinyl chloride monomer convention velocity optimized by artificial fish swarm algorithm[J]. Soft computing, 2014, 18(3):457-68.

[15] DUTOIT X, SCHRAUWEN B, VAN C J, et al. Pruning and regularization in reservoir computing[J]. Neurocomputing, 2009, 72(7):1534-46.

[16] GUO W. Structural optimization algorithm for rbf neural network based on mutual information[J]. Computer science, 2013, 40(6):252-5.

[17] BROWN G, POCOCK A, ZHAO M. Conditional likelihood maximisation: a unifying framework for information theoretic feature selection[J]. The journal of machine learning research, 2012, 13(1):27-66.

[18] BIROL G, ÜNDEY C, Cinar A. A modular simulation package for fed-batch fermentation: penicillin production[J]. Computers & chemical engineering, 2002, 26(11):1553-65.

[19] LIU N, ZHANG J, YAN J. Weighted kernel regression for semi-supervised soft-sensing modeling of fed-batch processes[J]. Taiwan Inst. Chem. Eng. 2012(43): 67-76.

[20] YU J. A Bayesian inference based two-stage support vector regression framework for soft sensor development in batch bioprocesses[J]. Computers & chemical engineering, 2012(41):134-144.

[21] YU J. Multiway gaussian mixture model based adaptive kernel partial least squares regression method for soft sensor estimation and reliable quality prediction of nonlinear multiphase batch processes[J]. Industrial & engineering chemistry research,2012(51): 13227-13237.

Abstract: To improve the adaptability of echo state network (ESN), an optimization method based on mutual information (MI) and Just-In-Time (JIT) learning was proposed in this paper to optimize the input scaling and the output layer of ESN. The method was named as MI-JIT optimization method and the obtained new network was MI-JIT-ESN. The optimization method mainly consists of two parts. Firstly, the scaling parameters of multiple inputs were adjusted on the basis of MI between the network inputs and outputs. Secondly, based on JIT learning, a partial model of output layer was established. The new partial model could make the regression results more accurate. Further, a multi-input multi-output MI-JIT-ESN model was developed for the fed-batch penicillin fermentation process. The experimental results showed that the obtained MI-JIT-ESN model performed well, and that it had better adaptability than ESN model without optimization and other neural network models.

Key words: echo state network; mutual information; Just-in-Time learning; optimization; model; penicillin fermentation

Optimized Echo State Network on the Basis of Mutual Information andJust-in-time

(School of Electrical Engineering, Zhengzhou University, Zhengzhou 450001, China)

通信作者：王河山(1987— )，男，河南郑州人，郑州大学讲师，博士，主要从事神经网络建模优化研究，E-mail:whs7713578@163.com.