PLS偏最小二乘回归原理与应用

作者 Andrew.Du

出处：http://www.cnblogs.com/duye/p/9031511.html

一、前言

1.目的：

我写这篇文章的目的，是想用最简洁的语言阐述清楚何为偏最小二乘分析，以及到底应该如何应用这个在数学建模应用中备受青睐的模型。在此之前，你应该已经学过线性代数、高等数学等基础课程，并了解过诸如主成分分析（PCA）、多元线性回归等简单的数学模型，如果线性代数高等数学的知识已经还给老师，那么建议你重温一下。在正式讲解偏最小二乘回归之前，我先简单介绍一下几个基本概念。如果你对回归比较了解，下面的请略过直接看第二部分。

2.回归是什么?

”回归“一词来源于对父母身高对于子女身高影响的研究。有人对父母的身高与子女身高做统计，发现除了父母高则子女普遍高的常识性结论外，子女的身高总是“趋向”于人类平均身高，最早“回归”一词就来源于此，即子女的身高总是回归于人类平均身高。
现代意义上的回归，是研究因变量对自变量的依赖关系的一种统计分析方法，目的是通过自变量的给定值来估计或预测因变量的均值。它可用于预测、时间序列建模以及发现各种变量之间的因果关系。简单地说，回归就是去分析因变量与自变量之间的关系，从而为分析数据、预测数据提供科学的、合理的方法。

3.回归的方法有哪些?

目前常用的回归方法有以下几种：

多元线性回归：入门练习常见，但用在模型上基本无用，因为多个变量之间难免有复杂的相关性，多元线性回归不能处理多个自变量之间的“糅合”性。
逻辑回归：当预测的是1/0时使用。这也是机器学习中的一种常用二分类方法。
主成分回归：类似于主成分分析，将具有相关性的多维变量降维到互不相关的少数几维变量上，可以处理变量之间具有相关性的情况。

岭回归：同上，但方法不同。

偏最小二乘回归：当数据量小，甚至比变量维数还小，而相关性又比较大时使用，这个方法甚至优于主成分回归。

4.回归的检验？

建模是最重要的，但好的回归模型是需要检验的，否则你的模型就会显得“苍白无力”。回归结果好与坏，应该怎么检验呢？从以下几方入手:

自变量与因变量是否具有预期的关系。如果有非常不符合逻辑的系数，我们就应该考虑剔除它了。
自变量对模型是否有帮助。如果自变量的系数为零（或非常接近零），我们认为这个自变量对模型没有帮助，统计检验就用来计算系数为零的概率。如果统计检验返回一个小概率值（p值），则表示系数为零的概率很小。如果概率小于0.05，汇总报告上概率（Probability）旁边的一个星号（*）表示相关自变量对模型非常重要。换句话说，其系数在95%置信度上具有统计显著性。
残差是否有空间聚类。残差在空间上应该是随机分布的，而不应该出现聚类。
模型是否出现了倾向性。如果我们正确的构建了回归分析模型，那么模型的残差会符合完美的正态分布，其图形为钟形曲线。
自变量中是否存在冗余。建模的过程中，应尽量去选择表示各个不同方面的自变量，也就是尽量避免传达相同或相似信息的自变量。 评估模型的性能。评估矫R2值，有时还要加上修正的Akaike信息准则/Akaike’s information criterion (AIC)，效果是否好。

二、进入正题：偏最小二乘回归

1.偏最小二乘回归的思想：

一般来说，能用主成分分析就能用偏最小二乘。偏最小二乘集成了主成分分析、典型相关分析、线性回归分析的优点。在普通多元线形回归的应用中，我们常受到许多限制。最典型的问题就是：自变量之间的多重相关性。并且有的时候样例很少，甚至比变量的维度还少，变量之间又存在多重相关性。偏最小二乘回归就是为解决这些棘手的问题而生的。
举个例子，比如现在，有一堆因素（X1,X2,…Xn）(这是自变量)，这些因素可以导致（Y1,Y2,…Yn）（这是因变量），给的样例很少，而我们又完全不清楚自变量之间、因变量之间存在的关系，这时问自变量与因变量之间到底是一个什么关系？这就是偏最小二乘要解决的问题。

2.偏最小二乘回归建模原理：

设有 q个因变量{y1,…,yq}和p自变量{x1,…,xp}。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={x1,…,xp}和.Y={y1,…,yp}。偏最小二乘回归分别在X与Y中提取出成分t1和u1(也就是说, t1是x1,x2,…,xq的线形组合, u1是y1,y2,…,yp的线形组合).在提取这两个成分时,为了回归分析的需要,有下列两个要求:

(1) t1和u1应尽可能大地携带他们各自数据表中的变异信息;

(2) t1与u1的相关程度能够达到最大。

这两个要求表明，t1和u1应尽可能好的代表数据表X和Y,同时自变量的成分t1对因变量的成分u1又有最强的解释能力。

在第一个成分t1和u1被提取后，偏最小二乘回归分别实施X对t1的回归以及 Y对u1的回归。如果回归方程已经达到满意的精度，则算法终止；否则,将利用 X被t1解释后的残余信息以及Y 被t2解释后的残余信息进行第二轮的成分提取。如此往复，直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分t1,t2,…,tm，偏最小二乘回归将通过实施yk对t1,t2,…,tm的回归,然后再表达成yk关于原变量X1,X2,…,Xq的回归方程,k=1,2,…,p。

3.推导偏最小二乘回归：

为了彻底理解偏最小二乘回归，我建议下面的步骤你都亲自推导一遍。相信经过下面的推导，能让你对偏最小二乘有一个更加清晰的认识。

step1:数据说明与标准化

　　数据矩阵E0，F0，其中E0为自变量矩阵，每一行是一个样例，每一列代表了一个维度的变量；F0是因变量矩阵，解释同E0。

　　数据标准化即，要将数据中心化，方法是每个样本都做如下操作：减去一个维度变量的均值除以该维度的标准差。以下设E0，F0都为标准化了的数据。即：自变量经标准化处理后的数据矩阵记为E0（nm），因变量经标准化处理后的数据矩阵记为F0（np）。

step2:求符合要求的主成分（☆）

　　即求自变量与因变量的第一对主成分t1和u1，根据主成分原理，要求t1与u1的方差达到最大，这是因为：方差最大则表示的信息就越多。另一方面，又要求t1对u1有最大的解释能力，由典型相关分析的思路知，t1与u1的相关度达到最大值。

　　因此，综合上述两点，我们只要要求t1与u1的协方差达到最大，即：

Cov(t1,u1) –> max

而且，t1是X的线性组合，那么权重系数设为W1，即t1 = E0W1，同理，u1是Y的线性组合，u1 = F0C1。同时又要求，W1与C1同为单位向量，问题的数学表达式为：

　max <E0w1,F0c1>

　　　　　　　　　　S.T.

　　　　　　　　　　　　||W1|| = 1;

　　　　　　　　　　　　||c1|| = 1

这就是一个条件极值的问题，你可以采用拉格朗日方法求解（如果你还有兴趣，可以查阅高数课本，当然，你也可以直接看结论，这里我只给出结论，推导省略，实际上推导并不影响你理解）。

通过拉格朗日求解，知w1就是矩阵E0‘F0F0’E0的对应于最大特征值的特征向量，c1就是矩阵F0’E0E0’F0对应于最大特征值的最大特征向量，均单位化。

有了权系数w1，c1，自然可以求得主成分t1，u1。至此，第一对主成分完成。

step3:建立主成分与原自变量、因变量之间的回归（☆）

　　建立E0，F0对t1，u1的三个回归方程，如下：

式中，回归系数向量是：

而E1,F*1,F1分别是三个回归方程的残差矩阵.

step4:继续求主成分，直到满足要求

　　用残差矩阵E1和F1取代E0和F0,然后,求第二个轴w2和c2以及第二个成分t2,u2,有

重新执行step3。直到求出所有主成分或者满足要求（后面说明）。

step5:推导因变量之于自变量的回归表达式（☆）

　　如此经过step3-step4反复，若E0的秩为A，则可以求出：

由于t1….tA都可以表示E01，E02….E0q的线性组合，那么就自然还原成下面的形式：

Fak为残差矩阵Fa的第k列。这样，就求出了回归方程。

step6:检验-交叉有效性（☆）

　　这是最后一步，也是非常重要的一步。下面要讨论的问题是在现有的数据表下,如何确定更好的回归方程。在许多情形下,偏最小二乘回归方程并不需要选用全部的成分进行回归建模,而是可以象在主成分分析一样,采用截尾的方式选择前m 个成分,仅用这m 个后续的成分就可以得到一个预测性较好的模型。事实上,如果后续的成分已经不能为解释因变量提供更有意义的信息时,采用过多的成分只会破坏对统计趋势的认识,引导错误的预测结论。

下面的问题是怎样来确定所应提取的成分个数。

在偏最小二乘回归建模中,究竟应该选取多少个成分为宜,这可通过考察增加一个新的成分后,能否对模型的预测功能有明显的改进来考虑。采用类似于抽样测试法的工作方式,把所有n个样本点分成两部分:第一部分除去某个样本点i的所有样本点集合(共含n-1个样本点),用这部分样本点并使用h个成分拟合一个回归方程;第二部分是把刚才被排除的样本点i代入前面拟合的回归方程,得到yj在样本点i上的拟合值。对于每一个i=1,2,…,n,重复上述测试,则可以定义yj的预测误差平方和为PRESShj。有：

定义Y 的预测误差平方和为PRESSh,有

显然,如果回归方程的稳健性不好,误差就很大,它对样本点的变动就会十分敏感,这种扰动误差的作用,就会加大PRESSh的值。

另外,再采用所有的样本点,拟合含h 个成分的回归方程。这是,记第i个样本点的预测值为,则可以记yj的误差平方和为SShj,有

定义Y的误差平方和为SSh,有

定义称为交叉有效性，对于每一个变量yk，定义

对于全部因变量Y,成分th交叉有效性定义为

用交叉有效性测量成分th对预测模型精度的边际贡献有如下两个尺度。

(1) 当时, th成分的边际贡献是显著的。显而易见,是完全等价的决策原则。

(2) 对于k=1,2,…,q,至少有一个k,使得。这时增加成分th,至少使一个因变量yk的预测模型得到显著的改善,因此,也可以考虑增加成分th是明显有益的。

三、实现偏最小二乘回归算法步骤：

　　上面推导了偏最小二乘回归，分析了其中的原理。为了使得在实际应用中更加快速的使用偏最小二乘回归，在此，贴上实现偏最小二乘法实现的简洁步骤，需说明的是，下面算法来自司守奎老师《数学建模算法与应用》一书，该书推导过程跨度大，个人认为不适合新手直接阅读，建议你在理解了上述第二部分后再去阅读此书“偏最小二乘回归”章节，定会有更加高层次的认识。步骤如下：

四、MATLAB实例以及实现

　　有必要贴出偏最小二乘的简单建模应用，并用matlab去是实现之，你可以按照上述步骤，通过基本的运算如求矩阵特征值等，来实现，也可以使用matlab工具箱方法实现之，下面给出的依旧是一个来自司守奎老师书本上的案例：

例：采用兰纳胡德（Linnerud）给出的关于体能训练的数据进行偏小二乘回归建模。在这个数据系统中被测的样本点，是某健身俱乐部的 20 位中年男子。被测变量分为两组。第一组是身体特征指标 X ，包括：体重、腰围、脉搏。第二组变量是训练结果指标Y ，包括：单杠、弯曲、跳高。原始数据见表 1。表 2 给出了这 6 个变量的简单相关系数矩阵。从相关系数矩阵可以看出，体重与腰围是正相关的；体重、腰围与脉搏负相关；而在单杠、弯曲与跳高之间是正相关的。从两组变量间的关系看，单杠、弯曲和跳高的训练成绩与体重、腰围负相关，与脉搏正相关。

可以利用如下的MATLAB程序：

clc,clear
load pz.txt %原始数据存放在纯文本文件 pz.txt 中
mu=mean(pz);sig=std(pz); %求均值和标准差
rr=corrcoef(pz); %求相关系数矩阵
data=zscore(pz); %数据标准化,变量记做 X*和 Y*
n=3;m=3; %n 是自变量的个数,m 是因变量的个数
x0=pz(:,1:n);y0=pz(:,n+1:end); %原始的自变量和因变量数据
e0=data(:,1:n);f0=data(:,n+1:end); %标准化后的自变量和因变量数据
-679-
num=size(e0,1);%求样本点的个数
chg=eye(n); %w 到 w*变换矩阵的初始化
for i=1:n
%以下计算 w，w*和 t 的得分向量，
matrix=e0'*f0*f0'*e0;
[vec,val]=eig(matrix); %求特征值和特征向量
val=diag(val); %提出对角线元素，即提出特征值
[val,ind]=sort(val,'descend');
w(:,i)=vec(:,ind(1)); %提出最大特征值对应的特征向量
w_star(:,i)=chg*w(:,i); %计算 w*的取值
t(:,i)=e0*w(:,i); %计算成分 ti 的得分
alpha=e0'*t(:,i)/(t(:,i)'*t(:,i)); %计算 alpha_i
chg=chg*(eye(n)-w(:,i)*alpha'); %计算 w 到 w*的变换矩阵
e=e0-t(:,i)*alpha'; %计算残差矩阵
e0=e;
%以下计算 ss(i)的值
beta=t\f0; %求回归方程的系数，数据标准化，没有常数项
cancha=f0-t*beta; %求残差矩阵
ss(i)=sum(sum(cancha.^2)); %求误差平方和
%以下计算 press(i)
for j=1:num
t1=t(:,1:i);f1=f0;
she_t=t1(j,:);she_f=f1(j,:); %把舍去的第 j 个样本点保存起来
t1(j,:)=[];f1(j,:)=[]; %删除第 j 个观测值
beta1=[t1,ones(num-1,1)]\f1; %求回归分析的系数,这里带有常数项
cancha=she_f-she_t*beta1(1:end-1,:)-beta1(end,:); %求残差向量
press_i(j)=sum(cancha.^2); %求误差平方和
end
press(i)=sum(press_i);
Q_h2(1)=1;
if i>1, Q_h2(i)=1-press(i)/ss(i-1); end
if Q_h2(i)<0.0975
fprintf('提出的成分个数 r=%d',i); break
end
end
beta_z=t\f0; %求 Y*关于 t 的回归系数
xishu=w_star*beta_z; %求 Y*关于 X*的回归系数，每一列是一个回归方程
mu_x=mu(1:n);mu_y=mu(n+1:end); %提出自变量和因变量的均值
sig_x=sig(1:n);sig_y=sig(n+1:end); %提出自变量和因变量的标准差
ch0=mu_y-(mu_x./sig_x*xishu).*sig_y; %计算原始数据回归方程的常数项
for i=1:m
xish(:,i)=xishu(:,i)./sig_x'*sig_y(i); %计算原始数据回归方程的系数
end
sol=[ch0;xish] %显示回归方程的系数，每一列是一个方程，每一列的第一个数是常数项
save mydata x0 y0 num xishu ch0 xish

求解过程如下：