最优化理论与算法(数学专业研究生)
第一章 引论
§1.1 引言
一、历史与现状
最优化理论最早可追溯到古老的极值问题,但成为一门独立的学科则是在20世纪四十年代末至五十年代初。其奠基性工作包括Fritz John最优性条件(1948),Kuhn-Tucker最优性条件(1951),和Karush最优性条件(1939)。近几十年来最优化理论与算法发展十分迅速,应用也越来越广泛。现在已形成一个相当庞大的研究领域。关于最优化理论与方法,狭义的主要指非线性规划的相关内容,而广义的则涵盖:线性规划、非线性规划、动态规划、整数规划、几何规划、多目标规划、随机规划甚至还包括变分、最优控制等动态优化内容。本课程所涉及的内容属于前者。 二、最优化问题的一般形式 1、无约束最优化问题
minf(x) (1.1) nxR2、约束最优化问题
minf(x)
ci(x)0, iE (1.2)
s..tci(x)0, iI这里E和I均为指标集。
§1.2数学基础
一、 范数 1. 向量范数
xmaxxi (l范数) (1.3)
x1xi (l1范数) (1.4)
i1nx2(xi) (l2范数) (1.5)
i1n122精品文档
精品文档
1ppxp(xi) (lp范数) (1.6)
i1nxA(xAx) (A正定) (椭球范数) (1.7)
T12事实上1-范数、2-范数与范数分别是 p-范数当 p=1、2和p时情形。 2.矩阵范数
定义1.1 方阵A的范数是指与A相关联并记做A的一个非负数,它具有下列性质: ① 对于A0都有A0,而A0时A0; ② 对于任意kR,都有kAkA; ③ ABAB; ④ ABAB; 若还进一步满足: ⑤ AxpAxp
p则称之为与向量范数相协调(相容)的方阵范数。若令
Amaxx0Ax (这里x是某一向量范数) (1.8) x相协调的,通常称之为由向量范数
诱导的方阵范数。特别地,
可证这样定义的范数是与向量范数对方阵A(aij)nn,有:
A1maxaij(列和的最大者) (1.9)
ji1nnAmaxaij(行和的最大者) (1.10)
ij1A2(ATA)2(ATA表示ATA的特征值的最大者) (1.11)
称为谱范数(注:方阵A的特征值的模的最大者称为A的谱半径,记为(A))。
对于由向量诱导的方阵范数,总有:
1精品文档
精品文档
A11Axminx0x ,I1(I为单位阵)
对于方阵范数,除了上述由向量范数诱导的范数之外,还有常用的Frobenius范数,简称F-范数:
AF(aij)[tr(AA)] (1.12)
Ti1j1nn12212及加权Frobenius范数和加权l2范数:
AM,FMAMF (1.13)
AM,2MAM2 (1.14)
其中M为对称正定矩阵。 3. 范数的等价性 定义1.2 设
与
是Rn上的两个范数,若存在1,20,使得
1x则称范数
x2x, xRn (1.15)
与
是等价的。
容易证明:
x2x1nx2 (1.16) xx2nx (1.17)
xxx1nx (1.18) x2x1 (1.19)
nx2xA1x2 (1.20)
其中1是A的最大特征值,而n是A的最小特征值。由此可见,R中的常用向量范数均等价,事实上还可证明:R中所有向量范数均等价。 4. 关于范数的几个重要不等式。
① Cauchy-Schwarz不等式
nnxTyxy(当且仅当x和y线性相关时,等式成立) (1.21)
精品文档
精品文档
② 设A是正定矩阵,则
xTAyxTAyA(当且仅当x与y线性相关时,等式成立) (1.22)
由(x,y)xAy是一种内积,以及一般内积的Cauchy-Schwarz不等式即得。 ③ 设A是nn正定矩阵,则
xTyxAyA1(仅当x与Ay线性相关时,等式成立) (1.23)
1xTyxTAA1yx其中的不等号由②可得。
AA1yAxAyA1 (1.24)
④ Young不等式:假定p与q都是大于1的实数,且满足
111,则x,yR,有 pqxpyq xy, (1.25) pq当且仅当xy 时,等式成立。其证明由算术-几何不等式直接给出,事实上
pqxy(x⑤ Hölder不等式
p)(y)q1p1qxpyq(算术-几何不等式) pqxyxTpyq(xi)(yi)q (1.26)
pn1pn1qi1i1其中p与q都是大于1的实数,且满足⑥ Minkowski不等式
111,其证明利用Young不等式可得。 pqxyp(p1) (1.27) xpyp,
后面将利用凸函数理论予以证明。
二、矩阵求逆与广义逆 1. Von-Neumann引理
定理1.3 (Von-Neumann引理) 设ER如果E1,则(IE)非奇异,且 精品文档
nn,IRnn是单位阵,
是满足I1的相容矩阵范数。
精品文档
(IE)Ek, (IE)11K01
1E若A非奇异,A1(AB)1,则B非奇异,且
B1(IA1B)kA1, B1k02证明:因为E1,故 SkIEEA11A1(AB).
Ek 定义了一个Cauchy序列,因而收敛。由
k1 Sk(IE)IE
可得 limSk(IE)lim(IEkk1k)I
故有
Ek0klimSk(IE)1
k进一步有 (IE)1Ek0k1。
1E再令 EIAB,
知 EIA1BA1(AB)1 由上面结论可得,
1(IE)(AB)(IA1B)k
111k01所以有 B(IA1B)kA1k0
进一步有 B1IA1Bk0kA1A1(AB)k0kA1A11A1(AB)。
注:这个定理表明,若B充分接近一个可逆矩阵A,则B也可逆,且逆矩阵可由A的逆矩阵来表示。
上述定理还可以写成下面形式: 定理1.4 设A,BRnn,A可逆,A1。若AB,且1,则B可逆,且
B1。
111证明:只需注意到A(BA)A精品文档
BA1,再由上述Von-Neumann引理即得。
精品文档 2. 广义逆 定义1.5 设ACmn,若ACnm满足:
AAAA,AAAA,(AA)*AA,(AA)*AA (1.28)
则称A是A的广义逆。其中A*是A的共轭转置。 广义逆的求法 ① 设ACmn,秩(A)r,若A直交分解为AQRP,其中Q,P分别为mm,nn酉矩阵,
*R0RCmn,R11,其中R11是rr非奇异的上三角矩阵。则A的广义逆为:
001R110APRQ 其中 R (1.29)
00*② 若A的奇异值分解为AUDV,其中U,V均为酉矩阵,D*00mnC,而0diag(1,,r),i0是A的非零奇异值,则A的广义逆为:
*10AVDU,其中D (1.30)
00③ 若A的最大秩分解为ABC,则
A的广义逆为:
AC*(CC*)1(B*B)1B*. (1.31)
三、 矩阵的Rayleigh商
定义1.6 A是nn Hermite矩阵,uC,则称
nu*AuR(u)* (u0) (1.32)
uu为矩阵A的Rayleigh商
定理1.7 设A是nn Hermite矩阵,则Rayleigh商具有下列性质: 1) 齐次性: R(u)R(u) (0)
u*Au2) 极性: 1maxuAumax*
u21u0uu*精品文档
精品文档
u*AunminuAumin*
u21u0uu*这里1,n分别对应于矩阵A的最大与最小特征值。这表明Rayleigh商具有有界性: nR(u)1 3)极小残量性质:对任意uC,
n(AR(u)I)u(AI)u,R。
证明:1)由定义直接可得。
1*2)由A是Hermite矩阵,故存在酉矩阵T,使TAT又令 uTy,且u*** n21,故y21
*2则 uAuyTATyyy1y1当取y(1,0,nyn
0,1)时,达到最小值n。
2,0)时达到最大值1,当取y(0,0,3)令s(u)AuR(u)u,(u0),则Aus(u)R(u)u,可直接验证
s(u),R(u)u0,
**由于 (s(u),u)(AuR(u)u,u)uAuR(u)uu0
注意到R(u)u是与u共线的,故s(u)与R(u)u正交。即R(u)u与s(u)是Au的正交分解。因而
R(u)u是Au在Lu上的直交投影,因而具有极小残量性质。
四、矩阵的秩一校正
当矩阵A变到Auv时,即在A上加了一个秩为1的矩阵,称为秩一校正。下面讨论如何求秩一校正的逆,行列式,特征值及矩阵分解。 定理1.8 设ARmnTu,vR是任意向量。是非奇异的,若1vAu0,则A的秩一校正AuvnTT非奇异,其逆矩阵可以表示为
精品文档
精品文档
A1uvTA1(Auv)A (1.33)
1vTA1uT11证明:可直接验证。
上述定理的可进一步推广为:
定理1.9 设A是非奇异矩阵,U,V是nm矩阵,若IVAU可逆,则AUV可逆,且
*1*(AUV*)1A1A1U(IV*A1U)1V*A1 (1.34)
下面介绍关于秩一校正的行列式定理 定理1.10 1)det(Iuv)1vu
TTTTTT2)det(Iu1u2u3u4)(1u1u2)(1u3u4)(u1u4)(u2u3)
TT证明: 1)若u0,则结论显然成立;若u0,设w是(Iuv)的特征向量。则
T(IuvT)ww
易见w要么与v垂直,要么与u平行。若与v垂直,则特征值为1;若与u平行,则对应特征值为
1vTu。 进一步,平行于u的特征向量只有一个(线性无关),而垂直于v的线性无关的向量有n1个,它们均为Iuv属于特征值1的特征向量,即特征值1是(n1)重根, 而1vu是单根。
T故有 det(Iuv)1TTn1n1(1vTu)1vTu。
TTTT1T2) 对Iu1u2u3u4(Iu1u2)I(Iuu)uu1234 使用上面结果,故有:
TT1det(Iu1u2Tu3u4T)(Iu1Tu2)1u(Iuu)u3412
Tu1u2T(1uu2)1u4(I)u3 T1uu12T1TTTu4)(u1u4)(u2u3)。 (1u1Tu2)(1u3关于秩一校正矩阵的特征值定理。
定理1.11设A是对称矩阵,其特征值为12n,又设AAuuT,其特征值为
12n,那么
nn
1) 若0,则1122精品文档
精品文档
2) 若0,则1122
五、函数与微分
1.多元函数的梯度与Hessian矩阵 梯度 f(x)(nn
f,x1,fT) (1.35) xn2f2x12Hessian矩阵 f(x)2fxnx12fx1xn (1.36) 2fxn2方向导数:(设d为一方向向量,即长度为1的单位向量,显然与范数的取法有关)
ff(xd)f(x)Tlimf(x)d (1.37) 0x注:对欧氏范数(2-范数)而言,梯度方向是函数上升最快的方向,而负梯度方向则是函数下降最快的方向。正因为这个原因,使得梯度在最优化理论与算法中占有特殊重要的地位。
若f:RR在开凸集D上连续可微,则有
nf(xd)f(x)f(xtd)Tddtf(x)f()Td (1.38)
01其中(x,xd)。上式也可改写为:
f(y)f(x)f(xt(yx))T(yx) t(0,1)
或 f(y)f(x)f(x)(yx)o(yx)
若f在D上二阶连续可微,则对于任何x,xdD,存在(x,xd),使得
Tf(xd)f(x)f(x)Td1T2df()d 2!12f(x)f(x)TddT2f(x)do(d)
2!2.向量函数的微分
nm设F:RR是一个向量函数,若其每个分量fi(i1,,m)都连续可微,则称F(x)连续可
微。F(x)在x处的导数记为: 精品文档
精品文档
f1x1F(x)fmx1f1xnJ(x) (1.39) fmxnT称之为F(x)在x处的Jacobi矩阵,而称F(x)(F(x))为向量函数F(x)在x处的梯度。
若F:RR在开凸集D上连续可微,则对任何x,xdD,有:
nmF(xd)F(x)F(xtd)ddt
01定义1.12 G:RRnmn在xDR处称为Lipschitz连续的,若vD,都有
nG(v)G(x)vx。
若在D中每一点均Lipschitz连续,则称G在D上Lipschitz连续,记为GLip(D)。其中,称为Lipschitz常数。
定理1.13 (向量函数线性化近似的误差估计)设F:RR在开凸集D上连续可微,F(x)在x的邻域D中Lipschitz连续,则对于任何xdD,有
nmF(xd)F(x)F(x)d证明: F(xd)F(x)F(x)d2d.
210F'(xd)ddF(x)d
F(xd)F(x)dd
01从而 F(xd)F(x)F(x)d F(xd)F(x)dd0101
10(F(xd)F(x))ddF(xd)F(x)dd
10dddd210dd.
122注:在上述证明过程中的第一个不等式并不平凡,它实际上要求,对一般向量函数的积分,下述命题成立。
命题:对可积向量函数f(t)(f1(t),f2(t),,fn(t)),有
Tbaf(t)dtf(t)dt.
ab证明:对于l1范数上述命题是成立的,这是因为:
精品文档
精品文档
babaf(t)dt1babaf1(t)dtbaf2(t)dtbababafn(t)dt
fn(t))dt
f1(t)dtf2(t)dtbafn(t)dt(f1(t)f2(t)f(t)dt
1对于l2范数上述命题也成立。事实上,
babb2af(t)dtbn(fi(t)dt)2i1ai1nbbiaanbnba2bafi(t)fi(s)dtds(f(t)f(s))dtdsfaii1i1i(t)nfi1n2i(s)dtdsb
ai1nfi(t)dt2bai1nfi(s)ds(2bai1fi2(t)dt)2(af(t)dtdt)2对于一般范数,需借助于Banach空间弱Riemann积分理论进行证明。 定理1.13给出了线性近似的误差界,下面考虑二次近似的误差界。
n定理1.14 设f:RR在开凸集DR上二次连续可微,f(x)在x的邻域D上Lipschitz连
n2续。则对于任何xdD有:
13f(xd)f(x)f(x)TddT2f(x)dd
26T()fx(d)证明: f(xd)fx1T2dfxd( )210011t00dT2f(xd)dddttdT2f(x)dddt
00tdT2f(xd)ddT2f(x)dddt
100tddddtdnm231t00ddtd
163n定理1.15 设F:RR在开凸集DR上连续可微,则对任何x,u,vD,有
(vt(uv))F(x)uv, F(u)F(v)F(x)(uv)supF0t1若进一步F在D中Lipschitz连续,则有:
F(u)F(v)F(x)(uv)uxvxuv.
2精品文档
精品文档
证明:F(u)F(v)F(x)(uv)1F(vt(uv))F(x)(uv)dt011
F(vt(uv))F(x)uvdt (由此式即可得第一部分结论)
0vt(uv)xuvdt(1t)(vx)t(ux)uvdt
001uvvx10(1t)dtuxtdt01uxvxuv.
21定理1.16设F,F满足上面定理条件,假定矩阵F(x)存在(这蕴含着F(x)是方阵,即
F(x):RnRn)。则存在0,0,使得u,vD,当max
ux,vx 时,有:
uvF(u)F(v)uv
证明:F(u)F(v)F(x)(uv)F(u)F(v)F(x)(uv) F(x)(uxvx)uv
2 F(x)uv uv (令F(x)) 从而右边不等式得证。另一方面,注意到:
uvF(x)1F(x)(uv)F(x)1F(x)(uv))
故有 F(u)F(v)F(x)(uv))F(u)F(v F(x) (uv)1 (uxvx12F(x))uv 1 uvuv 1F(x)因此,若取11,且令 (0),则得左边不等式结论。 11F(x)F(x)1由1F(x)F(x)F(x)1F(x),可得
1F(x),从而有0。 1F(x)六、差商(偏差商)
设F(x)(f1(x),精品文档
,fm(x))T是一个向量函数,其Jacobi矩阵的第i行j列元素可用差商(偏差
精品文档 商)
aijfi(xhej)fi(x)h
近似。由偏差商构成的矩阵A(aij)mn称为F(x)的差商矩阵。显然差商矩阵的第j列为
AjF(xhej)F(x)h
关于差商矩阵与Jacobi矩阵有如下误差估计式
定理1.17 设F:RR在开凸集D上连续可微,F(x)在D中Lipschitz连续,则 AjJ(x)jnm2h
若采用的范数是l1范数,则有:AJ(x)1证明: 将定理1.13中的d取为hej,则有
2h
F(xhej)F(x)J(x)hejF(xhej)F(x)J(x)jh两边同除h,则有
AjJ(x)j2hej22h2
2h.
类似地,也可以用中心差分来近似梯度和Hessian矩阵,并有如下误差估计结果。
定理1.18 设f:RR在开凸集D上二次连续可微,f(x)在D上Lipschitz连续,又设所采用的范数满足ej1,(i1,n2,n),定义f(x)在x处的中心偏差商为:
aif(xhei)f(xhei)
2h则 aif(x)i如采用l范数,则af(x)证明:由定理1.14有:
6h2
,an)T.
6h2 ,其中a(a1, f(xd)f(x)f(x)d令dhei,则有
T1T23df(x)dd 26精品文档
精品文档
1f(xhei)f(x)hf(x)ih22f(x)iih3
26再令dhei,又有
1f(xhei)f(x)hf(x)ih22f(x)iih3
26令上两式中左端绝对值内的部分分别为,,则有
f(xhei)f(xhei)2hf(x)ih3
3f(xhei)f(xhei)f(x)iaif(x)ih2
2h6由此即得:
由l范数的定义,有
af(x)6h2.
2定理1.19 设f(x)在开凸集D上二次连续可微,f(x)在D上Lipschitz连续,采用的范数满足
ej1,(i1,,n),假定x,xhei,xhej,xheihejD(i,j1,aijf(xheihej)f(xhei)f(xhej)f(x)h22,n)。定义:
则有: aijf(x)ij5h 3若采用矩阵范数是l1,l或F-范数,则
5。 hn(这里A(aij)是Hessian矩阵的离散形式)
31TT2证明:令f(xheihej)f(x)(heihej)f(x)(heihej)f(x)(heihej)
21TT2 f(xhei)f(x)(hei)f(x)(hei)f(x)(hei)
21f(xhej)f(x)(hej)Tf(x)(hej)T2f(x)(hej)
2(aij2f(x)ij) 经简单计算有: 2h Af(x)2又由定理1.14有,
6heihej38h3 6精品文档
精品文档
6heihej23631h3 61h3 6进而有 aijf(x)ijh21105()hh h263再由矩阵l1,l及F-范数的定义立即可得:
5A2f(x)hn
3
§1.3 凸集与凸函数
一、凸集(Convex Set) 1.凸集的概念
定义1.20 设SR,若x1,x2S,都有
x1(1)x2S 0,1 则称S是凸集。
定理1.21 R的子集S为凸集的充分必要条件是x1,x2,
nn,xmS有
xS
iii1m其中i0 (i1,,m)且i1。
i1m凸集的例子:n维球、半空间、超平面、xAxb,x0等均为凸集。 定理1.22 若S1,S2是R中的凸集,则 1) S1nS2是凸集;(事实上,任意多个凸集的交仍为凸集)
2) S1S2x1x2x1S1,x2S2也是凸集 2.凸包 集合S的凸包的定义如下:
mm Conv(S)xxixi,xiS,i1,i0,m1,2,i1i1 由定义知,集合S的凸包由S中元素所有可能的凸组合构成。还可证明:它是所有包含集合S的凸精品文档
精品文档
集的交,即它是包含集合S的最小凸集。 3.锥、凸锥
定义1.23 设KRn,若xK,0,有xK,则称K为锥;若锥K还是凸集,则称之为凸锥。
容易证明:K是凸锥的充要条件是,K对正组合运算封闭。 定理1.23 若CR是凸集,则C的闭包C也是凸集。 证明:x,yC,则存在序列xk,ykC,使得
nlimxkx,limyky
kk从而有 lim(xk(1)yk)x(1)y,0,1
k注意到
xk(1)ykC及C的闭性,可知
x(1)yC
这就证明了C是凸集。 4.极点与极方向
定义1.24 设SR是非空凸集,xS,若x不在S中任何线段的内部,则称x是凸集S的极点。 显然,多边形顶点、圆周上的点均为极点。
定义1.25 设SR是闭凸集,d为非零向量,若对任意xS,当0时,总有xdS,则称d为S的方向;若S中的某方向d不能表示为该集合的两个不同方向的正的线性组合,则称d为S的极方向。
极点与极方向是凸多面体中非常重要的概念,在线性规划中有重要应用,关于这些方面的详细讨论,可参阅有关线性规划教材。
二、凸函数
定义1.26 设SR是非空凸集,f是定义在S上的函数,若对任意的x1,x2S都有: f(x1(1)x2)f(x1)(1)f(x2) (0,1 )则称f是S上的凸函数。凸函数的另一等价定义是:
nnn精品文档
精品文档
nnf(ixi)if(xi)
i1i1其中,
i1ni1,i0。若x1x2时,不等式严格成立,则称f在S上是严格凸的。若f在S上
是凸(严格凸),则称f在S上是凹(严格凹)。 定理1.27 设f(x)是定义在凸集S上的凸函数,
1) 若0,则f(x)是S上的凸函数;
2) 若f1,f2是S上的凸函数,则f1f2也是凸函数。 由此立即可得:若f1,凸函数的一阶特征
定理1.28 设SR是非空开凸集,f是定义在S上的可微函数,则f为凸函数的充要条件是:
n,fm是S上的凸函数,1,,m0,则ifi也是S上的凸函数。
i1mf(y)f(x)f(x)T(yx) x,yS
证明:必要性,设f是凸函数,则对任意的(0,1),有 f(y(1)x)f(y)(1)f(x) 因此有
f(x(yx))f(x)Tf(y)f(x)
令0得 f(x)(yx)f(y)f(x) 即 f(y)f(x)f(x)(yx) 必要性得证。
充分性: 设f(y)f(x)f(x)(yx),x,yS成立。
任取x1,x2S及(0,1),令xx1(1)x2,于是有:
T f(x1)f(x)f(x)(x1x) T f(x2)f(x)f(x)(x2x)
TT于是有
f(x1)(1)f(x2)f(x)f(x)Tx1(1)x2x
精品文档
精品文档
f(x)f(x1(1)x2)
即 f(x1(1)x2)f(x1)(1)f(x2) 亦即f(x)是凸函数,充分性得证。
● 几何解释:凸函数图像位于割线之下,切线之上。 凸函数的二阶特征
定理1.29 设SR是非空开凸集,f是定义在S上的二次可微函数,则f为凸函数的充要条件是
nS上的每一点的Hessian矩阵半正定。
证明:充分性, 设 f(x)在每一点xS均半正定。任取x,yS,由中值定理有:
TT2(yx)f()(yx) f(y)f(x)f(x)(yx)122 f(x)f(x)(yx),(其中在以x,y为端点的线段上) 所以,f(x)是凸函数。
必要性,设f(x)是凸函数,则任取xS,对任意的pR,充分小时有 f(xp)f(x)f(x)p 另一方面 f(xp)f(x)f(x)pTTnT22pT2f(x)p0(p)
2故
22pT2f(x)p0(p)0
2两边除以并令0,则有
2pT2f(x)p0
即 f(x)半正定。
注:对严格凸函数有类似的一阶与二阶特征,但要注意一些细微的差别。
定理1.30 设SR是非空开凸集,f是定义在S上的可微函数,则f为严格凸的充要条件是 f(y)f(x)f(x)(yx), x,yS,xy
证明:充分性证明与前述凸函数情形完全类似,故从略。必要性的证明如下:
T2n精品文档
精品文档
设f(x)在S上严格凸,x,yS且xy,令z故有 f(z)11xy,则显然zS。由于f(x)严格凸,2211f(x)f(y) 22T及 f(z)f(x)f(x)(zx)
11f(x)f(y)f(x)f(x)T(zx) 22111 f(y)f(x)f(x)T(yx)
222由上两式有
因此有 f(y)f(x)f(x)(yx).
n定理1.31设SR是非空开凸集,f是定义在S上的二次可微函数,若xS,f(x)正定,则
2Tf(x)为严格凸函数。
注:严格凸不能推出f(x)正定,因此f(x)正定是严格凸的充分条件,但不是必要条件。如
22f(x)x4,f(x)12x2,f(0)0 不正定,但它是严格凸的。
定理1.32 设SR是非空开凸集,f是定义在S上的凸函数,是一个实数,则水平集
nLxxS,f(x)是凸集。
证明: 略
进一步,若f(x)是连续凸函数,则L是闭凸集。事实上,设xkL,且limxkx
k那么 f(x)f(limxk)limf(xk)
kk所以 xL,故L为闭集。
定理1.33 设f(x)是SR上二次连续可微的凸函数,且存在常数m0,使得
nT2 uf(x)umu xL(x0),uR
n2则水平集L(x0)xxS,f(x)f(x0)是有界闭凸集。
证明:由上面讨论可知,L(x0)是闭凸集,因而仅需 证明L(x0)是有界的。由于L(x0)是凸的, 因而 x,yL(x0),x(yx)y(1)xL(x0), 从而有 (yx)f(x(yx))(yx)my x由Taylor展开式, 精品文档
T22精品文档
f(y)f(x)f(x)(yx)T f(x)f(x)(yx)T1001(yx)ttT2f(x(yx))(yx)ddt
200myxddt
f(x)f(x)(yx)可知,yL(x0),yx0,有
T12myx 212f(y)f(x0)f(x0)T(yx0)myx0
212f(x0)yx0myx0
2再由 f(y)f(x0)0, 故有 f(x0)即 yx01myx00 22f(x0) m由y是L(x0)中任一向量, 所以L(x0)有界,因而 L(x0)是有界闭凸集。 定理1.34 (Minkowski不等式) 对p1,有xypxpyp,即:
p1p(xiyi)i1np1p(xi)i1np1p(yi)i1n .
证明:当x或y为零向量时,结论显然成立。当p1时,也易证明。以下设x,y0,且p>1。 考虑函数 (t)t, t0 由于 (t)p(p1)t注意到
p2p0,故(t)严格凸。
ppxppxpyyxpy1
由函数(t)的凸性,于是有,
xpxyp因此,
pxipxpxpypypxpyiypxpyppxiypxxpyppppyi yppppxiyii1xpynpnxiyii1xpyxpxpyppxiypxxpyi1pnpyiyi1pn
精品文档
精品文档
xppnxxppppxpyyppyyppppxpypi1
由此即得
xyii1xpypp,
即 xy
三、一致凸函数
pxpyp .
定义1.35 设f是非空凸集D上的函数,若存在一个常数0,使得对任意的x,yD,及任意
(0,1)。均有
f(x)(1)f(y)f(x(1)y)(1)xy,
则称f(x)在凸集D上一致凸。
由定义立即可知:一致凸严格凸凸。 一致凸函数的判别定理
定理1.36 设f(x)是非空开凸集D上连续可微函数,则f(x)在D上一致凸的充要条件是存在常数
20,使得
f(y)f(x)f(x)T(yx)yx,x,yD
证明:先证必要性。若f(x)一致凸,
则 f(x)(1)f(y)f(x(1)y)(1)xy
从而 f(x)f(x)(1)f(y)f(x(1)y)f(x)(1)xy 因此 f(y)f(x)222f(x(1)y)f(x)2xy (﹡)
1而 f(x(1)y)f(x(1)(yx)) f(x)(1)f(x)(yx)o((1)(yx)) 将上式代入(﹡)即得:
T精品文档
精品文档
f(y)f(x)f(x)T(yx)o((1)(xy))2xy 1令1,得
f(y)f(x)f(x)T(yx)yx。
再证充分性。任取x,yD,令xx(1)y,(0,1)。由D是凸集,故xD,因而有:
2f(x)f(x)f(x)T(xx)xx f(y)f(x)f(x)T(yx)yx
两式分别乘和(1)再相加,则有
22f(x)(1)f(y)f(x)[xx(1)yx]
将xx(1)y代入即得结论:
22f(x)(1)f(y)f(x(1)y)(1)xy.
定理1.37 设f(x)是开凸集D上连续可微函数,则f(x)在D上一致凸的充要条件是:存在常数
20,使得 [f(y)f(x)]T(yx)yx,x,yD
证明:参见徐成贤等著《近代优化方法》P15。
定理1.38 设f(x)在开凸集D上二阶连续可微,则f(x)在D上一致凸的充要条件是:存在常数
2m0,使得: muuT2f(x)u,xD,uRn.
证明:充分性:x,yD,有
21f(y)f(x)f(x)T(yx)(yx)T2f()(yx)
2其中x(yx),(01)。由于D是凸集,故D。因此,
112(yx)T2f()(yx)myx。 22令1m,则 2f(y)f(x)f(x)T(yx)yx。
必要性:设f(x)在D上一致凸。任取xD,uR且u0,则有 精品文档
n2精品文档
11uT2f(x)ulim[f(xu)f(x)]Tulim2[f(xu)f(x)]Tu00221lim2uu. 0
四、凸集的分离与支撑
凸集的分离与支撑定理在研究约束最优化问题的最优性条件时具有基本的重要性,起着十分关键的作用。
定理1.39 设SR是非空闭凸集,yS,则存在唯一的点xS,它与y的距离最短。进一步,
nx与y距离最短的充要条件是:
(xx)(xy)0,xS 证明:先证定理的第一部分 存在性 任取一点xS,则集合
0TDxyxyx0,xS
为一非空有界闭集,而yx是x的连续函数,故它必在D的某一点x上取得最小值,此x即为所求。注意到xS,而yS,必有xyr0。 唯一性 假定还有xS,满足 yxyx。r 由S的凸性,则
xxS 2xx11yxyxr 222考虑 y由r是S中点到y的最小距离,故上式必取等式。因而必有
yx(yx)
再由 yxyx,得1。
, 若1,则 yxyx2yxx得 yxxS 2精品文档
精品文档
与yS矛盾。因而只能是1,即 yxyx,或xx,唯一性得证。 再证定理第二部分 若xS,都有
(xx)T(xy)0,
则 yx2yxxxyxxx2(xx)T(yx)yx
2222即x与y有极小距离。反之,若xS,都有
xyxy
由于对充分小的0,有
22x(xx)S
因此 yx(xx)2yx2xx2(xx)T(xy)
222另一方面, yx(xx)所以
2yx
22xx2(xx)T(xy)0
两边同除,并令0,即得所要的结果。 点与凸集的分离定理
定理1.40 设SR是非空闭凸集,yR,yS,则存在向量p0和实数,使得
nnpTx,xS,并且同时满足 pTy
即超平面px严格分离点y和闭凸集S。
证明:由于S是闭凸集,yS。故定理1.39知,存在唯一的一点xS,使得
T(xx)T(xy)0,xS
取 p(yx), 则 p(xx)0, 也即 pxpx。 再取 px,
TTTT精品文档
精品文档
则xS,有 px。
又 pypypxp(yx)
TTTTT(yx)T(yx)yx故有 py 定理证毕。
T20
定理1.41 (Farkas引理)设ARmn,cR,则下面两个等式与不等式系统有且仅有一个有解。 ① Ax0 cx0
② Ayc y0
T证明:若②有解,则存在y00,使Ay0c。下证①必无解。事实上,若x满足Ax0。 TTT那么 cxy0Ax0,(由y00,Ax0)
nTT故方程组①无解。若②无解,
记 SxxAy. y0
则S是非空闭凸集,且cS,由上面凸集的分离定理,存在pR,和R,使得
nTpTc,且pTx,xS
由于0S,故 0,
又 pxpAyyAp,y0
由于y0可任意大,而为固定常数,故必有Ap0。可见向量p满足
TTTTAp0,且cTp0
因而p是①的解,定理证毕。 凸集与凸集的分离定理
n定义1.42 设SR是非空集合,pR,xS(S的边界)。若
nSHxpT(xx)0 或 SHxpT(xx)0,
则称Hxp(xx)0是S在x处的支撑超平面;若SH,则称H为S在x处的正常支撑超平面。 精品文档
T精品文档
n定理1.43 设SR是非空凸集,xS。那么,在x存在一个支撑超平面。即存在非零向量p,使得 pTxx0,xS 这里S表示S的闭包。
证明:由于xS(是S的一个边界点),故存在序列yk,每个yk均不属于S,且ykx。 由定理1.40可知,对每个yk,存在pk,且pk1,使得
TT pkykpkx,xS。
由于pk有界,故存在收敛的子列pkK,设其极限为p(显然有p1,故p为非零向量)。对此子序列pkK,当kK时,有
TTpkykpkx,xS。
对每个固定xS,在上式中令k得:
pTxpTx,xS
这便是所需结论。
推论:设SR是非空凸集,若xS,则存在非零向量p,使得:
npT(xx)0,xS。
证明:⑴若xS,由定理1.40,存在超平面分离x和S。 ⑵若xS,由上面定理1.43即得。
n定义1.44 设S1,S2R是非空凸集,若有
pTx,xS1 且 pTx,xS2,
则称超平面Hxpx分离S1和S2;若S1TS2H,则称H正常分离S1与S2;若
pTx,xS1 且 pTx,xS2,
则称H严格分离S1与S2;若
pTx,xS1 且 pTx,xS2,(其中0)
则称H强分离S1与S2。 精品文档
精品文档
由定义容易推出:强分离严格分离正常分离分离。
n定理1.45 设S1,S2R是非空凸集,若S1S2,则存在超平面分离S1与S2,即存在非零向
量pR,使得
npTx1pTx2,x1S1,x2S2
证明:设 SS1S2x1x2x1S1,x2S2 由S是凸集,及0S(否则S1TTnS2),再由前面推论,存在非零向量pR,使得:
pxp00,xS。 注意到S1S2S,由此可得
pTx1pTx2,x1S1,x2S2。
定理1.46 设S1和S2是闭凸集,且S1有界,若S1即存在非零向量p和0,使得
infpTxxS1suppTxxS2
证明:设SS1S2,可证S是闭的。事实上,设xkS,且xkx。由S的定义知:
S2,则存在一个超平面强分离S1和S2,
xkykzk,(ykS1,zkS2)
由于S1是紧的,故存在收敛子列ykkK,使得ykyS1。 由于kK时, yky,ykzkx 因而有 zkyxzS2 由yS1,zS2,进而得
xyzS1S2S,
即xS,故S为闭集。于是,存在非零向量p和实数,使得: px,xS 且 p0。 由0,及S的定义,我们有:
TT px1px2,x1S1,x2S2。
TT精品文档
精品文档 结果得证。
§1.4. 无约束问题的最优性条件
一、极小点的概念
1.局部极小点 2.严格局部极小点 3.全局(总体)极小点 4.严格全局(总体)极小点。
注:在非线性规划中,大多数算法都致力于求最优化问题的局部极小点,这是由于一般地求全局极小点极为困难,仅当问题为凸规划时,局部极小为全局极小。
二、最优性条件
定理1.47 (一阶必要条件)若x是局部极小点,则f(x)0。
定理1.48 (二阶必要条件)若x是局部极小点,则f(x)0,f(x)0。(半正定)
2定理1.49 (二阶充分条件)x是局部极小点的充分条件是:f(x)0,且f(x)正定。
2注:使f(x)0的点x称为函数的稳定点。稳定点可以是极大点,也可是极小点,也可两者均不是,此时称为鞍点。
定理1.50 若f(x):RR是连续可微的凸函数,则x是总体极小点的充要条件是f(x)0。
n证明:必要性由定理1.47,充分性则由f(x)f(x)f(x)(xx)直接可得。
§1.5. 最优化算法的结构
一、算法结构
最优化算法通常采用迭代形式,由算法产生一个有限或无限点列。一般地,需要证明迭代点列
Txk的聚点(子序列的极限点)为一局部极小点。算法的基本迭代格式为:
xk1xkkdk
它包含两个要素:步长因子k与搜索方向dk。在最优化算法中,dk通常是函数f在xk处的下降方
精品文档
精品文档 向,即dk满足:
Tdkf(xk)0,或 f(xkkdk)f(xk)。
基本结构
给定初始点x0; (1) 确定搜索方向dk;
(2) 确定步长因子k,使目标函数值有某种程度的下降;
(3) 令xk1xkkdk,若xk1满足某种终止条件,则迭代停止,得到近似最优解xk1;否则重复
以上步骤。
二、算法的收敛速度
定义1.51 假设算法产生的点列xk收敛于最优解x。 若存在实数0及一个与迭代次数k无
关的常数q0,使得
limkxk1xxkxq
则称算法产生的迭代点列xk具有阶收敛速度。特别地,
(1) 当1,q0时,称为线性收敛;
(2) 当12,q0或1,q0时,称超线性收敛;
(3) 当2时,称二阶收敛。
注:若一个算法应用于正定二次函数时,具有有限终止性质,则称该算法二次收敛。二次收敛与二阶收敛是完全不同的概念,不存在孰强孰弱的简单关系。但大量数值计算结果表明:具有二次收敛精品文档
精品文档
性质的算法,实际计算性能一般都较好,因而二次收敛也常作为一个好算法的标志。
三、关于常用算法的终止条件
定理1.52 若序列xk超线性收敛到x,那么
lim证明:略
xk1xkxkxk1.
此定理的意义在于:当算法具有超线性收敛性质时,可用xk1xk替代xkx作为算法停止准则。事实上,在实际应用中,即使不知道算法是否超线性收敛,也常用它作为停止准则。
常用的算法终止准则有: (1) xk1xk; (2) f(xk1)f(xk); (3) f(xk)。
精品文档
因篇幅问题不能全部显示,请点此查看更多更全内容