Chương 8 Chương 8 Phương pháp gradlent
3) Kiểm tra bất đẳng thức
f(x) — f (x*) < ea(Vf (x) ,d*) = —co |[Vƒ (x*) |)? (8.2)
với 0 < e < 1 là một hằng số được chọn tùy ý, như nhau với mọi & = 0,1,...
(4) Nếu (8.2) thỏa mãn thì œ là giá tri can tim: a; = a. Néu (8.2)
không thỏa mãn thì ta giảm œ (bằng cách nhân œ với một số
A € (0,1), chẳng hạn À = 4) cho đến khi bất đẳng thức (8.2)
được thỏa mãn.
8.1.2 Sự hội tụ của phuong phap gradient
Ta noi day {2} hoi tu tới điểm a* với tốc độ hội tụ tuyến tính hay tốc độ hội tụ cấp số nhân (công bội q) nếu bắt đầu từ một chỉ số k nào đó, ta có bất đẳng thức
Jat! - z!||< +|l+° — z'||. 0<a<1.
Cơ sở của việc lựa chọn œ như trên và sự hội tụ của phương pháp gradient cho trong định lý sau.
190 Chương 8. Phương pháp gradient
Định lý 8.1. Giả sử ham f(x) bi chan dudi, gradient V f(x) thoa man diéu kién Lipschitz:
IV) — V/0)|| < Ella — yl] Va, y € IR”
Đà 0œ dược chọn theo thuật toán nêu trên. Khi đó, nói bắt kỳ điểm ban dau x°, quá trình lặp (8.1) có tính chất IVF (0k )| — 0 khi ko.
Chứng minh. Theo định lý giá trị trung bình:
ƒ() — ƒ @*) = (VF(R), 2 — 2"),
trong đú #ẩ = xk +6 (a — #đ) với ỉ € [0,1]. Do z—z+ẩ = —aVƒ (+)
nên ta có
ƒ(œ) — ƒ (+) = (VE (2*) 2 — 2°) + (Vƒ () — Vƒ (+Ê),a — at)
< =a(Vƒ (+°),Vƒ (+°)) + aL ||” mãi J\Y7 (z')||
< =a||Y# (ứđ)|ẽ + a# ||z — z*||IIV/ (z')|
=al|Y#Z (*)|ẽ (1+ a1).
Từ đánh giá đó suy ra rằng, nếu chọn œ sao cho
—=l + aL < —e hay a < 1— ©
thì bất đẳng thức (8.2) sẽ được thỏa mãn. Vậy, việc chọn œ theo thuật toán trên là có thể thực hiện được. Khi đã chọn œ„ như trên, ta có
ƒ(t) —Ƒ (at) < —eow ||Vƒ (x*) ||", (8.3)
tức là với bất kỳ k thì ƒ(a**) — ƒ(z?) < 0 (với điều kiện
VƒƑ(z*) # 0). Vì hàm ƒ(z) bị chặn dưới, nên bất đẳng thức nhận được cho thấy
f (a**1) — f (x*) + 0 khi k — oo. (8.4)
Từ (8.3) suy ra:
ƒ (*) — f (a**")
coy,
IY7 (z)|ẽ < (85)
Chú ý là thuật toán chọn a¿ đảm bảo cho với bất kỳ k sẽ có
ằ„ > >0, trong đú ứ cú thể chọn là hằng số tựy ý khụng vượt quá (1— e)/E (vì bất đẳng thức (8.2) hay (8.3) được thỏa mãn với œ = (1—£)/L). Từ (8.4), (8.5) và chú ý này suy ra ||Vf (2*) || + 0
khi k — œ. Định lý được chứng minh. L]
Định lý 8.1 bảo đảm giá trị hàm mục tiêu hội tụ hoặc đến cận dưới inf ƒ(z), hoặc tới giá trị của hàm tại điểm dừng nào đó (có thể là điểm cực tiểu địa phương hay điểm yên ngựa). Với những giả thiết nhất định về độ trơn và tính lồi của hàm cần tìm cực tiểu, ta có thể đánh giá được tốc độ hội tụ của phương pháp gradient.
Định lý 8.2. Giả sử f(x) la ham ldi hai lần khả 0ì liên tục uà ma
trận các đạo hàm bậc hai thổa mãn điều kiện:
ml|g|Ÿ < (V”ƒ(ứ)w.) < Mllw|. M >zn>0, — (8.6)
vdi moi x,y € R", con day {x*} được xâu dựng theo phương pháp (8.1), trong dé a, duoc chon theo thuat todn da mé ta. Khi do, vdi bất kỳ điểm ban dau x°, ta sé cé xk + a*, f Cài — f (x*), trong
đó #* là điểm cực tiểu (duy nhất) của ƒ(œ). Đồng thời, ta có các
đánh giá sau 0È tốc độ hội tụ của thuật toán:
f9) = ƒ(a) < # [f@P) = ƒ(a9)],
l+” - z'| <Cq!2?, Œ<œ, 0<q<1.
Chứng minh. Bất đẳng thức trái của (8.6) đảm bảo cho hàm ƒ(#) có cực tiểu và cực tiểu đó là duy nhất. Dùng công thức Taylor,
ta nhận được
f (a*) = f(a) + (Vf (a), 0* — a) + s(V°/) (a* —x),x2* — 2),
192 Chương 8. Phương pháp gradient
trong đú # = 0z + (1— 0)+* với ỉ € [0,1]. Từ đú, nhờ tớnh đến (8.6) ta có
fe) — f(a") = (Wile), — 2") — VF) (@— 2"), 2-2")
< (Vf (0), © 2") - 2 Iz— z*IẺ
< IIV/()lllz — 2" ~ Sle — 2° P. (8.7)
Đồng thời (do Vƒ(z*) = 0),
fle) — F(a) = 2092) (e — #"),ứ — #9),
trong đú # = Ox + (1 — ỉ)z* với ỉ € [0,1]. Vỡ vậy, theo giả thiết (8.6),
2 lle =#"| <ƒ@)—ƒ(')<== 5 lle —2"|P. (88)
Sử dụng bất đẳng thức trái của (8.8) và ước lượng (8.7), ta có
a—x*|| << —||VWƒ(z 1
lz — 2" || < nll /(z)l
và từ bất đẳng thức phải của ni Suy ra
lz—#*lP > s; [ƒŒ) = ƒ °).
Dùng hai bất đẳng thức trên, ta đánh giá tiếp (8.7),
ƒ) ~ ƒœ°) < —IIV/()|P ~ 3 [f@) ~ ƒ 6°).
Từ đó,
IY/@)|P > m(t+7)I/ứ)—ƒ9].— (89)
Sử dụng đánh giá này vào bất đẳng thức (8.3), ta nhận được
f (a**1) — Ƒ (at) < =eaym ( + *) [f (x) — f (a*)]. (8.10)
Với các điều kiện của định lý thì
f@) ~ lat) = (WH la), — a) + 3(°ƒ(E)@ ~ a8), 2 — ab)
= all fe? + Svs V He), 9/09)
<-a(1- _ 8A0 pep IP.
Từ đó suy ra rằng, bất đẳng thức (8.2) sẽ được thỏa mãn nếu chọn
œM 2(1 -e)
— —)>e, ttclaa<a= s
(1 2 )>e tức là œ < i
Khi do, tit (8.10) suy ra
f(a) — fla") < [1 — coum (1+ 2) LF) — f9)
< alf(x") = #2"),
trong đó g= 1— ewm(1 + m/M) < 1, tức là
14) ~ ƒ@*°) < #[f(a") — F(a"). (8.11)
2z(1 — e}m m
M (1 + M)'
Từ đó suy ra rằng, giá trị cực tiểu của g đạt được khi ¢ = thời
m m
đmịn = 1 — su + a).
vì thế, trong điều kiện (8.2) nên đặt e = š.
Đánh giá (8.11) cùng với về trái của (8.8) cho phép khẳng định sự hội tụ và đánh giá tốc độ hội tụ của dãy {z*} tới điểm cực tiểu
llr" — z*|| < )U (œ*) - ƒœ9J*2
<() Ư0°)- 7°)! < cự, 1"
194 Chương 8. Phương pháp gradient
Dinh lý được chứng minh day đủ. L]
Qua chứng mỉnh trên, ta thấy rằng để thu được đánh giá (8.11),
ta đã sử dụng các điều kiện (8.2), (8.9). Ta kết luận rằng lớp hàm
có đánh giá (8.11) thực sự rộng hơn nhiều so với lớp hàm thỏa mãn điều kiện (8.6), vì đánh giá (8.11) đúng với mọi hàm thỏa mãn điều kiện của Định lý 8.1 và điều kiện:
lIY7(@)| > ð[ƒœ) — ƒ@œ°)], ð > 0.
Thuật toán xác định œ theo (8.2) thường được gọi là thuật toán quay lui (backtracking). Sau đây sẽ nêu một số cách xác định œ khác mà vẫn bảo đảm sự hội tụ của phương pháp gradient.
8.1.3. Các dạng khác của phương pháp gradient
e Phương pháp gradient với độ dài bước cé định
Néu hing sé L (trong Dinh ly 8.1) va M (trong Dinh ly 8.2) biết trước, thì trong phương pháp (8.1) có thể chọn cố định trước
ằy = Œ, trong đó
1—e 2(1—£)
hoặc 0 <œ< One SOS TT ‘ Khi đó, các Định lý hội tụ 8.1 và 8.2 vẫn đúng.
0<ứ<
e Phương pháp gradient với cực tiểu hàm theo hướng dịch chuyển
Độ dài bước œ; ở mỗi bước lặp được chọn từ điều kiện
ƒ[z° — œVƒ(+")] = min { f[x* — aV f(x*)] : a > OF.
Cách xác định œ như trên được gọi là phương pháp tìm chính sác theo tia (Exact Line Search). Khi đó, các Dịnh lý hội tụ 8.1 và 8.2 vẫn đúng. Ngoài ra, ta còn nhận được đánh giá chính xác hơn về tốc độ hội tụ:
1/2 k
ora (“) ora (4 " ~\m M+m
Nhập: z9,e. Đặt k =0
Dat d* = —V f(x")
l]a*|) <<? > 2.