Ma trận
Định nghĩa 1.1.1 Một ma trận cỡm×nlà một bảng số hình chữ nhật gồm mhàng vàncột, kí hiệu làAm×n, có dạng:
Ma trận cỡ m×n, còn được gọi là ma trận m-n, là một cấu trúc toán học quan trọng Khi m = n, ma trận này trở thành ma trận vuông cấp n Nếu đã rõ về kích thước, ma trận A có kích thước m×n được ký hiệu đơn giản là A hoặc (a_ij).
(i) Mộtm×n-ma trận được gọi là ma trận không, kí hiệu là0m×n hoặc đơn giản là0,nếu a i j =0, ∀i∈ {1,2, ,m},j∈ {1,2, ,n}.
(ii) Một ma trận vuông cấp nmà các phần tửa i j =0vớii6= jvàa ii 1,∀i∈ {1,2, ,n} được gọi là ma trận đơn vị cấp n, kí hiệu làIn hoặcI Cụ thể, ta có:
(a) Ma trận chuyển vị củam×n-ma trậnA, kí hiệu làA T ,là mộtn×m- ma trận vớia T i j =a ji
(b) Ma trận vuôngAđược gọi là ma trận đối xứng nếuA T =A.
(c) Ma trậnAđược gọi là không suy biến nếu tồn tại ma trận nghịch đảo
A −1 Khi đó, ma trận Ađược gọi là ma trận khả nghịch, thỏa mãn
Các phép toán cơ bản về ma trận như cộng hai ma trận, nhân một số với ma trận và nhân hai ma trận được thực hiện như bình thường Giáo trình không đề cập lại khái niệm về định thức của ma trận vuông A và các tính chất liên quan Độc giả có thể tìm hiểu chi tiết về những vấn đề này trong các tài liệu cơ bản về đại số tuyến tính.
Không gian Euclide R n
Chúng ta thường xuyên làm việc trên không gian Eucliden-chiềuR n
Trong không gian Euclid R^n, các khái niệm cơ bản như tích vô hướng, chuẩn và trực giao rất quan trọng Một điểm trong không gian này được định nghĩa là một bộ số thực sắp xếp theo thứ tự, thường được biểu diễn dưới dạng n-cột.
, với mỗi sốxi∈R,i∈ {1,2, ,n}được gọi là tọa độ thứicủa điểmx. Đề thuận tiện ta quy ước x= (x 1 ,x 2 , ,x n ) T
Kí hiệu0= (0,0, ,0) T ∈R n là gốc tọa độ của không gianR n
Mỗi điểm trong không gian R^n xác định một véctơ với gốc tại 0 và ngọn tại x, được ký hiệu là x Định nghĩa 1.2.2 cho biết, với hai điểm (véctơ) x và y trong R^n, đoạn thẳng nối hai điểm này, ký hiệu là [x,y], là tập hợp các điểm có dạng z = αx + (1−α)y, với 0 ≤ α ≤ 1.
Hình 1.1: Đoạn thẳng[x,y] Định nghĩa 1.2.3.Cho hai véctơx= (x1,x 2 , ,xn) T vày= (y1,y2, ,yn) T trongR n Khi đó:
(i) Tích vô hướng của hai véctơxvày,kí hiệu làx T y,y T xhoặchx,yi, được xác định bởi x T y=y T x=hx,yi n
(ii) Hai véctơxvàyđược gọi là trực giao nếux T y=y T x=hx,yi=0.
(iii) Độ dài hay chuẩn của véctơx, kí hiệu làkxk, được xác định bởi kxk= x T x1/2 s n
Nhận xét 1.2.1 Trong không gian véctơ C n , tích vô hướng của hai véctơ x,ycó các tính chất sau:
(i) Tích vô hướng của hai véctơ, kí hiệu làhx,yi, được xác định bởi hx,yi n i=1 ∑ xiyi.
(ii) kxk≥0vàkxk=0khi và chỉ khix=0.
(iii) hx,yi=hy,xi.
(iv) hλx,yi=λhx,yivớiλ∈C. hx,λyi=λhx,yivớiλlà liên hợp củaλ.
Tính chất 1.2.1 Chuẩn của một véctơ có một số tính chất cơ bản sau: (a) kxk≥0với mọixvàkxk=0khi và chỉ khix=0.
(b) kαxk=|α|kxk, với mọiα∈Rvà với mọix∈R n
(c) kx+yk≤kxk+kyk, với mọi véctơx,ytrongR n
(d) Bất đẳng thức Cauchy-Schwarz
|x T y| ≤kxkkyk, với mọi véctơx,ytrongR n Định nghĩa 1.2.4 Hệ gồm các véctơa 1 ,a 2 , ,akđược gọi là:
(i) phụ thuộc tuyến tính nếu tồn tại các số thựcλ 1 ,λ 2 , ,λkkhông đồng thời bằng0sao cho∑ k i=1 λiai=0.
(ii) độc lập tuyến tính nếu không tồn tại các số thựcλ1,λ2, ,λk không đồng thời bằng0sao cho∑ k i=1 λiai=0. Định nghĩa 1.2.5.
(i) Một tổ hợp tuyến tính của các véctơ a 1 ,a 2 , ,ak là một véctơ có dạng∑ k i=1 λiai vớiλ 1 ,λ 2 , ,λk∈R.
Khi đó, tập hợp các véctơ dạng này được gọi là tập hợp các véctơ sinh bởia1,a2, ,ak.
Cơ sở của R^n là tập hợp các véctơ độc lập tuyến tính sinh ra không gian này, trong đó mỗi cơ sở chứa đúng n véctơ Hạng của ma trận A, ký hiệu là m×n, được xác định bởi số cột độc lập tuyến tính lớn nhất của ma trận A, đồng thời cũng bằng số hàng độc lập tuyến tính lớn nhất của ma trận này.
Nếu hạng của ma trận A là m×n và bằng min{m,n}, thì A được gọi là ma trận có cấp đầy đủ Một không gian con M của R^n là tập hợp đóng đối với phép cộng và phép nhân vô hướng, nghĩa là với mọi a, b thuộc M và mọi λ thuộc R, thì λa + b cũng thuộc M Số chiều của không gian con M là số lượng véctơ độc lập tuyến tính lớn nhất trong M Phần bù trực giao của M, ký hiệu là M⊥, là tập hợp các véctơ trực giao với tất cả các véctơ trong M.
Dựa vào kết quả của giải tích hàm, phần bù trực giao của không gian con M cũng là một không gian con của R^n, và M cùng với M ⊥ tạo thành không gian R^n Mỗi véctơ x ∈ R^n có thể được biểu diễn duy nhất dưới dạng x = a + b với a ∈ M và b ∈ M ⊥, trong đó a và b lần lượt là hình chiếu trực giao của véctơ x lên không gian con M và M ⊥ Định nghĩa ánh xạ từ R^m vào R^n, ký hiệu A: R^m → R^n, cho phép mỗi điểm trong không gian R^m tương ứng với một điểm trong không gian R^n Ánh xạ A có thể là tuyến tính hoặc phi tuyến tính Chuẩn của ánh xạ tuyến tính A: R^m → R^n, ký hiệu ||A||, được định nghĩa là ||A|| = max {||x|| ≤ 1} {||Ax||}.
Tính chất 1.2.2 Với mọi véctơx, ta có: kAxk≤kAkkxk.
Giá trị riêng và dạng toàn phương
Giá trị riêng và véctơ riêng
Định nghĩa 1.3.1: Cho một ma trận vuông A kích thước n Nếu tồn tại một số vô hướng λ thuộc R và một véctơ x khác không (x ≠ 0) sao cho Ax = λx, thì λ được gọi là giá trị riêng tương ứng với véctơ riêng x của A.
Nhận xét 1.3.1 Điều kiện cần và đủ đểλ∈Rlà giá trị riêng của ma trận
Alà ma trậnA−λIsuy biến, tức là det(A−λI) =0.
Giá trị riêng λ là nghiệm của đa thức det(λI−A) = λ^n + a_{n-1}λ^{n-1} + + a_1λ + a_0 = 0, trong đó đa thức ở vế trái được gọi là đa thức đặc trưng và phương trình này là phương trình đặc trưng của ma trận vuông A Theo định lý 1.3.1, nếu phương trình đặc trưng det(λI−A) = 0 có n nghiệm thực phân biệt λ_1, λ_2, , λ_n, thì tồn tại n véctơ độc lập tuyến tính x_1, x_2, , x_n là các véctơ riêng của ma trận A, tức là các véctơ này thỏa mãn điều kiện xác định.
Chứng minh Ta có: det (λiI−A) =0 nên tồn tại véctơ xi 6=0 sao cho
Để chứng minh rằng hệ véctơ x₁, x₂, , xₙ là độc lập tuyến tính, ta giả sử có các số vô hướng c₁, c₂, , cₙ sao cho tổng ∑ₙᵢ₌₁ cᵢxᵢ = 0 Xét ma trận B = (λ₂I - A)(λ₃I - A) (λₙI - A) Do đó, từ điều kiện λₙxₙ - Axₙ = 0, ta có thể kết luận về tính độc lập tuyến tính của các véctơ này.
Tương tự như trên ta chứng minh được:
Mặt khác, ta cũng có:
Vì cácλiphân biệt và các véctơxi6=0nên từ phương trình trên ta được c 1 =0 Tương tự như cách xét ma trậnBnhư trên ta sẽ chứng minh được: ci=0, vớii=1,2, ,n.
Véctơ x1, x2, , xn được xác định là độc lập tuyến tính, từ đó chứng minh được định lý Định lý 1.3.2 khẳng định rằng tất cả các giá trị riêng của một ma trận đối xứng thực đều là các số thực.
Để chứng minh rằng λ là giá trị riêng và x (x ≠ 0) là véctơ riêng tương ứng của ma trận đối xứng thực A, ta có hAx, xi = hλx, xi, dẫn đến hAx, xi = λkxk² Đồng thời, từ tính chất của ma trận đối xứng, ta cũng có hAx, xi = hx, A^T xi = hx, A xi = hx, λ xi = λhx, xi = λkxk².
Do đó, vìkxk>0nên ta có: λkxk 2 =λkxk 2 ⇒(λ−λ)kxk 2 =0⇒λ=λ.
Vậyλ∈R, định lý được chứng minh. Định lý 1.3.3 Mọin×n-ma trận đối xứng thực cónvéctơ riêng phân biệt thì đôi một trực giao.
Chứng minh Giả sửAxi=λixi,Axj=λjxjvớiλi6=λjvàA=A T Ta có: x T i Axj=x T i A T xj=λix T i xj. Mặt khác, ta cũng có x T i Axj= (Axj) T xi=x T j A T xi=λjx T j xi=λjx T i xj.
Do đó: λix T i xj=λjx T i xj.
Vìλi6=λjnên từ đẳng thức trên ta suy rax T i xj=0 Vậyxivàxjtrực giao.
Nếu A là ma trận đối xứng với n giá trị riêng và các véctơ riêng phân biệt x1, x2, , xn, thì các véctơ này tạo thành một cơ sở trực giao của R^n Ngoài ra, nếu các véctơ riêng này là một cơ sở trực chuẩn, tức là mỗi véctơ có chuẩn đơn vị, thì ma trận A sẽ có những tính chất đặc biệt liên quan đến tính chất chuẩn của các véctơ riêng.
Ma trậnQnhư vậy được gọi là ma trận trực giao.
Ngoài ra, ta cũng có
Q −1 AQ=Q T AQ=Q T [Ax 1 ,Ax 2 , ,Axn] =Q T [λ 1 u 1 ,λ 2 x 2 , ,λnxn] hay
Lúc đó, ma trậnAđược chéo hóa.
Dạng toàn phương
Một dạng toàn phương f: R^n → R được định nghĩa dưới dạng f(x) = x^T Qx, trong đó Q là ma trận thực đối xứng cấp n Ma trận đối xứng Q được gọi là xác định dương nếu dạng toàn phương x^T Qx > 0 với mọi vectơ x khác không.
(ii) Tương tự, chúng ta cũng định nghĩa ma trận đối xứngQlà nửa xác định dương, xác định âm, nửa xác định âm nếux T Qx≥, 0, tồn tại một số tự nhiên N sao cho khoảng cách |x_k - x| nhỏ hơn ε với mọi k ≥ N Khi đó, ta có thể viết x_k → x hoặc lim(k→∞) x_k = x Ngoài ra, một điểm x được gọi là điểm tụ của dãy véctơ {x_k} nếu tồn tại một dãy con của {x_k} hội tụ đến x.
Một điểm tụ \( x \) của dãy số \( \{x_k\} \) được xác định khi tồn tại một tập con \( K \) (có vô hạn phần tử) của tập hợp các số nguyên dương sao cho dãy \( \{x_k\}_{k \in K} \) hội tụ đến \( x \).
(i) Hình cầu mở tâmx, bán kínhε>0là một tập hợp
(ii) Hình cầu đóng tâmx, bán kínhε>0là một tập hợp
Một hình cầu mở tâm x được gọi là ε-lân cận của điểm x, ký hiệu là S(x,ε) Trong không gian R, hình cầu mở S(x,ε) tương ứng với khoảng mở (x−ε, x+ε) Trong không gian R², hình cầu mở S(x,ε) là đường tròn có tâm x và bán kính ε, loại bỏ các điểm trên biên Còn trong R³, hình cầu mở S(x,ε) là hình cầu có tâm x và bán kính ε, cũng bỏ qua các điểm trên mặt cầu Tập con Ω của Rⁿ được gọi là tập mở nếu mọi điểm thuộc Ω đều là tâm của một hình cầu mở nằm hoàn toàn trong Ω, tức là với mỗi điểm x ∈ Ω, tồn tại ε > 0 sao cho S(x,ε) ⊂ Ω Ngược lại, một tập con P của Rⁿ được gọi là tập đóng nếu phần bù của nó là một tập mở trong Rⁿ.
Nhận xét 1.4.1 Một cách tương đương, một tậpPlà đóng nếu với mỗi dãy{x k } ⊂Phội tụ đếnxthìx∈P.
Một số tính chất quan trọng của tập mở và tập đóng được liệt kê trong định lí sau: Định lý 1.4.1.
(i) Giao của hữu hạn các tập mở là một tập mở Hợp của một họ bất kì những tập mở cũng là một tập mở.
Hợp của một số hữu hạn các tập đóng là một tập đóng, trong khi giao của bất kỳ họ tập đóng nào cũng là một tập đóng Điểm x được gọi là điểm trong của tập hợp P nếu tồn tại một lân cận của x nằm hoàn toàn trong P Ngược lại, x được xem là điểm biên của P nếu với mọi ε > 0, lân cận S(x, ε) giao với P và phần bổ sung của P đều khác rỗng Phần trong của tập P, ký hiệu là P o hoặc int(P), là tập hợp tất cả các điểm trong của P.
Phần trong của tập mở lớn nhất chứa trong P được xác định rõ ràng Giao của tất cả các tập đóng chứa P được gọi là bao đóng của P, ký hiệu là \(\overline{P}\) Theo định lý, bao đóng của P là hợp của P và tất cả các điểm biên của nó.
P. Định nghĩa 1.4.9 (Định nghĩa Henie-Borel)Một tập conPcủaR n được gọi là một tập compact nếu khi nó vừa đóng và bị chặn (giới nội).
Nói cách khác,Pcompact khi và chỉ khiPđóng và tồn tạiM>0sao chokxk≤Mvới mọix∈P. Định lý 1.4.3 (Định lí Weierstrass) Nếu P là một tập compact và dãy
{x k } ⊂Pthì dãy{x k }có một điểm tụ thuộcP(tức là, tồn tại một dãy con của{xk}hội tụ đến một điểm thuộcP).
Hàm số liên tục trên R n
Trong phần này, chúng ta thường xét hàm số f xác định trên tậpΩhoặc
Các tập Ω hoặc Pluôn được giả sử là các tập khác rỗng, thường được coi là tập mở, trong khi P thường được xem là tập compact Định nghĩa 1.5.1 nêu rằng một hàm số f xác định trên một tập con Ω của R n được gọi là liên tục tại x ∈ Ω nếu với mọi dãy (xk) ⊂ Ω, khi xk tiến tới x thì f(xk) cũng tiến tới f(x) Nói cách khác, f liên tục tại x nếu thỏa mãn điều kiện này.
Đối với mọi ε>0, tồn tại δ>0 sao cho với mọi y thuộc Ω, nếu khoảng cách ky−xk nhỏ hơn δ thì khoảng cách k f(y)−f(x)k nhỏ hơn ε Theo Định lý Weierstrass, một hàm f liên tục trên một tập compact P sẽ có ít nhất một điểm cực tiểu trong P, tức là tồn tại x ∗ thuộc P sao cho f(x)≥f(x ∗ ) với mọi x thuộc P Hàm số f = (f 1, f 2, , f m) được gọi là hàm giá trị véctơ, với f(x) = (f 1(x), f 2(x), , f m(x)) cho mỗi véctơ x thuộc R n Một hàm giá trị véctơ f được coi là liên tục nếu tất cả các hàm thành phần của nó đều là liên tục.
(i) Nếu mỗi hàm thành phần củaf= (f 1 ,f 2 , ,f m )liên tục trong một tập mở củaR n thì ta viếtf∈C.
(ii) Nếu mỗi hàm thành phần có đạo hàm cấp một liên tục trên tập này thì ta viếtf∈C 1
Nếu mỗi hàm thành phần có đạo hàm riêng cấp liên tục, ta có thể nói rằng hàm f thuộc lớp C^p Định nghĩa gradient của hàm thực f trong không gian R^n được xác định là véctơ, với f(x) = f(x_1, x_2, , x_n).
. Định nghĩa 1.5.5 Giả sử f ∈C 2 Ma trận Hessian của f tạixlà ma trận vuông cấpn, kí hiệu làF(x)hoặc∇ 2 f(x),và được xác định bởi:
Nhận xét 1.5.1 Nếu f ∈C 2 , ta có
∂x j ∂x i , nên ma trận Hessian của f là ma trận đối xứng.
Với mỗi hàm giá trị véctơf= (f 1 ,f 2 , ,f m ),ta cũng có các định nghĩa tương tự như những định nghĩa trên.
(i) Nếuf∈C 1 thì gradient (đạo hàm cấp một) được định nghĩa làm×n- ma trận
(ii) Nếuf∈C 2 thì ta định nghĩamma trận HessianF1(x),F2(x), ,Fm(x) tương ứng làmthành phần của hàm số này.
Hàm số λ T f với λ T = (λ 1 ,λ 2 , ,λm) ∈ R m có gradient là λ T ∇f(x) và ma trận Hessian là λ T F(x), được tính bằng λ T F(x) ∑_{i=1}^{m} λiFi(x) Định nghĩa 1.5.6 cho biết hàm số f xác định trên tập mở Ω thuộc R n được gọi là khả vi tại điểm x ∈ Ω nếu tồn tại các đạo hàm riêng của f theo mọi biến tại điểm đó Đối với mọi d ∈ R n với kdk đủ nhỏ để x + d ∈ Ω, có thể viết: f(x + d) = f(x) + h∇f(x), d i + o(kdk), trong đó o(kdk) là một hàm vô cùng bé bậc cao hơn kdk khi kdk → 0.
Hàm f được gọi là khả vi trên tập mở Ω thuộc R^n nếu f khả vi tại mọi điểm trong Ω Đạo hàm theo hướng d của f tại điểm x ∈ R^n, ký hiệu là f 0 (x,d), được xác định qua giới hạn lim t → 0+ (f(x+td)−f(x))/t, nếu giới hạn này tồn tại Theo định lý 1.5.2, nếu f khả vi tại x, thì f 0 (x,d) = h∇f(x),d với mọi d ∈ R^n \ {0}.
Chứng minh f khả vi tạixnên với mọid∈R n \{0}, ta có: t→0lim + f(x+td)−f(x)−th∇f(x),di tkdk =0.
Ta có điều phải chứng minh.
Định lý Taylor và định lí về giá trị trung gian
Một trong những kết quả quan trọng trong tối ưu hóa là Định lý Taylor và Định lý về giá trị trung gian Hai định lý này đóng vai trò thiết yếu trong các ứng dụng toán học và sẽ được trình bày chi tiết ngay sau đây Định lý 1.6.1, hay còn gọi là Định lý về giá trị trung gian, là một trong những định lý cơ bản trong lĩnh vực này.
(i) Nếu f ∈C 1 trong miền chứa đoạn thẳng [x 1 ,x 2 ] thì tồn tại giá trị θ,0≤θ≤1sao cho f(x 2 ) = f(x 1 ) +h∇f(θx 1 + (1−θ)x 2 ),x 2 −x 1 i.
(ii) Hơn nữa, nếu f ∈C 2 thì tồn tại giá trịθ,0≤θ≤1sao cho f(x 2 ) = f(x 1 ) +h∇f(x 1 ),x 2 −x 1 i
2(x 2 −x 1 ) T F(θx 1 + (1−θ)x 2 )(x 2 −x 1 ), trong đóFlà ma trận Hessian của hàm f.
Các khái niệm về tập lồi và hàm lồi
Tập lồi
Định nghĩa 1.7.1 TậpΩ⊂R n được gọi là tập lồi nếu:
Hình 1.2: Tập lồi (trái) và tập không lồi (phải)
Ví dụ 1.7.1 Choβ∈Rvàb∈R n ,b6=0 Khi đó, các tập sau là các tập lồi trongR n :
(ii) Nửa không gian đóng{x∈R n |hx,bi ≤β}và{x∈R n |hx,bi ≥β}.(iii) Nửa không gian mở{x∈R n |hx,biβ}.
(iv) NếuCvàDlà các tập lồi thì các tập sau cũng là các tập lồi:
C+D={x+y|x∈C,y∈D}vàαC={αx|x∈C},α∈R. (iv) Giao của một họ tùy ý các tập lồi là một tập lồi.
Tập lồi là một khái niệm quan trọng trong toán học, được định nghĩa là bao lồi của một tập con Ω trong R n, ký hiệu là co(Ω), là giao của tất cả các tập lồi chứa Ω Bao lồi đóng của Ω là bao đóng của co(Ω) Ngoài ra, một tập Ω được gọi là nón nếu với mọi x ∈ Ω, thì αx ∈ Ω cho mọi α > 0 Khi một nón cũng là tập lồi, nó được gọi là nón lồi.
Hàm lồi
Định nghĩa 1.7.4 Hàm số f xác định trên tập lồiΩđược gọi là lồi nếu với mỗix1,x2∈Ωvà với mọiα,0≤α≤1,ta có: f(αx1+ (1−α)x2)≤αf(x1) + (1−α)f(x2).
Nếu với mọi α, 0 < α < 1, và x1, x2 thỏa mãn điều kiện x16 = x2, thì hàm f được gọi là lồi chặt nếu f(αx1 + (1−α)x2) < αf(x1) + (1−α)f(x2) Định nghĩa 1.7.5 cho biết hàm g xác định trên tập lồi Ω được gọi là lõm nếu hàm số f = -g là hàm lồi, và hàm số g được coi là lõm chặt nếu -g là hàm lồi chặt.
Tính chất 1.7.1 Nếu f 1 ,f 2 là hàm lồi trên tập lồiΩthì hàm f 1 +f 2 cũng là hàm lồi trênΩ.
Tính chất 1.7.2 Nếu flà hàm lồi trên tập lồiΩthìαf cũng là hàm lồi trên
Tính chất 1.7.3 Nếu flà hàm lồi trên tập lồiΩthì tậpFc={x∈Ω|f(x)≤ c}là tập lồi với mọic. Định lý 1.7.1 Cho hàm số f∈C 1 Khi đó:
(i) f là hàm lồi trên tập lồiΩkhi và chỉ khi f(y)≥ f(x) +h∇f(x),y−xi, với mọix,y∈Ω.
(ii) f là hàm lồi chặt trên tập lồiΩkhi và chỉ khi f(y)> f(x) +h∇f(x),y−xi, với mọix,y∈Ωvàx6=y.
(i) "⇒" Giả sử f lồi Khi đó, với mọiαmà0≤α≤1ta có: f(αy+ (1−α)x)≤αf(y) + (1−α)f(x).
Biến đổi và chuyển vế ta được f(x+α(y−x))−f(x) α ≤ f(y)−f(x).
"⇐" Giả sử f(y)≥f(x) +h∇f(x),y−xi, với mọix,y∈Ω Cố địnhx 1 ,x 2 ∈Ωvà đặtx=αx 1 + (1−α)x 2 Khi đó, với mọiαmà0≤α≤1, ta có: f(x 1 ) ≥ f(x) +h∇f(x),x 1 −xi (1.1) f(x 2 ) ≥ f(x) +h∇f(x),x 2 −xi (1.2)
Nhân hai vế của bất đẳng thức (1.1) vớiα, (1.2) với(1−α)và cộng theo vế ta được: αf(x 1 ) + (1−α)f(x 2 )≥f(x) +h∇f(x),αx 1 + (1−α)x 2 −xi.
Để chứng minh điều này, chúng ta chỉ cần xác minh rằng dấu đẳng thức không xảy ra trong trường hợp (i) nếu hàm f lồi chặt Cụ thể, với x = y và α thuộc khoảng (0; 1), giả sử dấu đẳng thức xảy ra khi f lồi chặt Đặt z = 1/2 x + 1/2 y, ta có f(z) < 1.
2∇f(x)(y−x) (1.3) Đặtt=βx+ (1−β)zvớiβ∈(0; 1), theo tính chất của hàm lồi và theo (1.3), ta có: f(t) 0 \) sao cho \( x + \alpha d \in \Omega \) với mọi \( \alpha \in [0; \alpha] \).
Hình 2.2:d 1 là hướng chấp nhận được,d 2 không phải là hướng chấp nhận được
Với khái niệm đơn giản này, chúng ta có thể xây dựng các điều kiện cần về điểm cực tiểu địa phương của hàm số f.
Điều kiện cần bậc nhất
Định lý 2.1.1, còn được gọi là điều kiện cần bậc nhất, khẳng định rằng nếu Ω là một tập con của R^n và f là một hàm liên tục bậc nhất xác định trên Ω, thì điểm x∗ là điểm cực tiểu địa phương của hàm f trên Ω Điều này có nghĩa là với mọi hướng d được chấp nhận trong R^n tại x∗, điều kiện cần cho x∗ là điểm cực tiểu sẽ được thỏa mãn.
Chứng minh Định lí này có thể được chứng minh bằng một trong hai cách sau đây.
Cách 1 cho thấy rằng tại điểm tối ưu x*, tồn tại một giá trị α > 0 sao cho x(α) = x* + αd thuộc tập hợp Ω với mọi α trong khoảng [0; α] Định nghĩa hàm g(α) = f(x(α)) cho mọi α trong khoảng này cho thấy x* là điểm cực tiểu địa phương của f, trong đó α = 0 là điểm cực tiểu địa phương của g Đồ thị của hàm g được mô tả trong Hình 2.1.
Hình 2.3: Đồ thị hàm số g(α) khai triển Taylor của hàm sốgta được: g(α) =g(0) +αg 0 (0) +o(α), trong đóo(α)là vô cùng bé bậc cao hơnα Chuyển vế ta được g(α)−g(0) =αg 0 (0) +o(α).
Nếug 0 (0)0đủ bé vế phải của biểu thức trên nhận giá trị âm nên ta suy rag(α) 0 sao cho x(α) = x + αd ∈ Ω với mọi α ∈ [0; α] Xét hàm số g được định nghĩa bởi g(α) = f(x(α)) Vì ∇f(x∗) T d = 0, nên g'(α) = 0 Sử dụng khai triển Taylor của hàm số g tại 0, ta có: g(α) - g(0) = 1.
2g 00 (0)α 2 +o(α 2 ), trong đóo(α 2 )là vô cùng bé bậc cao hơnα 2
Nếu \( g''(0) < 0 \) thì vế phải của đẳng thức trên sẽ âm khi \( \alpha > 0 \) đủ nhỏ Điều này dẫn đến \( g(\alpha) < g(0) \) với \( \alpha > 0 \) đủ nhỏ, mâu thuẫn với giả thiết rằng \( 0 \) là cực tiểu địa phương của \( g \) (và \( x^* \) là cực tiểu địa phương của \( f \)) Do đó, ta có \( g''(0) \geq T \nabla^2 f(x^*)d \).
Ví dụ 2.2.1 Xét Ví dụ 2.1.2 ở phần trước, ta cód T = (d 1 ,d 2 )và với cực tiểu địa phương(x ∗ ) T = ( 1 2 ,0)ta có
2d 2 Điều kiện (ii) của Định lý 2.3.2 xảy ra nếud 2 =0 Trong trường hợp này, ta có: d T ∇ 2 f(x)d- 1 2 ≥0.
Do đó, điều kiện (ii) được thỏa mãn.
Tương tự như điều kiện cần bậc nhất, đối với trường hợp x ∗ là điểm trong ta cũng có hệ quả của Định lý 2.3.2 được phát biểu như sau:
Hệ quả 2.2.1 Giải sửx ∗ là điểm trong của tậpΩvàx ∗ là điểm cực tiểu địa phương của hàm số f ∈C 2 trênΩ.Khi đó, ta có
Để chứng minh điều kiện (i) của hệ quả, ta nhận thấy rằng nó tương đương với Hệ quả 2.1.1, do đó chỉ cần chứng minh điều kiện (ii) Lưu ý rằng vì ∇f(x ∗ ) = 0, nên ∇f(x ∗ ) T d = 0 với mọi d Theo điều kiện (ii) của Định lý 2.3.2, ta có d T ∇ 2 f(x ∗ )d ≥ 0 cho mọi d.
Trong phần kiến thức cơ sở, để đơn giản ta kí hiệu ma trận Hessian
∇ 2 f(x) bởiF(x) và điều kiện (ii) của Đinh lý 2.3.2 tương đương với ma trận HessianF(x)là nửa xác định dương.
Ma trận Hessian F(x ∗ ) trong điều kiện cần bậc hai là yếu tố quan trọng trong phương pháp lặp để giải bài toán tối ưu không điều kiện Bên cạnh đó, cấu trúc của ma trận Hessian cũng ảnh hưởng đáng kể đến tốc độ hội tụ của thuật toán tối ưu.
Ví dụ 2.2.2 Xét hàm số f xác định bởi: f(x 1 ,x 2 ) =x 3 1 −x 2 1 x 2 +2x 2 2 , vớix 1 ,x 2 ≥0.
Giả sử nghiệm của bài toán là điểm trong của tập các rằng buộc, tức là nếux 1 >0vàx 2 >0thì theo điều kiện cần bậc nhất, ta có :
Giải hệ phương trình, ta tìm được hai nghiệm là x₁ = x₂ = 0 (trên biên của tập xác định) và nghiệm x₁ = 6, x₂ = 9 Nếu cố định x₁ = 6, hàm số đạt cực tiểu tại x₂ = 9, và ngược lại, nếu cố định x₂ = 9, hàm số đạt cực tiểu tại x₁ = 6 Tuy nhiên, nghiệm x₁ = 6, x₂ = 9 không phải là cực tiểu địa phương của hàm số f Ma trận Hessian của f cho thấy điều này.
VìFkhông phải là ma trận nửa xác định dương nênx T = (6,9)không phải cực tiểu địa phương của f.
Hình 2.6: Đồ thị hàm số f(x1,x2)
Điều kiện đủ bậc hai
Định lý 2.3.1 (Điều kiện đủ bậc hai cho bài toán tối ưu tự do)
Cho f ∈C 2 là hàm xác định trên miền tại đó điểmx ∗ là điểm trong Giả sử thêm rằng
Khi đó,x ∗ là điểm cực tiểu chặt của f.
Chứng minh F(x ∗ )xác định dương nên tồn tạiα>0sao cho: d T F(x ∗ )d≥αkdk 2 Khi đó, dùng khai triển Taylor hàm số f(x ∗ +d)tại điểmx ∗ , ta có: f(x ∗ +d)−f(x ∗ ) = 1
Do đó, f(x ∗ +d) > f(x ∗ ) với mọi d∈R n đủ bé, cho thấy x ∗ là cực tiểu địa phương chặt của hàm f Theo Định lý 2.3.2 về điều kiện đủ bậc hai cho bài toán tối ưu có điều kiện, nếu Ω là một tập con của R n và hàm f ∈C 2 được xác định trên Ω, thì nếu x ∗ thuộc Ω và thỏa mãn các điều kiện, với mọi hướng chấp nhận được d∈R n tại x ∗, sẽ có các kết quả liên quan đến tối ưu hóa.
(ii) Nếu∇f(x ∗ ) T d=0thìd T ∇ 2 f(x ∗ )d>0, thìx ∗ là một điểm cực tiểu địa phương của f.
Chứng minh Với mỗi một hướng chấp nhận đượcdtại x ∗ , tồn tại α>0 sao chox(α) =x+αd∈Ωvới mọiα∈[0;α].
Xét hàm số g xác định bởi g(α) = f(x(α)) Vì ∇f(x ∗ ) T d=0 nên g 0 (α) =0 Khi đó, dùng khai triển Taylor của hàm sốgtại0, ta được: g(α)−g(0) =g 0 (0)α+1
2g 00 (0)α 2 +o(α 2 ), trong đóo(α 2 )là vô cùng bé bậc cao hơnα 2
Nếu \( g(0) > 0 \) thì với \( \alpha > 0 \) đủ bé, vế phải có giá trị dương, suy ra \( g'(\alpha) > g'(0) \) nên 0 là cực tiểu địa phương của hàm \( g \) Điều này đúng với mọi hướng chấp nhận được, do đó \( x^* \) là cực tiểu địa phương của \( f \) Nếu \( g(0) = 0 \), thì khai triển Taylor của \( g \) trở thành: \( g(\alpha) - g(0) = 1 \).
Vì g 00 (0) = d T ∇ 2 f(x ∗ )d > 0, nên vế phải của đẳng thức trên là dương với α > 0 đủ bé Điều này dẫn đến g(α) > g(0) với α > 0 đủ bé, chứng tỏ rằng 0 là cực tiểu địa phương của g Do điều này đúng với mọi hướng chấp nhận được, x ∗ là cực tiểu địa phương của f.
Cực tiểu và cực đại của hàm lồi
Trong bài viết này, chúng ta sẽ khám phá ba định lý cơ bản liên quan đến cực tiểu và cực đại của hàm lồi Định lý 2.4.1 chỉ ra rằng, nếu f là một hàm lồi được xác định trên tập lồi Ω, thì tập hợp Γ, bao gồm tất cả các điểm cực tiểu của hàm f, cũng là một tập lồi Hơn nữa, mọi điểm cực tiểu địa phương của f đều là điểm cực tiểu toàn cục.
Nếu hàm f không có cực tiểu địa phương, thì tập Γ hiển nhiên là tập lồi Giả sử c₀ là cực tiểu của hàm f, khi đó tập Γ được định nghĩa là Γ = {x ∈ Ω | f(x) ≤ c₀} Theo Tính chất 1.7.3, tập Γ cũng là tập lồi.
Bây giờ ta sẽ chứng minh phần còn lại của Định lý bằng cách giả sửx ∗ ∈
Nếu \( x^* \) là điểm cực tiểu địa phương của hàm \( f \), tồn tại một điểm \( y \in \Omega \) với \( y \neq x^* \) sao cho \( f(y) < f(x^*) \) Do \( f \) là hàm lồi, với mọi \( \alpha \in (0; 1) \), ta có \( f(\alpha y + (1-\alpha)x^*) \leq \alpha f(y) + (1-\alpha)f(x^*) < f(x^*) \) Điều này mâu thuẫn với giả thiết rằng \( x^* \) là điểm cực tiểu địa phương của \( f \).
Theo định lý, tập hợp các điểm cực tiểu địa phương của một hàm lồi là một tập lồi, và mọi điểm cực tiểu địa phương đều là các điểm cực tiểu toàn cục Định lý 2.4.2 chỉ ra rằng nếu f là một hàm lồi, khả vi và liên tục trên tập lồi Ω, thì nếu tồn tại điểm x* ∈ Ω sao cho ∇f(x*)^T (y - x*) ≥ 0 với mọi y ∈ Ω, thì x* là điểm cực tiểu toàn cục của f trên Ω.
Chúng ta có thể chứng minh rằng y−x ∗ là một hướng chấp nhận tại điểm x ∗ Theo Định lý 2.1.1 và Định lý 1.7.1 (i), ta có f(y) ≥ f(x ∗ ) + ∇f(x ∗ ) T (y−x ∗ ) ≥ f(x ∗ ) với mọi y ∈ Ω Do đó, x ∗ là điểm cực tiểu toàn cục của hàm f.
Để xác định cực đại của hàm lồi f trên một tập lồi, không có định lý tương tự như Định lý 2.4.1 cho hàm số f, dẫn đến việc khó xác định điểm cực đại địa phương và toàn cục Tuy nhiên, có một kết quả quan trọng liên quan đến cực đại của hàm lồi f được nêu trong Định lý 2.4.3, áp dụng cho hàm lồi xác định trên tập lồi đóng và bị chặn.
Ω Nếu f đạt cực đại trênΩthì điểm đó là cực điểm củaΩ.
Giả sử hàm f đạt cực đại toàn cục tại điểm x ∗ thuộc miền Ω Trước tiên, chúng ta sẽ chứng minh rằng giá trị cực đại này đạt được trên biên của Ω Nếu x ∗ là điểm biên, không cần chứng minh thêm Ngược lại, nếu x ∗ không phải là điểm biên, ta có thể lấy một đường thẳng bất kỳ đi qua x ∗ và gọi y 1, y 2 là các giao điểm của đường thẳng này với miền Ω Khi đó, y 1 và y 2 là hai điểm biên của Ω, và tồn tại α thuộc (0,1) sao cho x ∗ = αy 1 + (1−α)y 2 Do f là hàm lồi, ta có f(x ∗) ≤ αf(y 1) + (1−α)f(y 2) ≤ max{f(y 1), f(y 2)}.
Giá trị cực đại của hàm f đạt được tại biên của miền Ω, theo bất đẳng thức, cho thấy rằng một trong hai điểm 1 hoặc 2 cũng là cực đại của f.
Tiếp theo, chúng ta sẽ chứng minh rằng điểm biên x∗ là cực điểm của tập Ω Nếu x∗ là cực điểm, định lý được xác nhận Ngược lại, nếu x∗ không phải là cực điểm, ta gọi T1 là giao của Ω và siêu phẳng tựa H tại x∗, với số chiều của T1 bằng n−1 hoặc nhỏ hơn Cực đại toàn cục của hàm f trên T1 là f(x∗) và đạt tại điểm biên x1 của T1 Nếu x1 là cực điểm của T1, theo Bổ đề 1.9.1, x1 cũng là cực điểm của Ω, và định lý được chứng minh Nếu x1 không phải là cực điểm của T1, ta tiếp tục gọi T2 là giao của T1 và siêu phẳng tựa của T1 trong Rn−1 tại x1 Quá trình này lặp lại n lần, dẫn đến tập Tn có số chiều bằng 0, chỉ chứa một điểm duy nhất, và điểm này chính là cực điểm của Tn, cũng theo Bổ đề 1.9.1, là cực điểm của Ω.
Bài tập Chương 2
Câu 2.1 ChoΩ= [0,1]⊂R vàx∈Ω.Tìm tất cả các hướng chấp nhận được tạix.
Câu 2.2 Cho ChoΩ= [0,1] 2 ⊂R 2 vàx∈Ω.Tìm tất cả các hướng chấp nhận được tạix.
Câu 2.3 ChoΩ={x= (x1, ,xn)∈R n |xi≥0,∀i}.Tìm tất cả các hướng chấp nhận được tạix.
Câu 2.4 Choa∈R n (a6=0)vàΩ={x∈R n |ha,xi=0}.Tìm tất cả các hướng chấp nhận được tạix.
Câu 2.5 Tìm cực tiểu của các hàm sau đây: a) z=x 2 +xy+y 2 +x−y+1 b) z=2x 4 +y 4 −x 2 −2y 2 c) u=x 2 +y 2 +z 2 −xy−x−2z.
Câu 2.6 Cho hàm số f xác định bởi: f(x1,x 2 ) =x 3 1 −x 2 1 (x2−1) +2(x2−1) 2 ,vớix 1 ≥0và x 2 ≥1 Chứng minh rằng, hàm số f không đạt cực tiểu địa phương tại các điểmx= (6,8) T vàx= (2,1) T
Câu 2.7 Cho hàm số f xác định bởi: f(x 1 ,x 2 ) =x 2 1 −2x1x 2 +2x 2 2 , vớix 1 ≥0vàx 2 ≥0 Tìm cực tiểu của hàm số và chứng minh rằng∇f(x) T d≥
0với mọi hướng chấp nhận đượcdtạix= (0,0) T
Câu 2.8 Cho hàm số f(x,y) =x 2 +y 2 +xy−3x.Tìm nghiệm của bài toán x,y≥0min f(x,y).
Câu 2.9 Tìm cực đại và cực tiểu của hàm sốz=x 2 +xy+y 2 +x−y+1 trên miềnΩ= [0,1] 2
Câu 2.10 Tìm cuwck đại và cực tiểu của hàm sốu=x 2 +y 2 +z 2 −x−2z trên miềnΩ= [0,1] 3
BÀI TOÁN TỐI ƯU KHÔNG RÀNG BUỘC
Giải thuật lặp cho Bài toán tối ưu không điều kiện ràng buộc
Trong chương này, chúng ta sẽ nghiên cứu Bài toán tối ưu không điều kiện ràng buộc (2.1) với miền xác định Ω = R n Cụ thể, chúng ta sẽ xem xét bài toán tối ưu dạng x∈minR n f(x), với f:R n →R là một hàm liên tục và khả vi Theo Hệ quả 2.1.1, nếu xlà cực tiểu địa phương của Bài toán (3.1), thì
Nếu hàm f là đơn giản, chúng ta có thể xác định tất cả các điểm dừng và cực tiểu địa phương bằng cách giải trực tiếp hệ phương trình Tuy nhiên, với những hàm f phức tạp hơn, việc tính toán trở nên khó khăn và không thể áp dụng Hệ quả 2.1.1 một cách trực tiếp Do đó, cần sử dụng các thuật toán đặc biệt để tìm nghiệm xấp xỉ cho bài toán Trong trường hợp này, phương pháp lặp để giải Bài toán (3.1) sẽ phát huy tác dụng, tạo ra một dãy điểm xk ∈ R n hội tụ đến nghiệm của bài toán Thực tế, phương pháp lặp được thực hiện k lần cho đến khi đạt được giá trị x ∗ k xấp xỉ nghiệm.
Trong phương pháp lặp này, với một điểm xk ∈R n ta cần tìm điểm xk+1∈R n sao cho f(xk+1)< f(xk) (3.2)
Mặc dù điều kiện này không đủ để đảm bảo phương pháp lặp hội tụ đến nghiệm của Bài toán (3.1), nhưng nó là ý tưởng cơ bản cho việc giải quyết vấn đề Một phương pháp để xây dựng dãy {xk} thỏa mãn Điều kiện (3.2) là chọn hướng dk ∈ R^n và thiết lập dãy điểm xk+1 = xk + αk dk, trong đó αk là một số dương, được gọi là kích thước bước.
Hình 3.1: Tìm kiếm theo hướng
Để xây dựng một giải thuật lặp hiệu quả, ở bước lặp thứ k, cần xác định phương pháp chọn hướng dk và tính toán kích thước bước αk sao cho đảm bảo tính chất (3.2) được thỏa mãn Trong các phần tiếp theo của chương này, chúng ta sẽ tập trung vào các phương pháp chọn hướng dk và các kỹ thuật tính toán kích thước bước αk.
Đường tìm kiếm không chính xác
Quy tắc Armijo
Quy tắc Armijo là một tiêu chuẩn phổ biến để dừng quá trình tìm kiếm, với ý tưởng chính là đảm bảo rằng giá trị α được chọn không quá lớn cũng không quá nhỏ Quy tắc này được thực hiện bằng cách xem xét hàm số ϕ(0) + εϕ'(0)α, trong đó ε là một hằng số cố định với 0 < ε < 1 Hàm số này được thể hiện qua đường nét đứt trong Hình 3.2.
Quy tắc Armijo đảm bảo rằng giá trị hàm số không vượt quá đường nét đứt khi ϕ(α) ≤ ϕ(0) + εϕ'0(0)α Để đảm bảo α không quá nhỏ, một giá trị η > 1 được chọn, và α được xem là không quá nhỏ nếu ϕ(ηα) > ϕ(0) + εϕ'0(0)ηα.
Quy tắc Armijo là một phương pháp đơn giản thường được áp dụng để giải bài toán tìm đường không chính xác cho Bài toán (3.1) Quy trình bắt đầu với giá trị α₀, và nếu giá trị này thỏa mãn điều kiện (3.4), ta sẽ tăng η (thường chọn η=2 và ε=0,2) cho đến khi không còn thỏa mãn (3.4) Khi đó, giá trị α được xác định là ηα₀ Ngược lại, nếu giá trị α₀ không thỏa mãn (3.4), ta sẽ chia α₀ cho η cho đến khi α=α₀/η thỏa mãn điều kiện (3.4).
Quy tắc Goldstein
Một trong những phương pháp tìm kiếm phổ biến là quy tắc Goldstein, trong đó giá trị α được chọn không quá lớn nếu nó thỏa mãn điều kiện (3.4) với một số ε > 0, 0 < ε < 1/2 đã được xác định trước Giá trị α được coi là không quá nhỏ trong quy tắc này nếu ϕ(α) > ϕ(0) + (1−ε)ϕ'(0)α, hay ϕ(α) nằm trên đường nét đứt thứ hai trong Hình 3.3.
Do đó, giá trịαứng vớixk+1=xk+αdkthỏa tiêu chuẩn Goldstein nếu ε≤ f(xk+1)−f(xk) α∇f(xk) T dk
Trong bài viết này, chúng ta xem xét điều kiện f(xk) + (1−ε)α∇f(xk)dk≤ f(xk+1)≤ f(xk) +εα∇f(xk)dk với ε∈(0; 1/2) đã cho Tương tự như Quy tắc Armijo, một thuật toán đơn giản có thể được sử dụng để xác định giá trị α Bắt đầu với một giá trị α0, nếu giá trị này thỏa mãn điều kiện (3.4), ta sẽ tăng η cho đến khi không còn thỏa mãn.
(3.4) Khi đó,α=ηα 0 được chọn Ngược lại, nếu giá trịα 0 đầu tiên không thỏa (3.4) thì ta chiaα 0 choηcho đến khiα=α 0 /ηthỏa (3.6).
Giải thuật giảm bước nhanh nhất
Hướng giảm nhanh nhất
Xét dãy truy hồi theo Công thức (3.3) với hướng chấp nhận cố định, ta thực hiện khai triển Taylor cho f(xk+1) tại điểm xk, cho kết quả: f(xk+αkdk) = f(xk) + αk∇f(xk) T dk + o(αk), trong đó o(αk) là vô cùng bé bậc cao hơn αk Giả sử rằng ∇f(xk) ≠ 0, để đảm bảo Điều kiện (3.2) xảy ra với kích thước bước αk > 0 đủ bé, chúng ta cần xem xét các điều kiện liên quan.
Theo Định lý 1.5.2 điều này tương đương với đạo hàm theo hướngf 0 (xk,dk) 0, dẫn đến công thức x k+1 = xk − α∇f(xk) Định lý 3.3.1 chỉ ra rằng nếu hàm số f ∈ C1 có gradient liên tục Lipschitz với hằng số M, thì hàm số này thỏa mãn điều kiện k∇f(x) − ∇f(y)k ≤ Mkx − yk cho mọi x, y ∈ Rn.
Hơn nữa, giả sử thêm rằng f bị chặn dưới Khi đó, nếu kích thước bướcα thỏa mãn bất đẳng thức
M, thì với mọix 0 , dãy{x k }sinh ra bởi Giải thuật(3.9)đều mãn điều kiện k→∞lim∇f(xk) =0.
Áp dụng Định lý về giá trị trung gian (Định lý 1.6.1), ta có công thức f(xk+1) = f(xk+αdk) = f(xk) + α∇f(x) T dk, với x = θxk + (1−θ)xk+1, θ ∈ [0; 1] Do đó, ta có thể viết lại f(xk+1) = f(xk) + α∇f(xk) T dk + α(∇f(x) − ∇f(xk)) T dk.
≤ f(xk) +α∇f(xk) T dk+αk∇f(x)−∇f(xk)k.kdkk. vớidk=−∇f(xk)và sử dụng tính liên tục Lipschitz của gradient, ta được f(xk+1)≤f(xk)−αk∇f(xk)k 2 +αMkxk−xk.k∇f(xk)k.
Mặt kháckxk−xk= (1−θ)kxk−xk+1k≤αk∇f(xk)k Do đó, bất đẳng thức trên tương đương với: f(xk+1) ≤ f(xk)−αk f(xk)k 2 +α 2 Mk∇f(xk)k 2
⇒ f(xk)−f(xk+1) ≥ α(1−αM)k∇f(xk)k 2 (3.10) Theo giả thiết ta có
Vậy f(x k+1 )≤ f(xk)với mọik Dãy{f(xk)}đơn điệu giảm và bị chặn dưới nên tồn tại giới hạn hữu hạn Do đó k→∞lim[f(xk)−f(xk+1)] =0.
Kết hợp với (3.10), ta được
Hệ quả 3.3.1 Trong Định lý 3.3.1, giả sử thêm rằng tập hợp
X 0 ={x∈R n |f(x)≤ f(x0)}, bị chặn Khi đó, dãy{x k }bị chặn và mọi điểm tụx ∗ của dãy đều thỏa mãn điều kiện∇f(x ∗ ) =0.
Dễ dàng nhận thấy rằng mọi phần tử trong dãy {x_k} đều thuộc tập X_0, do đó dãy {x_k} là bị chặn Giả sử x* là một điểm tụ của dãy {x_k}, tồn tại một dãy con {x_m} của {x_k} hội tụ đến x* Theo Định lý 3.3.1, khi m tiến tới vô cùng, ta có lim∇f(x_m) = 0, suy ra ∇f(x*) = 0.
3.3.3 Quy tắc Goldstein trong giải thuật giảm bước nhanh nhất
Một trong những hạn chế của giải thuật với kích thước bước hằng là cần biết hằng số LipschitzM của gradient Để khắc phục vấn đề này, chúng ta sẽ áp dụng phương pháp tìm kích thước bước không chính xác Như đã đề cập trước đó, quy tắc Goldstein là một phương pháp đơn giản để xác định kích thước bước, nhằm tìm giá trị xấp xỉ cho cực tiểu của hàm số một biến ϕ(αk) = f(xk−αk∇f(xk)).
Nhắc lại rằng, trong quy tắc Golstein, vớiβ∈(0; 1/2)chúng ta cần tìm αksao cho
≤β. Để ý rằngdk=−∇f(xk)nên bài toán tương đương với việc tìmαksao cho f(xk)−(1−β)αkk∇f(xk)k 2 ≤ f(xk+1)≤ f(xk)−βαkk∇f(xk)k 2 (3.11).
Giải thuật giảm bước nhanh kết hợp với đường tìm kiếm xấp xỉ theo Quy tắc Golstein được nêu trong Định lý 3.3.2, trong đó hàm f thuộc C1 và có gradient liên tục Lipschitz với hằng số M.
Giả sử tập hợp X 0 = {x ∈ R n | f(x) ≤ f(x 0 )} bị chặn, thì dãy {x k} sinh ra từ thuật toán giảm bước nhanh nhất với α k được chọn theo Quy tắc Goldstein sẽ là dãy bị chặn Hơn nữa, mọi điểm tụ x ∗ của dãy này đều thỏa mãn điều kiện ∇f(x ∗ ) = 0.
Chứng minh Từ vế phải của (3.11), ta được f(x k+1 )≤ f(xk).
VìX 0 bị chặn nên dãy{f(xk)}bị chặn và do đó nó hội tụ Hơn nữa, từ vế phải của bất đẳng thức (3.11) suy ra: αkk∇f(xk)k 2 ≤ f(xk)−f(x k+1 ) β
Do đó k→∞limαkk∇f(xk)k 2 =0 (3.12)
Theo chứng minh ở Định lý 3.3.1 ta có bất đẳng thức (3.10), tức là f(x k+1 )≤ f(xk)−αk(1−αkM)k∇f(xk)k 2
Kết hợp với vế trái của bất đẳng thức (3.11), ta có f(xk)−αk(1−β)k∇f(xk)k 2 ≤ f(xk)−αk(1−αkM)k∇f(xk)k 2 Rút gọn cho thấy βk∇f(xk)k 2 ≤ αkMk∇f(xk)k 2 Khi k→∞, ta nhận được giới hạn k→∞limk∇f(xk)k=0, từ đó suy ra ∇f(x ∗ ) =0.
Giải thuật giảm bước nhanh nhất với đường tìm kiếm chính xác
Trong nghiên cứu về giải thuật giảm bước nhanh nhất với đường tìm kiếm chính xác, kích thước bước αk được xác định là giá trị cực tiểu của hàm số một biến ϕ(αk) = f(xk + αk∇f(xk)), với αk > 0 Định lý 3.3.3 nêu ra các điều kiện cần thiết để đảm bảo giải thuật hội tụ trong trường hợp tổng quát Cụ thể, nếu hàm f thuộc lớp C1 và tập hợp X0 = {x ∈ Rn | f(x) ≤ f(x0)} bị chặn, thì giải thuật gradient giảm bước nhanh nhất với đường tìm kiếm chính xác sẽ tạo ra một dãy điểm {xk}, trong đó mỗi điểm sẽ hội tụ về x* và thỏa mãn điều kiện ∇f(x*) = 0.
Dãy {x_k} được sinh ra từ một quá trình tìm kiếm không chính xác dẫn đến f(x_{k+1}) ≤ f(x_k) với mọi k Vì X_0 bị chặn, dãy này là tập compact, từ đó suy ra dãy {f(x_k)} cũng bị chặn và hội tụ Hơn nữa, dãy {x_k} có điểm tụ x*, cho thấy tồn tại một tập chỉ số.
Vì f(xk) hội tụ nên f(x ∗ ) = limk→∞ f(xk) Chúng ta sẽ chứng minh Định lý này bằng phương pháp phản chứng Giả sử rằng ∇f(x ∗ ) khác 0, ta xem xét hướng giảm bước nhanh nhất là −∇f(x ∗ ) và điểm y(α) = x ∗ − α∇f(x ∗ ).
Vì∇f(x ∗ )6=0nên bài toán minα≥0 f(y(α)), (3.13) có nghiệmα ∗ >0và f(y(α ∗ )) 1 đã chọn trước, ta có ϕ(ηα) > ϕ(0) + εϕ'0(0)ηα.
Để tìm giá trị tối ưu αk, trước tiên chọn một giá trị cố định cho ε Bắt đầu với αk = α; nếu nó không quá lớn (tức là thỏa mãn ϕ(α) ≤ ϕ(0) + εϕ' (0)α), ta tăng αk = αk * η (với η = 2 và ε = 0,2 thường được chọn) cho đến khi bất đẳng thức không còn thỏa mãn Nếu αk = α không thỏa mãn điều kiện "không quá lớn", ta giảm αk = α/η cho đến khi đạt được điều kiện mong muốn Chương trình Matlab cho bài toán tối ưu với kích thước bước xác định bởi đường tìm kiếm Armijo sẽ được trình bày như sau:
%Nhập số chiều của không gian R^n n=3; x0=; f=@(x) ; gradf=@(x) ; x=[x0]; F=[f(x0)]; eps=1/2;nu=2;
The algorithm iteratively updates the variable \(x\) to minimize the function \(f\) Initially, a step size \(an\) is set to 1, and the gradient \(tg\) is calculated at the current point \(x0\) The next point \(x1\) is determined by moving in the direction of the negative gradient If the function value at \(x1\) meets the Goldstein condition, the step size is adjusted by multiplying it with a factor \(nu\) until it satisfies the condition Conversely, if the condition is not met, the step size is reduced by dividing it by \(nu\) This process continues until convergence, with each updated point and corresponding function value stored for analysis.
Theo quy tắc Goldestein,αkđược chọn nếu nó thỏa mãn bất đẳng thức f(xk)−(1−β)αkk∇f(xk)k 2 ≤ f(x k+1 )≤ f(xk)−βαkk∇f(xk)k 2
Để xác định giá trị αk, trước tiên chọn một giá trị β trong khoảng (1/2; 1) và thiết lập αk = α Nếu αk thỏa mãn bất đẳng thức bên phải, ta tăng αk = αkη cho đến khi bất đẳng thức không còn thỏa mãn Ngược lại, nếu αk = α mà bất đẳng thức bên phải không thỏa mãn ngay từ đầu, ta giảm αk = αk/η cho đến khi bất đẳng thức bên trái không còn thỏa mãn Dưới đây là chương trình Matlab cho bài toán tối ưu với kích thước bước được xác định theo quy tắc Goldstein: x0 = ; f = @(x) ; gradf = @(x) ; x = [x0]; F = [f(x0)]; eps = 1/2; nu = 2.
In the optimization process, for each iteration from 1 to N, we initialize the step size \( an \) to 1 and compute the gradient \( tg \) at the current point \( x0 \) We then update the position to \( x1 \) using the formula \( x1 = x0 - an \cdot tg \) If the function value at \( x1 \) is less than or equal to the value at \( x0 \) adjusted by a factor involving \( eps \) and the gradient, we continue to reduce the step size \( an \) by multiplying it with \( nu \) while updating \( x1 \) Conversely, if the function value at \( x1 \) exceeds the adjusted value at \( x0 \), we increase the step size by dividing \( an \) by \( nu \) This process iterates until we find a suitable point, updating \( x0 \) to \( x1 \) and storing the new point and function value in their respective arrays.
Các ví dụ minh họa
Ví dụ 3.3.3 Tìm điểm cực tiểu của hàm số f :R 2 →Rxác định bởi f(x 1 ,x 2 ) =1
Xét điểm xuất phátx 0 = (a,1) T Khi đó ta có f(x1,x2) =1
và∇f(x) T = (x 1 ,ax 2 ) Bằng quy nạp ta sẽ chứng minh xk a−1 a+1 k
Thật vậy, vớik=0, đẳng thức trên đúng Giả sử đẳng thức đúng vớik, ta sẽ chứng minh nó cũng đúng vớik+1 Ta có:
, vớiαk là điểm cực tiểu của hàm số ϕk(α) =f(xk−α∇f(x)) = 1
. Đây làm hàm bậc hai nên đạt giá trị nhỏ nhất tại αk= 2 a+1.
Do đó, ta có xk a−1 a+1 k+1
Ví dụ 3.3.4 Tìm cực tiểu của bài toán tối ưu bậc hai f :R 3 →Rđược cho bởi : f(x) =1
Giải:VìQlà ma trận đối xứng xác định dương nên f lồi chặt Do đó theo Bổ đề 2.1.1 và Định lý 2.4.1, nghiệmx ∗ của bài toán thỏa mãn:
Bây giờ chúng ta sẽ giải bài toán bằng Giải thuật (3.25) Ta có :x k+1 xk−αk∇f(xk), với:
∇f(xk) =Qxk−b và αk= g T k gk g T k Qgk
∇f(xk) T Q∇f(xk). Vớix 0 = (0,0,0,0) T , ta có: f(x 0 ) = 0,∇f(x 0 ) T =Qx 0 −b= (−0,76;−0,08;−1,12; 0,68). α 0 ≈ 0,533491. x1 = x0−α0∇f(x 0 )≈
Cứ tiếp tục như vậy ta được bảng sau:
Khi đó, ta được nghiệm: x ∗ ≈(1,5350; 0,1220; 1,9752; 1,4130) T và f(x ∗ )≈ −2.1746595.
Hình 3.10: Sự hội tụ của f(xk)Chương trình Matlab cho ví dụ này như sau:
% Định nghĩa hàm mục tiêu, ma trận Q, véctơ b Q=[0.78 -0.02 -0.12 -0.14;
% Chọn giá trị khởi tạo; x0=zeros(4,1); xstar=[1.534965034965035;
% Lưu thông tin dãy x_n và f(x_n) xn=[]; fn=[];
% Chọn giá trị n cho vòng lặp nP; for i=1:n xn=[xn x0]; tg=(x0-xstar)’*Q*(x0-xstar)/2;
Error=[Error tg]; tg=f(x0); fn=[fn tg]; gk=Q*x0-b; ak=gk’*gk/(gk’*Q*gk); x1=x0-ak*gk; x0=x1; end
Ví dụ 3.3.5 Tìm cực tiểu của bài toán tối ưu bậc hai f :R 3 →Rxác định bởi: f(x) =1
Giải:Tương tự như Ví dụ 3.3.4, theo Bổ đề 2.1.1 và Định lý 2.4.1, ta có cực tiểu của bài toán là x ∗
Bây giờ, ta sẽ giải bài toán bằng Giải thuật (3.25).
Ta có :x k+1 =xk−αk∇f(xk), với:
∇f(xk) =Qxk−b và α= g T k gk g T k Qgk
∇f(xk) T Q∇f(xk). + Vớix 0 = (0,0,0) T , ta có: f(x 0 ) = 0,∇f(x 0 ) =Qx 0 −b= (1; 1; 1) T ,α 0 =0,096774.
Hình 3.11: Sự hội tụ f(xk)
Sau 200 bước lặp ta thu được: x 200 −0.99999999;−0,20000000;−0,04000000
Vậy nghiệm của bài toán làx ∗ ≈x200và f(x ∗ ) =−0,62000000. Chương trình Matlab cho ví dụ này như sau:
% Định nghĩa hàm mục tiêu, MT Hesian, véctơ b Q=[1 0 0;
% Chọn giá trị khởi tạo cho vòng lặp x0=zeros(3,1); xstar=[-1.00;-0.20;-0.04];
% Lưu thông tin dãy x_n và f(x_n) xn=[]; fn=[];
% Chọn giá trị n cho vòng lặp n 0; for i=1:n xn=[xn x0]; tg=(x0-xstar)’*Q*(x0-xstar)/2;
Error=[Error tg]; tg=f(x0); fn=[fn tg]; gk=Q*x0-b; ak=gk’*gk/(gk’*Q*gk); x1=x0-ak*gk; x0=x1; end
Trong ví dụ 3.3.4, ma trận Q có giá trị riêng lớn nhất là M = 0,94 và giá trị riêng nhỏ nhất là m = 0,52, dẫn đến hệ số điều kiện r = 1,8, cho thấy tốc độ hội tụ nhanh Ngược lại, ma trận Q trong ví dụ khác sẽ có những đặc điểm khác.
Ví dụ 3.3.5 cho thấy giá trị riêng lớn nhất là M% và giá trị riêng nhỏ nhất là m = 1, dẫn đến hệ số điều kiện r% Tốc độ hội tụ trong trường hợp này chậm Đối với các bài toán tối ưu không phải bậc hai, việc tính toán chính xác giá trị αk là thách thức lớn, dẫn đến việc sử dụng các đường tìm kiếm không chính xác Tuy nhiên, với sự hỗ trợ của phần mềm Matlab, quá trình tính toán các bài toán tối ưu trở nên đơn giản và tiết kiệm thời gian cũng như công sức Chúng ta sẽ xem xét một ví dụ để minh họa điều này.
Ví dụ 3.3.6 Tìm cực tiểu của hàm số f :R 3 →Rxác định bởi: f(x 1 ,x 2 ,x 3 ) = (x 1 −4) 4 + (x 2 −3) 2 +4(x 3 +5) 4 , vớix 1 ,x 2 ,x 3 ∈R.
Giải: Cách 1:Sử dụng chương trình Matlab với quy tắc Armijo đã nêu ở trên ta có chương trình sau: x0=[0;0;0]; f=@(x) (x(1)-4)^4+(x(2)-3)^2+4*(x(3)+5)^4; gradf=@(x)
The algorithm begins by initializing the variables with a starting point \( x_0 \) and calculating the function value \( F \) at that point It sets the parameters \( \text{eps} \) and \( \nu \) for the optimization process In each iteration, it calculates the gradient \( \text{tg} \) at the current point, then updates the point \( x_1 \) using a step size \( a_n \) multiplied by the gradient If the function value at \( x_1 \) is less than or equal to the value at \( x_0 \) minus a certain threshold, the step size is increased; otherwise, it is decreased This process continues until convergence, updating the current point and storing the new function values in the arrays \( x \) and \( F \).
Hình 3.12: Sự hội tụ của f(xk)với quy tắc Armijo
Lúc đó, ta có bảng sau:
Từ bảng trên ta thấy nghiệm của bài toán là xấp xỉ: x ∗ ≈(4,3,−5) T và f(x ∗ ) =0.
Cách 2:Sử dụng chương trình Matlab với tiêu chuẩn Golstein đã nêu ở trên ta có chương trình sau: x0=[0;0;0]; f=@(x) (x(1)-4)^4+(x(2)-3)^2+4*(x(3)+5)^4; gradf=@(x)
The algorithm begins by initializing variables, including a starting point \( x0 \) and the function value \( F \) at that point It sets a small epsilon value \( \epsilon = 1/2 \) and a scaling factor \( \nu = 2 \) In a loop that iterates \( n \) times, it calculates the gradient \( tg \) of the function at \( x0 \) and updates the point \( x1 \) using a step size \( an \) If the function value at \( x1 \) is less than or equal to the value at \( x0 \) adjusted by a certain threshold, the step size is increased Conversely, if the new function value is greater than a modified threshold, the step size is decreased This process continues until convergence, with the updated points and their corresponding function values being stored for analysis.
Lúc đó, ta có bảng sau:
Từ bảng trên ta thấy nghiệm của bài toán là xấp xỉ: x ∗ ≈(4,3,−5) T và f(x ∗ ) =0.
Bài tập Chương 3
Hàm số f(x,y) = x² + y² + xy - 3x có thể chứng minh rằng ∇f là hàm liên tục Lipschitz Để tìm nghiệm xấp xỉ cho cực tiểu địa phương x* của f, chúng ta áp dụng phương pháp giảm bước nhanh nhất với kích thước bước hằng.
Hình 3.13: Sự hội tụ của f(xk)với tiêu chuẩn Goldstein
Câu 3.2 Cho hàm số f(x,y) =x 2 +y 2 +xy−3x.Dùng phương pháp New- ton, tìm nghiệm xấp xỉ cho cực tiểu địa phươngx ∗ của f thỏa mãnkx k − x ∗ k ≤10 −6
Câu 3.3 Cho hàm số f(x,y) =x 2 +y 2 +xy−3x và a T = (a 1 ,a 2 ) tìm nghiệm của bài toán minα≥0φ(α):= f(a−α∇f(a).
Câu 3.4 Cho f(x) = 3 2 x 2 1 + 1 2 x 2 2 −x 1 x 2 −2x 1 vàx 0 = (−2,4) T Tìm cực tiểu hàm f bằng phương pháp giảm bước nhanh nhất và phương pháp Newton.
Câu 3.5 Cho f(x) 0(x 2 −x 2 1 ) 2 + (1−x 1 ) 2 và x 0 = (−1.2,1) T Tìm cực tiểu hàm f bằng phương pháp giảm bước nhanh nhất và phương phápNewton.
Câu 3.6 Cho f(x) =x 2 1 +9x 2 2 Tốc độ hội tụ của phương pháp giảm bước nhanh nhất và phương pháp Newton khi áp dụng cho hàm f là gì?
Câu 3.7 đề cập đến hai hàm số f(x) = x₁² + 9x₂² và g(x) = x₁² + 10⁴x₂² Phân tích tốc độ hội tụ của phương pháp giảm bước nhanh nhất khi áp dụng cho hai hàm này sẽ cho thấy trường hợp nào hội tụ nhanh hơn.