1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giáo trình tối ưu phi tuyến

115 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giáo trình Tối Ưu Phi Tuyến
Tác giả Phạm Quý Mười
Trường học Đại học Đà Nẵng
Chuyên ngành Toán
Thể loại giáo trình
Năm xuất bản 2023
Thành phố Đà Nẵng
Định dạng
Số trang 115
Dung lượng 908,6 KB

Cấu trúc

  • Chương 1. Một số kiến thức cơ bản của giải tích và đại số (0)
    • 1.1. Ma trận (9)
    • 1.2. Không gian R n (10)
    • 1.3. Giá trị riêng và dạng toàn phương (13)
    • 1.4. Hàm số nhiều biến số (15)
    • 1.5. Định lý Taylor (18)
    • 1.6. Hàm lồi (19)
    • 1.7. Các định lý tách (21)
    • 1.8. Cực điểm (22)
  • Chương 2. Lí thuyết cơ bản về bài toán tối ưu (0)
    • 2.1. Phân loại bài toán tối ưu (24)
    • 2.2. Điều kiện cần cho nghiệm của bài toán tối ưu (25)
    • 2.3. Điều kiện đủ cho nghiệm của bài toán tối ưu (31)
    • 2.4. Cực tiểu và cực đại của hàm lồi (32)
    • 2.5. Giải thuật cho bài toán tối ưu tự do (34)
  • Chương 3. Bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình (0)
    • 3.1. Các khái niệm cơ bản (56)
    • 3.2. Điều kiện tối ưu bậc nhất (58)
    • 3.3. Điều kiện tối ưu cấp hai (68)
    • 3.4. Bài toán đối ngẫu (73)
    • 3.5. Giải thuật cho bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình (75)
  • Chương 4. Bài toán tối ưu không trơn (0)
    • 4.1. Một số khái niệm cơ bản (86)
    • 4.2. Sự tồn tại nghiệm và điều kiện cần cho nghiệm của bài toán 86 4.3. Giải thuật giảm kiểu gradient (86)
    • 4.4. Giải thuật cải tiến của Nesterov (94)
    • 4.5. Một số ứng dụng (99)
  • Chương 5. Chương trình Matlab và một số ví dụ minh họa (0)
    • 5.1. Chương trình Matlab cho bài toán tối ưu bậc hai (104)
    • 5.2. Chương trình Matlab cho bài toán tối ưu tổng quát (105)
    • 5.3. Một số ví dụ minh họa (106)
  • Tài liệu tham khảo (0)

Nội dung

Một số kiến thức cơ bản của giải tích và đại số

Ma trận

Định nghĩa 1.1 Một ma trận cỡ m×n là một bảng số hình chữ nhật gồm m hàng và n cột, kí hiệu là A m×n , có dạng:

Ma trận cỡ m×n còn được gọi là m×n-ma trận Nếu m = n thì ma trận cỡ n×n được gọi là ma trận vuông cấp n Nếu m và n đã rõ thì ma trận

A m×n được kí hiệu gọn là A hoặc (aij). Định nghĩa 1.2.

(i) Một m ×n-ma trận được gọi là ma trận không, kí hiệu là O m×n hoặc đơn giản là O, nếu aij = 0, ∀i ∈ {1,2, , m}, j ∈ {1,2, , n}.

Ma trận đơn vị cấp n, ký hiệu là In hoặc I, là một ma trận vuông cấp n có các phần tử a ij = 0 với i ̸= j và a ii = 1 cho mọi i thuộc {1, 2, , n}.

(a) Ma trận chuyển vị củam×n-ma trậnA, kí hiệu làA T ,là mộtn×m-ma trận với aij = aji.

(b) Ma trận vuông A được gọi là ma trận đối xứng nếu A T = A.

(c) Ma trận A được gọi là không suy biến nếu tồn tại ma trận nghịch đảo

A −1 Khi đó, ma trận A được gọi là ma trận khả nghịch, thỏa mãn

Các phép toán liên quan đến ma trận như cộng hai ma trận, nhân một số với ma trận và nhân hai ma trận được thực hiện theo cách thông thường Ngoài ra, giáo trình không đề cập lại khái niệm về định thức của ma trận vuông.

Các tính chất của đại số tuyến tính rất quan trọng và người đọc có thể tìm hiểu chi tiết về những vấn đề này trong các tài liệu cơ bản liên quan.

Không gian R n

Trong không gian Euclid n-chiều R n, chúng ta thường xuyên làm việc với các khái niệm cơ bản như tích vô hướng, chuẩn và trực giao Định nghĩa 1.4 nêu rõ rằng một điểm x trong không gian này được biểu diễn bằng một bộ n số thực sắp xếp theo thứ tự, thường được viết dưới dạng cột.

 , với mỗi số x i ∈ R, i ∈ {1,2, , n} được gọi là tọa độ thứ i của điểm x. Đề thuận tiện ta quy ước x = (x 1 , x 2 , , x n ) T 

Kí hiệu O = (0,0, ,0) T ∈ R n là gốc tọa độ của không gian R n

Mỗi điểm x thuộc R^n xác định một véctơ trong R^n với gốc O và ngọn x, và véctơ này được ký hiệu là x Định nghĩa 1.5 cho biết, với hai điểm (véctơ) x và y trong R^n, đoạn thẳng nối hai điểm này, ký hiệu là [x, y], là tập hợp các điểm (véctơ) có dạng.

Hình 1.1: Đoạn thẳng [x, y]. Định nghĩa 1.6 Cho hai véctơx = (x 1 , x 2 , , x n ) T vày = (y 1 , y 2 , , y n ) T trong R n Khi đó:

(i) Tích vô hướng của hai véctơ x và y, kí hiệu là x T y, y T x hoặc ⟨x, y⟩, được xác định bởi x T y = y T x = ⟨x, y⟩ n

(ii) Hai véctơ x và y được gọi là trực giao nếu x T y = y T x = ⟨x, y⟩ = 0.

(iii) Độ dài hay chuẩn của véctơ x, kí hiệu là ∥ x ∥, được xác định bởi

Chú ý 1.1 Trong không gian véctơ R n , tích vô hướng của hai véctơ x, y có các tính chất sau:

Chú ý 1.2 Chuẩn của một véctơ có một số tính chất cơ bản sau:

(a) ∥ x ∥≥ 0 với mọi x và ∥ x ∥= 0 khi và chỉ khi x = O.

(b) ∥ αx ∥=| α |∥ x ∥, với mọi α ∈ R và với mọi x ∈ R n

(d) Bất đẳng thức Cauchy-Schwarz

|x T y| ≤∥ x ∥∥ y ∥, với mọi véctơ x, y trong R n Định nghĩa 1.7 Hệ gồm các véctơ a 1 , a 2 , , a k được gọi là:

(a) phụ thuộc tuyến tính nếu tồn tại các số thực λ 1 , λ 2 , , λ k không đồng thời bằng 0 sao cho Pk i=1λ i a i = O.

(b) độc lập tuyến tính nếu không tồn tại các số thực λ1, λ2, , λk không đồng thời bằng 0 sao cho Pk i=1λ i a i = O. Định nghĩa 1.8.

(a) Một tổ hợp tuyến tính của các véctơa 1 , a 2 , , a k là một véctơ có dạng

Khi đó, tập hợp các véctơ dạng này được gọi là tập hợp các véctơ sinh bởi a 1 , a 2 , , a k

Một cơ sở của R^n là tập hợp các véctơ độc lập tuyến tính sinh ra R^n, với mỗi cơ sở chứa đúng n véctơ Hạng của ma trận A kích thước m×n được định nghĩa là số cột độc lập tuyến tính lớn nhất của ma trận A, cũng như số hàng độc lập tuyến tính lớn nhất của nó.

Hơn nữa, nếu hạng của m ×n-ma trận A bằng min{m, n} thì ma trận

Không gian con M của R^n được gọi là có cấp đầy đủ nếu nó là một tập hợp đóng đối với phép cộng và phép nhân vô hướng, nghĩa là với mọi a, b thuộc M và mọi λ, α thuộc R, thì λa + αb cũng thuộc M Số chiều của không gian con M được xác định là số véctơ độc lập tuyến tính lớn nhất trong M Đối với không gian con M, phần bù trực giao của M, ký hiệu là M⊥, là tập hợp các véctơ trực giao với tất cả các véctơ trong M.

Phần bù trực giao của không gian M được chứng minh là một không gian con của R^n, và M cùng với M ⊥ tạo thành một cơ sở cho không gian R^n Mỗi véctơ x ∈ R^n có thể được biểu diễn duy nhất dưới dạng x = a + b, trong đó a ∈ M và b ∈ M ⊥, với a và b lần lượt là hình chiếu trực giao của x lên M và M ⊥ Định nghĩa ánh xạ từ R^m vào R^n là quy tắc A gán mỗi điểm trong R^m với một điểm duy nhất trong R^n, ký hiệu là A: R^m → R^n Ánh xạ A có thể là tuyến tính hoặc phi tuyến tính, và chuẩn của ánh xạ tuyến tính A: R^m → R^n được ký hiệu đặc biệt.

∥x∥≤1 ∥ Ax ∥. Tính chất 1.1 Cho A là một toán tử tuyến tính Khi đó, với mọi véctơ x, ta có:

Giá trị riêng và dạng toàn phương

1.3.1 Giá trị riêng và véctơ riêng Định nghĩa 1.15 Cho một ma trận vuông A cấp n Nếu tồn tại một vô hướng λ ∈ R và một véctơ x ̸= O thỏa mãn Ax = λx thì λ được gọi là một giá trị riêng ứng với véctơ riêng x của A.

Chú ý 1.3 Điều kiện cần và đủ để λ ∈ R là giá trị riêng của ma trận

A là ma trận A−λI suy biến, tức là det (A−λI) = 0.

Giá trị riêng λ là nghiệm của đa thức det (λI − A) = λ^n + a_{n−1}λ^{n−1} + + a_1λ + a_0 = 0, trong đó đa thức này được gọi là đa thức đặc trưng và phương trình này là phương trình đặc trưng của ma trận vuông A Theo Định lý 1.1, nếu phương trình đặc trưng det (λI − A) = 0 có n nghiệm thực phân biệt λ_1, λ_2, , λ_n, thì tồn tại n véctơ độc lập tuyến tính x_1, x_2, , x_n là các véctơ riêng của ma trận A, tức là các véctơ này thỏa mãn tính độc lập tuyến tính.

Axi = λxi, với mọi i thuộc tập {1,2, , n} Định lý 1.2 khẳng định rằng tất cả các giá trị riêng của một ma trận đối xứng thực đều là các số thực Định lý 1.3 chỉ ra rằng mọi ma trận đối xứng thực kích thước n×n có n véctơ riêng phân biệt, và các véctơ riêng này đôi một trực giao với nhau.

Nếu A là ma trận đối xứng với n giá trị riêng và n véctơ riêng phân biệt x1, x2, , xn, thì các véctơ này tạo thành một cơ sở trực giao của Rn Ngoài ra, nếu các véctơ riêng này là một cơ sở trực chuẩn, tức là mỗi véctơ có chuẩn đơn vị, thì ma trận cũng có những đặc điểm nhất định.

Ma trận Q như vậy được gọi là ma trận trực giao Ngoài ra, ta cũng có

Q −1 AQ = Q T AQ = Q T [Ax 1 , Ax 2 , , Ax n ] = Q T [λ 1 x 1 , λ 2 x 2 , , λ n x n ] hay

Lúc đó, ma trận A được chéo hóa.

Một dạng toàn phương f: R^n → R được định nghĩa là f(x) = x^T Qx, trong đó Q là ma trận thực đối xứng cấp n Ma trận đối xứng Q được xem là xác định dương nếu dạng toàn phương x^T Qx lớn hơn 0 cho mọi véctơ x khác không.

Tương tự, chúng ta cũng định nghĩa ma trận đối xứng Q là nửa xác định dương, xác định âm, nửa xác định âm nếu x T Qx ≥, 0, tồn tại N sao cho ∥ x k − x ∥< ε với mọi k ≥ N).

Khi đó, ta viết x k →x hoặc lim k→∞ x k = x. Định nghĩa 1.18 Điểm x được gọi là một điểm tụ của dãy véctơ {x k } nếu tồn tại một dãy con của dãy {x k } hội tụ đến x.

Theo định nghĩa, x được coi là một điểm tụ của dãy {x_k} nếu tồn tại một tập con K (có vô hạn phần tử) từ tập các số nguyên dương, sao cho dãy {x_k} với k thuộc K hội tụ đến x.

(a) Hình cầu mở tâm x, bán kính ε > 0 là một tập hợp

(b) Hình cầu đóng tâm x, bán kính ε > 0 là một tập hợp

Một hình cầu mở tâm x được gọi là một lân cận của x, ký hiệu là S(x, ε) Trong không gian thực R, hình cầu mở S(x, ε) tương ứng với khoảng mở (x−ε, x+ε) Trong không gian hai chiều R², hình cầu mở S(x, ε) là hình tròn có tâm x và bán kính ε, loại bỏ các điểm trên biên Tương tự, trong không gian ba chiều R³, hình cầu mở S(x, ε) là hình cầu có tâm x và bán kính ε, cũng loại bỏ các điểm trên mặt cầu Định nghĩa 1.20 chỉ ra rằng một tập con Ω của Rⁿ được coi là một tập mở nếu mọi điểm trong Ω đều là tâm của một hình cầu mở hoàn toàn nằm trong Ω.

Tập Ω được định nghĩa là một tập mở trong R n nếu với mỗi điểm x thuộc Ω, tồn tại một ε > 0 sao cho hình tròn S(x, ε) hoàn toàn nằm trong Ω Ngược lại, một tập con P của R n được xem là tập đóng nếu phần bù của nó là một tập mở trong R n.

Chú ý 1.7 Một cách tương đương, một tập P là đóng nếu với mỗi dãy {x k } ⊂ P hội tụ đến x thì x ∈ P.

Một số tính chất quan trọng của tập mở và tập đóng được liệt kê trong định lý sau: Định lí 1.4.

(a) Giao của hữu hạn các tập mở là một tập mở Hợp của một họ bất kì những tập mở cũng là một tập mở.

Hợp của một số hữu hạn các tập đóng luôn tạo thành một tập đóng, trong khi giao của bất kỳ họ tập đóng nào cũng là một tập đóng Điểm x được gọi là điểm trong của tập hợp P nếu tồn tại một lân cận của x hoàn toàn nằm trong P Ngược lại, điểm x được xem là điểm biên của tập hợp P khi với mọi ε > 0, lân cận S(x, ε) luôn có phần giao với P và phần giao với R^n \ P Phần trong của tập P, ký hiệu là P^o hoặc int(P), bao gồm tất cả các điểm trong của P.

Phần trong của tập P là tập mở lớn nhất chứa P Giao của tất cả các tập đóng chứa P được gọi là bao đóng của P, ký hiệu là cl(P) Bao đóng cl(P) của P là hợp của P và tất cả các điểm biên của P Theo định nghĩa Henie-Borel, một tập con P của R^n được xem là compact nếu nó vừa đóng và bị chặn.

Tập P được gọi là compact nếu và chỉ nếu nó là tập đóng và tồn tại một hằng số M > 0 sao cho mọi điểm x thuộc P đều thỏa mãn điều kiện ∥x∥ ≤ M Theo Định lý Weierstrass, nếu P là một tập compact và {x k} là một dãy nằm trong P, thì dãy này sẽ có ít nhất một điểm tụ thuộc P, tức là tồn tại một dãy con của {x k} hội tụ đến một điểm trong P.

1.4.2 Hàm số liên tục trên R n

Trong phần này, chúng ta thường xét hàm số f xác định trên tậpΩ hoặc

P,trong đó các tậpΩ hoặcP luôn được giả sử là các tập khác rỗng,Ωthường được xem là tập mở và P thường được xem là tập compact. Định nghĩa 1.26 Một hàm số f xác định trên một tập con Ω của R n được gọi là liên tục tại x ∈ Ω nếu với mọi dãy {x k } ⊂ Ω, xk → x ta có f{x k } → f(x) Nói cách khác, f liên tục tại x nếu:

Trong toán học, định nghĩa về tính liên tục của hàm số được thể hiện qua bất kỳ ε > 0, luôn tồn tại δ > 0 sao cho với mọi y trong tập Ω, nếu khoảng cách giữa y và x nhỏ hơn δ thì khoảng cách giữa f(y) và f(x) nhỏ hơn ε Theo Định lý Weierstrass (Định lý 1.7), nếu hàm f liên tục trên một tập compact P, thì f sẽ có ít nhất một điểm cực tiểu trong P, tức là tồn tại x* ∈ P sao cho f(x) ≥ f(x*) với mọi x ∈ P Thêm vào đó, một hàm số f = (f1, f2, , fm) xác định trên một tập con của R^n được gọi là hàm giá trị véctơ, trong đó f(x) = (f1(x), f2(x), , fm(x)) cho mỗi véctơ x ∈ R^n Cuối cùng, một hàm giá trị véctơ f được coi là liên tục nếu tất cả các hàm thành phần của nó đều liên tục.

(a) Nếu mỗi hàm thành phần của f = (f 1 , f 2 , , f m ) liên tục trong một tập mở của R n thì ta viết f ∈ C.

(b) Nếu mỗi hàm thành phần có đạo hàm cấp một liên tục trên tập này thì ta viết f ∈ C 1

Nếu mỗi hàm thành phần có các đạo hàm riêng đến cấp p liên tục, ta ký hiệu f ∈ C p Định nghĩa 1.29 cho biết rằng nếu f là một hàm thực có các đạo hàm riêng, điều này có nghĩa là f đáp ứng các điều kiện liên quan đến tính liên tục và khả năng đạo hàm.

R n , f(x) =f(x 1 , x 2 , , x n ), ta định nghĩa gradient của f là véctơ

. Định nghĩa 1.30 Giả sử f ∈ C 2 Ma trận Hessian của f tại x là ma trận vuông cấp n, kí hiệu là F(x) hoặc ∇ 2 f(x), và được xác định bởi:

∂x j ∂x i , nên ma trận Hessian của f là ma trận đối xứng.

Với mỗi hàm giá trị véctơ f = (f1, f2, , fm), ta cũng có các định nghĩa tương tự như những định nghĩa trên.

(a) Nếu f ∈ C 1 thì gradient (đạo hàm cấp một) được định nghĩa là m×n- ma trận

(b) Nếuf ∈ C 2 thì ta định nghĩamma trận HessianF1(x), F2(x), , Fm(x) tương ứng là m thành phần của hàm số này.

(c) Vớiλ T = (λ 1 , λ 2 , , λ m ) ∈ R m thì hàm sốλ T f có gradient làλ T ∇f(x) và có ma trận Hessian λ T F(x) và bằng λ T F(x) m

Hàm số f xác định trên một tập mở Ω thuộc R n được gọi là khả vi tại điểm x ∈ Ω nếu tồn tại các đạo hàm riêng của f theo mọi biến tại điểm đó Đối với mọi d ∈ R n với ∥ d ∥ đủ nhỏ để x + d ∈ Ω, ta có công thức: f(x + d) = f(x) + ⟨∇f(x), d⟩ + o(∥ d ∥), trong đó o(∥ d ∥) là một hàm vô cùng bé bậc cao hơn ∥ d ∥ khi ∥ d ∥ tiến tới 0.

Chú ý 1.10 Biểu thức trên tương đương với

Hàm f được xem là khả vi trên tập mở Ω thuộc R n nếu nó khả vi tại mọi điểm trong Ω Định nghĩa này nhấn mạnh tầm quan trọng của tính khả vi trong các hàm số xác định trên không gian R n.

Giới hạn t→0 lim + f(x+td)−f(x) t được gọi là đạo hàm theo hướng d của hàm f tại điểm x ∈ R n, ký hiệu là f ′ (x, d), nếu giới hạn này tồn tại (có thể hữu hạn hoặc vô hạn) Theo Định lý 1.8, nếu hàm f xác định trên R n và khả vi tại điểm x, thì đạo hàm theo hướng d được tính bằng f ′ (x, d) = ⟨∇f(x), d⟩, với mọi d ∈ R n \{O}.

Định lý Taylor

Định lý Taylor là một trong những công cụ quan trọng và phổ biến trong tối ưu hóa Nội dung của định lý này sẽ được trình bày chi tiết ngay sau đây.

(a) Nếu f ∈ C 1 trong miền chứa đoạn thẳng [x1, x2] thì tồn tại giá trị θ,0 ≤ θ ≤ 1 sao cho f(x 2 ) = f(x 1 ) +⟨∇f(θx 1 + (1−θ)x 2 ), x 2 −x 1 ⟩.

(b) Hơn nữa, nếu f ∈ C 2 thì tồn tại giá trị θ,0≤ θ ≤1 sao cho f(x2) =f(x1) +⟨∇f(x1), x2 −x1⟩

2(x 2 −x 1 ) T F(θx 1 + (1−θ)x 2 )(x 2 −x 1 ),trong đó F là ma trận Hessian của hàm f.

Hàm lồi

Trong phần này, chúng ta sẽ trình bày một số kết quả cơ bản và cần thiết về tập lồi và hàm lồi mà không đi vào chi tiết chứng minh Độc giả có thể tham khảo các chứng minh chi tiết trong tài liệu [16, 3].

1.6.1 Tập lồi Định nghĩa 1.34 Tập Ω ⊂ R n được gọi là tập lồi nếu:

Hình 1.2 minh họa trực quan cho một trường hợp tập lồi và tập không lồi.

Hình 1.2: Tập lồi (trái) và tập không lồi (phải).

Ví dụ 1.1 Cho β ∈ R và b ∈ R n , b ̸= O Khi đó, các tập sau là các tập lồi trong R n :

(b) Nửa không gian đóng {x ∈ R n |⟨x, b⟩ ≤ β} và {x ∈ R n |⟨x, b⟩ ≥ β}. (c) Nửa không gian mở {x ∈ R n |⟨x, b⟩ < β} và {x ∈ R n |⟨x, b⟩ > β}.

(d) Nếu C và D là các tập lồi thì các tập sau cũng là các tập lồi:

C + D = {x+y|x ∈ C, y ∈ D} và αC = {αx|x ∈ C}, với α ∈ R Giao của một họ tùy ý các tập lồi luôn tạo thành một tập lồi Định nghĩa 1.35 nêu rằng bao lồi của một tập Ω, ký hiệu là co(Ω), là giao của tất cả các tập lồi chứa Ω, trong khi bao lồi đóng của Ω được định nghĩa là bao đóng của co(Ω) Định nghĩa 1.36 chỉ ra rằng một tập Ω được gọi là nón nếu với mọi x ∈ Ω thì αx ∈ Ω cho mọi α > 0 Hơn nữa, nếu nón đó là một tập lồi thì nó được gọi là nón lồi.

1.6.2 Hàm lồi Định nghĩa 1.37 Hàm số f xác định trên tập lồi Ω được gọi là lồi nếu với mỗi x 1 , x 2 ∈ Ω và với mọi α, 0 ≤α ≤ 1, ta có: f(αx1 + (1−α)x2) ≤ αf(x1) + (1−α)f(x2).

Hàm số f được gọi là lồi chặt nếu với mọi α trong khoảng (0, 1) và hai giá trị khác nhau x1, x2, thỏa mãn điều kiện f(αx1 + (1−α)x2) < αf(x1) + (1−α)f(x2) Định nghĩa 1.38 chỉ ra rằng hàm g xác định trên tập lồi Ω là lõm nếu hàm f = −g là lồi, và hàm g được coi là lõm chặt nếu −g là lồi chặt Hình 1.3 minh họa sự khác biệt giữa đồ thị của hàm lồi và hàm không lồi.

Hình 1.3: Hàm lồi (Hình bên trái) và hàm lõm (Hình bên phải).

Tính chất 1.2 Nếu f 1 , f 2 là hàm lồi trên tập lồi Ω thì hàm f 1 +f 2 cũng là hàm lồi trên Ω.

Tính chất 1.3 Nếu f là hàm lồi trên tập lồi Ω thì αf cũng là hàm lồi trên Ω, với mọi α ≥ 0.

Tính chất 1.4 Nếu f là hàm lồi trên tập lồi Ω, thì tập

F c = {x ∈ Ω|f(x) ≤c} là tập lồi với mọi c. Định lí 1.10 Cho hàm số f ∈ C 1 Khi đó,

(1) f là hàm lồi trên tập lồi Ω khi và chỉ khi f(y) ≥f(x) +⟨∇f(x), y−x⟩,với mọi x, y ∈ Ω.

Hàm f được coi là hàm lồi chặt trên tập lồi Ω nếu và chỉ nếu f(y) > f(x) +⟨∇f(x), y−x⟩ cho mọi x, y ∈ Ω với x ̸= y Định lý sau đây cung cấp một tiêu chuẩn khác để kiểm tra tính lồi của hàm số f, dựa vào tính xác định dương hoặc nửa xác định dương của ma trận Hessian của nó Định lý 1.11 khẳng định rằng nếu f thuộc lớp C², thì các điều kiện trên sẽ được áp dụng.

(1) f là hàm lồi trên Ω khi và chỉ khi ma trận Hessian F(x) là ma trận nửa xác định dương với mọi x ∈ Ω.

(2) f là hàm lồi chặt trên Ω khi và chỉ khi ma trận Hessian F(x) là ma trận xác định dương với mọi x ∈ Ω.

Các định lý tách

Một tập V trong R n được gọi là đa tuyến tính nếu với mọi x1, x2 ∈ V, thì λx1 + (1−λ)x2 ∈ V với mọi λ ∈ R Ngoài ra, một siêu phẳng trong R n được định nghĩa là một đa tuyến tính có chiều (n − 1).

Tính chất 1.5 Cho a là một véctơ cột n-chiều khác véctơ O, và một số thực c Khi đó, tập hợp:

H = {x ∈ R n |a T x = c}, là một siêu phẳng trong R n

Tính chất 1.6 Cho H là một siêu phẳng trong R n Khi đó, tồn tại một véctơ n-chiều và một số thực c sao cho

Siêu phẳng được định nghĩa là tập hợp các nghiệm của một phương trình tuyến tính, dựa trên Tính chất 1.5 và Tính chất 1.6 Cụ thể, cho a là một véctơ khác véctơ O trong R n và c là một số thực, siêu phẳng H có dạng H = {x ∈ R n |a T x = c}.

(a) Nửa không gian dương đóng H + = {x ∈ R n |a T x ≥c}.

(b) Nửa không gian âm đóng H − = {x ∈ R n |a T x ≤ c}.

(c) Nửa không gian dương mở H o += {x ∈ R n |a T x > c}.

Nửa không gian âm mở H o −= {x ∈ R n |a T x < c} Định lý 1.12 khẳng định rằng, với C là một tập lồi không rỗng và y là một điểm nằm ngoài bao đóng của C, sẽ tồn tại một véctơ a sao cho a T y < inf x∈Ca T x.

Nếu chúng ta đặt β = inf x∈C a T x và H = x ∈ R n |a T x = β Khi đó, siêu phẳng H tách không gian R n thành hai nữa không gian, một nữa chứa

Định lý 1.13 khẳng định rằng, với tập lồi C khác rỗng và điểm biên y của C, tồn tại một siêu phẳng chứa y và C trong nửa không gian đóng của nó Siêu phẳng này được gọi là siêu phẳng tựa của C, và nó không chỉ chứa tập lồi C mà còn bao gồm tất cả các điểm biên của C.

Cực điểm

Định nghĩa 1.43 Một điểm x thuộc một tập lồi C khác rỗng được gọi là một cực điểm củaC nếu không tồn tại hai điểm phân biệt x 1 , x 2 nào thuộc

Bổ đề 1.1 khẳng định rằng nếu C là một tập lồi không rỗng, H là một siêu phẳng tựa của C và T là giao của H và C, thì mọi cực điểm của T cũng đồng thời là cực điểm của C Định lý 1.14 chỉ ra rằng một tập lồi đóng và bị chặn trong R^n sẽ bằng bao lồi đóng tất cả các cực điểm của tập lồi đó.

Câu 1.1 Tìm giá trị riêng và véctơ riêng của các ma trận sau: a) A "

Câu 1.2 Hãy cho biết ma trận sau xác định dương, nữa xác định đương, xác định âm hay nữa xác định âm: a) A "

Câu 1.3 Tính véctơ gradient của các hàm sau đây: a) z = x 3 + y 3 −3xy b) z = x 2 −y 2 x 2 +y 2 c) z = px 2 y−xy 2 d) z = ln x+px 2 +y 2 e) u xy + x y z f) u = ln (xy +z)

Câu 1.4 Tính véctơ gradient của các hàm hợp sau đây: a) Cho z = x 2 siny, x = u v , y = v√ u. b) Cho f(x, y) =arctg x y , x = usinv, y = ucosv. c) Cho z = yarctg x y , y = cos 2 x. d) Cho f(x, y) = ln sin √ x y , x = 3t 2 , y = √

Câu 1.5 Tính véctơ gradient của các hàm ẩn xác định bởi các phương trình sau đây: a) xe y +ye x −e xy = 0. b) x 3 + y 3 +z 3 −3xyz = 0.

Câu 1.6 Chứng minh rằng các tập trong Ví dụ 1.1 là các tập lồi.

Câu 1.7 Chứng minh rằng trong R tập [0,1] là tập lồi, nhưng tập

[0,1] ∪[2,3] không phải là tập lồi.

Câu 1.8 Tính ma trận Hesian và xác định tính lồi (lồi chặt), lõm (lõm chặt) của các hàm sau đây: a) z = 4(x−y)−x 2 −y 2 b) z = x 2 +xy +y 2 + x−y + 1 c) z = 2x 4 + y 4 −x 2 −2y 2 d) z = x 3 + 3xy 2 −15x+ 12y e) u = x 2 +y 2 +z 2 −xy −x−2z f) u = x 3 −y 2 +z 2 −8.

Câu 1.9 TrongR 2 tìm các cực điểm của tậpA = [0,1] 2 , B = [0,1]×[0,2] và C là các điểm trong tam giác có ba đỉnh là (0,0),(0,1) và (1,0).

Lí thuyết cơ bản về bài toán tối ưu

Phân loại bài toán tối ưu

Trong chương này, chúng ta sẽ khám phá các điều kiện cần và đủ cho nghiệm của bài toán tối ưu minx∈Ω f(x), trong đó f là hàm thực và Ω là tập điều kiện ràng buộc Nếu Ω = R n, bài toán được gọi là tối ưu tự do, ngược lại, nếu Ω là tập con thực sự của R n, bài toán trở thành tối ưu có điều kiện.

Ω = {x ∈ R n |f i (x) = 0, i = 1,2, , k}, thì bài toán đã cho được gọi là bài toán tối ưu có điều kiện cho bởi phương trình Nếu tập Ω xác định bởi

Ω ={x ∈ R n |f i (x) ≤ 0, i = 1,2, , k}, thì bài toán đã cho được gọi là bài toán tối ưu có điều kiện cho bởi bất phương trình.

Nếu tập Ω xác định bởi

Ω = x ∈ R n |f i (x) ≤ 0, i = 1,2, , k và g j (x) ≤ 0, i = k + 1,2, , l , thì bài toán đã cho được gọi là bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình.

Chú ý rằng, đối với bài toán tối ưu dạng maxx∈Ω f(x), (2.2) chúng ta có thể chuyển về bài toán (2.1) dựa trên tính chất sau maxx∈Ω f(x) =−min x∈Ω (−f(x)) (2.3)

Trong chương này, chúng ta sẽ tập trung vào nghiên cứu Bài toán tối ưu (2.1) Kết quả thu được từ Bài toán tối ưu (2.2) cũng mang tính chất tương tự và hoàn toàn nhất quán.

Điều kiện cần cho nghiệm của bài toán tối ưu

Khi giải quyết một bài toán tối ưu, câu hỏi đầu tiên cần đặt ra không phải là phương pháp giải, mà là thời điểm nào bài toán có nghiệm Định lý Weierstrass 1.7 cho biết rằng nếu hàm số f liên tục trên tập Ω và Ω là tập compact, thì sẽ tồn tại cực tiểu Đây là một kết quả quan trọng trong việc phát triển các phương pháp tối ưu hóa Tuy nhiên, trong quá trình nghiên cứu, chúng ta thường chú trọng hơn đến các tính chất của nghiệm và việc phát triển các phương pháp hiệu quả để tìm ra các nghiệm đó.

Trước khi nghiên cứu các điều kiện cho nghiệm của Bài toán (2.1), chúng ta cần hiểu hai khái niệm cơ bản: cực tiểu địa phương và cực tiểu toàn cục Một điểm x ∗ ∈ Ω được gọi là cực tiểu địa phương của hàm f trên Ω nếu tồn tại một số ε > 0 sao cho f(x) ≥ f(x ∗ ) với mọi x ∈ Ω nằm trong ε-lân cận của x ∗ Nếu f(x) > f(x ∗ ) với mọi x ∈ Ω, x ̸= x ∗ trong lân cận của x ∗, thì x ∗ được gọi là cực tiểu địa phương chặt của f trên Ω Tương tự, một điểm x ∗ ∈ Ω được xem là cực tiểu toàn cục của f trên Ω nếu f(x) ≥ f(x ∗ ) với mọi x ∈ Ω, và nếu f(x) > f(x ∗ ) với mọi x ∈ Ω, x ̸= x ∗, thì x ∗ là cực tiểu toàn cục chặt của f trên Ω.

Hình 2.1: x 1 là cực tiểu toàn cục chặt, x 2 là cực tiểu địa phương chặt, x 3 là cực tiểu địa phương.

Hình 2.1 minh họa các điểm cực tiểu địa phương và cực tiểu toàn cục của hàm số f(x) Trong ví dụ này, hàm số f(x) đạt cực tiểu toàn cục tại x1 và đạt cực tiểu địa phương tại các điểm x1, x2, x3 cùng với các điểm lân cận của x3.

Trong quá trình xây dựng giải thuật cho Bài toán (2.1), chúng ta tập trung vào cực tiểu toàn cục của hàm f trên Ω, nhưng thực tế thường chỉ đề cập đến cực tiểu địa phương Nghiệm toàn cục chỉ khả thi khi bài toán là cực tiểu lồi, với điều kiện cực tiểu địa phương phải là cực tiểu toàn cục Do đó, để giải Bài toán (2.1), chúng ta sẽ đơn giản hóa và chỉ xem xét điểm cực tiểu địa phương, vì nếu bài toán cực tiểu là lồi, nó sẽ dẫn đến điểm cực tiểu toàn cục.

2.2.1 Hướng chấp nhận được Để bắt đầu tìm điểm cực tiểu địa phương x ∗ , ý tưởng ban đầu là xét sự thay đổi của hàm số tại một điểm và theo một hướng xác định nào đó Dọc theo một hướng bất kỳ đã được xác định, hàm số theo biến x có thể được xem như hàm một biến với tham số được định nghĩa dọc theo sự thay đổi của hướng đó Chính vì thế, việc tính toán được thực hiện đối với hàm một biến Từ đó, người ta định nghĩa: Định nghĩa 2.3 Cho điểm x ∗ ∈ Ω, một véctơ d được gọi là một hướng chấp nhận được tạixnếu tồn tạiα > 0sao chox+αd ∈ Ω với mọiα ∈ [0;α].

Hình 2.2: d 1 là hướng chấp nhận được, d 2 không phải là hướng chấp nhận được.

Hình 2.2 minh họa hướng chấp nhận được d 1 và hướng không chấp nhận được d2 tại điểm x.

Với khái niệm đơn giản này, chúng ta có thể xây dựng các điều kiện cần về điểm cực tiểu địa phương của hàm số f.

2.2.2 Điều kiện cần bậc nhất Định lí 2.1 (Điều kiện cần bậc nhất) Cho Ω là một tập con của R n và f ∈ C 1 là một hàm xác định trên Ω Nếu x ∗ là điểm cực tiểu địa phương của hàm số f trên Ω thì với mọi hướng chấp nhận được d ∈ R n tại x ∗ , ta đều có ∇f(x ∗ ) T d ≥0.

Chứng minh Định lý này có thể được chứng minh bằng một trong hai cách sau đây.

Cách 1 cho thấy rằng với hướng d chấp nhận được tại x ∗, tồn tại một α > 0 sao cho x(α) = x ∗ + αd thuộc tập hợp Ω cho mọi α trong khoảng [0; α] Đối với mọi α trong khoảng này, hàm số g(α) được định nghĩa là f(x(α)) Vì x ∗ là cực tiểu địa phương của f, nên khi α = 0, g cũng đạt cực tiểu địa phương, như minh họa trong Hình 2.3.

Hình 2.3: Đồ thị hàm số g(α). khai triển Taylor của hàm số g ta được: g(α) =g(0) +αg ′ (0) +o(α), trong đó o(α) là vô cùng bé bậc cao hơn α Chuyển vế ta được g(α)−g(0) = αg ′ (0) +o(α).

Nếu g ′ (0) < 0 và α > 0 đủ bé, thì g(α) < g(0), điều này mâu thuẫn với giả thiết rằng α = 0 là điểm cực tiểu địa phương của hàm số f Do đó, ta kết luận rằng g ′ (0) = ∇f(x ∗ ) T d ≥ 0.

Cách 2 Theo Định lý 1.8 ta có:

Vì x ∗ là điểm cực tiểu địa phương của f nên f(x ∗ +αd)−f(x ∗ ) ≥ 0 Từ đó, ta suy ra ∇f(x ∗ ) T d ≥ 0.

Trong trường hợp đặc biệt khi x ∗ là một điểm trong Ω (ví dụ như Ω = R n), hướng chấp nhận được có thể được chọn một cách tùy ý Điều này dẫn đến việc ∇f(x ∗ ) T d ≥ 0 với mọi d ∈ R n, từ đó suy ra rằng ∇f(x ∗ ) = 0 Kết quả này mang lại hệ quả quan trọng trong phân tích toán học.

Hệ quả 2.1 đề cập đến điều kiện cần thiết cho bài toán tối ưu tự do Xét Ω là một tập con của R n và f ∈ C 1 là hàm số xác định trên Ω Nếu x ∗ là điểm cực tiểu địa phương của f trên Ω và x ∗ nằm trong Ω, thì điều này có ý nghĩa quan trọng trong việc xác định các điểm tối ưu.

Giả sử hàm f có điểm cực tiểu địa phương tại x∗ trong miền Ω, và x∗ cũng là điểm nội tại của Ω Do x∗ nằm trong Ω, tập hợp các hướng chấp nhận được tại x∗ sẽ bao gồm toàn bộ không gian Rn Vì vậy, với mọi vector d thuộc Rn, theo Định lý 2.1, ta có thể áp dụng các kết luận liên quan.

Từ hai bất đẳng thức trên đúng khi và chỉ khi ∇f(x ∗ ) T d = 0, ∀d∈ R n Vậy

Điều kiện tiên quyết cho bài toán tối ưu không ràng buộc là giải n phương trình (theo Hệ quả 2.1) Trong một số trường hợp, việc tìm nghiệm cho các phương trình này có thể thực hiện dễ dàng Tuy nhiên, nhiều trường hợp khác lại gặp khó khăn và phức tạp trong việc giải hệ phương trình Thực tế cho thấy, việc giải các bài toán tối ưu sẽ trở nên thuận lợi hơn khi áp dụng phương pháp lặp được giới thiệu trong chương sau.

Sau đây chúng ta sẽ xem một số ví dụ về việc áp dụng điều kiện cần bậc nhất để tìm cực tiểu cho một bài toán tối ưu.

Ví dụ 2.1 Tìm điểm cực tiểu của hàm số sau trên R 2 : f(x 1 , x 2 ) =x 2 1 −x 1 x 2 +x 2 2 −3x 2

Hình 2.4: Đồ thị hàm số f (x 1 , x 2 ).

Do đó, ta có hệ phương trình:

( x1 = 1 x 2 = 2Vậy x T = (1,2) là nghiệm cực tiểu toàn cục của f (vì f là hàm lồi) Hình2.4 minh họa đồ thị của hàm số f trong ví dụ này.

Việc áp dụng điều kiện cần để xác định cực tiểu địa phương có thể gặp nhiều khó khăn, và các phương pháp giải quyết cho bài toán này sẽ được thảo luận trong các chương tiếp theo Trong ví dụ này, chúng ta sẽ xem xét một lời giải sơ cấp cho bài toán.

Ví dụ 2.2 Xét hàm số f xác định bởi: f(x 1 , x 2 ) = x 2 1 −x 1 +x 2 + x 1 x 2 , với x 1 , x 2 ≥ 0.

Bằng việc thực hiện biến đổi sơ cấp đã học, ta có thể biến đổi hàm số f thành f(x 1 , x 2 ) x 1 − 1 2

4. Vậy cực tiểu toàn cục của f là x T = 1 2 ,0

Rõ ràng nghiệm này thỏa điều kiện cần của bài toàn tối ưu (Định lý 2.1) vì

Rõ ràng với mọi hướng chấp nhận được d = (d1, d2) T ∈ R 2 tại điểm 1 2 ,0 phải thỏa mãn d 2 ≥ 0 Do đó, ta có: ∇f(x) T d ≥ 0.

2.2.3 Điều kiện cần bậc hai

Để chứng minh Định lý 2.1, ta sử dụng xấp xỉ bậc nhất của hàm số f gần điểm cực tiểu địa phương Điều kiện cần bậc hai được xác định thông qua việc xem xét xấp xỉ bậc hai của hàm số f, áp dụng ma trận Hessian.

Định lý 2.2 (Điều kiện cần bậc hai) khẳng định rằng, nếu Ω là một tập con của R^n và hàm số f thuộc lớp C^2 xác định trên Ω, thì tại một điểm cực tiểu địa phương x∗ của f, mọi hướng chấp nhận được d ∈ R^n tại x∗ đều thỏa mãn điều kiện cần thiết.

Chứng minh Điều kiện (i) trong định lý chính là nội dung của Định lý 2.1.

Ta chỉ cần chứng minh điều kiện (ii) Vì d là một hướng chấp nhận được tại x ∗ nên tồn tại α > 0 sao cho x(α) =x+αd ∈ Ω với mọi α ∈ [0;α].

Xét hàm số g xác định bởi g(α) = f (x(α)) Vì ∇f(x ∗ ) T d = 0 nên g ′ (α) = 0 Khi đó, dùng khai triển Taylor của hàm số g tại 0, ta được: g(α)−g(0) = 1

2g ′′ (0)α 2 + o(α 2 ), trong đó o(α 2 ) là vô cùng bé bậc cao hơn α 2

Điều kiện đủ cho nghiệm của bài toán tối ưu

Định lý 2.3 đưa ra điều kiện đủ bậc hai cho bài toán tối ưu tự do Giả sử hàm f thuộc lớp C² và được xác định trên miền mà điểm x* là điểm trong.

Khi đó, x ∗ là điểm cực tiểu chặt của f.

Chứng minh F(x ∗ ) xác định dương nên tồn tại α > 0 sao cho: d T F(x ∗ )d ≥α ∥ d ∥ 2 Khi đó, dùng khai triển Taylor hàm số f(x ∗ + d) tại điểm x ∗ , ta có: f(x ∗ +d)−f(x ∗ ) = 1

Do đó, f(x ∗ + d) > f(x ∗ ) với mọi d ∈ R n đủ nhỏ, cho thấy x ∗ là cực tiểu địa phương chặt của hàm f Định lý 2.4 chỉ ra điều kiện đủ bậc hai cho bài toán tối ưu có điều kiện, trong đó Ω là một tập con của R n và hàm f thuộc lớp C 2 xác định trên Ω Nếu x ∗ thuộc Ω và thỏa mãn các điều kiện với mọi hướng chấp nhận được d ∈ R n tại x ∗, điều này khẳng định tính chất tối ưu của x ∗.

(ii) Nếu ∇f(x ∗ ) T d = 0 thì d T ∇ 2 f(x ∗ )d > 0, thì x ∗ là một điểm cực tiểu địa phương của f.

Chứng minh Với mỗi một hướng chấp nhận được d tại x ∗ , tồn tại α > 0sao cho x(α) = x+αd ∈ Ω với mọi α ∈ [0;α].

Xét hàm số g xác định bởi g(α) = f (x(α)) Vì ∇f(x ∗ ) T d = 0 nên g ′ (α) = 0 Khi đó, dùng khai triển Taylor của hàm số g tại 0, ta được: g(α)−g(0) = g ′ (0)α+ 1

2g ′′ (0)α 2 + o(α 2 ), trong đó o(α 2 ) là vô cùng bé bậc cao hơn α 2

Nếu g′(0) > 0 và α > 0 đủ nhỏ, thì g(α) > g(0), cho thấy 0 là cực tiểu địa phương của hàm g Điều này cũng áp dụng cho mọi hướng d chấp nhận được, do đó x∗ là cực tiểu địa phương của f Trong trường hợp g′(0) = 0, khai triển Taylor của g sẽ cho kết quả: g(α) − g(0) = 1.

Khi g′′(0) = dT∇²f(x∗)d > 0, ta có g(α) > g(0) với α > 0 đủ bé, cho thấy rằng 0 là điểm cực tiểu địa phương của g Điều này dẫn đến kết luận rằng x∗ cũng là cực tiểu địa phương của hàm f.

Cực tiểu và cực đại của hàm lồi

Trong bài viết này, chúng ta sẽ khám phá ba định lý cơ bản liên quan đến cực tiểu và cực đại của hàm lồi Cụ thể, Định lý 2.5 cho biết rằng nếu f là một hàm lồi xác định trên tập lồi Ω, thì tập hợp Γ chứa tất cả các điểm cực tiểu của hàm f sẽ là tập lồi, và mọi điểm cực tiểu địa phương của f đều là điểm cực tiểu toàn cục.

Nếu hàm f không có cực tiểu địa phương, thì tập Γ sẽ là tập lồi Giả sử c₀ là giá trị cực tiểu của hàm f, khi đó tập Γ được định nghĩa là {x ∈ Ω | f(x) ≤ c₀}, và theo Tính chất 1.4, tập này cũng là tập lồi.

Chúng ta sẽ chứng minh phần còn lại của Định lý bằng cách giả sử rằng x ∗ ∈ Ω là điểm cực tiểu địa phương của hàm f, nhưng tồn tại một điểm y ∈ Ω khác với x ∗ sao cho f(y) < f(x ∗ ) Do f là hàm lồi, với mọi α ∈ (0; 1), ta có f(αy + (1−α)x ∗ ) ≤ αf(y) + (1−α)f(x ∗ ) < f(x ∗ ) Điều này mâu thuẫn với giả thiết rằng x ∗ là điểm cực tiểu địa phương của f.

Theo định lý đã nêu, tập hợp các điểm cực tiểu địa phương của một hàm lồi là một tập lồi, và mọi điểm cực tiểu địa phương đều là điểm cực tiểu toàn cục Định lý tiếp theo khẳng định rằng nếu f là một hàm lồi, khả vi và liên tục, thì các điểm thỏa mãn điều kiện cần bậc nhất cũng là điểm cực tiểu toàn cục Cụ thể, định lý 2.6 chỉ ra rằng, với f ∈ C1 là một hàm lồi trên tập lồi Ω, nếu tồn tại điểm x* ∈ Ω sao cho ∇f(x*)^T (y−x*) ≥ 0 với mọi y ∈ Ω, thì x* là điểm cực tiểu toàn cục của f trên Ω.

Chứng minh rằng y − x ∗ là một hướng chấp nhận được tại điểm x ∗ Theo Định lý 2.1 và Định lý 1.10 (i), ta có f(y) ≥ f(x ∗ ) +∇f(x ∗ ) T (y − x ∗ ) ≥ f(x ∗ ) với mọi y ∈ Ω Do đó, x ∗ là điểm cực tiểu toàn cục của hàm f.

Để xác định cực đại của hàm lồi f trên một tập lồi, chúng ta gặp khó khăn do không có định lý tương tự như Định lý 2.5 Thông thường, việc xác định điểm cực đại địa phương và cực đại toàn cục là không khả thi Tuy nhiên, có một kết quả quan trọng liên quan đến cực đại của hàm lồi f, được nêu trong Định lý 2.7, trong đó f được xác định trên tập lồi đóng và bị chặn.

Ω Nếu f đạt cực đại trên Ω thì điểm đó là cực điểm của Ω.

Giả sử hàm f đạt cực đại toàn cục tại điểm x ∗ ∈ Ω, chúng ta cần chứng minh rằng giá trị cực đại này đạt được trên biên của Ω Nếu x ∗ là điểm biên, điều này đã được chứng minh Nếu không, hãy xét một đường thẳng L đi qua x ∗ và các giao điểm y1, y2 của đường thẳng này với Ω Từ đó, x ∗ có thể được biểu diễn dưới dạng x ∗ = αy1 + (1−α)y2 với α ∈ (0,1) Do f là hàm lồi, ta có f(x ∗ ) ≤ αf(y1) + (1−α)f(y2) ≤ max{f(y1), f(y2)}.

Vì x∗ là cực đại của hàm f, nên theo bất đẳng thức, ít nhất một trong hai giá trị y1 hoặc y2 cũng là cực đại của f Điều này chứng tỏ rằng giá trị cực đại của hàm f được đạt tại biên của miền Ω.

Tiếp theo, chúng ta sẽ chứng minh rằng x ∗ là cực điểm của Ω Nếu điểm biên x ∗ là cực điểm, thì định lý đã được chứng minh Ngược lại, nếu x ∗ không phải là cực điểm, ta xét giao điểm T1 của Ω và siêu phẳng tựa H tại x ∗ Khi đó, T1 có số chiều bằng n−1 hoặc nhỏ hơn, và giá trị cực đại toàn cục của f trên T1 bằng f(x ∗) và đạt được tại điểm biên x1 của T1 Nếu x1 là cực điểm của T1, theo Bổ đề 1.1, x1 cũng là cực điểm của Ω, từ đó định lý được chứng minh Nếu x1 không phải là cực điểm của T1, ta tiếp tục xem xét.

Tập T2 được hình thành từ giao của T1 và siêu phẳng tựa của T1 trong Rn−1 tại x1 Quá trình này được lặp lại n lần, dẫn đến việc tạo ra tập Tn có số chiều bằng 0, chỉ chứa một điểm duy nhất Điểm này chính là cực điểm của Tn.

Bổ đề 1.1 đó cũng là cực điểm của Ω □

Giải thuật cho bài toán tối ưu tự do

Trong phần này, chúng ta sẽ phân tích Bài toán (2.1) với miền Ω = R n, tức là nghiên cứu bài toán tối ưu không điều kiện ràng buộc x∈minR n f(x), với f : R n → R là hàm liên tục và khả vi Theo Hệ quả 2.1, nếu x là điểm cực tiểu địa phương của Bài toán (2.4), thì điều này cho thấy x có vai trò quan trọng trong việc xác định các giá trị tối ưu của hàm số.

Đối với hàm đơn giản f, chúng ta có thể xác định tất cả các điểm dừng và điểm cực tiểu địa phương bằng cách giải trực tiếp hệ phương trình hoặc áp dụng các điều kiện cần và đủ Tuy nhiên, với những hàm phức tạp hơn, việc tính toán trở nên khó khăn và không thể áp dụng trực tiếp Hệ quả 2.1 Do đó, cần sử dụng các thuật toán để tìm nghiệm xấp xỉ cho bài toán Phương pháp lặp là một trong những phương pháp số quan trọng trong trường hợp này, với ý tưởng xây dựng một dãy điểm xk ∈ R n hội tụ đến nghiệm của bài toán Thực tế, phương pháp lặp được thực hiện k lần cho đến khi đạt được giá trị x*k xấp xỉ nghiệm của bài toán.

Trong phương pháp lặp, để tìm điểm x k+1 ∈ R n sao cho f(x k+1 ) < f(x k ), ta cần một điểm x k ∈ R n Mặc dù điều kiện này không đảm bảo hội tụ đến nghiệm của bài toán, nhưng nó là cơ sở cho việc giải quyết vấn đề Một cách để xây dựng dãy {x k } thỏa mãn điều kiện này là chọn hướng d k ∈ R n và xác định dãy điểm x k+1 = x k + α k d k, trong đó α k là một số dương, được gọi là kích thước bước.

Xét dãy truy hồi theo Công thức (2.6) với hướng chấp nhận dk cố định, ta thực hiện khai triển Taylor cho f(xk+1) = f(xk + αkdk) tại điểm xk, cho kết quả là f(xk + αkdk) = f(xk) + αk∇f(xk)Tdk + o(αk), trong đó o(αk) là thành phần vô cùng bé bậc cao hơn αk Giả sử ∇f(xk) khác không, để đảm bảo Điều kiện (2.5) xảy ra với kích thước bước αk > 0 đủ bé, chúng ta cần chú ý đến các yếu tố liên quan.

Hướng dk thỏa mãn bất đẳng thức trên được gọi là hướng giảm.

Để xây dựng một giải thuật lặp, tại bước lặp thứ k, cần xác định hướng giảmd d_k và tính toán kích thước bước α_k sao cho thỏa mãn tính chất (2.5) Trong phần còn lại của chương này, chúng ta sẽ tập trung vào các phương pháp lựa chọn hướng d_k và các phương pháp tính toán kích thước bước α_k.

2.5.1 Tính toán kích thước bước không chính xác

Giải thuật tính toán kích thước bước đóng vai trò quan trọng trong phương pháp lặp cho bài toán tối ưu không điều kiện ràng buộc Cụ thể, với mỗi điểm x ∈ R n và hướng giảm d ∈ R n, các phương pháp này tìm kiếm giá trị nhỏ nhất của hàm số φ(α) = f(x+αd) với α ≥ 0.

Bài toán tìm cực tiểu của hàm một biến, hay còn gọi là bài toán tính toán kích thước bước, thường gặp khó khăn trong việc xác định chính xác giá trị cực tiểu α Do đó, chúng ta sẽ áp dụng các phương pháp để tìm giá trị gần đúng, được gọi là tính toán kích thước bước không chính xác Trong bài viết này, chúng ta sẽ xem xét hai trường hợp của phương pháp tính toán kích thước bước không chính xác.

Một trong những phương pháp phổ biến để xác định kích thước bước xấp xỉ là quy tắc Armijo, nhằm đảm bảo chọn α không quá lớn và cũng không quá nhỏ Quy tắc này được thực hiện bằng cách xét hàm số φ(0) + εφ ′ (0)α với ε cố định, trong đó 0 < ε < 1 Giá trị α được xem là không quá lớn khi hàm số nằm phía dưới đường nét đứt, tức là nếu φ(α) ≤ φ(0) + εφ ′ (0)α.

Để đảm bảo rằng giá trị α không quá nhỏ trong quy tắc Armijo, cần chọn một giá trị η lớn hơn 1 Cụ thể, α được coi là không quá nhỏ nếu điều kiện φ(ηα) > φ(0) + εφ ′ (0)ηα được thỏa mãn.

Quy tắc Armijo là một phương pháp đơn giản, thường được áp dụng trong việc tìm kiếm giải pháp không chính xác cho bài toán (2.4) Quy trình bắt đầu với giá trị α 0; nếu giá trị này thỏa mãn điều kiện (2.7), ta sẽ tăng η (thường chọn η = 2, η = 10 và ε = 0,2) cho đến khi không còn thỏa mãn (2.7) Khi đó, giá trị α được xác định là ηα 0 Ngược lại, nếu α 0 không thỏa mãn (2.7), ta sẽ chia α 0 cho η cho đến khi tìm được α thỏa mãn điều kiện (2.7).

Quy tắc Goldstein là một phương pháp tính toán kích thước bước phổ biến, trong đó giá trị α không được chọn quá lớn nếu nó thỏa mãn điều kiện (2.7) với một số ε, trong khoảng 1/2 < ε < 1 Giá trị α được coi là không quá nhỏ nếu φ(α) > φ(0) + (1−ε)φ ′ (0)α, tương ứng với việc φ(α) nằm trên đường nét đứt thứ hai trong Hình 2.6 Do đó, giá trị α cho x k+1 = x k + αd k sẽ thỏa mãn tiêu chuẩn Goldstein.

Trong bài viết này, chúng ta xem xét điều kiện cho hàm f(x) trong thuật toán tối ưu hóa, cụ thể là 1−ε ≤ f(xk+1)−f(xk) α∇f(x k ) T d k ≤ε, với ε ∈ (1/2; 1) Điều này có thể được diễn đạt lại dưới dạng f(xk) +εα∇f(xk)dk ≤f(xk+1) ≤f(xk) + (1−ε)α∇f(xk)dk Tương tự như Quy tắc Armijo, để tìm giá trị α, chúng ta có thể áp dụng một thuật toán đơn giản: bắt đầu với một giá trị α0 và tăng η cho đến khi không còn thỏa mãn điều kiện (2.7) Khi đó, giá trị α được chọn là ηα0 Nếu α0 ban đầu không thỏa mãn, chúng ta sẽ điều chỉnh lại giá trị này.

Hình 2.6: Khoảng chọn phù hợp cho kích thước bước trong quy tắc Goldstein thỏa (2.7) thì ta chia α 0 cho η cho đến khi α = α 0 /η thỏa (2.9).

2.5.2 Giải thuật giảm nhanh nhất

Trong phần trước, chúng ta thấy rằng d k là một hướng giảm nếu

Từ Định lý 1.8, điều này tương đương với đạo hàm theo hướng f ′ (x k , d k ) < 0.

Để hàm f giảm nhanh sau mỗi bước lặp, cần chọn hướng d_k sao cho đạo hàm theo hướng này tại điểm x_k là nhỏ nhất Với mỗi hướng d_k không đổi, ta có thể đặt độ dài ∥ d_k ∥ = 1 Theo bất đẳng thức Cauchy-Schwarz, điều này cho phép chúng ta phân tích sâu hơn về mối quan hệ giữa các biến.

Hướng giảm nhanh nhất trong tối ưu hóa được xác định bởi công thức d k = −∇f(x k )/ ∥ ∇f(x k ) ∥, giúp giảm giá trị hàm f(x k +αd k ) một cách hiệu quả Khi áp dụng, công thức xk+1 = xk −αk∇f(xk) trở thành một giải thuật quan trọng trong các phương pháp tối ưu, tạo nền tảng cho những phương pháp tiên tiến hơn.

Ví dụ 2.5 Dùng phương pháp giảm nhanh nhất vớix 0 = (1,2) T để tìm cực tiểu của hàm số f : R 2 →R xác định bởi: f(x1, x2) = x 3 1 +x 2 2 −3x1 −2x2 + 12,với x 1 , x 2 ∈ R.

Với điều xuất phát x 0 = (1,2) T , ta có:

! α 0 được chọn sao cho φ(α 0 ) = f(x 1 ) = 4α 2 0 −4α 0 + 10 đạt giá trị nhỏ nhất.

Dễ dàng tìm được α 0 = 1/2 Khi đó, x 1 = (1,1) T và ∇f(x 1 ) = 0 Vậy, x = (1,1) T là cực tiểu địa phương chặt của f (vì f là hàm lồi chặt).

2.5.2.1 Giải thuật giảm nhanh nhất với kích thước bước hằng

Giải thuật giảm nhanh nhất đơn giản nhất được xây dựng bằng cách giữ cố định kích thước bước α k tại mỗi bước, với α > 0 Công thức của giải thuật này là xk+1 = xk−α∇f(xk) Định lý 2.8 chứng minh sự hội tụ của giải thuật trong trường hợp này, áp dụng cho hàm số f ∈ C 1 có gradient liên tục Lipschitz với hằng số M, tức là f thỏa mãn điều kiện nhất định.

∥ ∇f(x)− ∇f(y) ∥≤ M ∥ x−y ∥,∀x, y ∈ R n Hơn nữa, giả sử thêm rằng f bị chặn dưới Khi đó, nếu kích thước bước α thỏa mãn bất đẳng thức

M, thì với mọi x 0 , dãy {x k } sinh ra bởi Giải thuật (2.12) đều mãn điều kiện k→∞lim ∇f(xk) = 0.

Chứng minh Áp dụng Định lý về giá trị trung gian (Định lý 1.9) ta có: f(x k+1 ) = f(x k +αd k ) =f(x k ) +α∇f(x) T d k , với x = θx k + (1−θ)x k+1 , θ ∈ [0; 1] Do đó, f(x k+1 ) =f(x k ) +α∇f(x k ) T d k +α(∇f(x)− ∇f(x k )) T d k

≤f(x k ) +α∇f(x k ) T d k +α ∥ ∇f(x)− ∇f(x k ) ∥ ∥d k ∥ với d k = −∇f(x k ) và sử dụng tính liên tục Lipschitz của gradient, ta được f(x k+1 ) ≤ f(x k )−α ∥ ∇f(x k ) ∥ 2 +αM ∥x k −x ∥ ∥ ∇f(x k ) ∥ Mặt khác ∥ x k − x ∥= (1 −θ) ∥ x k −x k+1 ∥≤ α ∥ ∇f(x k ) ∥ Do đó, bất đẳng thức trên tương đương với: f(x k+1 ) ≤ f(x k )−α ∥ f(x k ) ∥ 2 +α 2 M ∥ ∇f(x k ) ∥ 2

⇒f(xk)−f(xk+1) ≥ α(1−αM) ∥ ∇f(xk) ∥ 2 (2.13) Theo giả thiết ta có

Vậy f(x k+1 ) ≤ f(x k ) với mọi k Dãy {f(x k )} đơn điệu giảm và bị chặn dưới nên tồn tại giới hạn hữu hạn Do đó k→∞lim[f(x k )−f(x k+1 )] = 0.

Kết hợp với (2.13), ta được

Hệ quả 2.3 Trong Định lý 2.8, giả sử thêm rằng tập hợp

X0 = {x ∈ R n |f(x) ≤ f(x0)}, bị chặn Khi đó, dãy {x k } bị chặn và mọi điểm tụ x ∗ của dãy đều thỏa mãn điều kiện ∇f(x ∗ ) = 0.

Bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình

Các khái niệm cơ bản

Bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình là bài toán có dạng: x∈minR n f(x) (3.1) với điều kiện c i (x) = 0, ;i = 1, , m e , (3.2) c i (x) ≥ 0, i = m e + 1, , m (3.3)

Trong bài viết này, f(x) được xác định là hàm mục tiêu, trong khi các hàm ci(x) (với i = 1, , m) được gọi là các hàm điều kiện Chúng ta giả định rằng cả hàm mục tiêu f(x) và các hàm điều kiện ci(x) đều là các hàm trơn, có giá trị thực trên Rn, với ít nhất một hàm là phi tuyến Các ký hiệu m e và m đại diện cho các số nguyên không âm, thỏa mãn điều kiện 0 ≤ m e ≤ m.

E = {1, , m e} và I = {m e + 1, , m} là tập chỉ số của các ràng buộc đẳng thức và bất đẳng thức Nếu m = 0, bài toán (3.1)-(3.3) là bài toán tối ưu không điều kiện; nếu m e = m ≠ 0, bài toán này được gọi là tối ưu với ràng buộc đẳng thức; và nếu tất cả các hàm ci(x) (i = 1, , m) đều tuyến tính, thì đây là bài toán tối ưu với ràng buộc tuyến tính Điểm x ∈ R n được coi là điểm chấp nhận được nếu nó thuộc tập xác định của hàm f và thỏa mãn các điều kiện (3.2)-(3.3) Tập hợp tất cả các điểm chấp nhận được được gọi là tập hợp chấp nhận được.

Trong Bài toán (3.1)-(3.3), (3.2)-(3.3) là những điều kiện ràng buộc Khi đó, tập chấp nhận được X được xác định như sau:

X = {x|c i (x) = 0, i ∈ E; c i (x) ≥0, i ∈ I} (3.5) Khi đó, ta có thể viết Bài toán (3.1)-(3.3) như sau: minx∈X f(x) (3.6)

Một nghiệm của bài toán tối ưu có điều kiện là điểm x thuộc tập chấp nhận được X, tại đó hàm mục tiêu f(x) đạt giá trị nhỏ nhất Nếu x ∗ ∈ X thỏa mãn f(x) ≥ f(x ∗) với mọi x ∈ X, thì x ∗ được gọi là cực tiểu toàn cục Ngược lại, nếu x ∗ ∈ X thỏa mãn f(x) > f(x ∗) với mọi x ∈ X và x ≠ x ∗, thì x ∗ được gọi là cực tiểu toàn cục chặt Thêm vào đó, nếu x ∗ ∈ X tồn tại một lân cận B(x ∗, δ) sao cho f(x) ≥ f(x ∗) với mọi x ∈ X ∩ B(x ∗, δ), thì x ∗ được gọi là cực tiểu địa phương, với δ > 0.

B(x ∗ , δ) = {x |||x−x ∗ || 2 ≤ δ} Nếu x ∗ thuộc X và tồn tại một lân cận B(x ∗ , δ) xung quanh x ∗ sao cho f(x) > f(x ∗) với mọi x thuộc X ∩ B(x ∗ , δ) và x khác x ∗, thì x ∗ được gọi là cực tiểu địa phương chặt Nếu x ∗ thuộc X và có một lân cận B(x ∗ , δ) sao cho x ∗ là cực tiểu địa phương duy nhất trong X ∩ B(x ∗ , δ), thì x ∗ được gọi là cực tiểu địa phương cô lập.

Chú ý 3.1 Một cực tiểu toàn cục là một cực tiểu địa phương.

Giả sử x ∗ là một cực tiểu địa phương của bài toán (3.1)-(3.3) Nếu tồn tại chỉ số i 0 ∈ I = [m e + 1, m] với điều kiện ci 0 (x ∗ ) > 0, thì x ∗ vẫn giữ vai trò là cực tiểu địa phương của bài toán sau khi loại bỏ điều kiện thứ i0 Do đó, điều kiện thứ i0 được xem là không hoạt động tại x ∗ Từ đó, chúng ta định nghĩa tập hợp các chỉ số hoạt động và không hoạt động.

I(x) ={i|c i (x) = 0, i ∈ I} (3.13) Định nghĩa 3.5 Với mọi x ∈ R n , tập hợp

A(x) =E ∪ I(x) (3.14) được gọi là tập hợp các chỉ số hoạt động tại x, c i (x) (i ∈ A(x)) là một điều kiện hoạt động tại x, c i (x) (i /∈ A(x)) là một điều kiện không hoạt động tại x.

Giả sử A(x ∗ ) là tập hợp các chỉ số hoạt động tại x ∗ của Bài toán (3.1)-(3.3) Dựa trên những điều kiện không hoạt động, ta có thể giải bài toán tối ưu có điều kiện: minf(x) (3.15) với điều kiện c i (x) = 0, i ∈ A(x ∗ ) Thực tế, việc giải Bài toán với điều kiện theo đẳng thức (3.15) thường dễ dàng hơn so với việc giải bài toán ban đầu (3.1)-(3.3).

Điều kiện tối ưu bậc nhất

Trong phần này chúng ta sẽ nghiên cứu các điều kiện tối ưu bậc nhất.

Hướng chấp nhận được đóng vai trò quan trọng trong việc thiết lập các điều kiện tối ưu Định nghĩa 3.6 nêu rõ rằng, cho x ∗ ∈ X và d ∈ R n với d khác không, nếu tồn tại δ > 0 sao cho x ∗ + td ∈ X cho mọi t trong khoảng [0, δ], thì d được xem là một hướng chấp nhận được của X tại x ∗ Tập hợp tất cả các hướng chấp nhận được của X tại x ∗ được ký hiệu bằng một ký hiệu đặc biệt.

F D(x ∗ , X) = {d|x ∗ +td ∈ X, ∀t∈ [0, δ]} (3.16) Định nghĩa 3.7 Cho x ∗ ∈ X và d ∈ R n Nếu

(d T ∇c i (x ∗ ) = 0, i ∈ E, d T ∇c i (x ∗ ) ≥ 0, i ∈ I(x ∗ ), thì d được gọi là hướng tuyến tính chấp nhận được của X tại x ∗ Tập hợp tất cả các hướng tuyến tính chấp nhận được của X tại x ∗ được kí hiệu bởi

Hướng dãy chấp nhận được của một tập hợp X tại điểm x ∗ được định nghĩa là một hướng d được xác định bởi sự tồn tại của các dãy d k và δ k, trong đó x ∗ + δ k d k thuộc X cho mọi k, và d k tiến tới d, δ k tiến tới 0 Tập hợp tất cả các hướng dãy chấp nhận được này được ký hiệu để dễ dàng tham khảo trong các nghiên cứu và ứng dụng liên quan.

Trong định nghĩa ở trên, nếu ta đặt x k = x ∗ +δ k d k , thì {x k } là một dãy điểm chấp nhận được thỏa mãn:

Nếu đặt δ k = ||x k −x ∗ | |, thì ta có d k = x k −x ∗

Trong bài viết này, chúng ta xem xét dãy điểm chấp nhận được x k = x ∗ + δ k d k, với điều kiện ||x k − x ∗ | | → d Điều này có nghĩa là hướng của dãy chấp nhận được là d Đặc biệt, nếu SF D(x ∗ , X) chứa vector không, thì nó trở thành nón tiếp tuyến của X tại x ∗.

Từ những định nghĩa trên ta có bổ đề sau nói về mối quan hệ giữa các tập hợp F D(x ∗ , X), LF D(x ∗ , X) và SF D(x ∗ , X).

Bổ đề 3.1 Cho x ∗ ∈ X Nếu tất cả các hàm điều kiện đều khả vi tại x ∗ thì

Chứng minh Với mọi d ∈ F D(x ∗ , X), theo Định nghĩa 3.6 tồn tại δ > 0 để (3.16) đúng Đặt d k = d và δ k = δ/2 k thì (3.18) đúng và rõ ràng d k → d, δk → 0 Vậy d ∈ SF D(x ∗ , X) Vì d là tùy ý nên

Tiếp theo, với mọi d ∈ SF D(x ∗ , X), nếu d = 0 thì d ∈ LF D(x ∗ , X). Giả sử rằng d ̸= 0 Từ Định nghĩa 3.8 tồn tại hai dãy dk (k = 1,2, ) và δ k > 0 (k = 1,2, ) để (3.18) đúng, và d k → d ̸= 0, δ k → 0 Từ (3.18) ta thấy x ∗ +δ k d k ∈ X, nghĩa là:

Chia hai vế của hai (bất) đẳng thức trên choδk > 0 và cho k → ∞, ta nhận được (3.17) Vậy ta có

Từ (3.20) và (3.23) ta có (3.19) □ Để mô tả một cách rõ ràng những điều kiện cần cho cực tiểu địa phương, chúng ta giới thiệu tập hợp:

Tập hợp các hướng giảm tại x' được mô tả qua định lý 3.1 về điều kiện tối ưu hình học Theo định lý này, nếu x* ∈ X là cực tiểu địa phương của bài toán (3.1)-(3.3) và hàm f(x) cùng các ràng buộc c_i(x) (i = 1, , m) khả vi tại x*, thì điều kiện dT∇f(x*) ≥ 0 phải được thỏa mãn cho mọi hướng d thuộc tập hợp SF D(x*, X).

Chứng minh Với mọid ∈ SF D(x ∗ , X),tồn tại hai dãy d k (k = 1,2, )và δk > 0 (k = 1,2, )đểx ∗ +δkdk ∈ X vớidk → d, δk → 0.Vìx ∗ +δkdk → x ∗ và x ∗ là cực tiểu địa phương nên với k đủ lớn, ta có: f (x ∗ ) ≤f (x ∗ +δ k d k ) (3.27)

Vì d là tùy ý, ta nhận được (3.25) Hơn nữa, ta có

□ Nếu ta sử dụng thuật ngữ của nón tiếp tuyến để phát biểu (3.25), ta có d T ∇f (x ∗ ) ≥0, ∀d ∈ T X (x ∗ ), nghĩa là

−∇ f (x ∗ ) ∈ N X (x ∗ ), (3.31) với N X (x ∗ ) là nón pháp tuyến của X tại x ∗

Bổ đề 3.2 (Bổ đề Farkas) Tập hợp

(3.32) là rỗng nếu và chỉ nếu tồn tại các số thực λ i , i ∈ E và các số thực không âm λ i ≥ 0, i ∈ I sao cho

∇f (x ∗ ) =X i∈E λ i ∇c i (x ∗ ) + X i∈I λ i ∇c i (x ∗ ) (3.33) Để đưa ra các điều kiện tối ưu một cách dễ dàng, ta giới thiệu hàm Lagrange:

X i=1 λici(x), (3.34) với λ = (λ 1 , , λ m ) T ∈ R m là một vector nhân tử Lagrange.

Điều kiện tối ưu cấp 1 cho điểm cực tiểu địa phương được phát biểu thông qua Bổ đề Farkas và Định lý 3.1 Theo Định lý 3.2 (Karush – Kuhn – Tucker), nếu x∗ là cực tiểu địa phương của Bài toán (3.1)-(3.3), thì cần thỏa mãn các điều kiện hạn chế nhất định.

SF D(x ∗ , X) = LF D(x ∗ , X) (3.35) đúng, thì tồn tại các nhân tử Lagrange λ ∗ i để những điều kiện sau thỏa mãn tại (x ∗ , λ ∗ ) :

Chứng minh Vì x ∗ là cực tiểu địa phương nên x ∗ là điểm chấp nhận được.

Theo Định lý 3.1, nếu d ∈ SF D(x ∗ , X) và x ∗ là cực tiểu địa phương, thì điều kiện d T ∇f (x ∗ ) ≥ 0 được thỏa mãn Do đó, hệ phương trình sau: d T ∇c i (x ∗ ) = 0 (i ∈ E) và d T ∇c i (x ∗ ) ≥ 0 (i ∈ I(x ∗ )) cùng với d T ∇f (x ∗ ) < 0 không có nghiệm Vì vậy, trong mọi trường hợp, hệ phương trình (3.41)-(3.43) là vô nghiệm.

Nếu d /∈ SF D(x ∗ , X) thì theo điều kiện hạn chế (3.35) ta có d /∈

LF D(x ∗ , X) (nên hệ gồm d T ∇c i (x ∗ ) = 0, i ∈ E và d T ∇c i (x ∗ ) ≥ 0, i ∈

Theo Bổ đề Farkas, ta có

∇f (x ∗ ) = X i∈E λ ∗ i ∇c i (x ∗ ) + X i∈I(x ∗ ) λ ∗ i ∇c i (x ∗ ), (3.44) với λ ∗ i ∈ R (i ∈ E) và λ ∗ i ≥ 0 (i ∈ I (x ∗ )) Đặt λ ∗ i = 0(i ∈ I\I(x ∗ )), ta có

X i=1 λ ∗ i ∇c i (x ∗ ), tức là (3.36), và ta có λ ∗ i ≥ 0, ∀i ∈ I.

Cuối cùng, cần lưu ý rằng khi \( i \in I(x^*) \), thì \( c_i(x^*) = 0 \) và \( \lambda^*_i \geq 0 \) Do đó, \( \lambda^*_i c_i(x^*) = 0 \) Ngược lại, khi \( i \in I \setminus I(x^*) \), có \( c_i(x^*) > 0 \) nhưng \( \lambda^*_i = 0 \), dẫn đến \( \lambda^*_i c_i(x^*) = 0 \) Từ đó, ta có \( \lambda^*_i c_i(x^*) = 0 \) cho mọi \( i \in I \) Điều kiện (3.36)-(3.40) được gọi là điều kiện Karush – Kuhn – Tucker, viết tắt là điều kiện KKT, trong đó (3.36) được xem là điều kiện điểm dừng.

Điều kiện (3.45) thể hiện rằng tổng các nhân tử Lagrange nhân với gradient của hàm mục tiêu tại điểm tối ưu x* bằng 0 Các điều kiện (3.37) và (3.38) được xem là điều kiện chấp nhận, trong khi điều kiện (3.39) đảm bảo rằng các nhân tử không âm Cuối cùng, điều kiện bổ sung (3.40) chỉ ra rằng các nhân tử Lagrange λ* i và giá trị hàm mục tiêu ci(x*) không thể cùng khác không, nghĩa là các nhân tử Lagrange tương ứng với những ràng buộc không hoạt động đều bằng không.

Điều kiện bù được coi là chặt chẽ khi chỉ có một trong hai số λ ∗ i hoặc c i (x ∗ ) bằng không với mỗi i ∈ I, dẫn đến λ ∗ i > 0 cho mọi i ∈ I∩A(x ∗ ) Điều kiện bất đẳng thức được gọi là hoạt động mạnh nếu i ∈ I∩A(x ∗ ) và λ ∗ i > 0, tức là λ ∗ i > 0 và c i (x ∗ ) = 0 Ngược lại, điều kiện bất đẳng thức c i được gọi là hoạt động yếu khi i ∈ I ∩ A(x ∗ ) và λ ∗ i = 0, nghĩa là λ ∗ i = 0 và c i (x ∗ ) = 0 Điều kiện (3.35) được xem là điều kiện hạn chế (CQ), rất quan trọng cho điều kiện KKT Ví dụ của Fletcher chỉ ra rằng nếu điều kiện CQ không thỏa mãn, cực tiểu địa phương của Bài toán (3.1)-(3.3) có thể không phải là điểm KKT.

Ta thấy rằng x ∗ = (0,0) là cực tiểu toàn cục của bài toán Tại x ∗ , ta có

Do đó CQ không đúng Bằng tính toán trực tiếp ta có

(3.51) Điều này cho thấy không tồn tại λ ∗ 1 và λ ∗ 2 để cho

Điều kiện CQ đóng vai trò quan trọng trong việc xác định tính đúng đắn của các hàm điều kiện Tuy nhiên, việc xác định điều kiện CQ chính xác không phải là điều dễ dàng Để hỗ trợ việc này, chúng ta sẽ xem xét một số ràng buộc cụ thể dễ kiểm tra và thường được áp dụng Ràng buộc đơn giản và rõ ràng nhất là điều kiện ràng buộc hàm tuyến tính Theo định nghĩa, nếu tất cả các hàm điều kiện ci(x) (với i thuộc A(x ∗ ) E∪ I(x ∗ )) đều là tuyến tính, thì điều kiện ràng buộc hàm tuyến tính (LFCQ) được coi là đúng.

Từ định nghĩa, nếu ci(x) (i ∈ A(x ∗ )) là những hàm tuyến tính, thì điều kiện CQ (3.35) đúng và ta có hệ quả sau đây:

Nếu x∗ là cực tiểu địa phương của bài toán (3.1)-(3.3) và điều kiện ràng buộc hàm tuyến tính (LFCQ) đúng tại x∗, thì x∗ sẽ trở thành một điểm KKT Điều kiện ràng buộc độc lập tuyến tính (LICQ) là một trong những điều kiện ràng buộc quan trọng và thường xuyên được áp dụng Định nghĩa 3.10 nêu rõ rằng nếu các gradient của các ràng buộc hoạt động

Nếu các ∇c i (x ∗ ), i∈ A(x ∗ ) là độc lập tuyến tính, thì điều này xác nhận điều kiện ràng buộc độc lập tuyến tính (LICQ) Theo Định lí 3.3, với x ∗ là một điểm chấp nhận được và A(x ∗ ) là tập hợp chỉ số của các điều kiện hoạt động tại x ∗, nếu các ∇c i (x ∗ ), i ∈ A(x ∗ ) độc lập tuyến tính, thì điều kiện hạn chế (CQ) tại (3.35) cũng sẽ đúng.

Chứng minh Vì SF D(x ∗ , X) ⊆ LF D(x ∗ , X), ta chỉ cần chứng minh

LF D(x ∗ , X) ⊆SF D(x ∗ , X). Cho d ∈ LF D(x ∗ , X) tùy ý, đặt

Vì ∇c 1 (x ∗ ), , ∇c l (x ∗ ) là độc lập tuyến tính, ta có thể bổ sung các thành phần b l+1 , , b n để tạo thành một tập hợp độc lập tuyến tính Xét hệ phi tuyến r(x, θ) = 0 với các thành phần được định nghĩa bởi r i (x, θ) = c i (x) − θd T ∇c i (x ∗ ) cho i = 1, , l, và r i (x, θ) = (x − x ∗ ) T b i − θ d T b i cho i = l + 1, , n Khi θ = 0, hệ (3.53) có nghiệm là x ∗, và khi θ ≥ 0 đủ nhỏ, mọi nghiệm x đều là điểm chấp nhận được của bài toán đã nêu.

Ma trận Jacobian J(x, θ) = ∇ x r T (x, θ) = [A : B] có J(x ∗ ) [A(x ∗ ) : B] là ma trận không suy biến Theo định lý hàm ẩn, tồn tại một lân cận mở Ωx của x ∗ và Ωθ của θ = 0, sao cho với mọi θ ∈ Ωθ, tồn tại duy nhất nghiệm x(θ) ∈ Ω x Nghiệm x(θ) là điểm chấp nhận được và khả vi liên tục theo θ Sử dụng đạo hàm hàm số hợp từ (3.53), chúng ta có thể phân tích thêm.

Vì x = x ∗ tại θ = 0 Vậy hệ trên trở thành

Vì ma trận hệ số không suy biến, ta nhận được dx dθ = d tại θ = 0.

Vậy nếu θk ↓ 0 thì x(θk) là một dãy điểm chấp nhận được với hướng chấp nhận được d, nghĩa là x(θ k )−x ∗ θ k →d. Điều này cho thấy rằng d ∈ SF D(x ∗ , X) Vì d ∈ LF D(x ∗ , X) tùy ý, ta có

Dựa vào định lý trên và Định lý 3.2, ta có thể khẳng định rằng nếu x ∗ là cực tiểu địa phương của Bài toán (3.1)-(3.3) và điều kiện LICQ được thỏa mãn, tức là các đạo hàm ∇c i (x ∗ ) với i thuộc A(x ∗ ) là độc lập tuyến tính, thì tồn tại các nhân tử Lagrange λ ∗ i (với i = 1, , m) sao cho các phương trình (3.36)-(3.40) được thỏa mãn.

Thỉnh thoảng chúng ta sử dụng giả thiết

Giả thiết này có thể suy ra trực tiếp từ điều kiện CQ (3.35) Tuy nhiên, điều ngược lại không đúng.

Điều kiện tối ưu cấp hai

Cho x ∗ ∈ X, nếu d T ∇f (x ∗ ) > 0 với mọi 0̸= d ∈ SF D(x ∗ , X), thì x ∗ là cực tiểu địa phương chặt của Bài toán (3.1)-(3.3) Ngược lại, nếu tồn tại d ∈ SF D(x ∗ , X) sao cho d T ∇f (x ∗ ) < 0, thì x ∗ không thể là cực tiểu địa phương Điều này cho thấy rằng các điều kiện tối ưu cấp một là cần thiết để xác định tính chất cực tiểu địa phương của x ∗ Tuy nhiên, nếu cả hai điều kiện d T ∇f (x ∗ ) ≥ 0 và d T ∇f (x ∗ ) = 0 với một d khác không bằng 0 đều đúng, thì chúng ta không thể kết luận về tính chất cực tiểu địa phương của x ∗ chỉ dựa vào đạo hàm cấp một.

Trong những trường hợp này, thông tin về đạo hàm cấp hai là cần thiết Nếu điều kiện ràng buộc CQ (3.35) đúng, thì theo (3.81), (3.35) và Bổ đề Farkas (3.21), x ∗ sẽ là một điểm KKT Từ (3.82) và định nghĩa của nhân tử Lagrange, tồn tại d ∈ SF D(x ∗ , X) với d ̸= 0, sao cho d T ∇f (x ∗ ) m.

Vì SF D(x ∗ , X) ⊆ LF D(x ∗ , X), bằng cách sử dụng Định nghĩa 3.7, ta có (3.83) tương đương với λ ∗ i d T ∇c i (x ∗ ) = 0, ∀ i ∈ I(x ∗ ) (3.84)

Chúng ta định nghĩa x ∗ là điểm KKT của bài toán (3.1)-(3.3) và λ ∗ là vector nhân tử Lagrange tương ứng Tập hợp các điều kiện hoạt động mạnh được định nghĩa như sau:

Ta có I+(x ∗ ) ⊆ I (x ∗ ) Định nghĩa 3.11 nêu rõ rằng, với x ∗ là điểm KKT của bài toán (3.1)-(3.3) và λ ∗ là vector nhân tử Lagrange tương ứng, nếu tồn tại dãy d k và δ k sao cho x k = x ∗ + δ k d k thuộc X và thỏa mãn các điều kiện c i (x k ) = 0 cho i ∈ E∪ I + (x ∗ ) và c i (x k ) ≥ 0 cho i ∈ I(x ∗ )\I + (x ∗ ), đồng thời d k tiến tới d và δ k tiến tới 0, thì d được gọi là một hướng ràng buộc vô hiệu dãy tại x ∗ Tập hợp tất cả các hướng ràng buộc vô hiệu dãy tại x ∗ được kí hiệu là

Bổ đề 3.3 Đặt H = {d|d ∈ SF D(x ∗ , X);P m i=1 λ ∗ i c i (x k ) = 0} Khi đó, ta có S(x ∗ , λ ∗ ) = H.

0, d k → d ⇒d ∈ SF D(x ∗ , X) Ta thấy rằng (3.87)-(3.88) kéo theo rằng m

X i=1 λ ∗ i ci(xk) = X i∈E λ ∗ i ci(xk) +X i∈I λ ∗ i ci(xk) =X i∈I λ ∗ i ci(xk)

Bây giờ giả sử d ∈ H ⇒d ∈ SF D(x ∗ , X) ⇒xk = x ∗ +δkdk ∈ X, δk >

0, δ k →0, d k → d.Hơn nữa,Pm i=1λ ∗ i c i (x k ) = 0 ⇒λ ∗ i c i (x k ) = 0, i ∈ I.Với i ∈ I + (x ∗ )thì ta cóλ ∗ i > 0nênc i (x k ) = 0.Vậyc i (x k ) = 0, i ∈ E∪ I + (x ∗ ). Ngoài ra ta có ci(xk) ≥ 0, i∈ I(x ∗ )−I+(x ∗ ) (vì I(x ∗ )−I+(x ∗ ) ⊆ I) Vì vậy, ta có d ∈ S(x ∗ , λ ∗ ) □

Từ Bổ đề 3.3, ta có:

Từ định nghĩa trên, ta có thể suy ra rằng tập hợp các hướng ràng buộc vô hiệu tuyến tính tại điểm KKT x ∗ và vector nhân tử Lagrange λ ∗ là G(x ∗ , λ ∗ ) Nếu d là một hướng tuyến tính chấp nhận được tại x ∗ và thỏa mãn điều kiện (3.84), thì d được coi là một hướng ràng buộc vô hiệu tuyến tính tại x ∗.

Nếu nhân tử Lagrange tại x ∗ là duy nhất, G(x ∗ , λ ∗ ) có thể viết là G(x ∗ ).

Bổ đề 3.4 Đặt F = d|d∈ LF D(x ∗ , X; d T ∇c i (x ∗ ) = 0, i ∈ I + (x ∗ ) Khi đó, ta có G(x ∗ , λ ∗ ) = F.

Chứng minh Giả sử d ∈ G(x ∗ , λ ∗ ) ⇒ d T ∇c i (x ∗ ) = 0, i ∈ E Ta chứng minh d T ∇c i (x ∗ ) ≥ 0, i∈ I(x ∗ ) Thật vậy, ta có

Vì d T ∇c i (x ∗ ) = 0 i ∈ I + (x ∗ ) và d T ∇c i (x ∗ ) ≥ 0, i∈ I (x ∗ )\I + (x ∗ ) nên d T ∇c i (x ∗ ) ≥ 0, i ∈ I (x ∗ ) Vậy d ∈ LF D(x ∗ , X) Ngoài ra, vì d∈ G(x ∗ , λ ∗ ) ta có d T ∇c i (x ∗ ) = 0, i∈ I + (x ∗ ) Vậy d ∈ LF D(x ∗ , X), d T ∇c i (x ∗ ) = 0, i∈ I + (x ∗ ) nên d ∈ F.

Bây giờ giả sử d ∈ F ⇒ d ∈ LF D(x ∗ , X) ⇒ d T ∇c i (x ∗ ) = 0, i ∈ E.

I + (x ∗ ) Ngoài ra, ta có d T ∇c i (x ∗ ) ≥ 0, i ∈ I (x ∗ ) nên d T ∇c i (x ∗ ) ≥ 0, i ∈

Từ Bổ đề 3.4, ta có:

Từ các định nghĩa trên ta có

G(x ∗ , λ ∗ ) ⊆LF D(x ∗ , X) (3.95) Tương tự như SF D(x ∗ , X) ⊆LF D(x ∗ , X), ta có

Kết quả chính của phần này được nêu trong Định lý 3.11 (Điều kiện cần cấp 2) Nếu x ∗ là cực tiểu địa phương của bài toán (3.1)-(3.3) và điều kiện ràng buộc CQ (3.35) được thỏa mãn, thì ta có d T ∇ 2 xx L(x ∗ , λ ∗ )d ≥0 cho mọi d thuộc S(x ∗ , λ ∗ ), với L(x, λ) là hàm Lagrange.

Chứng minh Với mọi d ∈ S(x ∗ , λ ∗ ), nếu d = 0 thì d T ∇ 2 xx L(x ∗ , λ ∗ )d = 0.

Ta xét d ̸= 0 Từ định nghĩa của S(x ∗ , λ ∗ ) tồn tại {d k } và {δ k } sao cho (3.86)-(3.90) đúng Do đó, từ (3.90) và điều kiện KKT ta có f(x ∗ + δ k d k ) =L(x ∗ + δ k d k , λ ∗ )

Vì x ∗ là cực tiểu địa phương nên với mọi k đủ lớn ta có f(x ∗ +δ k d k ) ≥f(x ∗ ) (3.101)

Sử dụng (3.100)-(3.101) và lấy giới hạn ta có d T ∇ 2 xx L(x ∗ , λ ∗ )d ≥ 0.

Vì d ∈ S(x ∗ , λ ∗ ) là tùy ý, ta có (3.97) Từ (3.98), ta nhận được (3.99) từ

(3.97) □ Định lí 3.12 ( Điều kiện đủ cấp hai) Cho x ∗ là một điểm KKT của Bài toán (3.1)-(3.3) Nếu d T ∇ 2 xx L(x ∗ , λ ∗ )d > 0, ∀d ∈ G(x ∗ , λ ∗ ), (3.102) thì x ∗ là cực tiểu địa phương chặt.

Giả sử rằng x ∗ không phải là cực tiểu địa phương chặt, thì sẽ tồn tại một dãy x k thuộc X (k = 1,2, ) sao cho f(x k ) ≤ f(x ∗ ) và x k tiến gần đến x ∗, với x k khác x ∗ Không mất tổng quát, ta có thể giả định rằng x k - x ∗.

Lập luận tương tự như (3.61)-(3.63), ta có d T ∇f (x ∗ ) ≤0 (3.104) và d ∈ SF D(x ∗ , X) ⊆ LF D(x ∗ , X) (3.105)

Từ điều kiện KKT và (3.19) ta có d T ∇f (x ∗ ) m

Từ (3.104) và (3.106) ta suy ra d T ∇f (x ∗ ) = 0 (3.107)

Từ (3.106) và Định nghĩa 3.7, ta có λ i d T ∇c i (x ∗ ) = 0, ∀i ∈ I(x ∗ ) (3.108)

Vì thế, từ (3.105), (3.108) và Định nghĩa 3.12 ta có d ∈ G(x ∗ , λ ∗ ) (3.109)

Chia hai vế cho δ k 2 và lấy giới hạn ta có d T ∇ 2 xx L(x ∗ , λ ∗ )d ≤ 0 (3.111) Điều này mâu thuẫn với (3.102) Vậy ta có điều phải chứng minh □

A + (x ∗ , λ ∗ ) =E ∪ {i | i ∈ I (x ∗ ), λ ∗ i > 0}, (3.112) Tập hợp A + (x ∗ , λ ∗ ) được gọi là tập chỉ số các điều kiện hoạt động mạnh.

Ta có hệ quả sau đây:

Hệ quả 3.3 Cho x ∗ là một điểm KKT của Bài toán (3.1)-(3.3) Nếu d T ∇ 2 xx L(x ∗ , λ ∗ )d > 0 (3.113) với mọi d thỏa mãn d T ∇c i (x ∗ ) = 0, ∀ i ∈ A + (x ∗ , λ ∗ ), (3.114) thì x ∗ là một cực tiểu địa phương chặt.

Chứng minh Ta chứng minh rằng nếu d ∈ G(x ∗ , λ ∗ ) thì d T ∇ci(x ∗ ) 0, ∀i ∈ A + (x ∗ , λ ∗ ) Thật vậy, giả sử d ∈ G(x ∗ , λ ∗ )thd ∈ LF D(x ∗ , X), ta có A + (x ∗ , λ ∗ ) = E ∪ I + (x ∗ ) Với i ∈ E thì d T ∇c i (x ∗ ) = 0 (do d ∈

LF D(x ∗ , X)) Với i ∈ I + (x ∗ ) thì d T ∇c i (x ∗ ) = 0 (do d ∈ G(x ∗ , λ ∗ )) Vậy d T ∇c i (x ∗ ) = 0, ∀i ∈ A + (x ∗ , λ ∗ ) Khi đó d T ∇ 2 xx L(x ∗ , λ ∗ )d > 0, ∀d ∈

G(x ∗ , λ ∗ ) Vì vậy, x ∗ là cực tiểu địa phương chặt □

Bài toán đối ngẫu

Định lí 3.13 Cho x ∗ là một cực tiểu của bài toán gốc lồi (P) minx f(x) với điều kiện c i (x) ≥0, i= 1, , m (3.115)

Nếu f(x) và c i (x), (i = 1, , m) là các hàm khả vi liên tục và điều kiện đều (3.58) đúng , thì x ∗ và λ ∗ là nghiệm của bài toán đối ngẫu: maxx,λ L(x, λ) với điều kiện ∇ x L(x, λ) = 0, (3.116) λ ≥0.

Hơn nữa, giá trị nhỏ nhất của bài toán gốc và giá trị lớn nhất của bài toán đối ngẫu bằng nhau, nghĩa là: f (x ∗ ) =L(x ∗ , λ ∗ ) (3.117)

Chứng minh Từ giả thiết và định lý KKT 3.2, tồn tại các nhân tử Lagrange λ ∗ ≥ 0 sao cho ∇ x L(x ∗ , λ ∗ ) = 0 và λ ∗ i c i (x ∗ ) = 0, i= 1, , m.

Cho x, λ là điểm chấp nhận được của bài toán đối ngẫu.Sử dụng λ ≥ 0, tính lồi của L và ∇ x L(x, λ) = 0, ta có

Nghiệm của bài toán đối ngẫu là (x ∗ , λ ∗ ) Định lý đối ngẫu yếu chứng minh rằng giá trị hàm mục tiêu tại mọi điểm chấp nhận được của bài toán gốc luôn lớn hơn hoặc bằng giá trị hàm mục tiêu tại mọi điểm chấp nhận được của bài toán đối ngẫu Cụ thể, cho x ′ là điểm chấp nhận được của bài toán gốc và (x, λ) là điểm chấp nhận được của bài toán đối ngẫu, ta có f (x ′ ) ≥ L(x, λ).

Chứng minh rằng điểm x′ là chấp nhận được cho bài toán gốc và (x, λ) là điểm chấp nhận được cho bài toán đối ngẫu Dựa vào tính lồi của hàm f, tính chấp nhận được của hàm liên hợp, tính lõm của ci, cùng với tính không âm của ci(x′) và λi, ta có bất đẳng thức f(x′) − f(x) ≥ ∇f(x)T(x′ − x).

Từ định lý trên, ta có infx f (x) ≥ sup x,λ

Giải thuật cho bài toán tối ưu có điều kiện cho bởi phương trình và bất phương trình

bởi phương trình và bất phương trình

Trong bài viết này, chúng ta sẽ khám phá các phương pháp hàm phạt, bao gồm phương pháp hàm phạt điểm ngoài và phương pháp hàm phạt điểm trong, nhằm tìm kiếm nghiệm số cho bài toán tối ưu.

Các bài toán tối ưu không ràng buộc thường dễ giải quyết hơn so với các bài toán có ràng buộc Phương pháp hàm phạt giúp chuyển đổi bài toán tối ưu có ràng buộc thành chuỗi các bài toán có ràng buộc đơn giản hoặc bài toán tối ưu không ràng buộc.

3.5.1 Phương pháp hàm phạt điểm trong

Phương pháp hàm phạt điểm được sử dụng để chuyển đổi bài toán có ràng buộc thành bài toán không ràng buộc hoặc một chuỗi các bài toán không ràng buộc Xét bài toán (3.121) với ràng buộc được biểu diễn bằng bất đẳng thức, ta định nghĩa tập D o = {x ∈ S : g(x) < 0} Hàm B : D o −→ R cần thỏa mãn hai điều kiện: thứ nhất, B phải liên tục trên D o; thứ hai, với mọi dãy {x k } ⊂ D o mà limx k = x /∈ D o, thì lim infB(x k ) = +∞ Hàm B này được gọi là hàm phạt điểm trong của bài toán (3.121) Để giải bài toán (3.121) trong trường hợp này, ta sẽ xem xét bài toán tiếp theo.

Trong một số trường hợp đặc biệt, hàm B được xác định như sau

P i=1 φ(gi(x)) với φ là một hàm liên tục trên {y, y 0, nếu {x k } ⊂ S với g(x k ) < 0 và f(x k ) + aB(x k ) −→ θ(a), thì {x k } có một dãy con hội tụ Khi đó, a) ∀a > 0, tồn tại x a ∈ S thỏa g(x) < 0 và θ(a) = f(x a ) + aB(x a ) = inf{f(x) + aB(x)|g(x) < 0, x ∈ S} b) inf{f(x)|g(x) < 0, x ∈ S} ≤ inf{θ(a), a > 0} c) ∀a > 0, f(x a ) và θ(a) là các hàm không giảm đối với a; B(x a ) là hàm không tăng đối với a.

Chứng minh Ta chứng minh lần lượt các mệnh đề của định lý.

1 Với à > 0, từ định nghĩa của hàm θ, tồn tại dóy {x k } ⊂ S thỏa g(x k ) < 0 và f(x k ) + àB(x k ) −→θ(à).

Từ giả thiết, {x k } cú một dóy con hội tụ {x k n } −→ x à ∈ S.

Để chứng minh rằng g_j(x̄) < 0 cho j = 1, , m, giả sử tồn tại j ∈ {1, , m} sao cho g_j(x̄) = 0 Theo điều kiện (3.122), ta có B(x_k) → +∞, dẫn đến θ(x̄) = +∞, điều này mâu thuẫn với giả thiết D ≠ ∅ Do đó, ta kết luận rằng θ(x̄) = f(x̄ + B(x̄)).

2 Với à > 0,∀x ∈ S mà g(x) < 0, vỡ B(x) ≥ 0 nờn θ(à) = inf{f(x) +àB(x)|g(x) < 0, x ∈ S}

Cỏc bất đẳng thức trờn đỳng với mọi à > 0 nờn ta cú inf{f(x) : g(x) < 0, x ∈ S} ≤ infθ(à), à > 0.

3 Xột à > λ > 0,∀x ∈ S mà g(x) < 0, B(x) ≥ 0 nờn ta cú f(x) + àB(x) ≥f(x) +λN(x), nờn θ(à) ≥θ(λ) Từ (1), tồn tại x à , x λ ∈ S thỏa g(x à ) < 0, g(x λ ) < 0 và f(xà) +àB(xà) ≤f(xλ) +àB(xλ), (3.124) f(xλ) +λB(xλ) ≤f(xà) +λB(xà) (3.125)

Vỡ à−λ > 0 nờn B(xà) ≤ B(xλ) và từ (3.125) ta cú f(xλ) ≤f(xà).

Từ Bổ đề trên, do θ là hàm không tăng nên ta có à>0inf θ(à) = lim à→0 + θ(à). Định lí 3.15 Cho f : R n −→ R, g : R n −→ R m là các hàm liên tục,

S ⊂ R n , S ̸= ∅ Giả sử D o := {x ∈ S|g(x) < 0} ̸= ∅ Hơn nữa, giả sử bài toán 

Nghiệm tối ưu x trong bài toán (3.126) có các đặc điểm quan trọng: với mọi lân cận V của x, tồn tại x thuộc V ∩ S thỏa mãn g(x) < 0 Khi đó, giá trị tối thiểu của f(x) với điều kiện g(x) ≤ 0 và x thuộc S được xác định bởi lim à→0 + θ(à) = inf à>0 θ(à) Đặt θ(à) = f(x à) + àB(x à) với x à thuộc S và g(x à) < 0, giới hạn của mọi dãy con trong dãy {x k} sẽ là nghiệm tối ưu của bài toán (3.126), đồng thời àB(x à) sẽ tiến về 0 khi à tiến gần 0+.

Chứng minh rằng x là một nghiệm tối ưu của bài toán (3.126) thỏa mãn các điều kiện đã cho với ϵ > 0 Theo các điều kiện của định lý và tính liên tục của f, tồn tại bx ∈ S sao cho g(bx) < 0 và f(x) + ϵ > f(x)b Với à > 0, ta có f(x) + ϵ + àB(bx) > f(x) + b àB(x)b ≥ θ(à) Khi cho à tiến tới 0+, ta có f(x) + ϵ ≥ lim à→0 + θ(à).

Vì bất đẳng thức trên đúng với mọi ϵ > 0 nên ta có f(x) ≥ lim à→0 + θ(à).

Từ (2) của Bổ đề 3.5 ta có f(x) = lim à→0 + θ(à).

Ta có θ(à) = f(x à ) + àB(x à ) ≥ f(x à ) ≥ f(x), vì f(x) = lim à→0 + θ(à) nờn à→0lim + f(xà) = lim à→0 + f(xà) +àB(xà) =f(x).

Khi giới hạn của lim khi a tiến tới 0 cộng với B(x) bằng 0, nếu dãy {x k } có một dãy con hội tụ về x ′, thì nhờ tính liên tục của hàm f, ta có f(x ′ ) = f(x), cho thấy x ′ là một nghiệm tối ưu của bài toán (3.126).

2 Giải thuật giải bài toán tối ưu phi tuyến có ràng buộc bằng phương pháp hàm phạt điểm trong:

- Bước khởi tạo: Cho ϵ > 0, chọn x 1 ∈ S thỏa g(x) < 0 Cho à 1 >

Bước 1 Bắt đầu với x k , giải bài toán

 min [f(x) +à k B(x)] h(x) = 0 x ∈ S gọi x k+1 là một nghiệm của bài toán trên, chuyển sang bước 2.

Ngược lại, đặt à k+1 = βà k , thay k := k+ 1 quay lại Bước 1.

3.5.2 Phương pháp hàm phạt điểm ngoài

Xét bài toán (3.121), hàm phạt điểm ngoài được xác định như sau p(x) m

X i=1 ψ(hi(x)), (3.127) với ϕ và ψ là các hàm liên tục trên R, thỏa mãn điều kiện ϕ(y) = 0 với ∀y ≤ 0 và ϕ(y) > 0 với ∀y > 0; đồng thời, ψ(y) = 0 với ∀y = 0 và ψ(y) > 0 với ∀y ̸= 0 Một ví dụ cho các hàm ϕ và ψ thỏa mãn các điều kiện này là ϕ(y) = (max{0, y})^q và ψ(y) = |y|^q, với q là một hằng số dương Bài toán (3.121) được đơn giản hóa các ràng buộc thành bài toán sau.

(supθ(à) à≥ 0, với θ(à) = inf{f(x) +àp(x), x ∈ S}, p xỏc định bởi (3.127) và thỏa điều kiện (3.128).

Bổ đề 3.6 khẳng định rằng với các hàm liên tục f, g, h trên R n và tập S không rỗng, hàm p được xác định bởi (3.127) cũng liên tục trên R n Nếu tồn tại x à trong S sao cho θ(à) = f(x à) + àp(x à), thì các mệnh đề sau là đúng: a) inf{f(x) : x ∈ S, g(x) ≥ 0, h(x) = 0} ≥ sup à≥0 θ(à) b) Các hàm f(x à) và θ(à) là hàm không tăng với mọi à ≥ 0, trong khi p(x à) là hàm không giảm với mọi à ≥ 0.

Chứng minh Ta sẽ chứng minh lần lượt từng mệnh đề

1 ∀x ∈ S thỏa g(x) ≤ 0, h(x) = 0, p(x) = 0 Xột à ≥ 0 ta cú f(x) = f(x) + àp(x) ≥ inf{f(y) +àp(y), y ∈ S} = θ(à).

Vậy mệnh đề được chứng minh.

2 Xột 0 ≤ λ ≤à ta cú f(x à ) +λp(x à ) ≥ f(x λ ) +λp(x λ ) (3.129) f(x λ ) +àp(x λ ) ≥ f(x à ) +àp(x à ) (3.130)

Cộng theo vế của (3.129) và (3.130) ta có

Từ (3.130) ta có f(x à ) + àp(x à ) + (λ−à)p(x à ) ≥ θ(λ), vỡ à > λ và p(x à ) ≥ 0 nờn θ(à) ≥θ(λ).

Định lý 3.16 cho thấy rằng trong bài toán (3.121) với hàm p được xác định bởi (3.127) và thỏa mãn điều kiện (3.128), nếu ∀à ≥ 0 tồn tại nghiệm của bài toán min (f(x) + àp(x)) và tập nghiệm {x à} à≥0 nằm trong một tập con compact của S, thì ta có: inf{f(x) : x ∈ S, g(x) ≥ 0, h(x) = 0} = sup à≥0 θ(à) = lim à→∞ θ(à), trong đó θ(à) được xác định là inf{f(x) + àp(x), x ∈ S} = f(x à) + àp(x à).

Hơn nữa, x = limxà là một nghiệm tối ưu của Bài toỏn (3.121) và àp(x à ) →0 khi à→ +∞.

Chứng minh Từ (2) của Bổ đề 3.6, θ(à) là hàm đơn điệu nờn sup à≥0 θ(à) = lim à≥0θ(à).

Ta sẽ chứng minh p(x à ) → 0 khi à →+∞.

Thật vậy, cho y ∈ S và ϵ > 0 Giả sử x 1 là một nghiệm tối ưu của bài toỏn min{f(x) +àp(x), x ∈ S}.

Nếu à ≥ 1 ϵ |f(y)−f(x1)|+ 2, theo mệnh đề 2 của Bổ đề 3.6 ta cú f(x à ) ≥f(x 1 ).

Giả sử p(x à ) > ϵ, theo mệnh đề 1 của Bổ đề 3.6 ta cú inf{f(x) : x ∈ S, g(x) ≥0, h(x) = 0} (3.131)

> f(y). Điều này là vụ lý, nờn p(xà) ≤ϵ Vỡ ϵ > 0 lấy tựy ý nờn ta cú à→∞lim p(x à ) = 0.

Xột{x à k} là một dãy con của dãy {x à}, tồn tại x ∈ S là giới hạn của dãy con {x à k} Ta có sup à≥0 θ(à) ≥ θ(àk) = f(xà k) + àkp(xà k) ≥ f(xà k) Khi x à k tiến tới x và f liên tục, ta suy ra sup à≥0 θ(à) ≥ f(x).

Khi giới hạn p(x à) → 0 khi à → 0, điều này cho thấy p(x) = 0, nghĩa là x là một phương án khả thi cho bài toán (3.121) Dựa vào (3.132) và (1) của Bổ đề 3.6, ta có thể kết luận rằng x là một nghiệm tối ưu của Bài toán (3.121) và sup à≥0 θ(à) = f(x).

Ta có àp(x à ) =θ(à)−f(x à ) và à→∞lim θ(à) = lim à→∞f(x à ) =f(x) nên à→+∞lim àp(x à ) = 0.

Hệ quả 3.4 ∀à≥ 0 mà p(xà) = 0 thỡ xà là nghiệm tối ưu của bài toỏn (3.121).

Chứng minh ∀à ≥0mà p(x à ) = 0 thỡ x à là phương ỏn khả thi của Bài toỏn (3.121) Ta có inf{f(x) : x ∈ S, g(x) ≥ 0, h(x) = 0} ≥ θ(à) =f(xà) +àp(xà) = f(xà), vậy x à là nghiệm tối ưu của Bài toỏn (3.121).

2 Giải thuật giải bài toán (3.121) bằng phương pháp hàm phạt điểm ngoài:

- Bước khởi tạo: Cho ϵ > 0, chọn điểm khởi đầu x 1 ∈ S, tham số phạt à 1 > 0, hằng số β > 1, cho k = 1, chuyển sang bước chớnh.

Bước 1 Bắt đầu với xk, giải bài toán min [f(x) +à k p(x)], gọi x k+1 là một nghiệm của bài toán trên, chuyển sang bước 2.

Bước 2 Nếu àkp(xk+1) < ϵ, dừng Ngược lại, cho àk+1 := βàk, k := k+ 1, quay lại Bước 1.

Câu 3.1 Tìm nghiệm của bài toán

Dùng phương pháp hàm phạt bậc hai tìm nghiệm xấp xỉ của bài toán.

Câu 3.2 Tìm nghiệm của bài toán

Dùng phương pháp hàm phạt bậc hai tìm nghiệm xấp xỉ của bài toán. Câu 3.3 Tìm nghiệm của bài toán sau

(min (x 1 −2) 4 + (x 1 −2x 2 ) 2 x 2 1 −x 2 = 0 Dùng phương pháp hàm phạt bậc hai tìm nghiệm xấp xỉ của bài toán. Câu 3.4 Tìm nghiệm của bài toán

Câu 3.5 Tìm nghiệm của bài toán

Câu 3.6 Xét bài toán tối ưu

Xác định hàm Lagrange và hệ điều kiện Kuhn-Tucker của bài toán này Tìm nghiệm của bài toán.

Câu 3.7 Xét bài toán tối ưu phi tuyến

Xác định hàm Lagrange và hệ điều kiện Kuhn-Tucker của bài toán này Tìm nghiệm của bài toán.

Câu 3.8 Xét bài toán tối ưu

Xác định hàm Lagrange và hệ điều kiện Kuhn-Tucker của bài toán này Tìm nghiệm của bài toán.

Một nhà máy sản xuất đồ gia dụng có chi phí công nhân là 50.000 đồng mỗi giờ và giá nguyên liệu là 1.700.000 đồng mỗi tấn Lợi nhuận của nhà máy được mô hình hóa bằng một công thức cụ thể.

R(h, s) = 2.10 6 h 2/3 s 1/3 h: số giờ làm việc, s: số tấn nguyên liệu.

Hãy tính lợi nhuận lớn nhất biết tổng chi phí là 200 000 000 đồng.

Câu 3.10 Một tổ hợp gồm 3 máy phát cần sinh ra lượng điện là 952

Để tối ưu hóa chi phí phát điện trong một giờ, ta sử dụng các công thức tính chi phí cho từng máy phát Cụ thể, chi phí của máy phát thứ nhất được tính bằng công thức f1 : x1 + 0,0625x2^2 ($/giờ), máy phát thứ hai là f2 : x2 + 0,125x2^2 ($/giờ) và máy phát thứ ba là f3 : x3 + 0,25x2^3 ($/giờ) Trong đó, xi (i=1,2,3) là lượng điện phát ra của máy phát thứ i trong 1 giờ Mục tiêu là tìm ra phương án phát điện tiết kiệm chi phí nhất.

Câu 3.11 Giải bài toán sau:

Câu 3.12 Cho các số thựca, b, cthỏa mãna+b+c = 0vàa 2 +b 2 +c 2 = 6. Tìm giá trị lớn nhất của biểu thức

Câu 3.13 Cho a, b, c, d là các số thực dương thỏa a + b + c+ d = 1. Chứng minh rằng abc+bcd+cda+dab ≤ 176

27. Câu 3.14 Tìm nghiệm của bài toán

Câu 3.15 Tìm nghiệm của bài toán

Câu 3.16 Tìm nghiệm của bài toán

Bài toán tối ưu không trơn

Một số khái niệm cơ bản

Chúng ta đang xem xét bài toán tối ưu không trơn với mục tiêu tối thiểu hóa hàm Θ(u) = F(u) + Φ(u), trong đó F là một hàm trơn từ R^d đến R nhưng không nhất thiết phải lồi, còn Φ là một hàm lồi từ R^d đến R nhưng có thể không trơn.

Trong chương này, chúng ta sẽ khám phá các điều kiện cần thiết để bài toán có nghiệm và các thuật toán để tìm nghiệm xấp xỉ Ngoài những khái niệm cơ bản đã được trình bày ở Chương 1, chúng ta sẽ giới thiệu thêm một số khái niệm mới để hỗ trợ cho việc nghiên cứu này.

Hàm số f :R n → R là nửa liên tục dưới tại x 0 nếu f(x 0 ) ≤lim inf x→x 0 f(x).

Nếu một hàm số f nửa liên tục dưới tại mọi điểm thuộc tập Ω ⊂ R n, thì ta nói f nửa liên tục dưới trên Ω Đặc biệt, khi Ω = R n, ta chỉ cần nói rằng f nửa liên tục dưới.

Hàm số f :R n → R là coersive (có tính bức) nếu f(x) → +∞ nếu ∥x∥ → +∞.

Sự tồn tại nghiệm và điều kiện cần cho nghiệm của bài toán 86 4.3 Giải thuật giảm kiểu gradient

Để nghiên cứu các điều kiện cần thiết cho bài toán (4.1) có nghiệm, chúng ta cần tập trung vào các giả thiết cụ thể Những giả thiết này sẽ giúp xác định được các điều kiện cần thiết để đạt được kết quả mong muốn.

Giả thiết 4.1 (1) Φ là một hàm không âm, lồi chính thường, nửa liên tục dưới và coercive với Dom(Φ) ̸= ϕ.

(2) F bị chặn dưới và nửa liên tục dưới Không mất tính tổng quát, ta giả thiết F (u) ≥ 0, ∀u ∈ R d

(3) F khả vi Fréchet và F ′ liên tục Lipschitz, tức là, tồn tại một hằng số L sao cho

(4) Nếu {u n } hội tụ đến u sao cho {Θ (u n )} là đơn điệu giảm, thì tồn tại một dãy con {u n j } sao cho

Điều kiện (1) và (2) được áp dụng để chứng minh sự tồn tại nghiệm cho Bài toán (4.1) Đồng thời, điều kiện (3) và (4) trong Giả thiết 4.1 được sử dụng để chứng minh sự hội tụ của thuật toán giảm kiểu gradient.

Chú ý 4.1 1 Điều kiện (3) của Giả thiết 4.1 ta có:

2 Điều kiện (4) của Giả thiết 4.1 suy ra rằng tậpE t = u ∈ R d : Φ (u) ≤ t là compact với mỗi t ∈ R vì F ′ liên tục Thật vậy, u n hội tụ đến u và Θ (u n ) là đơn điệu giảm Khi đó, {Φ (u n )} n∈

N bị chặn và {u n } ⊂ Et với một số t > 0 Vì E t compact nên có một dãy con {u n j } sao cho u n j → u Vì F ′ liên tục ta có F ′ (u n j ) → F ′ (u).

Bổ đề 4.1 (Điều kiện có nghiệm) Giả sử Bài toán (4.1) thỏa mãn các giả thiết (1) và (2) của Giả thiết 4.1 Khi đó, Bài toán (4.1) có ít nhất một nghiệm.

Vì F và Φ bị chặn dưới, nên infΘ > −∞ Gọi {u n} là dãy cực tiểu với Θ{u n} → inf Θ Do Θ coercive, dãy {u n} bị chặn, dẫn đến sự tồn tại của dãy con {u n k} hội tụ đến u ∗ ∈ R d Hơn nữa, do Θ nửa liên tục dưới, ta có Θ(u ∗) ≤ lim inf Θ(u n k) khi k→∞.

Điểm u ∗ là một điểm cực tiểu của hàm Θ Để xác định điều kiện cần cho nghiệm, trước tiên cần định nghĩa toán tử gần kề Định nghĩa toán tử gần kề như sau: Cho hàm Φ : R d → R là hàm lồi, chính thường và nửa liên tục dưới, với v ∈ R d và λ ∈ R +, toán tử gần kề của Φ được xác định theo cách cụ thể.

Chú ý rằng, định nghĩa trên là hoàn toàn xác định vì từ Giả thiết 4.1 và tính chất của hàm Φ, ta suy ra rằng với mỗi y ∈ R d và s > 0, hàm v →Θ (v) = 1

Hàm 2∥v−y∥² + 1 sΦ(v) được xác định là lồi chặt và nửa liên tục dưới Hơn nữa, với Φ là hàm chính thường và Dom(Φ) ̸= ϕ, ta có v₀ ∈ Dom(Φ) và v₀∗ ∈ ∂Φ(v₀), dẫn đến bất đẳng thức Φ(v) ≥ Φ(v₀) + ⟨v₀∗, v−v₀⟩ cho mọi v ∈ Rⁿ Bất đẳng thức này cho thấy rằng Θ(v) → ∞ khi ∥v∥ → ∞, chứng tỏ Θ là hàm coercive và do đó, Θ chỉ có một điểm cực tiểu duy nhất.

4.3 Giải thuật giảm kiểu gradient Ý tưởng của giải thuật giảm kiểu gradient là thay vì giải trược tiếp Bài toán (4.1), chúng ta giải một dãy các bài toán cực tiểu trung gian {min v∈ R d Θ s n (v, u n )}, trong đó Θ s n (., u n ) hàm xấp xỉ bậc hai của Θ tại u n

Hàm Θ s n (., u n ) có tính lồi chặt và cực tiểu dễ dàng xác định qua một số trường hợp đặc biệt của hàm Φ Dưới một số điều kiện cho tham số s n, dãy u n+1 = arg min v∈ R d Θ s n (v, u n ) sẽ hội tụ đến nghiệm của Bài toán (4.1) Đối với mỗi s > 0, chúng ta định nghĩa xấp xỉ bậc hai của Θ(v) tại điểm u ∈ R d như sau: Θs(v, u) := F(u) + ⟨F′(u), v - u⟩ + s.

Bổ đề 4.2 Cho mỗi u ∈ R d cố định và s > 0, hàm Θ s (v, u) có một cực tiểu duy nhất xác định bởi v ∗ = P 1 s Φ u− 1 sF ′ (u)

Chứng minh Ta cần chứng minh rằng bài toán cực tiểu min v∈ R d Θ s (v, u) (4.4) có một nghiệm duy nhất Ta thấy rằng Bài toán (4.4) tương đương bài toán min v∈ R d

(4.5) Áp dụng định nghĩa toán tử gần kề ta suy ra được điều phải chứng minh □

Từ Bổ đề trên, ta định nghĩa được ánh xạ sau:

J s :R d → R d u 7→J s (u) = argminΘ s (v, u). Khi đó, dãy cực tiểu của xấp xỉ bậc hai được cho bởi: u n+1 = J s n (u n ) = P 1 sn Φ u n − 1 s n F ′ (u n )

Trong phần này, chúng ta sẽ nghiên cứu sự hội tụ của vòng lặp (4.6) và chỉ ra rằng với các điều kiện thích hợp về s_n và F, vòng lặp này sẽ hội tụ với tốc độ hội tụ tuyến tính Để chứng minh sự hội tụ của thuật toán giảm kiểu gradient, chúng ta cần các kết quả sau.

Bổ đề 4.3 chỉ ra rằng, nếu F và Φ đáp ứng các điều kiện của Giả thiết 4.1, và với u ∈ R d cùng s > 0 thỏa mãn bất đẳng thức Θ (J s (u)) ≤ Θ s (J s (u), u), thì cho mọi v ∈ R d, ta có thể khẳng định rằng Θ (v) - Θ (J s (u)) ≥ s 2 ∥J s (u) - u∥ 2 + s⟨J s (u) - u, u - v⟩ Điều này cho thấy sự liên kết giữa các hàm số và các yếu tố liên quan đến độ cong của F, đặc biệt khi F là hàm lồi, dẫn đến bất đẳng thức mạnh hơn.

Chứng minh Từ (4.7) ta có: Θ (v)−Θ (J s (u)) ≥ Θ (v)−Θ s (J s (u), u) (4.8)

Mặt khác, vìz = Js(u)là một cực tiểu củaΘs(., u)nên tồn tạiγ ∈ ∂Φ (z) sao cho:

Vì F ′ Lipschitz và Φ lồi nên ta có:

Cộng (4.9) với (4.10) vế theo vế ta có: Θ (v) ≥ F (u) +⟨F ′ (u), v −u⟩+ Φ (z) +⟨γ, v−z⟩ − L

2∥vưu∥ 2 (4.11) Hơn nữa, vì z = J s (u), ta có: Θ s (z, u) =F (u) +⟨F ′ (u), z −u⟩+ s

Từ (4.8) kết hợp với (4.11) và (2.12) ta có: Θ (v)ưΘ (z) ≥ ư s 2 ∥z ưu∥ 2 +⟨F ′ (u) +γ, vưu⟩ ư L 2 ∥v ưu∥ 2

= ư s 2 ∥zưu∥ 2 +s⟨uưz, vưz⟩ư L 2 ∥vưu∥ 2 +s∥z ưu∥ 2 ưs∥zưu∥ 2

Nếu F lồi, thì ta có F (v) ≥ F (u) + ⟨F ′ (u), vưu⟩ Vì vậy, từ chứng minh trên, ta thay bất đẳng thức (4.9) bằng bất đẳng thức cuối cùng này ta được: Θ (v)−Θ (Js(u)) ≥ 2 s ∥J s (u)−u∥ 2 +s⟨J s (u)−u, u −v⟩.

□ Chú ý 4.2 Từ Nhận xét 4.1, ta dễ dàng thấy rằng (4.7) thỏa mãn nếu s≥ L.

Chúng ta sẽ chứng minh tính chất hội tụ của thuật toán giảm kiểu gradient cho Bài toán (4.1), cụ thể là sự hội tụ của dãy được xác định bởi (4.6) Đầu tiên, chúng ta cần chứng minh tính đơn điệu giảm của hàm mục tiêu Θ (u n ).

Bổ đề 4.4 Cho F và Φ thỏa mãn các tính chất (1), (3) của Giả thiết 4.1 Giả sử dãy {u n } được xác định bởi (4.6) và thỏa mãn: s n ∈ [s, s] (0 < s ≤ L ≤ s) và Θ u n+1 ≤ Θ s n u n+1 , u n

Khi đó, dãy {Θ (u n )} là đơn điệu giảm, dãy {u n } bị chặn và n→∞lim u n+1 −u n = 0.

Chứng minh Từ giả thiết, ta có: Θ u n+1 ≤ Θs n u n+1 , u n ≤ Θs n (u n , u n ) = Θ (u n ).Do đó, dãy {Θ(u n )} là đơn điệu giảm.

Cho k = 0,1, , n, áp dụng Bổ đề 4.3 với v = u = u k và s = s k , ta được:

Lấy tổng các bất đẳng thức trên với k = 0, , n, ta được

2, ∀n. Điều này suy ra chuỗi P∞ k=0 u k −u k+1

2 hội tụ Như một hệ quả, ta có: n→∞lim u n+1 −u n = 0.

Mặt khác, dãy {u n } bị chặn vì dãy {Θ (u n )} đơn điệu dãy giảm và hàm Θ là coercive, tức là, Θ (u) → ∞ khi ∥u∥ → ∞ □

Dựa vào bổ đề đã nêu, dãy {u n} bị chặn và do đó có một điểm tụ Chúng ta sẽ chứng minh rằng mỗi điểm tụ là một điểm dừng của Θ, tức là thỏa mãn điều kiện cần cho cực tiểu của Θ Theo Định lý 4.1 (hội tụ), nếu F và Φ thỏa mãn Giả thiết 4.1 và dãy {u n} được xác định bởi (4.6), đồng thời thỏa mãn các giả thiết của Bổ đề 4.4, thì mỗi điểm tụ u∗ của {u n} chính là một điểm dừng của Θ.

Theo Bổ đề 4.4, ta có mối quan hệ Θ u n+1 ≤ Θ s n u n+1, u n Để chứng minh định lý, cần chứng minh giả thiết rằng nếu dãy {x n} hội tụ đến x, dãy {g n} hội tụ đến g và x n thuộc ∂Φ(g n), thì x cũng thuộc ∂Φ(g).

Thật vậy, ta thấy rằng ∀v ∈ R d cố định, ta có: n→∞lim ⟨x n , v−g n ⟩ = lim n→∞⟨x n −x, v−g n ⟩+ lim n→∞⟨x, v−g n ⟩.

Vì dãy hội tụ là bị chặn, nên tồn tại một hằng số c sao cho

Sự hội tụ của {g n } kéo theo rằng n→∞lim ⟨x n , v−g n ⟩ = ⟨x, v −g⟩.

Vì x n ∈ ∂Φ (g n ), ta có Φ (v) ≥Φ (g n ) +⟨x n , v−g n ⟩,∀v ∈ R d Mặt khác, vì Φ nửa liên tục dưới cho nên ta kết luận: Φ (v) ≥ lim n→∞infΦ (g n ) + lim n→∞inf⟨x n , v−g n ⟩ ≥ Φ (g) + ⟨x, v−g⟩,∀v ∈ R d Điều này tương đương x ∈ ∂Φ (g).

Bây giờ, chúng ta tiếp tục chứng minh định lý Giả sử {u n j } j∈

N là một dãy con hội tụ đến u ∗, với s n ∈ [s, s] và điều kiện (4) của Giả thiết 4.1 Tồn tại một dãy con {u n j } sao cho lim j→∞ u nj = u ∗, F ′ u nj → F ′ (u ∗) và lim j→∞ s n j = s ∗ ∈ [s, s] Theo Bổ đề 4.4, u n j +1 cũng hội tụ đến u ∗.

Chú ý rằng v n j +1 → −F ′ (u ∗ ) và u n j +1 −→ ω u ∗ Từ kết quả vừa được chứng minh ở trên, ta có:

Định lý 4.2 khẳng định rằng nếu F là hàm lồi và đáp ứng các tính chất trong giả thiết 4.1, cùng với chuỗi {u n} được sinh bởi (4.6) thỏa mãn các điều kiện trong Bổ đề 4.4, thì với mọi n ≥ 1, có thể xác định rằng Θ(u n) - Θ(u ∗) ≤ s ∥u 0 - u ∗∥², trong đó u ∗ là một điểm dừng của Θ.

2n , trong đó u ∗ là một cực tiểu của Θ.

Chứng minh Vì F là lồi, sử dụng Nhận xét 4.4 với v = u ∗ , u = u k và s = s k , ta được

Vì s k ∈ [s, s] và Θ (u ∗ )−Θ u k+1 ≤ 0, nên ta có

Tổng bất đẳng thức này với k = 0,1, , n−1 ta được

Sử dụng Bổ đề 4.4 một lần nữa với u = v = u k và s = s k ta được

Nhân hai vế với k và lấy tổng hai vế của bất đẳng thức trên với k 0,1, , n−1, ta được

Cộng (4.14) với (4.15) và nhân s/s ta được

Trong phần trước, chúng ta đã chứng minh rằng giải thuật giảm kiểu gradient dẫn đến vòng lặp: u n+1 = J s n (u n ) = P 1 sn Φ u n − 1 s n F ′ (u n )

(4.16) và vòng lặp hội tụ tới một điểm dừng của Bài toán (4.1) nếu và chỉ nếu các tham số s n thỏa mãn các điều kiện sau:

Tích hợp các điều kiện này, giải thuật giảm kiểu gradient được trình bày chi tiết ở Giải thuật 4.3.1.

Algorithm 4.3.1 Giải thuật giảm kiểu Gradient

Require: Dự đoỏn ban đầu u 0 : Φ (u 0 ) < ∞, à ∈ (1, ∞) và s 0 ∈ [s, s] (0 < s ≤ L/à ≤ s)

8: Tính dự đoán ban đầu cho s n+1

Chú ý rằng, từ Giả thiết 4.1, F khả vi Lipschitz với hằng số Lipschitz L.

Vì vậy, cho s ≥ L, ta có:

Do đó, với s ≥ L ta được Θ (v) =F (v)ưΦ (u) ≤ F (u) +⟨F ′ (u), vưu⟩

Trong lần lặp thứ nhất của Giải thuật 4.3.1, vòng lặp chỉ thực hiện một lần nếu điều kiện về stepsize được thỏa mãn, cụ thể là khi dự đoán ban đầu s_n ≥ L Tuy nhiên, nếu L lớn, dự đoán này có thể dẫn đến stepsize s_1 n nhỏ, làm chậm quá trình hội tụ của {u_n} Ngược lại, nếu dự đoán ban đầu cho s_n quá nhỏ (s_n ≪ L), điều kiện Θ u_n+1 ≤ Θ s_n u_n+1 có thể không được thỏa mãn, dẫn đến việc vòng lặp cần thực hiện nhiều lần, làm chậm giải thuật Do đó, để đảm bảo hội tụ nhanh chóng, dự đoán ban đầu cho s_n không nên quá nhỏ và cần thỏa mãn điều kiện Θ u_n+1 ≤ Θ s_n u_n+1 Để đạt được điều này, các phương pháp dự đoán cho s_n thường được áp dụng.

* Quy tắc stepsize hằng số : s n = L,∀n.

* Quy tắc quay lùi hiệu chỉnh: s n+1 = s n /γ với γ ∈ (1,∞).

Giải thuật cải tiến của Nesterov

Trong phần này, chúng tôi trình bày giải thuật cải tiến của Nesterov, được mô tả chi tiết trong Giải thuật 4.4.1 Tốc độ hội tụ của giải thuật này được công nhận là tối ưu, như đã nêu trong các tài liệu [7, 8, 13] Giải thuật cải tiến của Nesterov đã được các tác giả giới thiệu trong các nghiên cứu [14, 11, 15, 12] Ngoài ra, một số tác giả khác như [2, 1, 19, 4, 6] cũng đã nghiên cứu về bài toán tối ưu không trơn và các giải thuật liên quan để giải quyết vấn đề này.

Chứng minh sự hội tụ và tốc độ hội tụ của Giải thuật 4.4.1 được thực hiện thông qua các bổ đề và định lý sau:

Bổ đề 4.5 Cho Θ n (u) được xác định ở Bước 11 của Giải thuật 4.4.1. Khi đó, v n = arg min u∈ R d Θ n (u) được cho bởi v n = PA n ϕ(z n ), (n > 0) trong đó: z 0 := u 0 và z n := z n−1 −a n F ′ (u n ).

Chứng minh Chúng ta chứng minh bằng phương pháp quy nạp VớiΘ 0 (u) Algorithm 4.4.1 Giải thuật cải tiến của Nesterov

Require: Dự đoán ban đầu u 0 ∈ domf (Φ) ; A 0 = 0, v 0 = u 0 , à ∈ (1, ∞), s 0 ∈ [s, s] (0 < s ≤ L/à ≤ s) và Θ 0 (u) = 1 2 u − u 0

12: Tính dự đoán ban đầu cho s n+1

+A n Φ (u) (4.19) trong đó c n là một hằng số chỉ phụ thuộc vào n.

Từ định nghĩa của toán tử gần kề, ta có: v n = P A n Φ u 0 − n

Bây giờ, ta định nghĩa một biến z n với giá trị ban đầu z 0 := u 0 và z n := z n−1 −anF ′ (u n ) Khi đó, ta có: v n = PA n Φ(z n ).

Cuối cùng, để xét tốc độ hội tụ của hàm mục tiêu Θ của Giải thuật 4.4.1 ta cần bổ đề sau:

Bổ đề 4.6 Các dãy {u n },{A n },{Θ n } sinh bởi Giải thuật 4.4.1 thỏa mãn các hệ thức sau: ∀n≥ 0

Chúng ta sẽ chứng minh bổ đề này bằng phương pháp quy nạp Theo điều kiện ban đầu của Giải thuật 4.4.1, cả hai bất đẳng thức đều đúng với n = 0 Giả sử các bất đẳng thức R1n và R2n đúng với n ≥ 0 Từ R2n, với mọi u ∈ R^d, ta có: Θ(n+1)(u) ≤ A(n)Θ(u) + 1.

Để chứng minh rằng R 1 n+1 cũng đúng, ta dựa vào công thức của Θ n trong Bổ đề 4.4.1, cho thấy hàm Θ n hội tụ với tham số α = 1 Hơn nữa, với R 1 n là đúng, ta có thể khẳng định rằng ∀u ∈ R d, Θ n (u) = Θ ∗ n + 1.

2∥u−v n ∥ 2 (4.21) Đặt Θ ′ u n+1 := F ′ u n+1 +ξ với ξ ∈ ∂Φ u n+1 , ta có: Θ ∗ n+1 = min u∈ R d Θ n (u) +a n+1 F u n+1 + F ′ u n+1 , uưu n+1 + Φ (u)

Hơn nữa, vỡ u n+1 là cực tiểu của Θ s n (ã, y n ), ta cú thể chọn ξ ∈ ∂Φ u n+1 sao cho:

2.Điều kiện ở Bước 9 của Giải thuật 4.4.1 suy ra

Cuối cùng, trong Bước 3 của Giải thuật 4.4.1, ta chọn a n+1 từ phương trình

Vì vậy, R 1 n+1 là là đúng.

Bổ đề 4.7 Dãy dương {A n } sinh bởi Giải thuật 4.4.1 ở Bước thứ 12 với

Chứng minh Từ Bước thứ 3 của Giải thuật 4.4.1, ta có:

Định lý 4.3 khẳng định rằng, với F lồi và các điều kiện của Giả thiết 4.1, chuỗi {u n} được tạo ra từ Giải thuật 4.4.1 sẽ hội tụ đến cực tiểu u ∗ của Bài toán (4.1) Cụ thể, đối với mọi n ≥ 1, sự chênh lệch giữa giá trị hàm Θ tại u n và u ∗ được giới hạn bởi một hằng số C nhân với bình phương khoảng cách giữa u 0 và u ∗, với C = L/à Chứng minh cho điều này dựa trên Bổ đề 4.6, áp dụng cho mọi n ≥ 0.

2,∀u ∈ R d Trong bất đẳng thức thứ hai, ta cho u := u ∗ (là một cực tiểu của Θ) ta có Θ (u n )−Θ (u ∗ ) ≤ ∥ u ∗ −u 0 ∥ 2

Cuối cùng, áp dụng kết quả của Bổ đề 4.7 ta có:

Một số ứng dụng

Để tìm cực tiểu của hàm số Θ: R² → R được xác định bởi Θ(x) = x₁⁴ + x₂⁴ - 4x₁x₂ + α(|x₁| + |x₂|), chúng ta cần xem xét F(x) = x₁⁴ + x₂⁴ - 4x₁x₂ và Φ(x) = α(|x₁| + |x₂|) Đây là một ví dụ đơn giản về bài toán tối ưu không trơn, tuy nhiên, việc tìm nghiệm chính xác không phải là điều dễ dàng Bằng cách áp dụng giải thuật giảm kiểu gradient hoặc giải thuật cải tiến của Nesterov, chúng ta có thể dễ dàng tìm được nghiệm xấp xỉ cho bài toán này.

Tiếp theo, chúng ta xét bai toán tìm nghiệm của phương trình tích phân loại môt Bài toán được phát biểu như sau: Tìm v(s) ∈ L 2 [0,1] sao cho

0 g(x, s)v(s)ds Ta có K : L 2 [0,1] → L 2 [0,1] là toán tử compact Ta chia đoạn [0,1] thành n đoạn bằng nhau bởi các điểm

0 = xo < x1 < x2 < < xn = 1 độ dài mỗi đoạn là h = n 1 Áp dụng quy tắc hình thang để tính gần đúng tích phân Khi đó Kv xấp xỉ như sau:

# Đặt v i = v(x i ), f i = f(x i ), i = 0, n và cho x lần lượt nhận các giá trị x0, x1, , xn Khi đó, ta có hệ xấp xỉ:

Ta viết dưới dạng ma trận:

Trong bài toán tối ưu, ta có thể viết phương trình dưới dạng Kv = f, với K là ma trận hệ số Bằng cách áp dụng phương pháp chỉnh hóa thưa, chúng ta chuyển đổi bài toán thành bài toán cực tiểu v∈minR n+1 Θ(v) := F(v) + αΦ(v), trong đó F(v) = Kv¯−f δ và Φ(v) là một hàm phụ thuộc vào v.

|v i | Ở đây f δ là dữ liệu xấp xỉ của f.

Để chứng minh rằng các hàm số sau là nửa liên tục dưới và coersive, ta xem xét từng hàm một Đầu tiên, hàm Φ: R^n → R được định nghĩa bởi Φ(x) = ∥x∥² là nửa liên tục dưới vì giá trị của nó không giảm khi x tiến gần tới một điểm nào đó Tiếp theo, hàm Φ(x) = ∑_{i=1}^n |x_i| cũng là nửa liên tục dưới, do tổng của các giá trị tuyệt đối không thay đổi đột ngột khi x thay đổi Cuối cùng, hàm Φ(x) xác định bởi Φ(x) = 0 nếu x ∈ Q và Φ(x) = +∞ nếu x ∉ Q, với Q là một tập lồi đóng trong R^n, cũng thỏa mãn tính chất nửa liên tục dưới, vì giá trị của nó có thể được điều chỉnh theo sự xuất hiện của x trong tập Q.

Câu 4.2 Cho Φ : R → R,Φ(x) = x 2 Xác định biểu thức của toán tử gần kề P λΦ

Câu 4.3 Cho Φ : R → R,Φ(x) = |x| Xác định biểu thức của toán tử gần kề PλΦ.

Câu 4.4 Cho Q là một tập lồi đóng và Φ : R →R xác định bởi Φ(x) (0, nếu x ∈ Q+∞, nếu x /∈ Q .

Xác định biểu thức của toán tử gần kề PλΦ.

Câu 4.5 Cho Φ : R n → R,Φ(x) = ∥x∥ 2 Xác định biểu thức của toán tử gần kề P λΦ

Câu 4.6 Cho Φ : R n → R,Φ(x) = P n i=1 |x i | Xác định biểu thức của toán tử gần kề P λΦ

Câu 4.7 Cho Qlà một tập lồi đóng trong không gian R n vàΦ : R n → R xác định bởi Φ(x) (0, nếu x ∈ Q +∞, nếu x /∈ Q .

Xác định biểu thức của toán tử gần kề P λΦ

Câu 4.8 Cho Θ : R n →R xác định bởi Θ(x) =∥Ax−b∥ 2 +∥x∥ 2 , trong đó A ∈ R m×n , b ∈ R m Chứng minh rằng hàm số Θ có duy nhất một cực tiểu toàn cục.

Câu 4.9 Cho Θ : R n →R xác định bởi Θ(x) =∥Ax−b∥ 2 + n

|x i |, trong đó A ∈ R m×n , b ∈ R m Chứng minh rằng hàm số Θ có ít nhất một cực tiểu toàn cục Khi nào thì cực tiểu toàn cục của hàm số Θ là duy nhất?

Trong không gian R^n, Q là một tập lồi đóng, và hàm Θ được định nghĩa bởi Θ(x) = ∥Ax−b∥² với A ∈ R^m×n và b ∈ R^m Chứng minh rằng bài toán tối thiểu hóa min x∈Q Θ(x) đảm bảo tồn tại ít nhất một cực tiểu toàn cục Để bài toán này có nghiệm duy nhất, cần điều kiện rằng ma trận A có hạng đầy đủ, tức là các cột của A phải độc lập tuyến tính.

Để giải bài toán tối ưu hóa với hàm mục tiêu Θ(x) = ∥Ax - b∥² + ∥x∥², trong đó A ∈ R m×n và b ∈ R m, chúng ta sẽ trình bày chi tiết về giải thuật giảm kiểu gradient và giải thuật cải tiến Nesterov Giải thuật giảm kiểu gradient giúp tìm nghiệm bằng cách cập nhật liên tục giá trị x theo hướng của gradient Trong khi đó, giải thuật Nesterov cải tiến hiệu suất bằng cách sử dụng thông tin của gradient trước đó để điều chỉnh bước đi, từ đó đạt được tốc độ hội tụ nhanh hơn Cuối cùng, chúng ta sẽ tìm nghiệm số cho bài toán trong một số trường hợp cụ thể của ma trận A và véctơ b để minh họa hiệu quả của các giải thuật này.

Câu 4.12 Cho Θ : R n → R xác định bởi Θ(x) =∥Ax−b∥ 2 + n

Trong bài viết này, chúng tôi sẽ trình bày chi tiết về giải thuật giảm kiểu gradient và giải thuật cải tiến Nesterov nhằm giải quyết bài toán tối ưu hóa với ma trận A ∈ R m×n và véctơ b ∈ R m Chúng tôi cũng sẽ tìm kiếm nghiệm số cho bài toán trong một số trường hợp cụ thể của ma trận A và véctơ b Các phương pháp này không chỉ giúp cải thiện hiệu suất tính toán mà còn nâng cao độ chính xác của nghiệm tìm được.

Câu 4.13 đề cập đến một tập lồi đóng Q trong không gian R^n, với hàm mục tiêu Θ : R^n → R được xác định bởi Θ(x) = ∥Ax - b∥², trong đó A là ma trận m×n và b là véctơ m Bài viết sẽ trình bày chi tiết về hai thuật toán: thuật toán giảm kiểu gradient và thuật toán cải tiến Nesterov để giải quyết bài toán tối ưu này Cuối cùng, sẽ tìm nghiệm số cho bài toán trong một số trường hợp cụ thể của ma trận A và véctơ b.

Câu 4.14 Cho f ∈ L 2 (0,1), tìm φ ∈ L 2 (0,1) sao cho

K : L 2 (0,1) →L 2 (0,1) là toán tử compact Ta chia đoạn [0,1] thành n đoạn bằng nhau bởi các điểm

0 = x o < x 1 < x 2 < < x n = 1. Độ dài mỗi đoạn là h = 1 n Áp dụng quy tắc hình thang để tính gần đúng tích phân Khi đó, Kφ được xấp xỉ như sau:

Đặt φi = φ(xi), fi = f(xi), i = 0, n và cho x lần lượt nhận các giá trị x 0 , x 1 , , x n ,ta có hệ xấp xỉ:

Ta viết dưới dạng ma trận:

(4.29) hay Kφ = f , trong đó K là ma trận hệ số của phương trình trên Áp dụng phương pháp chỉnh hóa thưa, ta nhận được bài toán cực tiểu v∈minR n+1 Θ(v) := F (v) +αΦ (v) (4.30) với F (¯v) = Kv¯−f i

Áp dụng giải thuật giảm kiểu gradient và phương pháp cải tiến của Nesterov, chúng ta sẽ tìm nghiệm số cho bài toán (4.30) với hàm g và f được định nghĩa như sau: g(x, s) = x²s + x và f(x) = x(14x + 54).

Chú ý rằng một nghiệm của phương trình tích phân trong trường hợp này là φ(s) ( s, s ∈ 1 3 , 2 3

Chương trình Matlab và một số ví dụ minh họa

Chương trình Matlab cho bài toán tối ưu bậc hai

Bài toán tối ưu bậc hai có dạng: x∈minR n f(x) = 1

2x T Qx−x T b, với Q là n×n-ma trận xác định dương.

Dùng phương pháp giảm nhanh nhất với kích thước bước chính xác, ta có dãy {x k } được xác định bởi: x k+1 = x k −α k ∇f(x k ), với α k xác định bởi α k = g k T gk g k T Qg k

Do đó: x k+1 = x k − g T k g k g k T Qg k g k , với g k = Qx k −b.

Khi đó, chương trình Matlab cho bài toán tối ưu bậc hai với kích thước bước chính xác như sau:

%Nhập số chiều của không gian R^n n=3;

% Định nghĩa hàm f, MT Hesian Q, véctơ b

Q=; b=; f=@(x) x’*Q*x/2-b’*x;

% Chọn giá trị khởi tạo cho vòng lặp x0=; xstar=;

% Lưu thông tin dãy x_n và f(x_n) xn=[]; fn=[];

% Chọn giá trị n cho vòng lặp

N=; for i=1:N xn=[xn x0]; tg=(x0-xstar)’*Q*(x0-xstar)/2;

Error=[Error tg]; tg=f(x0); fn=[fn tg]; gk=Q*x0-b; ak=gk’*gk/(gk’*Q*gk); x1=x0-ak*gk; x0=x1; end

Khi sử dụng đoạn mã Matlab cho từng ví dụ cụ thể, cần thay thế các biểu thức “< ã ã ã >” bằng những biểu thức phù hợp với từng trường hợp.

Chương trình Matlab cho bài toán tối ưu tổng quát

Bài toán tối ưu tổng quát có dạng x∈minR n f(x) Khi áp dụng giải thuật giảm nhanh nhất, ta có dãy {x k } được xác định bởi công thức x k+1 = x k −α k ∇f(x k ), với α k > 0 là kích thước bước Giá trị xấp xỉ cho cực tiểu của hàm số một biến được thể hiện qua φ(α k ) = f(x k −α k ∇f(x k )).

Để tìm giá trị α k, chúng ta cần áp dụng các phương pháp tính gần đúng Dưới đây là chương trình Matlab cho thuật toán giảm nhanh nhất, sử dụng các đường tìm kiếm theo quy tắc Armijo và quy tắc Goldstein Cụ thể, chương trình Matlab này giải quyết bài toán tối ưu tổng quát, với kích thước bước được xác định bởi quy tắc Armijo.

%Nhập số chiều của không gian R^n n=3; x0=; f=@(x) ; gradf=@(x) ; x=[x0]; F=[f(x0)]; eps=1/2;nu=2;

Đoạn mã trên mô tả quy trình tối ưu hóa bằng phương pháp giảm dần gradient trong Matlab, sử dụng quy tắc Goldstein để xác định kích thước bước Bắt đầu với điểm khởi tạo x0, hàm mục tiêu f và gradient gradf được định nghĩa Trong vòng lặp, kích thước bước an được điều chỉnh dựa trên điều kiện hàm mục tiêu f(x1) so với giá trị tại x0, đảm bảo rằng sự thay đổi trong hàm mục tiêu là đủ lớn để tiếp tục tìm kiếm Nếu không, kích thước bước sẽ giảm cho đến khi đạt được sự hội tụ Kết quả cuối cùng là một chuỗi các điểm x và giá trị hàm mục tiêu F tương ứng.

In the optimization process, we initialize a step size \( an \) and compute the gradient \( tg \) at the current point \( x0 \) We then update \( x1 \) by taking a step in the direction of the negative gradient If the function value at \( x1 \) is less than or equal to the value at \( x0 \) minus a threshold determined by the gradient and the step size, we continue to adjust the step size \( an \) by multiplying it with a factor \( nu \) Conversely, if the function value at \( x1 \) exceeds this threshold, we reduce \( an \) by dividing it by \( nu \) This iterative process continues until convergence, updating \( x0 \) to \( x1 \) and storing the function values in \( F \).

Một số ví dụ minh họa

Ví dụ 5.1 Tìm điểm cực tiểu của hàm số f : R 2 → R xác định bởi f(x 1 , x 2 ) = 1

Xét điểm xuất phát x0 = (a,1) T Khi đó ta có f(x 1 , x 2 ) = 1

! và ∇f(x) T = (x1, ax2) Bằng quy nạp ta sẽ chứng minh x k a−1 a+ 1 k a (−1) k

Thật vậy, với k = 0, đẳng thức trên đúng Giả sử đẳng thức đúng với k, ta sẽ chứng minh nó cũng đúng với k + 1 Ta có:

! , với α k là điểm cực tiểu của hàm số φk(α) = f(xk−α∇f(x)) = 1

2k a 2 (1−α) 2 +a(1−aα) 2 Đây làm hàm bậc hai nên đạt giá trị nhỏ nhất tại α k = 2 a+ 1.

Ví dụ 5.2 Tìm cực tiểu của bài toán tối ưu bậc hai f : R 3 → R được cho bởi : f(x) = 1

Vì Q là ma trận đối xứng xác định dương nên f lồi chặt Do đó theo Bổ đề 2.1 và Định lý 2.5, nghiệm x ∗ của bài toán thỏa mãn:

Bây giờ chúng ta sẽ giải bài toán bằng Giải thuật (3.103) Ta có : xk+1 x k −α k ∇f(x k ), với:

Cứ tiếp tục như vậy ta được bảng sau:

6 −2,1747 4,3568×10 −9 1,6354×10 −5 Khi đó, ta được nghiệm: x ∗ ≈ (1,5350; 0,1220; 1,9752; 1,4130) T và f(x ∗ ) ≈ −2.1747.

Chương trình Matlab cho ví dụ này như sau:

% Định nghĩa hàm mục tiêu, ma trận Q, véctơ b

% Chọn giá trị khởi tạo; x0=zeros(4,1); xstar=[1.534965034965035;

% Lưu thông tin dãy x_n và f(x_n) xn=[]; fn=[];

% Chọn giá trị n cho vòng lặp nP; for i=1:n xn=[xn x0]; tg=(x0-xstar)’*Q*(x0-xstar)/2;

Error=[Error tg]; tg=f(x0); fn=[fn tg]; gk=Q*x0-b; ak=gk’*gk/(gk’*Q*gk); x1=x0-ak*gk; x0=x1; end

Ví dụ 5.3 Tìm cực tiểu của bài toán tối ưu bậc hai f : R 3 → R xác định bởi: f(x) = 1

.Tương tự như Ví dụ 5.2, theo Bổ đề 2.1 và Định lý 2.5, ta có cực tiểu của bài toán là x ∗ 

Bây giờ, ta sẽ giải bài toán bằng Giải thuật (3.103).

200 −0,6200 4,3116×10 −16 3,9660×10 −8 Sau 200 bước lặp ta thu được: x 200 = −1.0000;−0,2000;−0,0400

. Vậy nghiệm của bài toán là x ∗ ≈ x200 và f(x ∗ ) =−0,6200.

Chương trình Matlab cho ví dụ này như sau:

% Định nghĩa hàm mục tiêu, MT Hesian, véctơ b

% Chọn giá trị khởi tạo cho vòng lặp x0=zeros(3,1); xstar=[-1.00;-0.20;-0.04];

% Lưu thông tin dãy x_n và f(x_n) xn=[]; fn=[];

% Chọn giá trị n cho vòng lặp n 0; for i=1:n xn=[xn x0]; tg=(x0-xstar)’*Q*(x0-xstar)/2;

Trong các bài toán tối ưu không phải dạng bậc hai, việc tính toán chính xác giá trị αk là một thách thức lớn Do đó, cần áp dụng các phương pháp tính gần đúng để đạt được kết quả hiệu quả hơn Ví dụ dưới đây sẽ minh họa rõ ràng cho vấn đề này.

Ví dụ 5.4 Tìm cực tiểu của hàm số f : R 3 → R xác định bởi: f(x 1 , x 2 , x 3 ) = (x 1 −4) 4 + (x 2 −3) 2 + 4(x 3 + 5) 4 , với x 1 , x 2 , x 3 ∈ R.

To implement the Armijo rule using Matlab, start with the initial point x0 set to [0;0;0] Define the function f and its gradient gradf Initialize arrays for storing the points and function values, along with parameters eps and nu In a loop that runs for n iterations, calculate the step size an and the gradient tg at the current point Update the point x1 based on the gradient and step size, ensuring that the function value at x1 meets the Armijo condition Adjust the step size as necessary, either increasing or decreasing it based on the comparison of function values Continue updating the point and storing the results until the loop concludes.

Lúc đó, ta có bảng sau:

Từ bảng trên ta thấy nghiệm của bài toán là xấp xỉ: x ∗ ≈ (4,3,−5) T và f(x ∗ ) = 0.

To implement the Goldstein rule using Matlab, start by defining the initial point and function: `x0=[0;0;0]` and `f=@(x) (x(1)-4)^4+(x(2)-3)^2+4*(x(3)+5)^4` The gradient is defined as `gradf=@(x) [4*(x(1)-4)^3;2*(x(2)-3);16*(x(3)+5)^3]` Initialize variables with `x=[x0]; F=[f(x0)]; eps=1/2; nu=2;` and set the number of iterations with `nP` In the loop, calculate the step size and update the point based on the Goldstein conditions: if the function value at the new point is less than or equal to the value at the current point minus a threshold, adjust the step size accordingly Finally, update `x0` and store the new points and function values for analysis.

Lúc đó, ta có bảng sau:

Từ bảng trên ta thấy nghiệm của bài toán là xấp xỉ: x ∗ ≈ (4,3,−5) T và f(x ∗ ) = 0.

[1] K Bredies, D A Lorenz, and P Maass A generalized conditional gra- dient method and its connection to an iterative shrinkage method Com- putational Optimization and Application, 42(2):173–193, 2009.

[2] I Daubechies, M Defrise, and C Demol An iterative thresholding algorithm for linear inverse problems with a sparsity constraint Comm. Pure Appl Math, 57:1413–1541, 2004.

[3] Ivar Ekeland and Roger Temam Convex analysis and variational prob- lems, volume 28 Siam, 1999.

[4] M Grasmair, M Haltmeier, and O Scherer Sparsity regularization with l q penalty term Inverse Problems, 24:055020, 2008.

[5] Werner H Greub.Linear algebra, volume 23 Springer Science & Business Media, 2012.

[6] R Griesse and D A Lorenz A semismooth Newton method for Tikhonov functionals with sparsity constraints Inverse Problems, 24:035007, 2008.

[7] D N Hào and T N T Quyen Convergence rates for total variation regularization of coefficient identification problems in elliptic equations

[8] D.N Hào and T.N.T Quyen Convergence rates for Tikhonov regular- ization of a two-coefficient identification problem in an elliptic boundary value problem Numerische Mathematik, 120(1):45–77, 2012.

[9] Witold AJ Kosmala A friendly introduction to analysis Pearson Pren- tice Hall, 2004.

In their 2012 study published in the Electronic Transactions on Numerical Analysis, Lorenz, Maass, and Muoi explore gradient descent methods that utilize quadratic approximations of Tikhonov functionals while incorporating sparsity constraints The research provides a theoretical framework and conducts a numerical comparison of various stepsize rules, offering insights into the efficiency and effectiveness of these optimization techniques.

[11] Pham Quy Muoi, Dinh Nho Hào, Peter Maass, and Michael Pidcock. Descent gradient methods for nonsmooth minimization problems in ill- posed problems Journal of Computational and Applied Mathematics, 298:105–122, 2016.

[12] Pham Quy Muoi and Duong Xuan Hiep Proximal algorithm for min- imization problems in l0-regularization for nonlinear inverse problems.Numerical Algorithms, pages 1–22, 2022.

Ngày đăng: 03/11/2023, 18:09