Cho hàm f : Rn → R lồi, chính thường và λ > 0, ta có ∂(λf)(x) = λ∂f(x).
Thật vậy với x ∈ domf, do f lồi, chính thường và λ > 0 thì λf cũng là lồi, chính thường và x ∈ dom(λf).
Ta có (λf)0(x, .) =λf0(x, .).
Từ định lý 2.1.3 suy ra ∂(λf)(x) = λ∂f(x). Nếu x /∈ domf thì ∂(λf)(x) = λ∂f(x) = ∅.
Ta sử dụng định lý sau cho việc chứng minh các phép toán của dưới vi phân.
Định lý 2.2.1. ([8], tr 59, định lý 2.4) Cho f1, f2, ..., fm là những hàm lồi hữu hạn trên tập lồi khác rỗng D trong Rn, và cho A là một ma trận cấp m ×n, A(D) ={Ax : x ∈ Rn}; b ∈ riA(D). Nếu hệ:
x ∈ D, Ax = b, fi(x) < 0, i= 1,2, ...m
là vô nghiệm, thì tồn tại một vectơ t ∈ Rm và những số không âm
λ1, λ2, ..., λm có tổng bằng 1 thỏa mãn: ht,Ax−bi + m X i=1 λifi(x) ≥ 0; ∀x ∈ D.
Sử dụng định lý trên ta sẽ chứng minh một số định lý quan trọng sau. Định lý 2.2.2. (Moreau - Rockafellar)([7], tr 223, định lý 23.8)
Cho f1, f2 là những hàm lồi chính thường trên Rn. Thì với mỗi x ∈ Rn
có
∂f1(x) +∂f2(x) ⊂ ∂(f1 +f2)(x).
Hơn nữa, nếu tồn tại một điểm a ∈ domf1 ∩domf2 và một trong hai hàm là liên tục ta có được bao hàm thức ngược lại.
Chứng minh. Giả sử với p1 ∈ ∂f1(x); p2 ∈ ∂f2(x) theo định nghĩa ta có: f1(y) ≥ f1(x) +hp1, y−xi ∀y ∈ Rn,
f2(y) ≥ f2(x) +hp2, y−xi ∀y ∈ Rn.
Cộng vế với vế ta thu được(f1+f2)(y) ≥ (f1+f2)(x)+hp1 +p2, y−xi. Do đó p1+p2 ∈ ∂(f1+f2) nên ta có ∂f1(x) +∂f2(x) ⊂ ∂(f1+f2)(x). Ngược lại, nếu p∈ ∂(f1 + f2)(x0) thì hệ
(
x−y = 0,
f1(x) +f2(y)−f1(x0)−f2(x0)− hp, x−x0i < 0,
là vô nghiệm. Định nghĩa D = domf1 × domf2 và A(x, y) := x − y. Không mất tính tổng quát, giả sử f1 liên tục tại a ∈ domf1 ∩ domf2
nên có một hình cầu U quanh 0 thỏa mãn a + U ⊂ domf1, do đó U = (a+U)−a ⊂ domf1−domf2 = A(D), nghĩa là 0 ∈ intA(D). Theo đó, bởi Định lý 2.2.1 thì tồn tại t ∈ Rn thỏa mãn
ht, x−yi+ [f1(x) +f2(y)−f1(x0)−f2(x0)− hp, x−x0,i] ≥ 0 (2.7) với mọi (x, y) ∈ domf1 ×domf2
Với (x, y) ∈/ domf1 ×domf2 thì rõ ràng (2.7) đúng, suy ra
ht, x−yi+ [f1(x) +f2(y)−f1(x0)−f2(x0)− hp, x−x0,i] ≥0
với mọi x ∈ Rn và mọi y ∈ Rn. Lấy y = x0 ta được
hp−t, x−x0i ≤ f1(x)−f1(x0), ∀x ∈ Rn, nghĩa là p−t ∈ ∂f1(x0).
Tiếp theo lấy x = x0 ta được
ht, y −x0i ≤ f2(y)−f2(x0), ∀y ∈ Rn, nghĩa là t∈ ∂f2(x0).
Ví dụ 2.2.10. Cho C là tập lồi đóng trong Rn, xét hàm chỉ của C: δC(x) =
(
0, x ∈ C
+∞, x /∈ C.
δC là lồi theo ví dụ 1.2.3. Ta tính dưới vi phân tại một điểm x ∈ C. Ta có p ∈ ∂δC(x) nếu và chỉ nếu δC(y)−δC(x) ≥ hp, y −xi với mọi y ∈ Rn. Điều này rõ ràng thỏa mãn với y /∈ C nên ta chỉ xét với y ∈ C. Vì vậy với p là dưới gradient của δC(.) tại x thì điều kiện cần và đủ là
hp, y −xi ≤ 0, ∀y ∈ C.
Với mọi d ∈ TC(x); TC(x) là nón tiếp tuyến của C tại x ∈ C được cho bởi công thức
TC(x) = {t(y −x) : y ∈ C; t≥ 0}
= cone(C −x)
Với A là bao đóng của tập A, nếu A đóng thì A= A Do hp, di ≤ 0 với mọi d ∈ TC(x) suy ra
p∈ NC(x) = {x∗ ∈ Rn| hx∗, di ≤ 0, d∈ TC(x)}
nên ∂δC(x) =NC(x) Đặt K∗ là nón đối ngẫu âm của K, tức là K∗ = {x∗ ∈ Rn| hx∗, di ≤ 0, d ∈ K}
Đặc biệt, nếu K là nón lồi đóng thì ∂δK(0) = (K)∗ = K∗. Ta xét tập
K = K1 ∩K2 ∩...∩Km.
Ở đó mỗi Ki, i = 1, ..., m là một nón lồi đóng. Từ trên ta biết rằng ∂δK(0) = K∗.
Mặt khác, δK(x) =δK1(x) +...+ δKm(x).
Nếu intK1 ∩ intK2 ∩...∩intKm 6= ∅ thì mọi x ∈
m
T
i=1
liên tục với mọi i = 1, m (vì δKi(x) = 0) nên sử dụng Định lý Moreau -Rockafellar ta có
∂δK(0) = ∂δK1(0) +δK2(0) +...+∂δKm(0), K∗ = K1∗ + K2∗ +...+Km∗.
Tổng quát hóa cho Xi, i = 1,2, ..., m là những tập lồi đóng và cho X = X1 ∩X2 ∩ ...∩Xm.
Có ∂δX(x) = NX(x). Nếu intX1 ∩intX2 ∩...∩intXm 6= ∅ thì ∂δX(x) =∂δX1(x) +∂δX2(x) +...+∂δXm(x)
⇔ NX(x) =NX1(x) + NX2(x) + ...+NXm(x).
Định lý 2.2.3. ([8], tr 67, mệnh đề 2.23) Cho A : Rn → Rm là toán tử tuyến tính liên tục và g là một hàm lồi chính thường trên Rm. Thì với mỗi x ∈ Rn ta có
AT∂g(Ax) ⊂ ∂(g◦A)(x).
Nếu g là liên tục tại một điểm nào đó trong Im(A) (ảnh của A) thì
AT∂g(Ax) = ∂(g ◦A)(x)
với x ∈ Rn.
Chứng minh. Lấy p∈ ∂g(Ax0).
Bởi định nghĩa ta có hy −Ax0, pi ≤ g(y) −g(Ax0) với mọi y ∈ Rm. Và
hAx−Ax0, pi ≤ g◦A(x)−g ◦A(x0), ∀x ∈ Rn,
x−x0, ATp ≤ g◦A(x)−g ◦A(x0) ∀x ∈ Rn.
Vì vậy ATp ∈ ∂(g◦A)(x0) ⇒ AT∂g(Ax0) ⊂∂(g◦A)(x0). (AT kí hiệu ma trận chuyển vị của ma trận A).
Ngược lại, xét bất kì p∈ ∂(g ◦A)(x0). Khi đó hệ
là vô nghiệm. Định nghĩa D = Rn×domg, B(x, y) =Ax−y. Khi đó có một điểm b∈ ImA∩int(domg) ta có b ∈ intB(D), nên bởi Định lý 2.2.1 thì tồn tại t∈ Rm thỏa mãn ht,Ax−yi+ g(y)−g(Ax0)− hp, x−x0i ≥ 0, (2.8) với mọi (x, y) ∈ D. Với mọi (x, y) ∈/ D thì rõ ràng (2.8) đúng. Suy ra ht,Ax−yi+g(y)−g(Ax0)− hp, x−x0i ≥ 0 với mọi x ∈ Rn và y ∈ Rm.
Lấy y = 0, ta có ATt−p, x +g(0)−g(Ax0) +hp, x0i ≥ 0, với mọi x ∈ Rn, do g(0) − g(Ax0) + hp, x0i không đổi nên p = ATt, khi lấy x = x0 ta có ht, y −Ax0i ≤ g(y)−g(Ax0), nghĩa là t ∈ ∂g(Ax0). Do đó, p∈ AT∂g(Ax0).
Định nghĩa 2.2.1. Cho f : R ⇒ 2R là ánh xạ từ R vào tập hợp tất cả các tập con của R (kí hiệu là 2R). Ta nói f là ánh xạ đa trị từ R vào R. Như vậy với mỗi x ∈ R, f(x) là một tập con của R. Không loại trừ khả năng là với một số phần tử x ∈ R nào đó ta có f(x) là tập rỗng.
Ví dụ 2.2.11. Cho f là hàm lồi, khi đó T : R⇒ R
x 7→ ∂f(x)
là ánh xạ đa trị.
Định nghĩa 2.2.2. ([6], tr 17, định nghĩa 2.1) Một ánh xạ đa trị T từ
R vào tập tất cả những tập con của R được gọi là toán tử đơn điệu nếu
hx∗ −y∗, x −yi ≥ 0,
Với mọi x, y ∈ R và mọi x∗ ∈ T(x), y∗ ∈ T(y). Ta không đòi hỏi rằng
T(x) là khác rỗng. Miền hữu hiệu D(T) của T là tập tất cả x ∈ R thỏa mãn T(x) là khác rỗng.
Định nghĩa 2.2.3. ([6], tr 26, định nghĩa 2.22) Một tập con G củaR×R
được gọi là đơn điệu khi
hx∗ −y∗, x−yi ≥ 0 ∀(x, x∗),(y, y∗) ∈ G.
Một ánh xạ đa trị T : R ⇒ 2R là một toán tử đơn điệu nếu đồ thị của nó
G(T) =(x, x∗) ∈ R×2R : x∗ ∈ T(x) ,
là một tập đơn điệu. Một tập đơn điệu được gọi là đơn điệu cực đại nếu nó là cực đại trong họ của những tập con đơn điệu của R×R. Ta nói rằng một toán tử đơn điệu T là đơn điệu cực đại khi đồ thị của nó là một tập đơn điệu cực đại.
Định lý 2.2.4. ([6], tr 27, định lý 2.25) Nếu f là hàm lồi và liên tục trên R, thì ánh xạ dưới vi phân của nó là đơn điệu cực đại.
Chứng minh. Để chứng minh ∂f là cực đại theo định nghĩa ta sẽ chứng minh rằng với y, y∗ ∈ R mà y∗ ∈/ ∂f(y), thì tồn tại x ∈ R và x∗ ∈ ∂f(x)
thỏa mãn hy∗ −x∗, y−xi < 0. Xét hàm lồi liên tục g được xác định bởi g(x) =f(x+y)− hy∗, xi.
Ta thấy rằng x∗ ∈ ∂g(x) khi và chỉ khi x∗ + y∗ ∈ ∂f(x+ y). Vì vậy, nếu y∗ ∈/ ∂f(y) thì 0∈/ ∂g(0) và nếu tồn tại x∗ và x với x∗ ∈ ∂g(x) thỏa mãn hx∗, xi < 0 thì với z = x +y và z∗ = x∗ + y∗ ta có z∗ ∈ ∂f(z) và
hy∗ −z∗, y−zi = hx∗, xi < 0. Giả sử rằng y = 0 và y∗ = 0, ta muốn thu được x ∈ R và x∗ ∈ ∂f(x) thỏa mãn hx∗, xi < 0.
Ta biết rằng khi 0 không là một cực tiểu toàn cục của f, thì tồn tại một điểmx1 ∈ Rthỏa mãn f(0)> f(x1). Xét hàm lồi h(t) =f(tx1),0≤
t≤ 1. Khi đó đạo hàm theo hướng tại một điểm t0 ∈ (0; 1) rõ ràng bằng f0(t0x1;x1). Giả sử lượng này là không âm với mỗi t0, bởi một dạng của định lý giá trị trung bình, điều này có thể kéo theo rằng h(0) ≤ h(1), điều này là mâu thuẫn.
lấy x = t0x1), ta có f0(x, x) < 0. Bởi Định lý 2.1.3(iii), phải tồn tại x∗ ∈ ∂f(x) thỏa mãn hx∗, xi = f0(x, x) < 0. Chứng minh được hoàn thành.
Ví dụ 2.2.12. Cho f(x) = x lồi, liên tục trên R. Ta chứng minh ánh xạ T : R ⇒R
x 7→∂f(x) = {1}
là đơn điệu cực đại.
Chứng minh. -Với x∗ ∈ ∂f(x), y∗ ∈ ∂f(y) ⇒ x∗ = y∗ = 1. Vậy
hx∗ −y∗, x−yi = h0, x −yi = 0. Suy ra T là đơn điệu.
-Với y ∈ R, y∗ ∈ R mà y∗ 6= 1 thì tồn tại x ∈ R và x∗ ∈ ∂f(x) thoả mãn hx∗ −y∗, x−yi < 0 tức là
hy∗ −1, y−xi < 0. (2.9) Nếu y∗ −1> 0 thì tồn tại x∗ = 1 ∈ ∂f(x) và x > y thoả mãn (2.9). Nếu y∗ −1< 0 thì tồn tại x∗ = 1 ∈ ∂f(x) và x < y thoả mãn (2.9). Từ đó suy ra T là cực đại.
2.3. Kết luận
Trong chương này ta đã trình bày định nghĩa và một số tính chất cơ bản của dưới vi phân hàm lồi. Ta cũng đã trình bày một số quy tắc tính toán cho phép toán dưới vi phân cùng với một số ví dụ. Chương tiếp theo sau đây chúng ta sẽ tìm hiểu ứng dụng của dưới vi phân của hàm lồi để giải bài toán tối ưu.
Chương 3
Ứng dụng của dưới vi phân hàm lồi
Trong chương trình giải tích cổ điển, ta thấy điều kiện cần và đủ để một hàm lồi khả vi đạt cực trị tại một điểm là đạo hàm của nó triệt tiêu tại điểm đó. Trong chương này chúng ta sẽ trình bày ứng dụng của dưới vi phân hàm lồi để tìm cực trị của hàm lồi nhiều biến, không nhất thiết khả vi.
3.1. Một số tính chất cơ bản
Cho f : R →Rn là một hàm bất kì, C là tập tùy ý nào đó trong Rn, một điểm x∈ C∩domf được gọi là một cực tiểu toàn cục của f trên C nếu −∞ < f(x) ≤ f(x) với mọi x ∈ C
Điểm x ∈ C được gọi là cực tiểu địa phương của f trên C nếu tồn tại một lân cậnU(x)củaxsao cho −∞ < f(x) ≤ f(x)với mọi x ∈ C∩U(x)
Ta kí hiệu tập các nghiệm cực tiểu toàn cục của f(x) trên C là
arg min
x∈C f(x).
Tương tự tập các nghiệm cực đại toàn cục của f(x) trên C là
arg max
x∈C f(x). Ta kiểm tra được min
x∈C f(x) = −max
x∈C (−f(x)).
Định lý 3.1.1. ([7], tr27, định lý 4.5) Một hàm f : C →R hai lần khả vi trong một tập lồi mở C ⊂ Rn lồi nếu tại mọi x ∈ C ma trận Hessian
Qx = (qij(x)) với qij(x) = ∂ 2f
nửa xác định dương: Qx 0, tức là hu, Qxui ≥ 0 với mọi u ∈ Rn.
Định lý 3.1.2. Cho C là tập lồi khác rỗng trong Rn và f : R → Rn là một hàm lồi. Khi đó bất kì điểm cực tiểu địa phương nào của f trên C
cũng là cực tiểu toàn cục.
Chứng minh. Giả sử x là điểm cực tiểu địa phương của f trên C, khi đó tồn tại lân cận U(x) của x sao cho f(x) ≤f(x) với mọi x ∈ C ∩U(x).
Lấy tùy ý y ∈ C, ta có
yλ = (1−λ)x+λy ∈ U(x) vớiλ ∈ (0; 1) và λ đủ nhỏ suy raf(x) ≤ f(yλ)
với λ đủ nhỏ.
Mặt khác f(yλ) ≤ (1−λ)f(x) +λf(y), do đó λf(x) ≤ λf(y) với λ đủ nhỏ.
Vậy f(x) ≤ f(y) với mọi y ∈ C, suy ra x là cực tiểu toàn cục.
Định lý 3.1.3. ([8], tr 75, định nghĩa 2.31) Cho C là tập lồi khác rỗng trong Rn và f : R→ Rn là một hàm lồi. Để một điểm x∈ C là một cực tiểu toàn cục của f trên C, điều kiện cần và đủ là
0 ∈ ∂f(x) + NC(x) (3.1)
ở đó NC(x) ={x∗ ∈ Rn| hx∗, x−xi ≤ 0 ∀x ∈ C}
Chứng minh. ⇐ / Giả sử (3.1) được thỏa mãn, khi đó tồn tại x∗ ∈ ∂f(x)∩(−NC(x))
Lấy tùy ý x ∈ C, ta có hx∗, x−xi+ f(x) ≤f(x). Và
h−x∗, x−xi ≤ 0 ∀x ∈ Rn.
⇔ hx∗, x−xi ≥ 0 ∀x ∈ Rn.
Do đó f(x) ≤f(x) với mọi x ∈ C và x là điểm cực tiểu toàn cục của f trên C.
⇒/ Lấy x ∈ arg min
x∈C f(x). Ta có hệ sau vô nghiệm:
(x, y) ∈ C ×Rn; x−y = 0; f(y)−f(x) < 0
Đặt D = C ×Rn và A(x, y) := x−y. Ta có A(D) = C −Rn Lấy tùy ý B(0, ε), ε > 0.
Ta có B(0, ε) =x−(x+B(0, ε)) suy ra 0∈ intA(D). Tồn tại v ∈ Rn sao cho hv, x−yi+ f(y)−f(x) > 0 với mọi (x, y) ∈ C ×Rn.
Lấy y = x, ta có hv, x−xi ≥ 0 với mọi x ∈ C. Suy ra v ∈ −NC(x). Lấy x = x ta suy ra hv, x−yi+f(y)−f(x) ≥ 0 ⇔ f(y) ≥ f(x) + hv, x−yi ⇒ v ∈ ∂f(x). Do đó v ∈ ∂f(x)∩ (−NC(x)). Suy ra 0 ∈ ∂f(x) + NC(x).
Hệ quả 3.1. Dưới các giả thiết của định lý 3.1.3, nếu x ∈ intC thì x là cực tiểu toàn cục của f trên C khi và chỉ khi 0∈ ∂f(x).
Định lý 3.1.4. Cho C là một tập lồi trong Rn và f : C → R là một hàm lồi. Nếu f đạt cực đại trên C tại x ∈ riC thì f là hàm hằng trên
C.
Chứng minh. Giả sử x ∈ arg max
x∈C f(x)∩ riC. Lấy x tùy ý thuộc C. Khi đó tồn tại y ∈ riC : x = λx+ (1−λ)y λ ∈ (0,1).
Ta có
f(x) ≤λf(x) + (1−λ)f(y)
≤λf(x) + (1−λ)f(x) vì f(x) ≥ f(y)
⇒λf(x) ≥ λf(x)
mà x là cực đại, suy ra f(x) = f(x).
Định nghĩa 3.1.1. Điểm x được gọi là điểm cực biên của C nếu nó không biểu diễn được dưới dạng tổ hợp lồi của hai điểm bất kì thuộc C.
Định lý 3.1.5. ([7], tr 343, định lý 32.2) Cho C là một tập lồi trong Rn và f : C → R là một hàm lồi. Nếu C không chứa đường thẳng và f bị chặn trên mỗi nửa đường thẳng nằm trong C thì
sup{f(x)|x ∈ C}= sup{f(x)|x∈ V(C)}
Với V(C) là tập các điểm cực biên của C. Nếu f đạt cực đại trên C
thì nó đạt cực đại trên các điểm cực biên.
Hệ quả 3.2. ([7], tr 343, hệ quả 32.2.1) Cho f là một hàm lồi hữu hạn trên C ⊂Rn và C là một tập lồi compact. Khi đó nếu f đạt cực đại trên
C thì điểm cực đại của f trên C là một điểm cực biên của C.