Định nghĩa 2.1. Cho f : Rn → R là một hàm lồi chính thường và x ∈ domf. Một vector g ∈ Rn thỏa mãn
f(y) ≥f(x) +hg, y−xi với mọi y ∈ Rn (2.1) được gọi là một dưới-gradient (subgradient) của f tại x.
Tập của tất cả dưới-gradient củaf tạix được gọi là dưới vi phân của f tại x và được kí hiệu là ∂f(x).
Khái niệm dưới-gradient có một ý nghĩa hình học rõ ràng. Giả sử g ∈ ∂f(x). Bất đẳng thức (2.1) có nghĩa là trên đồ thị của hàm f luôn nằm trên đồ thị của hàm affine l(y) =f(x) +hg, y−xi.
Với mỗi điểm (y, v) ∈ epif, ta có
v ≥ f(y) ≥ f(x) +hg, y−xi,
hay
hg, y−xi + (−1)(v−f(x)) ≤ 0.
Do đó, (g,−1) là một phần tử của nón pháp tuyến Nepif(x, f(x)).
Trong một số điều kiện, điều ngược lại cũng đúng. Nếu một vector (u, γ) ∈ Nepif(x, f(x)) và γ 6= 0, thì g = −u/γ là một dưới-gradient của f tại x. Xét hàm lồi
f(x) =
xln(x)−x nếu x > 0,
0 nếu x = 0,
+∞ nếu x < 0.
Tại điểm (0,0) tất cả các pháp tuyến của tập trên đồ thị có dạng (u,0), trong đó u < 0, và f không có dưới-gradient tại x = 0.
Bổ đề 2.1. Giả sử f : Rn → R là một hàm lồi chính thường và x ∈ domf. Một vector g là một dưới-gradient của f tại x nếu và chỉ nếu
f0(x;d) ≥ hg, di với mọi d ∈ Rn. (2.2) Chứng minh. Giả sử (2.2) đúng. Khi đó với mỗi y, từ (1.9) ta được
f(y) ≥ f(x) +f0(x;y −x) ≥f(x) +hg, y−xi, suy ra g là một dưới-gradient.
Ngược lại, giả sử g ∈ ∂f(x). Khi đó với mỗi d và τ > 0 bất đẳng thức dưới-gradient (2.1) thỏa mãn
f(x+τ d−f(x))
τ ≥ hg, τ di
τ = hg, di.
Qua giới hạn với τ ↓0 ta được (2.2).
Định lý 2.1. Cho f : Rn → R là một hàm lồi. Giả sử x ∈ int domf. Khi đó, ∂f(x) là một tập lồi, đóng, bị chặn và khác rỗng. Hơn nữa, đối với mỗi hướng d ∈ Rn ta có:
f0(x;d) = max
g∈∂f(x)hg, di.
Chứng minh. Theo Bổ đề 2.1, ta chỉ cần chứng minh rằng với mỗi d tồn tại g ∈ ∂f(x) sao cho
f0(x;d) = hg, di. (2.3) Xét hai tập trong Rn+1:
E = {(y, v) : v > f(y)}, và
L = {(x+τ d, f(x) +τ f0(x;d)) : τ ∈ R}.
Vì
f(x+τ d) ≤f(x) +τ f0(x;d) ∀τ ∈ R,
nên các tập này lồi và không có điểm chung. Theo định lý tách [3, Theorem 2.15], tồn tại z =
u γ
khác không sao cho mỗi điểm (y, v) ∈ E và mỗi τ ∈ R ta có
hu, yi+ γv ≥ hu, x+τ di+γ[f(x) +τ f0(x;d)]. (2.4) Nếu γ < 0, cho v → ∞ thì dẫn đến mâu thuẫn. Vì vậy γ ≥ 0.
Giả sử γ = 0. Vì x là một điểm trong của miền hữu hiệu, chúng ta có thể chọn y từ hình cầu đủ nhỏ B của x sao cho tồn tại v > f(y). Đặt τ = 0, từ (2.4) ta có hu, yi ≥ hu, xi với mọi y ∈ B, điều này chỉ có thể xảy ra khi u = 0 và mâu thuẫn với điều kiện z 6= 0. Do đó γ > 0.
Chia hai vế của (2.4) cho γ, đặt g = −u/γ và cho v ↓f(y) ta được f(y)− hg, yi ≥ f(x) + τ f0(x;d)− hg, x+τ di
với mọi x ∈ int domf và τ ∈ R. Chuyển vế và đặt nhân tử chung ta được
τ[f0(x;d)− hg, di] ≤ f(y)−f(x)− hg, y−xi,
với mọi τ ∈ R. Bất đẳng thức này chỉ xảy ra nếu hệ số τ = 0, nên (2.3) đúng, do đó g là một dưới-gradient.
Đặt τ = 0 ta suy ra
f(y) ≥f(x) +hg, y−xi với mọi x ∈ int domf. (2.5) Vì tính lồi nên với mỗi y ∈ domf ta có
f(y)−f(x) ≥ 2[f((x+y)/2)−f(x)],
và (x+y)/2 ∈ int domf. Áp dụng (2.5) cho f((x+ y)/2) ta thấy (2.1) đúng với mọiy ∈ domf, và với mọiy ∈ Rn. Do đóg là một dưới-gradient của f tại x và tập dưới vi phân không rỗng.
Giả sử g1 ∈ ∂f(x), g2 ∈ ∂f(x). Do đó với mọi y f(y) ≥ f(x) +hg1, y −xi,
f(y) ≥ f(x) +hg2, y −xi.
Nhân các bất đẳng thức trên với α và 1 −α, ở đó α ∈ (0,1), ta được αg1 + (1−αg2) ∈ ∂f(x). Do đó dưới vi phân là tập lồi.
Nếu gk ∈ ∂f(x) và gk → g, khi đó giới hạn qua bất đẳng thức f(y) ≥ f(x) + hgk, y−xi,
ta kết luận rằng g ∈ ∂f(x). Do đó dưới vi phân là tập đóng.
Cho g ∈ ∂f(x). Theo [3, Lemma 2.36] cho x+τ d đủ gần x ta có f(x+τ d)−f(x) ≤ τ Lkdk.
Do đó
f0(x;d) ≤ Lkdk, với mọi d.
Theo Bổ đề 2.1 ta được
hg, di ≤ f0(x;d) ≤ Lkdk, với mọi d, tức là kgk ≤ L.
Từ chứng minh ta thấy dưới vi phân ∂f(x) lồi và đóng với mọi x tại đú f(ã) cú ớt nhất một dưới-gradient (là khả dưới vi phõn).
Bổ đề 2.2. Nếu một hàm lồi f : Rn → R là khả dưới vi phân tại x, khi đó với mỗi d
f0(x;d) = sup
g∈∂f(x)
hg, di.
Hơn nữa, nếu f0(x;d) < ∞ thì cận trên đúng ở trên đạt được.
Chứng minh. Theo Bổ đề 1.11, đạo hàm theo hướng f0(x;d) tồn tại (hữu hạn hoặc vô hạn). Vì vậy từ định nghĩa của dưới vi phân với mỗi g ∈ ∂f(x) ta có
f0(x;d) = lim
τ↓0
f(x+τ d)−f(x)
τ ≥ hg, di.
Giả sử d ∈ Rn và tồn tại ε > 0 sao cho f0(x;d) > hg, di + ε với mọi g ∈ ∂f(x). Khi đó
à = sup
g∈∂f(x)
hg, di+ < ∞.
Ta xét đường
L = {(x+ τ d, f(x) +τ à) : τ ∈ R}.
Lập luận tương tự chứng minh Định lý 2.1, ta có thể tách đường L và tập
E = {(y, v) ∈ Rn+1 :v > f(y)}
và tỡm một dưới-gradient mới g sao cho à = hg, di. Điều này dẫn đến mâu thuẫn và ta được kết quả cần chứng minh.
Bổ đề 2.3. Một hàm lồi f : Rn →R là khả vi tại x nếu và chỉ nếu dưới vi phân ∂f(x) chỉ có một phần tử là gradient của f tại x.
Chứng minh. Một hàm f khả vi tạixnếu và chỉ nếu đạo hàm theo hướng của nó f0(x;d) là tuyến tính theo d. Khi đó
f0(x;d) =h∇f(x), di với mọi d.
Từ Bổ đề 2.1, ∇f(x) ∈ ∂f(x). Nếu tồn tại một dưới-gradient khác
g 6= ∇f(x), thì ta có thể đặt d = g − ∇f(x), từ Bổ đề 2.1 ta có f0(x;d) ≥ hg, di = kgk2 − hg,∇f(x)i.
Theo tính khả vi,
f0(x;d) = h∇f(x), di = −k∇f(x)k2 + hg,∇f(x)i.
Trừ theo vế của hai hệ thức trên ta được
kgk2 −2hg,∇f(x)i+k∇f(x)k2 ≤ 0,
điều này chỉ xảy ra khi g = ∇f(x).
Ngược lại, giả sử dưới vi phân chỉ có một phần tử g. Theo Định lý 2.1 ta suy ra rằng
f0(x;d) =hg, di với mọi d.
Do đó đạo hàm theo hướng là tuyến tính theo hướng, tương đương với tính khả vi của f tại x và g = ∇f(x).
Với một hàm lồi f :Rn →R, nó là khả dưới vi phân tại x, ta có thể xác định hướng tụt nhất như là một vector d ∈ Rn có độ dài nhỏ hơn hoặc bằng 1 và theo hướng đó đạo hàm theo hướng f0(x;d) là nhỏ nhất.
Bổ đề 2.4. Nếu f là khả dưới vi phân tại x và 0 ∈/ ∂f(x), khi đó hướng tụt nhất của f tại x có dạng
db= − g kgk,
trong đó g là phần tử chuẩn nhỏ nhất của ∂f(x).
Chứng minh. Xét phần tử chuẩn nhỏ nhất g ∈ ∂f(x). Vì 0 ∈/ ∂f(x) và dưới vi phân là tập đóng nên g 6= 0. Vì g là hình chiếu của 0 trên ∂f(x), từ [3, Lemma 2.11] ta được
h0−g, s−gi ≤ với mọi s ∈ ∂f(x).
Điều này có thể viết lại như sau:
max
s∈∂f(x)
h−g, si = −kgk2. Chia hai vế cho kgk và từ Bổ đề 2.1 ta được
f0(x;d) = maxb
s∈∂f(x)
hd, sib = max
s∈∂f(x)
h− g
kgk, si = −kgk.
Với mọi vector d có độ dài không quá 1 ta có f0(x;d) = max
s∈∂f(x)hd, si ≥ hd, gi ≥ −kgk.
Suy ra f0(x;d)b nhỏ nhất.
Sau đây, chúng ta xét một số ví dụ về các hàm lồi và dưới vi phân của chúng.
Vớ dụ 2.1. Cho k ã k là chuẩn Euclide trong Rn và f(x) =kxk.
Khi đó
∂f(0) = {g ∈ Rn : kgk ≤ 1}.
Thật vậy, với mỗi hướng d,
f0(0;d) = lim
τ↓0
kτ dk
τ = kdk.
Theo Bổ đề 2.1, một vector g ∈ ∂f(0) nếu và chỉ nếu hg, di ≤ kdk với mọi d,
tương đương với kgk ≤ 1.
Ta cú thể được mở rộng đến bất kỡ chuẩn k ã k♦ trong Rn. Bằng lập luận tương tự, ta thấy dưới vi phân của f tại 0 là tập
∂k0k♦ = {g ∈ Rn : hg, di ≤ kdk♦ với mọi d}.
Định nghĩa chuẩn đối ngẫu kgk∗ = sup
d6=0
hg, di
kdk♦ = sup
kdk♦=1
hg, di
Khi đó
∂k0k♦ = {g ∈ Rn : kgk∗ ≤1}.
Đặc biệt, dưới vi phõn của k ã k1 tại 0 là tập {g : kgk∞ ≤ 1}, và dưới vi phõn của k ã k∞ tại 0 là tập {g : kgk1 ≤ 1}.
Ta xét một điểm x 6= 0 bất kì. Đối với mọi vector g ∈ ∂kxk♦ ta có 2kxk♦ = kx+xk♦ ≥ kxk♦+hg, xi,
0 = kxxk♦ ≥ kxk♦− hg, xi,
suy ra
hg, xi = kxk♦. Chia hai về cho kxk♦(khác không ), ta được
kgk∗ ≥ hg, x
kxk♦i = 1.
Giả sử kgk∗ > 1. Khi đó, tồn tại d sao cho kdk♦ = 1 và hg, di > 1. Ta được
kxk♦+ 1 = kxk♦ +kdk♦ ≥ kx+dk♦ ≥ kxk♦+ hg, di ≥ kxk♦+ 1, mâu thuẫn. Do đó, ta có
∂kxk♦ = {g ∈ Rn : kgk∗ ≤ 1,hg, xi = kxk♦}. (2.6) Vì một dưới-gradient là một phần tử của tập bên phải, ta đi chứng minh điều ngược lại. Cho g là một phần tử của tập bên phải. Vì kgk∗ ≤ 1, với mọi y ta có
kyk♦ ≥ hg, yi = hg, xi+hg, y−xi = kxk♦+hg, y −xi, vỡ vậy g là một dưới-gradient của k ã k♦ tại x.
Công thức của chúng ta cho dưới vi phân của chuẩn là đúng cho y = 0 và y 6= 0.
Vớ dụ 2.2. Cho Z là tập lồi đúng trong Rn và k ã k♦ là một chuẩn. Xột hàm
f(x) = min
i∈Z kx−zk♦.
Từ Ví dụ 1.2, f là một hàm lồi. Ta tính dưới vi phân của f tại x. Chọn bz ∈ Z sao cho kx−zkb ♦ = f(x). Vỡ Z đúng nờn zbtồn tại, mà chuẩn k ã k♦ không lồi chặt nên bz không duy nhất . Với mỗi y ta có
f(y) ≤ ky−zkb ♦,
và tại y = x bất đẳng thức trên trở thành một phương trình. Do đó, đối với mỗi g ∈ ∂f(x) ta thấy
ky −bzk♦ ≥ f(y) ≥ hg, y−xi.
suy ra g ∈ ∂kx−zkb ♦. Do đó,
∂f(x) ⊂ ∂kx−zkb ♦. Với mỗi g ∈ ∂f(x) và với mỗi z ∈ Z ta có
0 = f(z) ≥ f(x) + hg, z −xi = kx−zkb ♦+hg,zb−xi+hg, z −bzi.
Ta có g ∈ ∂kx−bzk♦, vì vậy ta có thể sử dụng các kết quả của tính toán trong Ví dụ 2.1. Ta có hai trường hợp. Nếu x = bz thì hai số hạng đầu tiên bên tay phải bằng 0. Nếux 6= z, thì theo (2.6) suy rab kx−bzk♦ = hg, x−bzi.
Trong cả hai trường hợp tổng của hai số hạng đầu tiên bên phải đều bằng 0. Rút gọn bất đẳng thức ta được
hg, z −bzi ≤ 0 với mọi z ∈ Z.
Do đó
g ∈ NZ(z).b
Suy ra
∂f(x) = NZ(bz)∩ ∂kx−zkb ♦. (2.7) Chú ý rằng trong trường hợp tổng quát điểm zb không nhất thiết duy nhất, vì vậy chúng ta cũng khẳng định rằng tập bên phải là như nhau cho tất cả hình chiếu z. Ta đã chứng minh rằng với mỗib zbthì mỗi dưới- gradient là một phần tử của tập bên phải (2.7). Vì kgk∗ ≤ 1, mỗi y ta có
f(y) = inf
z∈Zky −zk♦ ≥ inf
z∈Zhg, y−zi
= hg, y−xi+hg, x−bzi+ inf
z∈Zhg, z −bzi.
Vì g ∈ ∂kx−zkb ♦ ta có hg, x−zib = kx−bzk♦ = f(x). Từ (2.7) ta cũng có g ∈ NZ(z), vì vậyb hg,bz−zi ≥ 0 với mọi z ∈ Z. Do đó, công thức cuối cùng kéo theo
f(y) ≥ f(x) + hg, y−xi với mọi y, và g là một dưới-gradient.
Cụ thể, nếu k ã k♦ là chuẩn Euclide và x /∈ Z, khi đú điểm bz là hỡnh chiếu trực giao của x trên Z. Do đó
∂f(x) =NZ(ΠZ(x))∩∂kx−ΠZ(x)k.
Nhưng dưới vi phân của chuẩn chỉ chứa một phần tử:
∂kx−ΠZ(x)k= {x−ΠZ(x)}, và
x−ΠZ(x) ∈ NZ(ΠZ(x)).
Do đó, hàm khoảng cách là khả vi tại mỗi x ∈ Z và mỗi gradient của nó cho bởi
∇f(x) = x−ΠZ(x).
Ví dụ 2.3. Cho
f(x) = max
i∈I fi(x),
trong đó I là tập hữu hạn và fi là lồi và các hàm khả vi cho mỗi i ∈ I. Định nghĩa
Ib(x) ={i ∈ I :fi(x) =f(x)}.
Khi đó
∂f(x) = conv{∇fi(x) : i ∈ Ib(x)}.
Thật vậy, nếu s ∈ Ib(x) ta có
f(y) ≥ fs(y) ≥ fs(x) + h∇fs(x), y −xi = f(x) +h∇fs(x), y−xi.
Do đó ∇fs(x) ∈ ∂f(x). Vì dưới vi phân là tập lồi, do đó ta có conv{∇fi(x) : i ∈ Ib(x)} ⊂ ∂f(x).
Giả sử g ∈ ∂f(x) tồn tại sao cho
g /∈ conv{∇fi(x) : i ∈ Ib(x)}.
Theo [3, Theorem 2.14], ta có thể tách chặt g và bao lồi trên : tồn tại d 6= 0 và ε > 0 sao cho
hg, di ≥ max
i∈bI(x)
h∇fi(x), di+ε.
Do đó, với mọi τ > 0
f(x+τ d) ≥ f(x) +τhg, di ≥ f(x) +τ max
i∈bI(x)
h∇fi(x), di+τ ε. (2.8)
Cho τ > 0 đủ nhỏ, tồn tại r ∈ Ib(x) sao cho f(x+ τ d) = fr(x+τ d). Vì tính khả vi của fi, nên tồn tại các hàm số oi(τ) sao cho
fi(x+τ d) =fi(x) +τh∇fi(x), di+oi(τ) và oi(τ)/τ ↓ 0 khi τ ↓ 0. Do đó, cho τ > 0 nhỏ
f(x+τ d) ≤ f(x) +τ max
i∈bI(x)
h∇fi(x), di+ max
i∈bI(x)
oi(τ).
Kết hợp bất đẳng thức này với (2.8) ta được
f(x) +τ max
i∈bI(x)
h∇fi(x), di+ max
i∈I(x)b
oi(τ) ≥f(x) +τ max
i∈bI(x)
h∇fi(x), di+τ ε.
Chia cho τ và cho τ ↓ 0 ta được 0≥ ε, mâu thuẫn.
Ví dụ 2.4. Cho C là tập lồi đóng của Rn và ta xét hàm chỉ của C
δC(x) =
0 nếu x ∈ C +∞ nếu x /∈ C.
Hàm trên là hàm lồi. Ta tính dưới vi phân của δC tại một điểm x ∈ C. Ta cóg ∈ ∂δC(x) nếu và chỉ nếu δC(y)−δC(x) ≥ hg, y−xi với mọiy. Khi y /∈ C thì bất đẳng thức là tầm thường. Vì vậy, g là một dưới-gradient
của δC(ã) tại x khi và chỉ khi
hg, y −xi ≤ 0,với mọi y ∈ C.
Do đó
hg, di ≤ 0 với mọi d ∈ cone(C −x).
Ta thu được biểu diễn cho dưới vi phân của hàm chỉ như là nón pháp tuyến:
∂δC(x) = [cone(C −x)]◦ = NC(x).
Cụ thể, nếu K là nón lồi đóng, khi đó
∂δK(0) = K◦.