Tính lồi trong các phép toán - Tính lồi và vấn đề- 123docz.net

Hàm các giá trị thực mở rộng f là lõm khi−f là lồi, là lõm nghiêm ngặt khi−f là lồi nghiêm ngặt. Tính lõm do đó tương ứng với chiều ngược lại của bất đẳng thức 2.3.

Mộttổ hợp lồi của các phần tử x0,x1, ..,xp thuộc Rn là tổ hợp tuyến tính

∑ip=0λixi mà các hệ số λi không âm và thỏa mãn ∑ip=0λi = 1. Trong trường hợp với hai phần tử, tổ hợp lồi có thể viết dưới dạng(1−τ)x0+

τx1 vớiτ ∈[0,1].

Định lý 2.1(Tổ hợp lồi và bất đẳng thức Jensen).

(a) Tập C là lồi khi và chỉ khi nó chứa mọi tổ hợp lồi của các phần tử của nó.

(b) Hàm f là lồi đối với tập lồiC khi và chỉ khi với mọi điểmx0,x1, ..,xp

trongC ta có f p ∑ i=0 λixi ! ≤ p ∑ i=0 λif(xi) khiλi ≥0, p ∑ i=0 λi =1 (2.5)

Chứng minh. Trong (a), phần "nếu" là hiển nhiên từ định nghĩa của tập lồi. Xét một tổ hợp lồix=λ0x0+...+λpxp của các phần tử xi trong tập lồiC trong trường hợp p>1. Ta cần chỉ ra x∈C. Không mất tính tổng quát ta có thể giả sử rằng0<λi <1với mọii, vì nếu không khẳng định là tầm thường hoặc ta có thể đưa về trường hợp với hệ số bằng 0. Ta viết

xlại dưới dạng

x= (1−λp)∑ip=−01λi0xi+λpxp vớiλi0 = λi

1−λp

Trong đó 0<λi0 <1 và ∑ip=−01λi0 =1. Ta thấy x∈C nếu tổ hợp lồi x0 =

∑ip=−01λi0xi ∈C. Biểu diễn lại được áp dụng với x0 nếu cần thiết để chứng minh rằng nó nằm trên đoạn thẳng nốixp−1 với một tổ hợp lồi có số phần tử ít hơn trongC, và cứ tiến hành như thế ta được điều phải chứng minh. Lập luận tương tự ta cũng có (b).

Mọi hàm lồi trên tập lồiC có thể đồng nhất với hàm lồi trên toàn bộ Rn bằng cách định nghĩa f =∞, ∀x ∈/ C, định nghĩa tính lồi vẫn được thỏa mãn vì các bất đẳng thức trong 2.3 vẫn đúng khi f (x0) hoặc f(x1)

là∞.

Bài tập 2.1 (Miền hữu hiệu của các hàm lồi). Với một hàm lồi bất kì

f : Rn →R, domf là tập lồi. Hàm chính thường, lồi trên Rn là hàm có được bằng cách lấy một hàm hữu hạn, lồi trên một tập không rỗng, lồi

C⊂Rn và bổ sung giá trị∞ tại các điểm nằm ngoàiC.

Các chỉ số δC của tập C ⊂ Rn là lồi khi và chỉ khi C lồi. Các hàm lồi trên Rn tương ứng một-một với trên đồ thị của chúng là các tập lồi trong Rn+1.

Mệnh đề 2.1.1(Tính lồi của trên đồ thị). Hàm f :Rn →Rlồi khi và chỉ khi tập trên đồ thị của nó epif là lồi trong Rn×R, hoặc tương đương với tập trên đồ thị nghiêm ngặt của nó{(x,α)|f(x)<α <∞}là lồi.

Chứng minh. Tính lồi của epif có nghĩa là với mọi (x0,α0) ∈ epif và

(x1,α1)∈epif vàτ ∈(0,1). Điểm(xτ,ατ):= (1−τ) (x0,α0)+τ(x1,α1)

thuộc epif. Điều này cũng giống như với mọi f (x0)≤α0∈Rvà f (x1)≤

α1 ∈ R ta có f (xτ)≤ατ ∈R. Khi đó nó tương đương với các bất đẳng thức lồi 2.3 hoặc 2.4. Các dạng nghiêm ngặt sau là tương tự.

Với các hàm lõm trên Rn, nó có dưới đồ thị là một tập lồi trong Rn×R.

Định lý 2.2 (Các đặc trưng của tối ưu lồi). Trong bài toán cực tiểu hóa hàm lồi f trên Rn (f có thể nhận các giá trị thực mở rộng). Mọi nghiệm tối ưu địa phương đều là tối ưu toàn cục, và tập hợp mọi nghiệm tối ưu,

cụ thể là argminf, là lồi.

Ngoài ra, nếu f là lồi nghiêm ngặt và chính thường, nó không thể có nhiều hơn một nghiệm tối ưu, tức là: Tập argminf,nếu không rỗng, phải có một phần tử duy nhất.

Chứng minh. Với x0 và x1 thuộc argminf tức là f (x0) = f(x1) = inff, vớiτ ∈(0,1) qua bất đẳng thức lồi 2.3 ta có điểmxτ trong 2.1 thỏa mãn

f (xτ)≤(1−τ)inff +τinff =inff

ở đây bất đẳng thức nghiêm ngặt là không đúng. Vì vậyxτ ∈argminf và argminf là lồi. Khi f là lồi nghiêm ngặt và chính thường, ta thấy x0 và

x1 không thể khác nhau; khi đó argminf không thể chứa nhiều hơn một phần tử.

Nếu x0 vàx1 là những điểm của domf với f(x0) > f(x1), do đó hàm f

không đạt cực tiểu địa phương tạix0 vì mọi lân cận của x0 đều chứa các điểmxτ vớiτ ∈(0,1)và các điểm này thỏa mãn f (xτ)≤(1−τ) f (x0) +

τf(x1) < f (x0). Do đó, không có bất kì một nghiệm tối ưu địa phương nào ngoài argminf trong toàn bộ các nghiệm tối ưu của bài toán (nếu tồn tại).

2.2. Các tập mức và các phần giao

Mệnh đề 2.2.1 (Tính lồi của các tập mức). Cho hàm f :Rn →R, mọi tập mức có dạng lev≤α f và lev<α f là lồi.

Nếu các tập mức có dạng lev≥α f và lev>α f lồi thì f là lõm. Các tập có dạng lev=αf lồi khi hàm f đồng thời vừa lồi vừa lõm.

Ta kí hiệuhx,yilà các chuẩn trongRn

hx,yi=x1y1+...+xnyn vớix= (x1, ..,xn),y= (y1, ..,yn).

Định nghĩa 2.2.1 (Hàm afin, nửa mặt phẳng và nửa không gian). Một hàm f trên Rn được gọi là afin nếu nó sai khác hàm tuyến tính chỉ một hằng số.

f (x) =ha,xi+β vớia∈Rn vàβ ∈R.

Mọi hàm afin vừa lồi vừa lõm. Giống như các tập mức của các hàm afin, mọi tập có dạng{x| hx,ai ≤α}và{x| hx,ai ≥α}cũng như các tập {x| hx,ai <α} và {x| hx,ai>α} là lồi trong Rn và điều đó cũng đúng với tất cả các tập có dạng {x| hx,ai=α}. Với a6=0 và α hữu hạn, các tập này là các nửa không gian trongRn gồm các nửa không gian đóng và các nửa không gian mở liên hợp với chúng.

Mệnh đề 2.2.2(Phần giao, cực đại theo từng thành phần và giới hạn theo từng thành phần).

(a) T

i∈ICi lồi nếu mỗi tậpCi lồi

(b) supi∈Ifi lồi nếu mỗi hàm fi lồi

(c) supi∈I fi lồi nghiêm ngặt nếu mỗi hàm fi lồi nghiêm ngặt

(c) f lồi nếu f(x) =limsupvfv(x) với mọixvà mỗi fv là lồi

Chứng minh. Các khẳng định này suy ra trực tiếp từ Định nghĩa 2.1.1. Chú ý rằng (b) là trên đồ thị của (a), vì thế cực đại theo từng điểm của hệ các hàm tương ứng với việc lấy giao của các trên đồ thị của chúng.

Với một tập bất kìC⊂Rn. Tập hợp các điểm thỏa mãn hệ ràng buộc x∈Xvà      fi(x)≤0∀i∈ I1 fi(x) =0∀i∈ I2

Là lồi nếu tập X ⊂Rn lồi và các hàm fi là lồi với i ∈I1 nhưng afin với

i∈I2 .

Ví dụ 2.2.1(Các tập đa diện và các tập afin). Một tậpC⊂Rn được gọi làtập đa diệnnếu chúng biểu diễn được dưới dạng giao của họ hữu hạn các nửa không gian đóng hoặc các nửa mặt phẳng. Nói cách khác, nó thỏa mãn các ràng buộc tuyến tính như fi(x)≤0hoặc fi(x) =0với fi là các hàm afin.

C được gọi là tập afin nếu nó chỉ biểu diễn được dưới dạng giao của các nửa mặt phẳng. Tức là nó chỉ biểu diễn dưới các ràng buộc có dạng

fi(x) =0 với fi afin.

Các tập afin là một trường hợp của các đa diện , trong khi các tập đa diện là các tập đóng, lồi đặc biệt. Tập rỗng và toàn bộ không gian là các tập afin .

Ví dụ 2.2.2 (Đặc trưng của các tập afin). Với một tập không rỗngC ⊂ Rn, các tính chất sau tương đương.

(a) C là tập afin

(b) C là tập tịnh tiến M+p của không gian con tuyến tính M trong Rn bởi vector p.

(d) C chứa mọi cặp điểm nằm trên đường thẳng qua chúng: Nếux0 ∈C

vàx1∈C thì(1−τ)x0+τx1∈C, ∀τ ∈(−∞,∞).

2.3. Tiêu chuẩn kiểm tra tính lồi bằng đạo hàm

Trong phần này ta chỉ xét các hàm nhận các giá trị thực mở rộng.

Bổ đề 2.1(Bất đẳng thức về độ dốc). Hàm nhận các giá trị thực mở rộng

f trên khoảng C ⊂ R là lồi trên C khi và chỉ khi với một điểm tùy ý

x0 <y<x1 trong C ta có

f(y)− f(x0)

y−x0 ≤ f (x1)− f(x0)

x1−x0 ≤ f (x1)− f(y)

x1−y (2.6)

Với mọi x∈C, phân số 4x(y) := [f (y)− f(x)]/(y−x) là hàm không giảm của y∈C\ {x}. Tức là 4x(y0)<4x(y1) với mọi cách chọn y0 và

y1 không bằngxvày0 <y1.

Tương tự ta có tính lồi nghiêm ngặt được đặc trưng bởi các bất đẳng thức lồi nghiêm ngặt giữa hai phân số, và khi đó 4x(y) là một hàm tăng của

y∈C\ {x}.

Chứng minh. Tính lồi của hàm f tương đương với điều kiện sau

f(y)≤ x1−y

x1−x0 f (x0) +

y−x0

x1−x0 f(x1)khix0 <y<x1trongC (2.7) Đây là công thức 2.3 khi y là xτ với τ = (y−x0)/(x1−x0). Bất đẳng thức đầu tiên có được bằng cách trừ hai vế của 2.7 cho f (x0). Tương tự, bất đẳng thức thứ hai có được bằng cách trừ đi f(x1). Trường hợp lồi nghiêm ngặt là tương tự.

Định lý 2.3(Kiểm tra tính lồi bằng đạo hàm một chiều). Hàm khả vi f

trên một tập mởO⊂R. Một trong các điều kiện sau đây là điều kiện cần và đủ để f là lồi trên O.

(a) f0 không giảm trên O. Tức là: f0(x0)≤ f0(x1) khix0 <x1 trongO.

(b) f(y)≥ f(x) + f0(x) (y−x)với mọix,ytrong O.

(c) f00(x)≥0, ∀x∈O( với giả thiết nó khả vi đến cấp hai).

Tương tự ta có mỗi ràng buộc sau là điều kiện cần và đủ để f lồi nghiêm ngặt trongO.

(a’) f0 tăng trên O. Tức là: f0(x0)< f0(x1) khix0<x1 trong O.

(b’) f(y)> f (x) + f0(x) (y−x) với mọix6=ytrong O.

Điều kiện đủ(nhưng không là cần) của tính lồi nghiêm ngặt là

(c’) f00(x)>0, ∀x∈O( với giả thiết nó khả vi đến cấp hai).

Chứng minh. Sự tương đương giữa (a) và (c) khi f khả vi hai lần là hiển nhiên từ các phép tính sơ cấp. Và cũng tương tự với (a’) và (c’).

Nếu f là lồi,ta có

f0(x0)≤ f(x1)−f(x0)

x1−x0 = f(x0)−f(x1)

x0−x1 ≤ f0(x1) khix0<x1 trong O.

Vì tính đơn điệu của các phân số trong Bổ đề 2.1 ta được (a). Mặt khác, nếu (a) xảy ra ta có với mọi y ∈ O thì hàm gy(x) := f (x)− f(y)−

f0(y) (x−y)có g0y(x)≥0, ∀x∈(y,∞)∩Ovàg0y(x)≤0,∀x∈(−∞,y)∩

O. Khi đó gy không giảm ở bên phải củayvà không tăng ở bên trái củay

đo đógy đạt cực tiểu địa phương trênOtạiy. Điều này có nghĩa là (b) xảy ra. Xuất phát từ (b) ta xét họ các hàm afin ly(x) = f(y) + f0(y) (x−y).

Các chỉ số lày∈ O. Ta có f(x) =maxy∈Oly(x) ∀x∈Ovì thế f cũng lồi trên O theo 2.9(b).

Xét các điểm x0 <x1 trong O và điểm giữa xτ = (1−τ)x0+τx1 . Xét hàm afinl(x) = f (xτ) + f0(xτ) (x−xτ) ta có f(x0)>l(x0) và f (x1)>

l(x1) nhưng f (xτ) =l(xτ) = (1−τ)l(x0) +τl(x1) do đó

f(xτ)≤(1−τ) f (x0) +τf (x1).

Sau đây là một số ví dụ về hàm lồi hoặc lồi nghiêm ngặt có thể được kiểm tra bằng các tiêu chuẩn ở trên.

• f (x) =ax2+bx+c x ∈ (−∞,∞) lồi khi a≥0, lồi nghiêm ngặt khia>0

• f (x) =eax trên (−∞,∞), lồi nghiêm ngặt khia6=0

• f (x) =xr trên (0,∞) khi0≤r≤1, lồi nghiêm ngặt khi0<r<1 • −logxtrên (0,∞), lồi nghiêm ngặt cũng trên khoảng này

Để mở rộng các điều kiện của các hàm với x= (x1, .,xn). Ta sẽ chỉ ra các điều kiện trên các vector gradian(vecto đạo hàm) và các ma trận Hessian.

Định nghĩa 2.3.1(Vector gradian và ma trận Hessian). Cho hàm f khả vi. Các vector gradian và ma trận Hessian tạixxác định bởi

5f(x) := h ∂f ∂xj (x) in j=1 và52f(x):= h ∂2f ∂xi∂xj (x) in,n i,j=1. Ta nhắc lại một số khái niệm về ma trận:

Ma trận A gọi là nửa xác định dương nếu hz,Azi ≥0 với mọi z, và xác định dương nếuhz,Azi>0 ∀z6=0.

Vớiz= (z1, ..,zn)và A= (ai j)n×n ta có: hz,Azi=∑ni=1∑nj=1ai jzizj.

Định lý 2.4(Kiểm tra tính lồi bằng đạo hàm trong trường hợp đa chiều). Với một hàm khả vi f trên một tập mở O⊂Rn. Mỗi điều kiện sau là cần và đủ để hàm f lồi trênO:

(a) hx1−x0,5f (x1)− 5f (x0)i ≥0 ∀x0,x1∈ O

(b) f(y)≥ f(x) +h5f (x),y−xi ∀x,y∈O

(c) 52f (x) là nửa xác định dương với mọix∈O(f khả vi cấp hai) Với tính lồi nghiêm ngặt, điều kiện cần và đủ (a) giữ nguyên với bất đẳng thức nghiêm ngặt khi x0 6= x1, hoặc (b) với bất đẳng thức nghiêm ngặt khix6=y. Điều kiện đủ( nhưng không là cần) là sự xác định dương của ma trận Hessian trong (c) với mọix∈O.

Chứng minh. Ta đã biết rằng, f lồi trên Okhi và chỉ khi nó lồi trên mọi đoạn thẳng trong O. Từ đó ta có tính chất: với mọi cách chọn y∈ O và

z∈ Rn, hàm số g(t) = f(y+tz) là lồi trên mọi tập mở của giá trị t mà

y+tz∈ O. Ở đây, g0(t) =hz,5f(y+tz)i và g”(t) =z,52f(y+tz)z. Áp dụng Định lý 2.3 với hàmg ta có điều phải chứng minh.

Các hàm khả vi cấp hai lõm hoặc lõm nghiêm ngặt được đặc trưng bởi ma trân Hessian nửa xác định âm hoặc xác định âm.

Ví dụ 2.3.1(Các hàm tuyến tính cấp hai). Hàm f trên Rn làtuyến tính cấp hainếu nó biểu diễn được dưới dạng

Khi đó 5f (x) =Ax+a và 52f (x)≡A. Vì vậy, f lồi khi và chỉ khi A là nửa xác định dương. Ngoài ra, một hàm f có dạng này là lồi nghiêm ngặt khi và chỉ khiA xác định dương.

Ví dụ 2.3.2(Tính lồi của vecto lớn nhất và mũ-logarit). Vớix= (x1, ..,xn), các hàm :

vecmax(x):=max{x1, ..,xn}, logexp:=log(ex1 +..+exn)

là lồi trongRn nhưng không lồi nghiêm ngặt.

Chứng minh. Tính lồi của hàm f =logexpđược khẳng định bởi Định lý 2.4(c). Số hạng dạngδ(x) =∑nj=1exj thỏa mãn: z,52f(x)z= 1 σ(x) n ∑ j=1 exjz2j− 1 σ(x)2 n ∑ j=1 n ∑ i=1 e(xi+xj)z izj = 1 2σ(x)2 n ∑ i=1 n ∑ j=1 e(xi+xj) (zi−zj)2 ≥0

Tính lồi nghiêm ngặt là không đúng vì f (x+te) = f (x) +t với e = (1, ..,1). Cũng như hàm f =vecmaxlà cực đại theo từng điểm của n hàm tuyến tính x →xj là lồi theo 2.2.2(c) nhưng không lồi nghiêm ngặt do

f(λx) =λ f (x)vớiλ ≥0.

Ví dụ 2.3.3(Các chuẩn). Chuẩn trong Rn là hàm nhận giá trị thực mở rộngh(x) =kxksao cho

1. kλxk=|λ|.kxk 2. kx+yk ≤ kxk+kyk 3. kxk>0∀x6=0

Mọi hàmhlà lồi nhưng không lồi nghiêm ngặt. Các hình cầu tương ứng {x| kx−x0k ≤ρ} và {x| kx−x0k<ρ} là các tập lồi. Ví dụ như chuẩn Euclidean có dạng|x|= ∑nj=1 xj 21/2 . Các tính chất này vẫn đúng với các chuẩnlp có dạng kxkp := n ∑ j=1 xj p !1/p với1≤ p<∞vàkxk∞ :=maxj=1..n xj. (2.8)

Chứng minh. Ta thấy các chuẩn thỏa mãn các bất đẳng thức lồi trong 2.3, nhưng không nghiêm ngặt khi x0 = 0,x1 6= 0. Các hình cầu là lồi giống như tịnh tiến của các tập mức của các hàm lồi. Với mỗi p∈[1,∞]

hàmh(x) =kxkp thỏa mãn các điều kiện về chuẩn và ta cóh 12x+12y≤ 1

2h(x) + 12h(y). Tiếp theo ta cần chỉ ra tính lồi của h hoặc tương đương với nó là tính lồi của epih với epih= {λ(x,1)|x∈B,λ ≥0}, trong đó

B= n

x| kxkp≤1

. Tính lồi của epihcó được từ công thức xác định nó khiBlà tập lồi. Với p=∞ta cóBlà một hộp, khi p∈[1,∞) nó là lev≤1g

với hàm lồig(x) =∑nj=1xj

. Vì vậy, trong mọi trường hợp ta đều có B là tập lồi nên epihlà lồi hay các hình cầu trên là các tập lồi.

2.4. Tính lồi trong các phép toán

Tính chất 2.4.1 (Phép cộng và nhân vô hướng). Với các hàm lồi fi : Rn →Rvà các hệ sốλi ≥0, hàm ∑m

i=1λifi là lồi. Nó là lồi nghiêm ngặt nếu có ít nhất một chỉ số i vớiλi >0và fi lồi nghiêm ngặt

Tính chất 2.4.2(Các tập tích và các hàm tách được).

(a) Nếu C =C1×...×Cm và mỗi Ci lồi trong Rni thì C là lồi trong Rn1 ×..×Rnm. Đặc biệt, mọi hộp trongRn là tập đóng và lồi.

(b) Nếu f (x) = f1(x1) +..+fm(xm) vớix= (x1, ..,xm) trongRn1×..× Rnm với mỗi fi lồi thì f là lồi. Nếu mỗi fi lồi nghiêm ngặt thì f là lồi nghiêm ngặt.

Tính chất 2.4.3(Tính lồi trong từng thành phần).

(a) Nếu f(x) =g(Ax+a)với một hàm lồig:Rm →Rvà mọi cách chọn

A∈Rm×n vàa∈ Rm thì f là lồi.

(b) Nếu f (x) = θ(g(x)) với hàm lồi g : Rn → R và một hàm không giảm, lồiθ :R→R(Ta quy ước:θ(∞) =∞,θ (−∞) =infθ ) thì

f là lồi. Mặt khác, f là lồi nghiêm ngặt khi glồi nghiêm ngặt và

θ là hàm tăng.

(c) Giả sử f(x) =g(F(x)) với hàm lồig:Rm →Rvà ánh xạF :Rn →