Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 70 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
70
Dung lượng
3,32 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Khoa Tốn - Tin học CÁC PHƯƠNG PHÁP PROXIMAL GRADIENT VÀ ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC Phạm Mạnh Chinh NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHẠM DUY KHÁNH THÀNH PHỐ HỒ CHÍ MINH - 2022 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Khoa Toán - Tin học CÁC PHƯƠNG PHÁP PROXIMAL GRADIENT VÀ ỨNG DỤNG CHUYÊN NGÀNH: TOÁN ỨNG DỤNG KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC Phạm Mạnh Chinh NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHẠM DUY KHÁNH THÀNH PHỐ HỒ CHÍ MINH - 2022 iii Lời cam đoan Tôi xin cam đoan luận văn tốt nghiệp tơi thực Các kết luận văn tơi thực khơng chép luận văn khác Các thơng tin trích dẫn luận văn rõ nguồn gốc Trong trình thực luận văn, tơi kế thừa kết nhiều báo, sách tham khảo, khóa học online, với trân trọng biết ơn Tơi xin chịu tồn trách nhiệm lời cam đoan Sinh viên thực Phạm Mạnh Chinh v Lời cảm ơn Đầu tiên, xin gửi lời cảm ơn chân thành, sâu sắc đến thầy Phạm Duy Khánh Thầy giúp lấy lại cảm giác mơn tốn Thầy tin tưởng nhận, giao đề tài hướng dẫn trình làm luận văn sức học tơi khơng tốt, tạo điều kiện cho tơi làm hồn thành khóa luận Tơi xin gửi lời cảm ơn quý thầy cô dạy dỗ, truyền cảm hứng cho suốt thời gian học phổ thông đại học, thầy cô trường hè tối ưu Đại học Sư phạm Tp.HCM Xin cảm ơn nhận xét, góp ý q thầy Hội đồng chấm luận văn, giúp tơi hồn thiện luận kiến thức thân Xin gửi lời cảm ơn đến cá nhân, tập thể mà tơi tham khảo trích dẫn sản phẩm họ Tôi xin gửi lời cảm ơn đến gia đình, người thân, anh chị, bạn bè, người quen ủng hộ, giúp đỡ tơi q trình học tập hồn thành luận văn Khơng có tin tưởng, động viên, giúp đỡ này, chắn khơng thể có ngày hơm Xin chân thành cảm ơn lần chúc điều tốt lành đến người Sinh viên thực Phạm Mạnh Chinh Tóm tắt nội dung Xét tốn tối ưu (có ràng buộc) sau f (x) Nếu f hàm khả vi, có nhiều phương pháp để giải tốn này, kể đến Gradient Descent, Linear Regression học máy, Tuy nhiên f khơng khả vi sao? Khi đó, người ta "tách"hàm f thành hai hàm g h, toán lúc min{f (x) = g(x) + h(x)} Với hai giả thiết quan trọng g khả vi cịn h khơng khả vi Lúc này, xuất khái niệm Subgradients, ánh xạ proximal, Và đời phương pháp giải toán tối ưu Luận văn giới thiệu hai phương pháp proximal gradient, proximal gradient cải biên ứng dụng vào toán bổ sung ma trận (matrix completion) dùng "bài tốn Netflix"và chỉnh sửa ảnh nhiễu Hình 1: tốn Netflix Hình 2: Ảnh gốc nhiễu Ảnh "bài tốn Netflix"được tìm thấy [22], nguồn ảnh gốc nhiễu: https://cdn vjshop.vn/tin-tuc/nhieu-anh-la-gi-cach-khu-nhieu-anh/cach-khu-nhieu-anh-11 jpg 12 Chương Phương pháp Proximal Gradient Ví dụ 2.1.4 (Hàm tập lồi) Cho hàm δC (x), C ⊆ E tập khác rỗng lồi Khi hàm liên hợp δC∗ hàm tựa tập C, tức δC∗ (y) = sup yT x x∈C Ví dụ 2.1.5 (Chuẩn) Hàm f : E → R cho f (x) = ∥x∥ Khi hàm liên hợp f ∗ hàm cầu đơn vị chuẩn đối ngẫu, nghĩa ( ,∥y∥∗ ≤ ∗ f (y) = +∞ ,∥y∥∗ > Tiếp sau đây, ta đề cập đến phép toán hàm liên hợp Định lý 2.1.6 ([3], [6]) Cho f : E × E → R xác định f (x1 , x2 ) = f1 (x1 )+f2 (x2 ), với fi : E → R hàm thường Khi f ∗ (y1 , y2 ) = f1∗ (y1 ) + f2∗ (y2 ), ∀(y1 , y2 ) ∈ E × E Định lý 2.1.7 ([3]) Cho g : E → R α > y a) Cho f (x) = αg(x), f (y) = αg , y ∈ E α x , f ∗ (y) = αg ∗ (y) , y ∈ E b) Cho f (x) = αg α ∗ ∗ Sau tìm hiểu cách sơ lược hàm liên hợp, ta tìm hiểu liên hợp hai lần hàm f Xét hàm f : E → R, ta có f ∗∗ (x) = sup xT y − f ∗ (y) , x ∈ E y∈dom(f ∗ ) Khi theo tính chất 2.1.2, f ∗∗ hàm lồi đóng Câu hỏi đặt liệu việc liên hợp hai lần hàm có thu hàm ban đầu hay không ? Ta đến với định lý sau Định lý 2.1.8 ([3]) Cho f : E → R hàm thường, đóng lồi Khi f (x) = f ∗∗ (x), ∀x ∈ E Một cách tương đương, ta có epif = epif ∗∗ Chứng minh định lý tìm thấy [6] Tiếp theo, ta tìm hiểu subgradient hàm liên hợp, ta có định lý sau 13 2.1 Ánh xạ proximal Định lý 2.1.9 ([3]) Cho f : E → R hàm thường, đóng lồi Khi với x ∈ E, y ∈ E∗ , mệnh đề sau tương đương (i) x ∈ ∂f ∗ (y) (iii) xT y = f (x) + f ∗ (y) (ii) y ∈ ∂f (x) Chứng minh (i) ⇒ (ii): Giả sử x ∈ ∂f ∗ (y), ta có f ∗ (z) ≥ f ∗ (y) + xT (z − y), ∀z ∈ E Theo định lý 2.1.8, ta lại có n o f (x) = f ∗∗ (x) = sup xT z − f ∗ (z) = xT y − f ∗ (y) z Khi này, với u ∈ E, ta có f (u) = f ∗∗ (u) = sup n o uT z − f ∗ (z) z∈dom(f ∗ ) ≥ uT y − f ∗ (y) = (u − x)T y + xT y − f ∗ (y) = (u − x)T y + f (x) Khi y ∈ ∂f (x) (ii) ⇒ (iii): Giả sử y ∈ ∂f (x), ta có f (z) ≥ f (x) + yT (z − x), ∀z ∈ E ⇔yT x ≥ f (x) + yT (z) − f (z), ∀z ∈ E ⇔yT x ≥ f (x) + f ∗ (y) Theo bất đẳng thức Fenchel (định lý 2.1.3), ta có yT x = f (x) + f ∗ (y) (iii) ⇒ (i): Giả sử xT y = f (x) + f ∗ (y), ta có n o f ∗ (z) = sup zT u − f (u) ≥ zT x − f (x) = xT (z − y) + f ∗ (y) z∈dom(f ) Do x ∈ ∂f ∗ (y) Vậy ta có đpcm Định lý 2.1.10 ([3]) Cho f : E → R hàm thường, đóng lồi mạnh với tham số m > chuẩn ∥·∥ Khi 14 Chương Phương pháp Proximal Gradient • f ∗ xác định với y (tức dom(f ∗ ) = Rn ) • f ∗ khả vi nơi, với véc-tơ gradient có dạng ∇f ∗ (y) = argmaxx yT x − f (x) • ∇f ∗ liên tục Lipschitz với số chuẩn đối ngẫu ∥·∥∗ , nghĩa m ∗ ∇f (y) − ∇f ∗ (y′ ) ≤ y − y′ , ∀y, y′ ∗ m 2.1.2 Ánh xạ proximal Định nghĩa 2.1.11 ([2], [12], Ánh xạ proximal) Cho hàm f : E → R lồi, đóng Ánh xạ proximal f toán tử cho proxf (x) = argminu∈E f (u) + ∥u − x∥ , ∀x ∈ E (2.1) Định lý 2.1.12 ([2]) Cho hàm f : E → R hàm thường, đóng lồi Khi ánh xạ proximal (2.1) tồn với x ∈ E 1 Chứng minh Xét g(u) = f (u) + ∥u − x∥22 Ta có hàm h(u) = ∥u − x∥22 hàm 2 lồi mạnh, f (u) hàm lồi Giả sử g ∈ ∂f (u) Khi đó, với u1 , u2 ∈ E, ta có f (u2 ) ≥ f (u1 ) + g T (u2 − u1 ) 15 2.1 Ánh xạ proximal Hơn theo định lý 1.2.20, ta có với m > cho trước h(u2 ) ≥ h(u1 ) + ⟨u1 − x, u2 − u1 ⟩ + m ∥u1 − u2 ∥2 Suy g(u2 ) ≥ g(u1 ) + ⟨v, u2 − u1 ⟩ + m ∥u1 − u2 ∥2 với v ∈ ∂(g + h)(u1 ) Nên theo định lý 1.2.20, g hàm lồi mạnh, g hàm đóng thường Theo định lý 1.2.22, ta có điểm cực tiểu g tồn ánh xạ proxf tồn Để hình dung cách tìm ánh xạ proximal, ta tìm hiểu ví dụ sau Ví dụ 2.1.13 Xét hàm h : Rn → R cho h(x) = 0, proxh (x) = x Ở ví dụ trên, ta tìm tốn tử proximal thơng qua định nghĩa, cụ thể 1 2 ∥u − x∥ = {x} proxh (x) = argminu h(x) + ∥u − x∥ = argminu 2 Sau đây, ta tìm hiểu số tính chất ánh xạ proximal Trước hết ta nói đặc trưng quan trọng ánh xạ proximal Định lý 2.1.14 ([2]) Cho f : E → R hàm thường, đóng lồi Khi với x, u ∈ E, ta có u = proxf (x) ⇔ x − u ∈ ∂f (u) Chứng minh Ta có u = proxf (x) = argminv∈E f (v) + ∥v − x∥ Theo định lý 1.2.21, ta có ∈ ∂ f (u) + ∥u − x∥ = ∂f (u) + u − x ⇔ x − u ∈ ∂f (u) Tiếp theo số ánh xạ proximal cho số toán mà việc chứng minh dựa định lý tối ưu Fermat (định lý 1.2.21) Ví dụ 2.1.15 (Hàm toàn phương) Cho f : Rn → R xác định f (x) = xT Ax + bT x + c Trong A ma trận đối xứng xác định dương, b ∈ Rn , c ∈ R Khi với 16 Chương Phương pháp Proximal Gradient t>0 proxtf (x) = (I + tA)−1 (x − tb) Ví dụ 2.1.16 (Chuẩn Euclide) Cho f : Rn → R xác định f (x) = ∥x∥2 Khi với t > ! t 1− x, ∥x∥2 ≥ t ∥x∥2 proxtf (x) = 0, ∥x∥ < t Ví dụ 2.1.17 (Logarithmic barrier) Cho f : Rn++ → R định f (x) = − n X log xi i=1 Khi với t > proxtf (x)i = xi + p x2i + 4t , i = 1, n Ta đề cập đến số phép tính với ánh xạ proximal Định lý 2.1.18 ([2], Tổng tách được) Cho f : Rn × Rn → R × R xác định " # x = g(x) + h(y), ∀x, y ∈ Rn f y " # " # proxg (x) x Khi proxf = y proxh (y) Chứng minh " # 1 x 2 proxf = argminu,v∈Rn g(u) + h(v) + ∥u − x∥ + ∥v − y∥ y 2 1 2 = argminu g(u) + ∥u − x∥ × argminv h(v) + ∥v − y∥ 2 " # proxg (x) = proxg (x) × proxh (y) = proxh (y) 17 2.1 Ánh xạ proximal Mệnh đề 2.1.19 ([2], Phép vị tự tịnh tiến đối số) Cho g : E → R hàm thường Cho a ̸= 0, b ∈ E Xét f (x) = g(ax + b), 1 proxa2 g (ax + b) − b proxf (x) = a Mệnh đề 2.1.20 ([2], Phép nhân vô hướng "phải") Cho g : E → R hàm x thường, λ > Xét f (x) = λg Khi λ x proxf (x) = λproxλ−1 g λ Chứng minh ( ) u proxf (x) = argminu∈E λg + ∥u − x∥ λ ! u 1
u − x = argminu∈E λ2 λ−1 g + λ λ ( ) u u − x = argminu∈E λ−1 g + λ λ Đặt u = z, λ ( proxf (x) = λargminz∈E
2 ) z − x x −1 λ g (z) + = λproxλ−1 g λ λ Mệnh đề 2.1.21 ([2], Phép cộng với hàm tuyến tính) Cho g : E → R hàm thường Xét f (x) = g(x) + aT x Khi proxf (x) = proxg (x − a) Mệnh đề 2.1.22 ([2], Phép cộng với hàm toàn phương) Cho g : E → R hàm µ thường Xét f (x) = g(x) + ∥x − a∥2 Khi proxf (x) = proxθg θx + (1 − θ)a , θ = 1+µ 18 Chương Phương pháp Proximal Gradient Định lý cho ta thấy mối quan hệ ánh xạ proximal hàm thường, lồi đóng với hàm liên hợp Định lý 2.1.23 ([2], Khai triển Moreau) Cho f : E → R hàm thường, lồi đóng Khi x = proxf (x) + proxf ∗ (x), ∀x ∈ E Chứng minh Với x ∈ E, đặt u = proxf (x), theo định lý 2.1.14 định lý 2.1.9, ta có x − u ∈ ∂f (u) ⇔ u ∈ ∂f ∗ (x − u) ⇔ x − u = proxf ∗ (x) Vậy x = proxf (x) + proxf ∗ (x), ∀x ∈ E Định lý trường hợp mở rộng định lý khai triển Moreau Định lý 2.1.24 ([2], Khai triển Moreau mở rộng) Cho f : E → R hàm thường, đóng lồi Khi với λ > 0, ta có x proxλf (x) + λproxλ−1 f ∗ = x, ∀x ∈ E λ Chứng minh Theo khai triển Moreau cho hàm λf , ta có proxλf (x) + prox(λf )∗ (x) = x, ∀x ∈ E (1) x , áp dụng mệnh đề 2.1.20, ta có Mà định lí 2.1.7, cho ta (λf ) (x) = λf λ x prox(λf )∗ (x) = λproxλ−1 f ∗ λ ∗ ∗ Khi (1) trở thành x proxλf (x) + λproxλ−1 f ∗ = x, ∀x ∈ E λ Tiếp sau đây, ta nói ánh xạ proximal cua hàm hợp với ánh xạ affine định lý phát biểu sau Định lý 2.1.25 ([2]) Cho f : Rm → R hàm thường, đóng lồi Xét f (x) = g(Ax + b) với b ∈ Rm A : V → Rm phép biến đổi tuyến tính thỏa AAT = 19 2.1 Ánh xạ proximal αI, α > Khi T proxf (x) = x − A Ax + b − proxαg (Ax + b) , ∀x ∈ V α m Ví dụ 2.1.26 Cho g : E → R hàm thường, đóng lồi Cho h i f : E → R xác định f (x1 , , xm ) = g(x1 + + xm ) Xét A = I I I thỏa AAT = mI Khi ta có f (x1 , , xm ) = g(A(x1 , , xm )) Áp dụng định lý 2.1.25, ta có m m X X 1 proxf (x1 , , xm )i = xi − xj + proxmg xj , m j=1 m j=1 2.1.3 i = 1, m Phép chiếu Định nghĩa phép chiếu đề cập Điều thú vị phép chiếu x lên tập C khác rỗng thực chất ánh xạ proximal hàm δC proxδC (x) = argminu∈E δC (u) + ∥u − x∥ = argminu∈C ∥u − x∥2 = PC (x) (2.2) Ở mục này, ta nói kết phép chiếu tập khác nhau, cụ thể cầu với chuẩn tương ứng Ví dụ 2.1.27 (Chuẩn Euclide) Cho C = {x ∈ Rn : ∥x∥ ≤ 1} Khi x ,∥x∥ > PC (x) = ∥x∥ x ,∥x∥ ≤ Ví dụ 2.1.28 (Chuẩn l1 ) Cho C = {x ∈ Rn : ∥x∥1 ≤ 1} Khi PC (x) = x ∥x∥1 ≤ Ngược lại xk − λ , xk < λ PC (x)k = sign(xk ) max{|xk | − λ, 0} = , −λ ≤ xk ≤ λ xk + λ , xk < −λ Trong λ nghiệm phương trình n X k=1 max{|xk | − λ, 0} = 20 Chương Phương pháp Proximal Gradient Ta chứng minh ví dụ dựa vào điều kiện KKT cho toán thỏa điều kiện đối ngẫu mạnh kết thu từ ví dụ 1.2.6 2.1.4 Các hàm tựa, chuẩn, khoảng cách Sau tìm hiểu số kết phép chiếu tập hợp thường gặp, ta áp dụng vào việc tìm tốn tử proximal hàm tựa, hàm chuẩn hàm khoảng cách dựa kết phép chiếu chúng Mệnh đề 2.1.29 ([2], [6]) Cho C ⊆ E tập khác rỗng, đóng lồi Cho f : C → R hàm tựa tập C Khi với x ∈ E, với t > 0, ta có x proxtf (x) = x − tPC t Để rõ ứng dụng mệnh đề này, ta xét ví dụ sau Mệnh đề 2.1.30 ([2], Chuẩn) Cho f : E → R xác định f (x) = ∥x∥ Với t > 0, ta có x proxtf (x) = x − tPB = x − PtB (x) t Trong B = {y ∈ Rn : ∥y∥∗ ≤ 1} ( ,∥y∥∗ ≤ Chứng minh Theo ví dụ 2.1.5, ta có f ∗ (y) = δB (y) = ∞ ,∥y∥∗ > Mặt khác, theo định lý khai triển Moreau mở rộng (định lý 2.1.24), định lý 2.1.7 kết từ biểu thức 2.2, ta có x x proxtf (x) = x − tproxt−1 f ∗ = x − tPB = x − PtB (x) t t Trong tB = {x ∈ Rn : ∥x∥∗ ≤ t} Ví dụ 2.1.31 (Chuẩn l1 ) Cho hàm f : E → R+ xác định f (x) = ∥x∥1 , với t > xi − t , xi ≥ t proxtf (x)i = sign(xi ) max{|xi | − λ, 0} = ,|xi | ≤ t xi + t , xi ≤ −t 2.2 Giới thiệu phương pháp proximal gradient 21 Ví dụ chứng minh dựa mệnh đề 2.1.30 ví dụ 2.1.28, sử dụng khai triển Moreau mở rộng mối liên hệ (2.2) Ở đây, toán tử proxh cịn gọi tốn tử "ngưỡng mịn" Trong khơng gian metric với chuẩn bất kì, khoảng cách từ điểm x đến điểm a cho trước xác định hàm f : E → R+ cho f (x) = ∥x − a∥ Ta tìm hiểu tốn tử proximal hàm Mệnh đề 2.1.32 ([2]) Cho f : E → R+ xác định f (x) = ∥x − a∥ , a ∈ E Khi với t > proxtf (x) = x − PtB (x − a) Từ đó, ta có số kết tốn tử proximal liên quan đến hàm khoảng cách Euclide từ điểm đến tập Mệnh đề 2.1.33 Cho C ⊆ E tập khác rỗng, đóng lồi Cho t > xét hàm khoảng cách d(x) = inf y∈C ∥x − y∥2 Khi với x ∈ E t > 0, ta có x + t P (x) − x , d(x) > t C d(x) proxtd (x) = PC (x) , Trường hợp lại Mệnh đề 2.1.34 Cho tập C ⊆ E khác rỗng, đóng lồi t > Xét hàm f (x) = d2 (x) với d(x) = inf y∈C ∥x − y∥2 hàm khoảng cách Khi proxtf (x) = t x+ PC (x) 1+t 1+t Chứng minh hai mệnh đề tìm thấy [2] 2.2 Giới thiệu phương pháp proximal gradient Xét tốn tối ưu khơng ràng buộc với hàm mục tiêu "tách"thành hai hàm sau min{f (x) = g(x) + h(x)} (2.3) x∈E Trong g : E → R h : E → R hàm đóng, thường lồi, nữa, g khả vi, dom(g) = Rn h có ánh xạ proximal khơng đắt Ta có Mệnh đề 2.2.1 ([4]) Bước cập nhật tổng quát có dạng xk+1 = proxtk h (xk − tk ∇g(xk )) 22 Chương Phương pháp Proximal Gradient Trong (i) tk > bước nhảy vịng lặp thứ k, số xác định phương pháp line search (ii) Thuật tốn điểm x0 không chấp nhận (tuy nhiên xk ∈ dom(f ) = dom(h) với k ≥ 1) Để giải thích cho phương pháp này, ta xét bước cập nhật x+ sau x+ = proxth x − t∇g(x) , t > Theo định nghĩa ánh xạ proximal, ta có + x = argminu∈E th(u) + u − x + t∇g(x) 2 t = argminu∈E h(u) + u − x + t∇g(x) + g(x) − ∇ g(x) 2t T = argminu∈E h(u) + g(x) + ∇g(x) (u − x) + ∥u − x∥2 2t Khi x+ điểm cực tiểu hàm h(u) cộng với mơ hình tồn phương lân cận x hàm g(u) Vậy thuật toán phương pháp proximal gradient sau • Khởi tạo: Chọn x0 ∈ int(dom(f )), tk = Lk • Bước cập nhật tổng quát: Với k = 0, 1, , thực bước sau Chọn tk > 0; Lập bước cập nhật tổng quát xk+1 = proxtk h (xk − tk ∇g(xk )) Các ví dụ sau cho ta thấy bước cập nhật tổng quát phương pháp proximal gradient ba mơ hình tương ứng với ba phương pháp đặc biệt Ví dụ 2.2.2 (Phương pháp Gradient) Xét toán (2.3), h(x) = 0, ∀x ∈ E Khi tốn ta xét đến tốn tối ưu trơn khơng ràng buộc g(x) x∈E Với bước cập nhật tổng quát xk+1 = xk − tk ∇g(xk ) 23 2.2 Giới thiệu phương pháp proximal gradient Chứng minh Dựa bước cập nhật tổng quát phương pháp proximal gradient ví dụ 2.1.13, ta có xk+1 = proxtk h (xk − tk ∇g(xk )) = xk − tk ∇g(xk ) Ví dụ 2.2.3 (Phương pháp phép chiếu gradient) Xét tốn (2.3), h(x) = δC (x) Khi toán ta xét đến toán tối ưu lồi, trơn có ràng buộc g(x) x∈C Với bước cập nhật tổng quát xk+1 = PC xk − tk ∇g(xk ) Chứng minh Dựa bước cập nhật tổng quát phương pháp proximal gradient biểu thức (2.2), ta có xk+1 = proxtk h (xk − tk ∇g(xk )) = PC xk − tk ∇g(xk ) Nếu ta xem bước cập nhật x x+ = PC x − t∇g(x) Ta minh họa phương pháp hình ảnh sau Ví dụ 2.2.4 (Ngưỡng mịn (soft-thresholding) - ISTA) Xét tốn (2.3), h(x) = ∥x∥1 Khi toán ta xét đến toán tối ưu quy hóa l1 g(x) +∥x∥1 x∈E Với bước cập nhật tổng quát xk+1 = proxtk h (xk − tk ∇g(xk )) 24 Chương Phương pháp Proximal Gradient ui − tk Trong proxtk h (u)i = sign(ui ) max{|ui | − tk , 0} ui + tk , ui ≥ tk ,|ui | ≤ tk , ui ≤ −tk Giống hai phương pháp vừa nêu, dựa bước cập nhật tổng quát phương pháp proximal gradient ví dụ 2.1.31, suy điều phải chứng minh Bước cập nhật x+ phương pháp ISTA minh họa sau 2.3 Phương pháp proximal với bước nhảy cố định Như tìm hiểu, phương pháp proximal gradient thường cập nhật theo hai cách Ở mục ta đề cập đến việc xác định bước cập nhật với bước nhảy cố định Xét toán tối ưu min{f (x) = g(x) + h(x)} (2.4) x∈E Với giả thiết (i) h : E → R hàm thường, đóng lồi (do tốn tử proxth định nghĩa tốt) (ii) g : E → R hàm thường, đóng lồi Hơn g khả vi với dom(g) = Rn hàm L − smooth với chuẩn Euclide, nghĩa với L > 0, theo mệnh đề 1.1.15 L xT x − f (x) hàm lồi m (iii) Tồn số m ≥ cho g(x) − xT x hàm lồi Hơn nữa, m > g hàm lồi mạnh với chuẩn Euclide (iv) Giá trị tối ưu f ∗ đạt hữu hạn x∗ 25 2.3 Phương pháp proximal với bước nhảy cố định Từ giả thiết (ii), (iii), (iv) hàm g, ta suy tính chất sau Nhận xét 2.3.1 (Chặn dưới) Với m ≥ 0, hàm g(x) − g(y) ≥ g(x) + ∇g(x)T (y − x) + m T x x hàm lồi, suy m ∥x − y∥2 , ∀x, y ∈ E (2.5) Trong đó, m = theo định lý đặc trưng cấp hàm lồi (định lý 1.1.6) giả thiết g hàm lồi, ta suy (2.5) Nếu m > g hàm lồi mạnh, theo định lý 1.2.20, ta có (2.5) Nhận xét 2.3.2 (Chặn trên) Hàm L T x x − g(x) hàm lồi, suy g(y) ≤ g(x) + ∇g(x)T (y − x) + L ∥x − y∥2 , ∀x, y ∈ E (2.6) Trong đó, (2.6) có việc áp dụng định lý đặc trưng cấp hàm lồi L T x x − g(x) (định lý 1.1.6) Một ánh xạ quan khác lý thuyết phương pháp proximal gradient ánh xạ gradient, định nghĩa sau Định nghĩa 2.3.3 ([4], Ánh xạ gradient) Giả sử g, h hàm thỏa điều kiện toán (2.4), ta định nghĩa ánh xạ gradient toán tử Gt : int(dom(f )) → E sau x − proxth (x − t∇g(x)) , ∀x ∈ int(domf ) (2.7) Gt (x) = t Ta xem Gt (x) "bước nhảy trái dấu"của bước cập nhật phương pháp proximal gradient này, tức x+ = proxth x − t∇g(x) = x − tGt (x) Nhận xét 2.3.4 Ta có vài nhận xét sau (i) Trong trường hợp tổng quát, Gt (x) không gradient subgradient hàm f = g + h (ii) Từ định lý 2.1.14, ta có x − tGt (x) = proxth x − t∇g(x) ⇔Gt (x) − ∇g(x) ∈ ∂h(x − tGt (x)) ⇔Gt (x) ∈ ∇g(x) + ∂h(x − tGt (x)) 26 Chương Phương pháp Proximal Gradient (iii) Gt (x) = x điểm cực tiểu f (x) = g(x) + h(x) Chứng minh.Từ biểu thức (2.7), ta có Gt (x) = ⇔ x = proxth (x − t∇g(x)) Áp dụng định lý 2.1.14, ta thu x = proxth (x − t∇g(x)) ⇔ −∇g(x) ∈ ∂h(x) ⇔ ∈ ∇g(x) + ∂h(x) Khi theo định lý 1.2.21, ta có x điểm cực tiểu hàm f (x) = g(x) + h(x) Các hệ tính bị chặn hàm toàn phương hàm g sau giúp ta tìm hiểu hội tụ phương pháp proximal gradient tốn (2.4), từ giúp ta chọn bước nhảy phù hợp Thay y = x − tGt (x) vào (2.5) (2.6), ta có mt2 Gt (x)
2 ≤ g x − tGt (x) − g(x) + t∇g(x)T Gt (x) ≤ Lt Gt (x)
2 2 2 Nhận xét 2.3.5 Nếu < t ≤ (2.8) , từ (2.6), ta suy L t g x − tGt (x) ≤ g(x) − t∇g(x)T Gt (x) + Gt (x)
2 (2.9) Khi tGt (x) ̸= mt ≤ 1, với z ∈ E, ta có m t f (x − tGt (x)) ≤ f (z) + Gt (x)T (x − z) − Gt (x)
2 − ∥x − z∥22 2 Chứng minh Từ (2.8), kết hợp với < t ≤ (2.10) tGt (x) ̸= 0, ta có L mt2 Gt (x)
2 ≤ Lt Gt (x)
2 ⇒ mt ≤ Lt ≤ 2 2 Mặt khác, cộng hai vế (2.9) với h(x − tGt (x)), ta có t f (x − tGt (x)) ≤ g(x) − t∇g(x)T Gt (x) + Gt (x)
2 + h(x − tGt (x)) Từ (2.5), ta lại có g(x) ≤ g(z) − ∇g(x)T (y − x) − f (x − tGt (x)) ≤g(z) − ∇g(x)T (y − x) − + h(x − tGt (x)) m ∥x − y∥2 nên m ∥x − y∥2 − t∇g(x)T Gt (x) + t Gt (x)
2 2