Để giải quyết các vấn đề trên ta nghiêncứu bài toán quy hoạch phi tuyến không ràng buộc có dạng min{f x : x ∈ Rn}Trong đó Rn là một không gian vector, f : Rn → R là một hàm phi tuyến cho
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2
LUẬN VĂN THẠC SĨ TOÁN HỌC
Người hướng dẫn khoa học: PGS TS NGUYỄN HỮU ĐIỂN
HÀ NỘI, 2016
Header Page 1 of 132.
Trang 2LỜI CẢM ƠN
Để hoàn thành bản luận văn này tôi đã nhận được sự giúp đỡ tolớn của Thầy, Cô giáo, gia đình và bạn bè xung quanh Tôi xin bày tỏlòng kính trọng và biết ơn sâu sắc tới thầy giáo hướng dẫn PGS TS.Nguyễn Hữu Điển, Khoa Toán - Cơ - Tin học, Trường Đại học khoahọc tự nhiên, ĐHQG Hà Nội Trong quá trình hướng dẫn đã ân cầnđộng viên, giúp đỡ chỉ bảo tận tình cho tôi Tôi cũng gửi lời cảm ơntới các thầy cô trong Khoa Toán, Phòng sau đại học, Trường Đại học
sư phạm Hà Nội 2 đã dạy dỗ và giúp đỡ tôi rất nhiều trong suốt quátrình học tập và nghiên cứu luận văn
Cuối cùng tôi cũng xin gửi lời cảm ơn tới gia đình nơi đã sinhthành, nuôi nấng, giúp đỡ, động viên tôi rất nhiều trong suốt thờigian qua Dù đã cố gắng hết sức nhưng luận văn không thể tránh khỏinhững thiếu sót và hạn chế Mọi ý kiến đóng góp tôi xin được đónnhận với lòng biết ơn và trân trọng sâu sắc
Hà Nội, tháng 10 năm 2016
Tác giả
Nguyễn Trung Hà
Header Page 2 of 132.
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là kết quả nghiên cứu của riêngtôi dưới sự hướng dẫn của PGS TS Nguyễn Hữu Điển
Trong quá trình nghiên cứu, tôi đã kế thừa thành quả khoa học củacác nhà khoa học với sự trân trọng và biết ơn Các kết quả trích dẫntrong luận văn này đã được chỉ rõ nguồn gốc
Hà Nội, tháng 10 năm 2016
Tác giả
Nguyễn Trung Hà
Header Page 3 of 132.
Trang 4Mục lục
1.1 Một số khái niệm giải tích lồi 9
1.2 Một số khái niệm từ giải tích 10
1.3 Tổng quan về quy hoạch phi tuyến 12
1.4 Tính khả vi và điều kiện cần cấp một 17
1.5 Điều kiện lồi và điều kiện đủ cấp một 22
1.6 Điều kiện đủ đối với nghiệm tối ưu địa phương và toàn cục 32
2 CÔNG CỤ SỐ GIẢI CÁC BÀI TOÁN QUY HOẠCH PHI TUYẾN KHÔNG RÀNG BUỘC 44 2.1 Phương pháp hướng dốc nhất 44
2.1.1 Giới thiệu phương pháp 44
2.1.2 Nội dung của phương pháp 47
2.1.3 Lập trình Maple trong Phương pháp hướng dốc nhất 49
Header Page 4 of 132.
Trang 52.1.4 Điều kiện đủ để hội tụ 51
2.1.5 Tốc độ hội tụ 56
2.2 Phương pháp Newton 58
2.2.1 Gới thiệu phương pháp 58
2.2.2 Nội dung của phương pháp Newton 60
2.2.3 Lập trình Maple trong Phương pháp Newton 62
2.2.4 Điều kiện hội tụ 64
2.3 Thuật toán Levenberg-Marquardt 70
2.3.1 Giới thiệu Thuật toán Levenberg-Marquardt 70
2.3.2 Thuật toán Levenberg-Marquardt 71
2.3.3 Ứng dụng Maple trong Thuật toán Levenberg-Marquardt 74
Header Page 5 of 132.
Trang 6MỞ ĐẦU
1 Lý do chọn đề tài
Như ta đã biết bài toán quy hoạch đã xuất hiện từ khi con ngườibiết lao động, biết suy nghĩ để tìm ra cách làm nhanh và hiệu quảnhất Tuy nhiên các hành động này thay đổi liên tục và buộc conngười ta phải tìm cách thích ứng Và ngày nay, mô hình tối ưu hóađược sử dụng trong nhiều lĩnh vực như: Quản lý kinh tế và tài chính,nghiên cứu khoa học và cả trong các lĩnh vực kỹ thuật cũng đượcthừa hưởng từ các thành quả ở trên với nguồn tài nguyên vô cùng lớn
và các cơ sở kỹ thuật hiện đại Để giải quyết các vấn đề trên ta nghiêncứu bài toán quy hoạch phi tuyến không ràng buộc có dạng
min{f (x) : x ∈ Rn}Trong đó Rn là một không gian vector, f : Rn → R là một hàm phi
tuyến cho trước và được gọi là hàm mục tiêu Tập nguồn Rn ứng vớibài toán quy hoạch phi tuyến không ràng buộc Mục đích của khóaluận này là nhằm tìm hiểu các phương pháp số cơ bản để giải các bàitoán quy hoạch phi tuyến không ràng buộc Tìm kiếm theo tia (linesearch) hay còn gọi là tìm kiếm một chiều (one dimensional search)
là mấu chốt của nhiều thuật toán để giải các bài toán quy hoạch phituyến Tiếp theo là phương pháp nội suy, phương pháp này dùng giá
Header Page 6 of 132.
Trang 7trị của hàm cần tìm cực tiểu tại những điểm nhất định để xấp xỉ cáchàm đó bởi các đa thức: Tam thức bậc hai (phương pháp Powell) và đathức bậc ba (phương pháp Davidon), sau đó điểm cực tiểu của hàmban đầu được thay thế bằng điểm cực tiểu của đa thức xấp xỉ mà nóđược tìm đơn giản hơn Trên đây là một số phương pháp tìm cực tiểuhàm một biến Ta cũng có thể dùng bất kỳ phương pháp tìm cực tiểumột biến này để tìm cực tiểu dọc theo các trục tọa độ đối với hàm haibiến cũng như hàm nhiều biến Tuy nhiên các phương pháp được giớithiệu ở trên chỉ có hiệu quả trong trường hợp cực tiểu của hàm là duynhất Song trên thực tế nó tỏ ra ít hiệu quả Vì thế, người ta đã đề ranhiều phương pháp khác cho phép khai thác nhiều thông tin hơn dựatrên các giá trị hàm đã nhận được đó là phương pháp gradient (sửdụng đạo hàm của hàm) Các phương pháp này đòi hỏi sử dụng tớicác đạo hàm riêng bậc nhất hoặc bậc hai của một hàm Khoảng nhữngnăm 70 của thế kỷ XX, các phương pháp gradient được nghiên cứurất mạnh và đã thu được những thành tựu đáng kể Nhiều công trìnhnghiên cứu đã được công bố Các phương pháp này thường rất thôngdụng để tìm cực tiểu, nó rất đơn giản và có thể áp dụng cho nhiềulớp hàm, đó chính là phương pháp hướng dốc nhất (Steepest Descent-Method), Phương pháp Newton và thuật toán Levenberg-Marquardt,
do công nghệ và phần mềm máy tính phát triển rất mạnh đặc biệt làchương trình Maple đã giúp ta rất nhiều trong quá trình tính toán vàđặc biệt là việc giải quyết các bài toán quy hoạch phi tuyến khôngràng buộc Tóm lại không có phương pháp chung nào có hiệu quả
để giải bài toán quy hoạch nói chung và quy hoạch phi tuyến nóiriêng Mỗi phương pháp đều có những ưu, nhược điểm riêng Nênluận văn sẽ tìm hiểu sâu hơn về thuật toán, sự hội tụ cũng như các ví
Header Page 7 of 132.
Trang 8dụ có sử dụng Maple để làm rõ ba phương pháp: Phương pháp hướng
dốc nhất, phương pháp Newton, và thuật toán Levenberg-Marquardt
trong việc giải quyết các bài toán quy hoạch phi tuyến không ràng
buộc Nội dung chính của bản luận văn bao gồm các vấn đề sau đây:
Tổng quan về các phương pháp tìm cực tiểu tự do Tóm tắt kiến thức
liên quan Trình bày cụ thể ba phương pháp Ví dụ minh họa và chạy
kiểm tra kết quả bằng Maple
3 Nhiệm vụ nghiên cứu
Nghiên cứu ba phương pháp Phương pháp hướng dốc nhất,phương pháp Newton, và thuật toán Levenberg-Marquardt trong việc
giải quyết các bài toán quy hoạch phi tuyến không ràng buộc
Nghiên cứu Phần mềm Maple 17 trên máy tính và ứng dụngphần mềm này trong việc giải quyết các bài toán quy hoạch phi tuyến
không ràng buộc
Header Page 8 of 132.
Trang 94 Đối tượng và phạm vi nghiên cứu
Các bài toán quy hoạch phi tuyến không ràng buộc
5 Phương pháp nghiên cứu
Nghiên cứu lý thuyết của giải tích lồi, giải tích số
Nghiên cứu ba thuật toán: Phương pháp hướng dốc nhất, phươngpháp Newton, và thuật toán Levenberg-Marquardt Nghiên cứu chươngtrình Maple trên máy tính
6 Giả thuyết khoa học
Luận văn trình bày chi tiết về một số phương pháp số cơ bản giảibài toán quy hoạch phi tuyến không ràng buộc
Header Page 9 of 132.
Trang 10Chương 1 MỘT SỐ KIẾN THỨC CHUẨN BỊ
1.1 Một số khái niệm giải tích lồi
Định nghĩa 1.1. (Đoạn thẳng) Tập tất cả các điểm x = (1−λ)a+λb
với 0 ≤ λ ≤ 1 và a, b ∈ Rn được gọi là đoạn thẳng nối hai điểm a và b
Ký kiệu[a, b]
Định nghĩa 1.2.(Tập lồi) Tập D ⊂ Rn được gọi là tập lồi nếu nó chứatrọn đoạn thẳng nối hai điểm bất kỳ thuộc nó Hay nói cách khác D làtập lồi nếu(1−λ)a+λb ∈ D với 0 ≤ λ ≤ 1 và a, b ∈ D
Các tính chất của tập lồi
- Tổng đại số hữu hạn tập lồi là tập lồi
- Giao của họ các tập lồi là tập lồi
- Tích đề các của các tập lồi là tập lồi
Định nghĩa 1.3.(Hàm lồi) Hàm f (x)xác định trên tập lồi D được gọi
là hàm lồi nếu∀x, y ∈ D,∀λ ∈ [0; 1] :
f (λx+ (1−λ)y) ≤ λ f (x) + (1− λ) f(y)
Header Page 10 of 132.
Trang 111.2 Một số khái niệm từ giải tích
Định nghĩa 1.4.(Hàm khả vi) Giả sử hàm f xác định tại lân cận o(x, ε)của điểm x Ta nói hàm f là khả vi tại điểm x nếu tìm được vector
f0(x) ∈ Rn sao cho số gia của hàm số tại x là
∆ f (x) = f (x+∆x) − f (x),k∆xk ≤ ε,
có thể được viết lại
∆ f (x) = hf (x+∆x), f (x)i +o(x,∆x)trong đó o(x,∆x) là vô cùng bé bậc cao hơn k∆xk ≤ ε nghĩa làlim
∆ f (x) = f (x+∆x) − f (x) = hf0(x),∆xi + hf
00(x),∆xi
2 +o(x,∆x)khi đó f0(x) được gọi là đạo hàm hay Hessian của hàm f tại x
Định nghĩa 1.6. (Hàm khả vi liên tục) Giả sử hàm f đối xứng trêntập mở X, ta nói hàm f là khả vi liên tục trên tập X nếu f là khả vitại mọi điểm x ∈ X và kf0(x+∆x) − f0(x)k → 0 khi ∆x → 0 với
∀x, x+∆x ∈ X
Định nghĩa 1.7.(Hàm hai lần khả vi liên tục) Giả sử hàm f đối xứngtrên tập mở X, ta nói hàm f là khả vi liên tục trên tập X nếu f là hai lầnkhả vi tại mọi điểm x ∈ X và kf00(x+∆x) − f0(x)k → 0 khi ∆x → 0với ∀x, x+∆x ∈ X
Header Page 11 of 132.
Trang 12Định lý 1.1 (Hàm lồi khả vi).
a Một hàm thực một biến ϕ(t)khả vi trong một khoảng mở là lồi khi và chỉ khi đạo hàm của nó ϕ0(t) là một hàm không giảm.
b Một hàm thực một biến ϕ(t)hai lần khả vi trong một khoảng mở là lồi khi
và chỉ khi đạo hàm cấp hai của nó ϕ00(t) không âm trên toàn bộ khoảng mở này.
Định lý 1.2 Cho một tập lồi C ⊂ Rn và một hàm f : Rn → R khả vi trên
Trang 13Như vậy ma trận đã cho nửa xác định âm.
Ngoài ra ta còn có tiêu chuẩn Silvestra để kiểm tra tính xác địnhdương của ma trận như sau: Ma trận A ∈ Rn × n là xác định dương hayxác định âm khi và chỉ khi tất cả các định thức con của ma trận đótương ứng là dương hay âm
1.3 Tổng quan về quy hoạch phi tuyến
1.3.1 Giới thiệu chung về quy hoạch phi tuyến
Một bài toán phi tuyến, hoặc quy hoạch phi tuyến là một trong
số các bài toán mà trong đó hàm mục tiêu là phi tuyến và ràng buộc ởdạng của bất đẳng thức phi tuyến Đặc biệt, một quy hoạch phi tuyến
có thể được biểu diễn như sau
gm(x1, x2, , xn) ≤ 0
1.3.2 Miền ràng buộc xác định và giải bài toán quy hoạch phi tuyến bằng công cụ Mapple
Miền thực hiện được của quy hoạch phi tuyến là phức tạp hơn
để vẽ đồ thị bằng Mapple so với bài toán quy hoạch tuyến tính, do
Header Page 13 of 132.
Trang 14thực tế Mapple chỉ là một lệnh của bất đẳng thức để thực hiện với cácmiền lấy được tương ứng với danh sách bất đẳng thức tuyến tính Tuynhiên, với một chút sáng tạo, ta vẫn có thể thực hiện được Để minhhọa cho ý tưởng này, ta xét quy hoạch phi tuyến hai biến đơn giản
> restart : with (plots):
Trang 15# Thiết lập miền lấy được sử dụng lệnh
The horizontal anhd vertical viewing windows are dividedInto 200 grid points
Kết quả của lệnh biểu thị trong hình 1.1
Hình 1.1: Miền xác định lấy được của quy hoạch phi tuyến (1.2)
Như trường hợp trong bài toán tuyến tính, chu tuyến là hữu ích
để đánh giá nghiệm của quy hoạch phi tuyến Trong Maple, nó cóthể tổng quát và rồi lấy chồng lên miền lấy được theo sự kết hợp của
Header Page 15 of 132.
Trang 16đường viền và lệnh hiển thị như đã thực hiện Tiếc rằng Maple không
được sắc nét Thực tế, cùng với phi tuyến của các mục tiêu và ràng
buộc, có thể thực hiện đánh giá nghiệm của quy hoạch phi tuyến sử
dụng sơ đồ đường viền của nó nhưng rất khó thực hiện Một cách đạt
được tốt hơn việc thay đổi hàm mục tiêu trong miền lấy được là thêm
vào đó một lệnh ngầm với tùy chọn “filled=true,coloring=[white, black]”
Cú pháp thực hiện của Maple được thực hiện như sau:
> Superimpose contours on previously constructed feasible region
Kết quả trong trường hợp này được đưa ra trong đồ thị hình 1.2
Nó cho thấy nghiệm của (1.2) xảy ra tại điểm trên đường tròn đơn vị
tương ứng đến π
4, mà (x1, x2) =
1
√
2,
1
√2
.Lệnh giải bài toán quy hoạch phi tuyến địa phương bằng Map-ple trong gói tối tưu hóa, các hàm gần như chính xác giống việc giải
bài toán quy hoạch tuyến tính Để giải bài toán phi tuyến (1.3), ta nhập
như sau:
> restart:with(Optimization):
> f:=(x1,x2)->x1*x2;
Header Page 16 of 132.
Trang 17Hình 1.2: Miền lấy được và biên trong quy hoạch phi tuyến (1.2).
Do vậy bài toán quy hoạch phi tuyến (1.3) có một nghiệm(x1, x2) ≈(.7071, 7071) với giá trị mục tiêu tương ứng trong mục 1.6 mà ta sẽphát triển kỹ thuật đại số để chứng minh nghiệm này bằng (x1, x2) =
Header Page 17 of 132.
Trang 181.4 Tính khả vi và điều kiện cần cấp một
Ta bắt đầu nghiên cứu bài toán quy hoạch phi tuyến không ràngbuộc Nếu S ⊂ Rn và hàm mục tiêu f : S → R thì dạng tổng quát của
bài toán được cho bởi
min(max)f (x), với x ∈ S (1.4)
Sau này ta sẽ chỉ ra bài toán quy hoạch phi tuyến ràng buộc đượcgiải bằng cách sử dụng phương pháp liên quan đến việc biến đổi khéoléo để tạo ra bài toán không ràng buộc có dạng (1.4) Với bài toán quyhoạch phi tuyến không ràng buộc, ta xét một đường thẳng tương tựnhư đa đưa ra ở dạng tính toán một biến Trong mục này ta lấy đượcđiều kiện cần để một điểm lấy được là một nghiệm tối ưu Các bướcnày là các phần dễ dàng Nhiệm vụ khó khăn hơn đó là giải quyết cácbài toán trong mục 1.5 và 1.6 để đánh giá điều kiện đủ
1.4.1 Tính khả vi
Xuất phát từ điều kiện cần thiết trong đó nêu rõ định nghĩa củakhả vi Trong các bài toán tiếp theo, ta lấy kxk biểu thị chuẩn EuclidtrongR.
Định lý 1.3 Giả sử S ⊆ Rn và f : S → R Ta nói hàm f là khả vi tại x0
trong S nếu và chỉ nếu ở đó tồn tại một véc tơ phụ thuộc trên f và x0, được gọi là gradient của f tại x0 viết là ∇f (x0) và một hàm vô hướng R(x0; x)
phụ thuộc trên x0 và được định nghĩa với mọi x trong S sao cho
f (x) = f (x0) + ∇f(x0)t(x− x0) +kx−x0kR(x0; x) (1.5)
với mọi x ⊂ S và lim
x → x0R(x0; x) = 0
Header Page 18 of 132.
Trang 19Sau đây là một số tính chất quan trọng cần ghi nhớ từ định nghĩanày
1 Khi ∇f (x0) là một véc tơ cột, chuyển vị của nó là một véc tơdòng trongRn Do đó, ∇f(x0)t(x− x0)là một vô hướng, như là ba sốhạng trong (1.5)
2 Phương trình (1.5) với sự có mặt của giới hạn, giả sử f đượcđịnh nghĩa tại đầu vào đủ gần tới x0 Kết quả là ở đó tồn tại một lâncận nhỏ, hoặc đĩa mở về x0 chứa trong S Một tập S ⊆ Rn trong đó
mỗi điểm có một đĩa mở của nó chứa trong S, được gọi là mở.
3 Nếu bỏ số hạng cuối của (1.5) ta nhận được hàm
T(x) = f (x) + ∇f(x0)t(x−x0) (1.6)tuyến tính hoặc xấp xỉ tuyến tính của f tại x0, tương tự như công thứccác đường tiếp tuyến từ việc tính toán Do đó,kx− x0kR(x0; x)là một
số hạng sai số trong xấp xỉ này, và điều kiện lim
x → x0R(x0; x) = 0 chỉ ranhanh chóng số hạng sai số này hội tụ tới 0 khi x → x0
Một thực tế mà ta bỏ qua chứng minh đó là các thành phần củagradient bao gồm đạo hàm từng phần cấp một của f Đó là
Header Page 19 of 132.
Trang 20dụng (1.5) Nếu mỗi đạo hàm từng phần ∂ f
∂xi, với 1 ≤ i ≤ n là liên tụctrên S thì ta nói ∇f (x)là khả vi liên tục trên S
Trong Maple, lệnh Gradient nằm trong gói tính toán véc tơ cungcấp một phương tiện tính toán gradient Dạng tổng quát của nó đượcđưa ra theo Gradient (biểu diễn danh sách biến) Ở đây, danh sáchbiến chỉ ra biến số đối với biểu thức của gradient được tính toán Lệnh
ra là một biểu thức được đưa ra trong số hạng của các véc tơ đơn vịtương ứng với mỗi biến Mỗi véc tơ đơn vị có dạng ex với x là biến.Một ví dụ đơn giản về lệnh này như sau:
> with(VectorCalculus):
> Gradient(x1^2+x1*x2^3,[x1, x2]);
2x1+ x32 ex1+3x1x22ex2Nếu f là một hàm số, lệnh này có thể sử dụng để định nghĩagradient hàm tương ứng Ví dụ, nếu f (x1, x2) = x12 + x22, gradienthàm này được lập nên bằng cách sử dụng cú pháp sau Ở đây ta viếttên hàm này là Del f
Trang 21đầu vào có thể hơi đơn giản bởi thực tế ta phải biểu diễn lim
x → x0R(x0; x) =0
1.4.2 Điều kiện cần đối với cực đại địa phương hoặc cực tiểu địa phương
Trong thiết lập tuyến tính, ta thấy với bất kỳ bài toán quy hoạchtuyến tính, một trong bốn vấn đề được quan tâm: quy hoạch tuyếntính có một nghiệm duy nhất, có vô số nghiệm, không giải được hoặckhông bị chặn Đối với dạng tổng quát bài toán quy hoạch tuyến tínhkhông ràng buộc (1.4), các trường hợp khác là giải được, ví dụ, cóđúng 2 nghiệm Vì lý do này, ta phải tính toán cẩn thận khi xác địnhkhái niệm của cực đại và cực tiểu giá trị mục tiêu phi tuyến
Định nghĩa 1.9.Giả sử S ⊆ Rn và f : S → R ta nói x0 là một cực tiểu
đại phương của f nếu cho một số ε > 0 đủ nhỏ sao cho
f (x0) ≤ f (x)với mọi x ⊂ S thỏa mãnkx− x0k < ε.Nếu trong thực tế f (x0) ≤ f (x) với mọi x ⊂ S, ta nói x = x0 làcực tiểu của f trên S
Một cách tự nhiên, nếu bất đẳng thức được đảo ngược lại, cựctiểu được thế bởi cực đại Số hạng cũng được bổ sung để mô tả trườnghợp này khi bất đẳng thức này đúng
Ví dụ 1.2:Nếu x = x0 là nghiệm cực tiểu thực sự, có nghĩa là f (x0) <
f (x)với mọi x ⊂ Svới x 6= x0 Nghiệm địa phương tối ưu đề cập đếnmột trong hai cực tiểu địa phương hoặc cực đại địa phương khi các sốhạng được đề cập đến một cách rõ ràng Nghiệm tối ưu toàn cục đượcđịnh nghĩa tương tự
Một hàm có thể có nhiều cực tiểu hoặc cực đại địa phương, vànhiều đầu vào có thể chia sẻ để phân biệt được các cực đại (hoặc cực
Header Page 21 of 132.
Trang 22tiểu) toàn cục.
Khi n = 1, gradient không khác đạo hàm của hàm một biến.Nhắc lại trong việc thiết lập một biến, bước đầu tiên về phía cực đạihoặc cực tiểu của một hàm khả vi là liên quan tới việc xác định hàmgốc của đạo hàm, mà ta biểu thị như các điểm tới hạn Cùng với quytắc này, định lý 1.3 áp dụng dạng tổng quát của bài toán quy hoạchphi tuyến không ràng buộc
Định lý 1.4 Giả sử S ⊆ Rn là một tập mở và f : S → R là khả vi tại x0 Nếu f có một cực đại (cực tiểu) đại phương tại x0 thì ∇f (x0) = 0.
Chứng minh. Việc chứng minh này ít hơn việc áp dụng kết quả mộtbiến tới mỗi thành phần của x0 Không mất tính tổng quát, giả sử f cómột cực tiểu địa phương tại x0 Chọn một cách tùy ý j, ở đây 1 ≤ j ≤ n
việc đặt vào tất cả các thành phần thứ j của f Nói cách khác
Header Page 22 of 132.
Trang 23Khi f có một cực tiểu địa phương tại x0, hàm fj có một cực tiểuđịa phương tại x = x0 và do đó fj0 x0,j = 0 theo kết quả hàm mộtbiến Bởi vì j là lấy tùy ý, [∇f (x0)]j = 0 với mọi 1 ≤ j ≤ n, nghĩa là
∇f (x0) = 0
Trong thảo luận tiếp theo, nếu S ⊆ Rn là một tập mở và f : S →
R, ta sẽ nói x0 trong Rn là điểm tới hạn của f nếu ∇f (x0) chưa xácđịnh Nếu f là khả vi trên S và x0 là điểm tới hạn của f thì∇f (x0) = 0
Trong thiết lập một biến, một điểm tới hạn không phải là cựctiểu địa phương hoặc cực đại địa phương Giống như vậy có thể nóibài toán quy hoạch phi tuyến không ràng buộc như trong định lý 1.14chỉ đơn thuần đưa ra một điều kiện cần cấp một, ở trong các số hạngcủa gradient Nếu∇f (x0) 6= 0, thì x0 có thể không là một cực tiểu địaphương cũng không phải là một cực đại địa phương Trong phần tiếptheo ta thiết lập điều kiện đủ mà tương tự đạo hàm cấp 1 hoặc cấp 2
từ việc thiết lập bài toán một biến và nó đủ để đảm bảo x0 là một cựctiểu hoặc cực đại địa phương
1.5 Điều kiện lồi và điều kiện đủ cấp một
Trong hàm một biến, phần lõm của hàm gần một điểm tới hạn
là thông tin hữu ích đối với việc phân loại điểm tới hạn như một cựctiểu hoặc một cực đại địa phương
Xét một ví dụ đơn giản sau
f (x) = |x|32
Đồ thị hàm số này biểu thị trong hình 1.3
Header Page 23 of 132.
Trang 24Hình 1.3: Đồ thị hàm số f ( x ) = | x |32Hàm này là khả vi tại gốc tọa độ, ở đó f0(0) = 0 Tuy nhiên
f00(0)không tồn tại nên đạo hàm cấp 2 không thể sử dụng x = 0 nhưmột cực tiểu Rõ ràng, phần lõm của đồ thị chỉ ra điểm tới hạn là mộtcực tiểu
1.5.1 Điều kiện lồi
Ví dụ minh họa, trong hàm một biến, điều kiện lồi vẫn đóng vaitrò trong việc phân loại một điểm tới hạn, dù hàm này không khả vicấp 2 Như ta xét, quy tắc này cũng được áp dụng trong dạng tổngquát của bài toán quy hoạch phi tuyến không ràng buộc Tuy nhiên,thay vì sử dụng các cụm từ như “mặt lõm trên” và “mặt lõm dưới” để
mô tả dáng điệu của một hàm số, ta sẽ thay thế sử dụng các số hạnglồi và lõm Trước đó định nghĩa các số hạng này trong định nghĩa củahàm số, đầu tiên ta định nghĩa lồi đối với tập hợp
Định nghĩa 1.10. Giả sử S ⊆ Rn ta nói S là lồi nếu và chỉ nếu với bất
kỳ x1 và x2 trong S và với bất kỳ t ∈ [0, 1] vô hướng, tổ hợp tuyến tính
tx1 + (1−t)x2 cũng nằm trong S
Như một tổ hợp tuyến tính, tx1+ (1− t)x2trong đó trọng lượng
là không âm và tổng tiến ra vô cùng là được biết đến như một tổ hợplồi của x1 và x2 Do đó, S là lồi nếu hai điểm tới hạn đưa ra là x1 và
Header Page 24 of 132.
Trang 25x2 nằm trong S, bất kỳ tổ hợp lồi nào của hai điểm này cũng đều nằmtrong S Nếu S có ràng buộc trong R2 hoặc R3, điều này có nghĩa lànếu x1 và x2 nằm trong S thì có một đoạn thẳng nối giữa chúng vớinhau.
Ta sử dụng tập lồi để định nghĩa hàm lồi
Định nghĩa 1.11. Giả sử S ⊆ Rn là lồi và f : S → R Ta nói hàm f là
lồi trên tập S nếu và chỉ nếu mọi x1 và x2 trong S và mọi t ∈ [0, 1],
f (tx1+ (1−t)x2) ≤ t f (x1) + (1−t) f (x2) (1.9)Nói cách khác: “Hàm số được đánh giá tại một tổ hợp lồi củađầu vào là bị chặn theo tổ hợp lồi tương đương của hàm số ở đầu ra”.Nếu trong bất đẳng thức, chiều của bất đẳng thức đảo ngược lại ta nói
f là lõm
Để ý yêu cầu S là lồi là cần để đảm bảo tx1+ (1−t)x2nằm trong
S, do đó làm cho f (tx1+ (1−t)x2)được định nghĩa Rõ ràng f là lõmnếu và chỉ nếu −f là lồi Khi bất đẳng thức ràng buộc luôn đúng vớimọi x1 6= x2 trong f và mọi t trong khoảng mở (0, 1), ta sử dụng các
số hạng lồi ràng buộc hoặc lõm ràng buộc trên S Nếu cố định x1 trong
S, bất đẳng thức luôn đúng với mọi x2 trong S và mọi t ∈ [0, 1], ta nói
f là lồi tại x1 Chú ý f là lồi trên S, thì nó là lồi tại mỗi x1 trong S
Trong bài toán một biến, ta gọi lại việc sử dụng các số hạng “mặtlõm trên” và “mặt lõm dưới” Trong định nghĩa 1.11 tương ứng là “lồi”
và “lõm”
Tính lồi có một cách hiểu hình học rất đơn giản trong số hạngcủa đồ thị của f Một hàm là lồi trên S nếu và chỉ nếu đưa ra bất kỳ haiđầu vào riêng biệt là x1 và x2 trong S, đầu ra của f tại bất kỳ tổ hợp lồicủa x1 và x2, biểu thị x = tx1 + (1− t)x2, ở đây 0 ≤ t ≤ 1, phải ở trên
Header Page 25 of 132.
Trang 26hoặc dưới đoạn thẳng nối các điểm(x1, f (x1))và(x2, f (x2)) Hình 1.4minh họa sự biểu diễn hình học đối với hàm parabolic f : R2 → R2
được đưa ra bởi f (x1, x2) = x2
6 Phép biến đổi affin bất kỳ f : Rn → R được định nghĩa như
f (x) = atx+bvới a là một véc tơ cố định trongRn và b là một số thực
cố định
Hình 1.4: Parabolic f ( x1, x2) = x21+ x22
1.5.2 Kiểm tra tính lồi
Ví dụ f (x) = |x|32 được biểu thị trong hình 6.4 minh họa chomột hàm khả vi, nhưng không khả vi hai lần, trên toàn bộ miền của
nó và vẫn là lồi Từ đồ thị ta có thể hình dung tính lồi này không chỉ
Header Page 26 of 132.
Trang 27trong các số hạng của thảo luận trước đó mà còn bằng việc khẳng địnhđoạn thẳng tới f tại bất kỳ đầu vào nào mà chỉ yêu cầu đạo hàm bậcnhất để tính toán, đường nằm hoàn toàn phía dưới đồ thị của f Định
lý 1.5 dưới đây sử dụng gradient và đưa ra tuyến tính tương tự vềdạng khát quát kết quả này ở mức độ cao hơn
Định lý 1.5 Giả sử S ⊆ Rn là lồi và f : S → R là khả vi tại mỗi điểm trên
S Khi đó f là lồi trên S nếu và chỉ nếu với mỗi x0 trong S thì
f (x) ≥ f (x0) + ∇f(x0)t(x− x0)với mọi x ∈ S (1.10)
Chứng minh. Giả sử f là lồi trên S, lấy x0 và x trong S, rồi định nghĩa
d = x−x0 Ta có tính khả vi của f có nghĩa là sự tồn tại của đạo hàmtrực tiếp nó tại x0 Sử dụng hai công thức tương đương của nó ta có
Đối với điều ngược lại, chọn x1 và x2 trong S và t ∈ [0, 1] và giả
sử (1.10) luôn đúng Khi đó S là một tập lồi, x0 = tx1+ (1−t)x2 thuộcvào S Áp dụng bất đẳng thức (1.10) hai lần, đầu tiên với x = x1 vàsau đó với x = x2 ta có
f (x1) ≥ f (x0) + ∇f(x0)t(x1 −x0)
Header Page 27 of 132.
Trang 28f (x2) ≥ f (x0) + ∇f(x0)t(x2 −x0)thì có thể được nhận bởi số không âm t và 1−t tương ứng Kết quả làbất đẳng thức sẽ trở thành
t f (x1) + (1−t) f (x2) ≥ f (x0) = f (tx1 + (1−t)x2)
Khi x1, x2 cho tùy ý trong S và t là tùy ý trong [0, 1] thì f là lồitrên S theo định nghĩa 1.5 Định lý được chứng minh
Quá trình chứng minh là dễ ràng để biểu thị f là lồi tại x0 nếu
và chỉ nếu f (x) ≥ f (x0) + ∇f(x0)t(x−x0)với mọi x ∈ S
Hơn nữa, định lý còn có nghĩa nếu xuyên suốt giả thuyết “lồi”được thay thế bởi “lồi ngặt” đưa ra trong (1.10), với bất đẳng thức làngặt và x 6= x0
Định lý 1.5 Cho một phương diện khác để đánh giá một hàm làlồi trên tập S mà bỏ qua cách sử dụng định nghĩa Cụ thể, chọn mộtđầu vào x0 tùy ý trong S Dạng xấp xỉ tuyến tính của f tại x0:
và xấp xỉ tuyến tính, hoặc mặt phẳng tiếp tuyến được đưa ra
bởi
Header Page 28 of 132.
Trang 29Hình 1.5: Parabolic f ( x 1 , x 2 ) = x21+ x22
1.5.3 Tính lồi và định lý nghiệm tối ưu toàn cục
Định lý 1.6 Giả sử S ⊆ Rn là khác rỗng và lồi, giả sử f : S → R là lồi
trên S Giả sử x0 là một cực tiểu địa phương của f trên S thì x0 là một cực tiểu toàn cục của f trên S Nếu f là lồi chặt trên S hoặc nếu x0 là cực tiểu địa phương chặt thì x0 là một cực tiểu toàn cục duy nhất.
Header Page 29 of 132.
Trang 30này ta thế “lồi” bằng “lõm”, thế “cực tiểu” bằng “cực đại” và “lồichặt” bằng “lõm chặt”.
Chứng minh. Giả sử f có một cực tiểu địa phương tại x0 Theo định
nghĩa 1.8 ở đó tồn tại một số dương ε đủ nhỏ sao cho
với mọi x trong S thỏa mãn kx−x0k < ε
Nếu x0 không là cực tiểu toàn cục của f trên S thì ở đó tồn tạitrong S một vài x∗ thỏa mãn f (x∗) < f (x0) Xét một tổ hợp lồi của
x0, x∗, biểu thị tx∗ + (1−t)x0 ở đây 0 ≤ t ≤ 1 Chú ý đầu vào nằmtrong S khi tập này là lồi Theo tính lồi của hàm f ta có:
f (x0) và kxe−x0k < ε Nhưng điều kiện (1.14) buộc f (x0) ≤ f (x)e và
ta thấy có sự mâu thuẫn Do đó, x0 là một cực tiểu toàn cục của f
Bây giờ giả sử x0 là một cực tiểu địa phương chặt, nghĩa là
f (x0) < f (x)trong (1.13) Thì x0 là một cực tiểu toàn cục của f trên Stheo kết quả đã tính toán Để biểu thị nó là duy nhất với tính chất này,
ta giả sử x∗ là một cực tiểu toàn cục thứ hai, nên f (x∗) = f (x0) Theotính lồi của f , với mọi 0 ≤ t ≤ 1 ta có
f (tx∗+ (1−t)x0) ≤ t f (x∗) + (1− t) f (x0) = f (x0) (1.15)
Kết quả này là thỏa mãn với mọi 0 ≤ t ≤ 1 Nếu t0 là dương và
đủ đóng đến 0, xe = t0x∗+ (1−t0)x0 là ε đơn vị của x0, ở đây ε được
Header Page 30 of 132.
Trang 31đưa ra trong (1.13) Từ (1.15) ta có f (x0) ≤ f (x)e Tương tự, (1.15) buộc
f (x) ≤e f (x0), từ đó hai đại lượng này là bằng nhau Do đó, x0 không
là một cực tiểu địa phương chặt của f , và do đó x0 là cực tiểu toàn cụcduy nhất của f trên S
Trường hợp f là lồi chặt tương tự như trên Ta hoàn thành chứngminh định lý
1.5.4 Cách giải bài toán phi tuyến không ràng buộc đối với hàm khả
vi và hàm lồi
Định lý 1.18 chỉ ra với một hàm lồi, sự khác biệt giữa cực tiểuđịa phương và cực tiểu toàn cục là không cần thiết Thật vậy, ta có thểnói một cách đơn giản về cực tiểu toàn cục và nếu hàm này là lồi chặt,
là cực tiểu toàn cục duy nhất Về tính khả vi, các hàm lồi tìm thấy cựctiểu đơn giẳng bằng việc tìm gốc của gradient Định lý 1.19 dưới đâyđưa ra một khẳng định chính xác về điều này trong thực tế
Định lý 1.7 Giả sử S ⊆ Rn khác rỗng và lồi, giả sử f : S → R là lồi
trên S và khả vi hầu khắp nơi Thì x0 là cực tiểu của f trên S nếu và chỉ nếu
∇f (x0) = 0
Từ định lý 1.7 ta có bài toán là làm thế nào để giải bài toán phituyến không ràng buộc sao cho như bài toán phi tuyến không ràngbuộc:
Trang 32Tính toán đơn giả để đánh giá f là khả vị trên S và
√
x1 −350
1400√x13x
2 3 2
87.11101.63
Mục tiêu của ta là tiến đến cực đại của f trên S, mà đó là giốngnhư tiến đến cực tiểu của −f Theo định lý 1.7 thì x0 là cực tiểu toàncục được đưa ra ta có thể đánh giá −f là lồi trên S, tương tự f là lõmtrên S
Hình 1.6: Đồ thị mặt phẳng của hàm mục tiêu
1.5.5 Hồi quy bội tuyến tính
Giả sử ta có cặp dữ kiện theo thứ tự
(x1, y1),(x2, y2), ,(xm, ym) (1.19)
ở đây xi ∈ Rn và yi ∈ R với mỗi 1 ≤ i ≤ m Nếu ta chỉ ra mỗi xi là mộtbiến độc lập liên quan tới một biến độc lập yi, hồi quy bội tuyến tínhnhằm tìm kiếm một hàm f : Rn → R, phù hợp nhất với dữ kiện này
Header Page 32 of 132.
Trang 33và lấy nó ở dạng f (x) = atx+bở đây a ∈ Rn, b ∈ R Để xác định hàm
f có phù hợp nhất hay không ta phải tìm a, b là cực tiểu trong tổng sai
số bình phương sau đây:
Khi n = 1 thì f (x) = atx+b là một đường hồi quy chuẩn Nếu
n > 1 thì đạo hàm của f là được biết đến như hồi quy bội tuyến tính
1.6 Điều kiện đủ đối với nghiệm tối ưu địa phương và
toàn cục
Đạo hàm cấp hai thử nghiệm tính toán dựa trên những đối sốsau đây Nếu một hàm f là khả vi cấp 2 tại x0 thì đa thức xấp xỉ Taylorbậc hai của f tại x0 được đưa ra như sau
Trang 34đồ thi của f là lồi và lõm tương ứng tại x0 Nếu f00(x0) = 0, không thểkết luận được có xảy ra tại điểm tới hạn hay không.
1.6.1 Dạng bậc hai
Khi hàm số bậc hai là công cụ để kiểm tra đạo hàm cấp hai, talàm tương tự cao hơn số bậc của nó Trong Rn, hàm số này được biếtđến như một dạng bậc hai Trước khi định nghĩa về số hạng này tanhắc lại ma trận đối xứng A là thỏa mãn At = A
Định nghĩa 1.12.Một dạng bậc hai trênRn là một hàm số f : Rn → R
biểu diễn
f (x) = xtAxvới ma trận đối xứng A là n×n
Khi n = 1 thì đẳng thức này đơn thuần là hệ số a của hàm bậchai f (x) = ax2
Đó là bởi vì các ma trận, kết hợp với dạng bậc bai là đối xứng,gradient của f có thể thực hiện ở một dạng đơn giản Cụ thể,∇f (x) =2Ax
Hình 1.7 đến 1.9 minh họa ba dạng bậc hai trong miềnR2
Trang 35Hình 1.7: Dạng bậc hai f ( x1, x 2 ) = 2x21+ 2x1x 2 + 3x22
Hình 1.8: Dạng bậc hai f ( x 1 , x 2 ) = − 2x21+ 2x 1 x 2 − 3x22
Header Page 35 of 132.
Trang 36Định lý 1.8 Giả sử A là một ma trận đối xứng n× n có giá trị thực và
f : Rn → R là dạng bậc hai được cho bởi f (x) = xtAx.
Thì f là xác định dương (tương ứng xác định âm) nếu và chỉ nếu mọi giá trị riêng của A là dương (tương ứng là âm)
1.6.3 Khả vi cấp hai và ma trận Hessian
Trong mục 1.4, ta đã định nghĩa khả vi cấp một, mà từ đó dẫntới khái niệm xấp xỉ tuyến tính Khả vi cấp hai được định nghĩa tương
tự như vậy Tuy nhiên, trong khi véc tơ gradient giữ vai trò là đạo hàm
Header Page 36 of 132.
Trang 37cấp một thì vai trò đạo hàm cấp hai thuộc về một ma trận vuông.
Định nghĩa 1.14.Giả sử S ⊆ Rn và f : S → R là khả vi tại x0 nằm bêntrong S Ta nói hàm f là khả vi cấp hai tại x0 nếu và chỉ nếu ở đó tồntại một ma trận vuông n×n Hf (x0), được gọi là ma trận Hessian của
f tại x0, và một hàm vô hướng R độc lập trên x0 và x sao cho
f (x) = f (x0) + ∇f(x0)t(x− x0) + 1
2(x−x0)
t
Hf (x0) (x−x0)+kx− x0k2R(x0; x)
∂xi xj = ∂2 f
∂xj xi với mọi 1 ≤ i, j ≤ nnên Hf (x) là ma trận đối xứng và vế phải của (1.24) do đó chứa mộtdạng bậc hai Cuối cùng, ta chú ý định nghĩa 1.13 và 1.14 hoàn toànchỉ ra ma trận Hessian của dạng bậc hai f (x) = xtAx có kết quả là2A
Định nghĩa 1.15.Một ma trận P vuông và khả nghịch thỏa mãn P−1 =
Pt được gọi là một ma trận trực giao
Header Page 37 of 132.
Trang 38Một ma trận P trực giao n×ncó những tính chất rất đáng quantâm Trong số đó có những tính chất sau:
* Các véc tơ cột của P là trực giao, có nghĩa nếu ta ký hiệu cácvéc tơ cột là u1, u2, , un thì ut
Định lý 1.9 Giả sử S ⊆ Rn là tập khác rỗng, mở và lồi Giả sử f : S → R
khả vi cấp hai tại mỗi điểm của S và x0 là một điểm tới hạn của f trong S.
i Nếu f có một cực tiểu địa phương (tương ứng là cực đại) tại x0 thì
Hf (x0)là bán xác định dương (tương ứng bán xác định âm).
ii Nếu Hf (x0) là xác định dương (tương ứng xác định âm) thì x0 là một cực tiểu địa phương chặt (tương ứng là cực đại)
iii Nếu Hf (x0) là không xác định thì x0 không là cực đại cũng không
là cực tiểu Nó gọi là điểm yên ngựa.
iv Nếu Hf (x0)là bán xác định dương hoặc bán xác định âm thì không thể kết luận có thể thực hiện như tính chất của điểm tới hạn x0 Phân tích cụ thể hơn là điều cần thiết.
Chứng minh. Ta sẽ chứng minh (i), (ii) và (iii) còn (iv) coi như là bàitập
Header Page 38 of 132.
Trang 39Giả sử f có cực tiểu địa phương tại x0 Khi đó f là khả vi cấp hai
và có x0 là một điểm tới hạn, với mọi x ∈ S ta có
trong đó D là ma trận chéo có các giá trị riêng của Hf (x0), và P
là các véc tơ cột tương ứng các véc tơ riêng của ma trận trực giao
Hf (x0) Khi Hf (x0) là xác định dương, mọi giá trị riêng của nó là
dương Danh sách các giá trị riêng λ1, λ2, , λn, ta định nghĩa λ =min{λi|1 ≤ i ≤ n} và chú ý λ > 0
Khi λ > 0 và R(x0; x) → ∞ khi x → x0, ta sẽ kết luận f (x) −
f (x0) > 0 với mọi x đủ đóng tới x0, mà đó chính xác là những gì cầnnói để x0 là một cực tiểu địa phương chặt của f