1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng một số thuật toán giải hệ bất phương trình tuyến tính vào bài toán phân loại

74 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng một số thuật toán giải hệ bất phương trình tuyến tính vào bài toán phân loại
Tác giả Đồng Thị Mai Dung
Người hướng dẫn TS. Trần Ngọc Nguyên
Trường học Trường Đại học Quy Nhơn
Chuyên ngành Khoa học dữ liệu ứng dụng
Thể loại Đề án Thạc sĩ
Năm xuất bản 2023
Thành phố Bình Định
Định dạng
Số trang 74
Dung lượng 1,37 MB

Cấu trúc

  • 1.1 Hệ bất phương trình tuyến tính (13)
    • 1.1.1 Hệ bất phương trình tuyến tính (13)
    • 1.1.2 Tập chỉ số I(x) (14)
    • 1.1.3 Hệ bất phương trình tuyến tính theo nghĩa bình phương nhỏ nhất 4 (14)
  • 1.2 Bài toán quy hoạch toàn phương (18)
  • 1.3 Ma trận (19)
    • 1.3.1 Ma trận giả nghịch đảo (19)
    • 1.3.2 Phân rã giá trị suy biến SVD (19)
    • 1.3.3 Giả nghịch đảo Moore–Penrose (20)
  • 1.4 Không gian vec-tơ Euclide (21)
    • 1.4.1 Bất đẳng thức Cauchy - Schwarz (21)
    • 1.4.2 Phép chiếu (21)
  • 1.5 Biểu đồ hiệu suất (22)
  • Chương 2. Một số thuật toán giải hệ bất phương trình tuyến tính 14 (24)
    • 2.1 Sơ lược thuật toán Han và phiên bản hiệu quả hơn của thuật toán Han 14 (24)
      • 2.1.1 Thuật toán Han đối với bài toán hệ bất phương trình tuyến tính 14 (24)
      • 2.1.2 Thuật toán Han đối với bài toán bình phương nhỏ nhất tuyến tính 16 (26)
      • 2.1.3 Một phiên bản hiệu quả hơn: thuật toán Bramley (27)
    • 2.2 Phương pháp chiếu liên tiếp (32)
      • 2.2.1 Bài toán đối ngẫu của bất phương trình tuyến tính (32)
      • 2.2.2 Giải quyết bài toán đối ngẫu (36)
    • 2.3 Thuật toán điểm trong (45)
      • 2.3.1 Giải hệ đối ngẫu (47)
      • 2.3.2 Lựa chọn độ dài bước (48)
      • 2.3.3 Phương pháp toàn phương thực tế (50)
    • 2.4 Thuật toán vùng tin cậy (52)
      • 2.4.1 Bài toán không ràng buộc (52)
      • 2.4.2 Bài toán phụ của phương pháp Newton (52)
      • 2.4.3 Bước lặp của phương pháp vùng tin cậy (53)
    • 2.5 Thuật toán Newton bán trơn (55)
      • 2.5.1 Bài toán phương trình phi tuyến (55)
      • 2.5.2 Giải phương trình phi tuyến (55)
  • Chương 3. Ứng dụng việc giải bất phương trình tuyến tính vào bài toán phân loại 47 (57)
    • 3.1 Bài toán phân loại (57)
    • 3.2 Giải bài toán phân loại tuyến tính bằng hệ bất phương trình bình phương nhỏ nhất (58)
    • 4.1 So sánh hiệu suất giữa các thuật toán (62)
      • 4.1.1 So sánh hiệu suất tính toán (FLOPS) của 4 thuật toán (62)
      • 4.1.2 So sánh thời gian chạy CPU của 7 thuật toán (65)
      • 4.1.3 Sự phụ thuộc của Thuật toán Dykstra vào số ràng buộc hoạt động 57 (67)
    • 4.2 So sánh hiệu suất phân loại giữa thuật toán SVM và thuật toán giải hệ bất phương trình tuyến tính bình phương nhỏ nhất (68)
    • 2.1 Phân rã trực giao (0)
    • 2.2 Phân rã cực (0)
    • 2.3 Thuật toán Dykstra (0)
    • 2.4 Thuật toán Dykstra áp dụng cho b = (3, 3), C 1 = {(x, y) ∈ R 2 |y ≤ 0} và (0)
    • 2.5 Thuật toán Dykstra áp dụng cho b = (0, 5), C 1 = {(x, y)|(x − ) 2 + (y − ) 2 ≤ 1.5 2 } và C 2 = {(x, y)|(x − 5) 2 + (y − 3) 2 ≤ 2 2 } (0)
    • 4.1 So sánh hiệu suất của 4 thuật toán dựa trên FLOPS (20 × 40) (0)
    • 4.2 So sánh hiệu suất 4 thuật toán về mặt FLOPS với m = 2n (0)
    • 4.3 So sánh hiệu suất 4 thuật toán về mặt FLOPS với m = 100n (0)
    • 4.4 So sánh hiệu suất về thời gian CPU của 7 thuật toán (0)
    • 4.5 Giá trị trung bình của FLOPS cho mỗi số ràng buộc hoạt động p (0)
    • 4.6 Bài toán có thể phân loại tuyến tính (◦ : A, + : B) (0)
    • 4.7 Bài toán hình vuông (◦ : A, + : B) (0)
    • 4.8 Bài toán tam giác (◦ : A, + : B) (0)

Nội dung

Trang 1 TRƯỜNG ĐẠI HỌC QUY NHƠNĐỒNG THỊ MAI DUNGỨNG DỤNG MỘT SỐ THUẬT TOÁNGIẢI HỆ BẤT PHƯƠNG TRÌNH TUYẾNTÍNH VÀO BÀI TỐN PHÂN LOẠIĐỀ ÁN THẠC SĨKHOA HỌC DỮ LIỆU ỨNG DỤNG Trang 2 TRƯỜNG Đ

Hệ bất phương trình tuyến tính

Hệ bất phương trình tuyến tính

Một hệ bất phương trình tuyến tính có thể được biểu diễn dưới hình thức ngắn gọn như sau: Định nghĩa 1.1.1.

Ax≤b với A∈R m×n , b∈R m , x∈R n (1.1) trong đó A= [a ij ] m×n là ma trận với các phần tử a ij ∈R, x= [x 1 , x 2 , , x n ] T là vec-tơ biến tuyến tính, và b= [b 1 , b 2 , , b m ] T là vectơ hằng số.

Mặc dù bất kỳ quan hệ nào trong {>,≥, b i } (1.2) khác rỗng đối với mọi x∈R n

Hơn nữa, giả sử rằng tập hợpI(x) ={i 1 , , i p }được sắp xếp sao choi 1 < i 2 < < i p ; thì A I(x) , b I(x) sẽ biểu thị ma trận con của A với các hàngA i 1 , , A i p và vectơ con của b với các thành phần lần lượt là b i 1 , , b i p

Với mọiy∈R m , xác địnhy + ∈R m bởi(y + ) i = max{y i ,0} Áp dụng cho(A i x−b i ) + ta có:

Công thức này có nghĩa rằng nếuA i x≤b i , thì (A i x−b i ) + sẽ bằng 0; ngược lại, nếu

Hệ bất phương trình tuyến tính theo nghĩa bình phương nhỏ nhất 4

Hệ bất phương trình tuyến tính theo nghĩa bình phương nhỏ nhất có nghĩa là tìm vec-tơ x sao cho tổng bình phương của sai số giữa các bất phương trình và các giá trị thực là nhỏ nhất. Định nghĩa 1.1.3 Hệ bất phương trình tuyến tính (1.1) theo nghĩa bình phương nhỏ nhất có dạng: x∈minR n f(x) = 1

Với mục tiêu là tìm một vectơ x sao cho tổng bình phương của Ax−b đạt giá trị nhỏ nhất. Định nghĩa 1.1.4 Nghiệm tối ưu của hệ theo nghĩa bình phương nhỏ nhất được định nghĩa là vec-tơx ∗ trong không gian R n sao cho tổng bình phương của sai số giữa các bất phương trình và các giá trị thực tế là nhỏ nhất, tức là nghiệm của bài toán tối ưu sau: min m

(a T i x−b i ) 2 + (1.4) với x∈R n , trong đó: x ∗ là vec-tơ biến, a i là hàng thứ i của ma trận A, b i là thành phần thứ i của vec-tơ b.

Nghiệm tối ưu x ∗ là nghiệm mà tổng bình phương sai số là nhỏ nhất trong số tất cả các giải pháp có thể trong không gian R n cho hệ bất phương trình tuyến tính đã cho.

Sau đây, ta xem xét một số tính chất cơ bản của hệ bất phương trình tuyến tính mà sẽ được sử dụng trong đề án.

Mệnh đề 1.1.1 Một vectơ x ∗ ∈R n là một nghiệm tối ưu của bài toán quy hoạch bậc hai (1.1) khi và chỉ khi A T (Ax ∗ −b)+ = 0.

Chứng minh Điều kiện cần: Nếu x ∗ là nghiệm tối ưu, theo điều kiện KKT (Karush − Kuhn −Tucker), ta có:

Tính khả thi: Ax ∗ ≤b Đạo hàm Lagrange: ∇f(x ∗ ) +A T λ= 0, ở đây λ là các biến Lagrange.

A T (Ax ∗ −b) + = 0 Điều kiện đủ: Giả sử A T (Ax ∗ −b) + = 0, ta cần chứng minhx ∗ là nghiệm tối ưu. Đặt λ= (Ax ∗ −b) + , ta có:

∇f(x ∗ ) +A T λ = 0 Điều này, cùng với các điều kiện khác của KKT, cho thấy x ∗ là nghiệm tối ưu.

Như vậy, mệnh đề đã được chứng minh.

Mệnh đề 1.1.2 Đối với mọi ma trận A∈R m×n và vectơ b∈R n , đều tồn tại nghiệm bình phương nhỏ nhất cho Ax≤b Vectơ dư tối ưu z ∗ = (Ax ∗ −b) + là duy nhất và x là nghiệm bình phương nhỏ nhất khi và chỉ khi (Ax−b) + =z ∗

Cuối cùng, ta lưu ý rằng gradient của f là hàm Lipschitz cấp 1 trên toàn cục, với hằng số Lipschitz là ∥A∥ 2

Chứng minh Để chứng minh mệnh đề này, ta sẽ sử dụng bất đẳng thức Cauchy − Schwarz và một số thuộc tính của đạo hàm.

Bắt đầu với bất đẳng thức Cauchy − Schwarz, ta có:

|⟨u, v⟩| ≤ ∥u∥∥v∥ với mọiu, v ∈R n Áp dụng bất đẳng thức Cauchy − Schwarz cho∇f(x)− ∇f(y)và x−y, ta có:

Bây giờ, ta cần xem xét ⟨∇f(x)− ∇f(y), x−y⟩ Sử dụng định nghĩa của đạo hàm, ta có:

Quay trở lại bất đẳng thức Cauchy-Schwarz:

|⟨∇f(x)− ∇f(y), x−y⟩| ≤ ∥∇f(x)− ∇f(y)∥∥x−y∥ Áp dụng kết quả tính toán trước đó, ta có:

Giờ ta cần ước lượng ∥∇f(x)ã(x−y)− ∇f(y)ã(x−y)| Sử dụng bất đẳng thức tam giác, ta có:

Với điều kiện rõ ràng là ∥x−y∥ ≥0 Bây giờ, ta chia cả hai vế cho∥x−y∥ (điều này hợp lệ vì∥x−y∥>0 khi x̸=y), ta được:

Vậy chúng ta đã chứng minh Mệnh đề 1.1.3.

Bài toán quy hoạch toàn phương

Bài toán quy hoạch toàn phương là một loại bài toán tối ưu hóa, trong đó hàm mục tiêu là một hàm bậc hai và chứa biến không âm s như sau: x∈minR n

Ma trận

Ma trận giả nghịch đảo

Một ma trận giả nghịch đảo A † của một ma trận A có kích thước m×n là một ma trận có các tính chất của ma trận nghịch đảo củaA nhưng không nhất thiết là ma trận nghịch đảo chính xác. Định nghĩa 1.3.1 Công thức biểu diễn ma trận giả nghịch đảo như sau:

A † = lim k→∞A(A T A) k A T trong đó, A T là ma trận chuyển vị của A, và (AA T ) k và (A T A) k là lũy thừa bậck của các ma trận tích AA T và A T A.

Ma trận giả nghịch đảo không phải luôn tồn tại Nếu tồn tại, nó không duy nhất.Một số phương pháp tính ma trận giả nghịch đảo bao gồm phân rã giá trị suy biếnSVD (Singular Value Decomposition) hoặc các phương pháp số khác.

Phân rã giá trị suy biến SVD

Định nghĩa 1.3.2 Phân rã giá trị suy biến SVD của A có dạng:

U là ma trận cột trực giao (m×m), Σ là ma trận đường chéo (m×n) có các giá trị suy biến không âm trên đường chéo,

V T là ma trận hàng trực giao chuyển vị (n×n).

Giả nghịch đảo Moore–Penrose

Một giả nghịch đảo Moore − Penrose A † của một ma trận A có kích thướcm×n là một ma trận có kích thước n×m thỏa mãn bốn đẳng thức sau:

(A † A) T =A † A Định nghĩa 1.3.3 Công thức biểu diễn giả nghịch đảo Moore − Penrose như sau:

U, Σ và V là các ma trận thu được từ phân tích giá trị suy biến của A, Σ † là ma trận chéo có các phần tử bằng nghịch đảo của các phần tử khác không trên đường chéo của Σ.

Ma trận giả nghịch đảo Moore − Penrose luôn tồn tại cho mọi ma trận A, không phụ thuộc vào hạng củaA.

Không gian vec-tơ Euclide

Bất đẳng thức Cauchy - Schwarz

Định nghĩa 1.4.1 Trong không gian Euclide R n , cho hai vec-tơ x và y, bất đẳng thức Cauchy - Schwarz được biểu diễn như sau:

⟨x, y⟩ là tích vô hướng Euclide giữa hai vec-tơ x và y,

∥x∥ là chuẩn Euclide của vec-tơ x,

∥y∥ là chuẩn Euclide của vec-tơ y.

Bất đẳng thức Cauchy - Schwarz đề cập đến sự tương quan giữa các vec-tơ trong không gian Euclide và thể hiện rằng tích vô hướng của chúng không thể lớn hơn tích của chuẩn Euclide của mỗi vec-tơ.

Phép chiếu

Giả sử v và ulà hai vec-tơ trong không gian Euclide Phép chiếu proj u (v) của vec-tơ v lên theo hướng của vec-tơ u được tính bằng cách chiếu v lên một đường thẳng theo hướng của u Kết quả là một vec-tơ mới nằm trên đường thẳng này và có chiều dài bằng với độ dài của phần chiếu Phép chiếu proj u (v) giúp xác định phần của vec-tơ v theo hướng của u. Định nghĩa 1.4.2 Công thức của phép chiếu được định nghĩa như sau: proj u (v) = vãu

∥u∥ 2 ãu, trong đó vãu là tớch vụ hướng giữa v và u,

∥u∥ là độ dài của vec-tơ u.

Biểu đồ hiệu suất

Với mục đích so sánh khách quan giữa các thuật toán, ta thường sử dụng biểu đồ hiệu suất, được đề xuất bởi Dolan và Moré [13] Giả sử ta có một tập hợp các phương pháp

S và ta muốn so sánh hiệu suất của chúng trên một tập hợp các bài toán P về thời gian tính toán (ta có thể áp dụng việc so sánh này cho các biện pháp khác, ví dụ, số lượng đánh giá hàm số, số lượng phân tử hóa) Đối với mỗi bài toán p và phương pháps, ta định nghĩa t p,s là thời gian tính toán cần thiết để giải quyết bài toán p bằng phương pháp s.

Hình 1.1: Biểu đồ hiệu suất so sánh ba phương pháp trên một tập hợp 132 bài toán

Tỷ lệ hiệu suất cho một bài toán p và phương pháp s được định nghĩa bởi rp,s 

 p,s min{t p,s :s ∈S}, nếu pđược giải quyết bởi s

Nói cách khác, đây là tỷ lệ giữa hiệu suất trên bài toán pbởi phương pháp svà hiệu suất tốt nhất bởi tất cả các phương pháp trên bài toán này Đối với mỗi phương pháp s, a định nghĩa ρ s (τ) = 1 n p |{p∈P :r p,s ≤τ}| sau đó,ρ s (τ)là tỷ lệ các bài toán thử nghiệm được giải quyết bởi phương pháp s trong một yếu tốτ ∈R của hiệu suất của phương pháp tốt nhất Trong đề án này sử dụng thang đo logarithm cho trụcτ để biểu diễn ρ s như là một hàm củaτ đối với mỗi phương pháps Các giá trị bên trái và bên phải nhất của biểu đồ vẽ các biểu đồ hiệu suất của các phương pháp cho ta thấy hiệu quả và độ bền vững của các phương pháp, tương ứng.

Ta nói rằng một phương pháp là hiệu quả nếu nó mất ít thời gian hơn để giải quyết một bài toán được đưa ra Nếu phương pháp này thành công trong việc tìm ra một giải pháp tối ưu, thì đó là một phương pháp mạnh mẽ để giải quyết bài toán này Hình 1.1 cho ta thấy biểu đồ hiệu suất so sánh số lượng đánh giá hàm số của ba phương phápA,

B và C trên một tập hợp 132 bài toán Ta có thể thấy rằng A là phương pháp hiệu quả nhất vàC là phương pháp mạnh mẽ nhất.

Một số thuật toán giải hệ bất phương trình tuyến tính 14

Sơ lược thuật toán Han và phiên bản hiệu quả hơn của thuật toán Han 14

2.1.1 Thuật toán Han đối với bài toán hệ bất phương trình tuyến tính

Trong [15], tác giả đã đề xuất một thuật toán để xấp xỉ nghiệm bình phương nhỏ nhất của hệ (1.1) Nó sẽ được trình bày ngắn gọn trong phần này, cùng với một số tính chất của nó.

Thuật toán 2.1.1 (Thuật toán Han) Đặt x 0 ∈R n là dữ liệu ban đầu; với k = 0,1, và thực hiện:

Bước 1 Tìm Ik =I x k và tính d k LS ∈ R n là (duy nhất) nghiệm chuẩn tối thiểu của bài toán bình phương nhỏ nhất tuyến tính min

Bước 2 Tính λ ∈R là nghiệm cực tiểu của hàm θ(λ) = f x k +λd k LS

Dựa trên sự tồn tại và tính toán của giá trị tối thiểu nhỏ nhất từ Bước 2, tác giả trong [6] đã đưa ra kết quả (đồng thời cho ta một thủ tục thuật toán để tìm nó).

Mệnh đề 2.1.1 Nghiệm cực tiểu của hàm θ(λ) từ (2.2) luôn tồn tại và có thể được tính toán một cách hiệu quả và chính xác trong mỗi lần lặp của thuật toán Han. Định lý 2.1.2 (i) Đặt x k k⩾0 là dãy được tạo bởi thuật toán Han từ bất kỳ x 0 ∈R n Khi đó, f ′ x ¯ k

= 0, đối với một số ¯k 0 được cho trước.

Set k = 0 (Số lần lặp) Đặt r 0 =b−Ax 0

Set I i:a T i x 0 ≥bi ={i:r 0 i ≤0} (Tập hợp các chỉ số hoạt động)

Set ρ 0 =∥r I 0 ∥ (định mức thặng dư ban đầu)

, trong đó f(x) được xác định bởi phương trình (3) x k+1 =x k +λd k r k+1 =b−Ax k+1

I =I k+1 i:a T i x k+1 ≥b i (Tập hợp chỉ số hoạt động mới ) ρ k+1 r k+1

Các chỉ số trên trong thuật toán trên cho biết số lần lặp Lưu ý rằng I và λ cũng phụ thuộc vàok, nhưng để rõ ràng,ta bỏ qua k khi kiểm tra một bước của thuật toán. Tìm kiếm dòng chính xác cho λ là hợp lý về mặt tính toán, vì θ(λ) =f x k +λd k là hàm bậc hai, lồi và tiếp diễn; có thể chỉ cần tìm kiếm thông qua các điểm nút để cô lập một khoảng mà trên đó θ(λ) là bậc hai, khi đó đó nội suy Thử nghiệm số cho thấy thuật toán trên thực tế nhạy cảm với quy trình tìm kiếm theo dòng và đáng để xem xét các phương pháp khác.

Kết quả cơ bản mà Han thiết lập về thuật toán này là nó hội tụ trong một số hữu hạn các bước tới một số cực tiểu của (1.3) Chứng minh dựa trên các mệnh đề sau đây, được chứng minh dễ dàng.

Mệnh đề 2.1.5 Với bất kỳ ma trận A∈R m×n và vec-tơ b ∈R n , giả sử f(x) được cho bởi (1.3), x=x k , d=d k và I =I x k

1 ∇f(x) =−A T I A I d, vì vậy d T ∇f(x) =∥A I d∥ 2 , và d là hướng đi xuống của f(x).

2 d là nghiệm bình phương nhỏ nhất chuẩn tối thiểu cho bài toán: cực tiểu hóa

2.1.3 Một phiên bản hiệu quả hơn: thuật toán Bramley Để làm cho thuật toán này trở nên thiết thực, d k cần được tính toán bằng phương pháp phân tích thừa số A I với số phân rã ít hơn Thuật toán của Han sử dụng nghịch đảo giả để xác địnhd k nhằm hạn chế sự tăng trưởng của thành phần x k trong không gian hạt nhân của A I Giờ đây ta chỉ ra rằng phép tính toánd k ít bước hơn Tạm thời bỏ qua chỉ số trên k, hãy để d svd = A † I r I Nghiệm bình phương nhỏ nhất chung cho

I−A † I A I y nằm trong không gian hạt nhân của A I , do đó A I d=A I d svd Điều này rất quan trọng vì, với một ngoại lệ, bằng chứng về sự kết thúc hữu hạn trong [8] chỉ liên quan đến đại lượng A I d, không phải d Trước khi giải quyết ngoại lệ đó, nhắc lại một kết quả của Golub và Pereyra [7]. Định lý 2.1.6 GọiG là một ma trận m×n và GP = QRˆ là QR với phân tích nhân tử xoay cột là G Vách ngăn

 trong đó R 1 là r×r, tam giác trên và khả nghịch, còn R 2 là r×n−r Đặt y svd là nghiệm bình phương nhỏ nhất chuẩn tối thiểu cho bài toán: cực tiểu hóa ∥Gy−f∥, đặt

Việc áp dụng kết quả này vào thuật toán bất phương trình tuyến tính cho ta biết rằng việc sử dụng phân tích thừa số QR với phép xoay cột để tính toán hướng tìm kiếm d sẽ luôn cung cấp một d bị giới hạn bởi một hằng số nhân với chuẩn của d svd , trong đó hằng số không phụ thuộc vào x hoặc số lần lặp k. Định lý 2.1.7 Giả sử d được tính toán trong thuật toán của Han bằng cách sử dụng phân tích thừa sốQRvới phép xoay cột Khi đó, tồn tại C R ≥0sao cho∥d∥ ≤C R ∥d svd ∥ độc lập với số lần lặp k.

Chứng minh Đối với tập chỉ số I đã cho, đặt R 1 và R 2 là các thừa số được xác định bằng cách áp dụng Định lý 2.1.6 cho bài toán: cực tiểu hóa ∥A I d−r T i ∥ Đặt

2 và đặt C R = max{C I }, trong đó giá trị tối đa được lấy trên tất cả các bộ chỉ mục có thể có I Vì số lượng các bộ chỉ mục như vậy là hữu hạn nên

C R được xác định rõ Áp dụng định lý 2.1.6 ta có điều cần chứng minh.

Bây giờ ta chứng minh kết quả hội tụ chính cần thiết. Định lý 2.1.8 Cho các chuỗi vec-tơ x k và d k được tính toán bằng Thuật toán 2.1.2,với d k được tính toán bằng cách sử dụng phân tích thừa số QR với phép xoay cột trên

A I Khi đó, thuật toán dừng sau một số lần lặp hữu hạn hoặc k→∞lim ∇f x k

Chứng minh Nếu thuật toán dừng lại sau một số lần lặp hữu hạn thì không còn gì để chứng minh Giả sử nó mất vô số lần lặp lại Khi đó, đối với tất cả các bước, A I là một ma trận khác rỗng, vìI =ϕ khi và chỉ khi x k là một nghiệm Đầu tiên, loại bỏ các chỉ số trên k và xem xét một bước của thuật toán Vì ∇f là Lipschitz liên tục và toàn cục với hằng số Lipschitz là ∥A∥ 2 , từ định lý giá trị trung bình (Định lí 8.3.1, [19]) f(x+λd)−f(x) =λ

Là một hàm của λ, vế phải của giới hạn trên có giá trị nhỏ nhất tại ˆλ= −d T ∇f(x)

∥A∥ 2 ã ∥d∥ 2 Thay giá trị này của λ vào (2.7) và sử dụng d T ∇f(x) = −d T A T I A I d, ta được f(x+ ˆλd)−f(x)≤ −1

Lưu ý rằng nếu thành phần củad nằm trong khoảng trống của A I trở nên lớn tùy ý, giới hạn trên có thể bằng không Tuy nhiên, từ Định lý 2.1.7 ∥d∥ ≤CR∥dsvd∥, trong đóC R độc lập với số lần lặp Vì d svd ∈range A T I

A † I ã ∥A I d svd ∥ ≤C∥A I d svd ∥. trong đó C max I

C R Thay thế ràng buộc này trênd vào (2.8) sẽ cho f(x+ ˆλd)−f(x)≤ − 1

Vì kích thước bậc thang λ được chọn bởi một tìm kiếm dòng chính xác, f(x)−f(x+λd)≥f(x)−f(x+ ˆλd)≥ 1

Bất phương trình cuối cùng đúng cho tất cả các lần lặp và vì f x k đơn điệu giảm dần và bị chặn dưới bởi 0,

∥A I k d k ∥ 2 là một tổng hữu hạn, vì vậy A I k d k →0ask → ∞và do đó ∇f x k

Phương pháp chiếu liên tiếp

2.2.1 Bài toán đối ngẫu của bất phương trình tuyến tính

Thuật toán mới phát sinh từ một quan sát trong trường hợp của phương trình tuyến tính

Ax=b, (2.9) trong đóA, b đã được cho trước Nghiệm bình phương nhỏ nhất của bài toán này có thể được tìm bằng cách giải bài toán tối ưu không ràng buộc sau đây x∈minR n

Bài toán (2.10) có thể được xem xét dưới dạng tương đương khác x∈ Rmin n ,y∈ R m

2∥y−b∥ 2 (2.11) với Ax=y trong đó nghiệmy ∗ là chiếu của b lên không gian sinh của A y ∗ = proj Im(A) (b).

Bằng cách xây dựng hàm Lagrange và sử dụng lý thuyết đối ngẫu, việc tìm biểu diễn đối ngẫu của bài toán (2.11) là dễ dàng z∈minR m

Nghiệm của bài toán này là chiếu củab lên không gian hạt nhân củaA ⊤ z ∗ = proj Ker ( A ⊤ )(b).

Khita có nghiệm đối ngẫu z ∗ , nghiệm gốc y ∗ của (2.11) có thể được khôi phục bằng cách sử dụng điều kiện tối ưu: y ∗ =b−z ∗ Giải hệAx =y ∗ sẽ đưa ra cho ta nghiệm bình phương nhỏ nhất của các phương trình tuyến tính (2.9). Điều này đưa ra cho ta một câu hỏi tự nhiên: liệu có mối quan hệ tương tự giữa nghiệm của các bài toán gốc và đối ngẫu trong bất phương trình tuyến tính hay không?

Và ta có thể khôi phục nghiệm bình phương nhỏ nhất của các bất phương trình tuyến tính từ nghiệm đối ngẫu không? Phần tiếp theo sẽ giúp ta trả lời câu hỏi này Trước

Hình 2.1: Phân rã trực giao khi đi vào các phần tiếp theo, ta giới thiệu các ký hiệu được sử dụng trong phần này.

Do đó, thay vì (1.1), ta sẽ xem xét nghiệm bình phương nhỏ nhất của hệ (1.1) dưới dạng x∈minR n

Bài toán tối ưu này là lồi, nghiệm cục bộ của nó cũng là nghiệm toàn cục, xem thêm ví dụ ở [11] Để tìm nghiệm cho bài toán này, một cách có thể là giải bài toán điều kiện cần (và cũng là điều kiện đủ)

Kết quả tiếp theo nói về tính tương đương giữa các bài toán tối ưu.

Mệnh đề 2.2.1 Với f :R →R , ba mệnh đề sau đây x∈minR n

Khi đó, (P1), (P2) và (P3) là các mệnh đề tương đương.

Chứng minh Đầu tiên, ta chứng minh tính tương đương giữa hai mệnh đề (P1) và (P2) Thật vậy, ta có f(x) =f(x) + −f(x) − , trong đóf(x) − = (−f(x)) + Do đó, đối với tất cả x∈R n , ta có min∥f(x) + ∥= min u=f(x) − ∥f(x) +u∥ ≥min u≥0 ∥f(x) +u∥.

Ngược lại, bằng cách sử dụng tính chất là toán tử chiếu x7→x + không mở rộng và với u≥0,(−u)+ = 0, x∈R n và u≥0ta có

Khi đó suy ra bất phương trình x∈minR n

Bằng cách để y=u+f(x) vào mệnh đề (P2), ta suy ra rằng (P2) và (P3) là hai mệnh đề tương đương.

Dựa vào Mệnh đề 2.2.1, bài toán (2.13) có thể được sửa lại một cách tương đương thành min 1

2∥Ax−b+s∥ 2 với x∈R n , s ∈R m +, hoặc có thể được viết lại min 1

Nghiệm v ∗ của bài toán này là chiếu củab lên hình nón Im(A)+ R m + Bằng dùng hàm Lagrange và lý thuyết đối ngẫu, ta có biểu diễn đối ngẫu của bài toán (2.14) như sau min 1

Với A o là nón cực của A, ta lưu ý rằng Im(A) +R m + o

Điều này có nghĩa rằng nghiệmz ∗ của bài toán (2.7)là chiếu của b lên hình nón cực của Im(A) +R m + Do đó, mối quan hệ trực gian giữa nghiệm gốc và đối ngẫu trong trường hợp phương trình được thay đổi bằng mối quan hệ cực của nghiệm gốc và đối ngẫu trong bất phương trình tuyến tính.

2.2.2 Giải quyết bài toán đối ngẫu

Trong phần này, ta sẽ xem xét một phương pháp để giải quyết bài toán chiếu (2.7) Để rõ ràng, ta viết lại bài toán này dưới dạng tương đương như sau

Hình 2.2: Phân rã cực min 1

Nghiệm cho bài toán trên là chiếu của vec-tơ −b lên phần giao của hai nón lồi đóng Ker A ⊤ và R m + Vào năm 1983, Dykstra [14] đã phát minh một thuật toán lặp để tìm chiếu lên giao của các nón lồi đóng khi chiếu lên từng nón riêng lẻ có sẵn Vào năm

1986, Boyle và Dykstra [3] đã phát triển phương pháp này cho giao của các tập lồi đóng. Với sự đơn giản, ta chỉ xem xét việc chiếu lên hai nón lồi đóng (m = 2) Chọnz 0 =b (điểm mà ta muốn chiếu), và đặt u 0 =v 0 = 0 Ở bước k của thuật toán, ta tính:

1 Chiếu của zk−1−uk−1 lên C 1 :y k = proj C 1 (zk−1−uk−1).

Khi đó, ta có định lý sau về sự hội tụ toàn cục của Thuật toán Dykstra: Định lý 2.2.2 ([3], Định lý 2) Cho C 1 và C 2 là các tập lồi đóng trong không gian Hilbert thực H và b ∈H Khi đó, dãy số {zk} và {yk} hội tụ mạnh đến chiếu của b lên giao của C 1 ∩C 2 Điểm quan trọng trong thuật toán này là tìm chiếu của một điểm lên từng nón riêng lẻC 1 , C 2 Dễ dàng kiểm tra rằng chiếu của b lên không gian không âm R m + là: projR m +(b) = (max{b 1 ,0}, ,max{b m ,0}) =b + (2.17)Kết quả tiếp theo cho ta chiếu lên không gian hạt nhân.

Mệnh đề 2.2.3 Chiếu z của b lên không gian hạt nhân Ker A được xác định duy nhất bởi hệ sau:

Cụ thể, nghiệm được cho bởi: z ∗ I−A A ⊤ A †

A ⊤ b trong đó A † là giả nghịch đảo Moore–Penrose của A.

Chứng minh Lưu ý rằng chiếu của b lên Ker A ⊤ là nghiệm duy nhất của bài toán tối ưu hóa: min 1

Theo tính chất của phép chiếu, nghiệmz ∗ của bài toán này tồn tại duy nhất Áp dụng điều kiện KKT cho bài toán này, ta có chứng minh.

Ngoài việc chiếu lên từng nón riêng lẻ (yk, zk), thuật toán Dykstra trong trường hợp tổng quát (đối với các nón lồi đóng) cũng bao gồm các bước tăng (u k , v k ) Trong trường hợp này, không gian hạt nhân Ker A ⊤ không chỉ là nón lồi đóng mà còn là một không gian vec-tơ Do đó, việc chiếu lên nó là một toán tử tuyến tính Tại lần lặp thứ k của Thuật toán, ta có: proj Ker ( A ⊤ ) (uk−1) = proj Ker ( A ⊤ ) (yk−1−(zk−2−uk−2))

= proj Ker ( A ⊤ ) (yk−1)−proj Ker ( A ⊤ ) (zk−2−uk−2)

Sự tương đương gần cuối cùng đến từ việc yk−1 thuộcKer A ⊤

(vì nó là chiếu lên Ker A ⊤

) và yk−1 là chiếu của zk−2−uk−2 lên không gian hạt nhân Ker A ⊤

Từ đây, không cần thiết phải tính tăng (u n ) khi áp dụng thuật toán Dykstra cho bài toán của ta (2.16) Giới thiệu thuật toán Dykstra dưới đây để giải bài toán (2.16): y n = proj Ker ( A ⊤ ) (zn−1) zn = proj R m

+ (yn−vn−1) (Thuật toán Dykstra) vn=zn−(yn−vn−1) với mỗi n= 1,2, , với các giá trị ban đầu z0 =−b và v0 = 0. Đặt un =yn−(zn−1−un−1) với u 0 = 0.

Từ thuật toán này, ta có một số lưu ý về các chiếu (y n , z n ) và các tăng cường (u n , v n ).

Mệnh đề 2.2.4 Đối với tất cả n = 1,2, , các dãy số {y n },{z n },{v n } của Thuật toán Dykstra và {un} thỏa mãn:

6 ⟨yn, un−1⟩ ≥0 và ⟨zn, vn−1⟩ ≥0.

Chứng minh 1 và 2 có thể được chứng minh bằng cách sử dụng quy nạp 3 và 4 được suy ra từ cách xác định của các dãy số{u n }và {v n } 5 được thu được từ tính chất của việc chiếu lên các nón lồi

⟨z n , v n ⟩=⟨z n , z n −u¯n−1⟩=⟨proj K (¯un−1),proj K (¯un−1)−u¯n−1⟩= 0, ở đó ¯v n =vn−1 −b,u¯ n =u n −b.

Bằng cách sử dụng lại tính chất của việc chiếu lên các nón lồi, các tính chất 1, 2 và các ký hiệu tương tự trong đoạn cuối của đoạn văn trên, đối với bất kỳ z ∈Ker A ⊤

⟨−un−1, z⟩=⟨¯vn−1−yn−1, z⟩=D ¯ vn−1−proj Ker ( A ⊤ ) (¯vn−1), zE

Sử dụng lý thuyết tương tự, ta cũng có−vn−1 ∈K ∗ Từ đó, ta suy ra 6.

Thuật toán điểm trong

Phương pháp điểm trong có thể được áp dụng cho bài toán quy hoạch toàn phương lồi với các ràng buộc bất phương trình, ta viết như sau: minx q(x) = 1

(2.18) trong đó G là đối xứng và nửa xác định dương và ma trậnm×n A và vec-tơb được xác định bởi

Viết lại các điều kiện KKT (16.37) bằng ký hiệu này, ta được

Bằng cách giới thiệu vec-tơ y≥0, ta có thể viết lại các điều kiện này như sau:

Vì ta giả định rằng G là nửa xác định dương, các điều kiện KKT không chỉ là cần thiết mà còn là đủ (xem Định lý 16.4, [20]), vì vậy ta có thể giải quy hoạch toàn phương lồi(2.18) bằng cách tìm các nghiệm của hệ (2.19).

Cho một lần lặp hiện tại (x, y, λ)mà thoả mãn (y, λ)>0, ta có thể xác định một đo lường bổ sung bằng à= y T λ m

Như trong Chương 14, [20], ta suy ra phương pháp theo đường dẫn, phương pháp cặp đối ngẫu bằng cách xem xét các điều kiện KKT bị nhiễu:

Y =diag(y 1 , y 2 , , y m ), Λ=diag(λ 1 , λ 2 , , λ m ), e= (1,1, ,1) T , và σ∈[0,1] Cỏc nghiệm của (2.20) cho tất cả cỏc giỏ trị dương củaσ và àxỏc định đường dẫn trung tâm, đây là một quỹ đạo dẫn đến nghiệm của quy hoạch toàn phương σà hướng tới khụng.

Khi cố định àvà ỏp dụng phương phỏp Newton cho (2.20), ta thu được hệ phương trình tuyến tính:

Ta thu được lần lặp tiếp theo bằng cách đặt

(x + , y + , λ + ) = (x, y, λ) +α(∆x,∆y,∆λ) (2.23) trong đóα được chọn để duy trì bất phương trình (y + , λ + )>0 và có khả năng thoả mãn các điều kiện khác nhau.

Trong phần còn lại của chương này, ta thảo luận về một số cải tiến cho cặp đối ngẫu này để làm cho nó hiệu quả trong thực tế.

Phép toán tính trong phương pháp điểm trong là việc giải hệ (2.21) Ma trận hệ số trong hệ này có thể tốn kém hơn nhiều để phân rã so với ma trận (14.9), [20] xuất hiện trong quy hoạch tuyến tính vì sự hiện diện của ma trận Hessian G Do đó, việc khai thác cấu trúc của (2.21) là rất quan trọng bằng cách chọn một thuật toán phân rã trực tiếp phù hợp hoặc chọn một tiền điều kiện thích hợp cho một trình giải lặp.

Như trong Chương 14, [20], hệ (2.21) có thể được trình bày lại dưới các dạng gọn hơn Dạng "hệ tăng cường" là

Sau một phép biến đổi đơn giản thành dạng đối xứng, một lược đồ phân giải không xác định đối xứng có thể được áp dụng cho ma trận hệ số trong hệ này Dạng "phương trình chuẩn" là

(G+A T Λ −1 A)∆x=−r d +A T Λ −1 [−r p +λ+σàe]. phương trình này có thể được giải quyết bằng cách sử dụng thuật toán Cholesky đã được chỉnh sửa Phương pháp này hiệu quả nếu biểu thức A T (Y −1 )A không quá nhiều so với G, và nó có ưu điểm là nhỏ hơn nhiều so với (2.24) nếu có nhiều ràng buộc bất phương trình.

Phương pháp CG chiếu của Thuật toán 16.2, [20] cũng có thể hiệu quả để giải hệ gốc −đối ngẫu Ta có thể viết lại (2.21) dưới dạng

 , và quan sát rằng những điều kiện này là điều kiện tối ưu cho quy hoạch toàn phương lồi ràng buộc bất phương trình (16.3, [20]), trong đó biến là(∆x,∆y) Do đó, ta có thể thực hiện các thay thế phù hợp và giải hệ này sử dụng Thuật toán 16.2, [20] Phương pháp này có thể hữu ích cho các bài toán mà việc phân giải trực tiếp không thể được thực hiện do yêu cầu bộ nhớ quá mức Phương pháp CG chiếu không yêu cầu ma trận

Gphải được hình thành hoặc được yếu tố hóa; nó chỉ yêu cầu các tích ma trận −vectơ. 2.3.2 Lựa chọn độ dài bước

Trong Chương 14, [20] đã đề cập rằng các phương pháp điểm trong cho quy hoạch tuyến tính sẽ hiệu quả hơn nếu các độ dài bước lặpα pri , α dual được sử dụng cho các biến nguyên và thứ Phương trình (14.37, [20]) chỉ ra rằng sự giảm lớn nhất trong các dư lượngr h và r c được thu được bằng cách chọn độ dài bước nguyên và thứ lớn nhất.

Có sự khác biệt trong quy hoạch toàn phương Giả sử ta định nghĩa lần lặp mới là

(x + , y + ) = (x, y) +α pri (∆x,∆y), λ + =λ+α dual ∆λ, (2.25) trong đóα và α là độ dài bước đảm bảo tính dương của (y , λ ) Khi sử dụng (2.21) và (2.22), ta thấy rằng các dư lượng mới tuân theo các mối quan hệ sau: r + p = (1−α pri )r p , r + d = (1−α dual )r d + (α pri −α dual )G∆x.

Nếu α pri =α dual =α thì cả hai dư lượng giảm tuyến tính cho tất cả α∈(0,1) Với các độ dài bước khác nhau, tuy nhiên, dư lượng képr + d có thể tăng lên với một số lựa chọn của α pri , α dual , có thể gây ra sự phân kỳ của lặp điểm bên trong.

Một lựa chọn là sử dụng các độ dài bước bằng nhau, như trong (2.23), và đặt α= min(α pri , α dual ), trong đó α pri t = max{α∈(0,1) : y+α∆y≥(1−τ)y}, (2.26) α dual t = max{α∈(0,1) : λ+α∆λ≥(1−τ)λ} (2.27) tham số τ ∈(0,1) kiểm soát việc ta lùi lại bao xa khỏi bước lớn nhất mà ở đó điều kiện y+α∆y≥0và λ+α∆λ ≥0được thoả mãn Tuy nhiên, thực nghiêm số đã chỉ ra, việc sử dụng các độ dài bước khác nhau trong các biến gốc và đối ngẫu thường dẫn đến sự hội tụ nhanh hơn Một cách để chọn độ dài bước không đồng đều là chọn (α pri , α dual ) sao cho (gần đúng) tối thiểu hóa tiêu chí tối ưu là

∥Gx + −A T y + +c∥2 +∥Ax + −y + −b∥2+ (y + ) T z + , (2.28) điều kiện là 0 ≤α pri ≤ α pri r và 0≤ α dual ≤α dual r , trong đó x + , y + , λ + được xác định dưới dạng một hàm của các độ dài bước thông qua (2.25).

2.3.3 Phương pháp toàn phương thực tế

Phương pháp điểm trong tiêu biểu nhất cho quy hoạch toàn phương dựa trên phương pháp dự đoán − sửa lỗi của Mehrotra, được phát triển ban đầu cho quy hoạch tuyến tính (xem Mục 14.2, [20]) Việc mở rộng lên quy hoạch bậc hai là trực quan. Đầu tiên, ta tính bước co giãn tuyến tính ∆x aff ,∆y aff ,∆λ aff bằng cách đặt σ = 0 trong (2.21) Ta cải thiện bước này bằng cách tính bước sửa lỗi, được xác định theo cùng một lý do dẫn đến (14.31, [20]) Tiếp theo, ta tính tham số tâmσ sử dụng (14.34, [20]) Bước tổng thể được thu được bằng cách giải hệ phương trình sau (xem (14.35, [20])):

Giờ đây ta sẽ mô tả thuật toán Để đơn giản, ta sẽ giả sử trong mô tả của mình rằng chiều dài bước bằng nhau được sử dụng trong các biến gốc và đối ngẫu, mặc dù như đã lưu ý ở trên, chiều dài bước không bằng nhau có thể tăng tốc độ hội tụ. Thuật toán Dự đoán - Hiệu chỉnh là một phương pháp điểm trong phổ biến để giải bài toán quy hoạch toàn phương Phương pháp này kết hợp hai bước: dự đoán và hiệu chỉnh để tiến tới lời giải tối ưu một cách hiệu quả.

Thuật toán 2.3.1 (Thuật toán Dự đoán - Hiệu chỉnh) Tính giá trị ban đầu cho (x 0 , y 0 , λ 0 ) sao cho (y 0 , λ 0 ) > 0 Điều này đảm bảo rằng điểm khởi tạo là một điểm trong.

Lặp qua các bước kết hợp giữa bước dự đoán và bước hiệu chỉnh:

1 Đặt giá trị hiện tại cho (x, y, λ) dựa trên giá trị tại bước k.

Giải hệ phương trình tuyến tính dựa trên hàm giả đối ngẫu với σ = 0 để tìm hướng dự đoán (∆x af f ,∆y af f ,∆λ af f ).

Tớnh à, là giỏ trị trung bỡnh của tớch của y và λ chia cho m.

Tìm α af f sao cho nó đảm bảo rằng (y, λ) cộng với một phần của hướng dự đoán luôn dương.

Tớnh à af f , giỏ trị trung bỡnh của tớch y và λ sau khi di chuyển theo hướng dự đoán. Đặt giỏ trị σ dựa trờn tỷ lệ giữa à af f và à.

Giải hệ phương trình mới để tìm hướng hiệu chỉnh (∆x,∆y,∆λ).

Chọn giá trị τ k nằm trong khoảng (0, 1) và xác định giá trị α dựa trên điều kiện α pri t = max{α∈(0,1) :y+α∆y≥(1−τ)y}, (2.30) α dual t = max{α∈(0,1) :λ+α∆λ≥(1−τ)λ} (2.31)

Cập nhật giá trị mới cho (x, y, λ) bằng cách di chuyển một phần theo hướng đã tìm được.

Với thuật toán này, mỗi vòng lặp bao gồm một bước dự đoán để xác định một hướng di chuyển tốt và một bước hiệu chỉnh để tinh chỉnh hướng di chuyển dựa trên điều kiện cụ thể của bài toán.

Chúng ta có thể chọn τk tiến gần đến 1 khi các lần lặp tiếp cận nghiệm, để tăng tốc độ hội tụ. Đối với quy hoạch tuyến tính, hiệu quả và sự ổn định của phương pháp này được cải thiện đáng kể nếu chúng ta chọn một điểm bắt đầu tốt Việc lựa chọn này có thể được thực hiện theo nhiều cách Phép ước lượng đơn giản sau đây chấp nhận một điểm ban đầu(˜x,y,˜ λ)˜ từ người dùng và di chuyển nó xa biên giới của vùng(y, λ)≥0để cho phép thuật toán thực hiện các bước dài trong các lần lặp đầu tiên Đầu tiên, chúng ta tính bước tỉ lệ tuyến tính (∆xaff,∆yaff,∆λaff) từ điểm khởi tạo do người dùng cung cấp ˜ x,y,˜ λ˜

, ta đặt y 0 = max(1,|1 + ˜y T Af|),˜ λ 0 = max(1,|1 + ˜λ T Af˜|), x 0 = ˜x trong đó hàm max và giá trị tuyệt đối được áp dụng theo từng thành phần.

Thuật toán vùng tin cậy

2.4.1 Bài toán không ràng buộc

Xem xét lại bài toán không ràng buộc sau: min f(x) với x∈R n

(2.32) trong đó f :R n →R là hàm khả vi (khả vi cấp hai trong trường hợp của phương pháp Newton trong vùng tin cậy).

2.4.2 Bài toán phụ của phương pháp Newton

Chox k ∈R n là điểm lặp hiện tại Bài toán phụ của phương pháp Newton cho bài toán (2.32) được cho bởi: min ψ k (x) với x∈R n trong đó ψ k (x) = f x k

, x−x k với H k =f ′′ x k cho lựa chọn cơ bản Với các xấp xỉ cho Hessian, chúng ta cũng xem trường hợp khiH k là ma trận chung, không nhất thiết phải là f ′′ x k

. 2.4.3 Bước lặp của phương pháp vùng tin cậy

Một bước lặp của phương pháp vùng tin cậy bao gồm việc giải (có thể là gần đúng) bài toán phụ min ψ k (x) với x−x k

(2.33) trong đó δ k >0 là tham số xác định một vùng (trong trường hợp này, một hình cầu) mà mô hìnhψ k được tin tưởng là xấp xỉ tốt của f Việc kiểm soát tốt của tham số này rõ ràng là bài toán quan trọng nhất trong phương pháp này.

Trong phần tiếp theo, chúng ta chỉ xem xét các mô hình bậc hai ψ k

Phương pháp vùng tin cậy hoạt động như sau Nếu một nghiệm (có thể là gần đúng) của bài toán phụ (2.33) cho ta một giảm đủ đối với hàm mục tiêu (đối với những gì được dự đoán bởi mô hình, xem (2.34)), thì nó được chấp nhận là điểm lặp tiếp theo. Nếu không, tham số vùng tin cậy được giảm, một cách cơ bản vì những lý do tương tự việc giảm bước trong các thủ tục tìm kiếm dòng Phiên bản cơ bản của phương pháp vùng tin cậy là như sau.

Thuật toán 2.4.1 (Thuật toán vùng tin cậy) Chọn các tham sốC > 0vàσ, θ ∈(0,1), và một điểm bắt đầu x 0 ∈R n Đặt k= 0.

1 Chọn δ ≥C và ma trận đối xứng H k ∈R n×n

2 Với δ k =δ, tính x˜ k ∈R n , một nghiệm (có thể là ước tính xấp xỉ) của (2.33).

3 Nếu x˜ k =x k , dừng lại Nếu không, kiểm tra điều kiện bất phương trình f x˜ k

Nếu (2.34) được thỏa mãn, đến bước 4 ; ngược lại, đặt δ=θδ k và đi đến bước 2

4 Đặt x k+1 = ˜x k , tăng k lên 1 và đi đến bước 1

Chúng ta chú ý rằng việc cho phép bán kính vùng tin cậy tăng lên sau các lần lặp thành công là rất quan trọng trong thực tế Mặc dù bước 1 trong thuật toán 2.4.1 cho phép điều này, chúng tôi sẽ không đi sâu vào chi tiết về cách thực hiện điều này Tương tự, khi vùng tin cậy bị thu nhỏ, thường được sử dụng các quy tắc tinh vi hơn so với quy tắc đơn giản trong bước 3.

Bất kỳ so sánh về hiệu quả giữa phương pháp tìm kiếm dòng và phương pháp vùng tin cậy là một bài toán phức tạp Về nguyên tắc, cả hai chiến lược đều có một số ưu điểm và nhược điểm Có thể nói rằng phương pháp vùng tin cậy đã trở nên phổ biến hơn theo thời gian Điều rõ ràng là phương pháp vùng tin cậy mạnh mẽ hơn Trong thực tế, chỉ cần xem xét tình huống khif ′ x k

= 0 nhưng vẫn tồn tại một hướng "bậc hai" giảm của f từ điểm x k , tức là có một ξ ∈ R n sao cho f ′′ x k ξ, ξ

0 Đặt k = 0.

2 Tại bước k, nếu ∥F(z k )∥ ≤ε, thì dừng thuật toán.

Nếu không, tính hướng d k của hệ phương trình tuyến tính sau

3 Đặt zk+1 =zk+dk, k=k+ 1 và quay lại bước 2.

Trong thuật toán này, chúng ta cần chọn một ma trận G(z k ) trong Jacobian tổng quát của Clarke (xem ví dụ [9]) ∂F(zk)được định nghĩa bởi

0 nếu a ⊤ i x−b i 0, λ i a j i nếu a ⊤ i x−b i = 0, cho một số λ i ∈[0,1].

Ứng dụng việc giải bất phương trình tuyến tính vào bài toán phân loại 47

Bài toán phân loại

Giả sử có m điểm trong tập điểm A và k điểm trong tập điểm B ChoA và B là các ma trận với các hàng cho biết tọa độ của các điểm trongA và B, tương ứng Chúng ta tìm một vec-tơ w trong R n và một số vô hướng γ sao cho Aw ≤γe m và Bw > γe k , trong đó ei ∈R i là vec-tơ gồm toàn số một Chúng ta lưu ý rằng không phải tất cả các tập A và B đều có thể được phân tách hoàn toàn bằng mặt phẳng, vì vậy chúng ta muốn tìm một mặt phẳng có ít điểm được phân loại sai nhất Theo [5], điều này có thể được xấp xỉ như nghiệm bình phương nhỏ nhất của hệ bất phương trình

Bennett và Mangasarian [2] đề xuất bài toán này dưới dạng chuẩn L 1 và sử dụng quy hoạch tuyến tính để giải quyết. Đối với tất cả i= 1, , m+k, ta có x i 

Giải bài toán phân loại tuyến tính bằng hệ bất phương trình bình phương nhỏ nhất

Công thức này xác định rằng tất cả các điểm nằm bên ngoài "bảng" H ={x:γ−1≤ w T x≤γ + 1 , đề phòng trường hợp tất cả các điểm dữ liệu thẳng hàng trên một siêu phẳng, trong trường hợp đó, bài toán bình phương nhỏ nhất (3.1) với số 0 ở vế phải cho một nghiệm đơn giản (w, γ) = 0 Trong [1], Bennett và Mangasarian xây dựng bài toán này theo chuẩn L1: min 1 m m

+ (3.2) và khi đó giải nó dưới dạng bài toán quy hoạch tuyến tính: cực tiểu trên (w, γ, y, z) hàm y T e m m +z T e k k thỏa mãn các ràng buộc Aw−γem+y≥em,−Bw+γek+z ≥ek và y, z ≥0.

Việc chuẩn hóa các số hạng của hàm mục tiêu bởi 1 m và 1 k đảm bảo rằng tồn tại nghiệm không tầm thường(w, γ) Một kết quả tương tự đúng với công thức bình phương nhỏ nhất (3.1). Định lý 3.2.1 Giả sử hai tập hợp điểm A và B lần lượt có các điểm m và k và m, k > 0 Khi đó công thức bình phương nhỏ nhất của (3.1) có nghiệm tầm thường w= 0 khi và chỉ khi m

X j=1 b j (3.3) đối với một số hằng số α cho phép.

Chứng minh Giả sử rằng nghiệm bình phương nhỏ nhất của (3.1) có w = 0, hãy để ˜ w= w T , γT

Hơn nữa, bộ chỉ mục hoạt độngI là

Từ các phương trình bình thường, G T (Gw˜−g)+= 0 Nếu γ 1, điều này suy ra

 và vì vậy k = 0, lại là một mâu thuẫn Vậy −1≤γ ≤1, trong trường hợp này

Nếu|γ|= 1, cuối cùng suy ra rằng một trong sốm hoặc k bằng không.

Vậy |γ|0}là chỉ số của các ràng buộc hoạt động, trong đó z ∗ là nghiệm của bài toán (3.1) vàp= |I|là số phần tử của I Trong phần này, chúng ta sẽ chỉ ra sự phụ thuộc của Thuật toán Dykstra (Tăng tốc) vào số lượng ràng buộc mà chỉ số thuộc vềI.

Chúng ta tạo ra 900 bài toán với kích thước n = 10, m= 100n Trong những bài toán này, có 100 bài toán với p= 100,100 bài toán với p= 200, ,100 bài toán với p= 900 Hình 4.5 cho chúng ta thấy giá trị trung bình của FLOPS cho mỗi số ràng buộc hoạt động p Hình vẽ này cho chúng ta biết rằng chi phí tính toán tỉ lệ nghịch với số lượng ràng buộc hoạt động p Chúng ta cũng thấy rằng sẽ tốt hơn khi sử dụng lược đồ tăng tốc.

Hình 4.5: Giá trị trung bình của FLOPS cho mỗi số ràng buộc hoạt độngp

So sánh hiệu suất phân loại giữa thuật toán SVM và thuật toán giải hệ bất phương trình tuyến tính bình phương nhỏ nhất

Chúng tôi sử dụng Thuật toán Dykstra Tăng tốc để giải (3.1) trong cách tiếp cận trước và sử dụng hàm quadprog in MATLAB để giải bài toán (??) để giải bài toán đối ngẫu trong cách tiếp cận sau So sánh được thực hiện qua 3 loại bài toán phân loại tuyến tính trong không gian hai chiều.

Trường hợp đầu tiên có thể phân tách tuyến tính Trong thí nghiệm này, 200 điểm sẽ được tạo ngẫu nhiên trong hình vuông đơn vị Tập điểm A nằm dưới đường x 1 +x 2 = 1 Tập điểm A nằm ở phía đối diện Hình 4.6 cho chúng ta thấy hình ảnh của các điểm và các mặt phẳng (mặt phẳng phân tách và "dải") trong bài toán có thể phân tách tuyến tính Trong trường hợp này, hai cách tiếp cận đều tốt về giải pháp Tuy nhiên, Thuật toán Dykstra Tăng tốc mất ít thời gian hơn để tìm ra nghiệm (mất 0,04 giây, trong khi mất 0,93 giây để có được nghiệm của cách tiếp cận SVM).

Trường hợp thứ hai là bài toán hình vuông Trong thí nghiệm này, 200 điểm sẽ được tạo ngẫu nhiên trong hình vuông đơn vị Tập điểmA nằm trong hình vuông nhỏ Tập điểm A nằm trong hình vuông lớn hơn Đối với bài toán hình vuông, nghiệm bình phương nhỏ nhất của bất phương trình tuyến tính (3.1) cho kết quả tốt hơn so với cách tiếp cận SVM cả về nghiệm (xem Hình 4.7) và thời gian giải quyết bài toán(0,04

Ngày đăng: 25/03/2024, 14:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w