Tối ưu DC và ứng dụng trong bài toán phân cụm (LV thạc sĩ)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	48
Dung lượng	1,1 MB

Nội dung

Tối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụmTối ưu DC và ứng dụng trong bài toán phân cụm

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN CỤM LUẬN VĂN THẠC SĨ TOÁN HỌC Thái Nguyên - 2017 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN CỤM Chuyên ngành: Toán ứng dụng Mã số: 60.46.01.12 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TẠ MINH THỦY Thái Nguyên - 2017 Mục lục Danh mục ký hiệu Mở đầu Một số khái niệm 1.1 Tập lồi 1.2 Hàm lồi 1.3 Hàm DC 1.3.1 Định nghĩa hàm DC 1.3.2 Bài toán quy hoạch DC 1.3.3 Bài toán DC đối ngẫu 1.4 Thuật toán DCA (DC Algorithm) 1.5 Kết luận 7 10 10 11 11 13 15 Bài toán phân cụm số thuật toán phân cụm liệu 16 2.1 Khái niệm phân cụm liệu 16 2.1.1 Phân cụm liệu gì? 16 2.1.2 Ví dụ phân cụm thực tế 16 2.2 Những vấn đề phân cụm liệu 17 2.2.1 Các bước để phân cụm liệu 17 2.2.2 Các yêu cầu phân cụm 19 2.2.3 Những vấn đề phân cụm liệu 20 2.2.4 Các ứng dụng phân cụm 21 2.3 Các kiểu liệu độ đo toán phân cụm 22 2.3.1 Các kiểu liệu 22 2.3.2 Độ đo toán phân cụm 22 2.4 Một số kỹ thuật phân cụm liệu 23 2.4.1 2.4.2 2.4.3 2.5 2.6 Phân cụm phân hoạch (Partitioning Methods) Phân cụm phân cấp (Hierarchical Methods) Phân cụm dựa mật độ (Density-Based Methods) 2.4.4 Phân cụm dựa lưới (Grid-Based Methods) 2.4.5 Phân cụm dựa mô hình Một số thuật toán phân cụm phân hoạch 2.5.1 Thuật toán k-Means 2.5.2 Thuật toán phân cụm mờ FCM 2.5.3 Thuật toán phân cụm sử dụng thông tin trọng số (SCAD) Kết luận 23 24 24 25 26 27 27 28 31 36 Phương pháp tối ưu DC cho toán phân cụm 37 3.1 Tối ưu DC thuật toán DCA cho toán (2.2) 37 3.2 Kết thực nghiệm 41 3.3 Kết luận 43 Tài liệu tham khảo 46 Danh mục ký hiệu R Rn X∗ x∈C x∈ /C x := y ∃x ∀x ∅ ∩ ∪ x, y ∇x f (x) AT A∗ Tập hợp số thực Không gian số thực n-chiều Không gian liên hợp X x thuộc tập C x không thuộc tập C x định nghĩa y Tồn x Với x Tập hợp rỗng Phép giao tập hợp Phép hợp tập hợp Tích vô hướng x y Véc tơ đạo hàm hàm f điểm x Ma trận chuyển vị ma trận A Toán tử liên hợp toán tử A I Ánh xạ đơn vị Chuẩn véc tơ x Tập điểm cực tiểu hàm f C x arg min{f (x) : x ∈ C} Mở đầu Lý thuyết tối ưu tìm hiểu phát triển để giải vấn đề thực tế sống Tuy nhiên với toán có hàm mục tiêu không lồi, toán trở nên phức tạp hơn, toán thực tế lại thường dẫn đến hàm mục tiêu không lồi Luận văn tìm hiểu lý thuyết tối ưu DC (hiệu hàm lồi – difference of convex) thuật toán DC (DCA - DC Algorithm) để giải vấn đề Phân cụm toán khó nghiên cứu nhiều lĩnh vực Tin học Công nghệ thông tin Bài toán phân cụm chia liệu thu thập thành cụm (nhóm) có tính chất Đây toán NP – khó nghiên cứu từ lâu Trong luận văn này, tìm hiểu phương pháp tối ưu DC thuật toán DC để giải toán phân cụm Thuật toán thử nghiệm liệu thu từ vấn đề thực tế Luận văn gồm có chương: Chương 1: Giới thiệu kiến thức giải tích lồi, đặc biệt trọng hàm lồi, hàm DC số tính chất hàm DC; kiến thức sử dụng làm tảng chương Chương 2: Giới thiệu phân cụm liệu số vấn đề phân cụm liệu Trong chương này, luân văn trình bày khái niệm phân cụm, yêu cầu giới thiệu số kỹ thuật phân cụm liệu Chương trình bày cụ thể số cách tiếp cận theo hướng phân cụm phân hoạch Chương 3: Từ thuật toán phân cụm với trọng số thuộc tính (SCAD) trình bày chương 2, luận văn giới thiệu phương pháp tối ưu DC giải thuật DC cho toán tối ưu không lồi trình bày Chương trình bày kết thực nghiệm thuật toán với liệu thực tế Do thời gian có hạn nên luận văn chủ yếu dừng lại việc tập hợp tài liệu, bước đầu tìm hiểu lý thuyết tối ưu DC thuật toán DC Luận văn đưa kết thực nghiệm ban đầu minh họa cho thuật toán Trong trình viết luận văn soạn thảo văn bản, luận văn chắn không khỏi có sai sót định Tác giả mọng nhận sụ góp ý thầy cô, bạn bè đồng nghiệp để luận văn hoàn thiện Nhân dịp em xin bày tỏ lòng biết ơn sâu sắc tới thầy hướng dẫn TS Tạ Minh Thủy tận tình giúp đỡ tác giả suốt trình làm luận văn Em xin chân thành cảm ơn thầy, cô: GS, PGS, TS, khoa Toán - Tin trường Đại học Khoa học Thái Nguyên Viện Toán học giảng dạy tạo điều kiện thuận lợi trình tác giả học tập nghiên cứu Thái Nguyên, tháng năm 2017 Tác giả luận văn Vũ Văn Thịnh Chương Một số khái niệm 1.1 Tập lồi Định nghĩa 1.1.1 Tập X ⊆ Rn gọi tập lồi ∀x, y ∈ X với số thực λ ∈ [0, 1] λx + (1 − λ)y ∈ X Nghĩa x, y ∈ X đoạn: [x, y] := {z ∈ Rn , z = λx + (1 − λ)y ∈ X, ≤ λ ≤ 1} ⊆ X Ví dụ: i) Cả không gian Rn tập ∅ tập lồi ii) Các hình cầu mở đóng Rn tức tập: B(x0 , r) = {x ∈ Rn , x−x0 < r} B(x0 , r) = {x ∈ Rn , x−x0 ≤ r} tập lồi 1.2 Hàm lồi Định nghĩa 1.2.1 Hàm f : X → [−∞, +∞] xác định tập lồi X ⊆ Rn gọi hàm lồi X với x1 , x2 ∈ X số thực λ ∈ [0, 1] ta có f [(1 − λ)x1 + λx2 ] ≤ (1 − λ)f (x1 ) + λf (x2 ) Hàm f : X → [−∞, +∞] gọi lồi chặt tập lồi X với x1 , x2 , x1 = x2 λ ∈ (0, 1) ta có f [(1 − λ)x1 + λx2 ] < (1 − λ)f (x1 ) + λf (x2 ) Một hàm lồi chặt lồi, điều ngược lại không Hàm f : X → [−∞, +∞] gọi lồi mạnh tập lồi X tồn số ρ > cho với x1 , x2 ∈ X, x1 = x2 λ ∈ (0, 1) ta có f [(1 − λ)x1 + λx2 ] ≤ (1 − λ)f (x1 ) + λf (x2 ) + ρ x1 − x2 Định nghĩa 1.2.2 Hàm f : X → [−∞, +∞] gọi lõm (lõm chặt) tập lồi X −f lồi (lồi chặt) X Hàm f : X → [−∞, +∞] gọi tuyến tính afin (hay afin) X f nhận giá trị hữu hạn vừa lồi vừa lõm X Một hàm afin Rn có dạng f (x) = a, x + α với a ∈ Rn , α ∈ R ∀x1 , x2 ∈ Rn ∀λ ∈ [0, 1], ta có f [(1 − λ)x1 + λx2 ] = (1 − λ)f (x1 ) + λf (x2 ) Tuy nhiên hàm afin không lồi chặt hay lõm chặt Ví dụ hàm lồi: i) Hàm chuẩn Euclid x = x, x , x ∈ Rn ii) Hàm khoảng cách từ điểm x ∈ Rn tới tập C (C ⊂ Rn tập lồi khác rỗng): dC (x) = inf x − y y∈C Định nghĩa 1.2.3 Cho hàm f : X → [−∞, +∞] với X ⊆ Rn , tập dom f = {x ∈ X : −∞ < f (x) < +∞} , epi f = {(x, α) ∈ X × R : f (x) ≤ α} gọi miền hữu dụng (hữu hiệu) tập đồ thị hàm f Nếu domf = ∅ f (x) > −∞ =, ∀x ∈ X ta nói hàm f thường Hàm lồi f : X → [−∞, +∞] mở rộng thành hàm lồi không gian Rn cách đặt f (x) = +∞, ∀x ∈ / dom f Vì để đơn giản ta thường xét f hàm lồi toàn Rn Định nghĩa 1.2.4 Một ma trận A gọi ma trận xác định dương với vecto x ta có: xT Ax > Ma trận A gọi ma trận nửa xác định dương với vecto x ta có: xT Ax ≥ Định nghĩa 1.2.5 Cho x0 ∈ X ⊆ Rn Hàm thường f : X → [−∞, +∞] i) gọi nửa liên tục x0 lim sup f (y) ≥ f (x0 ) y→x0 ii) nửa liên tục x0 lim sup f (y) ≤ f (x0 ) y→x0 iii) Hàm f gọi liên tục điểm x0 vừa nửa liên tục nửa liên tục x0 Định lý 1.2.6 i) Một hàm thực biến ϕ(t) khả vi khoảng mở (a, b) lồi đạo hàm ϕ (t) hàm không giảm khoảng ii) Một hàm thực biến ϕ(t) hai lần khả vi khoảng mở lồi đạo hàm cấp hai ϕ (t) không âm toàn khoảng Định lý 1.2.7 Cho tập lồi X ⊂ Rn hàm f : Rn → R khả ∂f ∂f vi X ∇f (x) = (x), , (x) vectơ gradient hàm ∂x1 ∂xn ∂f f điểm x đạo hàm riêng cấp f tính theo biến ∂xi xi Khi đó: i) Hàm f lồi X khi: f (y) ≥ f (x) + ∇f (x), y − x , ∀x, y ∈ X ii) Nếu f (y) > f (x) + ∇f (x), y − x với x, y ∈ X x = y hàm f lồi chặt X Định lý 1.2.8 Cho tập lồi mở X ⊂ Rn hàm f : Rn → R hai lần khả vi liên tục X Kí hiệu ∇2 f (x) ma trận đạo hàm riêng cấp hai (hay hessian) f x 33 tâm zl độc lập với Λ, toán tối ưu trở thành k toán độc lập: n m m µ Fl (λl , Ul ) = β (λli ) (zli − xji ) − λl (wjl ) j=1 λli − , l = 1, , k i=1 i=1 Với Ul vectơ dòng thứ l ma trận U Để hàm cực tiểu, giá trị gradient hàm Fl = Ta có: m ∂Fl (λl , Ul ) = ∂λl λli − = (2.3) i=1 Và ∂Fl (λl , Ul ) = β(λlt )(β−1) ∂λlt n (wjl )µ (zlt − xjt )2 − λl = t = m j=1 (2.4) Phương trình (2.4) dẫn đến:  β−1    λlt =   λl     µ (wjl ) (zlt − xjt ) n β (2.5) j=1 Thay kết (2.5) vào phương trình (2.3), ta được:  β−1  m i=1 λl λli = β β−1 m i=1         µ (wjl ) (zli − xji ) n = j=1 Do đó, λl β β−1 = 1/ i=1 β−1 n m (wjl )µ (zli − xji )2 j=1 34 Thay vào (2.5), ta có: β−1 m (wlj )µ (zlt − xjt )2 1/ j=1 λlt = m β−1 m (2.6) (wjl )µ (zli − xji )2 1/ i=1 j=1 Cuối ta thu được: λli = m ˜ li /D ˜ lt ) (D β−1 (2.7) t=1 ˜ li = Với D n (wjl )µ (zli − xji )2 j=1 Để F (W, Z, Λ) cực tiểu theo biến W , ta thực bước tương tự có: wjl = k (d˜2lj /d˜2ij ) (2.8) µ−1 i=1 Với m d˜2li = (λli )β (zli − xji )2 (2.9) i=1 Để F (W, Z, Λ) cực tiểu theo biến tâm Z, ta cố định W, Λ, lấy gradient hàm F theo biến Z Khi đó: n ∂F µ β = −2 wjl λli (zli − xji ) = ∂zli j=1 Từ ta tính tọa độ tâm zli Từ kết trên, thuật toán SCAD trình bày sau: Thuật toán SCAD: • Bước (2.10) 35 Chọn µ tùy ý µ ∈ [1; ∞); Chọn tham số mũ β, β ∈ [1; ∞); Khởi tạo k tâm ngẫu nhiên ma trận phân hoạch mờ W ; Khởi tạo trọng số thuộc tính λli ; m • Bước Lặp: Tính khoảng cách Euclide: (zli − xji )2 với ≤ l ≤ k, ≤ j ≤ n, ≤ i ≤ m; Cập nhật ma trận trọng số thuộc tính Λ theo công thức (2.7) Tính d˜2lj theo công thức (2.9) Cập nhật ma trận phân hoạch W công thức (2.8) Cập nhật tâm cụm theo công thức (2.10):   λli =      n wµ x ji zli = j=1 lj λli =   n    wljµ  j=1 • Bước Dừng tâm ổn định Ưu nhược điểm thuật toán SCAD: • Ưu điểm: Thuật toán SCAD đưa thêm yếu tố trọng số thuộc tính, nghĩa việc điểm liệu phụ thuộc vào cụm khác nhau, thuộc tính điểm ảnh hưởng đến khả phân cụm liệu Càng nhiều thông tin, thuật toán có khả phân cụm xác • Nhược điểm: Ngoài nhược điểm chung phụ thuộc vào điểm khởi tạo số cụm phải biết trước thời gian tính toán thuật toán SCAD chậm so với thuật toán FCM hay k-Means 36 2.6 Kết luận Chương luận văn giới thiệu khái niệm phân cụm liệu vấn đề phân cụm liệu Tác giả trình bày chi tiết kỹ thuật phổ biến phân cụm liệu: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới phân cụm dựa mô hình Phần cuối chương, luận văn sâu vào tìm hiểu kỹ thuật phân hoạch với thuật toán: k-Means, phân cụm mờ FCM phân cụm với thông tin trọng số (SCAD) Trong phần tiếp theo, luận văn trình bày phương pháp tối ưu DC thuật toán DC, biết đến phương pháp giải toán tối ưu không lồi mạnh mẽ hiệu quả, để giải toán tối ưu (2.2) kết thử nghiệm với liệu thực tế 37 Chương Phương pháp tối ưu DC cho toán phân cụm 3.1 Tối ưu DC thuật toán DCA cho toán (2.2) Trong chương tìm hiểu số thuật toán phân cụm theo phương pháp phân hoạch theo chiều hướng nghiên cứu Từ thuật toán cổ điển k-Means, tới thuật toán phân cụm mờ FCM, đến thuât toán dựa trọng số thuộc tính SCAD Trong phần này, tìm hiểu tối ưu DC giải thuật DC để giải toán phân cụm với trọng số thuộc tính Các kết phần trình bày tài liệu tham khảo [2] Nhắc lại mô hình SCAD sau:  k n m  µ β  min{F (W, Z, Λ) := wjl λli (zli − xji )2 }    l=1 j=1 i=1    k    wjl = 1, j = n,  s.t : l=1 m              λli = 1, l = k, (3.1) i=1 wjl ∈ [0, 1], j = n, l = k, λli ∈ [0, 1], l = k, i = m Bài toán (3.1) toán NP-khó có hàm mục tiêu không lồi Ngoài ra, toán thực tế, giá trị n, m thường lớn Phương pháp tác giả Frigui Nasui cố định hai biến, sau giải toán cực tiểu theo biến lại Trong chương này, luận văn trình bày phương pháp tối ưu DC thuật toán DC, 38 phương pháp giải toán tối ưu không lồi hiệu quả, với cách tiếp cân giải trực tiếp đồng thời ba biến cho Bài toán tối ưu (3.1) xét dạng toán tối ưu DC Sau đó, luận văn trình bày thuật toán DCA tương ứng để giải toán Trong toán (3.1), biến W Λ bị chặn Đặt αi := minj=1, ,n xj,i , γi := maxj=1, ,n xj,i Vì zl ∈ Tl := Πm i=1 [αi , γi ] với l = 1, , k, nên Z ∈ T := Πkl=1 Tl ∆l Cj định nghĩa (với l ∈ {1, , k}, j ∈ {1, , n}): ∆l := Λl := (λl,i )l ∈ [0, 1]m : m λl,i = ; i=1 Cj := Wj := (wj,l )j ∈ [0, 1]k : k wj,l = l=1 Đặt C := Πnj=1 Cj , T := Πkl=1 Tl , ∆ := Πkl=1 ∆l , toán (3.1) viết lại dạng: {F (W, Z, Λ) : (W, Z, Λ) ∈ (C × T × ∆)} (3.2) Hàm F phân rã hiệu hai hàm lồi, dựa theo kết sau: Bổ đề: Tồn ρ ≥ max{µ(µ−1)δ +2µδ+βµδ ; 2µδ+2+2βδ; βµδ + 2βδ + β(β − 1)δ } để hàm: h(u, v, y) := ρ u + v + y − uµ y β (v − a)2 hàm lồi miền (u, v, y) ∈ [0, 1] × [α, γ] × [0, 1], với δ = γ − α, µ ≥ 2, β ≥ Chứng minh: Phần chứng minh người đọc tham khảo kỹ thêm tài liệu [8], xin phép không trình bày thêm Từ bổ đề trên, với u ← wjl , v ← zli , y ← λli , hàm: hlij (wjl , zli , λli ) = ρ wjl + zli2 + λ2li − µ β −wjl λli (zli − xji )2 hàm lồi miền ([0, 1] × [αi , γi ] × [0, 1]} (3.3) 39 Như ta có hàm H(W, Z, Λ) lồi miền (C × T × ∆), với: k n m H(W, Z, Λ) := [ l=1 j=1 i=1 ρ wjl + zli2 + λ2li − µ β − wjl λli (zli − xji )2 ] (3.4) Hàm F biểu diễn dạng sau: F (W, Z, Λ) := G(W, Z, Λ) − H(W, Z, Λ), với: G(W, Z, Λ) := ρ k n m l=1 j=1 i=1 (3.5) + zli2 + λ2li H(W, Z, Λ) theo công wjl thức (3.4) hàm lồi Do đó, toán (3.1) trở thành toán tối ưu DC sau: min{F (W, Z, Λ) := G(W, Z, Λ) − H(W, Z, Λ) : (W, Z, Λ) ∈ (C × T × ∆)} (3.6) ¯ r , Z¯ r , Λ ¯ r) ∈ Để giải toán (3.6), cần phải tính (W ∂H(W r , Z r , Λr ); sau giải toán quy hoạch lồi: ρ k n m wjl + zli2 + λ2li l=1 j=1 i=1 ¯ r , Z¯ r , Λ ¯ r) : − (W, Z, Λ), (W (W, Z, Λ) ∈ (C × T × ∆) (3.7) 40 Vì hàm H khả vi ta tính được: ¯ r = ∇W H(W, Z, Λ) = (mρwjl − W m µ−1 β µwjl λli (zli − xji )2 )l=1 k j=1 n , − i=1 Z¯ r = ∇Z H(W, Z, Λ) = (nρzli − n µ β 2wjl λli (zli − xji ))i=1 m l=1 k , − (3.8) j=1 ¯r Λ = ∇Λ H(W, Z, Λ) = (nρλli − n µ β−1 βwjl λli (zli − xji )2 )i=1 m l=1 k − j=1 Bài toán phụ (3.7) có lời giải tính sau (với Proj ký hiệu cho phép chiếu): (W r+1 )j = ProjCj ¯r mρ (W )j (Z r+1 )li = Proj[αi ,γi ] (Λr+1 )l = Proj∆l nρ j = 1, n; ¯r nρ (Z )li (3.9) l = 1, , k, i = 1, m; ¯ r )l l = 1, k (Λ Ta có thuật toán DC cho toán (3.6) sau: Thuật toán DCA: • Khởi tạo: Chọn W , Z Λ0 Lấy > đủ nhỏ, r = • Lặp: ¯ r , Z¯ r , Λ ¯ r ) qua (3.8) ◦ Tính (W ◦ Tính (W r+1 , Z r+1 , Λr+1 ) qua (3.9) ◦ Gán r + ← r • Dừng: |F (W r+1 , Z r+1 , Λr+1 ) − F (W r , Z r , Λr )| ≤ Thuật toán hội tụ theo lý thuyết tối ưu DC tổng quát Người đọc tham khảo ([7, 9]) 41 3.2 Kết thực nghiệm Thuật toán DCA thử nghiệm thuật toán SCAD [5] FCM [6] liệu khai phá liệu thực UCI [4] Dữ liệu thử nghiệm gồm bộ, bảng 3.1 chứa thông tin chi tiết liệu thử nghiệm Ở người ta sử dụng số Rand thời gian chạy để đánh giá hiệu thuật toán Chỉ số Rand, đặt tên theo người đề xuất William M Rand, tính toán tương hợp kết phân cụm thu lời giải phân cụm biết Với điểm liệu xi , ký hiệu Iref (xi ) lời giải phân cụm liệu xi Iclass (xi ) kết phân cụm đạt từ thuật toán Thuật toán tốt số Rand lớn Chỉ số Rand tính toán theo công thức đây: Rand = a+d a+b+c+d (3.10) với: a =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, b =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, c =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, d =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} | Các giải thuật cài đặt ngôn ngữ Visual Express C++ 2012 thực máy tính Intel i5-322M CPU 2.6 GHz 4Gb RAM Thuật toán DCA thử nghiệm với tham số µ, β khoảng [2 4]; thuật toán SCAD thử nghiệm với tham số khoảng [1 4]; tham số µ thuật toán FCM thử nghiệm khoảng [1 4] Thực phân cụm 10 lần với điểm khởi tạo ngẫu nhiên khác nhau, sau tính toán giá trị trung bình độ lệch chuẩn số qua 10 lần chạy Từ bảng kết thực nghiệm thu (Bảng kết 3.2 3.3), thấy rằng: thuật toán giải dựa tối ưu DC tốt 42 Bảng 3.1: BẢNG DỮ LIỆU Dữ liệu Iris Glass Stalog Comp SVM m 150 214 2000 3891 4000 n 36 10 k 6 Bảng 3.2: KẾT QUẢ CHỈ SỐ RAND Dữ liệu Iris Glass Stalog Comp SVM DCA Rand-Index 0,928 ± 0,006 0,733 ± 0,005 0,861 ± 0,0004 0,975 ± 0,0003 0,790 ± 0,001 SCAD Rand-Index 0,897 ± 0,012 0,726 ± 0,001 0,858 ± 0,005 0,907 ± 0,029 0,772 ± 0,007 FCM Rand-Index 0,892 ± 0,000 0,706 ± 0,009 0,825 ± 0,010 0,780 ± 0,001 0,656 ± 0,001 Bảng 3.3: KẾT QUẢ THỜI GIAN CHẠY Dữ liệu Iris Glass Stalog Comp SVM DCA Time(s) 0,130 ± 0,008 0,799 ± 0,083 15,532 ± 0,957 7,036 ± 0,032 3,328 ± 0,008 SCAD Time(s) 0,056 ± 0,007 0,388 ± 0,011 12,985 ± 0,054 3,654 ± 0,015 1,058 ± 0,007 FCM Time(s) 0,022 ± 0,007 0,112 ± 0,006 3,250 ± 0,021 0,831 ± 0,068 0,458 ± 0,005 thuật toán SCAD FCM số Rand cho liệu thử nghiệm Các thuật toán DCA, SCAD có thêm thông tin trọng số thuộc tính cho kết tốt hẳn so với thuật toán cổ điển FCM Độ lệch số Rand lớn thuật toán DCA FCM 0.195 (tại liệu Comp) Việc thử nghiệm với liệu có số cụm khác {2, 3, 6} phổ phần tử đủ lớn {150, 214, 2000, 3891, 4000} Điều cho thấy tính ổn định hiệu thuật toán Về thời gian tính toán, thuật toán FCM chạy nhanh Các thuật toán dựa vào trọng số thuộc tính phải tính toán thêm biến số Λ nên chạy chậm thuật toán FCM cổ điển Tuy nhiên, độ chênh lệch thời gian thuật toán không chênh lệch chấp nhận 43 3.3 Kết luận Trong chương cuối, luận văn trình bày thuật toán phân cụm dựa trọng số thuộc tính giải tối ưu DC thuật toán DCA Mô hình toán ban đầu viết lại dạng toán tối ưu DC, tính toán thuật toán DC tính toán dạng hiển, bước lặp, tính trực tiếp phép chiếu điểm hộp hay đoạn [0, 1] Từ kết tính toán thực nghiệm, thấy việc sử dụng thông tin trọng số thuộc tính cải thiện hiệu phân cụm liệu Đồng thời kết cho thấy tính hiệu thuật toán dựa tối ưu DC thuật toán DC so với thuật toán cổ điển SCAD FCM Tuy nhiên, thời gian có hạn, tác giả chưa tìm hiểu kỹ hết đặc điểm thuật toán DCA cho toán phân cụm lĩnh vực khai phá liệu, cách cải tiến hiệu thuật toán thông qua phương pháp điểm khởi tạo tốt hơn, để thu điểm khởi tạo tốt, dẫn đến kết tối ưu tốt nhanh chóng hội tụ Tác giả chưa tìm tòi để có phương pháp phân rã DC khác hiệu Bài toán phân cụm liệu áp dụng cho nhiều toán thực tế như: toán phân đoạn ảnh, nhận dạng, đếm tế bào tin sinh học, Ngoài phương pháp DC DCA kết hợp với lý thuyết mờ để giải toán phân cụm mờ có ngữ cảnh, hướng nghiên cứu tìm hiểu sau 44 Kết luận Luận văn chia làm chương Chương tác giả tìm hiểu kiến thức có tính chất bổ trợ giải tích hàm, tối ưu, tối ưu DC thuật toán DCA để giải toán tối ưu Tối ưu DC thuật toán DCA hướng nghiên cứu để giải toán tối ưu không lồi Khoảng 10 năm gần đây, phương pháp thu kết đáng xem xét, đặc biệt lĩnh vực ứng dụng Tối ưu DC thuật toán DCA góp phần giải nhiều toán ứng dụng có số chiều lớn phức tạp như: xử lý ảnh, khai phá liệu, toán giao thông, xếp kho hàng, vận chuyển hay tin sinh học, mã hóa, Trong chương 2, tác giả trình bày tìm hiểu toán phân cụm lĩnh vực khai phá liệu Trong phần này, tác giả tìm hiểu phương pháp phân cụm phân hoạch, tập trung vào phương pháp k-Mean, FCM Ở chương này, tác giả tìm hiểu phương pháp phân cụm có tính thêm trọng số thuộc tính Qua nghiên cứu Frigui Nasui, nhận thấy thuộc tính có ảnh hưởng đến hiệu kết phân cụm Một cụm thiết lập từ số thuộc tính đó, thuộc tính lại trước Trong cụm, thuộc tính liệu ảnh hưởng tới kết phân cụm có giá trị cao, ngược lại: thuộc tính ảnh hưởng có giá trị thấp Tác giả tìm hiểu ứng dụng cụ thể tối ưu DC toán phân cụm có tính đến trọng số thuộc tính chương luận án Trong phần này, tác giả trình bày thuật toán DC để giải cho toán tối ưu viết lại dạng toán DC tìm hiểu cách giải toán Thuật toán thử nghiệm với thuật toán khác FCM – thuật toán phân cụm cổ điển dựa giá trị phụ thuộc mờ thuật toán SCAD dựa trọng số thuộc 45 tính Từ kết thực nghiệm thu được, thấy toán phân cụm xét thêm yếu tố ảnh hưởng thuộc tính ta kết phân cụm tốt Ngoài ra, áp dụng thuật toán DCA kết thu khả quan Có thể xem luận văn bước tìm hiểu ban đầu học viên ứng dụng tối ưu DC vào toán phân cụm Tác giả luận văn hy vọng có dịp tìm hiểu sâu rộng phương pháp Trong hướng nghiên cứu tương lai, tác giả mong muốn thực so sánh với thuật toán khác, thuật toán xuất phát từ tối ưu DC; thử nghiệm với phương pháp điểm khởi tạo khác Những ứng dụng tối ưu DC phân cụm vào toán thực tế như: phân đoạn ảnh, đếm tế bào ảnh chụp, mã hóa, đáng tìm hiểu nghiên cứu 46 Tài liệu tham khảo Tiếng Việt [1] Nguyễn Văn Hồng (2014), Thuật toán DCA ứng dụng, Luận văn thạc sỹ chuyên ngành toán ứng dụng, Đại học Khoa học – Đại học Thái Nguyên [2] Nguyễn Thị Bích Thủy, Tạ Minh Thủy Một cách tiếp cận tối ưu cho toán phân cụm Hội thảo quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông - Hội nghị @ XIX Viện Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội, 1-2/10/2016, Hà Nội, trang 226 - 230 (2016) [3] Lê Dũng Mưu (1998), Nhập môn phương pháp tối ưu, Nhà xuất Khoa học Kỹ thuật, Hà Nội Tiếng Anh [4] C.L Blake and C.J Merz, UCI repository of machine learning databses, University of California, Irvine, Dept of Information and Computer Sciences (1998), http://archive.ics.uci.edu/ml/datasets.html Accessed on May 2013 [5] Hichem Frigui and Olfa Nasraoui Unsupervised learning of prototypes and attribute weights Pattern Recognition, 37(3):567–581, 2004 [6] James C Bezdek Pattern Recognition with Fuzzy Objective Function Algorithms Kluwer Academic Publishers, Norwell, MA, USA, 1981 ISBN 0306406713 [7] Le Thi Hoai An (web site) Dc programming and dca http://lita.sciences.univ-metz.fr/ lethi Accessed on March 2014 47 [8] Le Hoai Minh, Nguyen Thi Bich Thuy, Ta Minh Thuy, Le Thi Hoai An (2013), Image Segmentation via Feature Weighted Fuzzy Clustering by a DCA Based Algorithm, Adv Comput Methods for Knowl Engine Vol 479, Springer, pp 53-–63 [9] Pham Dinh Tao and Le Thi Hoai An Convex Analysis approach to DC programming theory, algorithms and applications ACTA Mathematica Vietnamica 22, pp 289-355, 1997 [10] Stephen Boyd, Lieven Vandenberghe (2009), Convex Optimization, Cambrige Press [11] http://www.askanalytics.in/2015/08/difference-between-kmeans-and.html [12] http://blog.minitab.com/blog/quality-data-analysis-andstatistics/cluster-analysis-tips [13] https://www.mathworks.com/matlabcentral/mlcdownloads/downloads/submissions/34412/versions/11/screenshot.png [14] https://sites.google.com/a/kingofat.com/wiki/datamining/cluster-analysis ... thiệu toán quy hoạch DC, toán DC đối ngẫu thuật toán DCA Đây kiến thức sở để tìm hiểu toán phân cụm chương 16 Chương Bài toán phân cụm số thuật toán phân cụm liệu 2.1 2.1.1 Khái niệm phân cụm. .. HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN CỤM Chuyên ngành: Toán ứng dụng Mã số: 60.46.01.12 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TẠ MINH... thuật toán DC (DCA - DC Algorithm) để giải vấn đề Phân cụm toán khó nghiên cứu nhiều lĩnh vực Tin học Công nghệ thông tin Bài toán phân cụm chia liệu thu thập thành cụm (nhóm) có tính chất Đây toán

Ngày đăng: 11/09/2017, 16:09

Xem thêm