Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
1,12 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN CỤM LUẬN VĂN THẠC SĨ TOÁN HỌC Thái Nguyên - 2017 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TỐN PHÂN CỤM Chun ngành: Tốn ứng dụng Mã số: 60.46.01.12 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TẠ MINH THỦY Thái Nguyên - 2017 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Danh mục ký hiệu Mở đầu Một số khái niệm 1.1 Tập lồi 1.2 Hàm lồi 1.3 Hàm DC 1.3.1 Định nghĩa hàm DC 1.3.2 Bài toán quy hoạch DC 1.3.3 Bài toán DC đối ngẫu 1.4 Thuật toán DCA (DC Algorithm) 1.5 Kết luận 7 10 10 11 11 13 15 Bài toán phân cụm số thuật toán phân cụm liệu 16 2.1 Khái niệm phân cụm liệu 16 2.1.1 Phân cụm liệu gì? 16 2.1.2 Ví dụ phân cụm thực tế 16 2.2 Những vấn đề phân cụm liệu 17 2.2.1 Các bước để phân cụm liệu 17 2.2.2 Các yêu cầu phân cụm 19 2.2.3 Những vấn đề phân cụm liệu 20 2.2.4 Các ứng dụng phân cụm 21 2.3 Các kiểu liệu độ đo toán phân cụm 22 2.3.1 Các kiểu liệu 22 2.3.2 Độ đo toán phân cụm 22 2.4 Một số kỹ thuật phân cụm liệu 23 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.4.1 2.4.2 2.4.3 2.5 2.6 Phân cụm phân hoạch (Partitioning Methods) Phân cụm phân cấp (Hierarchical Methods) Phân cụm dựa mật độ (Density-Based Methods) 2.4.4 Phân cụm dựa lưới (Grid-Based Methods) 2.4.5 Phân cụm dựa mơ hình Một số thuật toán phân cụm phân hoạch 2.5.1 Thuật toán k-Means 2.5.2 Thuật toán phân cụm mờ FCM 2.5.3 Thuật toán phân cụm sử dụng thông tin trọng số (SCAD) Kết luận 23 24 24 25 26 27 27 28 31 36 Phương pháp tối ưu DC cho toán phân cụm 37 3.1 Tối ưu DC thuật toán DCA cho toán (2.2) 37 3.2 Kết thực nghiệm 41 3.3 Kết luận 43 Tài liệu tham khảo 46 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh mục ký hiệu R Rn X∗ x∈C x∈ /C x := y ∃x ∀x ∅ ∩ ∪ x, y ∇x f (x) AT A∗ Tập hợp số thực Không gian số thực n-chiều Không gian liên hợp X x thuộc tập C x không thuộc tập C x định nghĩa y Tồn x Với x Tập hợp rỗng Phép giao tập hợp Phép hợp tập hợp Tích vơ hướng x y Véc tơ đạo hàm hàm f điểm x Ma trận chuyển vị ma trận A Toán tử liên hợp toán tử A I Ánh xạ đơn vị Chuẩn véc tơ x Tập điểm cực tiểu hàm f C x arg min{f (x) : x ∈ C} LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mở đầu Lý thuyết tối ưu tìm hiểu phát triển để giải vấn đề thực tế sống Tuy nhiên với tốn có hàm mục tiêu khơng lồi, tốn trở nên phức tạp hơn, tốn thực tế lại thường dẫn đến hàm mục tiêu không lồi Luận văn tìm hiểu lý thuyết tối ưu DC (hiệu hàm lồi – difference of convex) thuật toán DC (DCA - DC Algorithm) để giải vấn đề Phân cụm tốn khó nghiên cứu nhiều lĩnh vực Tin học Công nghệ thông tin Bài toán phân cụm chia liệu thu thập thành cụm (nhóm) có tính chất Đây tốn NP – khó nghiên cứu từ lâu Trong luận văn này, chúng tơi tìm hiểu phương pháp tối ưu DC thuật toán DC để giải toán phân cụm Thuật toán thử nghiệm liệu thu từ vấn đề thực tế Luận văn gồm có chương: Chương 1: Giới thiệu kiến thức giải tích lồi, đặc biệt trọng hàm lồi, hàm DC số tính chất hàm DC; kiến thức sử dụng làm tảng chương Chương 2: Giới thiệu phân cụm liệu số vấn đề phân cụm liệu Trong chương này, luân văn trình bày khái niệm phân cụm, yêu cầu giới thiệu số kỹ thuật phân cụm liệu Chương trình bày cụ thể số cách tiếp cận theo hướng phân cụm phân hoạch Chương 3: Từ thuật toán phân cụm với trọng số thuộc tính (SCAD) trình bày chương 2, luận văn giới thiệu phương pháp tối ưu DC giải thuật DC cho toán tối ưu không LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com lồi trình bày Chương trình bày kết thực nghiệm thuật tốn với liệu thực tế Do thời gian có hạn nên luận văn chủ yếu dừng lại việc tập hợp tài liệu, bước đầu tìm hiểu lý thuyết tối ưu DC thuật toán DC Luận văn đưa kết thực nghiệm ban đầu minh họa cho thuật toán Trong trình viết luận văn soạn thảo văn bản, luận văn chắn khơng khỏi có sai sót định Tác giả mọng nhận sụ góp ý thầy cơ, bạn bè đồng nghiệp để luận văn hoàn thiện Nhân dịp em xin bày tỏ lòng biết ơn sâu sắc tới thầy hướng dẫn TS Tạ Minh Thủy tận tình giúp đỡ tác giả suốt trình làm luận văn Em xin chân thành cảm ơn thầy, cô: GS, PGS, TS, khoa Toán - Tin trường Đại học Khoa học Thái Nguyên Viện Toán học giảng dạy tạo điều kiện thuận lợi trình tác giả học tập nghiên cứu Thái Nguyên, tháng năm 2017 Tác giả luận văn Vũ Văn Thịnh LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Một số khái niệm 1.1 Tập lồi Định nghĩa 1.1.1 Tập X ⊆ Rn gọi tập lồi ∀x, y ∈ X với số thực λ ∈ [0, 1] λx + (1 − λ)y ∈ X Nghĩa x, y ∈ X đoạn: [x, y] := {z ∈ Rn , z = λx + (1 − λ)y ∈ X, ≤ λ ≤ 1} ⊆ X Ví dụ: i) Cả khơng gian Rn tập ∅ tập lồi ii) Các hình cầu mở đóng Rn tức tập: B(x0 , r) = {x ∈ Rn , x−x0 < r} B(x0 , r) = {x ∈ Rn , x−x0 ≤ r} tập lồi 1.2 Hàm lồi Định nghĩa 1.2.1 Hàm f : X → [−∞, +∞] xác định tập lồi X ⊆ Rn gọi hàm lồi X với x1 , x2 ∈ X số thực λ ∈ [0, 1] ta có f [(1 − λ)x1 + λx2 ] ≤ (1 − λ)f (x1 ) + λf (x2 ) Hàm f : X → [−∞, +∞] gọi lồi chặt tập lồi X với x1 , x2 , x1 = x2 λ ∈ (0, 1) ta có f [(1 − λ)x1 + λx2 ] < (1 − λ)f (x1 ) + λf (x2 ) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Một hàm lồi chặt lồi, điều ngược lại không Hàm f : X → [−∞, +∞] gọi lồi mạnh tập lồi X tồn số ρ > cho với x1 , x2 ∈ X, x1 = x2 λ ∈ (0, 1) ta có f [(1 − λ)x1 + λx2 ] ≤ (1 − λ)f (x1 ) + λf (x2 ) + ρ x1 − x2 Định nghĩa 1.2.2 Hàm f : X → [−∞, +∞] gọi lõm (lõm chặt) tập lồi X −f lồi (lồi chặt) X Hàm f : X → [−∞, +∞] gọi tuyến tính afin (hay afin) X f nhận giá trị hữu hạn vừa lồi vừa lõm X Một hàm afin Rn có dạng f (x) = a, x + α với a ∈ Rn , α ∈ R ∀x1 , x2 ∈ Rn ∀λ ∈ [0, 1], ta có f [(1 − λ)x1 + λx2 ] = (1 − λ)f (x1 ) + λf (x2 ) Tuy nhiên hàm afin không lồi chặt hay lõm chặt Ví dụ hàm lồi: i) Hàm chuẩn Euclid x = x, x , x ∈ Rn ii) Hàm khoảng cách từ điểm x ∈ Rn tới tập C (C ⊂ Rn tập lồi khác rỗng): dC (x) = inf x − y y∈C Định nghĩa 1.2.3 Cho hàm f : X → [−∞, +∞] với X ⊆ Rn , tập dom f = {x ∈ X : −∞ < f (x) < +∞} , epi f = {(x, α) ∈ X × R : f (x) ≤ α} gọi miền hữu dụng (hữu hiệu) tập đồ thị hàm f Nếu domf = ∅ f (x) > −∞ =, ∀x ∈ X ta nói hàm f thường Hàm lồi f : X → [−∞, +∞] mở rộng thành hàm lồi không gian Rn cách đặt f (x) = +∞, ∀x ∈ / dom f Vì để đơn giản ta thường xét f hàm lồi toàn Rn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Định nghĩa 1.2.4 Một ma trận A gọi ma trận xác định dương với vecto x ta có: xT Ax > Ma trận A gọi ma trận nửa xác định dương với vecto x ta có: xT Ax ≥ Định nghĩa 1.2.5 Cho x0 ∈ X ⊆ Rn Hàm thường f : X → [−∞, +∞] i) gọi nửa liên tục x0 lim sup f (y) ≥ f (x0 ) y→x0 ii) nửa liên tục x0 lim sup f (y) ≤ f (x0 ) y→x0 iii) Hàm f gọi liên tục điểm x0 vừa nửa liên tục nửa liên tục x0 Định lý 1.2.6 i) Một hàm thực biến ϕ(t) khả vi khoảng mở (a, b) lồi đạo hàm ϕ (t) hàm khơng giảm khoảng ii) Một hàm thực biến ϕ(t) hai lần khả vi khoảng mở lồi đạo hàm cấp hai ϕ (t) khơng âm tồn khoảng Định lý 1.2.7 Cho tập lồi X ⊂ Rn hàm f : Rn → R khả ∂f ∂f vi X ∇f (x) = (x), , (x) vectơ gradient hàm ∂x1 ∂xn ∂f f điểm x đạo hàm riêng cấp f tính theo biến ∂xi xi Khi đó: i) Hàm f lồi X khi: f (y) ≥ f (x) + ∇f (x), y − x , ∀x, y ∈ X ii) Nếu f (y) > f (x) + ∇f (x), y − x với x, y ∈ X x = y hàm f lồi chặt X Định lý 1.2.8 Cho tập lồi mở X ⊂ Rn hàm f : Rn → R hai lần khả vi liên tục X Kí hiệu ∇2 f (x) ma trận đạo hàm riêng cấp hai (hay hessian) f x LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 33 tâm zl độc lập với Λ, toán tối ưu trở thành k toán độc lập: n m m µ Fl (λl , Ul ) = β (λli ) (zli − xji ) − λl (wjl ) j=1 λli − , l = 1, , k i=1 i=1 Với Ul vectơ dòng thứ l ma trận U Để hàm cực tiểu, giá trị gradient hàm Fl = Ta có: m ∂Fl (λl , Ul ) = ∂λl λli − = (2.3) i=1 Và ∂Fl (λl , Ul ) = β(λlt )(β−1) ∂λlt n (wjl )µ (zlt − xjt )2 − λl = t = m j=1 (2.4) Phương trình (2.4) dẫn đến: β−1 λlt = λl µ (wjl ) (zlt − xjt ) n β (2.5) j=1 Thay kết (2.5) vào phương trình (2.3), ta được: β−1 m i=1 λl λli = β β−1 m i=1 µ (wjl ) (zli − xji ) n = j=1 Do đó, λl β β−1 = 1/ i=1 β−1 n m (wjl )µ (zli − xji )2 j=1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 34 Thay vào (2.5), ta có: β−1 m (wlj )µ (zlt − xjt )2 1/ j=1 λlt = m β−1 m (2.6) (wjl )µ (zli − xji )2 1/ i=1 j=1 Cuối ta thu được: λli = m ˜ li /D ˜ lt ) (D β−1 (2.7) t=1 ˜ li = Với D n (wjl )µ (zli − xji )2 j=1 Để F (W, Z, Λ) cực tiểu theo biến W , ta thực bước tương tự có: wjl = k (d˜2lj /d˜2ij ) (2.8) µ−1 i=1 Với m d˜2li = (λli )β (zli − xji )2 (2.9) i=1 Để F (W, Z, Λ) cực tiểu theo biến tâm Z, ta cố định W, Λ, lấy gradient hàm F theo biến Z Khi đó: n ∂F µ β = −2 wjl λli (zli − xji ) = ∂zli j=1 (2.10) Từ ta tính tọa độ tâm zli Từ kết trên, thuật tốn SCAD trình bày sau: Thuật tốn SCAD: • Bước LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 35 Chọn µ tùy ý µ ∈ [1; ∞); Chọn tham số mũ β, β ∈ [1; ∞); Khởi tạo k tâm ngẫu nhiên ma trận phân hoạch mờ W ; Khởi tạo trọng số thuộc tính λli ; m • Bước Lặp: Tính khoảng cách Euclide: (zli − xji )2 với ≤ l ≤ k, ≤ j ≤ n, ≤ i ≤ m; Cập nhật ma trận trọng số thuộc tính Λ theo cơng thức (2.7) Tính d˜2lj theo cơng thức (2.9) Cập nhật ma trận phân hoạch W công thức (2.8) Cập nhật tâm cụm theo công thức (2.10): λli = n wµ x ji zli = j=1 lj λli = n wljµ j=1 • Bước Dừng tâm ổn định Ưu nhược điểm thuật tốn SCAD: • Ưu điểm: Thuật toán SCAD đưa thêm yếu tố trọng số thuộc tính, nghĩa ngồi việc điểm liệu phụ thuộc vào cụm khác nhau, thuộc tính điểm ảnh hưởng đến khả phân cụm liệu Càng nhiều thông tin, thuật tốn có khả phân cụm xác • Nhược điểm: Ngồi nhược điểm chung phụ thuộc vào điểm khởi tạo số cụm phải biết trước thời gian tính tốn thuật tốn SCAD chậm so với thuật toán FCM hay k-Means LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 36 2.6 Kết luận Chương luận văn giới thiệu khái niệm phân cụm liệu vấn đề phân cụm liệu Tác giả trình bày chi tiết kỹ thuật phổ biến phân cụm liệu: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa mật độ, phân cụm dựa lưới phân cụm dựa mơ hình Phần cuối chương, luận văn sâu vào tìm hiểu kỹ thuật phân hoạch với thuật toán: k-Means, phân cụm mờ FCM phân cụm với thông tin trọng số (SCAD) Trong phần tiếp theo, luận văn trình bày phương pháp tối ưu DC thuật toán DC, biết đến phương pháp giải tốn tối ưu khơng lồi mạnh mẽ hiệu quả, để giải toán tối ưu (2.2) kết thử nghiệm với liệu thực tế LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 37 Chương Phương pháp tối ưu DC cho toán phân cụm 3.1 Tối ưu DC thuật toán DCA cho toán (2.2) Trong chương tìm hiểu số thuật tốn phân cụm theo phương pháp phân hoạch theo chiều hướng nghiên cứu Từ thuật toán cổ điển k-Means, tới thuật toán phân cụm mờ FCM, đến thuât toán dựa trọng số thuộc tính SCAD Trong phần này, tìm hiểu tối ưu DC giải thuật DC để giải toán phân cụm với trọng số thuộc tính Các kết phần trình bày tài liệu tham khảo [2] Nhắc lại mơ hình SCAD sau: k n m µ β min{F (W, Z, Λ) := wjl λli (zli − xji )2 } l=1 j=1 i=1 k wjl = 1, j = n, s.t : l=1 m λli = 1, l = k, (3.1) i=1 wjl ∈ [0, 1], j = n, l = k, λli ∈ [0, 1], l = k, i = m Bài toán (3.1) tốn NP-khó có hàm mục tiêu khơng lồi Ngồi ra, tốn thực tế, giá trị n, m thường lớn Phương pháp tác giả Frigui Nasui cố định hai biến, sau giải tốn cực tiểu theo biến lại Trong chương này, luận văn trình bày phương pháp tối ưu DC thuật tốn DC, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 38 phương pháp giải toán tối ưu không lồi hiệu quả, với cách tiếp cân giải trực tiếp đồng thời ba biến cho Bài toán tối ưu (3.1) xét dạng tốn tối ưu DC Sau đó, luận văn trình bày thuật tốn DCA tương ứng để giải tốn Trong tốn (3.1), biến W Λ bị chặn Đặt αi := minj=1, ,n xj,i , γi := maxj=1, ,n xj,i Vì zl ∈ Tl := Πm i=1 [αi , γi ] với l = 1, , k, nên Z ∈ T := Πkl=1 Tl ∆l Cj định nghĩa (với l ∈ {1, , k}, j ∈ {1, , n}): ∆l := Λl := (λl,i )l ∈ [0, 1]m : m λl,i = ; i=1 Cj := Wj := (wj,l )j ∈ [0, 1]k : k wj,l = l=1 Đặt C := Πnj=1 Cj , T := Πkl=1 Tl , ∆ := Πkl=1 ∆l , tốn (3.1) viết lại dạng: {F (W, Z, Λ) : (W, Z, Λ) ∈ (C × T × ∆)} (3.2) Hàm F phân rã hiệu hai hàm lồi, dựa theo kết sau: Bổ đề: Tồn ρ ≥ max{µ(µ−1)δ +2µδ+βµδ ; 2µδ+2+2βδ; βµδ + 2βδ + β(β − 1)δ } để hàm: h(u, v, y) := ρ u + v + y − uµ y β (v − a)2 hàm lồi miền (u, v, y) ∈ [0, 1] × [α, γ] × [0, 1], với δ = γ − α, µ ≥ 2, β ≥ Chứng minh: Phần chứng minh người đọc tham khảo kỹ thêm tài liệu [8], chúng tơi xin phép khơng trình bày thêm Từ bổ đề trên, với u ← wjl , v ← zli , y ← λli , hàm: hlij (wjl , zli , λli ) = ρ wjl + zli2 + λ2li − µ β −wjl λli (zli − xji )2 (3.3) hàm lồi miền ([0, 1] × [αi , γi ] × [0, 1]} LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 39 Như ta có hàm H(W, Z, Λ) lồi miền (C × T × ∆), với: k n m H(W, Z, Λ) := [ l=1 j=1 i=1 ρ wjl + zli2 + λ2li − µ β − wjl λli (zli − xji )2 ] (3.4) Hàm F biểu diễn dạng sau: F (W, Z, Λ) := G(W, Z, Λ) − H(W, Z, Λ), với: G(W, Z, Λ) := ρ k n m l=1 j=1 i=1 (3.5) + zli2 + λ2li H(W, Z, Λ) theo công wjl thức (3.4) hàm lồi Do đó, tốn (3.1) trở thành toán tối ưu DC sau: min{F (W, Z, Λ) := G(W, Z, Λ) − H(W, Z, Λ) : (W, Z, Λ) ∈ (C × T × ∆)} (3.6) ¯ r , Z¯ r , Λ ¯ r) ∈ Để giải toán (3.6), cần phải tính (W ∂H(W r , Z r , Λr ); sau giải tốn quy hoạch lồi: ρ k n m wjl + zli2 + λ2li l=1 j=1 i=1 ¯ r , Z¯ r , Λ ¯ r) : − (W, Z, Λ), (W (W, Z, Λ) ∈ (C × T × ∆) (3.7) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 40 Vì hàm H khả vi ta tính được: ¯ r = ∇W H(W, Z, Λ) = (mρwjl − W m µ−1 β µwjl λli (zli − xji )2 )l=1 k j=1 n , − i=1 Z¯ r = ∇Z H(W, Z, Λ) = (nρzli − n µ β 2wjl λli (zli − xji ))i=1 m l=1 k , − (3.8) j=1 ¯r Λ = ∇Λ H(W, Z, Λ) = (nρλli − n µ β−1 βwjl λli (zli − xji )2 )i=1 m l=1 k − j=1 Bài toán phụ (3.7) có lời giải tính sau (với Proj ký hiệu cho phép chiếu): (W r+1 )j = ProjCj ¯r mρ (W )j (Z r+1 )li = Proj[αi ,γi ] (Λr+1 )l = Proj∆l nρ j = 1, n; ¯r nρ (Z )li (3.9) l = 1, , k, i = 1, m; ¯ r )l l = 1, k (Λ Ta có thuật tốn DC cho tốn (3.6) sau: Thuật tốn DCA: • Khởi tạo: Chọn W , Z Λ0 Lấy > đủ nhỏ, r = • Lặp: ¯ r , Z¯ r , Λ ¯ r ) qua (3.8) ◦ Tính (W ◦ Tính (W r+1 , Z r+1 , Λr+1 ) qua (3.9) ◦ Gán r + ← r • Dừng: |F (W r+1 , Z r+1 , Λr+1 ) − F (W r , Z r , Λr )| ≤ Thuật toán hội tụ theo lý thuyết tối ưu DC tổng quát Người đọc tham khảo ([7, 9]) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 41 3.2 Kết thực nghiệm Thuật toán DCA thử nghiệm thuật toán SCAD [5] FCM [6] liệu khai phá liệu thực UCI [4] Dữ liệu thử nghiệm gồm bộ, bảng 3.1 chứa thông tin chi tiết liệu thử nghiệm Ở người ta sử dụng số Rand thời gian chạy để đánh giá hiệu thuật toán Chỉ số Rand, đặt tên theo người đề xuất William M Rand, tính tốn tương hợp kết phân cụm thu lời giải phân cụm biết Với điểm liệu xi , ký hiệu Iref (xi ) lời giải phân cụm liệu xi Iclass (xi ) kết phân cụm đạt từ thuật toán Thuật toán tốt số Rand lớn Chỉ số Rand tính tốn theo cơng thức đây: Rand = a+d a+b+c+d (3.10) với: a =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, b =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, c =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} |, d =| {i, j | Iref (xi ) = Iref (xj ) & Iclass (xi ) = Iclass (xj )} | Các giải thuật cài đặt ngôn ngữ Visual Express C++ 2012 thực máy tính Intel i5-322M CPU 2.6 GHz 4Gb RAM Thuật tốn DCA thử nghiệm với tham số µ, β khoảng [2 4]; thuật toán SCAD thử nghiệm với tham số khoảng [1 4]; cịn tham số µ thuật toán FCM thử nghiệm khoảng [1 4] Thực phân cụm 10 lần với điểm khởi tạo ngẫu nhiên khác nhau, sau tính tốn giá trị trung bình độ lệch chuẩn số qua 10 lần chạy Từ bảng kết thực nghiệm thu (Bảng kết 3.2 3.3), thấy rằng: thuật toán giải dựa tối ưu DC tốt LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 42 Bảng 3.1: BẢNG DỮ LIỆU Dữ liệu Iris Glass Stalog Comp SVM m 150 214 2000 3891 4000 n 36 10 k 6 Bảng 3.2: KẾT QUẢ CHỈ SỐ RAND Dữ liệu Iris Glass Stalog Comp SVM DCA Rand-Index 0,928 ± 0,006 0,733 ± 0,005 0,861 ± 0,0004 0,975 ± 0,0003 0,790 ± 0,001 SCAD Rand-Index 0,897 ± 0,012 0,726 ± 0,001 0,858 ± 0,005 0,907 ± 0,029 0,772 ± 0,007 FCM Rand-Index 0,892 ± 0,000 0,706 ± 0,009 0,825 ± 0,010 0,780 ± 0,001 0,656 ± 0,001 Bảng 3.3: KẾT QUẢ THỜI GIAN CHẠY Dữ liệu Iris Glass Stalog Comp SVM DCA Time(s) 0,130 ± 0,008 0,799 ± 0,083 15,532 ± 0,957 7,036 ± 0,032 3,328 ± 0,008 SCAD Time(s) 0,056 ± 0,007 0,388 ± 0,011 12,985 ± 0,054 3,654 ± 0,015 1,058 ± 0,007 FCM Time(s) 0,022 ± 0,007 0,112 ± 0,006 3,250 ± 0,021 0,831 ± 0,068 0,458 ± 0,005 thuật toán SCAD FCM số Rand cho liệu thử nghiệm Các thuật tốn DCA, SCAD có thêm thơng tin trọng số thuộc tính cho kết tốt hẳn so với thuật toán cổ điển FCM Độ lệch số Rand lớn thuật toán DCA FCM 0.195 (tại liệu Comp) Việc thử nghiệm với liệu có số cụm khác {2, 3, 6} phổ phần tử đủ lớn {150, 214, 2000, 3891, 4000} Điều cho thấy tính ổn định hiệu thuật tốn Về thời gian tính tốn, thuật tốn FCM chạy nhanh Các thuật toán dựa vào trọng số thuộc tính phải tính tốn thêm biến số Λ nên chạy chậm thuật toán FCM cổ điển Tuy nhiên, độ chênh lệch thời gian thuật toán không chênh lệch chấp nhận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 43 3.3 Kết luận Trong chương cuối, luận văn trình bày thuật toán phân cụm dựa trọng số thuộc tính giải tối ưu DC thuật tốn DCA Mơ hình tốn ban đầu viết lại dạng tốn tối ưu DC, tính tốn thuật tốn DC tính tốn dạng hiển, bước lặp, tính trực tiếp phép chiếu điểm hộp hay đoạn [0, 1] Từ kết tính tốn thực nghiệm, thấy việc sử dụng thông tin trọng số thuộc tính cải thiện hiệu phân cụm liệu Đồng thời kết cho thấy tính hiệu thuật tốn dựa tối ưu DC thuật toán DC so với thuật toán cổ điển SCAD FCM Tuy nhiên, thời gian có hạn, tác giả chưa tìm hiểu kỹ hết đặc điểm thuật toán DCA cho toán phân cụm lĩnh vực khai phá liệu, cách cải tiến hiệu thuật tốn thơng qua phương pháp điểm khởi tạo tốt hơn, để thu điểm khởi tạo tốt, dẫn đến kết tối ưu tốt nhanh chóng hội tụ Tác giả chưa tìm tịi để có phương pháp phân rã DC khác hiệu Bài tốn phân cụm liệu áp dụng cho nhiều toán thực tế như: toán phân đoạn ảnh, nhận dạng, đếm tế bào tin sinh học, Ngoài phương pháp DC DCA kết hợp với lý thuyết mờ để giải tốn phân cụm mờ có ngữ cảnh, hướng nghiên cứu tìm hiểu sau LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 44 Kết luận Luận văn chia làm chương Chương tác giả tìm hiểu kiến thức có tính chất bổ trợ giải tích hàm, tối ưu, tối ưu DC thuật toán DCA để giải toán tối ưu Tối ưu DC thuật toán DCA hướng nghiên cứu để giải toán tối ưu không lồi Khoảng 10 năm gần đây, phương pháp thu kết đáng xem xét, đặc biệt lĩnh vực ứng dụng Tối ưu DC thuật tốn DCA góp phần giải nhiều tốn ứng dụng có số chiều lớn phức tạp như: xử lý ảnh, khai phá liệu, tốn giao thơng, xếp kho hàng, vận chuyển hay tin sinh học, mã hóa, Trong chương 2, tác giả trình bày tìm hiểu tốn phân cụm lĩnh vực khai phá liệu Trong phần này, tác giả tìm hiểu phương pháp phân cụm phân hoạch, tập trung vào phương pháp k-Mean, FCM Ở chương này, tác giả tìm hiểu phương pháp phân cụm có tính thêm trọng số thuộc tính Qua nghiên cứu Frigui Nasui, nhận thấy thuộc tính có ảnh hưởng đến hiệu kết phân cụm Một cụm thiết lập từ số thuộc tính đó, thuộc tính lại khơng biết trước Trong cụm, thuộc tính liệu ảnh hưởng tới kết phân cụm có giá trị cao, ngược lại: thuộc tính ảnh hưởng có giá trị thấp Tác giả tìm hiểu ứng dụng cụ thể tối ưu DC tốn phân cụm có tính đến trọng số thuộc tính chương luận án Trong phần này, tác giả trình bày thuật toán DC để giải cho toán tối ưu viết lại dạng toán DC tìm hiểu cách giải tốn Thuật tốn thử nghiệm với thuật toán khác FCM – thuật toán phân cụm cổ điển dựa giá trị phụ thuộc mờ thuật toán SCAD dựa trọng số thuộc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 45 tính Từ kết thực nghiệm thu được, thấy toán phân cụm xét thêm yếu tố ảnh hưởng thuộc tính ta kết phân cụm tốt Ngồi ra, áp dụng thuật tốn DCA kết thu khả quan Có thể xem luận văn bước tìm hiểu ban đầu học viên ứng dụng tối ưu DC vào toán phân cụm Tác giả luận văn hy vọng có dịp tìm hiểu sâu rộng phương pháp Trong hướng nghiên cứu tương lai, tác giả mong muốn thực so sánh với thuật toán khác, thuật toán xuất phát từ tối ưu DC; thử nghiệm với phương pháp điểm khởi tạo khác Những ứng dụng tối ưu DC phân cụm vào toán thực tế như: phân đoạn ảnh, đếm tế bào ảnh chụp, mã hóa, đáng tìm hiểu nghiên cứu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 46 Tài liệu tham khảo Tiếng Việt [1] Nguyễn Văn Hồng (2014), Thuật toán DCA ứng dụng, Luận văn thạc sỹ chuyên ngành toán ứng dụng, Đại học Khoa học – Đại học Thái Nguyên [2] Nguyễn Thị Bích Thủy, Tạ Minh Thủy Một cách tiếp cận tối ưu cho toán phân cụm Hội thảo quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông - Hội nghị @ XIX Viện Công nghệ Thông tin - Trường Đại học Sư phạm Hà Nội, 1-2/10/2016, Hà Nội, trang 226 - 230 (2016) [3] Lê Dũng Mưu (1998), Nhập môn phương pháp tối ưu, Nhà xuất Khoa học Kỹ thuật, Hà Nội Tiếng Anh [4] C.L Blake and C.J Merz, UCI repository of machine learning databses, University of California, Irvine, Dept of Information and Computer Sciences (1998), http://archive.ics.uci.edu/ml/datasets.html Accessed on May 2013 [5] Hichem Frigui and Olfa Nasraoui Unsupervised learning of prototypes and attribute weights Pattern Recognition, 37(3):567–581, 2004 [6] James C Bezdek Pattern Recognition with Fuzzy Objective Function Algorithms Kluwer Academic Publishers, Norwell, MA, USA, 1981 ISBN 0306406713 [7] Le Thi Hoai An (web site) Dc programming and dca http://lita.sciences.univ-metz.fr/ lethi Accessed on March 2014 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 [8] Le Hoai Minh, Nguyen Thi Bich Thuy, Ta Minh Thuy, Le Thi Hoai An (2013), Image Segmentation via Feature Weighted Fuzzy Clustering by a DCA Based Algorithm, Adv Comput Methods for Knowl Engine Vol 479, Springer, pp 53-–63 [9] Pham Dinh Tao and Le Thi Hoai An Convex Analysis approach to DC programming theory, algorithms and applications ACTA Mathematica Vietnamica 22, pp 289-355, 1997 [10] Stephen Boyd, Lieven Vandenberghe (2009), Convex Optimization, Cambrige Press [11] http://www.askanalytics.in/2015/08/difference-between-kmeans-and.html [12] http://blog.minitab.com/blog/quality-data-analysis-andstatistics/cluster-analysis-tips [13] https://www.mathworks.com/matlabcentral/mlcdownloads/downloads/submissions/34412/versions/11/screenshot.png [14] https://sites.google.com/a/kingofat.com/wiki/datamining/cluster-analysis LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... TRƯỜNG ĐẠI HỌC KHOA HỌC —————o0o————— VŨ VĂN THỊNH TỐI ƯU DC VÀ ỨNG DỤNG TRONG BÀI TỐN PHÂN CỤM Chun ngành: Tốn ứng dụng Mã số: 60.46.01.12 LUẬN VĂN THẠC SĨ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS TẠ... pháp tối ưu DC cho toán phân cụm 3.1 Tối ưu DC thuật toán DCA cho toán (2.2) Trong chương tìm hiểu số thuật toán phân cụm theo phương pháp phân hoạch theo chiều hướng nghiên cứu Từ thuật toán. .. Kết luận Chương luận văn giới thiệu khái niệm phân cụm liệu vấn đề phân cụm liệu Tác giả trình bày chi tiết kỹ thuật phổ biến phân cụm liệu: phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa