Áp dụng giải thuật tăng dần cho giải thuật phân nhóm sử dụng xác suất

i LỜI CẢM ƠN Sau hai năm học tập làm việc, đạt tiến đáng khích lệ bước đường nghiên cứu khoa học Trong khoảng thời gian đó, tơi nhận nhiều giúp đỡ động viên người Công việc nghiên cứu không thành công trọn vẹn thiếu hỗ trợ Luận văn hội tốt để gởi lời cảm đến tất người Trước tiên, muốn gởi lời cảm ơn lịng kính trọng đến thầy hướng dẫn tơi, TS Nguyễn Đức Cường góp ý chun mơn nhiệt tình thầy Mặc dù bận rộn giảng dạy nghiên cứu khoa học thầy dành thời gian quyù báo để xem xét, đưa lời khuyên khắc phục khiếm khuyết luận văn Kế đến, xin gởi lời cảm ơn đến thầy PGS.TS Đỗ Phúc thầy TS Quản Thành Thơ dành thời gian để thảo luận góp ý chân thành Điều góp phần giúp luận văn thêm hồn thiện Tôi xin gởi lời cảm ơn đến thầy TS Dương Tuấn Anh thầy TS Đặng Trần Khánh góp ý mang tính khoa học cho luận văn Sau cùng, tơi xin cảm ơn gia đình bạn học viên Cao học K15 hỗ trợ, động viên góp ý q trình thực luận văn TP.HCM, ngày 20 tháng 12 năm 2006 Nguyễn Thành Tâm ii TÓM TẮT Trong năm gần số kỹ thuật máy học khai phá liệu áp dụng hiệu để khám phá tri thức hữu ích từ liệu Một kỹ thuật sử dụng rộng rãi khai phá liệu họ giải thuật phân nhóm có sử dụng xác suất mà đặt biệt giải thuật Cực đại kỳ vọng toán (Expectation-Maximization) dễ thực đảm bảo tính tăng đơn điệu chất lượng mô hình Tuy nhiên, giải thuật EM số hạn chế như: phụ thuộc nhiều vào việc khởi tạo thông số ban đầu, giải thuật bị kẹt điểm cực đại cục độ phức tạp lớn Đây hạn chế gặp phải giải thuật K-Means chúng khắc phục phần áp dụng chiến lược tăng dần (incremental strategy) cho giải thuật K-Means [1] Việc áp dụng thành công chiến lược tăng dần lên giải thuật K-Means với việc hai giải thuật EM K-Means có nhiều điểm tương đồng dẫn đến việc chọn giải thuật EM để áp dụng chiến lược tăng dần Vì vậy, luận văn này, (i) tìm hiểu cách vận dụng chiến lược tăng dần vào giải thuật học, (ii) tìm hiểu giải thuật phân nhóm thuộc họ EM (iii) phân tích vận dụng chiến lược tăng dần lên giải thuật tìm hiểu, khảo sát kết tập liệu khoa học chuẩn UCI Chiến lược tăng dần two-phase [1] áp dụng cho giải thuật EM đề tài Tất giải thuật thực môi trường Weka ngôn ngữ Java MATLAB Các giải thuật kiểm tra so sánh với giải thuật EM gốc tập liệu lớn iii MỤC LỤC LỜI CẢM ƠN .i TÓM TẮT ii MUÏC LUÏC iii DANH MUÏC HÌNH .v DANH MỤC BẢNG BIỂU .vii GIỚI THIỆU 1.1 Sự cần thiết việc cải tiến giải thuật EM 1.2 Đối tượng, phạm vi nghiên cứu .2 1.2.1 Đối tượng nghiên cứu 1.2.2 Phạm vi mục tiêu đề tài .2 1.3 Ý nghóa thực tiễn đề tài 1.3.1 Tính khả thi .3 1.3.2 Ứng dụng .3 1.4 Nội dung trình bày CAÙC NGHIÊN CỨU LIÊN QUAN 2.1 Chỉ số đo chất lượng mô hình Kurtosis 2.2 Giải thuật Greedy EM 2.3 Giải thuật K-Means 11 2.4 Giải thuật Incremental K-Means 12 2.5 Giải thuật Two-Phase K-Means 13 CƠ SỞ LÝ THUYẾT 16 3.1 Khai phaù liệu (data mining) .16 3.1.1 Định nghóa .16 3.1.2 Taïi phải khai phá liệu? 22 3.1.3 Ứng dụng khai phá lieäu 23 3.1.4 Các tiêu chuẩn khai phá liệu 25 3.1.5 Các kỹ thuật dùng khai phá liệu .26 3.1.6 Kỹ thuật phân nhóm 27 3.2 Ước lượng Cực đại kỳ vọng toán 46 3.2.1 Bài toán ước lượng 46 3.2.2 Cực đại cục hàm likelihood .48 3.2.3 Giải thuật cực đại kỳ vọng toán EM .49 3.3 Chiến lược tăng dần (incremental strategy) 51 3.3.1 Định nghóa .51 3.3.2 Lợi ích chiến lược tăng dần 52 PHÂN TÍCH, THIẾT KẾ VÀ HIỆN THỰC 52 4.1 Phân tích .52 4.1.1 Khaû áp dụng chiến lược tăng dần cho giải thuật EM 52 4.1.2 Xác định cluster giải thuật EM hàm “distortion” .53 iv 4.1.3 Tập liệu có kích thước lớn tập “compression” 57 4.2 Weka 59 4.2.1 Tổng quan Weka 59 4.2.2 Explorer .68 4.2.3 Knowledge flow 68 4.2.4 Experimenter .69 4.2.5 Simple CLI 70 4.2.6 Arff Viewer 71 4.2.7 Các giải thuật phân nhóm Weka 71 4.2.8 Phát triển ứng dụng dựa Weka 71 4.2.9 Nhúng máy học vào ứng dụng 72 4.2.10 Thêm mô hình máy học vào Weka .72 4.3 Thieát keá .73 4.3.1 Áp dụng chiến lược tăng dần cho giải thuật EM 73 4.3.2 Áp dụng ý tưởng giải thuật Two-Phase K-Means cho giải thuật EM 75 4.4 Hiện thực 76 4.5 Thử nghiệm 87 4.5.1 Định dạng liệu 87 4.5.2 Thử nghiệm tập liệu tự tạo .88 4.5.3 Thử nghiệm tập liệu UCI 91 4.5.4 Thử nghiệm tập liệu có kích thước lớn .94 ĐÁNH GIÁ – KẾT LUẬN 98 5.1 Đánh giá .98 5.2 Kết luận 98 HƯỚNG PHÁT TRIỂN 99 6.1 Hướng phát triển giải thuaät 99 6.2 Hướng phát triển ứng dụng 99 THUẬT NGỮ SỬ DUÏNG 99 TÀI LIỆU THAM KHẢO 101 v DANH MỤC HÌNH Hình 2-1 Hình 2-2: Sơ đồ khối giải thuật Greedy EM Hình 2-3: Minh họa giải thuật greedy EM thực [3,4] 10 Hình 2-4: Sơ đồ khối giải thuật K-Means 11 Hình 2-5: Mã giả giải thuaät Incremental K-Means [1] 12 Hình 2-6: Sơ đồ khối giải thuật Incremental K-Means 13 Hình 2-7: Giải thuật Two-Phase K-Means [1] 14 Hình 3-1: Khai phá liệu xem quy trình khai phá tri thức [2] 17 Hình 3-2: Kiến trúc hệ thống khai phá liệu thường gặp [2] 18 Hình 3-3: Crisp-DM [16] 26 Hình 3-4: Sơ đồ khối giải thuật K-Means 32 Hình 3-5: Minh họa giải thuật K-Means [2] 32 Hình 3-6: Minh họa giải thuaät K-Medoids [2] 34 Hình 3-7: Minh họa giải thuật PAM [2] 35 Hình 3-8: So sánh hoạt động hai nhóm giải thuật gộp [2] 36 Hình 3-9: Minh họa giải thuật AGNES [2] 38 Hình 3-10: Minh họa giải thuật DIANA [2] 39 Hình 3-11: Minh họa khái niệm directly density-reachable [2] 40 Hình 3-12: Minh họa khái niệm density-reachable [2] 41 Hình 3-13: Minh họa khái nieäm density-connected 41 Hình 3-14: Minh họa giải thuật DBSCAN với liệu nhiễu [2] 42 Hình 3-15: Kết giải thuật DBSCAN với Eps MinPts khác [2] 42 Hình 3-16: Minh họa khái niệm Core-distance Reachability-distance 44 Hình 3-17: Minh họa thứ tự cluster giải thuật OPTICS 45 Hình 3-18: Chiến lược tăng daàn 52 Hình 4-1: Ví dụ minh họa phát triển ứng dụng dựa vào Weka 67 Hình 4-2: Giao diện Explorer 68 Hình 4-3: Giao diện Knowledge Flow 69 Hình 4-4: Giao diện Experimenter 70 Hình 4-5: Giao diện CLI 70 Hình 4-6: Giao diện ARFF Viewer 71 Hình 4-7: Giải thuật Incremental EM 74 Hình 4-8: Sơ đồ khối giải thuật Incremental EM 75 Hình 4-9: Giải thuật Two-Phase EM 76 Hình 4-10: Sơ đồ khối giải thuật Two-Phase EM 76 Hình 4-11: Các gói phần mềm dùng giải thuật Incremental EM 77 Hình 4-12: Sơ đồ lớp IEM 78 Hình 4-13: Sơ đồ lớp TwoPhaseEM 78 Hình 4-14: Sơ đồ giao tiếp Weka đối tượng IEM 84 vi Hình 4-15: Sơ đồ giao tiếp Weka đối tượng TwoPhaseEM 85 Hình 4-16: Chi tiết thực giải thuật IEM 85 Hình 4-17: Storyboard cách dùng giải thuật Weka 86 Hình 4-18: Các bước thực thự nghiệm giải thuật Weka 87 Hình 4-19: Tập liệu Gauss 1, Gauss Gauss 89 Hình 4-20: Kết thử nghiệm tập liệu Gauss 89 Hình 4-21: Kết thử nghiệm tập liệu Gauss 90 Hình 4-22: Kết thử nghiệm tập liệu Gauss 91 Hình 4-23: Kết thử nghiệm tập liệu Iris 92 Hình 4-24: Kết thử nghiệm tập liệu CPU 93 Hình 4-25: Kết thử nghiệm tập liệu Ionosphere 93 Hình 4-26: Tập liệu Gauss 4, Gauss vaø Gauss 94 Hình 4-27: So sánh giải thuật EM IEM tập Gauss 95 Hình 4-28: So sánh giải thuật EM IEM tập Gauss 96 Hình 4-29: So sánh giải thuật EM IEM tập Gauss 96 Hình 4-30: Thời gian chạy giải thuật tập liệu lớn 97 vii DANH MỤC BẢNG BIỂU Bảng 4-1: Các lớp gói weka.core 60 Bảng 4-2: Các giải thuật xử lý liệu Weka 61 Bảng 4-3: Danh sách giải thuật phân lớp 63 Bảng 4-4: Các giải thuật siêu phân lớp quan trọng Weka 65 Baûng 4-5: Bảng so sánh giải thuật 66 Bảng 4-6: Các tập liệu Gauss 88 Bảng 4-7: Các tập liệu UCI 91 Bảng 4-8: Các tập liệu Gauss có kích thước lớn 94 Bảng 4-9: Tập liệu có kích thước lớn 97 Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 1/102 GIỚI THIỆU 1.1 Sự cần thiết việc cải tiến giải thuật EM Như biết, kỹ thuật khai phá liệu năm gần có bước phát triển mạnh mẽ dần hoàn thiện Nó gây ý tổ chức nhà phát triển Cơ sở liệu đánh giá thị trường tiềm năm tới Đáng ý hai công ty phần mềm lớn hai nhà phát triển Hệ quản trị Cơ sở liệu lớn giới Microsoft Oracle dần hoàn thiện tiêu chuẩn đưa khai phá liệu vào sản phẩm thương mại Có nhiều nhóm kỹ thuật khai phá liệu xem xét đưa vào ứng dụng thương mại phân loại, phân nhóm, … Trong đó, nhắc đến kỹ thuật phân nhóm, người ta thường nghó đến giải thuật K-Means Cực đại kỳ vọng toán (EM) Thực tế cho thấy họ kỹ thuật phân nhóm mình, Microsoft giới thiệu hai giải thuật sản phẩm SQL Server 2005, phiên tính đến thời điểm Tuy nhiên, giải thuật EM số hạn chế như: phụ thuộc nhiều vào việc khởi tạo thông số ban đầu, giải thuật bị kẹt điểm cực đại cục độ phức tạp lớn Các hạn chế làm giảm khả ứng dụng giải thuật EM gây khó khăn cho người dùng giải thuật Vì vậy, việc cải tiến giải thuật EM thành công có ý nghóa lớn họ kỹ thuật phân nhóm góp phần vào phát triển khai phá liệu Giải thuật cực đại kỳ vọng toán Dempster phát triển vào năm 1977, tên tiếng Anh Expectation Maximization, thường gọi tắt EM Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 2/102 1.2 Đối tượng, phạm vi nghiên cứu 1.2.1 Đối tượng nghiên cứu Như đề cập trên, có nhiều giải thuật dùng phân nhóm liệu mà phải kể đến giải thuật Cực đại kỳ vọng toán (EM) dựa phân phối Gauss xác suất Tuy nhiên giải thuật số hạn chế [3,4,5]:(i) chưa biết số nhóm, (ii) cách tổng quát để khởi tạo thông số ban đầu cho giải thuật, (iii) giải thuật bị kẹt điểm cực đại cục Để giải khó khăn (ii) (iii), xem xét áp dụng chiến lược tăng dần (incremental strategy) cho giải thuật EM Vậy, đối tượng nghiên cứu đề tài giải thuật EM chiến lược tăng dần 1.2.2 Phạm vi mục tiêu đề tài - Nghiên cứu chiến lược tăng dần giải thuật K-Means [1] - p dụng chiến lược cho giải thuật EM - Nghiên cứu giải thuật Two-Phase K-Means [1] - Xây dựng giải thuật Two-Phase EM áp dụng cho tập liệu lớn - Thiết kế, thực thử nghiệm kết giải thuật tập liệu khoa học UCI - Nhận xét đánh giá kết đạt Chiến lược tăng dần áp dụng thành công giải thuật K-Means, xem thêm tài liệu tham khảo [1] Dữ liệu khoa học UCI dùng nghiện cứu giải thuật máy học khai phá liệu Có thể tải liệu http://kdd.ics.uci.edu/ Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 3/102 1.3 Ý nghóa thực tiễn đề tài 1.3.1 Tính khả thi Giải thuật EM K-Means giống có nhiều điểm tương đồng [7] Kết tập hợp nhóm liệu phân biệt hóa dựa tập thuộc tính Có vòng lặp có giới hạn để tìm phân nhóm khả thi dựa hàm đánh giá Quy định số lượng cluster cố định Sự hội tụ cục hàm đánh giá Do đó, áp dụng chiến lược áp dụng thành công cho giải thuật K-Means vào giải thuật EM Việc chiến lược tăng dần chiến lược khác áp dụng thành công cho giải thuật K-Means [1,15], tạo động lực cho việc nghiên cứu chiến lược cho giải thuật EM Do đó, bên cạnh việc nghiên cứu áp dụng chiến lược tăng dần cho giải thuật EM, luận văn xem xét khả phát triển giải thuật EM dùng cho khối lượng liệu lớn dựa vào ý tưởng giải thuật Two-Phase K-Means [1] 1.3.2 Ứng dụng Như đề cập trên, giải thuật EM có mặt hạn chế làm giảm khả áp dụng thực tế Do đó, việc cải tiến giải thuật EM có ý nghóa thiết thực như: - Giảm chi phí tính toán - Giải thuật không bị kẹt điểm cực đại cục Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 88/102 Dữ liệu định dạng theo chuẩn ARFF có dạng sau @relation 'points' @attribute x real @attribute y real @data 96,81 120,85 99,98 Trong từ khóa relation dùng để khai báo tên quan hệ, từ khóa attribute dùng để khai báo tên thuộc tính kiểu nó, từ khóa data đánh dấu nội dụng bên giá trị thuộc tính: @relation {tên quan hệ} @attribute {tên thuộc tính} {kiểu} @data 4.5.2 Thử nghiệm tập liệu tự tạo Tập liệu Gauss sau tạo ngẫu nhiên thử nghiệm giải thuật EM 24 IEM Số thuộc tính Số thành phần Gauss Số đối tượng Gauss 600 Gauss 2 600 Gauss 800 Bảng 4-6: Các tập liệu Gauss 24 Giải thuật EM so sánh giải thuật EM cải tiến có sẵn Weka – dùng “crossvalidation” K-Means để khởi tạo thông số ban đầu với số lần lặp giải thuật K-Means 10 Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Gauss Gauss Trang 89/102 Gauss Hình 4-19: Tập liệu Gauss 1, Gauss Gauss Với kết thử nghiệm mô tả Hình 4-20 – gồm phân bố Gauss có phân bố Gauss giao phân bố Gauss tách biệt, Hình 4-21 – gồm phân bố Gauss có phân bố Gauss giao phân bố Gauss tách biệt Hình 4-22 – gồm phân bố Gauss tách bieät So sánh giải thuật EM IEM Log-likelihood -10.4 -10.6 -10.8 EM -11 IEM -11.2 -11.4 EM -11.24342 -10.81327 -10.81027 -10.80841 -10.80352 -10.80258 IEM -11.24342 -10.81327 -10.81002 -10.8035 -10.80306 -10.79967 K Hình 4-20: Kết thử nghiệm tập liệu Gauss Từ kết ta có nhận xét sau: - Giải thuật EM IEM làm việc tốt tập cluster tách biệt Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm - Trang 90/102 Giải thuật EM IEM làm việc tốt tập cluster có giao Vì thấy đồ thị, giá trị K = K = 3, hai giải thuật EM IEM có log-likelihood Còn tập cluster giao nhiều, giải thuật IEM làm việc tốt Tuy nhiên, khác biệt giải thuật không lớn Để khẳng định điều lần nữa, thực thử nghiệm giải thuật tập liệu Gauss Như mô tả Hình 2-1 tập liệu Gauss gồm cluster có cluster giao Do đó, tính chất giá trị log-likelihood giải thuật tập liệu giá trị K = 2, K = K = phải So sánh giải thuật EM IEM Log-likelihood -10.8 -11 EM -11.2 IEM -11.4 -11.6 EM -11.40587 -11.19736 -11.03693 -11.03627 -11.03595 -11.02628 IEM -11.40587 -11.19736 -11.03693 -11.02703 -11.027 -11.02554 K Hình 4-21: Kết thử nghiệm tập liệu Gauss Từ đồ thị Hình 4-21 ta có giá trị log-likelihood giá trị K = 2, K = K = - trùng với giả thiết đưa Trong hai trường hợp, giá trị hàm log-likelihood có xu hướng tăng nhanh từ giá trị K = đến giá trị K=3 tập liệu Gauss K = tập liệu Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 91/102 Gauss Và tăng nhẹ K tiếp tục tăng Điều mở khả dự đoán số cluster thật liệu toán khác, cần khảo sát thêm So sánh giải thuật EM IEM Log-likelihood -10.5 -11 EM IEM -11.5 -12 EM -11.79468 -11.59108 -11.48153 -11.2535 -11.03733 IEM -11.61318 -11.50351 -11.40533 -11.22784 -11.03094 K Hình 4-22: Kết thử nghiệm tập liệu Gauss Xét đồ thị Hình 4-22 ta thấy, giá trị K = K = 4, giải thuật IEM tỏ vượt trội so với EM Đây ưu điểm giải thuật IEM so với giải thuật EM khả không bị kẹt điểm cực trị cục 4.5.3 Thử nghiệm tập liệu UCI Tập liệu UCI Số thuộc tính Số đối tượng CPU 25 209 IRIS 150 Ionosphere 34 351 Bảng 4-7: Các tập liệu UCI Với kết thử nghiệm mô tả Hình 4-23, 4-24 4-25 25 Tập liệu CPU có tên gọi khác “Computer Hardware Database” Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 92/102 So sánh giải thuật EM IEM Log-likelihood -1 EM IEM -2 -3 EM -2.58171 -2.055 -1.7728 -1.60803 -1.47805 -1.31626 IEM -2.58171 -2.055 -1.88873 -1.60859 -1.4853 -1.32053 K Hình 4-23: Kết thử nghiệm tập liệu Iris Như biết, tập liệu Iris phân bố gồm nhóm có nhóm (class) tách biệt hai nhóm lại giao Tuy nhiên, hai nhóm có giao không tuyến tính 26 Mà giải thuật IEM tính distortion cho cluster, chúng giả sử cluster giao tuyến tính Đây lý khiến giải thuật IEM có kết (giá trị log-likelihood) nhỏ giá trị log-likelihood giải thuật EM Tuy nhiên, khác biệt không rõ rệt 26 Tính chất tập liệu UCI tham khảo địa http://www.ics.uci.edu/~mlearn/MLSummary.html Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 93/102 So sánh giải thuật EM IEM Log-likelihood -36 -38 EM -40 IEM -42 -44 EM -42.04533 -40.41577 -39.60868 -39.1965 -39.27474 IEM -42.04533 -40.51796 -39.72681 -38.71768 -38.60007 K Hình 4-24: Kết thử nghiệm tập liệu CPU Log-likelihood So sánh giải thuật EM IEM -2 -4 -6 EM IEM EM -3.83983 -1.56324 0.33817 3.8348 IEM -3.51415 -1.53537 2.31656 4.94389 K Hình 4-25: Kết thử nghiệm tập liệu Ionosphere Kết giải thuật EM IEM Hình 4-24 Hình 4-25 tập liệu CPU Ionosphere cho thấy giải thuật IEM cho kết tốt giải thuật EM Hai tập liệu liệu số tính chất đặc biệt Do đó, kết thể tính chất giống tập liệu Gauss Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 94/102 4.5.4 Thử nghiệm tập liệu có kích thước lớn Để việc kiểm tra kết thuyết phục hơn, luận văn tiến hành kiểm tra giải thuật tập liệu có kích thước lớn Bên cạnh đó, Weka giải thuật EM gốc, đối tượng để so sánh với giải thuật EM cải tiến nên tác giả xây dựng lại giải thuật EM gốc giải thuật Incremental EM môi trường MATLAB Về mặt ý tưởng, giải thuật Incremental EM MATLAB thay đổi so với giải thuật Incremental EM Weka MATLAB chọn khả phát triển giải thuật nhanh hỗ trợ việc vẽ đồ thị so sánh giải thuật Số thuộc tính Số thành phần Gauss Số đối tượng Gauss 10000 Gauss 20000 Gauss 50000 Bảng 4-8: Các tập liệu Gauss có kích thước lớn Gauss Gauss Gauss Hình 4-26: Tập liệu Gauss 4, Gauss Gauss Khi thực so sánh giải thuật EM gốc giải thuật Incremental EM, tác giả thực giải thuật EM gốc 10 lần với số thành phần Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 95/102 tập Gauss 4, Gauss vaø Gauss laø 3, vaø Sau lấy giá trị trung bình log-likelihood chọn giá trị log-likelihood tốt tìm Lý để chọn thực giải thuật EM 10 lần với số lượng thành phần với số thành phần tập liệu la vìø Tại giá trị đó, giá trị hàm log-likelihood giải thuật EM có xu hướng lớn Giải thuật EM không ổn định nên xét giá trị k khác (cho k tăng dần chẳng hạn) giá trị hàm log-likehood thay đổi nhiều phục thuộc giá trị khởi tạo ban đầu Các kết có vẽ đồ thị gồm Hình 4-27, Hình 4-28 Hình 4-29 Cũng từ kết này, nhận thấy chất lượng giải thuật IEM cao tập liệu lớn Hình 4-27: So sánh giải thuật EM IEM tập Gauss Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 96/102 Hình 4-28: So sánh giải thuật EM IEM tập Gauss Hình 4-29: So sánh giải thuật EM IEM tập Gauss Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 97/102 Thử nghiệm giải thuật Two-Phase EM với tập liệu có kích thước lớn Gauss 16000 Số thuộc tính Số đối tượng Gauss 17000 Gauss 50000 Bảng 4-9: Tập liệu có kích thước lớn So sánh thời gian chạy EM Two-Phase EM 150 Giây 100 EM Two-Phase EM 50 16 17 30 EM 37 55 100 Two-Phase EM 30 38 70 Kích thước liệu (đơn vị 1000) Hình 4-30: Thời gian chạy giải thuật tập liệu lớn 27 Theo kết Hình 4-30 ta nhận thấy tập liệu có kích thước nhỏ, giải thuật Two-Phase EM không mang lại ưu thời gian thực Tuy nhiên, tập liệu lớn ưu vượt trội Do đó, giải thuật Two-Phase EM nên dùng tập liệu có kích thước lớn không cần chất lượng mô hình cao 27 Thời gian chạy giải thuật mang tính tương đối, tùy thuộc vào cấu hình phần cứng tình trạng hệ thống lúc đo tốc độ giải thuật Tuy nhiên, so sánh tốc độ giải thuật, kết mang tính tham khảo để đưa kết luận tính chất giải thuật Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 98/102 ĐÁNH GIÁ – KẾT LUẬN 5.1 Đánh giá Ưu điểm giải thuật Incremental EM so với EM - Giải thuật Incremental EM có độ ổn định cao không bị kẹt điểm tối ưu cục - Không cần phương pháp hỗ trợ khởi tạo thông số ban đầu - Chất lượng mô hình giải thuật Incremental EM tốt giải thuật EM Ưu điểm giải thuật Two-Phase EM so với EM - Giải thuật Two-Phase EM có tốc độ xử lý nhanh giải thuật EM tập liệu có kích thước lớn 5.2 Kết luận Kết thực nghiệm cho thấy việc phát triển giải thuật Incremental EM Two-Phase EM mang lại kết như: - Giải thuật Incremental EM có chất lượng mô hình tốt ổn định giải thuật EM không nhạy với việc khởi tạo thông số ban đầu số cluster ban đầu gán - Giải thuật Incremental EM không cần khởi tạo giá trị ban đầu giải thuật EM số cluster ban đầu nên lần lặp đầu tiên, tâm cluster lấy giá trị trung bình đối tượng liệu - Giải thuật Two-Phase EM chạy nhanh giải thuật EM tập liệu có kích thước lớn lặp qua toàn đối tượng tập liệu Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 99/102 Tuy nhiên, giải thuật Incremental EM Two-Phase EM số hạn chế như: - Giải thuật Incremental EM chậm giải thuật EM - Giải thuật Two-Phase EM có chất lượng mô hình giải thuật EM HƯỚNG PHÁT TRIỂN 6.1 Hướng phát triển giải thuật - Phát triển giải thuật Incremental với tập liệu có kích thước lớn dùng “efficcient statistics” [18] - Cải tiến giải thuật Two-Phase EM để không bị thông tin độ rộng cluster trình xử lý 6.2 Hướng phát triển ứng dụng - Chuẩn hóa liệu mô hình cluster, thực việc lưu trữ truy xuất mô hình sở liệu quan hệ XML dùng Hibernate28 [17] - Ứng dụng giải thuật EM cho sở liệu, phát triển thêm cho hệ quản trị sở liệu mã nguồn mở dùng kết hợp Weka Hibernate [17] THUẬT NGỮ SỬ DỤNG 28 Hibernate gói thư viện mã nguồn mở hỗ trợ việc lưu trữ load đối tượng từ sở liệu quan hệ bao gồm liệu thuộc tính quan hệ kết hợp, đa hình, kế thừa hỗ trợ ngôn ngữ truy vấn SQL Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Thuật ngữ Data Mining Classifiation Dependency Modeling Clustering Regression Association Summarization Change and Deviation Detection Expectation Maximization Incremental Strategy Machine Learning Gaussian Density Test Knowledge Discovery Life cycle Churn Analysis Fraud detection Risk management Gaussian Mixture Local Maxima Hoïc viên: Nguyễn Thành Tâm Trang 100/102 Diễn giải Khai phá liệu Phân loại Mô hình phụ thuộc Phân nhóm Hồi quy Luật kết hợp Tóm tắt Phát thay đổi độ lệch Cực đại kỳ vọng toán Chiến lược tăng dần Học máy Phân phối Gauss Thử nghiệm Khám phá tri thức Vòng đời Phân tích hành vi khách hàng khách hàng Phát gian lận Quản lý rủi ro Mô hình hỗn hợp Gauss Tối ưu cục GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 101/102 TÀI LIỆU THAM KHẢO [1] Nguyen Duc Cuong, 2004, Flexible Information Management Strategies in Machine Learning and Data Mining, PhD Thesis, P.111-178 [2] Jia Wei Han, 2003, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, Chapter 8, P.4-33 [3] J.J.Verbeek N.Vlassis and B.Krose, 2001, Efficient Greedy Learning of Gaussian Mixtures, Journal of Machine Learning Resource [4] Nikos Vlassis and Aristidis Likas, 2000, A Greedy EM Algorithm for Gaussian Mixture Learning, Neural Processing Letters [5] J.R.J Nunnink, 2003, Large Scale Gaussian Mixture Modelling using a Greedy Expectation-Maximisation Algorithm, M.Sc Thesis [6] Ian H.Witten and Eibie Frank, 2005, Data Mining: Practical Machine Learning Tools and Techniques, Elsevier Publisher, P.363-423 [7] Michael Kearns et al, 1997, Information-Theoretic Analysis of Hard and Soft Assigment Methods for Clustering, Proceedings of the Thirteenth Conference on Uncertainty in Artificial Intelligence [8] Christ Fraley, Adrian Raftery, 2003, Incremental Model-Based Clustering for Large Datasets With Small Clusters, Technical Report no 439, Department of Statistics, University of Washington [9] Jakob J Verbeek, Jan R J Nunnink and Nikos Vlassis, 2003, Accelerated variants of the EM algorithm for Gaussian mixtures, http://staff.science.uva.nl/~jnunnink/bib/Nunnink04benelearn.pdf [10] Jan R J Nunnink, Jakob J Verbeek and Nikos Vlassis, 2004, Accelerated Greedy Mixture Learning, Kluwer Academic Publishers Học viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường Đề tài: p dụng chiến lược tăng dần giải thuật phân nhóm Trang 102/102 [11] Luis E Ortiz and Leslie Pack Kaelbling, 1999, Accelerating EM: An Empirical Study, Proceedings of the Fifteenth International Conference on Uncertainty in Artificial Intelligence [12] Thomas P Minka, 1998, Expectation-Maximization as a lower bound maximization, MIT Media Lab Technical Report [13] Mehmed Kantardzic, 2003, Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons Publisher, Chapter [14] Daniel T Larose, 2005, Discovering Knowledge in Data: An Introduction to Data Mining, John Wiley & Sons Publisher [15] Nikos Vlassis and Aristidis Likas, 1999, A Kurtosis-Based Dynamic Approach to Gaussian Mixture Modeling, IEEE Trans Systems, Man, and Cybernetics, Part A [16] ZhaoHui Tang and Jamie McLennan, 2005, Data Mining with Microsoft SQL Server 2005, John Wiley & Sons Publisher, Chapter [17] Christian Bauer and Gavin King, 2005, Hibernate in Action, Manning Publisher [18] Bo Thiesson, Christopher Meek and David Heckerman, 2001, Accelerating EM for Large Database, Microsoft Research [19] Carlos Tomasi, 1996, Estimating Gaussian Mixture Densities with EM - A tutorial, Class Handout, Duke University [20] Pavel Berkhin, 2002, Survey of Clustering Data Mining Techniques, Technical Report, Accrue Software Inc Hoïc viên: Nguyễn Thành Tâm GVHD: TS.Nguyễn Đức Cường ... đó, áp dụng chiến lược áp dụng thành công cho giải thuật K-Means vào giải thuật EM Việc chiến lược tăng dần chiến lược khác áp dụng thành công cho giải thuật K-Means [1,15], tạo động lực cho. .. giải thuật phân nhóm thuộc họ EM (iii) phân tích vận dụng chiến lược tăng dần lên giải thuật tìm hiểu, khảo sát kết tập liệu khoa học chuẩn UCI Chiến lược tăng dần two-phase [1] áp dụng cho giải. .. số kỹ thuật máy học khai phá liệu áp dụng hiệu để khám phá tri thức hữu ích từ liệu Một kỹ thuật sử dụng rộng rãi khai phá liệu họ giải thuật phân nhóm có sử dụng xác suất mà đặt biệt giải thuật

Định dạng
Số trang	109
Dung lượng	1,4 MB