Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 34 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
34
Dung lượng
384,35 KB
Nội dung
Đề tài: TÌM HIỂU THUẬT TỐN GOM CỤM VÀ XÂY DỰNG ỨNG DỤNG Nhóm 14 Thành viên 2001200162Võ Văn Huy 2001200161 Đặng Thành Hứa NộI DUNG CHÍNH Phân cụm II Thuật tốn K-Mean I Khái quát thuật toán Các bước thuật tốn Ví dụ minh họa – Demo thuật tốn Đánh giá thuật tốn Tổng qt hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean I PHÂN CụM Phân cụm gì? Quá trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn: Giải vấn đề tìm kiếm, phát cụm, mẫu liệu tập hợp ban đầu liệu khơng có nhãn K-Mean ứng dung Các đối tượng cụm “tương tự” Các đối tượng khác cụm “khơng tương tự” I PHÂN CụM K-Mean ứng dung Nếu X : tập điểm liệu Ci : cụm thứ i I PHÂN CụM Một số độ đo phân cụm Minkowski n 1( ||xi y i || p ) p Euclidean – p = K-Mean ứng dung i Độ đo tương tự (gần nhau): cosin hai vectơ v.w cosµ = || v || || w || I PHÂN CụM Mục đích phân cụm Phân cụm không dựa tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trường hợp K-Mean ứng dung Xác định chất việc nhóm đối tượng tập liệu khơng có nhãn I PHÂN CụM Một số phương pháp phân cụm điển hình Phân cụm phân hoạch Phân cụm dựa mật độ K-Mean ứng dung Phân cụm phân cấp Phân cụm dựa lưới Phân cụm dựa mơ hình Phân cụm có ràng buộc II.PHÂN CụM PHÂN HOạCH P h K-Mean ứng dung ân tập liệu có n phần tử cho trước thành k tập liệu (k ≤ n), tập biểu diễn cụm Các cụm hình thành sở làm tối ưu giá trị hàm đo độ tương tự cho: Các đối tượng cụm tương tự Các đối tượng cụm khác không tương tự Đặc điểm: Mỗi đối tượng thuộc cụm Mỗi cụm có tối thiểu đối tượng Một số thuật tốn điển hình : K-mean, PAM, CLARA,… II.2 Thuật toán K-Means Phát biểu toán: Input Tập đối tượng X = {x | i = 1, 2, …, Output Các cụm Ci ( i = ÷ K) tách rời hàm tiêu chuẩn K-Mean ứng dung N}, Số cụm: K i E đạt giá trị tối thiểu 10 II.1 KHÁI QUÁT Về THUậT TỐN T h II.3 VÍ Dụ MINH HọA K-Mean ứng dung Bước 4-1: Lặp lại bước – Tính tốn khoảng cách d(A, c1 ) = < d(A, c2 ) = 9.89 A thuộc cụm d(B, c1 ) = < d(B, c2 ) = 5.56 B thuộc cụm d(C, c1 ) = 13 > d(C, c2 ) = 0.22 C thuộc cụm d(D, c1 ) = 25 > d(D, c2 ) = 3.56 D thuộc cụm II.3 VÍ Dụ MINH HọA Bước 4-2: Lặp lại bước 3-Cập nhật trọng tâm c1 = (3/2, 1) c2 = (9/2, 7/2) K-Mean ứ ng dung 20 II.3 VÍ Dụ MINH HọA Bước 4-3: Lặp lại bước d(A, c1 ) = 0.25 < d(A, c2 ) = 18.5 K-Mean ứng dung A thuộc cụm d(B, c1 ) = 0.25 < d(B, c2 ) = 12.5 B thuộc cụm d(C, c1 ) = 10.25 < d(C, c2 ) = 0.5 C thuộc cụm d(D, c1 ) = 21.25 > d(D, c2 ) = 0.5 D thuộc cụm 21 II.3 VÍ Dụ MINH HọA K-Mean ứng dung 22 II.4 ĐÁNH GIÁ THUậT TOÁN – ƯU ĐIểM Độ phức tạp: O( K.N.l ) với l: số lần lặp Có khả mở rộng, dễ dàng sửa đổi với liệu Bảo đảm hội tụ sau số bước lặp hữu hạn Ln có K cụm liệu Ln có điểm liệu cụm liệu Các cụm không phân cấp không bị chồng chéo liệu lên M ọ i t h n h v i ê n cụm gần với cụm cụm khác K-Mean ứng dung 23 II.4 ĐÁNH GIÁ THUậT TỐN – NHƯợC ĐIểM Khơng có khả tìm cụm khơng lồi cụm có hình dạng phức tạp Khó khăn việc xác định trọng tâm cụm ban đầu - Chọn ngẫu nhiên trung tâm cụm lúc khởi tạo - Độ hội tụ thuật toán phụ thuộc vào việc khởi tạo vector trung tâm cụm Khó để chọn số lượng cụm tối ưu từ đầu, mà phải qua nhiều lần thử để tìm số lượng cụm tối ưu R ấ t n hạy cảm với nhiễu phần tử ngoại lai liệu Không phải lúc đối tượng thuộc cụm, phù hợp với đường biên cụm rõ K-Mean ứng dung II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể B Các biến thể K-Mean ứng dung Thuật toán K-medoid: Tương tự thuật toán K-mean Mỗi cụm đ ược đại diện đối tượng cụm Chọn đối tượng gần tâm cụm làm đại diện cho cụm K-medoid kh ắc phụ c nhiễu,nh ưng độ phức tạp lớn II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể Thuật toán Fuzzy c-mean (FCM): Chung chiến lược phân cụm với K-mean Nếu K-mean phân cụm liệu cứng (1 điểm liệu thuộc cụm) FCM phân cụm liệu mờ (1 điểm liệu thuộc nhiều cụm với xác suất định) Thêm yếu tố quan hệ phần tử cụm liệu thông qua trọng số ma trận biểu biễn bậc thành viên với cụm FCM khắc phục cụm liệu chồng tập liệu có kích thước lớn hơn, nhiều chiều nhiề u nhiễ u, song nhạy cảm với nhiễu phần tử ngoại lai K-Mean ứng dung III ứNG DụNG CủA THUậT TOÁN K-Mean ứng dung Phân cụm tài liệu web Tìm kiếm trích rút tài liệu Tiền xử lý tài liệu: Quá trình tách từ vecto hóa tài liệu: tìm kiếm thay từ bới số từ từ điển.Biểu diễn liệu dạng vectơ Áp dụng K-Mean Kết trả cụm tài liệu trọng tâm tương ứng Phân vùng ảnh TÀI LIệU THAM KHảO Tài liệu chính: [WKQ08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip S Yu , K-Mean ứng dung Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37 Pavel Berkhin () Survey of Clustering Data Mining Techniques http://en.wikipedia.org/wiki/K-means_clustering http://en.wikipedia.org/wiki/Segmentation_(image_processing) Slide KI2 – Clustering Algorithms - Johan Everts http://vi.wikipedia.org/wiki/Học_khơng_có_giám_sát http://people.revoledu.com/kardi/tutorial/kMean/NumericalExample.htm K-Mean ứng dung THANK YOU FOR LISTENING ... CHÍNH Phân cụm II Thuật tốn K-Mean I Khái quát thuật tốn Các bước thuật tốn Ví dụ minh họa – Demo thuật toán Đánh giá thuật toán Tổng quát hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean... ngoại lai K-Mean ứng dung III ứNG DụNG CủA THUậT TOÁN K-Mean ứng dung Phân cụm tài liệu web Tìm kiếm trích rút tài liệu Tiền xử lý tài liệu: Quá trình tách từ vecto hóa tài liệu: tìm kiếm thay từ... K-Mean ứng dung II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể B Các biến thể K-Mean ứng dung Thuật toán K-medoid: Tương tự thuật toán K-mean Mỗi cụm đ ược đại diện đối tượng cụm Chọn đối tượng gần tâm cụm