1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài tìm HIỂU THUẬT TOÁN GOM cụm và xây DỰNG ỨNG DỤNG

29 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 390,78 KB

Nội dung

Đề tài: TÌM HIỂU THUẬT TỐN GOM CỤM VÀ XÂY DỰNG ỨNG DỤNG Nhóm 14 Thành viên 2001200162Võ Văn Huy 2001200161 Đặng Thành Hứa NộI DUNG CHÍNH Phân cụm II Thuật tốn K-Mean I Khái quát thuật toán Các bước thuật tốn Ví dụ minh họa – Demo thuật tốn Đánh giá thuật tốn Tổng qt hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean I PHÂN CụM   Các đối tượng cụm “tương tự”  Các đối tượng khác cụm “khơng tương tự”  K-Mean ứng dung Phân cụm gì? Quá trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn: Giải vấn đề tìm kiếm, phát cụm, mẫu liệu tập hợp ban đầu liệu nhãn I PHÂN CụM K-Mean ứng dung Nếu X : tập điểm liệu Ci : cụm thứ i X = C1k …  C … Ci  Cj =  Ngoạilai C I PHÂN CụM Một số độ đo phân cụm  n i i p ( | | x  y | | )  i 1 p  Euclidean  Độ K-Mean ứng dung Minkowski –p=2 đo tương tự (gần nhau): cosin hai vectơ v.w cosµ = || v || || w || I PHÂN CụM Mục đích phân cụm Xác định chất việc nhóm đối tượng tập liệu khơng có nhãn  Phân cụm khơng dựa tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trường hợp K-Mean ứng dung  I PHÂN CụM Một số phương pháp phân cụm điển hình cụm phân hoạch  Phân cụm phân cấp  Phân cụm dựa mật độ  Phân cụm dựa lưới  Phân cụm dựa mơ hình  Phân cụm có ràng buộc K-Mean ứng dung  Phân II.PHÂN CụM PHÂN HOạCH  K-Mean ứng dung  Phân tập liệu có n phần tử cho trước thành k tập liệu (k ≤ n), tập biểu diễn cụm Các cụm hình thành sở làm tối ưu giá trị hàm đo độ tương tự cho: Các đối tượng cụm tương tự  Các đối tượng cụm khác không tương tự   Đặc điểm: Mỗi đối tượng thuộc cụm  Mỗi cụm có tối thiểu đối tượng   Một số thuật tốn điển hình : K-mean, PAM, CLARA,… II.2 Thuật toán K-Means Phát biểu toán: xi  R d K-Mean ứng dung Input  Tập đối tượng X = {x | i = 1, 2, …, i N}, Số cụm: K  Output Các cụm Ci ( i = ÷ K) tách rời hàm tiêu chuẩn E đạt giá trị tối thiểu  10 II.3 VÍ Dụ MINH HọA Đối tượng T hu ộc t í n h (X) T huộc t í n h (Y) 1 B C D K-Mean ứng dung A 15 II.3 VÍ Dụ MINH HọA  Bước 1: Khởi tạo Chọn trọng t â m ban đầu: c1(1,1) ≡ A c2(2,1) ≡ B, thuộc cụm K-Mean ứng dung 4.5 3.5 2.5 1.5 0.5 0 16 II.3 VÍ Dụ MINH HọA Bước 2: Tính tốn khoảng cách 2 (4 1)  (3 1)  d(C, c1) =  = 25 (5  2)2  (4 d(D, c2) = 1) K-Mean ứng dung = 13 (4  2)  (3 d(C, c2) = 1)2 =8 d(C, c1) > d(C, C thuộc cụm 2 (5 1)  (4 1) c 2) c ) =  d(D, = 18 d(D,c1) > d(D, c2) D thuộc cụm II.3 VÍ Dụ MINH HọA Bước 3: Cập nhật lại vị trí trọng t â m Trọng t â m cụm c1 ≡ A (1, 1)  (x,y) = ( 34  , 13  ) 4.5 3.5 2.5 1.5 0.5 0 K-Mean ứng dung Trọng t â m cụm c  II.3 VÍ Dụ MINH HọA Bước 4-1: Lặp lại bước – Tính tốn khoảng cách d(A, c1 ) = < d(A, c2 ) = 9.89  K-Mean ứng dung A thuộc cụm  d(B, c1 ) = < d(B, c2 ) = 5.56 B thuộc cụm d(C, c1 ) = 13 > d(C, c2 ) = 0.22 C thuộc cụm d(D, c1 ) = 25 > d(D, c2 ) = 3.56 D thuộc cụm II.3 VÍ Dụ MINH HọA  K-Mean ứng dung Bước 4-2: Lặp lại bước 3-Cập nhật trọng t â m c1 = (3/2, 1) c2 = (9/2, 7/2) 20 II.3 VÍ Dụ MINH HọA Bước 4-3: Lặp lại bước d(A, c1 ) = 0.25 < d(A, c2 ) = 18.5  B thuộc cụm d(C, c1 ) = 10.25 < d(C, c2 ) = 0.5 K-Mean ứng dung A thuộc cụm d(B, c1 ) = 0.25 < d(B, c2 ) = 12.5 C thuộc cụm d(D, c1 ) = 21.25 > d(D, c2 ) = 0.5 D thuộc cụm 21 II.3 VÍ Dụ MINH HọA K-Mean ứng dung 22 II.4 ĐÁNH GIÁ THUậT TOÁN – ƯU ĐIểM Độ phức tạp: O( K.N.l ) với l: số lần lặp Có khả mở rộng, dễ dàng sửa đổi với liệu Bảo đảm hội tụ sau số bước lặp hữu hạn Ln có K cụm liệu Ln có điểm liệu cụm liệu Các cụm không phân cấp không bị chồng chéo liệu lên Mọi thành viên cụm gần với cụm cụm khác K-Mean ứng dung 23 II.4 ĐÁNH GIÁ THUậT TOÁN – NHƯợC ĐIểM K-Mean ứng dung Khơng có khả tìm cụm khơng lồi cụm có hình dạng phức tạp Khó khăn việc xác định trọng tâm cụm ban đầu - Chọn ngẫu nhiên trung tâm cụm lúc khởi tạo - Độ hội tụ thuật toán phụ thuộc vào việc khởi tạo vector trung tâm cụm Khó để chọn số lượng cụm tối ưu từ đầu, mà phải qua nhiều lần thử để tìm số lượng cụm tối ưu Rất nhạy cảm với nhiễu phần tử ngoại lai liệu Không phải lúc đối tượng thuộc cụm, phù hợp với đường biên cụm rõ II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể B Các biến thể K-Mean ứng dung Thuật toán K-medoid: Tương tự thuật toán K-mean  Mỗi cụm đại diện đối tượng cụm  Chọn đối tượng gần t â m cụm làm đại diện cho cụm K-medoid kh ắc phục n h iễu ,n h ưn g độ phức tạp lớn  II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể Thuật toán Fuzzy c-mean (FCM):    Nếu K-mean phân cụm liệu cứng (1 điểm liệu thuộc cụm) FCM phân cụm liệu mờ (1 điểm liệu thuộc nhiều cụm với xác suất định) K-Mean ứng dung  Chung chiến lược phân cụm với K-mean Thêm yếu tố quan hệ phần tử cụm liệu thông qua trọng số m a trận biểu biễn bậc t h n h viên với cụm FCM khắc phục cụm liệu chồng n h a u tập liệu có kích thước lớn hơn, nhiều chiều nhiều nhiễu, song nhạy cảm với nhiễu phần tử ngoại lai III ứNG DụNG CủA THUậT TOÁN Phân cụm tài liệu web Tìm kiếm trích rút tài liệu Tiền xử lý tài liệu: Quá trình tách từ vecto hóa tài liệu: tìm kiếm thay từ bới số từ từ điển.Biểu diễn liệu dạng vectơ Áp dụng K-Mean Kết trả cụm tài liệu trọng tâm tương ứng  Phân vùng ảnh  K-Mean ứng dung TÀI LIệU THAM KHảO  Tài liệu chính: [WKQ08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip K-Mean ứng dung S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37  Pavel Berkhin () Survey of Clustering Data Mining Techniques  http://en.wikipedia.org/wiki/K-means_clustering  http://en.wikipedia.org/wiki/Segmentation_(image_processing)  Slide KI2 – Clustering Algorithms - Johan Everts  http://vi.wikipedia.org/wiki/Học_khơng_có_giám_sát  http://people.revoledu.com/kardi/tutorial/kMean/NumericalExample.htm K-Mean ứng dung THANK YOU FOR LISTENING ... CHÍNH Phân cụm II Thuật tốn K-Mean I Khái quát thuật tốn Các bước thuật tốn Ví dụ minh họa – Demo thuật toán Đánh giá thuật toán Tổng quát hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean... liệu cụm liệu Các cụm không phân cấp không bị chồng chéo liệu lên Mọi thành viên cụm gần với cụm cụm khác K-Mean ứng dung 23 II.4 ĐÁNH GIÁ THUậT TOÁN – NHƯợC ĐIểM K-Mean ứng dung Khơng có khả tìm. .. biên cụm rõ II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể B Các biến thể K-Mean ứng dung Thuật toán K-medoid: Tương tự thuật toán K-mean  Mỗi cụm đại diện đối tượng cụm  Chọn đối tượng gần t â m cụm làm

Ngày đăng: 17/12/2022, 21:14

w