1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài tìm HIỂU THUẬT TOÁN GOM cụm và xây DỰNG ỨNG DỤNG

29 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 29
Dung lượng 401,05 KB

Nội dung

Đề tài: TÌM HIỂU THUẬT TỐN GOM CỤM VÀ XÂY DỰNG ỨNG DỤNG Nhóm 14 Tieu luan Thành viên 2001200162Võ Văn Huy 2001200161 Đặng Thành Hứa Tieu luan NộI DUNG CHÍNH Phân cụm II Thuật tốn K-Mean I Khái quát thuật tốn Các bước thuật tốn Ví dụ minh họa – Demo thuật toán Đánh giá thuật toán Tổng quát hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean Tieu luan I PHÂN CụM   Các đối tượng cụm “tương tự”  Các đối tượng khác cụm “khơng tương tự”  K-Mean ứng dung Phân cụm gì? Quá trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn: Giải vấn đề tìm kiếm, phát cụm, mẫu liệu tập hợp ban đầu liệu khơng có nhãn Tieu luan I PHÂN CụM K-Mean ứng dung Nếu X : tập điểm liệu Ci : cụm thứ i X = C1k …  C … Ci  Cj =  Ngoạilai C Tieu luan I PHÂN CụM Một số độ đo phân cụm  n i i p ( | | x  y | | )  i 1 p  Euclidean  Độ K-Mean ứng dung Minkowski –p=2 đo tương tự (gần nhau): cosin hai vectơ v.w cosµ = || v || || w || Tieu luan I PHÂN CụM Mục đích phân cụm Xác định chất việc nhóm đối tượng tập liệu khơng có nhãn  Phân cụm không dựa tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trường hợp K-Mean ứng dung  Tieu luan I PHÂN CụM Một số phương pháp phân cụm điển hình cụm phân hoạch  Phân cụm phân cấp  Phân cụm dựa mật độ  Phân cụm dựa lưới  Phân cụm dựa mô hình  K-Mean ứng dung  Phân Phân cụm có ràng buộc Tieu luan II.PHÂN CụM PHÂN HOạCH  K-Mean ứng dung  Phân tập liệu có n phần tử cho trước thành k tập liệu (k ≤ n), tập biểu diễn cụm Các cụm hình thành sở làm tối ưu giá trị hàm đo độ tương tự cho: Các đối tượng cụm tương tự  Các đối tượng cụm khác không tương tự   Đặc điểm: Mỗi đối tượng thuộc cụm  Mỗi cụm có tối thiểu đối tượng   Một số thuật tốn điển hình : K-mean, PAM, CLARA,… Tieu luan II.2 Thuật toán K-Means Phát biểu toán: xi  R d K-Mean ứng dung Input  Tập đối tượng X = {x | i = 1, 2, …, i N}, Số cụm: K  Output Các cụm Ci ( i = ÷ K) tách rời hàm tiêu chuẩn E đạt giá trị tối thiểu  10 Tieu luan II.3 VÍ Dụ MINH HọA Đối tượng T hu ộc t í n h (X) T huộc t í n h (Y) 1 B C D K-Mean ứng dung A 15 Tieu luan II.3 VÍ Dụ MINH HọA  Bước 1: Khởi tạo Chọn trọng t â m ban đầu: c1(1,1) ≡ A c2(2,1) ≡ B, thuộc cụm K-Mean ứng dung 4.5 3.5 2.5 1.5 0.5 0 Tieu luan 16 II.3 VÍ Dụ MINH HọA Bước 2: Tính tốn khoảng cách 2 (4 1)  (3 1)  d(C, c1) =  = 25 (5  2)2  (4 d(D, c2) = 1) K-Mean ứng dung = 13 (4  2)  (3 d(C, c2) = 1)2 =8 d(C, c1) > d(C, C thuộc cụm 2 (5 1)  (4 1) c 2) c ) =  d(D, = 18 d(D,c1) > d(D, c2) D thuộc cụm Tieu luan II.3 VÍ Dụ MINH HọA Bước 3: Cập nhật lại vị trí trọng t â m Trọng t â m cụm c1 ≡ A (1, 1)  (x,y) = ( 34  , 13  ) 4.5 3.5 2.5 1.5 0.5 0 K-Mean ứng dung Trọng t â m cụm c  Tieu luan II.3 VÍ Dụ MINH HọA Bước 4-1: Lặp lại bước – Tính tốn khoảng cách d(A, c1 ) = < d(A, c2 ) = 9.89  K-Mean ứng dung A thuộc cụm  d(B, c1 ) = < d(B, c2 ) = 5.56 B thuộc cụm d(C, c1 ) = 13 > d(C, c2 ) = 0.22 C thuộc cụm d(D, c1 ) = 25 > d(D, c2 ) = 3.56 D thuộc cụm Tieu luan II.3 VÍ Dụ MINH HọA  K-Mean ứng dung Bước 4-2: Lặp lại bước 3-Cập nhật trọng t â m c1 = (3/2, 1) c2 = (9/2, 7/2) 20 Tieu luan II.3 VÍ Dụ MINH HọA Bước 4-3: Lặp lại bước d(A, c1 ) = 0.25 < d(A, c2 ) = 18.5  B thuộc cụm d(C, c1 ) = 10.25 < d(C, c2 ) = 0.5 K-Mean ứng dung A thuộc cụm d(B, c1 ) = 0.25 < d(B, c2 ) = 12.5 C thuộc cụm d(D, c1 ) = 21.25 > d(D, c2 ) = 0.5 D thuộc cụm 21 Tieu luan II.3 VÍ Dụ MINH HọA K-Mean ứng dung 22 Tieu luan II.4 ĐÁNH GIÁ THUậT TOÁN – ƯU ĐIểM Độ phức tạp: O( K.N.l ) với l: số lần lặp Có khả mở rộng, dễ dàng sửa đổi với liệu Bảo đảm hội tụ sau số bước lặp hữu hạn Ln có K cụm liệu Ln có điểm liệu cụm liệu Các cụm không phân cấp không bị chồng chéo liệu lên Mọi thành viên cụm gần với cụm cụm khác Tieu luan K-Mean ứng dung 23 II.4 ĐÁNH GIÁ THUậT TOÁN – NHƯợC ĐIểM Tieu luan K-Mean ứng dung Khơng có khả tìm cụm khơng lồi cụm có hình dạng phức tạp Khó khăn việc xác định trọng tâm cụm ban đầu - Chọn ngẫu nhiên trung tâm cụm lúc khởi tạo - Độ hội tụ thuật toán phụ thuộc vào việc khởi tạo vector trung tâm cụm Khó để chọn số lượng cụm tối ưu từ đầu, mà phải qua nhiều lần thử để tìm số lượng cụm tối ưu Rất nhạy cảm với nhiễu phần tử ngoại lai liệu Không phải lúc đối tượng thuộc cụm, phù hợp với đường biên cụm rõ II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể B Các biến thể K-Mean ứng dung Thuật toán K-medoid: Tương tự thuật toán K-mean  Mỗi cụm đại diện đối tượng cụm  Chọn đối tượng gần t â m cụm làm đại diện cho cụm K-medoid kh ắc phục n h iễu ,n h ưn g độ phức tạp lớn  Tieu luan II.5 TổNG QUÁT HÓA VÀ CÁC BIếN THể Thuật toán Fuzzy c-mean (FCM):    Nếu K-mean phân cụm liệu cứng (1 điểm liệu thuộc cụm) FCM phân cụm liệu mờ (1 điểm liệu thuộc nhiều cụm với xác suất định) K-Mean ứng dung  Chung chiến lược phân cụm với K-mean Thêm yếu tố quan hệ phần tử cụm liệu thông qua trọng số m a trận biểu biễn bậc t h n h viên với cụm FCM khắc phục cụm liệu chồng n h a u tập liệu có kích thước lớn hơn, nhiều chiều nhiều nhiễu, song nhạy cảm với nhiễu phần tử ngoại lai Tieu luan III ứNG DụNG CủA THUậT TOÁN Phân cụm tài liệu web Tìm kiếm trích rút tài liệu Tiền xử lý tài liệu: Q trình tách từ vecto hóa tài liệu: tìm kiếm thay từ bới số từ từ điển.Biểu diễn liệu dạng vectơ Áp dụng K-Mean Kết trả cụm tài liệu trọng tâm tương ứng  Phân vùng ảnh  K-Mean ứng dung Tieu luan TÀI LIệU THAM KHảO  Tài liệu chính: [WKQ08] Xindong Wu, Vipin Kumar, J Ross Quinlan, Joydeep Ghosh, Qiang Yang, Hiroshi Motoda, Geoffrey J McLachlan, Angus Ng, Bing Liu, Philip K-Mean ứng dung S Yu , Zhi-Hua Zhou, Michael Steinbach, David J Hand, Dan Steinberg (2008) Top 10 algorithms in data mining, Knowl Inf Syst (2008) 14:1–37  Pavel Berkhin () Survey of Clustering Data Mining Techniques  http://en.wikipedia.org/wiki/K-means_clustering  http://en.wikipedia.org/wiki/Segmentation_(image_processing)  Slide KI2 – Clustering Algorithms - Johan Everts  http://vi.wikipedia.org/wiki/Học_khơng_có_giám_sát  http://people.revoledu.com/kardi/tutorial/kMean/NumericalExample.htm Tieu luan K-Mean ứng dung THANK YOU FOR LISTENING Tieu luan ... CHÍNH Phân cụm II Thuật toán K-Mean I Khái qt thuật tốn Các bước thuật tốn Ví dụ minh họa – Demo thuật toán Đánh giá thuật tốn Tổng qt hóa Các biến thể K-Mean ứng dung I Ứng dụng thuật toán K-Mean... liệu lên Mọi thành viên cụm gần với cụm cụm khác Tieu luan K-Mean ứng dung 23 II.4 ĐÁNH GIÁ THUậT TOÁN – NHƯợC ĐIểM Tieu luan K-Mean ứng dung Không có khả tìm cụm khơng lồi cụm có hình dạng phức... phần tử ngoại lai Tieu luan III ứNG DụNG CủA THUậT TỐN Phân cụm tài liệu web Tìm kiếm trích rút tài liệu Tiền xử lý tài liệu: Q trình tách từ vecto hóa tài liệu: tìm kiếm thay từ bới số từ từ điển.Biểu

Ngày đăng: 18/12/2022, 06:24

TỪ KHÓA LIÊN QUAN

w