Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 12 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
12
Dung lượng
0,96 MB
Nội dung
TRƢỜNG ĐẠI HỌC BÁCH KHOA TP.HCM KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH BÁO CÁO ĐỀ TÀI SỐ 8: NGHIÊN CỨU BÀI TOÁN GOM CỤM TRONG KHAI PHÁ DỮ LIỆU CƠ SỞ LÝ THUYẾT HỌ GIẢI THUẬT FUZZY C-MEANS Giảng viên hướng dẫn: Nhóm thực hiện: Châu Vĩnh Tuân Phạm Nguyên Trình 50802429 50802353 Tháng 12 - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means MỤC LỤC LÝ THUYẾT GOM CỤM: I KHÁI NIỆM GOM CỤM: 2 VAI TRO CỦA GOM CỤM: 3 MỘT SỐ ĐỘ ĐO TRONG GOM CỤM: MỤC ĐÍCH CỦA GOM CỤM: MỘT SỐ PHƢƠNG PHÁP GOM CỤM ĐIỂN HÌNH: MỘT SỐ MƠ HÌNH CỤM DỮ LIỆU: II FUZZY C-MEANS (FCM): TÌM HIỂU FUZZY C-MEANS: GIẢI THUẬT: ƢU VÀ NHƢỢC ĐIỂM: III CHƢƠNG TRÌNH MẪU: HƢỚNG DẪN SỬ DỤNG PHẦN MỀM FUZZY C-MEAN ANALYST: IV KẾT LUẬN VÀ KIẾN NGHỊ: 11 Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm I Họ giải thuật Fuzzy C-Means LÝ THUYẾT GOM CỤM: Khái niệm gom cụm: Gom cụm (hay phân cụm) liệu trình phân chia tập liệu ban đầu thành cụm liệu thỏa mãn điều kiện: - Các đối tượng cụm “tương tự” số tiêu chí - Các đối tượng khác cụm “khơng tương tự” Giải vấn đề tìm kiếm, phát cụm, mẫu liệu tập hợp ban đầu liệu khơng có nhãn A: tập điểm liệu trước gom cụm B: tập điểm liệu sau gom cụm Ci : cụm thứ i Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means Vai trò gom cụm: Gom cụm liệu đóng vai trị quan trọng ngành khoa học : - Sinh học Khôi phục liệu Dự báo thời tiết Tâm lý học Y học Kinh doanh Gom cụm liệu mang lại tiện ích: - Tổng kết Nén Tìm kiếm kết gần Một số độ đo gom cụm: - Minkowski ∑(‖ ‖ ) - Euclidean – p = - Độ đo tương tự: cosin hai vectơ ‖ ‖‖ ‖ Mục đích gom cụm: Xác định chất việc gom thành nhóm đối tượng tập liệu khơng có nhãn Khơng có tiêu chuẩn chung để gom cụm liệu, gom cụm dựa vào tiêu chí người dùng cung cấp trường hợp Một số phƣơng pháp gom cụm điển hình: Gom cụm phân hoạch Gom cụm phân cấp Gom cụm dựa mật độ Gom cụm dựa lưới Gom cụm dựa mơ hình Gom cụm có ràng buộc Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means Một số mơ hình cụm liệu: Phân tách Nguyên mẫu Đồ thị Dựa mật độ Chia sẻ Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm II Họ giải thuật Fuzzy C-Means FUZZY C-MEANS (FCM): Tìm hiểu Fuzzy C-Means: a Fuzzy logic: o Fuzzy Logic hình thức logic có nhiều giá trị o Biến Fuzzy Logic có giá trị chân lý dao động [0,1] b Tập Fuzzy: o Là tập hợp mà phần tử có mức độ thành viên định o Tập Fuzzy định nghĩa cặp (A,m), A tập hợp m ánh xạ m: A[0,1] Với phần tử , gọi hệ số thành viên x (A,m) Cho tập hữu hạn A = {x1, ,xn}, tập Fuzzy (A,m) thường mô tả nhă sau: {m(x1) / x1, ,m(xn) / xn} m(x) = : x khơng thuộc (A, m) m(x) = 1: x hồn toàn thuộc (A, m) c Fuzzy C-Means: o Fuzzy C-Means (FCM ) phương pháp phân nhóm cho phép phần liệu thuộc hai nhiều cụm o Thường xuyên sử dụng nhận dạng mẫu o FCM thực dựa hàm: ∑∑ ‖ ‖ Trong đó: m số thực lớn uij mức độ thành viên xi cụm j xi chiều thứ i liệu đo d-chiều cj trung tâm cụm kích thước d-chiều ||*|| Là tiêu thể giống liệu đo Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means Giải thuật: FCM thực theo bước: - Bước 1: Khởi tạo ma trận U=[uij], U(0) Bước 2: Tại lần lặp thứ k: tính tốn véc-tơ trung tâm C(k)=[cj] với U(k) ∑ ∑ - Bước 3: Cập nhật U(k) U(k+1) ∑ - Bước 4: Kiểm tra ‖ ( ‖ ‖ ‖ ) ‖ ‖ ( ‖ ‖) Nếu kết chưa thỏa, ta quay lại bước 2, thỏa mãn, ta kết thúc tính tốn Ƣu nhƣợc điểm: a Ƣu điểm: o Cung cấp cho kết tốt cho liệu chồng chéo tương đối tốt thuật tốn K-Means o Khơng giống K-Means, liệu điểm phải thuộc cụm nhất, điểm phân vào cụm dựa vào kết tính tốn hàm thành viên, vậy, điểm thuộc nhiều cụm b Nhƣợc điểm: o Cần tiên nghiệm số lượng cụm o ε thấp kết nhận tốt chi phí tính tốn nhiều o Khoảng cách Euclide yếu tố khơng đồng Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm III Họ giải thuật Fuzzy C-Means CHƢƠNG TRÌNH MẪU: Hƣớng dẫn sử dụng phần mềm Fuzzy C-Mean Analyst: a Yêu cầu hệ thống: o Hệ điều hành: Windows 7/ Vista / XP (32bit) o Máy ảo Java (JVM) phiên 1.6 trở lên o Danh sách file ( yêu cầu không thay đổi hệ thống file này): 12/05/2011 03/03/2011 03/03/2011 03/03/2011 03/03/2011 12/05/2011 03/03/2011 03/03/2011 03/03/2011 04:05 06:57 06:57 06:57 06:57 04:23 06:57 06:57 06:57 PM AM AM AM AM PM AM AM AM /lib 12/05/2011 12/05/2011 12/05/2011 12/05/2011 04:05 04:05 04:05 04:05 PM PM PM PM 71,225 9,728 416,768 73,216 77,312 FuzzyCMeanAnalyst.jar gluegen-rt.dll jogl_desktop.dll jogl_es1.dll jogl_es2.dll lib 10,240 nativewindow_awt.dll 36,864 nativewindow_win32.dll 41,984 newt.dll 110,455 2,419,760 128,511 176,393 gluegen-rt.jar jogl.all.jar nativewindow.all.jar newt.all.jar b Hƣớng dẫn chạy phần mềm: Thực theo bước sau: o Khởi động phần mềm cách chạy file FuzzyCMeanAnalyst.jar o Chọn file input cách click vào button Browse Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means o Thiết lập thông số (Number of clusters, m value, Random seed, Epsilon) thích hợp Number of clusters: số lượng cluster muốn phân tích m value: giá trị m công thức toán Fuzzy C-Mean Random seed: giá trị để sinh ngẫu nhiên ma trận ban đầu U Epsilon: độ xác giải thuật o Click button Run để thực việc tính tốn mơ tả hình minh họa o Kết quả: o Click button Export để xuất file định dạng plain text thông số giải thuật Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means o Để xem hình minh họa góc nhìn khác, thực click chuột kéo hình mơ nhấn phím UP, DOWN, LEFT, RIGHT (nếu khơng có tác dụng click lần lên hình mơ thự lại thao tác) o Để lại với góc nhìn ban đầu, nhấn Reset Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ giải thuật Fuzzy C-Means Kết chạy với liệu mẫu: Báo cáo tập lớn môn Khai Phá Dữ Liệu 10 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm IV Họ giải thuật Fuzzy C-Means TÀI LIỆU THAM KHẢO: - Data Mining: Concepts and Techniques (Second Edition) – Jiawei Han and Micheline Kamber - Fuzzy Cluster Analysis – John Wiley and Sons - Algorithms for Fuzzy Cluster, Methods in c-Means Clustering with Applications - Sadaaki Miyamoto,Hidetomo Ichihashi, KatsuhiroHonda Báo cáo tập lớn môn Khai Phá Dữ Liệu 11 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... gom cụm liệu, gom cụm dựa vào tiêu chí người dùng cung cấp trường hợp Một số phƣơng pháp gom cụm điển hình: Gom cụm phân hoạch Gom cụm phân cấp Gom cụm dựa mật độ Gom cụm dựa lưới Gom. .. môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm I Họ giải thuật Fuzzy C-Means LÝ THUYẾT GOM CỤM: Khái niệm gom cụm: Gom cụm (hay phân cụm) liệu. .. tập điểm liệu trước gom cụm B: tập điểm liệu sau gom cụm Ci : cụm thứ i Báo cáo tập lớn môn Khai Phá Dữ Liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bài toán gom cụm Họ