TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH BÁO CÁO ĐỀ TÀI SỐ 8: NGHIÊN CỨU BÀI TOÁN GOM CỤM TRONG KHAI PHÁ DỮ LIỆU FUZZY C-MEANS !"#$ Châu Vĩnh Tuân 50802429 Phạm Nguyên Trình 50802353 %&'(')&& Bài toán gom cụm *!+,!-+ /(0123 MỤC LỤC Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 2 Bài toán gom cụm *!+,!-+ /(0123 I. LÝ THUYẾT GOM CỤM: 1. Khái niệm gom cụm: 4 #5 62/78#5 9:;$+;<=+%!>?78#2 @!!,7 :;$+A2BC+!<#%##5 :;$+!D2 E#%#BF+G$ - %#BH!I!>4#J @!#5 K!L!"M2+F @!3H !+#N<4BO - %#BH!IG%##5 !?KGP!L!"M2+O =+/Q!#%#RBF!? GQ S7%!$#%##5 S#%# +: ;$+!>4 @!!,7I7A2BC+#%#:;$+GP#EO T;< @!!,7#%#BU :;$+!>#G4 #5 V;<#%#!,7BU :;$+32+G4 #5 #5 !W Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 3 Bài toán gom cụm *!+,!-+ /(0123 2. Vai trò của gom cụm: 4 #5 :;$+B2!>X=+2!>*!>4#%#<G42*# - *#O - YP75#:;$+ - Z"A%4![!Q! - 8 ;\*#<*# - Y42 4 #5 :;$+ 2;]#%#!$N# - ^GQ! - _ - ? GQ GQ!=+CR! 3. Một số độ đo trong gom cụm: - Minkowski - Euclidean – p = 2 - Độ đo tương tự: cosin hai vectơ 4. Mục đích của gom cụm: `%#BaBI#A#R!#b2$#4 !< #%#BH !I!>4 @!!,7:;$+GP#EO YP#!+#+c#+<4BU4 #5 :;$+S4 #5 "2<4!+#N[J#+#R7!>4!d!>[ I7O 5. Một số phương pháp gom cụm điển hình: • 4 #5 784]# • 4 #5 78#R7 • 4 #5 "2!> ,!B@ • 4 #5 "2!>; • 4 #5 "2!> P? • 4 #5 #><A+@# 6. Một số mô hình cụm dữ liệu: • e8!%# Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 4 Bài toán gom cụm *!+,!-+ /(0123 • +/ + • fg!a • Z"2!> ,!B@ • 23h Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 5 Bài toán gom cụm *!+,!-+ /(0123 II. FUZZY C-MEANS (FCM): 1. Tìm hiểu Fuzzy C-Means: a. Fuzzy logic: o -+ /4#;< @!?!W#;4##F+%!>aO o VQ-+ /4##!U# @!%!>a#8;\24B@ :2i)S&j b. Tập Fuzzy: o <!,7I7 <#%#7C!k# @! W#B@!< R!Ba o ,7-+ /BI#Bal2;<#m76TS 9S!>4BT;< !,7I7< ;<%n] T i)S&j o p7C!kSBI#*;<$3H!< #b2n!>46TS 9O4!,7:+]Tqrn&SOOOSnsS !,7-+ /6TS 9![ BI# P!t32+ r 6n&9un&SOOOS 6n9unsO 6n9q)nGP!+@#6TS 9 6n9q&n4<!4<!+@#6TS 9 c. Fuzzy C-Means: o -+ /(01236-09;< @!7L7%7#b278 #47_7 @!7C:;$+!+@#F24m# F+#5 o [n+/BI#3k5!>4,] + o -0BI#$!"#"2!>< >4B ;<AR!Gv3H!"#;L& +w;< W#B@#b2#%#!<#b2n!>4 #5 w n;<#F+!W#b2:;$+B4(#F+ #w;<!>+!8 #b2#5 GN#!#(#F+ xxyxx<AR!Gv#z!+<4!U$3"H 2+:2:;$+B4 2. Giải thuật: -0BI#!"#$;C;I!!14#%#A# - V#&Y{!]4 2!>,qi+ w jS6)9 Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 6 Bài toán gom cụm *!+,!-+ /(0123 - V#'];C;m7!WG!N!4%_#(!L!>+!8 6G9qi# w j 6G9 - V#|,7,!6G9<6G}&9 - V#~YU !>2 Q+GQ!#2!D2S!2=+2/;]A#'SQ+BE!D2 ES !2GQ!!•#!N!4%O 3. Ưu và nhược điểm: a. Ưu điểm: o +#R7#4GQ!=+!H!R!#4:;$+#g#_4 <!LBH!H!L!+,!!4%Y(0123O o YPHY(0123S:;$+BU +/R!7 !+@#F @!#5 +/R!S{ pBU BI#78<4 #5 "2<4GQ!=+!N!4%< !<S?,/S @!BU #!U!+@#FF+L @!#5 O b. Nhược điểm: o C!$ 3H;I#%##5 O o €#<!R7GQ!=+,BI##<!H!#7N !N!4%#<F+O o Y4#%#•+#;1#%#/Q+!H#LA#!UGP BgBF+O Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 7 Bài toán gom cụm *!+,!-+ /(0123 III. CHƯƠNG TRÌNH MẪU: 1. Hướng dẫn sử dụng phần mềm Fuzzy C-Mean Analyst: a. Yêu cầu hệ thống: o $BF+<‚4ƒ3„uo3!2u`e6|'A!9 o 0%/4…226…o097A&O†!>{; o Z23%#‡;16/+#C+GP!2/B^$!H‡;1 </9 12/05/2011 04:05 PM 71,225 FuzzyCMeanAnalyst.jar 03/03/2011 06:57 AM 9,728 gluegen-rt.dll 03/03/2011 06:57 AM 416,768 jogl_desktop.dll 03/03/2011 06:57 AM 73,216 jogl_es1.dll 03/03/2011 06:57 AM 77,312 jogl_es2.dll 12/05/2011 04:23 PM <DIR> lib 03/03/2011 06:57 AM 10,240 nativewindow_awt.dll 03/03/2011 06:57 AM 36,864 nativewindow_win32.dll 03/03/2011 06:57 AM 41,984 newt.dll ./lib 12/05/2011 04:05 PM 110,455 gluegen-rt.jar 12/05/2011 04:05 PM 2,419,760 jogl.all.jar 12/05/2011 04:05 PM 128,511 nativewindow.all.jar 12/05/2011 04:05 PM 176,393 newt.all.jar b. Hướng dẫn chạy phần mềm: "#$!14#%#A#32+ o Y{B@7C F Aˆ#%##]/‡;1 FuzzyCMeanAnalyst.jar o *‡;17+!Aˆ#%##;#G<4A+!!4Browse Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 8 Bài toán gom cụm *!+,!-+ /(0123 o Q!;,7#%#!P3H6Number of clusters, m value, Random seed, Epsilon9!N#I7 Numberofclusters3H;I#;+3!1> +H78 !N# mvalue%!>a #b2#P!W#!>4A<!4% -+ /(012 Random311%!>aBU3+ 2!>, A2BC+ EpsilonB@#Nn%##b2!+,! o ;#GA+!!4RunBU!"#$$#!N!4%< P! ? *2 o YQ!=+ o ;#GA+!!4•n74>!BUn+R!>2‡;1Ba]7;2!1n! #%#!P3H#b2!+,!O Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 9 Bài toán gom cụm *!+,!-+ /(0123 o fUn1 ? *2{#?G%#S#!U!"#$ #;#G#+@!<G_4!> <? P7D4m#R #%#7N eSZ‰‚S•-SŠ6Q+GP#!%# 5!?#;#G @!;C; <? P7D<!" $;]!24!%#9O o fUF;]#?A2BC+SRŠ131! Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 10 [...].. .Bài toán gom cụm 2 Kết quả chạy với dữ liệu mẫu: Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 11 Họ giải thuật Fuzzy C-Means Bài toán gom cụm IV Họ giải thuật Fuzzy C-Means TÀI LIỆU THAM KHẢO: - Data Mining: Concepts and Techniques (Second Edition) – Jiawei Han and Micheline Kamber - Fuzzy... Fuzzy Cluster Analysis – John Wiley and Sons - Algorithms for Fuzzy Cluster, Methods in c-Means Clustering with Applications - Sadaaki Miyamoto,Hidetomo Ichihashi, KatsuhiroHonda Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 12 . fUF;]#?A2BC+SRŠ131! Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 10 Bài toán gom cụm *!+,!-+ /(0123 2. Kết quả chạy với dữ liệu mẫu: Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 11 Bài toán gom cụm *!+,!-+. 50802353 %&'(')&& Bài toán gom cụm *!+,!-+ /(0123 MỤC LỤC Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 2 Bài toán gom cụm *!+,!-+ /(0123 I. LÝ THUYẾT GOM CỤM: 1. Khái niệm gom cụm: 4. hình cụm dữ liệu: • e8!%# Báo cáo bài tập lớn bộ môn Khai Phá Dữ Liệu 4 Bài toán gom cụm *!+,!-+ /(0123 • +/ + • fg!a • Z"2!> ,!B@ • 23h Báo cáo bài tập