K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 1 !"# ! $% &'()*+,-'.#' /0123/4156712891 /153/41:5;<5/=1 . K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2 >? !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[\),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3 ?#@.$! I. !"#A!B#C 1. Khai phá dữ liệu (DATAMINNG) là gì? • !"#$ %&' ()$*+ # &!, • "- .#/ !- 0 (*10$2324 5&46728"7'9 ':;"75 1),/2-5&7<"8 )8= • <>- *5&4 • ?+- " @A= • 2,24'2"&B),7C2 9 @'DE= FC2GEG0H0<8II'JK"7),K2&LM'2/P[ R:&/*7N88I 7)8"*I8O&P Q7,*4R"S " T !- U @A="7&!0',24*(A &V *"77,*4 R"S0IWX +@&V *&P 1.#" 2YU= K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 4 • Z"S.W['*\&]*^ . &_ -. )#&$ ]+R1=K &!I`. &_ RM&P.>5+=a(A 187,@ !R),.W[ b,I7 7+@' !PP &(c =d$[1S !)e"#&f+('5 S&>5 I5,24R"S"# '!'C0V+$)(A2\ ( +&(c I7"$*+1&(c 1.#),7 0R+[ 0+V&V$]7,*4R"S 12/S&:0g • a(A 187, h@7'- c),5 ) ' &PS2&(c 2Y8" ![i(A*P%(fT)A [i&! (BS&(c *P%(A @.170 >R1&_0I@0*PT ;R0g= 2. Lợi ích: • #"T j"c"R&_ • 5*7 • R 3. Thuật ngữ: • J2 • J2,24*A 1"S7N88I 7)8" *I8I@:R;2 *A ($.W[0<0@.W[= 4. Ti"m năng: • <>- 0j"c"R1&_ • <>- ),R+[_"(B • Z+[),>- ""7 • Z+[),>- Ik • TX' • l8* • )C*+8.2 g II. DE !"# 1. Ti"n xử lý : • F Ti)5 • 7@&]),7 • $.W[m,2I 02L! • nbhm $ • h )X • h @+ K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 5 o= Khai thac dữ liệu: Tìm kiếm tri thức 3. Hậu xử lý • p2YS2&(c • aP%"T • KWX "T )U'2 = Mô hình: III. K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 6 o 1. CSDL (quan hệ, hướng đối tượng, không gian,Text, XML,Multi- media,Heterogeneous, WWW, …) 2. Tri thức (đặc trưng, gom cụm, kết hợp, …) 3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và thuật giải GA …) IV. )!, 5&4!) 57 .1),,)I`%""7(f2 5&4!R"SS2'12),"- .# @/ !29R7V (f R"724@ 5 A 1. Bán lẻ, siêu thị 2. Ngân hàng 3. Khai thác gen 4. Phân tích cổ phiếu 5. KTDL Web, Phân tích mạng xã hội, Email… 6. Phân tích dữ liệu • Một số công nghệ thường áp dụng trong data mining: "->76"q 8"8N7"'Ip>,2/S2,9 ! P5h /R&,77)A@*&]0U&!I&7" @'1 R+U@2,!' = >R1&_8 I7I"88I4@ 8 I7I*P%(A >0 8 I7I,7" @ 7) >7@=F/2,0 1@/6r2L @aSR1&_= • ?+@"$?88" 67"2Is@,IWX"7 R "S9c0*1&:0 hh 5'1UU'21!= <(f/,.!2]#F8"8I8*7"287p>,'s@ >7U*+m/"7@5"I5'1c ' "8 7"I !&49#"7@R'T= • F\ I%n8 7s@*! 5" \ F1JSU @9 • tX"#&),"4A0U2"'80 9@0+2, I+.#0C70>- ,)IW(BM8"8&P"8 &b ]0&b&9(cTXj"c"R1&_0 T '7h &1) 9*9)=)== K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 7 ?+, I. >#FGH cG/*,<(O*+DU":&/*]#&*JJE*J A""a^V 5I1<JK,'s@"#R"h"7'0!4 A (f 1LMNOP3/LO8#OQP1/12 "7 88"=!"#$&_i' )$'s@,0()$*+ # !PP> X2, R"SS2 !2 &9(c&L 7),7 X2 I8"I0I7 7 &9(c"7 M X2(f5I2"), &9(c' X2S'/(f5II2" = 1. Mục đích của phân cụm ,S2"*+ #*"7 !2 =,2*(A $.W[ 7 @ 7' = @7> X2I8" 67"2I &$ I" X2 I8"I=0'/ ! -,7,&(c .82,9#&P& >- > X20&$,X4 ),72X &- > X2("8 70 u" I8"Iv0uI8qv I8"I078"88 7 2. Các ứng dụng tiêu biểu của gom cụm: • "'8w &_ !2' ,' ,$2C0' ,"_0>7 ),5&7,)' ,0gIWXI+32_ )X /&Pb / ! 1(c '7R+fx • a77<@!2&4)@),5 )@5),7 4 - bx • *""8I87r&4 +0I 05&7 ] &4 +gx • yI" 80H 8<>!2 &9(cIWX*+7P2), _ )X, -05 &7.(A"8 ' ,0@, -8qq"Ix • lll <>7,7 28 IIq 7x>7 (B MN8* I8" N8*7xg 3. Thế nào là gom cụm tốt: • 4(f9I`7" X2 ! #(c 7)A (f5 7 7"7A/1:PQ&<RQLLB (f5# A/1:OP&<RQLLB • #(c '1R+72 X2X4 ),7 pz&7(f5IWX ,&V&4&7(f5 • #(c (f72 X2 {&(c &7*|'+C), # + 2Y*_ 85/88O18"I 4. Các yêu cầu của gom cụm trong KPDL • !P&:R2/I * • +C,2) 74 -' = K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 8 • 2 X2 !S*#'} • ]9$ 7"T i)5 ^2. &_ 2*1@ • +C,2) )A$),78"I • / +2)A(5 *+@),7 • !I9 $ 7 • c )A ",*4 7(BM Q&_ • !P%_ ),'+X 5. Tương tự và bất tương tự giữa hai đối tượng / !&_i#)$I5(f5),*#(f5 &9(c p_i)$(f5),*#(c5 &9(cM4 ),7 7'+7I 7(f5 ]1 (f5ma#(c5&9(c(B&(c *P%R&4&7'7+ :]8^ [(|02h&4&7'7+ +,24),+k &$'I 6. Loại dữ liệu trong phân tích cụm 6.1 S<T/U1V5W012:XR= &4&7X &71-0/ d-X"h(c0 $ 70: pf)_&7 !P+(|&1>- X2 pP"I5X4 ),7&f)_&70 ] 37 37 &4&7 -I*&9"*S )A), -&4&7 3 6.2 D/U115YN5I1 a1_> Q !", a+<W1:/12O1<Z:QTRO 7_> K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 9 =L[\Q<<QP8<WO]]/</O1:(f 5'/*#*101*1_>,*#&9.T .^8JK5*#(f5 *1_> a+"8 7"*> 24 -"7&! 88",4 -&9.T 4 - ~,*#&9.T_> ?h "_G),&(c "_0),"_&(c "_ -'7+ *>5),7 *#&9.TMI9 • " _`a S<T/U1bY158Q15c:5d:;c:XR= *1&_ |"4*1_>&P*1 !P@$f" €&k0 ),0.0X 7 <(f&9I&f+ 7 K•]&9Ic:I9*1 7 <(fo8e12Kf:L[R6g12R71<S<T/U115YN5I1 7 7*1_>2A 7U"&_ *1T5 7 *1T5 !P,X "B" 7 T5 "_,R"h0)-X 7 !P.W[(D'7+ K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 10 ThO<:j [...]... Giải quyết: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 24 3.2 Ma trận phân hoạch có giá trị Null hoặc giá trị của ma trận phân hoach không phải là 0 hoặc 1 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 25 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 26 3.3 Ma trận phân hoạch và số điểm nhập vào không khớp: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 27... CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 19 Tiếp theo: Tiếp theo: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 20 2.2 Gom cụm với MA TRẬN PHÂN HOẠCH (NHẬP VÀO): Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Ma trận phân hoạch nhập vào: CỤM 1 CỤM 2 0 1 0 1 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ. .. CỤM WEKA VÀ ORACLE 0 1 1 0 21 2.3 Gom cụm với VECTO TRỌNG TÂM(NHẬP VÀO): Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Vecto trọng tâm V1(3,1),V2(0,2) K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 22 3 Một số lỗi gặp phải khi nhập dữ liệu: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 23 3.1... các đối tượng đến tâm mới K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 15 Bước 7 Nhóm các đối tượng vao nhóm Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm mới Bước 9 Nhóm các đối tượng vao nhóm K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 16 Ta thấy G2 = G1 (Không có sự thay đổi nhóm nao của các đối tượng) nên thuật toán dừng va kết quả phân nhóm như sau: 2.4 Ưu... K-Means: 1.1 Cửa sổ hướng dẫn sử dụng chương trình: (Xuất hiện khi khởi động chương trình) K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 18 1.2 Giao diện 2 Chạy demo chương trình 2.1 Gom cụm với ma trận phân hoạch RANDOM: Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc:Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Dùng k-means gom cụm với k=2: K-MEANS- ... thể chứa cả sáu loại biến Có thể dùng công thức được gán trọng để kết hợp các hiệu quả: o o 6.4 Với: Đóng góp của biến f vào khoảng cách d(i,j): Nếu f la nhị phân hay định danh: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 11 Nếu f dựa trên khoảng: dùng khoảng cách được chuẩn hoá Nếu f la thứ tự hay tỉ số được tỉ lệ theo:Tính hạng rif va xử lý zif theo tỉ lệ khoảng 6.5 Các... i].Value.ToString()); } K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 29 #endregion #region Kiểm tra nhập các điểm cần gom cụm if (dong < sd || dong > sd) { MessageBox.Show("NHẬP KHÔNG ĐÚNG VỚI SỐ ĐIỂM ĐỀ BÀI \n 1 Nhấn nút OK \n 2 Tiếp theo nhấn nút Nhập lại điểm gom cụm", "LƯU Ý"); return; } #endregion #endregion Bước 2: Kiểm tra tính theo Vecto trọng tâm hay random ma trận gom cụm hay ma trận phân. .. vecto trong tâm vừa nhập:"); sb.AppendLine(); for (i = 0; i < 2; i++) { for (j = 0; j < dong; j++) { sb.Append(U[i, j]); K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 32 sb.Append(" "); } sb.AppendLine(); } #endregion } #endregion #endregion #region Nếu tính theo ma trận phân hoạch ban đầu nhập vao if (tinhtheomatrannhapvao.Checked == true) { #region nhận giá trị ma trận nhập vao if (matranphanhoach.RowCount... i < 2; i++) { for (j = 0; j < matranphanhoach.RowCount - 1; j++) { if (U[j, i] != 0 || U[j, i] != 1) MessageBox.Show("GIÁ TRỊ CỦA MA TRẬN PHÂN HOẠCH PHẢI LÀ O HOẶC 1", "lƯU Ý"); break; } break; return; K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 33 } if (kiemtranullDataGridView(matranphanhoach) == true) { MessageBox.Show("KHÔNG CÓ GIÁ TRI NULL", "lưu ý!!!!!"); return; } else {... random ma trận u if (tinhtheomatrangomcumrandom.Checked==true) { taomtrandom(U, cot, dong); sb.Append(" -MA TRẬN GOM CỤM NGẪU NHIÊN -"); sb.AppendLine(); StringBuilder urandom = xuatmt(U, 2, dong); sb.Append(urandom); } #endregion #endregion K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 34 Bước 3: Tính vecto trong tam_ tính khoảng cách den vecto trong tam_gán cụm lại #region Bước 3: Tính vecto . WK<JK37/KQ:Pr1N5I15Wo<5! a,7d-X‰=•"E?7"S6y‚’y“” V#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0 M'J28I72 X2)A'†o K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 19 187 187 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 20 . !"# ! $% &'()*+,-'.#' /0123/4156712891 /153/41:5;<5/=1 . K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2 >? !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- . !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3 ?#@.$! I. !"#A!B#C 1.