K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE

61 521 0
K-MEANS CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 1     !"# ! $% &'()*+,-'.#' /0123/4156712891 /153/41:5;<5/=1 . K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2 >?   !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[\),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3 ?#@.$! I.  !"#A!B#C 1. Khai phá dữ liệu (DATAMINNG) là gì? •  !"#$  %&' ()$*+ # &!, • "- .#/ !- 0 (*10$2324  5&46728"7'9 ':;"75 1),/2-5&7<"8 )8= • <>- *5&4 • ?+- "  @A= • 2,24'2"&B),7C2 9 @'DE= FC2GEG0H0<8II'JK"7),K2&LM'2/P[ R:&/*7N88I 7)8"*I8O&P Q7,*4R"S  " T  !- U  @A="7&!0',24*(A &V *"77,*4 R"S0IWX  +@&V *&P 1.#"  2YU= K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 4 • Z"S.W['*\&]*^  . &_ -. )#&$ ]+R1=K &!I`. &_  RM&P.>5+=a(A 187,@    !R),.W[ b,I7 7+@' !PP &(c =d$[1S !)e"#&f+('5 S&>5 I5,24R"S"# '!'C0V+$)(A2\ (  +&(c I7"$*+1&(c  1.#),7  0R+[  0+V&V$]7,*4R"S 12/S&:0g • a(A 187, h@7'- c),5 ) ' &PS2&(c   2Y8" ![i(A*P%(fT)A  [i&! (BS&(c *P%(A  @.170 >R1&_0I@0*PT  ;R0g= 2. Lợi ích: •  #"T j"c"R&_ • 5*7 • R 3. Thuật ngữ: • J2 • J2,24*A  1"S7N88I 7)8" *I8I@:R;2  *A ($.W[0<0@.W[= 4. Ti"m năng: • <>- 0j"c"R1&_ • <>- ),R+[_"(B • Z+[),>- ""7 • Z+[),>-   Ik •  TX'  •  l8* •  )C*+8.2 g II.  DE !"# 1. Ti"n xử lý : • F Ti)5 • 7@&]),7 • $.W[m,2I 02L! • nbhm $ • h )X  • h  @+ K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 5 o= Khai thac dữ liệu: Tìm kiếm tri thức 3. Hậu xử lý • p2YS2&(c • aP%"T • KWX  "T )U'2 = Mô hình: III.   K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 6 o 1. CSDL (quan hệ, hướng đối tượng, không gian,Text, XML,Multi- media,Heterogeneous, WWW, …) 2. Tri thức (đặc trưng, gom cụm, kết hợp, …) 3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và thuật giải GA …) IV.  )!, 5&4!) 57  .1),,)I`%""7(f2 5&4!R"SS2'12),"- .#  @/ !29R7V (f R"724@ 5 A 1. Bán lẻ, siêu thị 2. Ngân hàng 3. Khai thác gen 4. Phân tích cổ phiếu 5. KTDL Web, Phân tích mạng xã hội, Email… 6. Phân tích dữ liệu • Một số công nghệ thường áp dụng trong data mining: "->76"q 8"8N7"'Ip>,2/S2,9 ! P5h /R&,77)A@*&]0U&!I&7"  @'1 R+U@2,!' = >R1&_8 I7I"88I4@  8 I7I*P%(A >0  8 I7I,7"  @ 7) >7@=F/2,0 1@/6r2L  @aSR1&_= • ?+@"$?88" 67"2Is@,IWX"7  R "S9c0*1&:0 hh 5'1UU'21!= <(f/,.!2]#F8"8I8*7"287p>,'s@ >7U*+m/"7@5"I5'1c ' "8 7"I !&49#"7@R'T= • F\ I%n8 7s@*!  5" \ F1JSU  @9 • tX"#&),"4A0U2"'80 9@0+2, I+.#0C70>- ,)IW(BM8"8&P"8 &b ]0&b&9(cTXj"c"R1&_0 T '7h &1)  9*9)=)== K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 7 ?+, I. >#FGH cG/*,<(O*+DU":&/*]#&*JJE*J A""a^V 5I1<JK,'s@"#R"h"7'0!4 A  (f  1LMNOP3/LO8#OQP1/12 "7 88"=!"#$&_i' )$'s@,0()$*+ # !PP> X2,  R"SS2   !2  &9(c&L 7),7   X2 I8"I0I7 7  &9(c"7 M X2(f5I2"),  &9(c'  X2S'/(f5II2" = 1. Mục đích của phân cụm ,S2"*+ #*"7  !2 =,2*(A $.W[ 7  @ 7' =  @7> X2I8" 67"2I &$ I"   X2  I8"I=0'/ ! -,7,&(c .82,9#&P&   >- > X20&$,X4 ),72X &-  > X2("8 70 u" I8"Iv0uI8qv I8"I078"88 7 2. Các ứng dụng tiêu biểu của gom cụm: • "'8w &_  !2' ,' ,$2C0' ,"_0>7 ),5&7,)' ,0gIWXI+32_ )X  /&Pb / ! 1(c '7R+fx • a77<@!2&4)@),5 )@5),7  4 -  bx • *""8I87r&4 +0I 05&7 ] &4 +gx • yI" 80H 8<>!2  &9(cIWX*+7P2),  _ )X, -05 &7.(A"8 ' ,0@, -8qq"Ix • lll <>7,7 28 IIq 7x>7 (B MN8*  I8" N8*7xg 3. Thế nào là gom cụm tốt: • 4(f9I`7"   X2 ! #(c 7)A  (f5 7 7"7A/1:PQ&<RQLLB  (f5#  A/1:OP&<RQLLB • #(c '1R+72 X2X4 ),7  pz&7(f5IWX  ,&V&4&7(f5 • #(c (f72 X2 {&(c &7*|'+C), # +  2Y*_ 85/88O18"I 4. Các yêu cầu của gom cụm trong KPDL • !P&:R2/I * • +C,2)   74 -' = K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 8 • 2   X2 !S*#'} •   ]9$ 7"T i)5 ^2. &_  2*1@ • +C,2) )A$),78"I • / +2)A(5  *+@),7 • !I9 $ 7 • c )A  ",*4 7(BM Q&_ • !P%_ ),'+X 5. Tương tự và bất tương tự giữa hai đối tượng / !&_i#)$I5(f5),*#(f5  &9(c  p_i)$(f5),*#(c5  &9(cM4 ),7  7'+7I  7(f5 ]1 (f5ma#(c5&9(c(B&(c  *P%R&4&7'7+  :]8^ [(|02h&4&7'7+  +,24),+k  &$'I 6. Loại dữ liệu trong phân tích cụm 6.1 S<T/U1V5W012:XR=   &4&7X    &71-0/  d-X"h(c0 $ 70:  pf)_&7 !P+(|&1>-  X2  pP"I5X4 ),7&f)_&70 ] 37  37  &4&7  -I*&9"*S )A), -&4&7 3 6.2 D/U115YN5I1  a1_> Q !",  a+<W1:/12O1<Z:QTRO 7_> K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 9  =L[\Q<<QP8<WO]]/</O1:(f 5'/*#*101*1_>,*#&9.T  .^8JK5*#(f5  *1_> a+"8 7"*>  24 -"7&! 88",4 -&9.T   4 - ~,*#&9.T_> ?h  "_G),&(c "_0),"_&(c "_  -'7+    *>5),7  *#&9.TMI9 • " _`a S<T/U1bY158Q15c:5d:;c:XR=   *1&_  |"4*1_>&P*1 !P@$f" €&k0 ),0.0X  7 <(f&9I&f+ 7 K•]&9Ic:I9*1 7 <(fo8e12Kf:L[R6g12R71<S<T/U115YN5I1 7 7*1_>2A 7U"&_    *1T5 7  *1T5 !P,X "B"  7 T5   "_,R"h0)-X 7 !P.W[(D'7+ K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 10 ThO<:j [...]... Giải quyết: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 24 3.2 Ma trận phân hoạch có giá trị Null hoặc giá trị của ma trận phân hoach không phải là 0 hoặc 1 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 25 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 26 3.3 Ma trận phân hoạch và số điểm nhập vào không khớp: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 27... CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 19 Tiếp theo: Tiếp theo: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 20 2.2 Gom cụm với MA TRẬN PHÂN HOẠCH (NHẬP VÀO): Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Ma trận phân hoạch nhập vào: CỤM 1 CỤM 2 0 1 0 1 K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ. .. CỤM WEKA VÀ ORACLE 0 1 1 0 21 2.3 Gom cụm với VECTO TRỌNG TÂM(NHẬP VÀO): Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Vecto trọng tâm V1(3,1),V2(0,2) K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 22 3 Một số lỗi gặp phải khi nhập dữ liệu: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 23 3.1... các đối tượng đến tâm mới K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 15  Bước 7 Nhóm các đối tượng vao nhóm  Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm mới  Bước 9 Nhóm các đối tượng vao nhóm K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 16 Ta thấy G2 = G1 (Không có sự thay đổi nhóm nao của các đối tượng) nên thuật toán dừng va kết quả phân nhóm như sau: 2.4 Ưu... K-Means: 1.1 Cửa sổ hướng dẫn sử dụng chương trình: (Xuất hiện khi khởi động chương trình) K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 18 1.2 Giao diện 2 Chạy demo chương trình 2.1 Gom cụm với ma trận phân hoạch RANDOM: Bai toán Ví dụ 6.3 trang 118 Giáo trình KHAI THÁC DỮ LIỆU PGS.TS Đỗ Phúc:Cho tập điểm:X1(11,3); X2(1.5,3.2); X3(1.3,2.8), X4(3,1) Dùng k-means gom cụm với k=2: K-MEANS- ... thể chứa cả sáu loại biến  Có thể dùng công thức được gán trọng để kết hợp các hiệu quả: o o 6.4  Với:  Đóng góp của biến f vào khoảng cách d(i,j):  Nếu f la nhị phân hay định danh: K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 11  Nếu f dựa trên khoảng: dùng khoảng cách được chuẩn hoá  Nếu f la thứ tự hay tỉ số được tỉ lệ theo:Tính hạng rif va  xử lý zif theo tỉ lệ khoảng 6.5 Các... i].Value.ToString()); } K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 29 #endregion #region Kiểm tra nhập các điểm cần gom cụm if (dong < sd || dong > sd) { MessageBox.Show("NHẬP KHÔNG ĐÚNG VỚI SỐ ĐIỂM ĐỀ BÀI \n 1 Nhấn nút OK \n 2 Tiếp theo nhấn nút Nhập lại điểm gom cụm", "LƯU Ý"); return; } #endregion #endregion Bước 2: Kiểm tra tính theo Vecto trọng tâm hay random ma trận gom cụm hay ma trận phân. .. vecto trong tâm vừa nhập:"); sb.AppendLine(); for (i = 0; i < 2; i++) { for (j = 0; j < dong; j++) { sb.Append(U[i, j]); K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 32 sb.Append(" "); } sb.AppendLine(); } #endregion } #endregion #endregion #region Nếu tính theo ma trận phân hoạch ban đầu nhập vao if (tinhtheomatrannhapvao.Checked == true) { #region nhận giá trị ma trận nhập vao if (matranphanhoach.RowCount... i < 2; i++) { for (j = 0; j < matranphanhoach.RowCount - 1; j++) { if (U[j, i] != 0 || U[j, i] != 1) MessageBox.Show("GIÁ TRỊ CỦA MA TRẬN PHÂN HOẠCH PHẢI LÀ O HOẶC 1", "lƯU Ý"); break; } break; return; K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 33 } if (kiemtranullDataGridView(matranphanhoach) == true) { MessageBox.Show("KHÔNG CÓ GIÁ TRI NULL", "lưu ý!!!!!"); return; } else {... random ma trận u if (tinhtheomatrangomcumrandom.Checked==true) { taomtrandom(U, cot, dong); sb.Append(" -MA TRẬN GOM CỤM NGẪU NHIÊN -"); sb.AppendLine(); StringBuilder urandom = xuatmt(U, 2, dong); sb.Append(urandom); } #endregion #endregion K-MEANS- TÌM HIỂU CHỨC NĂNG PHÂN CỤM WEKA VÀ ORACLE 34 Bước 3: Tính vecto trong tam_ tính khoảng cách den vecto trong tam_gán cụm lại #region Bước 3: Tính vecto . WK<JK37/KQ:Pr1N5I15Wo<5! a,7d-X‰=•"E?7"S6y‚’y“” V#+Vw0•xwo=Œ0•=oxw•=•0o=E0w•0 M'J28I72 X2)A'†o K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 19 187  187 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 20 . !"# ! $% &'()*+,-'.#' /0123/4156712891 /153/41:5;<5/=1 . K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 2 >?   !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- . !"#$%&'()*+,' &-*.!"/0."123452,/ 62"17,'"21)8*9(:";-<* &=,1(%""1&->:&/*&-*(?&7@'/* #AB%->C:D1)8*9(:"E*)&F22<* #AB&GH"IJ+K&'J"IJIL?'%:MG15**9 N&'2(O*+,'.DG1*?&->:&/*(?&7(" 'P2KQ2(O*+(":&/*%R'1&=,S !"<#$NG/"2*,'T/$"25U":&/*"-> :D11%<*&=,(:",'S0("*V"(J 'K','I)("6N"JJWX9<*?P,'. &G5NG%:D(O*+(":&/*,'1)8*9(:" !"Y,'*->&>K&G Z8')[),5.6U":&/* ]A""^%*<(NP,.LE*FI*8'[I"0 ,96+,'I"E*)_-[Y'=#./.E*"!" @6`*0"@#a%<*(/,<'&/*"()J2'' .6' #'[b B5!5 K-MEANS- TM HIU CHC NĂNG PHÂN CM WEKA V ORACLE 3 ?#@.$! I.  !"#A!B#C 1.

Ngày đăng: 10/04/2015, 00:09

Từ khóa liên quan

Mục lục

  • LỜI MỞ ĐẦU

  • PHẦN I: SƠ LƯỢC VỀ DATAMINNG

    • I. KHAI PHÁ DỮ LIỆU (DATAMING) LÀ GÌ?

      • 1. Khai phá dữ liệu (DATAMINNG) là gì?

      • 2. Lợi ích:

      • 3. Thuật ngữ:

      • 4. Tiềm năng:

      • II. CÁC BƯỚC KHAI PHÁ DỮ LIỆU:

        • 1. Tiền xử lý :

        • 2. Khai thac dữ liệu: Tìm kiếm tri thức

        • 3. Hậu xử lý

        • III. CÁC KHÍA CẠNH

          • 1. CSDL (quan hệ, hướng đối tượng, không gian,Text, XML,Multi-media,Heterogeneous, WWW, …)

          • 2. Tri thức (đặc trưng, gom cụm, kết hợp, …)

          • 3. Kỹ thuật (Nhà kho dữ liệu (OLAP),máy học, thống kê, trực quan hóa,Mạng nơron và thuật giải GA …)

          • IV. CÁC ỨNG DỤNG

          • PHẦN II: PHÂN CỤM

            • I. CƠ SỞ LÝ THUYẾT

              • 1. Mục đích của phân cụm

              • 2. Các ứng dụng tiêu biểu của gom cụm:

              • 3. Thế nào là gom cụm tốt:

              • 4. Các yêu cầu của gom cụm trong KPDL

              • 5. Tương tự và bất tương tự giữa hai đối tượng

              • 6. Loại dữ liệu trong phân tích cụm

                • 6.1 Các biến khoảng tỉ lệ :

                • 6.2 Biến nhị phân :

                • 6.3 Các biến định danh, thứ tự, tỉ lệ :

Tài liệu cùng người dùng

Tài liệu liên quan