PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU

44 613 3
PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

       !"# $%&%& #'() *+,- / /0 /1 TP. Hồ Chí Minh, tháng 11 năm 2012  !"#$%&%& Tóm Lược !"#$%&'()*+,(&-#.!/012 3,#1145#!".#1%6) '787)!5(81#9.:;5<<!".;=0> ?@AB4!C D5$1E5%5;5!:1 ##(#;CFG&4H".7B.IG#,4. "G&B+@5J)0",E85;="G&B0.&AG"!, "K,7B;L:;5;5!:0-;IC#!5MN+O:;5&A&L +P<!"."G&B+@5J)0",)Q5;RCCC)!"&4485MN +O:;5;S,T(U)$7R;# U!,T(UCT*-#(&A7B (5%5J>;#%4:0=5$#1<7&/&B5(/&- ;L:;50-;I0,#.!64RC 2&4).0=5$,.: ;5&A!O#7B;=V+3,8M11> ,(CWBJ&8&L&X!,;#;#7+,"!RH&L:14Y =,2$:;5;&/2&44/Q5(>&L.(5%53,> !LK!,Q5(>&Z)&".)[#,.:;5\,,7]&A!,&V ^7Q5(>.(5%5&4C,.:;5&L&Z=,;#Q5.!D !R@5J.14.!Z87_T!";L;:;5&L;5!: !".MN+O:;5)0":;5[,()"#5$:0,.:;5) V,`*7B+95$:0.4Y=,N0,.! 6 2  MN  +O  :  ;5  \0"a;UU 7  b!"7  ,,T,+U+])  !R ;H  :  ;5 \0"a;UUU@!,"])'R:;5c75\,,c,U!,,;(++])0"-: ;5\,,,!,U";"(])G"d:;5\,,!U]Ce85V"0,. :;5#7B5$:1<0.;#0.7.!6!"MN+O: ;5\"a;UU+"U!(,,T,+U+f];#,5C 5(!>) 0,.:;5g;#7BT>(>5!"Q5.!D.7.!6!" MN+O:;5C e5(hiWjMkklkklm m  !"#$%&%& e,(2:#(&%50@5J),,7&A!O#7B!" :@565-T>!";=H7.(R#1! 6Ce85#5653,,,7&A&L.<!">C ,,7485Q5,!H#7B!".&4;#'<7 :;5\,,M;5+U!]C'<7:;5;#Q5.!RD70>7&/'!,. <7:;5).75:;52$MN+O:;5;C F#T."."$!5'R.0n5$"7<7:;57#</;#0? 7U,+CM3(>5'R0n5$#&,!,7B+9R<).<h3,0n 5$0?7U,+!""747:;5C 23 [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[ [[[[[[[[[[[C[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C e5(hiWjMkklkklm o  !"#$%&%& [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[C [[[[[[[[[[[[[[[[[[[[[[[[[[[[[[[ e5(hiWjMkklkklm p  !"#$%&%& 45645 e5(hiWjMkklkklm q  !"#$%&%& CHƯƠNG 1:  $%& I.1. 789:9;< '<7;#0n5$!JQ5,!H!"0,.:;5)45B; .N.:=>?@AB9=@C@DA:9:E!"W,UU,!CM4!J 85&Z=,0.,580n5$#()8TJ,4/ /5'<7;#.Q5!DD7.47.&9L&A"#". <7\;5+U!+])+,"".&9L!"*k<7N\+7;,!] ,5#.&9L0.<7D01N\++7;,!],5C W<&R3,'<7;#D7!,TJT!".473,: ;5CM.5$".'<7\M;5+U!;"!7+]&85+!,.<7 \;5+U!+]C 5()0145R#";#&L@U7;#9J&/&. 53,3,'R'<7)&85#(<5B#"7<&R3,' <7    ,,  !U5")  r,5!,;  ;5+U!+s)  r5+Ub5;s  ;5+U!+)  "5;U! UU"C n5$'<74/.<!"!J85;= • W,!0Ut.&Z.470.#\0.#87u) 0.#.!Z)';"G#&".#0.#)[]+P <+_7,(Z<3,1(&/K1(4>;L 0",5Q5Nv • F";"($47&B$#$,#".5BR3, Kv • T!,!U+ U"w&B)+.)&".5%53,&B[v • +5!,U)x,U'47.&9L+P<T"/7# .Z<#R)&".@5\!U]3,0.#). ,;$#R\Ub(b!,5+]v • yyy';"G#;5\"57U;,++z,"]v';"GV *aUT\;5+U!aUT;"]v[ M.0n5$'<7&L';"G+,5\@U7D] e5(hiWjMkklkklm {  !"#$%&%& • N.'"G • N.'J • N.,!7$&B • N.,!71D • N.,!; I.2. FG9HI8:?7J:54<:K957>:E F#".'<7V&L0K,01T>&L B513,.#%5B<7&/&Z=,!. ;C|D;Y"#(7#1'<7V&L!5(89D $"7i3,H7.(01.7+.)N.H7#0, "!7B75gI7.&9L%D77BJ5!K&.Q5, '73,:;5#47;G.:;59,5C}5(!D'<7 &L/DkC DkC}5!D'<7-Q5. 55_'<7 ,5&'(K,+~D7/57B+9RJ3,:;5#(5%53, 7B5$".'<7C%5>.65#.!/.5$ ".'<7:;545&85^7•,7A.(5%5NT +,5 • M40u7O!B),u 5$".'<7%40 u,u)7O!BC€J855$".'<74/;#7 9;L:;5•)RNkll&9L:;57#, ;#79;L:;5;)!"0&4N+O:;5;6, #!5&9LD$(,%7O!BTB'<7&4&/T," !*7$:;5;C e5(hiWjMkklkklm •  !"#$%&%& • uR.0/5#5BR:;50.,54 855$".'<7)4:5$".*L:;5 +9)4:5$".0.<";"G:;5Z',(: ;5[ • e$T>&L.<7D*TJ0‚7B+95$".@. &Z<7,#"R0".ƒ5;U,,(W,,, 7<&R$T>&B#(#9,53,.#;5!"<7C 5()7B<74/4DGTJ0‚D$(7#. !/5$".40u@.&Z.<7D*TJ0‚;# Q5,!H#%>C • 9/578!6"@.&Z.,7+9&%5#"78! 6&%5#"%>"7B5$".'<7#R)R "'<7#7#4#0NC • uR:;5h5%;.N+O:;5 >6,&"G;"X>5)01@.&Z,(01&KC M.5$".G(7h5;#5('&>G"!, 7BTB'<70d7J;LC • 1G(763,T&%5#"WB+95$". '<701/+.$7:;57#"!"TB' <7)7#;5#"<74+„"XG"7<77CFG &4)7B5$".'<7901G"!,.TB'<70. ,52*7BTB:;56+i@>0.,5Ce: 5$".#(H;#G(76:;5C • R:;5&,85:;51VV4+9 85R)2,&>T,857#7B+95$".'<7&,!, 0>Q5!J9CFG&4):;5&,85\85NT,85] E!J&,G#%>&L'47"856< >C|;"G:;5#()';"G,#"0>6" V•!,45Q5)5(09;L:;5;$() +P<0>65(,;#90d7K,%D7. 5$".'<7&/Q5(>&LJ&8#(C e5(hiWjMkklkklm …  !"#$%&%& • '<7!7B+9!#T5B !"7B+96<)K, %'<7!N+O:;56,.;0>TiT5B:,, ,(85&9LC|'<7%&7T".&9L#( •,7A.!#T5B&4C • h/5)h#&X#07B5$".#h/5#h# &X#7,R0,"+~&LV5$(#+P< !B!AC I.3. L5M9N<?7J:54< I.3.1. O>5P> '<745%Q5,'7&>7B+9&X&/7+,5 • W<&R3,'<7F#".'<747<&RD70>7 .#;5#'K#".<70.,5C 5()*( 5B#"7<&RV*7#V;$!D+~Q5(>&Z+9 ;L<7),(J;L<7O76#"CWB.',: ;5+9;L<7;"G&LT^.i'(O 7*LR<+P<5$".'<7'('JC • FJ3,:;5%;.N.'<7&A&L .!/":;5+9)7B+94/Q5(>T#". :;5uT"X:;5+9#:;5uTC • FJ3,1e85N6<5B#"&B%53, :;5&Z=,5(75)'T9:;5)+985[T GR".&BNCWB+9N60.g(5%5 &..2&17B&BN"X0".:,.# %:;5C • FJ.<7M.<7#;5%&7T"mRJ7#0 '<7K,%KY • M"7,U++f&B1&H+KR&BR0>"X&NJ3, 2X&9L!"2<7!!~C†BN#,") &B1&H#;C • +";,"f&B1;$&B&"8+.T:,7B<7: <70.C e5(hiWjMkklkklm ‡  !"#$%&%& I.3.2. QH=RBS:MTHAI:E?7J:54<CU69;> • tP;Yh5:;5TZh5;#:;501R@.,(;#:;5 05(>>5187B+95BRC%5>.:;5+P <&/'<7&85TZh5"Q5.!D5$>5R@. ,(>5&%(&3C|D$(%T8@P;Y:;5 ^70i<"X;"GT•h5!05(/+,,&"G 'R<7:;5CWB!".0n5$@P;Yh5,(;# ,(>..!Z.5BR3,&9!Lh5T^.. !Z5BRN6C • `D7%P"G;,C%P"G;,;#7B47•.&9 L:;50.V+".:;5!"N+O:;5C"G T•::;5#(&/!.O&>0>Q5'<7C • '<7,(&,;#J&87O#04|D'<7&, Q5(>7B+9J&8NTt'(#7R&BN) @'(.55_'<7)@'(71D"J5!K: ;5)@'(.5$".'<7#@.;$.&8500O G")@'(.3<T/5h#&..0>Q5'<7C ,(,47BN.'<7-Q5.#"4/ Q5(>!Hˆ"J.GJ5!K:;5C|:: ;5‰LD'<7#040uN#&'(&,;#7B .6!"#0,.:;5C I.4. 85VWH7>XHH9Y?5X:HAI:E?7J:54<CU69;> M.0n5$'<74!J85.>$#.6<!" >)4&85,7<55&4;#J;L3,.<7 0.7.&L#9&B3,5$".C,().0n5$ '<74/';"GU"..>$R+,5 I.4.1. 7Z[:E?78??7J:54<?7J:7I\57 n5$#('"G7B$L:;54%P#047 "&>0@.&Z+9.<7&L>;$C9.<7&L>;$;# .&X!&L;,H!CN.#(;#9"D7. e5(hiWjMkklkklm kl [...]... mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng Nguyễn Khắc Mẫn _ CH1101102 15 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU CHƯƠNG 2: MỘT SỐ THUẬT TOÁN PHÂN CỤM DỮ LIỆU II.1 Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp II.1.1 Thuật toán BIRCH Thuật toán phân cụm. .. yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối Nguyễn Khắc Mẫn _ CH1101102 12 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều... địnhnhững vùng gần, thưa và “đặc” trong không gian dữ liệu nhất định, bằng cáchđó phát hiện ra toàn thể phân bố mẫu của tập dữ liệu Nguyễn Khắc Mẫn _ CH1101102 25 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU • Một đơn vị là dày đặc nếu phần nhỏ của tất cả các điểm dữ liệu chứatrong nó vượt quá tham số mẫu đưa vào Trong thuật toán CLIQUE, cụm ược định nghĩa là tập tối đa... CH1101102 19 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU 5 Phân cụm các cụm không gian : các đối tượng đại diện cho cáccụm di chuyển về hướng trung tâm cụm, nghĩa là chúng đượcthay thế bởi các đối tượng gần trung tâm hơn 6 Đánh dấu dữ liệu với các nhãn tương ứng.Độ phức tạp tính toán của thuật toán CURE là O(n2log(n)) CURE l thuật toán tin cậy trong việc khám phá ra các cụm với... bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm Nguyễn Khắc Mẫn _ CH1101102 13 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU I.4.6 Phương pháp phân cụm có dữ liệu ràng buộc Sự phát triển của PCDL không gian trên CSDL lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung... được phát triển trên cơ sở của các phương pháp đó như: Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số Nguyễn Khắc Mẫn _ CH1101102 14 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Phân cụm khái niệm: Kỹ thuật này được phát... tiếp đến CLINQUE lần lượt tìmcác hình chữ nhật 2 chiều, 3 chiều,…., cho đến khi hình hộp chữ nhật đặc kchiều được tìm thấy, độ phức tạp tính toán của CLIQUE là O(n) Nguyễn Khắc Mẫn _ CH1101102 26 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU CHƯƠNG 3: PHÂN TÍCH ĐÁNH GIÁ THUẬT TOÁN KMEANS III.1 Khái niệm K-means là thuật toán gom cụm theo phương pháp phân hoạch và đã được sử... n (t là số lần lặp, k là số cụm, n là tậpvăn bản) cho nên có sự thực thi rất tốt trong hầu hết các ứng dụng • Scalable tương đối: trong khi xử lý các tập dữ liệu lớn • Kết thúc ở điểm tối ưu cục bộ, có thể dùng thuật toán di truyền để tìm tối ưu toàn cục Nguyễn Khắc Mẫn _ CH1101102 34 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU III.5 Một số hạn chế của thuật toán k-means... giữamỗi điểm xi và thể hiện cụm gần nhất của nó Cj Biểu thức trên thường được xem làhàm mục tiêu k-means Nguyễn Khắc Mẫn _ CH1101102 28 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Thuật toán k-means, thay đổi giữa 2 bước: (1) gán lạimã cụm của tất cả điểm trong U và (2) cập nhật các thể hiện cụm dựa trên các điểm d liệu trong mỗi cụm Thuật toán làm việc như sau: đầu tiên,... cận phổ biến của kỹ thuật này đó là: • • Hòa nhập nhóm, thường được gọi là tiếp cận Bottom-Up Phân chia nhóm, thường được gọi là tiếp cận Top-Down Hình 2 Chiến lược phân cụm phân cấp Nguyễn Khắc Mẫn _ CH1101102 11 PHÂN TÍCH TÌM HIỂU MỘT SỐ THUẬT TOÁN GOM CỤM DỮ LIỆU TRONG KHAI PHÁ DỮ LIỆU Thực tế áp dụng, có nhiều trường hợp kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là

Ngày đăng: 10/04/2015, 00:14

Từ khóa liên quan

Mục lục

  • I.1. Khái niệm

  • I.2. Bài toán phân cụm nói chung

  • I.3. Đặc điểm phân cụm

  • I.3.1. Yêu cầu

  • I.3.2. Một số vấn đề trong phân cụm dữ liệu

  • I.4. Các kỹ thuật tiếp cận trong phân cụm dữ liệu

  • I.4.1. Phương pháp phân cụm phân hoạch

  • I.4.2. Phương pháp phân cụm phân cấp

  • I.4.3. Phương pháp phân cụm dựa trên mật độ

  • I.4.4. Phương pháp phân cụm dựa trên lưới

  • I.4.5. Phương pháp phân cụm dựa trên mô hình

  • I.4.6. Phương pháp phân cụm có dữ liệu ràng buộc

  • II.1. Thuật toán phân cum dữ liệu dựa vào phân cụm phân cấp

  • II.1.1. Thuật toán BIRCH

  • II.1.2. Thuật toán CURE

  • II.2. Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm

  • II.2.1. Thuật toán PAM

  • II.2.2. Thuật toán CLARANS

  • II.3. Thuật toán phân cụm dữ liệu dựa vào lưới

  • II.3.1. STING

Tài liệu cùng người dùng

Tài liệu liên quan