Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 32 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
32
Dung lượng
0,94 MB
Nội dung
1 1 KHAI THÁC 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B BÀI 5 ² Phҫn 1 GOM NHÓM DӲ LIӊU 2 3 NӜI DUNG 1. *LӟLWKLӋX 2. 3KѭѫQJSKiSSKkQKRҥFK 3. 3KѭѫQJSKiSSKkQFҩS 4 *,Ӟ,7+,ӊ8 1. Gom nhóm là gì ? : 1KyPFөPOӟS : WұS các ÿӕL WѭӧQJ DL Gom nhóm là quá trình nhóm các ÿͩL ẂͻQJ thành QK·QJ QKyPFͽPOͳS có ý QJKƭD. Các ÿͩL ẂͻQJ trong cùng PͱW nhóm có QKL͙X tính FK̽W chung và có QK·QJ t ính FK̽W khác YͳL các ÿͩL ẂͻQJ ͷ nhóm khác. Cho CSDL D={t 1 ,t 2 ,«,t n }vàVӕ nguyên k, gom nhóm là bài toán xác ÿӏQK ánh [ҥ f:DJ J {1,«,k} sao cho PӛL t i ÿѭӧF gán vào PӝW nhóm OӟS K j , 1 d d j d d k. Không JLͩQJ bài toán phân OͳS các QKyPFͽPOͳS không ÿ́ͻF EL͗W WÚͳF. 3 5 3+Æ1/Ӟ3!*201+Ï0 Phân OӟS : KӑF có giám sát (Supervised learning) Tìm SK˱˯QJ pháp ÿ͋ G ÿRiQ OͣS FͯD P̳X PͣL Wͳ các P̳X ÿm gán nhãn OͣS (phân OͣS WU˱ͣF 6 Gom nhóm : KӑFNK{QJJLiPViW8QVXSHUYLVHG learning ) 7uPFiFQKyPFͭPOͣS³WQKLrQ´FͯDFiFP̳X FK˱Dÿ˱ͫFJiQQKmQ 3+Æ1/Ӟ3!*201+Ï0 4 &yEDRQKLrXQKyPFөP" QKyPFөP QKyPFөP QKyPFөP *,Ӟ,7+,ӊ8 Khái QL͟P QKyPFͽP ± QKͅS QK͉QJ 8 *,Ӟ,7+,ӊ8 z ӬQJ GөQJ 1KұQ GҥQJ Phân tích G· OL͟X không gian ;ӱ lý ҧQK Khoa KͥF kinh W͗ ( ÿ͏F EL͟W nghiên FX WL͗S WKͣ WWW Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các nhóm có cùng NL͛X truy FͅS *L̻P kích WḰͳF G· OL͟X OͳQ 5 9 zVí Gө Gom gen và protein có cùng FKӭF QăQJ Nhóm các Fә SKLӃX có xu KѭӟQJ giá dao ÿӝQJ JLӕQJ nhau Nhóm các vùng theo OѭӧQJ PѭD ӣ Úc Discovered Clusters Industry Group 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Technology1-DOWN 2 Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Technology2-DOWN 3 Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Financial-DOWN 4 Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Oil-UP *,Ӟ,7+,ӊ8 10 *,Ӟ,7+,ӊ8 z Ví Gө : 7L͗S WKͣ : phát KL͟Q các nhóm khách hàng trong CSDL khách hàng ÿ͛ xây GΉQJ FḰ˿QJ trình WL͗S WKͣ có PͽF tiêu Ĉ̽W ÿDL :xácÿͣQK các vùng ÿ̽W WUͫQJ WUͥW JLͩQJ nhau trong CSDL quan sát trái ÿ̽W %̻R KL͛P : tìm nhóm khách hàng có NK̻ QăQJ hay J͏S tai Q̹Q Nghiên FX ÿͱQJ ÿ̽W : gom nhóm các tâm FK̽Q ÿͱQJ ÿ̽W quan sát ÿ́ͻF theo Y͗W QW OͽF ÿͣD 6 11 9Ë'Ө*RPQKyPFiFQJ{LQKj 'ӵDWUrQNKRҧQJFiFKÿӏDOê 12 9Ë'Ө*RPQKyPFiFQJ{LQKj 'ӵDWUrQNtFKWKѭӟF 7 13 9Ë'Ө*RPQKyP 14 *,Ӟ,7+,ӊ8 &iFKELӇXGLӉQ FiFQKyPFөP Phân chia EҵQJ các ÿѭӡQJ ranh JLӟL Các NKӕL FҫX Theo xác VXҩW 6ѫ ÿӗ hình cây « 1 2 3 I1 I2 « In 0.5 0.2 0.3 8 15 *,Ӟ,7+,ӊ8 2. 7LrXFKXҭQJRPQKyP 3KѭѫQJ pháp gom nhóm WӕW là SKѭѫQJ pháp VӁ WҥR các nhóm có FKҩW OѭӧQJ : 6Ή JLͩQJ nhau JL·D ÿͩL ẂͻQJ trong cùng PͱW nhóm cao. *L·D các nhóm thì VΉ JLͩQJ nhau WK̽S. .KRɠQJFiFK JLͯDFiF nhóm là max .KRɠQJFiFKErQ trong nhóm là min 16 *,Ӟ,7+,ӊ8 2. 7LrXFKXҭQJRPQKyPWW &KҩW OѭӧQJ FӫD NӃW TXҧ gom nhóm GӵD trên 2 \ӃX Wӕ : Ĉͱ ÿR VΉ JLͩQJ nhau dùng trong SḰ˿QJ pháp gom nhóm và 6Ή thi hành nó 0ͱW Vͩ ÿͱ ÿR FK̽W ÓͻQJ : Bình SḰ˿QJ sai (Sum of Squared Error - SSE) Entropy 9 17 *,Ӟ,7+,ӊ8 3. ĈӝÿRNKRҧQJFiFK Ĉӝ ÿR NKRҧQJ cách WKѭӡQJ dùng ÿӇ xác ÿӏQK Vӵ khác nhau hay JLӕQJ nhau JLӳD hai ÿӕL WѭӧQJ . .KRҧQJ cách Minkowski : q q pp qq j x i x j x i x j x i xjid )|| |||(|),( 2211 YͣL i= (x i1 ,x i2 , «,x ip )vàj=(x j1 ,x j2 , «,x jp ) : hai ÿ͑L WɉͣQJ p-FKLɾX và q là V͑ nguyên GɉɇQJ ± 1ӃX q=1, d là NKRҧQJ cách Manhattan : || ||||),( 2211 pp j x i x j x i x j x i xjid 18 *,Ӟ,7+,ӊ8 3. ĈӝÿRNKRҧQJFiFKWW 1ӃX q=2, d là NKRҧQJ cách Euclide : )|| |||(|),( 22 22 2 11 pp j x i x j x i x j x i xjid Tính FKҩW FӫD ÿӝ ÿR NKRҧQJ cách d(i,j) t 0 d(i,i) = 0 d(i,j) = d(j,i) d(i,j) d d(i,k) + d(k,j) 10 19 *,Ӟ,7+,ӊ8 4. Các NLӇX Gӳ OLӋX Các NLӇX Gӳ OLӋX khác nhau yêu FҫX ÿӝ ÿR Vӵ khác nhau FNJQJ khác nhau . z Các EL͗Q W O͟ theo NKR̻QJ : .KR̻QJ cách Euclide z Các ELӃQ QKӏ phân : KӋ Vӕ so NKӟS KӋ Vӕ Jaccard z Các EL͗Q tên, WK WΉ W O͟ : NKR̻QJ cách Minkowski z Các ELӃQ GҥQJ KӛQ KӧS : công WKӭF WUӑQJ OѭӧQJ 20 *,Ӟ,7+,ӊ8 5. 0ӝWVӕSKѭѫQJSKiSJRPQKyP 3KѭѫQJ pháp phân KRҥFK 3KѭѫQJ pháp phân FҩS 3KѭѫQJ pháp GӵD trên PұW ÿӝ 3KѭѫQJ pháp GӵD trên OѭӟL 3KѭѫQJ pháp GӵD trên mô hình [...]... : Cho k, nhóm giá TB DL trong nhóm B1: nhiên k là trung tâm các nhóm B2 : Gán còn vào nhóm có trung tâm nhóm nó trên cách Euclide) B3 : Tính giá trung tâm nhóm Di trung tâm nhóm = giá TB nhóm Cho nhóm Ki={ti1,ti2, ,tim}, giá trung bình nhóm là + tim) mi = (1/m)(ti1 + B4 : các trung tâm nhóm không có gì thay thì quay B2 24 12 k1 Y 3 trung tâm nhóm : k1, k2, k3 k2 k3 X 25 - k1 Y Gán k2 vào nhóm có trung... 0.93 các trung tâm nhóm này, thành các nhóm không thay toán A Age 18 -means : gán vào các Các nhóm 37 -means : tính phi ? xác nhóm (k) các gán vào các nhóm vào các nhóm tiên khi các nhóm có kích khác nhau hình dáng không là hình DL cá 38 19 3 -medoids : PAM Cho k, trong các B1: nhóm trung tâm nhóm nhiên k là tâm các nhóm B2 : gán còn vào nhóm có tâm nó B3 : Hoán nó tâm nhóm các nhóm lên thì quay... 21 1 pháp phân CSDL D 1 Cho k, : xây n tìm k nhóm ( ví k (k . WL͗S WKͣ WWW Gom nhóm tài OL͟X liên quan ÿ͛ G͝ tìm NL͗P Gom G· OL͟X Weblog thành nhóm ÿ͛ tìm các nhóm có cùng NL͛X truy FͅS *L̻P kích WḰͳF G· OL͟X OͳQ 5 9 zVí Gө Gom gen và protein có cùng FKӭF QăQJ Nhóm. 'Ӳ/,ӊ8 Ӭ1*'Ө1* (DATA MINING) *91*8<ӈ1+2¬1*7Ò$1+ 2 B BÀI 5 ² Phҫn 1 GOM NHÓM DӲ LIӊU 2 3 NӜI DUNG 1. *LӟLWKLӋX 2. 3KѭѫQJSKiSSKkQKRҥFK 3. 3KѭѫQJSKiSSKkQFҩS 4 *,Ӟ,7+,ӊ8 1. Gom nhóm là. 7LrXFKXҭQJRPQKyP 3KѭѫQJ pháp gom nhóm WӕW là SKѭѫQJ pháp VӁ WҥR các nhóm có FKҩW OѭӧQJ : 6Ή JLͩQJ nhau JL·D ÿͩL ẂͻQJ trong cùng PͱW nhóm cao. *L·D các nhóm thì VΉ JLͩQJ nhau WK̽S. .KRɠQJFiFK JLͯDFiF nhóm là