Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 90 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
90
Dung lượng
1,48 MB
Nội dung
I HC QUC GIA TP H CHÍ MINH I HC CÔNG NGH THÔNG TIN KHOA: KHOA HC MÁY TÍNH TIU LUN CÔNG NGH TRI THC VÀ NG DNG THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG Ging dn : GS.TSKH. HOÀNG KIM Hc viên thc hin: - NGÔ NG - NGUYN KHC MN _ CH1101102 Lp : CH06 TP. Hồ Chí Minh, tháng 5 năm 2012 Lời cảm ơn c tiên, nhóm chúng em xin cy GS TSKH Hoàng Kiu kin cho nhóm tip xúc mc quan trng ca trí tu nhân to tri th. Cùng vi s phát trit bc ca ngành công nghip máy tính, nhu cu ci vi máy tính ngày m gii quyt nhng công vi i máy tính có kh gii quyt v i. Và t nhân to nói c bit là công ngh tri thi và phát trin. Nhng kin tht sc cn thit khi các thành viên lp chun b quá trình làm tt nghi làm vic trong mng khoa hc. Nhóm cn các thành viên trong lng hc thun li trong quá trình tip thu các bài ging. Mt ln na, nhóm chúng em xin chân thành c tn tình truyt kin thc ca thy. Kính chúc thy mnh khe, tip tc nhiu thng li trong nghiên cu khoa hc và công cuc ging dy. Hc viên: Ngô Ng - Nguyn Khc Mn NHN XÉT 1 Mc lc 4 I. 4 1.1. Khái nim 4 1.2. Bài toán phân cm nói chung 4 1.2.1. Các kiu biu din d liu 5 1.2.2. và khong cách 6 1.2.3. Tiêu chun phân cm 10 1.3. m phân cm 11 1.3.1. Yêu cu 11 1.3.2. Mt s v trong phân cm d liu 12 1.4. m d liu 13 1.4.1. Phân hoch theo tp thô 13 1.4.1.1. Các h thông tin 13 1.4.1.2. Quan h bt kh phân 15 1.4.1.3. Xp x tp hp 16 1.4.2. 17 1.4.3. 19 1.5. 19 1.5.1. m phân hoch 19 1.5.2. m phân cp 20 1.5.3. m da trên m 21 1.5.4. m di 21 1.5.5. m da trên mô hình 22 1.5.6. m có d liu ràng buc 23 II. 24 2.1. Thut toán phân cum d liu da vào phân cm phân cp 24 2.1.1. Thut toán BIRCH 24 2.1.2. Thut toán CURE 27 2.1.3. Thut toán ANGNES 29 2.1.4. Thut toán DIANA 30 2.1.5. Thut toán ROCK 30 2 2.1.6. Thut toán Chameleon 31 2.2. Thut toán phân cm d liu da vào cm trung tâm 32 2.2.1. Thut toán PAM 32 2.2.2. Thut toán CLARA 34 2.2.3. Thut toán CLARANS 35 2.3. Thut toán phân cm d liu da vào tìm kim 37 2.3.1. Thut toán di truyn (GAS) 37 2.3.2. J- Means 40 2.4. Thut toán phân cm d liu da vào i 41 2.4.1. STING 41 2.4.2. Thut toán CLIQUE 43 2.4.3. Thut toán WaveCluster 44 -MEANS 46 I. 46 1.1. 46 1.2. 47 1.3. Th phc tp ca thut toán K-means. 49 1.4. 49 1.5. -means 50 II. (LSI) 52 2.1. 52 2.2. Phân tích Singular Value Decomposition (SVD) ca ma trn t ch mc (term document A) 53 2.3. Truy vn trong mô hình LSI 56 2.4. Cp Nht Singular Value Decomposition (SVD) 58 2.4.1. Cp Nhn (SVD- Updating document): 58 2.4.2. Cp Nht t ch mc (terms): 60 2.4.3. Loi b t ch mc (Downdating) Trong Mô Hình LSI 61 2.5. Chn h s k trong mô hình LSI 61 III. -MEANS 64 3.1. Tin x lý tp d liu vào 64 3.2. Ch ng cách thích hp 66 3.3. Chn s cm cho thut toán K-means 68 3 71 I. TRUY HI THÔNG TIN 71 1.1. Biu din mu 72 1.2. Phép 74 1.3. Mt gii thut cho phân cm d liu sách 75 II. KHAI PHÁ D LIU 76 2.1. Khai phá d liu bng php cn. 77 2.2. Khai phá d liu có cu trúc ln. 78 2.3. liu trong d liu a cht. 80 2.4. t 82 4 I. 1.1. Khái nim Phân cm là hình thc hc gán nhãn. Ma gom cm d liu là gom d li nhau, thành tng cm theo mt chu liu trong các c t thng trong cùng mt cm. Có nhi c ch p p da trên m a trên mô hình i 1.2. Bài toán phân cm nói chung Bài toán phân cc thc hin khi chúng ta không bic ni dung thông tin ca các thành phn thuc c c các lp. Vì lý do này mà công vic phân cc truyn thng nhìn nhi con mt ca hc mt mu ch gng cn tìm mt ca d liu và nhóm li các d liu ging nhau. Quy trình phân cc th hi1. 5 Hình 1. Qui trình phân cm tng quát 1.2.1. Các kiu biu din d liu Dc min ta có th phân d liu thành hai loi là thuc tính liên tc và thuc tính ri rc. Bên cu phân loi da trên h t s kiu d liu thông dnh danh, thuc tính có th t, thuc tính khong, thuc tính t l ng trc tin kt qu phân cm. Vì th i ta phi chun hóa d li khc phc ym này. T nhng yêu cu trên và vi liu chúng ta cn tìm hiu v các kiu biu din d liu. Có hai kiu biu din d liu ph bin là: Biu dii dng ma trn ca các bin cu trúc hay các thuc tính ca ng. Ví d i s có các thuc tính là tên, tui, chiu cao, cân nng, màu m ng, m ng có p thuc tính thì s có mt ma trn vi n dòng, p ct. Hình 2. Ma trn thuc tính biu din d liu 6 Biu din d lii d ng cách git các ci ng. Nng, chúng s c biu din bng mt ma trn vi n hàng và n c Hình 3. Ma trn khong cách biu din d liu ng cách gi ng i và j. Nói chung, d(i,j) gn bng i và j là gn nhau hay có ni dung gn ging ng có ni dung càng khác nhau. Hình 7 biu din ma trn khong cách ca tp d liu có d(i, j) = d(j, i) và d(i, i) = 0. 1.2.2. và khong cách m d liu cn có m khorong không gian d li dùng chung cho mng hp vì chúng ta bit rng, m d liu có th cha nhiu kiu d liu thuc tính khác nhau. Mc ng nhiu thuc tính có ki . Các ki bao gm giá tr khong (interval-valued), nh i xng (symmetric binary), nh phân bi xnh danh (nominal), th t (ordinal) và t l khong (ratio-scaled). Tùy theo mc tiêu kho sát và bn cht d lii dùng ch ng cách cho phù hp vi ng dng ca mình. Gi s ng x và gic ký hiu là d(x, y). 1. Bin tr khong 7 Bin tr kho c cng tuy trng, chiu cao, tui, v.v Mt s ng ca bin tr khong: Khong cách Minkowski Khong cách Euclide là khong cách Minkowski vi q = 2 Khong cách Manhattan là khong cách Minkowski vi q = 1 Khong cách có trng Khong cách có trng là ci tin ca kho n ng ca tng thun khong cách ging. Thuc tính có trng s w càng ln thì ng càng nhin khong cách d. Vic chn trng s tùy thuc vào ng dng và mc tiêu c th. 2. Bin nh i xng Là bin ch có 2 trng thái 0, 1 và các tr [...]... không đúng Các thuật toán nhạy cảm với nhiễu là nguyên nhân dẫn đến việc tạo ra một bộ phân cụm kém chất lƣợng Không nhạy cảm với thứ tự của bản ghi đầu vào: Một số thuật toán phân cụm không thể sát nhập thêm dữ liệu mới vào trong bộ phân cụm, thêm tài liệu vào cụm có sẵn hoặc tạo thêm cụm mới Bên cạnh đó, một thuật toán phân cụm tốt không tạo ra các bộ phân cụm khác nhau từ cùng một bộ dữ liệu nhƣng... quyết định số lƣợng cụm, hay chất lƣợng cụm ở mức nào Một cách phân chia dữ liệu với số lƣợng cụm linh hoạt đƣợc thực hiện bằng cách cắt cây ở mực phù hợp ví dụ nhƣ sử dụng thuật toán phân cụm cây phân cấp Bản chất của dữ liệu: Phần lớn các phƣơng pháp phân cụm đã đƣợc phát tri n cho dữ liệu số, nhƣng một số có thể giải quyết bài toán với dữ liệu văn bản hoặc với cả dữ liệu số và dữ liệu văn bản Bản... tăng: Thuật toán phân cụm cần có khả năng gia tăng, mở rộng Rất nhiều thuật toán phân cụm có thể làm việc tốt với lƣợng dữ liệu nhỏ, ít hơn 100 đối tƣợng dữ liệu mà chƣa làm tốt với lƣợng dữ liệu lớn, trong khi đó cơ sở dữ liệu lớn chứa hàng tri u đối tƣợng vì vậy ta cần mở rộng bộ phân cụm đó để bao trùm cả tập dữ liệu lớn Khả năng thích nghi với các kiểu và thuộc tính dữ liệu khác nhau: có nhiều thuật. .. khác nhau: có nhiều thuật toán phân cụm, có những thuật toán phù hợp với dữ liệu số, có những thuật toán khi áp dụng cho loại dữ liệu nhị phân hay dữ liệu ảnh … Nhận biết đƣợc các cụm với hình thù bất kỳ: một số thuật toán xác định cụm dựa vào việc tính khoảng cách Euclidean hay Manhattan với mục đích nhận biết độ dày và giống nhau của các tài liệu trong cụm Tuy nhiên, một cụm có thể có hình dạng bất... 2.1.1 Thuật toán BIRCH Thuật toán phân cụm khác cho tập dữ liệu lớn, đƣợc gọi là BIRCH tƣởng của thuật toán là không cần lƣu toàn bộ các đối tƣợng dữ liệu của cáccụm trong bộ nhớ mà chỉ lƣu các đại lƣợng thống kê Thuật toán đƣa ra haikhái niệm mới để theo dõi các cụm hình thành , phân cụm đặc trƣng là tóm tắtthông tin về một cụm và cây phân cụm đặc trƣng(cây CF) là cây cân bằngđƣợc sử dụng lƣu trữ cụm. .. trƣng bên trong của các cụm đang đƣợc hòa nhập Nó có khả năng hơn để khám phá các cụm có hình thù bất kỳ có chất lƣợng cao hơnCURE và DBSC N nhƣng chi phí xử lý dữ liệu đa chiều phụ thuộc vào O(n2) thời gian cho n các đối tƣợng trong trƣờng hợp xấu nhất 2.2 Thuật toán phân cụm dữ liệu dựa vào cụm trung tâm 2.2.1 Thuật toán PAM Thuật toán PAM là thuật toán mở rộng của thuật toán K-means nhằm có khả năng... cấu trúc dữ liệu Với những dữ liệu hỗn hợp thì việc phân cụm càng khó khăn hơn và đây đang là một thách thức trong ngành khai phá dữ liệu 1.4 Các phƣơng pháp phân cụm dữ liệu 1.4.1 Phân hoạch theo tập thô Lý thuyết tập thô đƣợc Z Pawlak phát tri n vào đầu thập niên 1980 Lý thuyết tập thô rất hiệu quả trong khai thác dữ liệu, tìm kiếm thông tin, hỗ trợ quyết định, máy học, các hệ cơ sở tri thức 1.4.1.1... chúng chỉ áp dụng cho các dữ liệu có thuộc tính số 23 Phân cụm khái niệm: K thuật này đƣợc phát tri n áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tƣợng theo các khái niệm mà chúng xử lí Phân cụm mờ: Sử đụng k thuật mờ để PCDL Các thuật toán thuộc loại này chỉ ra lƣợc đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn Phân cụm mạng... khác nhau Những thuật toán này gọi là nhạy cảm với thứ tự dữ liệu Thích nghi với dữ liệu đa chiều: Dữ liệu thông thƣờng thƣờng có số chiều ít, từ hai đến ba chiều mà một số thuật toán phân cụm đƣa ra kết quả rất tốt Bên cạnh đó, dữ liệu đa chiều (nhiều hơn ba chiều) cũng rất đa dạng và cần thiết đƣợc phân nhóm cho nhiều ứng dụng thực tế Với loại dữ liệu này, việc phân loại dựa vào kiến thức con ngƣời... và mối quan hệ gần nhau của các nhóm con Do đó, thuật toán không phụ thuộc vào ngƣời sử dụng các tham số nhƣ K-means và có thể thích nghi .Thuật toán này khảo sát mô hình động trong phân cụm phân cấp Trong ó, hai cụm đƣợc hòa nhập nêu giữa hai cụm có liên quan mật thiết tới quanhệ kết và gần nhau của các đối tƣợng trong các cụm Quá trình hòa nhập dễ dàng khám phá các cụm tự nhiên và đồng nhất, ứng dụng . 2.1. Thut toán phân cum d liu da vào phân cm phân cp 24 2.1.1. Thut toán BIRCH 24 2.1.2. Thut toán CURE 27 2.1.3. Thut toán ANGNES 29 2.1.4. Thut toán DIANA 30 2.1.5. Thut toán ROCK. CHÍ MINH I HC CÔNG NGH THÔNG TIN KHOA: KHOA HC MÁY TÍNH TIU LUN CÔNG NGH TRI THC VÀ NG DNG THUT TOÁN K-MEAN TRONG PHÂN CM D LIU VÀ NG DNG Ging. Thut toán Chameleon 31 2.2. Thut toán phân cm d liu da vào cm trung tâm 32 2.2.1. Thut toán PAM 32 2.2.2. Thut toán CLARA 34 2.2.3. Thut toán CLARANS 35 2.3. Thut toán phân cm