Tìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnhTìm hiểu phương pháp phân cụm cứng và ứng dụng trong phân đoạn ảnh
án t t nghi i h c dân l p H i Phòng L IC Trong su t th i gian h c t m án t t nghi p c th y ch b o, dìu d n bè quan tâm, ng viên c tiên e Ngô Qu c T o c bày t lòng bi i t t i PGS TS ng nhi t tình ch b o, su t trình th c hi ng d n em án t t nghi p il ic i th y cô ngành h th ng thông tin i h c Dân L p H i Phòng y b o, cung c p nh ng ki n th c quý báu cho em su t trình nghiên c u h c t p t i ng il ic n bè nh i c em su t th i gian h c t án t t nghi p Do th i gian ki n th c có h n nên không tránh kh i nh ng thi u sót nh nh Em r t mong nh cs a th y cô b n! Em xin chân thành c H i Phòng, tháng 11 Sinh viên Bùi Trung Thành Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng M CL C L IC L U NG QUAN V KHAI PHÁ D LI U 1.1 Gi i thi u v khám phá tri th c 1.2 Khai phá d li u khái ni m liên quan 1.2.1 Khái ni m khai phá d li u 1.2.2 c trình khai phá d li u 10 1.2.3 Các thành ph n khai phá d li u 11 1.2.4 ng ti p c n k thu t áp d ng khai phá d li u 12 1.2.5 ng d ng c a khai phá d li u 13 M D LI U VÀ CÁCTHU T TOÁN PHÂN C M D LI U 14 2.1 Phân c m d li u 14 2.1.1 phân c m d li u 14 2.1.2 M t s ví d v phân c m d li u 15 2.2 M t s ki u d li u phân c m 17 2.2.1 Ki u d li u d c mi n 18 2.2.2 Ki u d li u d a h 18 2.3 kho i v i ki u d li u 20 2.3.1 Khái ni 20 2.3.2 ng cách 21 2.4 Các ng ti p c n c a toán phân c m d li u 24 2.4.1 pháp phân c m phân ho ch 24 2.4.2 pháp phân c m phân c p 24 2.4.3 pháp phân c m d a m t 26 2.4.4 pháp phân c m d a i 29 2.4.5 pháp phân c m d a mơ hình 30 2.4.6 pháp phân c m d a d li u ràng bu c 30 2.5 M t s thu t toán phân c m d li u 30 2.5.1 Các thu t toán phân c m phân ho ch 30 2.5.2 Thu t toán phân c m phân c p 32 2.5.3 Thu t toán COP Kmeans 33 Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng CH NG D NG THU T TOÁN K - MEANS TRONG PHÂN N NH 35 3.1 T ng quan v phân vùng nh 35 3.2 ng ti p c n nh 36 3.2.1 36 3.2.2 3.2.3 a không gian nh 37 a mơ hình v t lý 38 3.3 41 3.3.1 3.3.2 n y u c a B.G Prasad 41 nd ng c c b thích nghi 46 3.3.3 i b ng Watershed 47 3.3.4 Tr n vùng 50 3.4 Thu t toán kn nh 53 3.4.1 Mơ t tốn 54 3.4.2 c th c hi n thu t toán 54 3.4.3 K t qu th c nghi m 58 3.4.4 m c a thu t toán k means 59 K T LU N 61 TÀI LI U THAM KH O 62 Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng DANH M C HÌNH Hình 1: Quy trình phát hi n tri th c c khai phá d li u 10 p c n phân c p 25 Hình 4: p m m h t nhân v Pts Kho h c hai chi u, q m Hình 5: q m ng trù m t c dùng kho ng cách Euclide khơng gian hình m liên thông m tr c ti p t p 27 m liên thơng m m có k t n i m Hình 7: Nh ng c m d li t p 27 28 c khám phá b i CURE 32 42 52 53 53 Hình 12: Thu t toán k - means 56 Hình 13: Tìm ki m top x color 57 Hình 14: Giao di n c 59 Hình 15: Ch n u vào 59 Hình 16:K t qu c a trình phân c m nh 59 Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng L U Trong nh kh phát tri n m nh m c th thông tin c a h th chóng Bên c c tin h c hóa m t cách c Hàng tri u d li u (CSDL) t làm cho ho o m ng s n xu t ng d li u kh ng l c s d ng cho ho ng s n xu t, , có nhi u CSDL lên t i hàng nghìn Gigabyte, th m chí lên m c Terabyte S bùng n n t i m t yêu c u c p thi t, c n có cơng c m i, hi n có th chuy ng d li u kh ng l thành tri th c có ích T li i c th i s c a n n CNTT c a th gi i nói chung Viêt Nam nói riêng Khai phá d li c ng d ng r t r ng rãi nhi cc i s ng: Marketing, ngân hàng, b o hi m, y t , khoa h Các k thu t khai phá d li c chia thành nhóm chính: k thu t khai phá d li u mô t k thu t khai phá d li u d oán án t t nghi p em xin trình bày v c ng t nh ng v - n c a khai phá d li u ng quan v Khai phá d li u; ng d ng m li u; Phân c m d i s ng - m c ng n nh K t lu n: Tóm t t nh ng v ng phát tri Bùi Trung Thành - CT1301 tìm hi c bài, v liên Page án t t nghi i h c dân l p H i Phòng TĨM T TÀI án t t nghi p c a em, nghiên c u v c mc n i dung nghiên c u g ng quan v khai phá d li u u t ng quan v khai phá d li u khám phá tri th c Quy trình khám phá tri th c; khai phá d li u, nhi m v c a khai phá d li ng ti p c t áp d ng khai phá d li ng d ng c a khai phá d li u th c t Phân c m d li u thu t tóan phân c m d li u u v phân c m d li u; m t s ki u d li ng ti p c n phân c m d li u m t s thu t tóan phân c m d li u ng d ng thu t tóan ku t ng quan v n nh; m t s thu n nh giao di n nh n n nh; nghiên c u thu t tóan k-means t mơ ph ng thu t tốn k- n nh Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng T NG QUAN V KHAI PHÁ D LI U 1.1 Gi i thi u v khám phá tri th c N u cho r ngh n t n t b n ch t c a công n t truy n th ng d li u, thơng tin tri th c hi mc c m i nghiên c u ng d ng v phát hi n tri th c khai phá d li u ng coi d li u m t dãy bit, ho c s kí hi u, ho im i m t d ng nh c g i cho m nh Chúng ta s d li t i thi ng thông cl cb c rút g n t i m c n cho d li u Chúng ta có th xem tri th c p bao g m thông tin m i quan h Các m i quan h có th c hi u ra, có th cách khác, tri th c có th c phát hi n ho c có th c coi d li Phát hi n tri th ng t ch c cao d li u quy trình nh n bi t m u ho c mơ hình d li u v hi tr c h c.Nói p th c, m i, kh ích, có th c Còn khai phá d li u m c quy trình khám phá tri th c, g m thu t toán khai phá d li im ts nh v hi u qu tính tốn ch p nh tìm m u ho c mơ hình d li u.Nói m t cách khác, m a phát hi n tri th c khai phá d li u tìm m u ho nt d li n b che khu t b i hàng núi d li u Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng Quy trình khám phá tri th Hình thành Thu th p ti n x lý d li u Khai thác d li u rút tri th c phân tích ki m nh k t qu S d ng tri th c phát hi c Hình 1: Quy trình phát hi n tri th c - c 1: Tìm hi c ng d c s quy nh cho vi c rút tri th c h u ích cho phép ch pháp khai phá d li u thích h p v i m ng d ng b n ch t c a d li u - c 2: Thu th p x c g i ti n x lý d li lo i b nhi u, x lý vi c thi u d li u, bi i d li u rút g n d li u c n thi t, ng chi m th i gian nh t tồn b quy trình c a khám phá tri th c - c 3: Là khai phá d li u hay nói cách khác trích m u ho c mơ hình i d li u - c 4: Hi u tri th c bi t làm sáng t mơ t d c có th l p l i m t s l n, k t qu c có th l y trung bình t t c l n th c hi n Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng 1.2 Khai phá d li u khái ni m liên quan Khai phá d li m c thi t k ng c c l n d li u nh m phát hi n m u thích h p ho c m i quan h mang tính h th ng gi a bi h p th c hóa k t qu c b ng cách áp d ng m n cho t p m i c a d li u Quy trình g ng mơ hình ho nh u, h p th c, ki m ch ng 1.2.1 Kho ng thi t b n t không nh bùng n Câu h l t th p k tr l li u x y v i m t t c t có th khai thác t y? Và t li Khai phá d li u li u kh ng i mơ t q trình phát hi n tri th c CSDL Quá trình k t xu t tri th c ti m n t d li u giúp cho vi c d báo kinh doanh, ho ng s n xu phí v th i gian so v n th Khai phá d li u làm gi m chi c kia.V li Khai phá d li u trình tr giúp quy phá m t b t ng CSDL l n Khai phá d li u m c quan tr ng mang tính quy nh q trình KDD Bùi Trung Thành - CT1301 Page án t t nghi i h c dân l p H i Phòng 1.2.2 Quá trình khai phá d li u g Xác nh nhi m v Thu th p ti n x lý d li u Xác nh d li u liên quan Hình - nh nhi m v - nh d li Th ng kê tóm Gi i thu t KPD D li u tr c ti p M u c khai phá d li u nh xác v c n gi i quy t xây d ng gi i pháp gi i quy t nhi m v toán - Thu th p d li u có liên quan x lý chúng thành d ng cho gi i thu t khai phá d li u có th hi - c Ch n thu t tốn khai phá d li u thích h p th c hi n vi c khai phá nh c m i d ng bi u di m c a m u ph i m i (ít nh m i có th ng v ng v i i v i h th ng i d li u (b ng cách so sánh giá tr hi n t i v i giá tr c giá tr mong mu n), ho c b ng tri th c (m i liên h gi i m ic am giá b ng m t hàm logic ho c m Ngồi ra, m u ph i có kh c x lý di n gi i ph i d m d ng ti m tàng Các m u sau n nh ng m t hàm l i ích Ví d kho n vay, hàm l Bùi Trung Thành - CT1301 b t ng c a m u li u i nhu n t kho n Page 10 án t t nghi i h c dân l p H i Phòng G Rimi Rimi Ri0 , I = (a) watershed Bùi Trung Thành - CT1301 Page 49 án t t nghi i h c dân l p H i Phòng 3.3.4 - Rimi R mjj mi f( Ri , R mjj ) màu HSV Rimi h ( Rimi ) G Rimi Rimi Bij R mjj Chúng R mjj , (1) Bij Bij (2) Rimi R mjj : Bùi Trung Thành - CT1301 Page 50 án t t nghi i h c dân l p H i Phòng (3) w1 w2 w1>> w2 w1 w2 - q n Bùi Trung Thành - CT1301 Page 51 án t t nghi i h c dân l p H i Phòng Hình 9: hình 7d, ellipse màu vàng Bùi Trung Thành - CT1301 Page 52 án t t nghi i h c dân l p H i Phòng Hình 10: Hình 11: 3.4 Thu t toán k- n nh T m quan tr ng nh mang tính tri giác c v c c a th a vi c gom c it c bi ng c nghiên c u nhi c x lý n nh c ng d ng r t m nh m tốn phân tích hi u nh t Bùi Trung Thành - CT1301 ng, Page 53 án t t nghi i h c dân l p H i Phòng t tốn khó mà t i bây gi nhà khoa h tìm cách gi i hoàn toàn th Làm th t p Nh ng cách kh phân chia m t nh thành có th nh ng câu h i mà t t lâu mong mu n có câu tr l i Trong kho ng 30 tr l quy t v t nhi u thu xu n nh Các thu t tốn h u h tính quan tr ng c a m m nh so v gi i u d a vào hai thu c m lân c n c a s gi ng c m nh g i a s khác c nh g m tài này, em xin trình bày thu t toán k gi i quy n nh 3.4.1 Input:+ cmxn + S c m k mu n Output : n có màu s 3.4.2 ng tốn Thu t tốn s d a vào s tính tốn kho ng cách gi ng c m mong mu n, tr ng tâm c m mà m v i tr ng tâm c m t i c m mà có kho ng cách t nh nh t, c p nh t l i tr ng tâm c m K t qu t i tr ng tâm c a c c sau tâm c m i - c c a thu t toán:Thu t toán k -means g Ch n ng ng làm tr Gán (ho c gán l i) t c: uc akc m ng l i vào c m có tr ng tâm g n nh t Bùi Trung Thành - CT1301 Page 54 án t t nghi i h c dân l p H i Phòng N u khơng có phép gán l i d ng Vì khơng có phép gán l i có nh thu t tốn không th c i thi n làm gi bi phân c n a Tính l i tr ng tâm cho t ng c m Quay l c t ng quát c a thu t toán: Bùi Trung Thành - CT1301 Page 55 án t t nghi i h c dân l p H i Phòng Begin Tìm Top X Color gán làm tr ng tâm - - Tính kho ng cách d(x,y) t n tr ng tâm, kho ng cách Eulide m v c m C p nh t l i tr ng tâm Tâm m i = No Yes End Hình 12: Thu t tốn k - means Bùi Trung Thành - CT1301 Page 56 án t t nghi - i h c dân l p H i Phòng Tìm ki m Top X Color u tiên ta so sánh s màu th c t nh s c m màu, n u s màu th c t nh c m màu ta nh n s c m màu s màu th c t T o danh sách ch a lo ph n t p x p chúng theo th t gi m d n L y X u tiên c a danh sách Hình 13: Tìm ki m top x color - Tính kho ng cách phân c m: D a vào kho ng cách Euclide tính kho ng cách màu c tâm c m D a vào kho m v i m vào c m mà kho ng cách t i tâm c m nh nh t Bùi Trung Thành - CT1301 Page 57 án t t nghi d (i, j ) - xi1 i h c dân l p H i Phòng x j1 xi x j2 xip x jp Tính l i tr ng tâm i v i m i c m tính tốn l m trung tâm c a d a t t c m thu c vào c - Ki u ki n h i t Quá trình phân c m k t thúc n u: + Khơng có (ho ) vi c gán l + Khơng có (ho c có ) vi m vào c m khác i tr ng tâm c a c m 3.4.3 - t c l p trình v i ngơn ng h - t ch y th u hành Window M t s giao di n Bùi Trung Thành - CT1301 Page 58 án t t nghi i h c dân l p H i Phòng Hình 14: Giao di n c Hình 15: Ch n u vào Hình 16:K t qu c a trình phân c m nh 3.4.4 a) means m Bùi Trung Thành - CT1301 Page 59 án t t nghi i h c dân l p H i Phòng - ph c t p c a thu + n: S m không gian d li u + k: S c m c n phân ho ch + t: S l n l p (t nh so v i r) - K-means phù h p v i c m có d ng hình c u b) Khuy + vi c ch m mb ct m kh c k t qu thu t gi i di truy + C n ph u ph thu c nhi u vào ph i ch y l i thu t toán v i nhi u b kh + c k t qu t t Trong th c t , có th áp d ng phát sinh b kh u c s c m nh s c m th c s mà không gian d li ph i th v i giá tr k khác + Khó phát hi n lo i c m có hình d ng ph c t p nh t d ng c m không l i + Không th x lý nhi u m u cá bi t + Ch có th áp d c tr ng tâm Bùi Trung Thành - CT1301 Page 60 án t t nghi i h c dân l p H i Phòng K T LU N A K t qu c Trong trình nghiên c u mc th án t t nghi p n nh c thêm r t nhi u ki n n th y phân c m d li u khai phá d li u m r ng l c ng d ng r t m nh m c n a r t nhi u v tài c c mà g ng tìm hi u nghiên c u t ng quan v khai phá d li u, phân c m d li u m t s thu t tốn c a nó, t ng quan v d n t th nghi m thu t toán k means ng n nh Do th i gian th c hi n h n ch ki n th c h n ch nên em m i ch nghiên c u c m t s k thu nghi m v i thu t toán k n phân c m d li means Còn m t s k thu t em v t th u, khai thác ng d ng vào toán th c t M tc g có h n nên trình th c hi n th c t i nh ng thi u sót Kính mong th y cô b ch b c a em m t hoàn thi B ng phát tri Trong th i gian t i em s c g ng ti p t c nghiên c u, tìm hi u thêm m t s t phân c m nh t có th tìm hi u phát tri n k thu có th x lý v i n ng Bùi Trung Thành - CT1301 Page 61 án t t nghi i h c dân l p H i Phòng TÀI LI U THAM KH O [1] - Nguy n Th Ng c, Phân c m d li u d a m h c Ngành công ngh Thông tin án t t nghi i i Phòng, 2008 [2] - Tr n Th Qu nh, Thu t toán phân c m d li u n a giám sát gi i thu t di truy n, án t t nghi p i h c Ngành cơng ngh Thơng tin i Phòng, 2008 [3] - Nguy n Lâm, Thu t toán phân c m d li u n a giám sát,nghi i h c Ngành công ngh Thông tin án t t i Phòng, 2007 [4] - Charles Elkan, Department of Comput er Science and Engineering, University of California, San Diego La jolla, CA 92093 [5] - Andre w W Moore Associate Professoor School of Computer Science, Carnegil Mellon University [6] - J.Han, M Kamber and A.K.H Tung, Spatial Clustering Methods in Data Mining, Sciences and Engineering Research Council of Canadia Bùi Trung Thành - CT1301 Page 62 án t t nghi Bùi Trung Thành - CT1301 i h c dân l p H i Phòng Page 63 ... toán phân c m d li u 24 2.4.1 pháp phân c m phân ho ch 24 2.4.2 pháp phân c m phân c p 24 2.4.3 pháp phân c m d a m t 26 2.4.4 pháp phân c m d a i 29 2.4.5 pháp. .. p H i Phòng ng ti p c n c a toán phân c m d li u phân ho a m d i, phân c m d a mơ hình, phân c m d a ràng bu c 2.4.1 pháp phân phân ho ch phân c m phân ho chnh m phân m t t p d li u có n ph n... toán phân ho chd li nghi m t c cho v phân ho ch có th c ph c t p r t l nh PCDL, ph i tìm ki m t t c cách M t s thu t toán phân c m phân ho - MEANS, PAM, CLARA, CLARANS 2.4.2 pháp phân phân Phân