ThS37 063 nghiên cứu một số phương pháp phân cụm mờ và ứng dụng

90 346 0
ThS37 063 nghiên cứu một số phương pháp phân cụm mờ và ứng dụng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC THÁI NGUYÊN KHOA CÔNG NGHỆ THÔNG TIN AN HỒNG SƠN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ VÀ ỨNG DỤNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60 48 01 LUẬN VĂN THẠC SĨ KHOA HỌC HƯỚNG DẪN KHOA HỌC: PGS.TS NGÔ QUỐC TẠO THÁI NGUYÊN - 2008 Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC HÌNH MINH HOẠ Chƣơng - TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KPDL 1.1 Giới thiệu chung khám phá tri thức khai phá liệu 1.2 Quá trình khám phá tri thức 1.3 Quá trình khai phá liệu 1.4 Các phƣơng pháp khai phá liệu 1.5 Các lĩnh vực ứng dụng thực tiễn KPDL 10 1.6 Các hƣớng tiếp cận kỹ thuật áp dụng KPDL 11 1.7 Các thách thức - khó khăn KPTT KPDL 12 1.8 Kết luận 12 Chƣơng - PHÂN CỤM DỮ LIỆU VÀ CÁC THUẬT TOÁN TRONG PCDL 13 2.1 Khái niệm mục tiêu phân cụm liệu 13 2.2 Các ứng dụng phân cụm liệu 15 2.3 Các yêu cầu phân cụm 16 2.4 Những kỹ thuật tiếp cận phân cụm liệu 18 2.5 2.4.1 Phƣơng pháp phân cụm phân hoạch 19 2.4.2 Phƣơng pháp phân cụm phân cấp 19 2.4.3 Phƣơng pháp phân cụm dựa mật độ 20 2.4.4 Phƣơng pháp phân cụm dựa lƣới 21 2.4.5 Phƣơng pháp phân cụm dựa mô hình 22 2.4.6 Phƣơng pháp phân cụm có liệu ràng buộc 22 Một số thuật toán phân cụm liệu 24 2.5.1 Các thuật toán phân cụm phân hoạch 24 2.5.2 Các thuật toán phân cụm phân cấp 26 2.5.3 Các thuật toán phân cụm dựa mật độ 29 2.5.4 Các thuật toán phân cụm dựa lƣới 32 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 2.5.5 Các thuật toán phân cụm dựa mô hình 35 2.5.6 Các thuật toán phân cụm có liệu ràng buộc 36 Chƣơng - KỸ THUẬT PHÂN CỤM DỮ LIỆU MỜ 37 3.1 Tổng quan phân cụm mờ 37 3.2 Các thuật toán phân cụm mờ 38 3.2.1 Thuật toán FCM(Fuzzy C-means) 39 3.2.1.1 Hàm mục tiêu 39 3.2.1.2 Thuật toán FCM 42 3.2.2 Thuật toán FCM(ε- Insensitive Fuzzy C-means) 46 3.2.2.1 Hàm mục tiêu 46 3.2.2.2 Thuật toán FCM 48 3.2.3 Thuật toán FCM Cải tiến 49 3.2.3.1 Thuật toán 1: Thuật toán lựa chọn điểm liệu làm ứng viên cho việc chọn trung tâm cụm 49 3.2.3.2 Thuật toán 2: Thuật toán lƣợc bớt ứng viên 51 3.2.3.3 Thuật toán 3: Thuật toán chọn ứng viên làm cực tiểu hàm mục tiêu 51 3.2.3.4 Thuật toán 4: Gán trung tâm có liên kết “gần gũi” vào cụm 52 3.2.3.5 Tổng kết thuật toán FCM-Cải tiến 56 Chƣơng - MÔ HÌNH MẠNG NƠRON ĐA KHỚP DÙNG CHO PCM 58 4.1 Tổng quan mạng Nơron 58 4.2 Cấu trúc mạng Nơron 61 4.2.1 Hàm kích hoạt 61 4.2.2 Liên kết mạng 61 Bài toán huấn luyện mạng 61 Mạng HOPFIELD 62 4.2.3 4.3 4.3.1 4.3.2 Huấn luyện mạng 62 Sử dụng mạng .63 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 4.4 4.5 4.6 Mạng Nơron đa khớp dùng cho phân cụm 63 4.4.1 Xây dựng lớp mạng Layer1 cho tối ƣu trung tâm cụm 65 4.4.2 Xây dựng lớp mạng Layer2 cho tối ƣu độ thuộc 68 Sự hội tụ FBACN 72 4.5.1 Chứng minh hội tụ FBACN 72 4.5.2 Sự hội tụ FBACN liên tục Layer1 74 Giải thuật FBACN FBACN với việc học 75 Chƣơng - CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG 79 5.1 Cài đặt thử nghiệm thuật toán FCM 79 5.2 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh 82 KẾT LUẬN 86 TÀI LIỆU THAM KHẢO 87 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT CNTT Công nghệ thông tin CSDL Cơ sở liệu CEF Computational Energy Function DL Dữ liệu FBACN Fuzzy Bi-directional Associative Clustering Network (Mạng Nơron đa khớp phục vụ cho phân cụm mờ) FCM Fuzzy C-Means HMT Hàm mục tiêu KPDL Khai phá liệu KPTT Khám phá tri thức LKM Liên kết mạng MH Mô hình NDA Nhận dạng ảnh NN Neural Network PCM Phân cụm mờ PCDL Phân cụm liệu TLTK Tài liệu tham khảo TT Thuật toán XLA Xử lý ảnh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn DANH MỤC CÁC HÌNH MINH HOẠ Hình 1.1 Quá trình Khám phá tri thức Hình 1.2 Quá trình Khai phá liệu Hình 2.1 Mô tả tập liệu vay nợ đƣợc phân thành cụm 114 Hình 2.2 Các chiến lƣợc phân cụm phân cấp .220 Hình 2.3 Cấu trúc phân cấp 221 Hình 2.4 Các cách mà cụm đƣa 23 Hình 2.5 Các thiết lập để xác định ranh giới cụm ban đầu 24 Hình 2.6 Tính toán trọng tâm cụm 25 Hình 2.7 Khái quát thuật toán CURE 27 Hình 2.8 Các cụm liệu đƣợc khám phá CURE 27 Hình 2.9 Hình dạng cụm đƣợc khám phá TT DBSCAN 30 Hình 3.1 Mô tập liệu đơn chiều 44 Hình 3.2 Hàm thuộc với trọng tâm cụm A k-means 44 Hình 3.3 Hàm thuộc với trọng tâm cụm A FCM 45 Hình 3.4 Các cụm khám phá đƣợc thuật toán FCM 46 Hình 4.1 Mô hình mạng Nơron 60 Hình 4.2 Mô hình học có giám sát 62 Hình 4.3 Mô hình FBACN 64 Hình 4.4 Mô hình Lớp Layer1 FBACN 65 Hình 4.5 Mô hình Lớp Layer2 FBACN 69 Hình 5.1 Giao diện thuật toán FCM khởi động 80 Hình 5.2 Giao diện thuật toán FCM làm việc 81 Hình 5.3 Giao diện chƣơng trình khởi động 83 Hình 5.4 Giao diện chƣơng trình chọn ảnh để phân cụm 84 Hình 5.5 Giao diện chƣơng trình thực phân cụm 85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn CHƢƠNG TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 Giới thiệu chung khám phá tri thức khai phá liệu Quá trình khám phá tri thức Quá trình khai phá liệu Các phƣơng pháp khai phá liệu Các lĩnh vực ứng dụng thực tiễn KPDL 10 Các hƣớng tiếp cận kỹ thuật áp dụng KPDL 11 Các thách thức - khó khăn KPTT KPDL 12 Kết luận 12 1.1 Giới thiệu chung khám phá tri thức khai phá liệu Nếu cho rằng, điện tử truyền thông chất khoa học điện tử, liệu, thông tin, tri thức tiêu điểm lĩnh vực để nghiên cứu ứng dụng, khám phá tri thức khai phá liệu Thông thƣờng, coi liệu nhƣ chuỗi bits, số ký hiệu “đối tƣợng” với ý nghĩa đƣợc gửi cho chƣơng trình dƣới dạng định Các bits thƣờng đƣợc sử dụng để đo thông tin, xem nhƣ liệu đƣợc loại bỏ phần tử thừa, lặp lại, rút gọn tới mức tối thiểu để đặc trƣng cách cho liệu Tri thức đƣợc xem nhƣ thông tin tích hợp, bao gồm kiện mối quan hệ chúng, đƣợc nhận thức, khám phá, nghiên cứu Nói cách khác, tri thức đƣợc coi liệu mức độ cao trừu tƣợng tổng quát Khám phá tri thức hay phát tri thức CSDL quy trình nhận biết mẫu mô hình liệu với tính năng: Phân tích, tổng hợp, hợp thức, khả ích hiểu đƣợc Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Khai phá liệu bƣớc trình khám phá tri thức, gồm thuật toán khai thác liệu chuyên dùng dƣới số qui định hiệu tính toán chấp nhận đƣợc để tìm mẫu mô hình liệu Nói cách khác, mục tiêu Khai phá liệu tìm kiếm mẫu mô hình tồn CSDL nhƣng ẩn khối lƣợng lớn liệu 1.2 Quá trình khám phá tri thức Hình 1.1: Quá trình KPTT Bao gồm bƣớc sau: Làm liệu (Data Cleaning): Loại bỏ liệu nhiễu liệu không quán Tích hợp liệu (Data Intergation): Dữ liệu nhiều nguồn đƣợc tổ hợp lại Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Lựa chọn liệu (Data Selection): Lựa chọn liệu phù hợp với nhiệm vụ phân tích trích rút từ sở liệu Chuyển đổi liệu (Data Transformation): Dữ liệu đƣợc chuyển đổi hay đƣợc hợp dạng thích hợp cho việc khai phá Khai phá liệu (Data Mining): Đây tiến trình cốt yếu phƣơng pháp thông minh đƣợc áp dụng nhằm trích rút mẫu liệu Đánh giá mẫu (Pattern Evaluation): Dựa độ đo xác định lợi ích thực sự, độ quan trọng mẫu biểu diễn tri thức Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn kỹ thuật biểu diễn hiển thị đƣợc sử dụng để đƣa tri thức lấy cho ngƣời dùng 1.3 Quá trình khai phá liệu KPDL giai đoạn quan trọng trình KPTT Về chất, giai đoạn tìm đƣợc thông tin mới, thông tin tiềm ẩn có CSDL chủ yếu phục vụ cho mô tả dự đoán Mô tả liệu tổng kết diễn tả đặc điểm chung thuộc tính liệu kho liệu mà ngƣời hiểu đƣợc Dự đoán dựa liệu thời để dự đoán quy luật đƣợc phát từ mối liên hệ thuộc tính liệu sở chiết xuất mẫu, dự đoán đƣợc giá trị chƣa biết giá trị tƣơng lai biến quan tâm Quá trình KPDL bao gồm bƣớc đƣợc thể nhƣ Hình 1.2 sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn Thống kê tóm tắt Xác định nhiệm vụ Xác định DL liên quan Thu thập tiền xử lý DL Thuật toán KPD L DL trực tiếp Mẫu Hình 1.2: Quá trình KPDL  Xác định nhiệm vụ: Xác định xác vấn đề cần giải  Xác định liệu liên quan: Dùng để xây dựng giải pháp  Thu thập tiền xử lý liệu: Thu thập liệu liên quan tiền xử lý chúng cho thuật toán KPDL hiểu đƣợc Đây trình khó khăn, gặp phải nhiều vƣớng mắc nhƣ: liệu phải đƣợc nhiều (nếu đƣợc chiết xuất vào tệp), quản lý tập liệu, phải lặp lặp lại nhiều lần toàn trình (nếu mô hình liệu thay đổi), v.v  Thuật toán khai phá liệu: Lựa chọn thuật toán KPDL thực việc PKDL để tìm đƣợc mẫu có ý nghĩa, mẫu đƣợc biểu diễn dƣới dạng luật kết hợp, định tƣơng ứng với ý nghĩa 1.4 Các phƣơng pháp khai phá liệu Với hai mục đích khai phá dƣ liệu Mô tả Dự đoán, ngƣời ta thƣờng sử dụng phƣơng pháp sau cho khai phá liệu:  Luật kết hợp (association rules)  Phân lớp (Classfication)  Hồi qui (Regression)  Trực quan hóa (Visualiztion) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 75 hàm cấp hàm f x Giả sử f '' (net j )  ta có netj=0 Vì vậy, giá trị max f ' đạt cực đại địa phƣơng netj = giá trị  j rj ' ' fmax  f (net j )  (45) ' '  ji  2n fmax  2n. j rj (46) Mặt khác 2n   ji  nên ta có  fmax 1 Ta có n. j rj   rj  (47) với s số lƣợng Nơron có mạng s s.n. j s  c  p lớp Layer1 Vì ta chọn rj  , ta n. j s '  ji  c**  tìm đƣợc số c**  (0,1) cho fmax s (48) Điều thỏa mãn điều kiện định lý nên ta có mạng hội tụ đến điểm Kết luận: Quá trình tính toán chứng minh, ta có đƣợc kết sau:  Với Layer1, mạng thoả mãn giả thuyết định lý 1, nên mạng hội tụ  Với Layer2, mạng thoả mãn giả thuyết định lý 2, nên mạng hội tụ 4.6 Giải thuật FBACN FBACN với việc học Giải thuật FBACN đƣợc thực qua bƣớc sau: GIẢI THUẬT CỦA FBACN 1) Thiết lập giá trị c, m, λ, ε hệ số iδv, iδu lớp Layer1 Layer2 tƣơng ứng 2) Đặt hệ số ổn định  v u cho Layer1 Layer2 tƣơng ứng 3) Khởi tạo ngẫu nhiên trung tâm cụm v(i1) pl , i=1, 2, , c l = 1, , n Layer1 lớp thành viên u i ,k   M fc với k=1, 2, Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 76 .,n i = 1, 2, ,c Layer2 4) Cập nhật hệ số  v  i v  u  i u giá trị mạng ban đầu j j net(0) j  với j =1, 2, , s (s=c.p Layer1 s=n.c Layer2) 5) Thiết lập số hồi quy g =1 cho Layer1 6) Trong Layer1, tính ma trận trọng số W theo công thức (12), ma trận tín hiệu vào bên I theo công thức (11), giá trị mạng NET theo công thức (4) 7) For j = to s if net (j g ) net (j g 1)  then  v :  v / ; j j 8) For j = to s if net (j g )  then v j : v j   v j else v j : v j   v j 9) if (( v   v ) & ( v   v ) & & ( v   v ) then goto 10) s else {g:= g+1; goto 6)} 10) Đặt số hồi quy g=1 cho Layer2 11) Trong Layer2, tính ma trận trọng số W theo công thức (23), ma trận trọng số Z theo công thức (24) I  2 ,2 , , 2 T ma trận NET  W.U  m 1  Z U  I 12) For j = to s if net (g) net( g1)  then  :  / ; u u j j j j 13) For j = to s if net ( g)  then u : u   j j uj j Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 77 else u : u   u j j j 14) if (( u  u ) & ( u  u ) & & ( u  u ) then goto 15) s else {g:= g+1; goto 11)} 15) if U (g)  U(g1)   then Stop else goto Đối với FBACN với việc học thuật toán tƣơng tự nhƣ FBACN, nhƣng từ bƣớc 10 đến bƣớc thứ 14 đƣợc thay 10’ đến 17’ Trƣớc hết ta định nghĩa số tham số: p0 số tỉ lệ xác suất nằm [0,1], sử dụng để tính xác suất EquiCycle chu kỳ thăng ấm(có nghĩa vòng lặp xử lý cần giữ thăng ấm nhiệt độ T) Tstart nhiệt độ xung quanh, Tstop nhiệt độ dừng(tức dừng việc học) Tstep tổng nhiệt độ thấp vòng lặp Giải thuật FBACN với việc học đƣợc thực nhƣ sau: GIẢI THUẬT CỦA FBACN VỚI VIỆC HỌC 1’ -> 9’ = -> FBACN 10’) Đặt T = Tstart 11’) Đặt số hồi quy g = cho Layer2 12’) Trong Layer2, tính giá trị ma trận trọng số W theo công thức (23), ma trận trọng số Z theo công thức (24) ma trận tín hiệu vào từ bên I ma trận giá trị mạng NET 13’) if g  EquiCycle then { For j =1 to s p (j g )  { Tính xác xuất p0 1enet j u / T j ; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 78 a(j g )  Rand ( 0,1) }} esle { For j =1 to s { p(jg)  0; a(jg)  }}; 14’) for j = to s if ((net(jg).net(jg1) )  0) &(a(jg1) p(jg1)  0)) then  u :  u / j j 15’) for j =1 to s { a(jg)  p(jg) if then { if Rand([0,1])  0.5 then else else { if net(jg)  else 16’) if u j : u j   u j j } then u j : u j   u u j : u j  u u j : u j  u j j }} (( u1  u ) & (u2  u ) & & (us  u ) then goto 17’) else {g:= g+1; goto 12’)} 17’) if T>Tstop then {T:=T-Tstep; goto 11’)} else goto 18’) 18’) if U (g)  U(g1)   then Stop else goto 4) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 79 CHƢƠNG CÀI ĐẶT THỬ NGHIỆM VÀ ỨNG DỤNG 5.1 5.2 Cài đặt thử nghiệm thuật toán FCM 79 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh 82 Chƣơng trình bày kết xây dựng chƣơng trình thử nghiệm thuật toán FCM ứng dụng thuật toán FCM-Cải tiến vào trình nhận dạng ảnh 5.1 Cài đặt thử nghiệm thuật toán FCM FCM thuật toán đƣợc áp dụng nhiều phân cụm liệu hiệu tính thực tốt Thuật toán FCM đƣợc bắt đầu cách chọn C cụm chọn ngẫu nhiên c điểm làm trung tâm cụm chọn phân hoạch ngẫu nhiên C cụm tính trọng tâm cụm Nếu số lƣợng liệu nhỏ số cụm ta gán liệu trọng tâm cụm, trọng tâm có số cụm Nếu số lƣợng liệu lớn số cụm, với liệu, ta tính toán độ tƣơng tự có trọng số điểm trọng tâm cụm lấy khoảng cách tối thiểu Dữ liệu thuộc cụm có khoảng cách tối thiểu tới liệu Khi không chắn vị trí trọng tâm, ta cần điều chỉnh vị trí trọng tâm dựa vào liệu cập nhật Sau đó, ta gán tất liệu tới trọng tâm Quá trình đƣợc lặp lại không liệu di chuyển sang cụm khác Về mặt toán học, vòng lặp chứng minh hội tụ cực tiểu cục Quá trình cài đặt thuật toán đƣợc mô thông qua giao diện chƣơng trình nhƣ Hình 5.1 Hình 5.2 dƣới đây:  Ngôn ngữ sử dụng Visual C++ 6.0  Tham số ban đầu: Số cụm = 3, tham số mũ m =  Dữ liệu đầu vào điểm màu khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 80 Hình 5.1: Giao diện chƣơng trình khởi động Khi ngƣời sử dụng nhập số cụm vào khung “Nhập số cụm”, kích chuột vào khung chƣơng trình để tạo điểm cụm, vị trí điểm đƣợc thể khung “Toạ độ xy” Chƣơng trình tự động tạo cụm liệu cách tối giản tổng bình phƣơng khoảng cách liệu trọng tâm cụm tƣơng ứng ta kích chuột vào khung chƣơng trình để tạo điểm Mỗi điểm tọa độ biểu thị cho đối tƣợng với mô tả hai thuộc tính đối tƣợng màu sắc điểm số nhãn biểu thị cho cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 81 Dƣới hình ảnh thu đƣợc chạy chƣơng trình với số cụm nhập vào cụm Hình 5.2: Giao diện chƣơng trình làm việc Chƣơng trình tự động phân thành cụm thông qua số màu cụm tâm cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 82 5.2 Ứng dụng thuật toán FCM-Cải tiến vào nhận dạng ảnh Bài toán nhận dạng trình phân loại đối tƣợng đƣợc biểu diễn theo mô hình gán cho chúng vào lớp dựa theo quy luật mẫu chuẩn Nhận dạng có nhiều ứng dụng, đƣợc áp dụng vào nhiều lĩnh vực, chẳng hạn nhƣ nhận dạng vân tay, nhận dạng chữ viết, nhận dạng ảnh… Và phân cụm màu bƣớc quan trọng trình nhận dạng ảnh Do số lƣợng điểm ảnh lớn, thƣờng 80.000 điểm ảnh số lƣợng màu mẫu liệu ảnh phụ thuộc vào độ sắc nét ảnh Nếu ảnh có chất lƣợng tốt số lƣợng màu lớn, nhƣng dù ảnh có chất lƣợng nhƣ số lƣợng màu lớn Mặt khác, nhận dạng ảnh, quan tâm tới số yếu tố định, chẳng hạn nhƣ mắt, lông mày, miệng da, nên số lƣợng màu mà ta quan tâm không lớn lắm, áp dụng thuật toán FCM-Cải tiến vào việc phân cụm màu nhận dạng ảnh ứng dụng cần thiết toán Quá trình ứng dụng thuật toán FCM-Cải tiến đƣợc mô thông qua giao diện chƣơng trình với Hình 5.3, Hình 5.4 Hình 5.5 dƣới đây:  Ngôn ngữ sử dụng Visual C++ 6.0  Tham số ban đầu: Khai báo mảng lƣu trữ số lƣợng màu ảnh, mảng lƣu trữ số trung tâm cụm, số lƣợng cụm, tham số mũ  Dữ liệu đầu vào File ảnh màu(Bitmap)  Dữ liệu đầu ảnh màu đƣợc nhận dạng với số cụm màu đƣợc thuật toán FCM-Cải tiến thực phân cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 83 Hình 5.3: Giao diện chƣơng trình khởi động Khi chƣơng trình khởi động xong, ta chọn ảnh nguồn để thực cách ấn vào nút “Mở File Ảnh” chọn ảnh cần thực nhƣ Hình 5.4 dƣới đây: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 84 Hình 5.4: Giao diện chƣơng trình chọn ảnh để phân cụm Sau chọn xong, ta ấn vào nút “Thực phân cụm” Chƣơng trình thực trình nhận dạng phân cụm màu theo thuật toán FCM-Cải tiến hiển thị kết khung “Ảnh Đích” nhƣ Hình 5.5 dƣới Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 85 Hình 5.5: Giao diện chƣơng trình thực phân cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 86 KẾT LUẬN Trong trình tìm hiểu hoàn thành luận văn tốt nghiệp với đề tài “Nghiên cứu số phương pháp phân cụm mờ ứng dụng”, dù đạt đƣợc kiến thức định, nhƣng em nhận thấy phân cụm liệu KPDL nói chung phân cụm liệu mờ nói riêng lĩnh vực nghiên cứu rộng lớn, nhiều triển vọng Đề tài cố gắng tập trung tìm hiểu, nghiên cứu trình bày đƣợc số kỹ thuật thuật toán phân cụm liệu phổ biến, số kỹ thuật phân cụm mờ mô hình mạng nơron đa khớp dùng cho phân cụm mờ KPDL nay, trình bày số cải tiến thuật toán phân cụm mờ(FCM-Cải tiến) dựa phƣơng pháp có, cài đặt thử nghiệm thuật toán phân cụm mờ(FCM) với ứng dụng phân cụm điểm màu thực cài đặt ứng dụng thuật toán FCM-Cải tiến việc phân cụm màu toán nhận dạng ảnh màu Tuy nhiên, hạn chế tài liệu thời gian nên em tìm hiểu đƣợc số kỹ thuật điển hình phân cụm đặc biệt phân cụm mờ, cài đặt thử nghiệm số thuật toán ứng dụng nhƣng số kỹ thuật khác chƣa đƣợc tìm hiểu khai thác, cài đặt thử nghiệm chƣa áp dụng đƣợc cho toán phân cụm tổng quát Trong thời gian tới em tiếp tục nghiện cứu thêm số kỹ thuật phân cụm đặc biệt thuật toán phân cụm mờ kết hợp song song ứng dụng vào số toán thực tế Việt Nam hy vọng dần đƣa kiến thức có từ đề tài sớm trở thành thực tế, phục vụ cho sống ngƣời Học viên thực An Hồng Sơn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 87 TÀI LIỆU THAM KHẢO Tài liệu Tiếng Việt: Phan Đình Diệu (1999), “Lô Gích Các Hệ Tri Thức”, NXB Đại học Quốc gia Hà Nội, Hà Nội Nguyễn Trọng Thuần, “Điều khiển Logic ứng dụng”, Nhà xuất Khoa học Kỹ thuật, 2004 Bùi Công Cƣờng Nguyễn Doãn Phƣớc, “Hệ mờ, mạng nơron ứng dụng ”, NXB Khoa học kỹ thuật, 2006 Vũ Thanh Nguyên, “Ứng dụng logic mờ, mạng nơron mờ, hệ luật mờ phân tích dự báo mặt hàng chiến lược”, Hội thảo khoa học Hệ mờ, mạng nơron ứng dụng, lần 1, Hà nội 8-9/11/2006 Ngô Quốc Tạo, “Giáo trình Xử Lý Ảnh”, Lớp CHCLC-ĐH Công Nghệ-ĐHQG Hà Nội 2001-2002 Ngô Quốc Tạo, “Bài giảng môn Data Mining”, Lớp CHK5-ĐH Thái Nguyên 2006-2008 Ngô Quốc Tạo, “Bài giảng môn Xử Lý Ảnh”, Lớp CHK5-ĐH Thái Nguyên 2006-2008 Tài liệu Tiếng Anh: Daniel T Larose, “Discovering Knowledge in Data: An Introduction toData Mining”, ISBN 0-471-66657-2 CopyrightC 2005 John Wiley & Sons, Inc A Arning, R Agrawal, and P Raghavan Alinear method for deviation detection in larger databases, “In Proc 1996 Int Conf Data Mining and Knowledge Discovery (KDD-96)”, Portland, Oregon, August 1996 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 88 10 P.S Bradley, U Fayyad, C Reina, Scaling Clustering Algorithms to Large Databases, “In Proc of 4th International conference on Knowledge Discovery and Dala Mining (Kdd-98)”, New York 1998 11 D Fisher, “Knowledge acquisition via incremental conceptual clustering, In Machine Learning”, pp 139-/72, 1987 12 D Gibson, J Kleinberg, P Raghavan, “Clustering Categorical Data: An Approach Based on Dynamical Systems”, VLDB Journal (3-4) pp 222-236, 2000 13 J Han, M Kamber, “Data Mining Concepts and Techniques”, Morgan Kaufmann Publishers, 2001 14 A.K Jain, R.C Dubes, “Algorithms for clustering data”, Ptentice Hall, Englewood Cliffs, NJ, 1988 15 R.A Jarvis, E.A Patrick, “Clustering using a similarity measure based on shared near neighbors”, IEEE Transactions on Computers C22, pp 1025-1034, 1973 16 M Manago, Y Kodratoff, “Inđuction of Decision Trees from Complex Structuted Data, In Knowledge Discovery in Databases”, AAAI/Th MIT press, pp 289-306, 1991 17 J.C.Bezdek, “Pattern Recognition with fuzzy Objective Function Algorithms”, New York, Plenum, 1981 18 W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 19 M.P.Windham, “Cluster validity for fuzzy clustering algorithms”, “Fuzzy Sets and System”, vol 3, pp 177-183, 1981 20 W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn 89 21 G.Bueno, R.Gonzalez, J.Gonzalez, and M.Garcia-Rojo, “Fuzzy colour C-means clustering for pattern segmentation in histological images”, The 3rd European Medical and Biological Engineering Conference, 2005 22 Chih-Hsiu Wei, Chin - Shyurng Fahn, “The multisynapse neural network and its application to fuzzy clustering” 23 J.H.Wang and C.Y.Peng, “Optimal clustering using neural network”, in Proc IEEE Int Conf Syst., Man, Cybern., vol.2, 1998, pp.1625-1630 24 Y.Guo, X.Yin, and W.Gong, “ART2 neural network clustering for hierarchical simulation”, in Proc SPIE Int Soc.Opt.Eng., vol 2.1998, pp.35-48 25 M.F.Augusteijn and U.J.Steck, “Supervised adaptive clustering: A hybrid neural network clustering algorithm”, neural Comput.Applicat., vol.7,no 1, pp.78-89, 1998 26 E C Tsao, J C Bezdek, and N R Pal, “Fuzzy Kohonen clustering network”, Patterm recognition, vol.27, no.5, pp.757-764, 1994 27 J Lin, K Cheng, and C.Mao, “A fuzzy Hopfield neural network for medical image segmentation”, IEEE Trans Nuclear Sci., vol.43, 1996 28 Hathaway R.J and Bezdek J.CNTT (2000), “Generalized fuzzy c-means clustering Strategies using LP Norm Distances”, IEEE Trans.Fuzzy Syst, No 5, pp.576-582 29 J.E.Steck and S.N.Balakrishnan, “Use of Hopfield newral networks in optimal guidance”, IEEE Trans Aerosp.Electron Syst., vol.30, no.1, pp 287-293, Jan.1994 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 http://www.lrc-tnu.edu.vn [...]... của phân cụm dữ liệu 13 Các ứng dụng của phân cụm dữ liệu 15 Các yêu cầu của phân cụm 16 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 18 2.4.1 Phƣơng pháp phân cụm phân hoạch 19 2.4.2 Phƣơng pháp phân cụm phân cấp 19 2.4.3 Phƣơng pháp phân cụm dựa trên mật độ 20 2.4.4 Phƣơng pháp phân cụm dựa trên lƣới 21 2.4.5 Phƣơng pháp phân cụm. .. liệu và Phân cụm dữ liệu 1.5 Các lĩnh vực ứng dụng thực tiễn của KPDL KPDL là một lĩnh vực mới phát triển nhƣng thu hút đƣợc khá nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó Sau đây là một số lĩnh vực ứng dụng thực tế điển hình của KPDL: - Phân tích dữ liệu và hỗ trợ ra quyết định - Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phân cụm ảnh màu - Chuẩn đoán triệu chứng,... các phƣơng pháp phân cụm Thứ hai, ta đƣa ra một cách phân loại chung trong các phƣơng pháp phân cụm Sau đó, ta nghiên cứu chi tiết mỗi phƣơng pháp phân cụm, bao gồm các phƣơng pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong không gian đa chiều và các biến thể của các phƣơng pháp khác 2.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu Các kỹ thuật phân cụm có rất nhiều... tốt và thỏa mãn các ràng buộc Dễ hiểu và dễ sử dụng: Ngƣời sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần đƣợc giải thích ý nghĩa và ứng dụng rõ ràng Với những yêu cầu đáng lƣu ý này, nghiên cứu của ta về phân tích phân cụm diễn ra nhƣ sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể gây ảnh hƣởng tới các phƣơng pháp. .. pháp phân cụm có dữ liệu ràng buộc 22 2.5 Một số thuật toán cơ bản trong phân cụm dữ liệu 24 2.5.1 Các thuật toán phân cụm phân hoạch 24 2.5.2 Các thuật toán phân cụm phân cấp 26 2.5.3 Các thuật toán phân cụm dựa trên mật độ 29 2.5.4 Các thuật toán phân cụm dựa trên lƣới 32 2.5.5 Các thuật toán phân cụm dựa trên mô hình 35 2.5.6 Các thuật toán phân cụm. .. thông qua bƣớc phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phƣơng pháp PCDL cổ điển, hiện đã có rất nhiều thuật toán cải tiến dựa trên hai phƣơng pháp này đã đƣợc áp dụng phổ biến trong KPDL 2.4.3 Phương pháp phân cụm dựa trên mật độ Kỹ thuật này nhóm các đối tƣợng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tƣợng lân cận của một đối tƣợng dữ liệu theo một nghĩa nào... phát triển và áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu đƣợc phát triển trên cơ sở của các phƣơng pháp đó nhƣ: Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tƣơng tự để phân hoạch các đối tƣợng, nhƣng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số Phân cụm khái niệm: Kỹ thuật này đƣợc phát triển áp dụng cho dữ... đƣợc phân thành 3 cụm Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con ngƣời Ngay từ lúc bé, con ngƣời đã học cách làm thế nào để phân biệt giữa mèo và chó, giữa động vật và thực vật và liên tục đƣa vào sơ đồ phân loại trong tiềm thức của mình Phân cụm đƣợc sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trƣờng Với tƣ cách là một chức... 36 2.1 Khái niệm và mục tiêu của phân cụm dữ liệu Phân cụm dữ liệu là quá trình nhóm một tập các đối tƣợng tƣơng tự nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là tƣơng đồng còn các đối tƣợng thuộc các cụm khác nhau sẽ không tƣơng đồng Phân cụm dữ liệu là một ví dụ của phƣơng pháp học không có thầy Không giống nhƣ phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi... một ô Phƣơng pháp này gần giống với phƣơng pháp phân cụm phân cấp nhƣng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phƣơng pháp phân phân cụm dựa trên mật độ không giải quyết đƣợc Ƣu điểm của phƣơng pháp phân cụm dựa trên lƣới là thời gian xử lí nhanh và độc lập với số đối tƣợng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số

Ngày đăng: 13/07/2016, 10:39

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan