Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
1,21 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG TRẦN THỊ YẾN PHÂN CỤM DỮ LIỆU TRỪ MỜ VÀ ỨNG DỤNG Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS LÊ BÁ DŨNG Thái Nguyên - 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Lê Bá Dũng, ngƣời tận tình hƣớng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin đƣợc bày tỏ lòng biết ơn tới thầy tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể lớp nói chung cá nhân em nói riêng Tơi xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp ủng hộ, động viên giúp đỡ để tơi hồn thành tốt luận văn Tơi xin gửi lời cảm ơn tới Ban giám hiệu trƣờng Đại học Khoa học, Ban chủ nhiệm Khoa Toán-Tin tạo điều kiện thuận lợi cho tơi tham gia khóa học hoàn thành luận văn Một lần nữa, xin chân thành cảm ơn Thái Nguyên, tháng 09 năm 2012 Học viên Trần Thị Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết tìm hiểu, nghiên cứu tài liệu cách nghiêm túc dƣới hƣớng dẫn PGS TS Lê Bá Dũng Nội dung luận văn đƣợc phát triển từ ý tƣởng, sáng tạo thân kết có đƣợc hồn tồn trung thực Học viên Trần Thị Yến Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN iii MỤC LỤC iv DANH MỤC CÁC TỪ VIẾT TẮT vi DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH vii MỞ ĐẦU .1 Chƣơng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu 1.2 Các ứng dụng phân cụm liệu 1.3 Các yêu cầu phân cụm liệu 1.4 Các kỹ thuật tiếp cận số thuật toán phân cụm liệu 1.4.1 Các phương pháp phân cụm phân hoạch - Partitioning Methods 1.4.2 Phương pháp phân cụm phân cấp - Hierarchical Methods 1.4.3 Phương pháp phân cụm dựa mật độ - Density-Based Methods 12 1.4.4 Phương pháp phân cụm dựa lưới - Grid-Based Methods 14 1.4.5 Phương pháp phân cụm dựa mơ hình - Model-Based Clustering Methods15 1.4.6 Phương pháp phân cụm có liệu ràng buộc 17 Chƣơng 19 PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 19 2.1 Phân cụm mờ thuật toán phân cụm mờ 19 2.1.1 Tổng quan phân cụm mờ 19 2.1.2 Thuật toán phân cụm C-Means mờ (FCM) 21 2.2 Thuật toán phân cụm trừ (SC - Subtractive Clustering) 25 2.3 Thuật toán phân cụm trừ mờ (FSC – Fuzzy Subtractive Clustering) 28 Chƣơng 31 ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM TRỪ MỜ 31 3.1 Ứng dụng thuật toán SC cho xây dựng hệ luật 31 3.1.1 Trích xuất luật với tính tốn xấp xỉ hàm 31 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 3.1.2 Hệ thống suy diễn mờ (FIS) cho tốn nút giao thơng vùng ngoại ô 33 3.2 Ứng dụng thuật toán FSC vào phân đoạn ảnh 37 3.2.1 Phân đoạn ảnh 37 3.2.2 Phân đoạn ảnh sử dụng thuật toán phân cụm trừ mờ FSC 39 3.2.3 Thử nghiệm với thuật toán phân cụm trừ 40 3.2.4 Thử nghiệm với thuật toán phân cụm trừ mờ 42 3.2.5 Thử nghiệm thuật toán phân SC FSC ảnh 43 PHỤ LỤC 46 KẾT LUẬN .49 DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 50 TÀI LIỆU THAM KHẢO 51 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC TỪ VIẾT TẮT CURE Clustering Using Representatives DBSCAN Density based Spatial Clutering of Application with Noise DENCLUE Clustering Based on Density Distribution Functions EM Expectation Maximization FCM Fuzzy C-Means FSC Fuzzy Subtractive Clustering OPTICS Ordering Points to Identify the Clustering Structure SC Subtractive Clustering Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH Hình 2.1: Hai nhóm liệu phân cụm trừ mờ Hình 3.1: Biểu đồ liệu vào liệu Hình 3.2: Kết sau phân cụm Hình 3.3: Hàm thành viên tƣơng ứng với biến vào số ô tô sở hữu Hình 3.4: Hàm thành viên tƣơng ứng với biến vào số lƣợng việc làm Hình 3.5: Hàm thành viên tƣơng ứng với biến vào thu nhập trung bình Hình 3.6: Ảnh ban đầu thuật tốn phân cụm trừ Hình 3.7: Ảnh kết thuật toán phân cụm trừ Hình 3.8: Ảnh ban đầu thuật tốn phân cụm trừ mờ Hình 3.9: Ảnh kết thuật tốn phân cụm trừ mờ Hình 3.10: Ảnh đầu vào cho thuật tốn Hình 3.11: Ảnh kết thuật tốn SC với 122 cụm Hình 3.12: Ảnh kết thuật tốn FSC với 18 cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỞ ĐẦU Ngày nay, khai phá liệu (Datamining) trở thành xu hƣớng nghiên cứu phổ biến lĩnh vực học máy công nghệ tri thức Nhiều thành tựu nghiên cứu Datamining đƣợc áp dụng thực tế Datamining có nhiều hƣớng quan trọng hƣớng phân cụm liệu (Data Clustering) Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tƣơng tự" (similar) với phần tử cụm khác "phi tƣơng tự" (dissimilar) với Phân cụm liệu phƣơng pháp học không giám sát Hiện nay, phƣơng pháp phân cụm đƣợc phát triển áp dụng nhiều lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích liệu, nghiên cứu thị trƣờng, xử lý ảnh,… Các thuật toán phân cụm đa dạng nhƣ Kmeans, Pam, C-means, C-means mờ, thuật tốn phân cụm trừ,… Để tăng tính ổn định xác kết phân cụm, ngày có tiếp cận Một cách tiếp cận đƣợc nghiên cứu ứng dụng lý thuyết mờ vào toán phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn bao gồm nội dung sau: Chương 1: Tổng quan phân cụm liệu Chương 2: Phƣơng pháp phân cụm trừ mờ Chương 3: Ứng dụng phƣơng pháp phân cụm trừ mờ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Chƣơng TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu, trình phân chia tập liệu ban đầu thành cụm cho phần tử cụm “tƣơng tự” với phần tử cụm khác “phi tƣơng tự” với Số cụm liệu đƣợc phân đƣợc xác định trƣớc theo kinh nghiệm đƣợc tự động xác định theo phƣơng pháp phân cụm Trong học máy, phân cụm liệu đƣợc xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chƣa biết trƣớc thông tin cụm hay thông tin tập huấn luyện Trong nhiều trƣờng hợp, phân lớp đƣợc xem vấn đề học có giám sát phân cụm liệu bƣớc phân lớp liệu, phân cụm liệu khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Phân cụm có ý nghĩa quan trọng hoạt động ngƣời Ngay từ lúc bé, ngƣời học cách làm để phân biệt mèo chó, động vật thực vật liên tục đƣa vào sơ đồ phân loại tiềm thức Phân cụm đƣợc sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trƣờng Với tƣ cách chức khai phá liệu, phân cụm đƣợc sử dụng nhƣ cơng cụ độc lập chuẩn để quan sát đặc trƣng cụm thu đƣợc bên phân bố liệu tập trung vào tập riêng biệt cụm để giúp cho việc phân tích đạt kết Một vấn đề thƣờng gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu q trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lƣợc cho bƣớc tiền xử lý liệu nhằm khắc phục loại bỏ nhiễu trƣớc chuyển sang giai đoạn phân tích cụm liệu Nhiễu đƣợc hiểu đối tƣợng liệu khơng xác, khơng tƣờng minh Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn đối tƣợng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tƣợng nhiễu giá trị thuộc tính tƣơng ứng Ngồi ra, dị tìm phần tử ngoại lai hƣớng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tƣợng liệu khác thƣờng so với liệu sở liệu, tức đối tƣợng liệu không tuân theo hành vi mô hình liệu nhằm tránh ảnh hƣởng chúng tới q trình kết phân cụm Tóm lại, phân cụm liệu cần phải giải vần đề nhƣ sau: - Biểu diễn liệu, - Xây dựng hàm tính độ tƣợng tự, - Xây dựng tiêu chuẩn phân cụm, - Xây dựng mơ hình cho cấu trúc cụm liệu, - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo, - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Theo nghiên cứu cho thấy chƣa có phƣơng pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc liệu Hơn nữa, phƣơng pháp phân cụm cần có cách thức biểu diễn cấu trúc liệu, với cách thức biểu diễn khác có tƣơng ứng thuật tốn phân cụm phù hợp Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực khai phá liệu Mục tiêu phân cụm xác định đƣợc chất cụm liệu tập liệu chƣa có nhãn, theo cho phép sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thơng tin tiềm ẩn, hữu ích phục vụ cho việc định Tuy nhiên, khơng có tiêu chí đƣợc xem tốt Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nếu < Số chuyến xe dự báo > Luật 1: if car.ownership is cluster1 and employment is cluster1 then num.trips = 0.95*car.ownership + 0.50 employment + 0.49 Luật 2: if car.ownership is cluster2 and employment is cluster2 then num.trips = 1.3*car.ownership + 1.8* employment - 0.17 Luật 3: if car.ownership is cluster3 and employment is cluster3 then num.trips = 1.0*car.ownership + 1.5* employment - 0.6 3.2 Ứng dụng thuật toán FSC vào phân đoạn ảnh 3.2.1 Phân đoạn ảnh Phân đoạn ảnh thao tác mức thấp toàn trình xử lý ảnh Quá trình thực việc phân vùng ảnh thành vùng rời rạc đồng với Các vùng ảnh đồng thông thƣờng tƣơng ứng với toàn hay phần đối tƣợng thật bên ảnh Vì thế, hầu hết ứng dụng lĩnh vực xử lý ảnh, thị giác máy tính, phân đoạn ảnh ln đóng vai trị thƣờng bƣớc tiền xử lý toàn trình trƣớc thực thao tác khác mức cao nhƣ nhận dạng đối tƣợng, biểu diễn đối tƣợng, nén ảnh dựa đối tƣợng, hay truy vấn ảnh dựa vào nội dung… Vào thời gian đầu, phƣơng pháp phân vùng ảnh đƣợc đƣa chủ yếu làm việc ảnh mức xám hạn chế phƣơng tiện thu thập lƣu trữ Ngày nay, với phát triển phƣơng tiện thu nhận biểu diễn ảnh, ảnh màu hầu nhƣ thay hoàn toàn ảnh mức xám việc biểu diễn lƣu trữ thông tin ƣu vƣợt trội hẳn so với ảnh mức xám Do đó, kỹ thuật, thuật giải thực việc phân vùng ảnh loại ảnh màu liên tục đƣợc phát triển để đáp ứng nhu cầu Các thuật giải, kỹ thuật thƣờng đƣợc phát triển dựa tảng thuật giải phân vùng ảnh mức xám có sẵn Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Các hƣớng tiếp cận phân đoạn ảnh Phân đoạn ảnh chia ảnh thành vùng không trùng lặp Mỗi vùng gồm nhóm pixel đồng theo tiêu chí Tiêu chí phụ thuộc vào mục tiêu q trình phân đoạn Ví dụ nhƣ đồng màu sắc, mức xám, kết cấu, độ sâu layer… Sau phân đoạn pixel thuộc vùng Để đánh giá chất lƣợng trình phân đoạn khó Vì trƣớc phân đoạn ảnh cần xác định rõ mục tiêu trình phân đoạn Xét cách tổng qt, ta chia hƣớng tiếp cận phân đoạn ảnh thành ba nhóm nhƣ sau: - Các kỹ thuật phân đoạn ảnh dựa không gian đặc trƣng, - Các kỹ thuật dựa không gian ảnh, - Các kỹ thuật dựa mơ hình vật lý Các phƣơng pháp dựa không gian đặc trƣng Nếu giả định màu sắc bề mặt đối tƣợng ảnh thuộc tính bất biến màu sắc đƣợc ánh xạ vào khơng gian màu đó, coi đối tƣợng ảnh nhƣ cụm điểm khơng gian màu Mức độ phân tán điểm ảnh cụm đƣợc xác định chủ yếu khác biệt màu sắc Do đó, việc phân vùng đối tƣợng ảnh tƣơng ứng với việc xác định cụm Các phƣơng pháp tiếp cận làm việc không gian màu xác định, dựa khơng gian đặc trƣng, ta có phƣơng pháp phân đoạn: + Phƣơng pháp phân cụm không giám sát, + Phƣơng pháp lấy ngƣỡng histogram Các phƣơng pháp dựa không gian ảnh Hầu hết phƣơng pháp đƣợc đề cập phần hoạt động dựa không gian đặc trƣng ảnh (thông thƣờng màu sắc) Do đó, vùng ảnh kết đồng tƣơng ứng với đặc trƣng chọn cho khơng gian Tuy nhiên, khơng có đảm bảo tất vùng thể hiển cô đọng nội dung xét theo ý nghĩa không gian ảnh (ý nghĩa vùng theo cảm nhận hệ thần kinh ngƣời) Mà đặc tính quan trọng thứ hai sau đặc tính Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn vùng ảnh Do phƣơng pháp gom cụm nhƣ xác định ngƣỡng histogram nêu bỏ qua thông tin vị trí pixel ảnh Trong báo cáo khoa học phân vùng ảnh mức xám, có nhiều kỹ thuật cố thực việc thoả mãn lúc hai tiêu chí tính đồng không gian đặc trƣng ảnh tính đọng nội dung ảnh Tuỳ theo kỹ thuật mà thuật giải áp dụng, chúng đƣợc phân thành nhóm sau: Các thuật giải áp dụng kỹ thuật chia trộn vùng, Các thuật giải áp dụng kỹ thuật tăng trƣởng vùng, Các thuật giải áp dụng lý thuyết đồ thị, Các giải thuật áp dụng mạng nơron, Các giải thuật dựa cạnh Các phƣơng pháp dựa mơ hình vật lý Tất giải thuật đƣợc xem xét qua, khơng nhiều mặt có khả phát sinh việc phân vùng lỗi trƣờng hợp cụ thể nhƣ đối tƣợng ảnh màu bị ảnh hƣởng nhiều vùng sáng bóng mờ, tƣợng làm cho màu đồng ảnh thay đổi nhiều cách đột ngột Và kết thuật giải tạo kết phân vùng mức mong muốn so với cảm nhận đối tƣợng ảnh mắt thƣờng Để giải vấn đề này, giải thuật phân vùng ảnh áp dụng mô hình tƣơng tác vật lý bề mặt đối tƣợng với ánh sáng đƣợc đề xuất Các công cụ toán học mà phƣơng pháp sử dụng khơng khác so với phƣơng pháp trình bày trên, điểm khác biệt việc áp dụng mơ hình vật lý để minh hoạ thuộc tính phản chiếu ánh sáng bề mặt màu sắc đối tƣợng 3.2.2 Phân đoạn ảnh sử dụng thuật toán phân cụm trừ mờ FSC Ảnh xem tập hợp điểm ảnh điểm ảnh đƣợc xem nhƣ đặc trƣng cƣờng độ sáng hay dấu hiệu vị trí đối tƣợng khơng gian Không gian màu RGB biểu điễn điểm ảnh với ba mầu red, green blue Đây mơ hình màu đƣợc sử dụng máy tính Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Một hƣớng tiếp cận phân đoạn ảnh dựa vào không gian đặc trƣng phƣơng pháp phân cụm liệu Ứng dụng thực với: - Thuật toán phân cụm liệu trừ mờ - Ảnh biểu diễn không gian RGB - Ngôn ngữ Matlab - Dữ liệu đầu vào ảnh - Dữ liệu đầu ảnh đƣợc phân cụm Một ảnh RGB, đƣợc lƣu trữ Matlab dƣới dạng mảng liệu có kích thƣớc chiều m x n x định nghĩa giá trị màu red, green blue cho điểm ảnh riêng biệt Màu điểm ảnh đƣợc định kết hợp giá trị R, G, B (Red, Green, Blue) đƣợc lƣu trữ mặt phẳng màu vị trí điểm ảnh Định dạng file đồ hoạ lƣu trữ ảnh RGB giống nhƣ ảnh 24 bits R, G, B chiếm tƣơng ứng bit một, thành phần màu có giá trị từ đến 255 Điều cho phép nhận đƣợc 16 triệu màu khác Một điểm ảnh mà thành phần màu (0, 0, 0) đƣợc hiển thị với màu đen pixel mà thành phần màu (255, 255, 255) đƣợc hiển thị với màu trắng Ba thành phần màu điểm ảnh đƣợc lƣu trữ với chiều thứ mảng liệu Chẳng hạn, giá trị màu R, G, B điểm ảnh (10, 5) đƣợc lƣu trữ RGB(10, 5, 1), RGB(10, 5, 2) RGB(10, 5, 3) tƣơng ứng Ví dụ, để tính tốn màu sắc điểm ảnh hàng cột 3, ta nhìn vào ba giá trị đƣợc lƣu trữ (2, 3, 1:3) Giả sử (2, 3, 1) chứa giá trị 51, (2, 3, 2) chứa giá trị 16 (2, 3, 3) chứa giá trị màu sắc điểm ảnh vị trí (2, 3) (51, 16, 6) 3.2.3 Thử nghiệm với thuật toán phân cụm trừ Theo Chiu, tham số ban đầu thƣờng đƣợc chọn = 0.25, = 1.5, e = 0.5, e = 0.15 Tuy nhiên, việc lựa chọn bán kính tùy thuộc vào tập liệu Trong thử nghiệm này, tập liệu ban đầu tập điểm ảnh, điểm ảnh gồm thành phần R, G, B thành phần nhận giá trị từ đến 255 Do giá trị Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn thuộc vào khoảng từ đến 255, cụ thể chọn = 50 Các tham số khác sử dụng = 1.5, e = 0.5, e = 0.15 Kết thu đƣợc 30 cụm Hình 3.6: Ảnh ban đầu thuật tốn phân cụm trừ Hình 3.7: Ảnh kết thuật toán phân cụm trừ Thử nghiệm với bán kính cụm thay đổi, cịn tham số = 1.5, e = 0.5, e = 0.15 không đổi Với đầu vào ảnh jpg có kích thƣớc 121 x 184 x Kết thể bảng sau: STT 10 10 20 30 40 50 60 70 80 90 100 Số cụm 1180 246 90 50 32 22 12 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Nhận xét: - Do ảnh đầu vào có kích thƣớc 121 x 184 x nên số lƣợng điểm liệu vào 121 x 184 = 22264 - Nhận thấy, bán kính nhỏ số lƣợng cụm thu đƣợc nhiều ngƣợc lại Nếu nhỏ (ra = 10) số lƣợng cụm thu đƣợc lớn (1180 cụm) so với số điểm ảnh ban đầu (22264 điểm ảnh), lớn (ra = 100) số lƣợng cụm thu đƣợc (7 cụm) 3.2.4 Thử nghiệm với thuật toán phân cụm trừ mờ Tƣơng tự, tập liệu ban đầu điểm ảnh, điểm ảnh gồm thành phần R, G, B thành phần nhận giá trị từ đến 255 Do giá trị thuộc vào khoảng từ đến 255, cụ thể chọn = 20 Các tham số lại lựa chọn nhƣ sau: = 1.5, e = 0.5, e = 0.15, m = 2.27 Kết thu đƣợc 33 cụm Hình 3.8: Ảnh ban đầu thuật tốn phân cụm trừ mờ Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.9: Ảnh kết thuật toán phân cụm trừ mờ Thử nghiệm với tham số m thay đổi, tham số = 20, = 1.5, e = 0.5, e = 0.15 không đổi Với đầu vào ảnh jpg có kích thƣớc 114 x 170 x Kết thử nghiệm thể bảng sau: STT 10 m 1.6 1.7 1.8 1.9 2.1 2.2 2.3 2.4 2.5 Số cụm 1817 1139 701 382 206 120 58 27 16 10 Nhận xét: Kết phân cụm phụ thuộc vào tham số m, cụ thể m nhỏ số lƣợng cụm thu đƣợc nhiều ngƣợc lại, m = trở thuật tốn SC 3.2.5 Thử nghiệm thuật toán phân SC FSC ảnh * Trƣờng hợp 1: - Lựa chọn tham số cho hai thuật toán nhƣ sau: = 20, = 1.5, e = 0.5, e = 0.15 m = 2.27 - Cho ảnh đầu vào ảnh jpg có kích thƣớc 126 x 170 x nhƣ sau: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Hình 3.10: Ảnh đầu vào cho thuật toán - Kết quả: Hình 3.11: Ảnh kết thuật tốn SC với 122 cụm Hình 3.12: Ảnh kết thuật tốn FSC với 18 cụm Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn * Trƣờng hợp 2: - Lựa chọn tham số = 1.5, e = 0.5, e = 0.15, m = 2.27 thay đổi bán kính cụm - Cho ảnh đầu vào ảnh jpg có kích thƣớc 126 x 170 x (nhƣ trên) - Kết thực thuật toán thể bảng sau: STT m 10 Số cụm Thuật toán SC Thuật toán FSC 2.27 573 149 20 2.27 122 18 30 2.27 51 40 2.27 27 50 2.27 19 Nhận xét: - Với ảnh đầu vào, lựa chọn tham số ra, , e , e nhƣ nhau, nhƣng thuật toán FSC có thêm tham số m kết nhận đƣợc khác nhau, cụ thể số lƣợng cụm thu đƣợc từ thuật toán SC nhiều FSC - Khi thay đổi tham số giữ nguyên tham số m kết thuật tốn SC thay đổi nhiều, cịn kết thuật tốn FSC thay đổi Vậy, thuật toán FSC phụ thuộc vào bán kính cụm thuật tốn SC Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn PHỤ LỤC A Cài đặt thuật toán SC - Hàm tính mật độ ban đầu: function [p]=matdo_dau(d,ra) [n,m,s]=size(d); for i=1:n for j=1:m p(i,j)=0; for t=1:n for k=1:m if ((i~=t) && (j~=k) ) p(i,j)= p(i,j)+ exp((-4*((d(i,j,1)d(t,k,1))^2+(d(i,j,2)-d(t,k,2))^2+(d(i,j,3)d(t,k,3))^2)/ra^2)); end end end end end - Hàm tính mật độ sau có tâm cụm đầu tiên: function [p]=matdo_sau(q,a,ra,p1,csh1,csc1) [n,m]=size(q); for i=1:n for j=1:m p(i,j)= q(i,j)-p1*exp(-4*((a(i,j,1)a(csh1,csc1,1))^2+(a(i,j,2)a(csh1,csc1,2))^2+(a(i,j,3)a(csh1,csc1,3))^2)/(2.25*ra^2)); end end - Thuật toán: function [cshang,cscot,tc]=TT(a,ra,e1,e2) q=matdo_dau(a,ra); [cshang(1),cscot(1),md(1)]=tim_max(q); tc(1,1)=a(cshang(1),cscot(1),1); tc(1,2)=a(cshang(1),cscot(1),2); tc(1,3)=a(cshang(1),cscot(1),3); p=matdo_sau(q,a,ra,md(1),cshang(1),cscot(1)); dung=0;k=2; while (dung==0) [hang, cot,y]=tim_max(p); pref=md(k-1); q=p; if (y>e1*pref) cshang(k)=hang; cscot(k)=cot; md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot); else Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn if (y=1) cshang(k)=hang;cscot(k)=cot;md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot); else p(hang,cot)=0; end end end end - SubClustering_ColorImage: a = imread('5.jpg'); i=a; e = single(i); [cshang,cscot, tc] = TT(e, 40, 0.5, 0.15); [m, kq] = do_phu_thuoc(cshang,cscot, e, 40); Ikq = xuly(cshang,cscot, kq, i, tc); imshow(Ikq); B Cài đặt thuật tốn FSC - Hàm tính mật độ ban đầu: function [p]=matdo_dau(d,ra,tsm) [n,m,s]=size(d); alpha = 4/(ra)^2; mu = 2/(tsm-1); for i=1:n for j=1:m p(i,j)=0; for t=1:n for k=1:m if ((i~=t) && (j~=k)) kc = sqrt((d(i,j,1)-d(t,k,1))^2+(d(i,j,2)d(t,k,2))^2+(d(i,j,3)-d(t,k,3))^2); p(i,j)=p(i,j)+ exp(-alpha*(kc^mu)); end end end end end - Hàm tính mật độ sau có tâm cụm đầu tiên: function [p]=matdo_sau(q,a,ra,p1,csh1,csc1,tsm) [n,m]=size(q); beta = 4/(1.5*ra)^2; mu = 2/(tsm-1); for i=1:n Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn for j=1:m kc = sqrt((a(i,j,1)-a(csh1,csc1,1))^2+(a(i,j,2)a(csh1,csc1,2))^2+(a(i,j,3)-a(csh1,csc1,3))^2); p(i,j)=q(i,j)-p1*exp(-beta*(kc^mu)); end end - Thuật toán: function [cshang,cscot,tc]=TT(a,ra,e1,e2,tsm) q=matdo_dau(a,ra,tsm); [cshang(1),cscot(1),md(1)]=tim_max(q); tc(1,1)=a(cshang(1),cscot(1),1); tc(1,2)=a(cshang(1),cscot(1),2); tc(1,3)=a(cshang(1),cscot(1),3); p=matdo_sau(q,a,ra,md(1),cshang(1),cscot(1),tsm); dung=0;k=2; while (dung==0) [hang, cot,y]=tim_max(p); pref=md(k-1); q=p; if (y>e1*pref) cshang(k)=hang; cscot(k)=cot; md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot,tsm); else if (y=1) cshang(k)=hang;cscot(k)=cot;md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot,tsm); else p(hang,cot)=0; end end end end - FuzzySubClustering_ColorImage: a = imread('5.jpg'); i=a; e = single(i); [cshang,cscot, tc] = TT(e, 10, 0.5, 0.15, 2.27); [m, kq] = do_phu_thuoc(cshang,cscot, e, 10, 2.27); Ikq = xuly(cshang,cscot, kq, i, tc); imshow(Ikq); Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn KẾT LUẬN Trong trình làm luận văn, cố gắng thân tận tình giúp đỡ PGS.TS Lê Bá Dũng, tơi hồn thành đề tài “Phân cụm liệu trừ mờ ứng dụng” tiến độ đạt đƣợc kết nhƣ sau: - Tìm hiểu phân cụm liệu - Tập trung tìm hiểu, nghiên cứu trình bày phƣơng pháp phân cụm liệu: FCM, SC FSC - Ứng dụng phƣơng pháp phân cụm liệu vào toán xây dựng hệ luật phân đoạn ảnh - Hoàn thành báo cáo cài đặt thử nghiệm thuật tốn - Có báo đƣợc đăng Tạp chí Khoa học Cơng nghệ, Đại học Thái Nguyên Tuy nhiên, hạn chế tài liệu, thời gian trình độ thân, đề tài dừng lại mức tìm hiểu thuật tốn cài đặt thử nghiệm ứng dụng nhỏ,… nhiều thiếu sót Trong thời gian tới, tơi cố gắng tìm hiểu nhiều phƣơng pháp phân cụm liệu cố gắng mở rộng ứng dụng thuật toán phân cụm trừ mờ vào toán thực tế Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn DANH MỤC CƠNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Trần Thị Yến, Bùi Đức Việt, “Phƣơng pháp phân cụm liệu trừ ứng dụng”, Tạp chí Khoa học Cơng nghệ, Đại học Thái Nguyên, 93(05): 137-142, 2012 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Năng Tồn, Phạm Việt Bình, Giáo trình xử lý ảnh, 2007 [2] Nguyễn Trung Sơn, Phương pháp phân cụm ứng dụng, Khoa công nghệ thông tin - Đại học Thái Nguyên, luận văn thạc sĩ, 2009 [3] Bùi Cơng Cƣờng, Nguyễn Dỗn Phƣớc, “Lý thuyết mờ cơng nghệ tính tốn mềm”, Hệ mờ mạng nơron ứng dụng, Nhà xuất Khoa học Kỹ thuật, pp.53-89, 2006 [4] Ngô Thành Long, Phạm Huy Bình, Phương pháp phân cụm mờ trừ loại hai khoảng, Hội nghị toàn quốc điều khiển tự động hoá – VCCA, 2011 Tiếng Anh [5] Jiawei Han, Micheline Kamber, Datamining Concepts and Techniques, Morgan Kaufmann Publishers, 2nd edition, 2006 [6] A.K Jain, R.C Dubes, Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ, 1988 [7] M.P.Windham, “Cluster validity for fuzzy clustering algorithms”, Fuzzy Sets and System, vol 3, pp.177-183, 1981 [8] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 [9] Gita Sastria, Choong Yeun Liong, Ishak Hashim, “Application of Fuzzy Subtractive Clustering for Enzymes Classification”, Applied Computing Conference, Istanbul, Turkey, 2008 [10] Stephen L Chiu, “Fuzzy model identification based on cluster estimation”, Journal of Intelligent and Fuzzy System, Vol 2, 267-278 (1994) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... tiếp cận đƣợc nghiên cứu ứng dụng lý thuyết mờ vào tốn phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn... PHÁP PHÂN CỤM TRỪ MỜ 19 2.1 Phân cụm mờ thuật toán phân cụm mờ 19 2.1.1 Tổng quan phân cụm mờ 19 2.1.2 Thuật toán phân cụm C-Means mờ (FCM) 21 2.2 Thuật toán phân. .. hiệu phân cụm, điều phụ thuộc vào mục đích phân cụm, địi hỏi ngƣời sử dụng phải cung cấp tiêu chí 1.2 Các ứng dụng phân cụm liệu Phân cụm liệu đƣợc ứng dụng nhiều lĩnh vực nhƣ: - Thương mại: Phân