1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân cụm dữ liệu trừ mờ và ứng dụng

56 1,1K 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 2,72 MB

Nội dung

LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Lê Bá Dũng, người tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin bày tỏ lòng biết ơn tới thầy tham gia giảng dạy chia sẻ kinh nghiệm quý báu cho tập thể lớp nói chung cá nhân em nói riêng Tôi xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp ủng hộ, động viên giúp đỡ để hoàn thành tốt luận văn Tôi xin gửi lời cảm ơn tới Ban giám hiệu trường Đại học Khoa học, Ban chủ nhiệm Khoa Toán-Tin tạo điều kiện thuận lợi cho tham gia khóa học hoàn thành luận văn Một lần nữa, xin chân thành cảm ơn Thái Nguyên, tháng 09 năm 2012 Học viên Trần Thị Yến i LỜI CAM ĐOAN Tôi xin cam đoan luận văn kết tìm hiểu, nghiên cứu tài liệu cách nghiêm túc hướng dẫn PGS TS Lê Bá Dũng Nội dung luận văn phát triển từ ý tưởng, sáng tạo thân kết có hoàn toàn trung thực Học viên Trần Thị Yến ii MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN .ii MỤC LỤC iii DANH MỤC CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH v MỞ ĐẦU Chương .2 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU Chương 19 PHƯƠNG PHÁP PHÂN CỤM TRỪ MỜ 19 Chương 31 ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM TRỪ MỜ .31 PHỤ LỤC 46 KẾT LUẬN .49 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 50 TÀI LIỆU THAM KHẢO 51 iii DANH MỤC CÁC TỪ VIẾT TẮT CURE Clustering Using Representatives DBSCAN Density based Spatial Clutering of Application with Noise DENCLUE Clustering Based on Density Distribution Functions EM Expectation Maximization FCM Fuzzy C-Means FSC Fuzzy Subtractive Clustering OPTICS Ordering Points to Identify the Clustering Structure SC Subtractive Clustering iv DANH MỤC CÁC BẢNG BIỂU, HÌNH ẢNH Hình 2.1: Hai nhóm liệu phân cụm trừ mờ Hình 3.1: Biểu đồ liệu vào liệu Hình 3.2: Kết sau phân cụm Hình 3.3: Hàm thành viên tương ứng với biến vào số ô tô sở hữu Hình 3.4: Hàm thành viên tương ứng với biến vào số lượng việc làm Hình 3.5: Hàm thành viên tương ứng với biến vào thu nhập trung bình Hình 3.6: Ảnh ban đầu thuật toán phân cụm trừ Hình 3.7: Ảnh kết thuật toán phân cụm trừ Hình 3.8: Ảnh ban đầu thuật toán phân cụm trừ mờ Hình 3.9: Ảnh kết thuật toán phân cụm trừ mờ Hình 3.10: Ảnh đầu vào cho thuật toán Hình 3.11: Ảnh kết thuật toán SC với 122 cụm Hình 3.12: Ảnh kết thuật toán FSC với 18 cụm v MỞ ĐẦU Ngày nay, khai phá liệu (Datamining) trở thành xu hướng nghiên cứu phổ biến lĩnh vực học máy công nghệ tri thức Nhiều thành tựu nghiên cứu Datamining áp dụng thực tế Datamining có nhiều hướng quan trọng hướng phân cụm liệu (Data Clustering) Phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu cho phần tử cụm "tương tự" (similar) với phần tử cụm khác "phi tương tự" (dissimilar) với Phân cụm liệu phương pháp học không giám sát Hiện nay, phương pháp phân cụm phát triển áp dụng nhiều lĩnh vực khác nhau, bao gồm: nhận dạng, phân tích liệu, nghiên cứu thị trường, xử lý ảnh,… Các thuật toán phân cụm đa dạng Kmeans, Pam, C-means, C-means mờ, thuật toán phân cụm trừ,… Để tăng tính ổn định xác kết phân cụm, ngày có tiếp cận Một cách tiếp cận nghiên cứu ứng dụng lý thuyết mờ vào toán phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn bao gồm nội dung sau: Chương 1: Tổng quan phân cụm liệu Chương 2: Phương pháp phân cụm trừ mờ Chương 3: Ứng dụng phương pháp phân cụm trừ mờ Chương TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu kỹ thuật khai phá liệu, trình phân chia tập liệu ban đầu thành cụm cho phần tử cụm “tương tự” với phần tử cụm khác “phi tương tự” với Số cụm liệu phân xác định trước theo kinh nghiệm tự động xác định theo phương pháp phân cụm Trong học máy, phân cụm liệu xem vấn đề học giám sát, phải giải vấn đề tìm cấu trúc tập hợp liệu chưa biết trước thông tin cụm hay thông tin tập huấn luyện Trong nhiều trường hợp, phân lớp xem vấn đề học có giám sát phân cụm liệu bước phân lớp liệu, phân cụm liệu khởi tạo lớp cho phân lớp cách xác định nhãn cho nhóm liệu Phân cụm có ý nghĩa quan trọng hoạt động người Ngay từ lúc bé, người học cách làm để phân biệt mèo chó, động vật thực vật liên tục đưa vào sơ đồ phân loại tiềm thức Phân cụm sử dụng rộng rãi nhiều ứng dụng, bao gồm nhận dạng mẫu, phân tích liệu, xử lý ảnh, nghiên cứu thị trường Với tư cách chức khai phá liệu, phân cụm sử dụng công cụ độc lập chuẩn để quan sát đặc trưng cụm thu bên phân bố liệu tập trung vào tập riêng biệt cụm để giúp cho việc phân tích đạt kết Một vấn đề thường gặp phân cụm hầu hết liệu cần cho phân cụm có chứa liệu nhiễu trình thu thập thiếu xác thiếu đầy đủ, cần phải xây dựng chiến lược cho bước tiền xử lý liệu nhằm khắc phục loại bỏ nhiễu trước chuyển sang giai đoạn phân tích cụm liệu Nhiễu hiểu đối tượng liệu không xác, không tường minh đối tượng liệu khuyết thiếu thông tin số thuộc tính Một kỹ thuật xử lý nhiễu phổ biến việc thay giá trị thuộc tính đối tượng nhiễu giá trị thuộc tính tương ứng Ngoài ra, dò tìm phần tử ngoại lai hướng nghiên cứu quan trọng phân cụm, chức xác định nhóm nhỏ đối tượng liệu khác thường so với liệu sở liệu, tức đối tượng liệu không tuân theo hành vi mô hình liệu nhằm tránh ảnh hưởng chúng tới trình kết phân cụm Tóm lại, phân cụm liệu cần phải giải vần đề sau: - Biểu diễn liệu, - Xây dựng hàm tính độ tượng tự, - Xây dựng tiêu chuẩn phân cụm, - Xây dựng mô hình cho cấu trúc cụm liệu, - Xây dựng thuật toán phân cụm xác lập điều kiện khởi tạo, - Xây dựng thủ tục biểu diễn đánh giá kết phân cụm Theo nghiên cứu cho thấy chưa có phương pháp phân cụm tổng quát giải trọn vẹn cho tất dạng cấu trúc liệu Hơn nữa, phương pháp phân cụm cần có cách thức biểu diễn cấu trúc liệu, với cách thức biểu diễn khác có tương ứng thuật toán phân cụm phù hợp Vì phân cụm liệu vấn đề khó mở, phải giải nhiều vấn đề cách trọn vẹn phù hợp với nhiều dạng liệu khác nhau, đặc biệt liệu hỗn hợp ngày tăng hệ quản trị liệu thách thức lớn lĩnh vực khai phá liệu Mục tiêu phân cụm xác định chất cụm liệu tập liệu chưa có nhãn, theo cho phép sâu vào phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thông tin tiềm ẩn, hữu ích phục vụ cho việc định Tuy nhiên, tiêu chí xem tốt để đánh giá hiệu phân cụm, điều phụ thuộc vào mục đích phân cụm, đòi hỏi người sử dụng phải cung cấp tiêu chí 1.2 Các ứng dụng phân cụm liệu Phân cụm liệu ứng dụng nhiều lĩnh vực như: - Thương mại: Phân cụm liệu giúp thương nhân tìm nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu mua bán sở liệu khách hàng - Sinh học: Phân cụm liệu sử dụng để xác định loại sinh vật, phân loại gen với chức tương đồng thu cấu trúc mẫu - Quy hoạch đô thị: Nhận dạng nhóm nhà theo kiểu vị trí địa lý, nhằm cung cấp thông tin cho quy hoạch đô thị - Nghiên cứu trái đất: Phân cụm để theo dõi tâm động đất nhằm cung cấp thông tin cho nhận dạng vùng nguy hiểm - Thư viện: Phân loại cụm sách có nội dung ý nghĩa tương đồng để cung cấp cho độc giả - Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi thường cao, nhận dạng gian lận thương mại - Khai phá web: Có thể khám phá nhóm tài liệu quan trọng, có nhiều ý nghĩa môi trường Web Các lớp tài liệu trợ giúp cho việc khai phá tri thức từ liệu web,… 1.3 Các yêu cầu phân cụm liệu Việc xây dựng lựa chọn thuật toán phân cụm bước then chốt cho việc giải vấn đề phân cụm, lựa chọn phụ thuộc vào đặc tính liệu cần phân cụm, mục đích ứng dụng thực tế xác định độ ưu tiên chất lượng cụm hay tốc độ thực thuật toán, Hầu hết nghiên cứu phát triển thuật toán phân cụm liệu nhằm thỏa mãn yêu cầu sau: Có khả mở rộng: Nhiều thuật toán phân cụm làm việc tốt với tập liệu nhỏ (chứa 200 đối tượng), nhiên sở liệu lớn chứa tới hàng triệu đối tượng Việc phân cụm tập liệu lớn làm ảnh hưởng tới kết Vậy thuật toán phân cụm liệu có khả mở rộng cao cần thiết Khả thích nghi với kiểu liệu khác nhau: Thuật toán áp dụng hiệu cho việc phân cụm tập liệu với nhiều kiểu liệu khác liệu kiểu số, kiểu nhị phân, liệu định danh, hạng mục, thích nghi với kiểu liệu hỗn hợp Khám phá cụm với hình dạng bất kỳ: Do hầu hết sở liệu có chứa nhiều cụm liệu với hình thù khác như: hình lõm, hình cầu, hình que, Vì vậy, để khám phá cụm có tính tự nhiên thuật toán phân cụm cần phải có khả khám phá cụm liệu có hình thù Tối thiểu lượng tri thức cần cho xác định tham số đầu vào: Do giá trị đầu vào thường ảnh hưởng lớn đến thuật toán phân cụm phức tạp để xác định giá trị vào thích hợp sở liệu lớn Ít nhạy cảm với thứ tự liệu vào: Cùng tập liệu, đưa vào xử lý cho thuật toán phân cụm liệu với thứ tự vào đối tượng liệu lần thực khác không ảnh hưởng lớn đến kết phân cụm Khả thích nghi với liệu nhiễu cao: Hầu hết liệu phân cụm khai phá liệu chứa đựng liệu lỗi, liệu không đầy đủ, liệu rác Thuật toán phân cụm hiệu liệu nhiễu mà tránh dẫn đến chất lượng phân cụm thấp nhạy cảm với nhiễu Ít nhạy cảm với thứ tự tham số đầu vào: Nghĩa giá trị tham số đầu vào khác gây thay đổi lớn kết phân cụm Thích nghi với liệu đa chiều: Thuật toán có khả áp dụng hiệu cho liệu có số chiều khác Dễ hiểu dễ cài đặt khả thi: Người sử dụng chờ đợi kết phân cụm dễ hiểu, dễ lý giải dễ sử dụng Nghĩa là, phân cụm cần Nếu < Số chuyến xe dự báo > Luật 1: if car.ownership is cluster1 and employment is cluster1 then num.trips = 0.95*car.ownership + 0.50 employment + 0.49 Luật 2: if car.ownership is cluster2 and employment is cluster2 then num.trips = 1.3*car.ownership + 1.8* employment - 0.17 Luật 3: if car.ownership is cluster3 and employment is cluster3 then num.trips = 1.0*car.ownership + 1.5* employment - 0.6 3.2 Ứng dụng thuật toán FSC vào phân đoạn ảnh 3.2.1 Phân đoạn ảnh Phân đoạn ảnh thao tác mức thấp toàn trình xử lý ảnh Quá trình thực việc phân vùng ảnh thành vùng rời rạc đồng với Các vùng ảnh đồng thông thường tương ứng với toàn hay phần đối tượng thật bên ảnh Vì thế, hầu hết ứng dụng lĩnh vực xử lý ảnh, thị giác máy tính, phân đoạn ảnh đóng vai trò thường bước tiền xử lý toàn trình trước thực thao tác khác mức cao nhận dạng đối tượng, biểu diễn đối tượng, nén ảnh dựa đối tượng, hay truy vấn ảnh dựa vào nội dung… Vào thời gian đầu, phương pháp phân vùng ảnh đưa chủ yếu làm việc ảnh mức xám hạn chế phương tiện thu thập lưu trữ Ngày nay, với phát triển phương tiện thu nhận biểu diễn ảnh, ảnh màu thay hoàn toàn ảnh mức xám việc biểu diễn lưu trữ thông tin ưu vượt trội hẳn so với ảnh mức xám Do đó, kỹ thuật, thuật giải thực việc phân vùng ảnh loại ảnh màu liên tục phát triển để đáp ứng nhu cầu Các thuật giải, kỹ thuật thường phát triển dựa tảng thuật giải phân vùng ảnh mức xám có sẵn 37 Các hướng tiếp cận phân đoạn ảnh Phân đoạn ảnh chia ảnh thành vùng không trùng lặp Mỗi vùng gồm nhóm pixel đồng theo tiêu chí Tiêu chí phụ thuộc vào mục tiêu trình phân đoạn Ví dụ đồng màu sắc, mức xám, kết cấu, độ sâu layer… Sau phân đoạn pixel thuộc vùng Để đánh giá chất lượng trình phân đoạn khó Vì trước phân đoạn ảnh cần xác định rõ mục tiêu trình phân đoạn Xét cách tổng quát, ta chia hướng tiếp cận phân đoạn ảnh thành ba nhóm sau: - Các kỹ thuật phân đoạn ảnh dựa không gian đặc trưng, - Các kỹ thuật dựa không gian ảnh, - Các kỹ thuật dựa mô hình vật lý Các phương pháp dựa không gian đặc trưng Nếu giả định màu sắc bề mặt đối tượng ảnh thuộc tính bất biến màu sắc ánh xạ vào không gian màu đó, coi đối tượng ảnh cụm điểm không gian màu Mức độ phân tán điểm ảnh cụm xác định chủ yếu khác biệt màu sắc Do đó, việc phân vùng đối tượng ảnh tương ứng với việc xác định cụm Các phương pháp tiếp cận làm việc không gian màu xác định, dựa không gian đặc trưng, ta có phương pháp phân đoạn: + Phương pháp phân cụm không giám sát, + Phương pháp lấy ngưỡng histogram Các phương pháp dựa không gian ảnh Hầu hết phương pháp đề cập phần hoạt động dựa không gian đặc trưng ảnh (thông thường màu sắc) Do đó, vùng ảnh kết đồng tương ứng với đặc trưng chọn cho không gian Tuy nhiên, đảm bảo tất vùng thể hiển cô đọng nội dung xét theo ý nghĩa không gian ảnh (ý nghĩa vùng theo cảm nhận 38 hệ thần kinh người) Mà đặc tính quan trọng thứ hai sau đặc tính vùng ảnh Do phương pháp gom cụm xác định ngưỡng histogram nêu bỏ qua thông tin vị trí pixel ảnh Trong báo cáo khoa học phân vùng ảnh mức xám, có nhiều kỹ thuật cố thực việc thoả mãn lúc hai tiêu chí tính đồng không gian đặc trưng ảnh tính cô đọng nội dung ảnh Tuỳ theo kỹ thuật mà thuật giải áp dụng, chúng phân thành nhóm sau: Các thuật giải áp dụng kỹ thuật chia trộn vùng, Các thuật giải áp dụng kỹ thuật tăng trưởng vùng, Các thuật giải áp dụng lý thuyết đồ thị, Các giải thuật áp dụng mạng nơron, Các giải thuật dựa cạnh Các phương pháp dựa mô hình vật lý Tất giải thuật xem xét qua, không nhiều mặt có khả phát sinh việc phân vùng lỗi trường hợp cụ thể đối tượng ảnh màu bị ảnh hưởng nhiều vùng sáng bóng mờ, tượng làm cho màu đồng ảnh thay đổi nhiều cách đột ngột Và kết thuật giải tạo kết phân vùng mức mong muốn so với cảm nhận đối tượng ảnh mắt thường Để giải vấn đề này, giải thuật phân vùng ảnh áp dụng mô hình tương tác vật lý bề mặt đối tượng với ánh sáng đề xuất Các công cụ toán học mà phương pháp sử dụng không khác so với phương pháp trình bày trên, điểm khác biệt việc áp dụng mô hình vật lý để minh hoạ thuộc tính phản chiếu ánh sáng bề mặt màu sắc đối tượng 3.2.2 Phân đoạn ảnh sử dụng thuật toán phân cụm trừ mờ FSC Ảnh xem tập hợp điểm ảnh điểm ảnh xem đặc trưng cường độ sáng hay dấu hiệu vị trí đối tượng không gian Không gian màu RGB biểu điễn điểm ảnh với ba mầu red, green blue Đây mô hình màu sử dụng máy tính 39 Một hướng tiếp cận phân đoạn ảnh dựa vào không gian đặc trưng phương pháp phân cụm liệu Ứng dụng thực với: - Thuật toán phân cụm liệu trừ mờ - Ảnh biểu diễn không gian RGB - Ngôn ngữ Matlab - Dữ liệu đầu vào ảnh - Dữ liệu đầu ảnh phân cụm Một ảnh RGB, lưu trữ Matlab dạng mảng liệu có kích thước chiều m x n x định nghĩa giá trị màu red, green blue cho điểm ảnh riêng biệt Màu điểm ảnh định kết hợp giá trị R, G, B (Red, Green, Blue) lưu trữ mặt phẳng màu vị trí điểm ảnh Định dạng file đồ hoạ lưu trữ ảnh RGB giống ảnh 24 bits R, G, B chiếm tương ứng bit một, thành phần màu có giá trị từ đến 255 Điều cho phép nhận 16 triệu màu khác Một điểm ảnh mà thành phần màu (0, 0, 0) hiển thị với màu đen pixel mà thành phần màu (255, 255, 255) hiển thị với màu trắng Ba thành phần màu điểm ảnh lưu trữ với chiều thứ mảng liệu Chẳng hạn, giá trị màu R, G, B điểm ảnh (10, 5) lưu trữ RGB(10, 5, 1), RGB(10, 5, 2) RGB(10, 5, 3) tương ứng Ví dụ, để tính toán màu sắc điểm ảnh hàng cột 3, ta nhìn vào ba giá trị lưu trữ (2, 3, 1:3) Giả sử (2, 3, 1) chứa giá trị 51, (2, 3, 2) chứa giá trị 16 (2, 3, 3) chứa giá trị màu sắc điểm ảnh vị trí (2, 3) (51, 16, 6) 3.2.3 Thử nghiệm với thuật toán phân cụm trừ Theo Chiu, tham số ban đầu thường chọn = 0.25, η = 1.5, e = 0.5, e = 0.15 Tuy nhiên, việc lựa chọn bán kính tùy thuộc vào tập liệu Trong thử nghiệm này, tập liệu ban đầu tập điểm ảnh, điểm ảnh gồm thành phần R, G, B thành phần nhận giá trị từ đến 255 Do giá trị 40 thuộc vào khoảng từ đến 255, cụ thể chọn = 50 Các tham số khác sử dụng η = 1.5, e = 0.5, e = 0.15 Kết thu 30 cụm Hình 3.6: Ảnh ban đầu thuật toán phân cụm trừ Hình 3.7: Ảnh kết thuật toán phân cụm trừ Thử nghiệm với bán kính cụm thay đổi, tham số η = 1.5, e = 0.5, e = 0.15 không đổi Với đầu vào ảnh jpg có kích thước 121 x 184 x Kết thể bảng sau: STT Số cụm 10 1180 20 246 30 90 40 50 50 32 60 22 70 12 80 9 90 10 100 Nhận xét: 41 - Do ảnh đầu vào có kích thước 121 x 184 x nên số lượng điểm liệu vào 121 x 184 = 22264 - Nhận thấy, bán kính nhỏ số lượng cụm thu nhiều ngược lại Nếu nhỏ (ra = 10) số lượng cụm thu lớn (1180 cụm) so với số điểm ảnh ban đầu (22264 điểm ảnh), lớn (ra = 100) số lượng cụm thu (7 cụm) 3.2.4 Thử nghiệm với thuật toán phân cụm trừ mờ Tương tự, tập liệu ban đầu điểm ảnh, điểm ảnh gồm thành phần R, G, B thành phần nhận giá trị từ đến 255 Do giá trị thuộc vào khoảng từ đến 255, cụ thể chọn = 20 Các tham số lại lựa chọn sau: η = 1.5, e = 0.5, e = 0.15, m = 2.27 Kết thu 33 cụm Hình 3.8: Ảnh ban đầu thuật toán phân cụm trừ mờ 42 Hình 3.9: Ảnh kết thuật toán phân cụm trừ mờ Thử nghiệm với tham số m thay đổi, tham số = 20, η = 1.5, e = 0.5, e = 0.15 không đổi Với đầu vào ảnh jpg có kích thước 114 x 170 x Kết thử nghiệm thể bảng sau: STT m Số cụm 1.6 1817 1.7 1139 1.8 701 1.9 382 206 2.1 120 2.2 58 2.3 27 2.4 16 10 2.5 10 Nhận xét: Kết phân cụm phụ thuộc vào tham số m, cụ thể m nhỏ số lượng cụm thu nhiều ngược lại, m = trở thuật toán SC 3.2.5 Thử nghiệm thuật toán phân SC FSC ảnh * Trường hợp 1: - Lựa chọn tham số cho hai thuật toán sau: = 20, η = 1.5, e = 0.5, e = 0.15 m = 2.27 - Cho ảnh đầu vào ảnh jpg có kích thước 126 x 170 x sau: 43 Hình 3.10: Ảnh đầu vào cho thuật toán - Kết quả: Hình 3.11: Ảnh kết thuật toán SC với 122 cụm Hình 3.12: Ảnh kết thuật toán FSC với 18 cụm 44 * Trường hợp 2: - Lựa chọn tham số η = 1.5, e = 0.5, e = 0.15, m = 2.27 thay đổi bán kính cụm - Cho ảnh đầu vào ảnh jpg có kích thước 126 x 170 x (như trên) - Kết thực thuật toán thể bảng sau: STT m 10 20 30 40 50 2.27 2.27 2.27 2.27 2.27 Số cụm Thuật toán SC Thuật toán FSC 573 149 122 18 51 27 19 Nhận xét: - Với ảnh đầu vào, lựa chọn tham số ra, η , e , e nhau, thuật toán FSC có thêm tham số m kết nhận khác nhau, cụ thể số lượng cụm thu từ thuật toán SC nhiều FSC - Khi thay đổi tham số giữ nguyên tham số m kết thuật toán SC thay đổi nhiều, kết thuật toán FSC thay đổi Vậy, thuật toán FSC phụ thuộc vào bán kính cụm thuật toán SC 45 PHỤ LỤC A Cài đặt thuật toán SC - Hàm tính mật độ ban đầu: function [p]=matdo_dau(d,ra) [n,m,s]=size(d); for i=1:n for j=1:m p(i,j)=0; for t=1:n for k=1:m if ((i~=t) && (j~=k) ) p(i,j)= p(i,j)+ exp((-4*((d(i,j,1)-d(t,k,1))^2+ (d(i,j,2)-d(t,k,2))^2+(d(i,j,3)d(t,k,3))^2)/ra^2)); end end end end end - Hàm tính mật độ sau có tâm cụm đầu tiên: function [p]=matdo_sau(q,a,ra,p1,csh1,csc1) [n,m]=size(q); for i=1:n for j=1:m p(i,j)= q(i,j)-p1*exp(-4*((a(i,j,1)-a(csh1,csc1,1))^2+ (a(i,j,2)-a(csh1,csc1,2))^2+(a(i,j,3)a(csh1,csc1,3))^2)/(2.25*ra^2)); end end - Thuật toán: function [cshang,cscot,tc]=TT(a,ra,e1,e2) q=matdo_dau(a,ra); [cshang(1),cscot(1),md(1)]=tim_max(q); tc(1,1)=a(cshang(1),cscot(1),1); tc(1,2)=a(cshang(1),cscot(1),2); tc(1,3)=a(cshang(1),cscot(1),3); p=matdo_sau(q,a,ra,md(1),cshang(1),cscot(1)); dung=0;k=2; while (dung==0) [hang, cot,y]=tim_max(p); pref=md(k-1); q=p; if (y>e1*pref) cshang(k)=hang; cscot(k)=cot; md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot); else if (y=1) cshang(k)=hang;cscot(k)=cot;md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot); else p(hang,cot)=0; end end end end - SubClustering_ColorImage: a = imread('5.jpg'); i=a; e = single(i); [cshang,cscot, tc] = TT(e, 40, 0.5, 0.15); [m, kq] = do_phu_thuoc(cshang,cscot, e, 40); Ikq = xuly(cshang,cscot, kq, i, tc); imshow(Ikq); B Cài đặt thuật toán FSC - Hàm tính mật độ ban đầu: function [p]=matdo_dau(d,ra,tsm) [n,m,s]=size(d); alpha = 4/(ra)^2; mu = 2/(tsm-1); for i=1:n for j=1:m p(i,j)=0; for t=1:n for k=1:m if ((i~=t) && (j~=k)) kc = sqrt((d(i,j,1)-d(t,k,1))^2+(d(i,j,2)d(t,k,2))^2+(d(i,j,3)-d(t,k,3))^2); p(i,j)=p(i,j)+ exp(-alpha*(kc^mu)); end end end end end - Hàm tính mật độ sau có tâm cụm đầu tiên: function [p]=matdo_sau(q,a,ra,p1,csh1,csc1,tsm) [n,m]=size(q); beta = 4/(1.5*ra)^2; mu = 2/(tsm-1); for i=1:n for j=1:m 47 end kc = sqrt((a(i,j,1)-a(csh1,csc1,1))^2+(a(i,j,2)a(csh1,csc1,2))^2+(a(i,j,3)-a(csh1,csc1,3))^2); p(i,j)=q(i,j)-p1*exp(-beta*(kc^mu)); end - Thuật toán: function [cshang,cscot,tc]=TT(a,ra,e1,e2,tsm) q=matdo_dau(a,ra,tsm); [cshang(1),cscot(1),md(1)]=tim_max(q); tc(1,1)=a(cshang(1),cscot(1),1); tc(1,2)=a(cshang(1),cscot(1),2); tc(1,3)=a(cshang(1),cscot(1),3); p=matdo_sau(q,a,ra,md(1),cshang(1),cscot(1),tsm); dung=0;k=2; while (dung==0) [hang, cot,y]=tim_max(p); pref=md(k-1); q=p; if (y>e1*pref) cshang(k)=hang; cscot(k)=cot; md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot,tsm); else if (y=1) cshang(k)=hang;cscot(k)=cot;md(k)=y; tc(k,1)=a(hang, cot,1); tc(k,2)=a(hang, cot,2); tc(k,3)=a(hang, cot,3); k=k+1; p=matdo_sau(q,a,ra,y,hang,cot,tsm); else p(hang,cot)=0; end end end end - FuzzySubClustering_ColorImage: a = imread('5.jpg'); i=a; e = single(i); [cshang,cscot, tc] = TT(e, 10, 0.5, 0.15, 2.27); [m, kq] = do_phu_thuoc(cshang,cscot, e, 10, 2.27); Ikq = xuly(cshang,cscot, kq, i, tc); imshow(Ikq); 48 KẾT LUẬN Trong trình làm luận văn, cố gắng thân tận tình giúp đỡ PGS.TS Lê Bá Dũng, hoàn thành đề tài “Phân cụm liệu trừ mờ ứng dụng” tiến độ đạt kết sau: - Tìm hiểu phân cụm liệu - Tập trung tìm hiểu, nghiên cứu trình bày phương pháp phân cụm liệu: FCM, SC FSC - Ứng dụng phương pháp phân cụm liệu vào toán xây dựng hệ luật phân đoạn ảnh - Hoàn thành báo cáo cài đặt thử nghiệm thuật toán - Có báo đăng Tạp chí Khoa học Công nghệ, Đại học Thái Nguyên Tuy nhiên, hạn chế tài liệu, thời gian trình độ thân, đề tài dừng lại mức tìm hiểu thuật toán cài đặt thử nghiệm ứng dụng nhỏ,… nhiều thiếu sót Trong thời gian tới, cố gắng tìm hiểu nhiều phương pháp phân cụm liệu cố gắng mở rộng ứng dụng thuật toán phân cụm trừ mờ vào toán thực tế 49 DANH MỤC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ Trần Thị Yến, Bùi Đức Việt, “Phương pháp phân cụm liệu trừ ứng dụng”, Tạp chí Khoa học Công nghệ, Đại học Thái Nguyên, 93(05): 137-142, 2012 50 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đỗ Năng Toàn, Phạm Việt Bình, Giáo trình xử lý ảnh, 2007 [2] Nguyễn Trung Sơn, Phương pháp phân cụm ứng dụng, Khoa công nghệ thông tin - Đại học Thái Nguyên, luận văn thạc sĩ, 2009 [3] Bùi Công Cường, Nguyễn Doãn Phước, “Lý thuyết mờ công nghệ tính toán mềm”, Hệ mờ mạng nơron ứng dụng, Nhà xuất Khoa học Kỹ thuật, pp.53-89, 2006 [4] Ngô Thành Long, Phạm Huy Bình, Phương pháp phân cụm mờ trừ loại hai khoảng, Hội nghị toàn quốc điều khiển tự động hoá – VCCA, 2011 Tiếng Anh [5] Jiawei Han, Micheline Kamber, Datamining Concepts and Techniques, Morgan Kaufmann Publishers, 2nd edition, 2006 [6] A.K Jain, R.C Dubes, Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ, 1988 [7] M.P.Windham, “Cluster validity for fuzzy clustering algorithms”, Fuzzy Sets and System, vol 3, pp.177-183, 1981 [8] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol 23, pp.121-146, 1990 [9] Gita Sastria, Choong Yeun Liong, Ishak Hashim, “Application of Fuzzy Subtractive Clustering for Enzymes Classification”, Applied Computing Conference, Istanbul, Turkey, 2008 [10] Stephen L Chiu, “Fuzzy model identification based on cluster estimation”, Journal of Intelligent and Fuzzy System, Vol 2, 267-278 (1994) 51 [...]... tiếp cận khác của phương pháp phân cụm mờ có khả năng xác định số lượng cụm và các tâm cụm gồm: giải thuật Mountain, thuật toán phân cụm trừ và phân cụm trừ mờ 18 Chương 2 PHƯƠNG PHÁP PHÂN CỤM TRỪ MỜ (Fuzzy Substractive Clustering) 2.1 Phân cụm mờ và thuật toán phân cụm mờ 2.1.1 Tổng quan về phân cụm mờ Trong cuộc sống, chúng ta đã gặp rất nhiều ứng dụng của bài toán phân cụm Chẳng hạn như trong ngành... tượng, nhưng chỉ áp dụng cho các dữ liệu có thuộc tính số - Phân cụm khái niệm: Các kỹ thuật phân cụm được phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý - Phân cụm mờ: Thông thường mỗi phương pháp phân cụm dữ liệu phân một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp... liệu vào k phân vùng, mỗi phân vùng thể hiện một cụm dữ liệu và thỏa mãn: mỗi cụm phải chứa ít nhất một phần tử dữ liệu và mỗi phần tử dữ liệu chỉ thuộc vào một cụm Để đưa ra được k phân mảnh, một phương pháp phân mảnh tạo ra một phân mảnh khởi tạo, sau đó sử dụng kỹ thuật lặp để cải thiện phân mảnh bằng cách di chuyển các phần tử dữ liệu từ cụm này sang cụm khác Tiêu chuẩn tổng quát của quá trình phân. .. phá ra các cụm có mật độ cao và rời nhau Tuy nhiên, trong thực tế, các cụm dữ liệu lại có thể chồng lên nhau (một số các đối tượng dữ liệu thuộc về nhiều các cụm khác nhau), người ta đã áp dụng lý thuyết về tập mờ trong phân cụm dữ liệu để giải quyết cho trường hợp này, cách thức kết hợp này được gọi là phân cụm mờ Trong phương pháp phân cụm mờ, độ phụ thuộc của đối tượng dữ liệu xk vào cụm thứ i (... nhau, nghĩa là một số các đối tượng dữ liệu thuộc về nhiều các cụm khác nhau, do đó mô hình này không mô tả được dữ liệu thực Vì vậy người ta đã áp dụng lý thuyết về tập mờ trong phân cụm 19 dữ liệu để giải quyết cho trường hợp này Cách thức kết hợp này được gọi là phân cụm mờ Phân cụm mờ là phương pháp phân cụm dữ liệu mà cho phép mỗi điểm dữ liệu thuộc về hai hoặc nhiều cụm thông qua bậc thành viên Ruspini... đưa ra là thuật toán phân cụm trừ và phân cụm trừ mờ 20 2.1.2 Thuật toán phân cụm C-Means mờ (FCM) Kỹ thuật này phân hoạch một tập n đối tượng dữ liệu X = {x1, x2, …, xn} ⊂ Rs thành C cụm mờ dựa trên tính toán cực tiểu hóa hàm mục tiêu để đo chất lượng của phân hoạch và tìm trung tâm cụm trong mỗi cụm sao cho chi phí hàm đo độ phi tương tự là nhỏ nhất Một phân hoạch mờ trên tập dữ liệu X = {x1, x2, …,... pháp phân cụm đã giới thiệu trong chương trước, mỗi phương pháp phân cụm phân hạch một tập dữ liệu ban đầu thành các cụm dữ liệu có tính tự nhiên và mỗi đối tượng dữ liệu chỉ thuộc về một cụm dữ liệu, phương pháp này chỉ phù hợp với việc khám phá ra các cụm có mật độ cao và rời nhau, với đường biên giữa các cụm được xác định tốt Tuy nhiên, trong thực tế, đường biên giữa các cụm có thể mờ, các cụm có... K-means và K-medoids được dùng phổ biến hơn cả Thuật toán K-means sử dụng khoảng cách giữa các phần tử dữ liệu tới các tâm cụm để phân cụm Trong thuật toán này, chúng ta phải chọn một giá trị k là số cụm mong muốn, và chọn ngẫu nhiên k phần tử dữ liệu làm k tâm cụm ban đầu Sau đó tính khoảng cách từ các phần tử dữ liệu đến k tâm cụm Kết nạp các phần tử dữ liệu vào cụm có tâm cụm gần nhất Xác định tâm cụm. .. phân hoạch mờ để mô tả cấu trúc của tập dữ liệu và đề xuất một thuật toán để tính toán tối ưu phân hạch mờ Dunn (1973) mở rộng phương pháp phân cụm và đã phát triển thuật toán phân cụm mờ Ý tưởng của thuật toán là xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu Bezdek (1981) cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ để xây dựng thuật toán phân cụm. .. Mountain đó là thuật toán phân cụm trừ Thuật toán phân cụm trừ được xây dựng trên cơ sở thuật toán phân cụm Mountain với việc đưa ra hàm tính mật độ để tính toán khả năng trở thành tâm cụm cho từng điểm dữ liệu dựa vào khoảng cách của điểm dữ liệu này với tất cả các điểm dữ liệu còn lạị Giải thuật này chỉ xem xét đến từng điểm dữ liệu mà không cần xét đến các điểm lưới lân cận điểm dữ liệu, điều này làm cho ... quan phân cụm liệu Chương 2: Phương pháp phân cụm trừ mờ Chương 3: Ứng dụng phương pháp phân cụm trừ mờ Chương TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Khái niệm mục tiêu phân cụm liệu Phân cụm liệu. .. cách tiếp cận nghiên cứu ứng dụng lý thuyết mờ vào toán phân cụm liệu Luận văn trình bày phân cụm liệu, cách tiếp cận phân cụm liệu thuật toán phân cụm trừ mờ ứng dụng vào toán cụ thể Luận văn... pháp phân cụm mờ có khả xác định số lượng cụm tâm cụm gồm: giải thuật Mountain, thuật toán phân cụm trừ phân cụm trừ mờ 18 Chương PHƯƠNG PHÁP PHÂN CỤM TRỪ MỜ (Fuzzy Substractive Clustering) 2.1 Phân

Ngày đăng: 09/12/2016, 15:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Nguyễn Trung Sơn, Phương pháp phân cụm và ứng dụng, Khoa công nghệ thông tin - Đại học Thái Nguyên, luận văn thạc sĩ, 2009 Sách, tạp chí
Tiêu đề: Phương pháp phân cụm và ứng dụng
[3] Bùi Công Cường, Nguyễn Doãn Phước, “Lý thuyết mờ và công nghệ tính toán mềm”, Hệ mờ mạng nơron và ứng dụng, Nhà xuất bản Khoa học và Kỹ thuật, pp.53-89, 2006 Sách, tạp chí
Tiêu đề: Lý thuyết mờ và công nghệ tính toánmềm”, "Hệ mờ mạng nơron và ứng dụng
Nhà XB: Nhà xuất bản Khoa học và Kỹ thuật
[4] Ngô Thành Long, Phạm Huy Bình, Phương pháp phân cụm mờ trừ loại hai khoảng, Hội nghị toàn quốc về điều khiển và tự động hoá – VCCA, 2011.Tiếng Anh Sách, tạp chí
Tiêu đề: Phương pháp phân cụm mờ trừ loại haikhoảng
[5] Jiawei Han, Micheline Kamber, Datamining Concepts and Techniques, Morgan Kaufmann Publishers, 2 nd edition, 2006 Sách, tạp chí
Tiêu đề: Datamining Concepts and Techniques
[6] A.K. Jain, R.C. Dubes, Algorithms for clustering data, Ptentice Hall, Englewood Cliffs, NJ, 1988 Sách, tạp chí
Tiêu đề: Algorithms for clustering data
[7] M.P.Windham, “Cluster validity for fuzzy clustering algorithms”, Fuzzy Sets and System, vol. 3, pp.177-183, 1981 Sách, tạp chí
Tiêu đề: Cluster validity for fuzzy clustering algorithms”, "Fuzzy Setsand System
[8] W.Pedrycz, “Algorithms of fuzzy clustering with partial supervision”, Pattern Recognition, vol. 23, pp.121-146, 1990 Sách, tạp chí
Tiêu đề: Algorithms of fuzzy clustering with partial supervision”, "PatternRecognition
[9] Gita Sastria, Choong Yeun Liong, Ishak Hashim, “Application of Fuzzy Subtractive Clustering for Enzymes Classification”, Applied Computing Conference, Istanbul, Turkey, 2008 Sách, tạp chí
Tiêu đề: Application of FuzzySubtractive Clustering for Enzymes Classification”, "Applied ComputingConference
[10] Stephen L. Chiu, “Fuzzy model identification based on cluster estimation”, Journal of Intelligent and Fuzzy System, Vol. 2, 267-278 (1994) Sách, tạp chí
Tiêu đề: Fuzzy model identification based on cluster estimation”,"Journal of Intelligent and Fuzzy System

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w