Phân cụm đa mục tiêu mờ cho dữ liệu định danh

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	58
Dung lượng	2,11 MB

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH TÂM PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN Hà Nội – 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ NGUYỄN THỊ THANH TÂM PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60480104 LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2016 LỜI CẢM ƠN Để hoàn thiện đƣợc luận văn thạc sỹ mình, trƣớc tiên em xin đƣợc gửi lời cảm ơn sâu sắc đến thày PGS.TS Hoàng Xuân Huấn Thày tận tình định hƣớng, dìu dắt, bảo cho em bƣớc đầu nghiên cứu khoa học Trong trình thày quan tâm, lo lắng, động viên, điều đáng quý em xin đƣợc ghi nhớ lòng Em xin đƣợc gửi lời chân thành cảm ơn đến thày cô giáo môn Hệ thống thông tin, môn Khoa học máy tính – Khoa Công nghệ thông tin – Trƣờng Đại học Công nghệ – Đại học Quốc gia Hà Nội thày cô tận tình dạy dỗ, nỗ lực, tâm huyết dạy môn học giúp em có đƣợc kiến thức sống, chuyên môn hoàn thành khóa học trƣờng Đồng thời em xin đƣợc gửi lời cảm ơn đến bạn học, ngƣời thân gia đình, đồng nghiệp giúp đỡ, động viên, tạo điều kiện cho em suốt khóa học Trƣờng Đại học Công nghệ – Đại học Quốc gia Hà Nội Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm LỜI CAM ĐOAN Em xin cam đoan nội dung kiến thức mà em trình bày luận văn em tự tìm hiểu, nghiên cứu, trình bày dƣới hƣớng dẫn trực tiếp thày PGS TS Hoàng Xuân Huấn Tất phần nội dung mà em có tham khảo đƣợc trích dẫn đầy đủ, ghi rõ nguồn gốc phần Tài liệu tham khảo Em xin chịu trách nhiệm với lời cam đoan mình, có phát chép không hợp lệ, vi phạm quy chế đào tạo em xin đƣợc hoàn toàn chịu trách nhiệm Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƢƠNG NỀN TẢNG LÝ THUYẾT 10 1.1 Phân cụm liệu gì? 10 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 11 1.2.1 Cấu trúc liệu 11 1.2.2 Các kiểu liệu 12 1.2.3 Độ đo tƣơng tự phi tƣơng tự 13 1.3 Phân cụm liệu mờ 16 1.3.1 Tổng quan tập mờ 16 1.3.2 Phân cụm rõ phân cụm mờ 18 1.4 Tối ƣu đa mục tiêu [1] 23 1.4.1 Bài toán tối ƣu tổng quát 23 1.4.2 Tối ƣu đơn mục tiêu 23 1.4.3 Tối ƣu đa mục tiêu 24 1.4.4 Chọn phƣơng án toán đơn mục tiêu toán đa mục tiêu 25 1.5 Giải thuật di truyền sử dụng để tối ƣu hóa đa mục tiêu 25 1.5.1 Giới thiệu 25 1.5.2 Các quy luật 26 CHƢƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 30 2.1 Giới thiệu 30 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 31 2.3 Tối ƣu hóa đa mục tiêu giải thuật tối ƣu hóa đa mục tiêu 33 2.3.1 Tối ƣu hóa đa mục tiêu 33 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ƣu đa mục tiêu 34 2.4 Phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền 35 2.4.1 Thuật toán NSGA-II 36 2.4.2 Biểu diễn nhiễm sắc thể 37 2.4.3 Khởi tạo quần thể 37 2.4.4 Tính toán giá trị hàm mục tiêu 37 2.4.5 Thủ tục xếp không vƣợt trội tính toán khoảng cách mật độ 39 2.4.6 Chọn lọc, lai ghép đột biến 40 2.4.7 Chọn phƣơng án từ tập không vƣợt trội 41 CHƢƠNG THỬ NGHIỆM 44 3.1 Giới thiệu 44 3.2 Chƣơng trình 44 3.3 Dữ liệu thử nghiệm 44 3.3.1 Cơ sở liệu Soybean 45 3.3.2 Cơ sở liệu SPECT heart 46 3.3.3 Cơ sở liệu Hayes – Roth 46 3.4 Phƣơng pháp biểu diễn liệu 47 3.5 Độ đo hiệu suất 47 3.6 Thủ tục thực nghiệm 47 3.7 Các thông số đầu vào 48 3.8 Kết thử nghiệm 48 KẾT LUẬN 54 TÀI LIỆU THAM KHẢO 55 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Cơ sở liệu Thuật toán HAC Thuật toán BIRCH Từ viết tắt CSDL HAC BIRCH Thuật toán PAM Thuật toán STING Giải thuật di truyền Nhiễm sắc thể Thuật toán C-Mean mờ Thuật toán NSGA-II PAM STING GA NST FCM NSGA-II Từ Tiếng Anh DataBase Hierarchical agglomerative clustering Balanced Interative Reducing and Clustering using Hierarchies Partition Around Mediods A STatistical Information Grid approach Genetic Algorithms Chromosomes Fuzzy C-Means Non-dominated Sorting Genetic Algorithm-II DANH MỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 14 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bƣớm sử dụng thuật toán k-means c-means mờ 22 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân cụm liệu 10 Hình 1.2 Tiêu chí để phân cụm 11 Hình 1.3 Hình minh họa cho tập chiều cao ngƣời 17 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” 18 Hình 1.5 Tập liệu hình cánh bƣớm 21 Hình 1.6 Kết phân cụm rõ với tập liệu hình cánh bƣớm 21 Hình 1.7 Hai cụm mờ tập liệu hình cánh bƣớm 22 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể 27 Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT 48 Hình 3.2 Kết phân cụm thực nghiệm lại phƣơng pháp [4] liệu Soybean 49 Hình 3.3 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở liệu đậu tƣơng Điểm đƣợc đánh dấu hình tròn màu xanh phƣơng án đƣợc lựa chọn cuối 49 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế 50 Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart 50 Hình 3.6 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở SPECT heart 51 Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 51 Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth 52 Hình 3.9 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở Hayes-Roth 52 LỜI NÓI ĐẦU Bƣớc sang kỷ hai mƣơi mốt, giới chứng kiến bùng nổ công nghệ thông tin Ngày nay, vật dụng thiếu phần đông ngƣời điện thoại thông minh, máy tính bảng Có thể thấy với phát triển công nghệ phần cứng, phần mềm dung lƣợng liệu số ngƣời dùng tạo vấn đề đáng đƣợc ý Bên cạnh tất lĩnh vực đời sống xã hội đƣợc tin học hóa tạo nên lƣợng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có công cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng đƣợc tính thời ngành Công nghệ thông tin không Việt Nam mà toàn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các công trình nghiên cứu từ nhiều chuyên ngành khác nhƣ học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hƣớng đến mục tiêu thống trích lọc đƣợc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều ngƣời hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - nhƣ Tuy nhiên, thực tế cho thấy khai phá liệu bƣớc phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hƣớng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một toán khai phá liệu điển hình phân cụm liệu (Data clustering) Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát đƣợc mẫu phân bố liệu miền ứng dụng.Trong nhiều trƣờng hợp, phân cụm đƣợc gọi học máy không giám sát (unsupervised learning) Trong thực tế, liệu có tính nhập nhằng, ranh giới cụm không rõ ràng, phƣơng pháp phân cụm rõ làm việc không hiệu không mô tả đƣợc cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ đƣợc áp dụng nhằm làm cho việc phân cụm liệu đƣợc tốt từ xây dựng nên phƣơng pháp phân cụm liệu mờ (gọi tắt phân cụm mờ) [fuzzy clustering] Tuy nhiên, phƣơng pháp phân cụm mờ áp dụng cho liệu Bởi giá trị thuộc tính liệu định danh thứ tự không áp dụng đƣợc độ đo khoảng cách nhƣ Euclide để tìm khoảng cách hai véc tơ đặc trƣng liệu định danh Vì phải sử dụng phƣơng pháp khác cho liệu nhƣ K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết toán học tối ƣu hóa đa mục tiêu ngày đƣợc sử dụng rộng rãi sống nhƣ khoa học, ví dụ cá nhân, tổ chức, phƣơng pháp, kỹ thuật,… có lúc phải định việc lựa chọn phƣơng án tối ƣu để giải vấn đề Tùy thuộc vào tình cụ thể mà phƣơng án đƣa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thông tin nhằm mục đích cuối đƣa giải pháp để giải vấn đề Tối ƣu hóa đa mục tiêu việc tìm phƣơng án tốt theo nghĩa định để đạt đƣợc nhiều mục tiêu lúc phƣơng án nhƣ gọi phƣơng án lý tƣởng Trong toán tối ƣu đa mục tiêu, việc có hay phƣơng án lý tƣởng việc mà cần phải quan tâm, xem xét toán mục tiêu thƣờng xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểu mục tiêu dẫn đến làm giảm giá trị cực đại cực tiểu mục tiêu khác Do cách tốt tìm phƣơng án nhằm thỏa mãn tất yêu cầu đa mục tiêu mức độ chấp nhận đƣợc phƣơng án mà tìm đƣợc gọi phƣơng án thỏa hiệp hàm mục tiêu Hiện có nhiều định nghĩa khác đề cập đến phƣơng án hay nghiệm tối ƣu Các định nghĩa thƣờng có tƣơng quan định với thƣờng đƣợc biểu diễn qua định lý, mệnh đề tính chất nhƣ tối ƣu Pareto [7] Nhờ vào ƣu điểm hiệu thực tế mà tối ƣu hóa đa mục tiêu mang lại, trở thành lý thuyết toán học đƣợc ứng dụng rộng rãi nhiều lĩnh vực khoa học nhƣ: công nghệ, tài chính, hàng không, kinh tế,… Bố cục luận văn chia làm chƣơng nhƣ sau: CHƢƠNG Nền tảng lý thuyết Chƣơng trình bày tổng quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ƣu hóa cụm CHƢƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chƣơng trình bày nội dung luận văn Chƣơng trình bày phƣơng pháp phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền CHƢƠNG Thử nghiệm 42 Đầu tiên vectơ nhãn phân cụm đƣợc tính từ phƣơng án không vƣợt trội đƣa kỹ thuật đa mục tiêu Thực điều cách gán điểm liệu vào cụm có độ thuộc cao Sau đó, kỹ thuật biểu đa số đƣợc dùng để gán nhãn Trƣớc áp dụng biểu đa số, phải đảm bảo thống vectơ nhãn phƣơng án khác nhau, ví dụ cụm i phƣơng án phải phù hợp với cụm i tất phƣơng án khác Cách thực nhƣ sau: Đặt X = {l1, l2, , ln} vector nhãn phƣơng án đầu tiên, li∈ {1, 2, …, K} nhãn cụm điểm xi Đầu tiên, X đƣợc gán nhãn nhƣ điểm đƣợc gán giá trị Để gán lại nhãn cho X, vectơ L có độ dài K đƣợc tạo mà nhãn lớp xuất theo thứ tự Vectơ L đƣợc tính nhƣ sau: k = 1, Lk= l1, lab = {L1} for i = 2, , n if li /∈lab then k = k + Lk = li lab= lab∪ {li} end if end for Sau ánh xạ M: L → {1, , K} đƣợc xác định nhƣ sau: ∀i = 1, , K,M[Li ] = i (2.19) Tiếp theo vectơ T tạm thời có độ dài n thu đƣợc áp dụng ánh xạ X nhƣ sau: ∀i = 1, 2, , n, Ti = M [li] (2.20) Tiếp theo, X đƣợc thay T Đây cách X đƣợc dán nhãn.Ví dụ, khởi tạo đặt X = {33111442} Sau dán nhãn lạinó {11222334} Khi vecto nhãn phƣơng án không vƣợt trội đƣợc sửa lại cách so sánh với vectơ nhãn phƣơng án nhƣ sau: Đặt N tập phƣơng án không vƣợt trội (vectơ nhãn) đƣợc đƣa kỹ thuật phân cụm đa mục tiêu X vectơ nhãn cụm phƣơng án Giả sử Y ∈ N\X(tức là, Y vectơ nhãn N khác X) vectơ nhãn khácđƣợc dán nhãn phù hợp với X Điều đƣợc thực nhƣ sau: đầu tiên, nhãn lớp l X, tất điểm Pl đƣợc đánh dấu nhãn lớp l X đƣợc tìm thấy Sau đó, quan sát nhãn lớp điểm từ Y,chúng ta có đƣợc nhãn lớp b từ Y, đánh dấu số điểm tối đa Pl Sau ánh xạ Mapbđƣợc định Mapb:b → l Quá trình đƣợc lặp lặp lại cho nhãn lớp l∈ {1, , K} X Sau nhận đƣợc tất ánh xạ Mapb cho tất nhãn lớp b∈ {1, , K} Y, chúng đƣợc áp dụng Y để dán nhãnYtheo 43 X.Tất phƣơng án không vƣợt trộiY ∈ N\X đƣợc dán nhãnphù hợp với X nhƣ nói Lƣu ý ánh xạ Map nên ánh xạ 1-1 để đảm bảo sau dán nhãn lại Y chứa tất nhãn lớp K Ràng buộc bị vi phạm tìm b Tình trạng đƣợc khắc phục nhƣ sau: Nếu ánh xạ 1-1 có đƣợc cố gắng duyệt tất khả gán nhãn, tức K! khả Y tìm đƣợc Y phù hợp với X Nhãn phù hợp Y đƣợc lƣu giữ Xét ví dụ sau: ĐặtX {11222334}và hai vectơ nhãn Y = {22444113} Z ={42333221} Nếu Y Z đƣợc gán nhãn phù hợpvới X, nhãn Y trở thành {11222334}và nhãnZ trở thành {13222334} Sau gán nhãn lại tất vectơ nhãn, kỹ thuật biểu đa số đƣợc áp dụng cho tùy điểm Các điểm đƣợc chọn 50% phƣơng án nhãn đƣợc xác định Những điểm đƣợc sử dụng làm tập huấn luyện cho kỹ thuật k-nn để gán nhãn cho điểm lại Các điểm lại đƣợc gán nhãn lớp theophân lớp knn Đối với điểm chƣa đƣợc xác định k-nearest neighbords đƣợc tính điểm đƣợc gán nhãn lớp thu đƣợc biểu đa số k-nearest neighbords Giá trị k đƣợc chọn Áp dụng biểu đa số theo phân lớp k-nn tạo nhãn cụm vectơ X từ việc kết hợp thông tin phân cụm tất phƣơng án không vƣợt trội Sau đó, phƣơng án đƣợc tính giá trị tỉ lệ phù hợp với X Phƣơng án phù hợp với X phƣơng án đƣợc chọn 44 CHƢƠNG THỬ NGHIỆM 3.1 Giới thiệu Trong trình thực đề tài, luận văn tiến hành cài đặt phƣơng pháp đƣợc trình bày [3, 4] Chƣơng trình đƣợc thử nghiệm với sở liệu [4] để kiểm chứng việc cài đặt chƣơng trình Sau đó, chƣơng trình xây dựng đƣợc áp dụng cho sở liệu khác, là: liệu định danh SPECT heart HayesRoth để đánh giá hiệu phân cụm phƣơng pháp [3, 4] sở liệu Dựa việc quan sát kết thử nghiệm, luận văn đƣa số nhận xét, kết luận số vấn đề tồn cần giải 3.2 Chương trình Chƣơng trình đƣợc cài đặt môi trƣờng Matlab 2013 Các thử nghiệm đƣợc thực máy tính Intel Core i52.5 GHz, GB RAM, hệ điều hành Windows 64 bit Chƣơng trình đƣợc xây dựng dựa việc kế thừa có chỉnh sửa từ mã nguồn Matlab cài đặt thuật toán NSGA-2 [16] để cài đặt phƣơng pháp [3, 4] 3.3 Dữ liệu thử nghiệm Ba sở liệu danh đƣợc dùng để thử nghiệm chƣơng trình gồm liệu định danh đậu tƣơng, SPECT heart Hayes-Roth đƣợc lấy từ UCI Machine Learning Repository (www.ics.uci.edu/∼mlearn/MLRepository.html) Link thông tin sở liệu đỗ tƣơng: http://archive.ics.uci.edu/ml/datasets/Soybean+%28Small%29 http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybeansmall.names Link thông tin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/SPECT+Heart http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECTF.names Link thông tin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/Hayes-Roth http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayesroth.names Down liệu chuẩn CSDL theo địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECT.train http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayes-roth.data 45 3.3.1 Cơ sở liệu Soybean Bộ liệu chứa 47 điểm liệu bệnh đậu nành [xem Hình 3.1] Mỗi điểm liệu có 35thuộc tính định danh đƣợc phân loại vào bệnh: Diaporthe Stem, Charcoal, Rhizoctonia Root Phytophthora, tức là, số cụm tập liệu Mỗi loại bệnh có 10 ghi trừ bệnh Phytophthora có 17 ghi Các thuộc tính miền giá trị: date: april,may,june,july,august,september,october plant-stand: normal,lt-normal precip: lt-norm,norm,gt-norm temp: lt-norm,norm,gt-norm hail: yes,no crop-hist: diff-lst-year,same-lst-yr,same-lst-two-yrs, same-lst-sev-yrs area-damaged: scattered,low-areas,upper-areas,whole-field severity: minor,pot-severe,severe seed-tmt: none,fungicide,other 10 germination: 90-100%,80-89%,lt-80% 11 plant-growth: norm,abnorm 12 leaves: norm,abnorm 13 leafspots-halo: absent,yellow-halos,no-yellow-halos 14 leafspots-marg: w-s-marg,no-w-s-marg,dna 15 leafspot-size: lt-1/8,gt-1/8,dna 16 leaf-shread: absent,present 17 leaf-malf: absent,present 18 leaf-mild: absent,upper-surf,lower-surf 19 stem: norm,abnorm 20 lodging: yes,no 21 stem-cankers: absent,below-soil,above-soil,above-sec-nde 22 canker-lesion: dna,brown,dk-brown-blk,tan 23 fruiting-bodies: absent,present 24 external decay: absent,firm-and-dry,watery 25 mycelium: absent,present 26 int-discolor: none,brown,black 27 sclerotia: absent,present 28 fruit-pods: norm,diseased,few-present,dna 29 fruit spots: absent,colored,brown-w/blk-specks,distort,dna 30 seed: norm,abnorm 31 mold-growth: absent,present 32 seed-discolor: absent,present 33 seed-size: norm,lt-norm 34 shriveling: absent,present 35 roots: norm,rotted,galls-cysts 46 3.3.2 Cơ sở liệu SPECT heart Cơ sở liệu SPECT heart có 80 ghi; ghi có 22 thuộc tính Bộ liệu mô tả thông tin chẩn đoán chụp cắt lớp hình ảnh tim(Single Proton Emission Computed Tomography - SPECT).Mỗi bệnh nhân đƣợc phân vào hai loại: bình thƣờng bất thƣờng Các thuộc tính miền giá trị: OVERALL_DIAGNOSIS: 0,1 (class attribute, binary) F1: 0,1 (the partial diagnosis 1, binary) F2: 0,1 (the partial diagnosis 2, binary) F3: 0,1 (the partial diagnosis 3, binary) F4: 0,1 (the partial diagnosis 4, binary) F5: 0,1 (the partial diagnosis 5, binary) F6: 0,1 (the partial diagnosis 6, binary) F7: 0,1 (the partial diagnosis 7, binary) F8: 0,1 (the partial diagnosis 8, binary) 10 F9: 0,1 (the partial diagnosis 9, binary) 11 F10: 0,1 (the partial diagnosis 10, binary) 12 F11: 0,1 (the partial diagnosis 11, binary) 13 F12: 0,1 (the partial diagnosis 12, binary) 14 F13: 0,1 (the partial diagnosis 13, binary) 15 F14: 0,1 (the partial diagnosis 14, binary) 16 F15: 0,1 (the partial diagnosis 15, binary) 17 F16: 0,1 (the partial diagnosis 16, binary) 18 F17: 0,1 (the partial diagnosis 17, binary) 19 F18: 0,1 (the partial diagnosis 18, binary) 20 F19: 0,1 (the partial diagnosis 19, binary) 21 F20: 0,1 (the partial diagnosis 20, binary) 22 F21: 0,1 (the partial diagnosis 21, binary) 23 F22: 0,1 (the partial diagnosis 22, binary) 3.3.3 Cơ sở liệu Hayes – Roth Cơ sở liệu Hayes – Roth liên quan đến chủ đề: đối tƣợng nghiên cứu: ngƣời Cơ sở liệu chứa 160 ghi, ghi có thuộc tính đƣợc phân vào nhóm Các thuộc tính liệu Hayes - Roth Attribute Information: name: distinct for each instance and represented numerically hobby: nominal values ranging between and 47 age: nominal values ranging between and educational level: nominal values ranging between and marital status: nominal values ranging between and class: nominal value between and 3.4 Phương pháp biểu diễn liệu Để có nhìn trực quan liệu, có phƣơng pháp tốt dùng để đánh giá trực quan cụm phƣơng pháp VAT (visual assessment of cluster tendency representation) [9] Trong phƣơng pháp này, liệu theo phƣơng án phân cụm đƣợc biểu diễn nhƣ sau: điểm đƣợc xếp lại theo nhãn lớp/cụm, sau ma trận khoảng cách điểm liệu đƣợc tính toán Cuối cùng, vẽ biểu đồ đồ họa ma trận khoảng cách Trong biểu đồ này, hình hộp nằm đƣờng chéo cho thấy cấu trúc cụm 3.5 Độ đo hiệu suất Hiệu suất thuật toán phân cụm đƣợc đo độ đo Adjusted Rand Index (𝐴𝑅𝐼) [11] Giả sử 𝑇 làphân cụm đúng/thực tế tập liệu 𝐶 kết phân cụm chobởi số thuật toán phân cụm khác Đặta, 𝑏 , 𝑐 𝑑 biểu thị tƣơng ứng số lƣợng cặp điểm thuộc mộtcụm 𝑇 𝐶, số lƣợng cặp điểm thuộc vào cụm 𝑇 nhƣng khác cụm 𝐶,số lƣợng cặp thuộc cụm khác trong𝑇 nhƣng thuộc cụm 𝐶và số lƣợng cặp thuộccác cụm khác 𝑇 𝐶 Khi số (𝑇,) đƣợc xác định nhƣ sau: 2(𝑎𝑑 − 𝑏𝑐) 𝐴𝑅𝐼 𝑇, 𝐶 = 𝑎 + 𝑏 𝑏 + 𝑑 + 𝑎 + 𝑐 (𝑐 + 𝑑) (4.1) Giá trị 𝐴𝑅𝐼(𝑇, 𝐶) nằm vàgiá trị ARIcao cho thấy độ tƣơng tự giữaTvàC cao Khi TvàC giống hệt ARI(𝑇, C) = 3.6 Thủ tục thực nghiệm Thực lặp lại nhƣ sau: for i to for j to lần, lần lặp lại chạy lần thuật toán để tính AvgARIB 48 ARI[ j ] giá trịARI kết lần chạy (i,j) so với phân cụm thực tế; end for ARIB[i ] max ARI[1], , ARI[ ] end for AvgARIB avg ARIB[1], , ARIB[ ] 3.7 Các thông số đầu vào Trong phần thử nghiệm, thông số đầu vào đƣợc sử dụng tƣơng tự [4]: - Số hệ (số lần lặp giải thuật di truyền): 100; - Kích thƣớc quần thể: 50; - Xác suất lai ghép: 0.8; - Xác suất đột biến: 1/chiều dài NST; - Số mũ m: 2; Đây giá trị đƣợc chọn sau số thử nghiệm [4] 100 đƣợc chọn 50 3.8 Kết thử nghiệm Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT 49 Hình 3.2 Kết phân cụm thực nghiệm lại phƣơng pháp [4] liệu Soybean Hình 3.3 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở liệu đậu tƣơng Điểm đƣợc đánh dấu hình tròn màu xanh phƣơng án đƣợc lựa chọn cuối Kết thực nghiệm lại sở liệu Soybean phù hợp với kết trình bày [4] (AvgARIB = 1) Tƣơng ứng, Hình 3.1 Hình 3.2 biểu diễn lần chạy cho kết ARI = cho thấy cấu trúc cụm thu đƣợc từ chƣơng trình cấu trúc cụm thực tế giống Dƣới kết thực nghiệm sở liệu SPECT heart sở liệu Hayes-Roth với số nhận xét dựa quan sát kết thực nghiệm 50 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart 51 Hình 3.6 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở SPECT heart Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 52 Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth Hình 3.9 Lƣợc đồ mối quan hệ Pi-1/Sep từ tập gần tối ƣu Pareto thu đƣợc hệ cuối thuật toán NSGA-2 sở Hayes-Roth 53 Nhận xét: Qua quan sát kết mà luận văn thực nghiệm nhiều lần đƣa số nhận xét nhƣ sau: Với liệu cụ thể ứng với toán thực tế, áp dụng phƣơng pháp phân cụm cần thiết kế/lựa chọn hàm khoảng cách điểm liệu phù hợp Nhƣ ta thấy Hình 3.1, khoảng cách Hamming mà ta sử dụng phù hợp với sở liệu đậu tƣơng ta quan sát đƣợc rõ cụm thực tế biểu diễn phƣơng pháp VAT Trong trƣờng hợp này, phƣơng pháp sử dụng luận văn cho kết tốt (AvrARIB = 1) Tuy nhiên, hai sở liệu SPECT heart (Hình 3.4) Hayes-Roth (Hình 3.7), quan sát đƣợc cấu trúc cụm thực tế lƣợc đồ VAT với khoảng cách Hamming Điều có nghĩa khoảng cách Hamming không phù hợp với hai sở liệu Quan sát lƣợc đồ VAT kết phân cụm (Hình 3.5, Hình 3.8), thấy cấu trúc cụm rõ Điều có nghĩa cụm kết phƣơng pháp phân cụm có độ cụm độ phân tách cụm theo khoảng cách Hamming tốt cụm thực tế Do giá trị AvrARIB thu đƣợc thấp có sai khác kết phân cụm cụm thực tế (AvrARIB = 0.0244 sở liệu SPECT heart; AvrARIB = -0.0050 sở liệu Hayes-Roth) Cần cải thiện phương pháp chọn phương án tốt từ hệ cuối Mặc dù phƣơng pháp chọn phƣơng án tốt từ hệ cuối đƣợc báo cáo đóng góp quan trọng [4], nhiên nhiều trƣờng hợp, phƣơng án chọn đƣợc phƣơng án tốt Quan sát thử nghiệm sở liệu đậu tƣơng (là sở liệu mà hàm khoảng cách Hamming phù hợp để phân cụm) ta thấy có nhiều trƣờng hợp 50 cá thể quần thể cuối cùng, có nhiều cá thể có ARI nhƣng phƣơng pháp chọn đƣa phƣơng án (có ARI < 1) 54 KẾT LUẬN Qua thời gian nghiên cứu, dƣới hƣớng dẫn trực tiếp thày PGS.TS Hoàng Xuân Huấn, em hoàn thành luận văn “Phân cụm đa mục tiêu mờ cho liệu định danh” Luận văn đạt đƣợc hai kết là: Nghiên cứu tài liệu hệ thống lại kiến thức có liên quan sau: – Phân cụm liệu – Các phƣơng pháp sử dụng để phân cụm liệu – Phân cụm rõ, phân cụm mờ giải thuật tối ƣu hóa cụm – Nghiên cứu giải thuật tối ƣu đa mục tiêu thực phân cụm mờ cho liệu dịnh danh Cài đặt thuật toán tối ƣu đa mục tiêu NSGA – II phân cụm mờ cho liệu định danh Luận văn chạy thử nghiệm với liệu thực tế từ đƣa bình luận, nhận xét rút số vấn đề cần tập trung nghiên cứu, giải Trong thời gian tới, em định hƣớng tập trung nghiên cứu, thực vấn đề sau đây: (i) Tìm hiểu toán thực tế có liên quan đến sở liệu danh để áp dụng phƣơng pháp mà luận văn nghiên cứu, tìm hiểu Khi đó, vấn đề quan trọng cần thực phân tích đặc điểm toán, đặc điểm liệu nhƣ cụm thực tế để thiết kế/lựa chọn hàm khoảng cách phù hợp (ii) Nghiên cứu để cải thiện hiệu bƣớc chọn phƣơng án tốt từ hế cuối cùng, kết thuật toán NSGA-II Thời gian qua thân em nỗ lực nhƣng luận văn em không tránh khỏi thiếu sót lực thân em hạn chế, em mong nhận đƣợc đóng góp Thày, Cô, bạn bè có hƣớng quan tâm nghiên cứu Em xin đƣợc gửi lời cảm ơn chân thành đến Thày PGS TS Hoàng Xuân Huấn tận tình bảo, nhận xét, góp ý cho nghiên cứu em Em xin đƣợc gửi lời cảm ơn sâu sắc đến tất Thày, Cô tận tình giảng dạy cho em suốt khóa học Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội 55 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trƣờng Đại học Công nghệ – Đại Học Quốc Gia Hà Nội [2] Nguyễn Hà Nam (2012), Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình Khai phá liệu, NXB Đại học Quốc gia Hà Nội Tiếng Anh [3] [4] [5] [6] [7] [8] [9] Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhyay(2013), Hybrid Evolutionary Multiobjective Fuzzy C-Medoids Clustering of Categorical Data, IEEE Workshop on Hybrid Intelligent Models and Applications (HIMA) Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhya (2009), Multiobjective Genetic Algorithm-Based Fuzzy Clustering of Categorical Attributes, IEEE transactions on evolutionary computation, vol 13, no 5, October A K Jain and R C Dubes (1988), Algorithms for Clustering Data Englewood Cliffs, NJ: Prentice-Hall A Konak, D W Coit, A E Smith (2006), “Multi objective optimization using genetic algorithms: A tutorial”, J Reability Engineering and System Safety, No 91, pp 992-1007 E Zitzler and L Thiele (1998), “An evolutionary algorithm for multiobjective optimization: The strength Pareto approach”, Swiss Fed Inst Technol., Zurich, Switzerland, Tech Rep 43 J C Bezdek (1981), Pattern Recognition with Fuzzy Objective Function Algorithms New York: Plenum J C Bezdek and R J Hathaway, “VAT: A tool for visual assessment of (cluster) tendency,” in Proc Int Joint Conf Neural Netw., vol Honolulu, HI, 2002, pp 2225–2230 [10] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [11] K Y Yip, D W Cheung, and M K Ng (2003), “A highly usable projected clustering algorithm for gene expression profiles,” in Proceedingsof 3rd ACM SIGKDD Workshop on Data Mining in Bioinformatics, pp 41–48 [12] L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: An GIntroduction to Cluster Analysis NY, US: John Wiley & Sons [13] Osmar R.Zaiane (2001), Principles of knowledge discovery in databases, University of Alberta, Fall 56 [14] Z Huang and M K Ng (1999), “A fuzzy k-modes algorithm for clustering categorical data,” IEEE Trans Fuzzy Syst., vol 7, no 4, pp 446–452, Aug [15] Zadeh L.A.(1965), Fuzzy Sets, Information and Control, pp.338–353 [16] https://www.mathworks.com/matlabcentral/fileexchange/10429-nsga-ii amulti-objective-optimization-algorithm ... quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân. .. 26 CHƢƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 30 2.1 Giới thiệu 30 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 31 2.3 Tối ƣu hóa đa mục tiêu giải... cụm mờ, giải thuật GA sử dụng để tối ƣu hóa cụm CHƢƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chƣơng trình bày nội dung luận văn Chƣơng trình bày phƣơng pháp phân cụm đa mục tiêu mờ cho liệu

Ngày đăng: 27/08/2017, 09:12

Xem thêm