Phân cụm đa mục tiêu mờ cho dữ liệu định danh Phân cụm đa mục tiêu mờ cho dữ liệu định danh Phân cụm đa mục tiêu mờ cho dữ liệu định danh luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
1 LỜI CẢM ƠN Để hồn thiện luận văn thạc sỹ mình, trước tiên em xin gửi lời cảm ơn sâu sắc đến thày PGS.TS Hồng Xn Huấn Thày tận tình định hướng, dìu dắt, bảo cho em bước đầu nghiên cứu khoa học Trong q trình thày ln quan tâm, lo lắng, động viên, điều đáng quý em xin ghi nhớ lòng Em xin gửi lời chân thành cảm ơn đến thày cô giáo môn Hệ thống thông tin, mơn Khoa học máy tính – Khoa Cơng nghệ thông tin – Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội thày cô tận tình dạy dỗ, nỗ lực, tâm huyết dạy mơn học giúp em có kiến thức sống, chun mơn hồn thành khóa học trường Đồng thời em xin gửi lời cảm ơn đến bạn học, người thân gia đình, đồng nghiệp giúp đỡ, động viên, tạo điều kiện cho em suốt khóa học Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm LỜI CAM ĐOAN Em xin cam đoan nội dung kiến thức mà em trình bày luận văn em tự tìm hiểu, nghiên cứu, trình bày hướng dẫn trực tiếp thày PGS TS Hoàng Xuân Huấn Tất phần nội dung mà em có tham khảo trích dẫn đầy đủ, ghi rõ nguồn gốc phần Tài liệu tham khảo Em xin chịu trách nhiệm với lời cam đoan mình, có phát chép không hợp lệ, vi phạm quy chế đào tạo em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 10 1.2.1 Cấu trúc liệu 10 1.2.2 Các kiểu liệu 11 1.2.3 Độ đo tương tự phi tương tự 12 1.3 Phân cụm liệu mờ 15 1.3.1 Tổng quan tập mờ 15 1.3.2 Phân cụm rõ phân cụm mờ 17 1.4 Tối ưu đa mục tiêu [1] 21 1.4.1 Bài toán tối ưu tổng quát 21 1.4.2 Tối ưu đơn mục tiêu 21 1.4.3 Tối ưu đa mục tiêu 22 1.4.4 Chọn phương án toán đơn mục tiêu toán đa mục tiêu 23 1.5 Giải thuật di truyền sử dụng để tối ưu hóa đa mục tiêu 24 1.5.1 Giới thiệu 24 1.5.2 Các quy luật 25 CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 29 2.3 Tối ưu hóa đa mục tiêu giải thuật tối ưu hóa đa mục tiêu 31 2.3.1 Tối ưu hóa đa mục tiêu 31 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ưu đa mục tiêu 32 2.4 Phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền 33 2.4.1 Thuật toán NSGA-II 33 2.4.2 Biểu diễn nhiễm sắc thể 35 2.4.3 Khởi tạo quần thể 35 2.4.4 Tính tốn giá trị hàm mục tiêu 35 2.4.5 Thủ tục xếp khơng vượt trội tính tốn khoảng cách mật độ 37 2.4.6 Chọn lọc, lai ghép đột biến 38 2.4.7 Chọn phương án từ tập không vượt trội 39 CHƯƠNG THỬ NGHIỆM 42 3.1 Giới thiệu 42 3.2 Chương trình 42 3.3 Dữ liệu thử nghiệm 42 3.3.1 Cơ sở liệu Soybean 43 3.3.2 Cơ sở liệu SPECT heart 44 3.3.3 Cơ sở liệu Hayes – Roth 44 3.4 Phương pháp biểu diễn liệu 45 3.5 Độ đo hiệu suất 45 3.6 Thủ tục thực nghiệm 45 3.7 Các thông số đầu vào 46 3.8 Kết thử nghiệm 46 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Cơ sở liệu Thuật toán HAC Thuật toán BIRCH Từ viết tắt CSDL HAC BIRCH Thuật toán PAM Thuật toán STING Giải thuật di truyền Nhiễm sắc thể Thuật toán C-Mean mờ Thuật toán NSGA-II PAM STING GA NST FCM Từ Tiếng Anh DataBase Hierarchical agglomerative clustering Balanced Interative Reducing and Clustering using Hierarchies Partition Around Mediods A STatistical Information Grid approach Genetic Algorithms Chromosomes Fuzzy C-Means NSGA-II Non-dominated Sorting Genetic Algorithm-II DANH MỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 13 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bướm sử dụng thuật tốn k-means c-means mờ 21 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân cụm liệu Hình 1.2 Tiêu chí để phân cụm 10 Hình 1.3 Hình minh họa cho tập chiều cao người 16 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” 17 Hình 1.5 Tập liệu hình cánh bướm 19 Hình 1.6 Kết phân cụm rõ với tập liệu hình cánh bướm 20 Hình 1.7 Hai cụm mờ tập liệu hình cánh bướm 20 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể 26 Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT 46 Hình 3.2 Kết phân cụm thực nghiệm lại phương pháp [4] liệu Soybean 47 Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình trịn màu xanh phương án lựa chọn cuối 47 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế 48 Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart 48 Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart 49 Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 49 Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth 50 Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth 50 LỜI NÓI ĐẦU Bước sang kỷ hai mươi mốt, giới chứng kiến bùng nổ công nghệ thông tin Ngày nay, vật dụng thiếu phần đông người điện thoại thơng minh, máy tính bảng Có thể thấy với phát triển công nghệ phần cứng, phần mềm dung lượng liệu số người dùng tạo vấn đề đáng ý Bên cạnh tất lĩnh vực đời sống xã hội tin học hóa tạo nên lượng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có cơng cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng tính thời ngành Công nghệ thông tin không Việt Nam mà toàn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các cơng trình nghiên cứu từ nhiều chuyên ngành khác học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hướng đến mục tiêu thống trích lọc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều người hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - Tuy nhiên, thực tế cho thấy khai phá liệu bước phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hướng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một tốn khai phá liệu điển hình phân cụm liệu (Data clustering) Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng.Trong nhiều trường hợp, phân cụm gọi học máy không giám sát (unsupervised learning) Trong thực tế, liệu ln có tính nhập nhằng, ranh giới cụm đơi khơng rõ ràng, phương pháp phân cụm rõ làm việc không hiệu không mô tả cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ áp dụng nhằm làm cho việc phân cụm liệu tốt từ xây dựng nên phương pháp phân cụm liệu mờ (gọi tắt phân cụm mờ) [fuzzy clustering] Tuy nhiên, phương pháp phân cụm mờ áp dụng cho liệu Bởi giá trị thuộc tính liệu định danh khơng có thứ tự khơng áp dụng độ đo khoảng cách Euclide để tìm khoảng cách hai véc tơ đặc trưng liệu định danh Vì phải sử dụng phương pháp khác cho liệu K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết toán học tối ưu hóa đa mục tiêu ngày sử dụng rộng rãi sống khoa học, ví dụ cá nhân, tổ chức, phương pháp, kỹ thuật,… có lúc phải định việc lựa chọn phương án tối ưu để giải vấn đề Tùy thuộc vào tình cụ thể mà phương án đưa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thơng tin nhằm mục đích cuối đưa giải pháp để giải vấn đề Tối ưu hóa đa mục tiêu việc tìm phương án tốt theo nghĩa định để đạt nhiều mục tiêu lúc phương án gọi phương án lý tưởng Trong tốn tối ưu đa mục tiêu, việc có hay khơng có phương án lý tưởng việc mà cần phải quan tâm, xem xét tốn mục tiêu thường xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểu mục tiêu dẫn đến làm giảm giá trị cực đại cực tiểu mục tiêu khác Do cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu đa mục tiêu mức độ chấp nhận phương án mà tìm gọi phương án thỏa hiệp hàm mục tiêu Hiện có nhiều định nghĩa khác đề cập đến phương án hay nghiệm tối ưu Các định nghĩa thường có tương quan định với thường biểu diễn qua định lý, mệnh đề tính chất tối ưu Pareto [7] Nhờ vào ưu điểm hiệu thực tế mà tối ưu hóa đa mục tiêu mang lại, trở thành lý thuyết tốn học ứng dụng rộng rãi nhiều lĩnh vực khoa học như: cơng nghệ, tài chính, hàng khơng, kinh tế,… Bố cục luận văn chia làm chương sau: CHƯƠNG Nền tảng lý thuyết Chương trình bày tổng quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền CHƯƠNG Thử nghiệm Chương tập trung trình bày kết thực nghiệm phương pháp trình bày CHƯƠNG Thuật tốn cài đặt thử nghiệm liệu, từ rút số bình luận, nhận xét kết luận Cuối cùng, phần Kết luận trình bày tóm tắt kết đạt luận văn đề xuất hướng nghiên cứu tương lai CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? Phân cụm việc làm tự nhiên, hiểu tương tự việc người ta phân động, thực vật thành loài, họ… khác (hay nhóm có số đặc điểm đặc điểm lại khác với loài động, thực vật khác), hay lớp học người ta phân nhóm học sinh học tốt, học khá, học kém, … Phân cụm sử dụng rộng rãi nhiều lĩnh vực (hay toán) nghiên cứu thị trường, nhận dạng mẫu, phân tích liệu, xử lý ảnh, … Ví dụ lĩnh vực kinh doanh, phân cụm giúp phân khách hàng thành nhóm khác đồng thời cho biết đặc trưng nhóm người dùng này, từ cơng ty có sách khác dành cho nhóm khách hàng Vậy phân cụm liệu gì? “Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng Phân cụm toán mô tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu Các cụm (lớp) cá thể tách rời toàn phần (tạo nên phân hoạch cho tập liệu) trình bày đẹp phân lớp có thứ bậc chồng lên (giao nhau)” [2] Do đó, q trình phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu để cho phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Việc xác định số cụm liệu thực xác định trước theo kinh nghiệm xác định tự động theo phương pháp phân cụm Hình 1.1 Ví dụ phân cụm liệu Trong ví dụ Hình 1.1, ta dễ dàng xác định cụm dựa vào liệu cho, tiêu chí “tương tự” nhắc đến để xác định số cụm trường hợp “khoảng cách”: hai nhiều đối tượng thuộc nhóm nhóm lại theo khoảng cách định Ví dụ cịn gọi phân cụm dựa khoảng cách 10 Cịn có kiểu phân cụm liệu khác phân cụm liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc vào nhóm có định nghĩa khái niệm chung cho tất đối tượng Hay, đối tượng nhóm phải phù hợp với theo miêu tả khái niệm định nghĩa, theo biện pháp đơn giản tương tự Mục tiêu định hướng toán phân cụm đặt cực đại tính tương đồng phần tử cụm cực tiểu tính tương đồng phần tử thuộc cụm khác (Hình 1.2) Hình 1.2 Tiêu chí để phân cụm Trong học máy, phân cụm liệu coi học máy khơng có giám sát (unsupervised learning), vấn đề mà phải giải tìm cấu trúc tập hợp liệu chưa biết trước thông tin cụm, thông tin tập huấn luyện hay thông tin nhãn lớp Trong nhiều trường hợp, phân lớp coi học máy có giám sát phân cụm liệu bước phân lớp liệu, khởi tạo lớp để phân lớp cách xác định nhãn cho nhóm liệu [10] 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 1.2.1 Cấu trúc liệu Các thuật toán phân cụm liệu thường sử dụng hai loại cấu trúc liệu điển hình sau [6] Ma trận liệu (cách biểu diễn cấu trúc đối tượng theo biến): ma trận biểu diễn n đối tượngvà p biến (hay cịn gọi phép đo/ thuộc tính) đối tượng, có dạng ma trận n hàng p cột Trong đó, hàng biểu diễn cho đối tượng, phần tử hàng dùng để giá trị thuộc tính tương ứng đối tượng 40 phương án khác nhau, ví dụ cụm i phương án phải phù hợp với cụm i tất phương án khác Cách thực sau: Đặt X = {l1, l2, , ln} vector nhãn phương án đầu tiên, li∈ {1, 2, …, K} nhãn cụm điểm xi Đầu tiên, X gán nhãn điểm gán giá trị Để gán lại nhãn cho X, vectơ L có độ dài K tạo mà nhãn lớp xuất theo thứ tự Vectơ L tính sau: k = 1, Lk= l1, lab = {L1} for i = 2, , n if li /∈lab then k = k + Lk = li lab= lab∪ {li} end if end for Sau ánh xạ M: L → {1, , K} xác định sau: ∀i = 1, , K,M[Li ] = i (2.19) Tiếp theo vectơ T tạm thời có độ dài n thu áp dụng ánh xạ X sau: ∀i = 1, 2, , n, Ti = M [li] (2.20) Tiếp theo, X thay T Đây cách X dán nhãn Ví dụ, khởi tạo đặt X = {33111442} Sau dán nhãn lại {11222334} Khi vecto nhãn phương án không vượt trội sửa lại cách so sánh với vectơ nhãn phương án sau: Đặt N tập phương án không vượt trội (vectơ nhãn) đưa kỹ thuật phân cụm đa mục tiêu X vectơ nhãn cụm phương án Giả sử Y ∈ N\X (tức là, Y vectơ nhãn N khác X) vectơ nhãn khác dán nhãn phù hợp với X Điều thực sau: đầu tiên, nhãn lớp l X, tất điểm Pl đánh dấu nhãn lớp l X tìm thấy Sau đó, quan sát nhãn lớp điểm từ Y, có nhãn lớp b từ Y, đánh dấu số điểm tối đa Pl Sau ánh xạ Mapb định Mapb: b → l Quá trình lặp lặp lại cho nhãn lớp l∈ {1, , K} X Sau nhận tất ánh xạ Mapb cho tất nhãn lớp b ∈ {1, , K} Y, chúng áp dụng Y để dán nhãn Y theo X Tất phương án không vượt trội Y ∈ N\X dán nhãn phù hợp với X nói Lưu ý ánh xạ Map nên ánh xạ 1-1 để đảm bảo sau dán nhãn lại Y chứa tất nhãn lớp K Ràng buộc bị vi phạm tìm b Tình trạng khắc phục sau: Nếu ánh xạ 1-1 khơng thể có cố gắng duyệt 41 tất khả gán nhãn, tức K! khả Y tìm Y phù hợp với X Nhãn phù hợp Y lưu giữ Xét ví dụ sau: Đặt X {11222334} hai vectơ nhãn Y = {22444113} Z ={42333221} Nếu Y Z gán nhãn phù hợp với X, nhãn Y trở thành {11222334}và nhãn Z trở thành {13222334} Sau gán nhãn lại tất vectơ nhãn, kỹ thuật biểu đa số áp dụng cho tùy điểm Các điểm chọn 50% phương án nhãn xác định Những điểm sử dụng làm tập huấn luyện cho kỹ thuật k-nn để gán nhãn cho điểm lại Các điểm lại gán nhãn lớp theo phân lớp k-nn Đối với điểm chưa xác định k-nearest neighbords tính điểm gán nhãn lớp thu biểu đa số k-nearest neighbords Giá trị k chọn Áp dụng biểu đa số theo phân lớp k-nn tạo nhãn cụm vectơ X từ việc kết hợp thông tin phân cụm tất phương án không vượt trội Sau đó, phương án tính giá trị tỉ lệ phù hợp với X Phương án phù hợp với X phương án chọn 42 CHƯƠNG THỬ NGHIỆM 3.1 Giới thiệu Trong trình thực đề tài, luận văn tiến hành cài đặt phương pháp trình bày [3, 4] Chương trình thử nghiệm với sở liệu [4] để kiểm chứng việc cài đặt chương trình Sau đó, chương trình xây dựng áp dụng cho sở liệu khác, là: liệu định danh SPECT heart Hayes-Roth để đánh giá hiệu phân cụm phương pháp [3, 4] sở liệu Dựa việc quan sát kết thử nghiệm, luận văn đưa số nhận xét, kết luận số vấn đề tồn cần giải 3.2 Chương trình Chương trình cài đặt mơi trường Matlab 2013 Các thử nghiệm thực máy tính Intel Core i52.5 GHz, GB RAM, hệ điều hành Windows 64 bit Chương trình xây dựng dựa việc kế thừa có chỉnh sửa từ mã nguồn Matlab cài đặt thuật toán NSGA-2 [16] để cài đặt phương pháp [3, 4] 3.3 Dữ liệu thử nghiệm Ba sở liệu danh dùng để thử nghiệm chương trình gồm liệu định danh đậu tương, SPECT heart Hayes-Roth lấy từ UCI Machine Learning Repository (www.ics.uci.edu/∼mlearn/MLRepository.html) Link thông tin sở liệu đỗ tương: http://archive.ics.uci.edu/ml/datasets/Soybean+%28Small%29 http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybeansmall.names Link thông tin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/SPECT+Heart http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECTF.names Link thông tin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/Hayes-Roth http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayesroth.names Down liệu chuẩn CSDL theo địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECT.train http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayes-roth.data 43 3.3.1 Cơ sở liệu Soybean Bộ liệu chứa 47 điểm liệu bệnh đậu nành [xem Hình 3.1] Mỗi điểm liệu có 35 thuộc tính định danh phân loại vào bệnh: Diaporthe Stem, Charcoal, Rhizoctonia Root Phytophthora, tức là, số cụm tập liệu Mỗi loại bệnh có 10 ghi trừ bệnh Phytophthora có 17 ghi Các thuộc tính miền giá trị: date: april,may,june,july,august,september,october plant-stand: normal,lt-normal precip: lt-norm,norm,gt-norm temp: lt-norm,norm,gt-norm hail: yes,no crop-hist: diff-lst-year,same-lst-yr,same-lst-two-yrs, same-lst-sev-yrs area-damaged: scattered,low-areas,upper-areas,whole-field severity: minor,pot-severe,severe seed-tmt: none,fungicide,other 10 germination: 90-100%,80-89%,lt-80% 11 plant-growth: norm,abnorm 12 leaves: norm,abnorm 13 leafspots-halo: absent,yellow-halos,no-yellow-halos 14 leafspots-marg: w-s-marg,no-w-s-marg,dna 15 leafspot-size: lt-1/8,gt-1/8,dna 16 leaf-shread: absent,present 17 leaf-malf: absent,present 18 leaf-mild: absent,upper-surf,lower-surf 19 stem: norm,abnorm 20 lodging: yes,no 21 stem-cankers: absent,below-soil,above-soil,above-sec-nde 22 canker-lesion: dna,brown,dk-brown-blk,tan 23 fruiting-bodies: absent,present 24 external decay: absent,firm-and-dry,watery 25 mycelium: absent,present 26 int-discolor: none,brown,black 27 sclerotia: absent,present 28 fruit-pods: norm,diseased,few-present,dna 29 fruit spots: absent,colored,brown-w/blk-specks,distort,dna 30 seed: norm,abnorm 31 mold-growth: absent,present 32 seed-discolor: absent,present 33 seed-size: norm,lt-norm 34 shriveling: absent,present 35 roots: norm,rotted,galls-cysts 44 3.3.2 Cơ sở liệu SPECT heart Cơ sở liệu SPECT heart có 80 ghi; ghi có 22 thuộc tính Bộ liệu mơ tả thơng tin chẩn đốn chụp cắt lớp hình ảnh tim (Single Proton Emission Computed Tomography - SPECT) Mỗi bệnh nhân phân vào hai loại: bình thường bất thường Các thuộc tính miền giá trị: OVERALL_DIAGNOSIS: 0,1 (class attribute, binary) F1: 0,1 (the partial diagnosis 1, binary) F2: 0,1 (the partial diagnosis 2, binary) F3: 0,1 (the partial diagnosis 3, binary) F4: 0,1 (the partial diagnosis 4, binary) F5: 0,1 (the partial diagnosis 5, binary) F6: 0,1 (the partial diagnosis 6, binary) F7: 0,1 (the partial diagnosis 7, binary) F8: 0,1 (the partial diagnosis 8, binary) 10 F9: 0,1 (the partial diagnosis 9, binary) 11 F10: 0,1 (the partial diagnosis 10, binary) 12 F11: 0,1 (the partial diagnosis 11, binary) 13 F12: 0,1 (the partial diagnosis 12, binary) 14 F13: 0,1 (the partial diagnosis 13, binary) 15 F14: 0,1 (the partial diagnosis 14, binary) 16 F15: 0,1 (the partial diagnosis 15, binary) 17 F16: 0,1 (the partial diagnosis 16, binary) 18 F17: 0,1 (the partial diagnosis 17, binary) 19 F18: 0,1 (the partial diagnosis 18, binary) 20 F19: 0,1 (the partial diagnosis 19, binary) 21 F20: 0,1 (the partial diagnosis 20, binary) 22 F21: 0,1 (the partial diagnosis 21, binary) 23 F22: 0,1 (the partial diagnosis 22, binary) 3.3.3 Cơ sở liệu Hayes – Roth Cơ sở liệu Hayes – Roth liên quan đến chủ đề: đối tượng nghiên cứu: người Cơ sở liệu chứa 160 ghi, ghi có thuộc tính phân vào nhóm Các thuộc tính liệu Hayes - Roth Attribute Information: name: distinct for each instance and represented numerically hobby: nominal values ranging between and 45 age: nominal values ranging between and educational level: nominal values ranging between and marital status: nominal values ranging between and class: nominal value between and 3.4 Phương pháp biểu diễn liệu Để có nhìn trực quan liệu, có phương pháp tốt dùng để đánh giá trực quan cụm phương pháp VAT (visual assessment of cluster tendency representation) [9] Trong phương pháp này, liệu theo phương án phân cụm biểu diễn sau: điểm xếp lại theo nhãn lớp/cụm, sau ma trận khoảng cách điểm liệu tính tốn Cuối cùng, vẽ biểu đồ đồ họa ma trận khoảng cách Trong biểu đồ này, hình hộp nằm đường chéo cho thấy cấu trúc cụm 3.5 Độ đo hiệu suất Hiệu suất thuật toán phân cụm đo độ đo Adjusted Rand Index (𝐴𝑅𝐼) [11] Giả sử 𝑇 phân cụm đúng/thực tế tập liệu 𝐶 kết phân cụm cho số thuật toán phân cụm khác Đặt a, 𝑏 , 𝑐 𝑑 biểu thị tương ứng số lượng cặp điểm thuộc cụm 𝑇 𝐶, số lượng cặp điểm thuộc vào cụm 𝑇 khác cụm 𝐶, số lượng cặp thuộc cụm khác 𝑇 thuộc cụm 𝐶 số lượng cặp thuộc cụm khác 𝑇 𝐶 Khi số (𝑇,) xác định sau: 2(𝑎𝑑 − 𝑏𝑐) 𝐴𝑅𝐼 (𝑇, 𝐶 ) = (𝑎 + 𝑏)(𝑏 + 𝑑 ) + (𝑎 + 𝑐 )(𝑐 + 𝑑) (4.1) Giá trị 𝐴𝑅𝐼(𝑇, 𝐶) nằm và giá trị ARI cao cho thấy độ tương tự T C cao Khi T C giống hệt ARI(𝑇, C) = 3.6 Thủ tục thực nghiệm Thực lặp lại N lần, lần lặp lại chạy I lần thuật tốn để tính AvgARIB sau: for i = to N for j = to I 46 ARI[ j ] = giá trị ARI kết lần chạy (i,j) so với phân cụm thực tế; end for ARIB[i ] = max {ARI[1], , ARI[I]} end for AvgARIB = avg{ARIB[1], , ARIB[N]} 3.7 Các thông số đầu vào Trong phần thử nghiệm, thông số đầu vào sử dụng tương tự [4]: - Số hệ (số lần lặp giải thuật di truyền): 100; - Kích thước quần thể: 50; - Xác suất lai ghép: 0.8; - Xác suất đột biến: 1/chiều dài NST; - Số mũ m: 2; Đây giá trị chọn sau số thử nghiệm [4] N I chọn 50 100 3.8 Kết thử nghiệm Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT 47 Hình 3.2 Kết phân cụm thực nghiệm lại phương pháp [4] liệu Soybean Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình trịn màu xanh phương án lựa chọn cuối Kết thực nghiệm lại sở liệu Soybean phù hợp với kết trình bày [4] (AvgARIB = 1) Tương ứng, Hình 3.1 Hình 3.2 biểu diễn lần chạy cho kết ARI = cho thấy cấu trúc cụm thu từ chương trình cấu trúc cụm thực tế giống Dưới kết thực nghiệm sở liệu SPECT heart sở liệu Hayes-Roth với số nhận xét dựa quan sát kết thực nghiệm 48 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart 49 Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 50 Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth 51 Nhận xét: Qua quan sát kết mà luận văn thực nghiệm nhiều lần đưa số nhận xét sau: Với liệu cụ thể ứng với toán thực tế, áp dụng phương pháp phân cụm cần thiết kế/lựa chọn hàm khoảng cách điểm liệu phù hợp Như ta thấy Hình 3.1, khoảng cách Hamming mà ta sử dụng phù hợp với sở liệu đậu tương ta quan sát rõ cụm thực tế biểu diễn phương pháp VAT Trong trường hợp này, phương pháp sử dụng luận văn cho kết tốt (AvrARIB = 1) Tuy nhiên, hai sở liệu SPECT heart (Hình 3.4) Hayes-Roth (Hình 3.7), khơng thể quan sát cấu trúc cụm thực tế lược đồ VAT với khoảng cách Hamming Điều có nghĩa khoảng cách Hamming không phù hợp với hai sở liệu Quan sát lược đồ VAT kết phân cụm (Hình 3.5, Hình 3.8), thấy cấu trúc cụm rõ Điều có nghĩa cụm kết phương pháp phân cụm có độ cụm độ phân tách cụm theo khoảng cách Hamming tốt cụm thực tế Do giá trị AvrARIB thu thấp có sai khác kết phân cụm cụm thực tế (AvrARIB = 0.0244 sở liệu SPECT heart; AvrARIB = -0.0050 sở liệu Hayes-Roth) Cần cải thiện phương pháp chọn phương án tốt từ hệ cuối Mặc dù phương pháp chọn phương án tốt từ hệ cuối báo cáo đóng góp quan trọng [4], nhiên nhiều trường hợp, phương án chọn phương án tốt Quan sát thử nghiệm sở liệu đậu tương (là sở liệu mà hàm khoảng cách Hamming phù hợp để phân cụm) ta thấy có nhiều trường hợp 50 cá thể quần thể cuối cùng, có nhiều cá thể có ARI phương pháp chọn đưa phương án (có ARI < 1) 52 KẾT LUẬN Qua thời gian nghiên cứu, hướng dẫn trực tiếp thày PGS.TS Hoàng Xuân Huấn, em hoàn thành luận văn “Phân cụm đa mục tiêu mờ cho liệu định danh” Luận văn đạt hai kết là: Nghiên cứu tài liệu hệ thống lại kiến thức có liên quan sau: – Phân cụm liệu – Các phương pháp sử dụng để phân cụm liệu – Phân cụm rõ, phân cụm mờ giải thuật tối ưu hóa cụm – Nghiên cứu giải thuật tối ưu đa mục tiêu thực phân cụm mờ cho liệu dịnh danh Cài đặt thuật toán tối ưu đa mục tiêu NSGA – II phân cụm mờ cho liệu định danh Luận văn chạy thử nghiệm với liệu thực tế từ đưa bình luận, nhận xét rút số vấn đề cần tập trung nghiên cứu, giải Trong thời gian tới, em định hướng tập trung nghiên cứu, thực vấn đề sau đây: (i) Tìm hiểu tốn thực tế có liên quan đến sở liệu danh để áp dụng phương pháp mà luận văn nghiên cứu, tìm hiểu Khi đó, vấn đề quan trọng cần thực phân tích đặc điểm toán, đặc điểm liệu cụm thực tế để thiết kế/lựa chọn hàm khoảng cách phù hợp (ii) Nghiên cứu để cải thiện hiệu bước chọn phương án tốt từ hế cuối cùng, kết thuật toán NSGA-II Thời gian qua thân em nỗ lực luận văn em không tránh khỏi thiếu sót lực thân em cịn hạn chế, em mong nhận đóng góp Thày, Cơ, bạn bè có hướng quan tâm nghiên cứu Em xin gửi lời cảm ơn chân thành đến Thày PGS TS Hồng Xn Huấn tận tình bảo, nhận xét, góp ý cho nghiên cứu em Em xin gửi lời cảm ơn sâu sắc đến tất Thày, Cơ tận tình giảng dạy cho em suốt khóa học Trường Đại học Cơng nghệ - Đại học Quốc Gia Hà Nội 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học Cơng nghệ – Đại Học Quốc Gia Hà Nội [2] Nguyễn Hà Nam (2012), Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình Khai phá liệu, NXB Đại học Quốc gia Hà Nội Tiếng Anh [3] [4] [5] [6] [7] [8] [9] Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhyay(2013), Hybrid Evolutionary Multiobjective Fuzzy CMedoids Clustering of Categorical Data, IEEE Workshop on Hybrid Intelligent Models and Applications (HIMA) Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhya (2009), Multiobjective Genetic Algorithm-Based Fuzzy Clustering of Categorical Attributes, IEEE transactions on evolutionary computation, vol 13, no 5, October A K Jain and R C Dubes (1988), Algorithms for Clustering Data Englewood Cliffs, NJ: Prentice-Hall A Konak, D W Coit, A E Smith (2006), “Multi objective optimization using genetic algorithms: A tutorial”, J Reability Engineering and System Safety, No 91, pp 992-1007 E Zitzler and L Thiele (1998), “An evolutionary algorithm for multiobjective optimization: The strength Pareto approach”, Swiss Fed Inst Technol., Zurich, Switzerland, Tech Rep 43 J C Bezdek (1981), Pattern Recognition with Fuzzy Objective Function Algorithms New York: Plenum J C Bezdek and R J Hathaway, “VAT: A tool for visual assessment of (cluster) tendency,” in Proc Int Joint Conf Neural Netw., vol Honolulu, HI, 2002, pp 2225–2230 [10] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [11] K Y Yip, D W Cheung, and M K Ng (2003), “A highly usable projected clustering algorithm for gene expression profiles,” in Proceedingsof 3rd ACM SIGKDD Workshop on Data Mining in Bioinformatics, pp 41–48 [12] L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: An GIntroduction to Cluster Analysis NY, US: John Wiley & Sons [13] Osmar R.Zaiane (2001), Principles of knowledge discovery in databases, University of Alberta, Fall 54 [14] Z Huang and M K Ng (1999), “A fuzzy k-modes algorithm for clustering categorical data,” IEEE Trans Fuzzy Syst., vol 7, no 4, pp 446–452, Aug [15] Zadeh L.A.(1965), Fuzzy Sets, Information and Control, pp.338–353 [16] https://www.mathworks.com/matlabcentral/fileexchange/10429-nsga-ii amulti-objective-optimization-algorithm ... quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân. .. 25 CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 29 2.3 Tối ưu hóa đa mục tiêu giải... cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu