Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 54 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
54
Dung lượng
1,68 MB
Nội dung
1 LỜI CẢM ƠN Để hồn thiện luậnvănthạc sỹ mình, trước tiên em xin gửi lời cảm ơn sâu sắc đến thày PGS.TS Hồng Xn Huấn Thày tận tình định hướng, dìu dắt, bảo cho em bước đầu nghiên cứu khoa học Trong q trình thày ln quan tâm, lo lắng, động viên, điều đáng quý em xin ghi nhớ lòng Em xin gửi lời chân thành cảm ơn đến thày cô giáo môn Hệ thốngthông tin, mơn Khoa học máy tính – Khoa Cơngnghệthôngtin – Trường Đại học Côngnghệ – Đại học Quốc gia Hà Nội thày cô tận tình dạy dỗ, nỗ lực, tâm huyết dạy mơn học giúp em có kiến thức sống, chun mơn hồn thành khóa học trường Đồng thời em xin gửi lời cảm ơn đến bạn học, người thân gia đình, đồng nghiệp giúp đỡ, động viên, tạo điều kiện cho em suốt khóa học Trường Đại học Côngnghệ – Đại học Quốc gia Hà Nội Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm LỜI CAM ĐOAN Em xin cam đoan nội dung kiến thức mà em trình bày luậnvăn em tự tìm hiểu, nghiên cứu, trình bày hướng dẫn trực tiếp thày PGS TS Hoàng Xuân Huấn Tất phần nội dung mà em có tham khảo trích dẫn đầy đủ, ghi rõ nguồn gốc phần Tài liệu tham khảo Em xin chịu trách nhiệm với lời cam đoan mình, có phát chép không hợp lệ, vi phạm quy chế đào tạo em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANHMỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANHMỤC CÁC BẢNG DANHMỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phâncụmliệu gì? 1.2 Các khái niệm cần thiết tiếp cận phâncụmliệu 10 1.2.1 Cấu trúc liệu 10 1.2.2 Các kiểu liệu 11 1.2.3 Độ đo tương tự phi tương tự 12 1.3 Phâncụmliệumờ 15 1.3.1 Tổng quan tập mờ 15 1.3.2 Phâncụm rõ phâncụmmờ 17 1.4 Tối ưu đamụctiêu [1] 21 1.4.1 Bài toán tối ưu tổng quát 21 1.4.2 Tối ưu đơn mụctiêu 21 1.4.3 Tối ưu đamụctiêu 22 1.4.4 Chọn phương án toán đơn mụctiêu toán đamụctiêu 23 1.5 Giải thuật di truyền sử dụng để tối ưu hóa đamụctiêu 24 1.5.1 Giới thiệu 24 1.5.2 Các quy luật 25 CHƯƠNG PHÂNCỤMĐAMỤCTIÊUMỜCHODỮLIỆUĐỊNHDANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phâncụmmờcholiệuđịnhdanh [4] 29 2.3 Tối ưu hóa đamụctiêu giải thuật tối ưu hóa đamụctiêu 31 2.3.1 Tối ưu hóa đamụctiêu 31 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ưu đamụctiêu 32 2.4 Phâncụmđamụctiêumờcholiệuđịnhdanh sử dụng giải thuật di truyền 33 2.4.1 Thuật toán NSGA-II 33 2.4.2 Biểu diễn nhiễm sắc thể 35 2.4.3 Khởi tạo quần thể 35 2.4.4 Tính tốn giá trị hàm mụctiêu 35 2.4.5 Thủ tục xếp khơng vượt trội tính tốn khoảng cách mật độ 37 2.4.6 Chọn lọc, lai ghép đột biến 38 2.4.7 Chọn phương án từ tập không vượt trội 39 CHƯƠNG THỬ NGHIỆM 42 3.1 Giới thiệu 42 3.2 Chương trình 42 3.3 Dữliệu thử nghiệm 42 3.3.1 Cơ sở liệu Soybean 43 3.3.2 Cơ sở liệu SPECT heart 44 3.3.3 Cơ sở liệu Hayes – Roth 44 3.4 Phương pháp biểu diễn liệu 45 3.5 Độ đo hiệu suất 45 3.6 Thủ tục thực nghiệm 45 3.7 Các thông số đầu vào 46 3.8 Kết thử nghiệm 46 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANHMỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Cơ sở liệu Thuật toán HAC Thuật toán BIRCH Từ viết tắt CSDL HAC BIRCH Thuật toán PAM Thuật toán STING Giải thuật di truyền Nhiễm sắc thể Thuật toán C-Mean mờ Thuật toán NSGA-II PAM STING GA NST FCM Từ Tiếng Anh DataBase Hierarchical agglomerative clustering Balanced Interative Reducing and Clustering using Hierarchies Partition Around Mediods A STatistical Information Grid approach Genetic Algorithms Chromosomes Fuzzy C-Means NSGA-II Non-dominated Sorting Genetic Algorithm-II DANHMỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 13 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bướm sử dụng thuật tốn k-means c-means mờ 21 DANHMỤC CÁC HÌNH VẼ Hình 1.1 Ví dụphâncụmliệu Hình 1.2 Tiêu chí để phâncụm 10 Hình 1.3 Hình minh họa cho tập chiều cao người 16 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” 17 Hình 1.5 Tập liệu hình cánh bướm 19 Hình 1.6 Kết phâncụm rõ với tập liệu hình cánh bướm 20 Hình 1.7 Hai cụmmờ tập liệu hình cánh bướm 20 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể 26 Hình 3.1 Phâncụm thực tế của liệu Soybean sử dụng biểu diễn VAT 46 Hình 3.2 Kết phâncụm thực nghiệm lại phương pháp [4] liệu Soybean 47 Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình tròn màu xanh phương án lựa chọn cuối 47 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế 48 Hình 3.5 Kết phâncụm thực nghiệm liệu SPECT heart 48 Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart 49 Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 49 Hình 3.8 Kết phâncụm thực nghiệm liệu Hayes-Roth 50 Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth 50 LỜI NÓI ĐẦU Bước sang kỷ hai mươi mốt, giới chứng kiến bùng nổ côngnghệthôngtin Ngày nay, vật dụng thiếu phần đông người điện thoại thơng minh, máy tính bảng Có thể thấy với phát triển côngnghệphần cứng, phần mềm dung lượng liệu số người dùng tạo vấn đề đáng ý Bên cạnh tất lĩnh vực đời sống xã hội tin học hóa tạo nên lượng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có cơng cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng tính thời ngành Côngnghệthôngtin không Việt Nam mà toàn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các cơng trình nghiên cứu từ nhiều chuyên ngành khác học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hướng đến mụctiêuthống trích lọc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều người hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - Tuy nhiên, thực tế cho thấy khai phá liệu bước phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hướng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một tốn khai phá liệu điển hình phâncụmliệu (Data clustering) Phâncụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng.Trong nhiều trường hợp, phâncụm gọi học máy không giám sát (unsupervised learning) Trong thực tế, liệu ln có tính nhập nhằng, ranh giới cụm đơi khơng rõ ràng, phương pháp phâncụm rõ làm việc không hiệu không mô tả cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ áp dụng nhằm làm cho việc phâncụmliệu tốt từ xây dựng nên phương pháp phâncụmliệumờ (gọi tắt phâncụm mờ) [fuzzy clustering] Tuy nhiên, phương pháp phâncụmmờ áp dụng choliệu Bởi giá trị thuộc tính liệuđịnhdanh khơng có thứ tự khơng áp dụng độ đo khoảng cách Euclide để tìm khoảng cách hai véc tơ đặc trưng liệuđịnhdanh Vì phải sử dụng phương pháp khác choliệu K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết toán học tối ưu hóa đamụctiêu ngày sử dụng rộng rãi sống khoa học, ví dụ cá nhân, tổ chức, phương pháp, kỹ thuật,… có lúc phải định việc lựa chọn phương án tối ưu để giải vấn đề Tùy thuộc vào tình cụ thể mà phương án đưa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thơngtin nhằm mục đích cuối đưa giải pháp để giải vấn đề Tối ưu hóa đamụctiêu việc tìm phương án tốt theo nghĩa định để đạt nhiều mụctiêu lúc phương án gọi phương án lý tưởng Trong tốn tối ưu đamục tiêu, việc có hay khơng có phương án lý tưởng việc mà cần phải quan tâm, xem xét tốn mụctiêu thường xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểumụctiêu dẫn đến làm giảm giá trị cực đại cực tiểumụctiêu khác Do cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu đamụctiêumức độ chấp nhận phương án mà tìm gọi phương án thỏa hiệp hàm mụctiêu Hiện có nhiều định nghĩa khác đề cập đến phương án hay nghiệm tối ưu Các định nghĩa thường có tương quan định với thường biểu diễn qua định lý, mệnh đề tính chất tối ưu Pareto [7] Nhờ vào ưu điểm hiệu thực tế mà tối ưu hóa đamụctiêu mang lại, trở thành lý thuyết tốn học ứng dụng rộng rãi nhiều lĩnh vực khoa học như: cơng nghệ, tài chính, hàng khơng, kinh tế,… Bố cục luậnvăn chia làm chương sau: CHƯƠNG Nền tảng lý thuyết Chương trình bày tổng quan phâncụm liệu: khái niệm ý nghĩa việc phâncụm Để hiểu rõ phâncụmđamụctiêu nội dung từ khái niệm đến khác phâncụmmụctiêuphâncụmđamụctiêu Đồng thời đề cập phân tích phâncụm rõ phâncụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phâncụmđamụctiêumờcholiệuđịnhdanh Chương trình bày nội dung luậnvăn Chương trình bày phương pháp phâncụmđamụctiêumờcholiệuđịnhdanh sử dụng giải thuật di truyền CHƯƠNG Thử nghiệm Chương tập trung trình bày kết thực nghiệm phương pháp trình bày CHƯƠNG Thuật tốn cài đặt thử nghiệm liệu, từ rút số bình luận, nhận xét kết luận Cuối cùng, phần Kết luận trình bày tóm tắt kết đạt luậnvăn đề xuất hướng nghiên cứu tương lai CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phâncụmliệu gì? Phâncụm việc làm tự nhiên, hiểu tương tự việc người ta phân động, thực vật thành loài, họ… khác (hay nhóm có số đặc điểm đặc điểm lại khác với loài động, thực vật khác), hay lớp học người ta phân nhóm học sinh học tốt, học khá, học kém, … Phâncụm sử dụng rộng rãi nhiều lĩnh vực (hay toán) nghiên cứu thị trường, nhận dạng mẫu, phân tích liệu, xử lý ảnh, … Ví dụ lĩnh vực kinh doanh, phâncụm giúp phân khách hàng thành nhóm khác đồng thời cho biết đặc trưng nhóm người dùng này, từ cơng ty có sách khác dànhcho nhóm khách hàng Vậy phâncụmliệu gì? “Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng Phâncụm toán mô tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu Các cụm (lớp) cá thể tách rời toàn phần (tạo nên phân hoạch cho tập liệu) trình bày đẹp phân lớp có thứ bậc chồng lên (giao nhau)” [2] Do đó, q trình phâncụmliệu trình phân chia tập liệu ban đầu thành cụmliệu để chophần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Việc xác định số cụmliệu thực xác định trước theo kinh nghiệm xác định tự động theo phương pháp phâncụm Hình 1.1 Ví dụphâncụmliệu Trong ví dụ Hình 1.1, ta dễ dàng xác địnhcụm dựa vào liệu cho, tiêu chí “tương tự” nhắc đến để xác định số cụm trường hợp “khoảng cách”: hai nhiều đối tượng thuộc nhóm nhóm lại theo khoảng cách định Ví dụ gọi phâncụm dựa khoảng cách 10 Còn có kiểu phâncụmliệu khác phâncụmliệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc vào nhóm có định nghĩa khái niệm chung cho tất đối tượng Hay, đối tượng nhóm phải phù hợp với theo miêu tả khái niệm định nghĩa, theo biện pháp đơn giản tương tự Mụctiêuđịnh hướng toán phâncụm đặt cực đại tính tương đồng phần tử cụm cực tiểu tính tương đồng phần tử thuộc cụm khác (Hình 1.2) Hình 1.2 Tiêu chí để phâncụm Trong học máy, phâncụmliệu coi học máy khơng có giám sát (unsupervised learning), vấn đề mà phải giải tìm cấu trúc tập hợp liệu chưa biết trước thôngtin cụm, thôngtin tập huấn luyện hay thôngtin nhãn lớp Trong nhiều trường hợp, phân lớp coi học máy có giám sát phâncụmliệu bước phân lớp liệu, khởi tạo lớp để phân lớp cách xác định nhãn cho nhóm liệu [10] 1.2 Các khái niệm cần thiết tiếp cận phâncụmliệu 1.2.1 Cấu trúc liệu Các thuật toán phâncụmliệu thường sử dụng hai loại cấu trúc liệu điển hình sau [6] Ma trận liệu (cách biểu diễn cấu trúc đối tượng theo biến): ma trận biểu diễn n đối tượngvà p biến (hay gọi phép đo/ thuộc tính) đối tượng, có dạng ma trận n hàng p cột Trong đó, hàng biểu diễn cho đối tượng, phần tử hàng dùng để giá trị thuộc tính tương ứng đối tượng 40 phương án khác nhau, ví dụcụm i phương án phải phù hợp với cụm i tất phương án khác Cách thực sau: Đặt X = {l1, l2, , ln} vector nhãn phương án đầu tiên, li∈ {1, 2, …, K} nhãn cụm điểm xi Đầu tiên, X gán nhãn điểm gán giá trị Để gán lại nhãn cho X, vectơ L có độ dài K tạo mà nhãn lớp xuất theo thứ tự Vectơ L tính sau: k = 1, Lk= l1, lab = {L1} for i = 2, , n if li /∈lab then k = k + Lk = li lab= lab∪ {li} end if end for Sau ánh xạ M: L → {1, , K} xác định sau: ∀i = 1, , K,M[Li ] = i (2.19) Tiếp theo vectơ T tạm thời có độ dài n thu áp dụng ánh xạ X sau: ∀i = 1, 2, , n, Ti = M [li] (2.20) Tiếp theo, X thay T Đây cách X dán nhãn Ví dụ, khởi tạo đặt X = {33111442} Sau dán nhãn lại {11222334} Khi vecto nhãn phương án không vượt trội sửa lại cách so sánh với vectơ nhãn phương án sau: Đặt N tập phương án không vượt trội (vectơ nhãn) đưa kỹ thuật phâncụmđamụctiêu X vectơ nhãn cụm phương án Giả sử Y ∈ N\X (tức là, Y vectơ nhãn N khác X) vectơ nhãn khác dán nhãn phù hợp với X Điều thực sau: đầu tiên, nhãn lớp l X, tất điểm Pl đánh dấu nhãn lớp l X tìm thấy Sau đó, quan sát nhãn lớp điểm từ Y, có nhãn lớp b từ Y, đánh dấu số điểm tối đa Pl Sau ánh xạ Mapb định Mapb: b → l Quá trình lặp lặp lại cho nhãn lớp l∈ {1, , K} X Sau nhận tất ánh xạ Mapb cho tất nhãn lớp b ∈ {1, , K} Y, chúng áp dụng Y để dán nhãn Y theo X Tất phương án không vượt trội Y ∈ N\X dán nhãn phù hợp với X nói Lưu ý ánh xạ Map nên ánh xạ 1-1 để đảm bảo sau dán nhãn lại Y chứa tất nhãn lớp K Ràng buộc bị vi phạm tìm b Tình trạng khắc phục sau: Nếu ánh xạ 1-1 khơng thể có cố gắng duyệt 41 tất khả gán nhãn, tức K! khả Y tìm Y phù hợp với X Nhãn phù hợp Y lưu giữ Xét ví dụ sau: Đặt X {11222334} hai vectơ nhãn Y = {22444113} Z ={42333221} Nếu Y Z gán nhãn phù hợp với X, nhãn Y trở thành {11222334}và nhãn Z trở thành {13222334} Sau gán nhãn lại tất vectơ nhãn, kỹ thuật biểu đa số áp dụng cho tùy điểm Các điểm chọn 50% phương án nhãn xác định Những điểm sử dụng làm tập huấn luyện cho kỹ thuật k-nn để gán nhãn cho điểm lại Các điểm lại gán nhãn lớp theo phân lớp k-nn Đối với điểm chưa xác định k-nearest neighbords tính điểm gán nhãn lớp thu biểu đa số k-nearest neighbords Giá trị k chọn Áp dụng biểu đa số theo phân lớp k-nn tạo nhãn cụm vectơ X từ việc kết hợp thôngtinphâncụm tất phương án không vượt trội Sau đó, phương án tính giá trị tỉ lệ phù hợp với X Phương án phù hợp với X phương án chọn 42 CHƯƠNG THỬ NGHIỆM 3.1 Giới thiệu Trong trình thực đề tài, luậnvăn tiến hành cài đặt phương pháp trình bày [3, 4] Chương trình thử nghiệm với sở liệu [4] để kiểm chứng việc cài đặt chương trình Sau đó, chương trình xây dựng áp dụng cho sở liệu khác, là: liệuđịnhdanh SPECT heart Hayes-Roth để đánh giá hiệu phâncụm phương pháp [3, 4] sở liệu Dựa việc quan sát kết thử nghiệm, luậnvăn đưa số nhận xét, kết luận số vấn đề tồn cần giải 3.2 Chương trình Chương trình cài đặt mơi trường Matlab 2013 Các thử nghiệm thực máy tính Intel Core i52.5 GHz, GB RAM, hệ điều hành Windows 64 bit Chương trình xây dựng dựa việc kế thừa có chỉnh sửa từ mã nguồn Matlab cài đặt thuật toán NSGA-2 [16] để cài đặt phương pháp [3, 4] 3.3 Dữliệu thử nghiệm Ba sở liệudanh dùng để thử nghiệm chương trình gồm liệuđịnhdanh đậu tương, SPECT heart Hayes-Roth lấy từ UCI Machine Learning Repository (www.ics.uci.edu/∼mlearn/MLRepository.html) Link thôngtin sở liệu đỗ tương: http://archive.ics.uci.edu/ml/datasets/Soybean+%28Small%29 http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybeansmall.names Link thôngtin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/SPECT+Heart http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECTF.names Link thôngtin sở liệu SPECT heart: http://archive.ics.uci.edu/ml/datasets/Hayes-Roth http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayesroth.names Down liệu chuẩn CSDL theo địa chỉ: http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data http://archive.ics.uci.edu/ml/machine-learning-databases/spect/SPECT.train http://archive.ics.uci.edu/ml/machine-learning-databases/hayes-roth/hayes-roth.data 43 3.3.1 Cơ sở liệu Soybean Bộ liệu chứa 47 điểm liệu bệnh đậu nành [xem Hình 3.1] Mỗi điểm liệu có 35 thuộc tính địnhdanhphân loại vào bệnh: Diaporthe Stem, Charcoal, Rhizoctonia Root Phytophthora, tức là, số cụm tập liệu Mỗi loại bệnh có 10 ghi trừ bệnh Phytophthora có 17 ghi Các thuộc tính miền giá trị: date: april,may,june,july,august,september,october plant-stand: normal,lt-normal precip: lt-norm,norm,gt-norm temp: lt-norm,norm,gt-norm hail: yes,no crop-hist: diff-lst-year,same-lst-yr,same-lst-two-yrs, same-lst-sev-yrs area-damaged: scattered,low-areas,upper-areas,whole-field severity: minor,pot-severe,severe seed-tmt: none,fungicide,other 10 germination: 90-100%,80-89%,lt-80% 11 plant-growth: norm,abnorm 12 leaves: norm,abnorm 13 leafspots-halo: absent,yellow-halos,no-yellow-halos 14 leafspots-marg: w-s-marg,no-w-s-marg,dna 15 leafspot-size: lt-1/8,gt-1/8,dna 16 leaf-shread: absent,present 17 leaf-malf: absent,present 18 leaf-mild: absent,upper-surf,lower-surf 19 stem: norm,abnorm 20 lodging: yes,no 21 stem-cankers: absent,below-soil,above-soil,above-sec-nde 22 canker-lesion: dna,brown,dk-brown-blk,tan 23 fruiting-bodies: absent,present 24 external decay: absent,firm-and-dry,watery 25 mycelium: absent,present 26 int-discolor: none,brown,black 27 sclerotia: absent,present 28 fruit-pods: norm,diseased,few-present,dna 29 fruit spots: absent,colored,brown-w/blk-specks,distort,dna 30 seed: norm,abnorm 31 mold-growth: absent,present 32 seed-discolor: absent,present 33 seed-size: norm,lt-norm 34 shriveling: absent,present 35 roots: norm,rotted,galls-cysts 44 3.3.2 Cơ sở liệu SPECT heart Cơ sở liệu SPECT heart có 80 ghi; ghi có 22 thuộc tính Bộ liệumơ tả thơngtin chẩn đốn chụp cắt lớp hình ảnh tim (Single Proton Emission Computed Tomography - SPECT) Mỗi bệnh nhân phân vào hai loại: bình thường bất thường Các thuộc tính miền giá trị: OVERALL_DIAGNOSIS: 0,1 (class attribute, binary) F1: 0,1 (the partial diagnosis 1, binary) F2: 0,1 (the partial diagnosis 2, binary) F3: 0,1 (the partial diagnosis 3, binary) F4: 0,1 (the partial diagnosis 4, binary) F5: 0,1 (the partial diagnosis 5, binary) F6: 0,1 (the partial diagnosis 6, binary) F7: 0,1 (the partial diagnosis 7, binary) F8: 0,1 (the partial diagnosis 8, binary) 10 F9: 0,1 (the partial diagnosis 9, binary) 11 F10: 0,1 (the partial diagnosis 10, binary) 12 F11: 0,1 (the partial diagnosis 11, binary) 13 F12: 0,1 (the partial diagnosis 12, binary) 14 F13: 0,1 (the partial diagnosis 13, binary) 15 F14: 0,1 (the partial diagnosis 14, binary) 16 F15: 0,1 (the partial diagnosis 15, binary) 17 F16: 0,1 (the partial diagnosis 16, binary) 18 F17: 0,1 (the partial diagnosis 17, binary) 19 F18: 0,1 (the partial diagnosis 18, binary) 20 F19: 0,1 (the partial diagnosis 19, binary) 21 F20: 0,1 (the partial diagnosis 20, binary) 22 F21: 0,1 (the partial diagnosis 21, binary) 23 F22: 0,1 (the partial diagnosis 22, binary) 3.3.3 Cơ sở liệu Hayes – Roth Cơ sở liệu Hayes – Roth liên quan đến chủ đề: đối tượng nghiên cứu: người Cơ sở liệu chứa 160 ghi, ghi có thuộc tính phân vào nhóm Các thuộc tính liệu Hayes - Roth Attribute Information: name: distinct for each instance and represented numerically hobby: nominal values ranging between and 45 age: nominal values ranging between and educational level: nominal values ranging between and marital status: nominal values ranging between and class: nominal value between and 3.4 Phương pháp biểu diễn liệu Để có nhìn trực quan liệu, có phương pháp tốt dùng để đánh giá trực quan cụm phương pháp VAT (visual assessment of cluster tendency representation) [9] Trong phương pháp này, liệu theo phương án phâncụm biểu diễn sau: điểm xếp lại theo nhãn lớp/cụm, sau ma trận khoảng cách điểm liệu tính tốn Cuối cùng, vẽ biểu đồ đồ họa ma trận khoảng cách Trong biểu đồ này, hình hộp nằm đường chéo cho thấy cấu trúc cụm 3.5 Độ đo hiệu suất Hiệu suất thuật toán phâncụm đo độ đo Adjusted Rand Index (𝐴𝑅𝐼) [11] Giả sử 𝑇 phâncụm đúng/thực tế tập liệu 𝐶 kết phâncụmcho số thuật toán phâncụm khác Đặt a, 𝑏 , 𝑐 𝑑 biểu thị tương ứng số lượng cặp điểm thuộc cụm 𝑇 𝐶, số lượng cặp điểm thuộc vào cụm 𝑇 khác cụm 𝐶, số lượng cặp thuộc cụm khác 𝑇 thuộc cụm 𝐶 số lượng cặp thuộc cụm khác 𝑇 𝐶 Khi số (𝑇,) xác định sau: 2(𝑎𝑑 − 𝑏𝑐) 𝐴𝑅𝐼 (𝑇, 𝐶 ) = (𝑎 + 𝑏)(𝑏 + 𝑑 ) + (𝑎 + 𝑐 )(𝑐 + 𝑑) (4.1) Giá trị 𝐴𝑅𝐼(𝑇, 𝐶) nằm và giá trị ARI cao cho thấy độ tương tự T C cao Khi T C giống hệt ARI(𝑇, C) = 3.6 Thủ tục thực nghiệm Thực lặp lại N lần, lần lặp lại chạy I lần thuật tốn để tính AvgARIB sau: for i = to N for j = to I 46 ARI[ j ] = giá trị ARI kết lần chạy (i,j) so với phâncụm thực tế; end for ARIB[i ] = max {ARI[1], , ARI[I]} end for AvgARIB = avg{ARIB[1], , ARIB[N]} 3.7 Các thông số đầu vào Trong phần thử nghiệm, thông số đầu vào sử dụng tương tự [4]: - Số hệ (số lần lặp giải thuật di truyền): 100; - Kích thước quần thể: 50; - Xác suất lai ghép: 0.8; - Xác suất đột biến: 1/chiều dài NST; - Số mũ m: 2; Đây giá trị chọn sau số thử nghiệm [4] N I chọn 50 100 3.8 Kết thử nghiệm Hình 3.1 Phâncụm thực tế của liệu Soybean sử dụng biểu diễn VAT 47 Hình 3.2 Kết phâncụm thực nghiệm lại phương pháp [4] liệu Soybean Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình tròn màu xanh phương án lựa chọn cuối Kết thực nghiệm lại sở liệu Soybean phù hợp với kết trình bày [4] (AvgARIB = 1) Tương ứng, Hình 3.1 Hình 3.2 biểu diễn lần chạy cho kết ARI = cho thấy cấu trúc cụm thu từ chương trình cấu trúc cụm thực tế giống Dưới kết thực nghiệm sở liệu SPECT heart sở liệu Hayes-Roth với số nhận xét dựa quan sát kết thực nghiệm 48 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế Hình 3.5 Kết phâncụm thực nghiệm liệu SPECT heart 49 Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 50 Hình 3.8 Kết phâncụm thực nghiệm liệu Hayes-Roth Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth 51 Nhận xét: Qua quan sát kết mà luậnvăn thực nghiệm nhiều lần đưa số nhận xét sau: Với liệu cụ thể ứng với toán thực tế, áp dụng phương pháp phâncụm cần thiết kế/lựa chọn hàm khoảng cách điểm liệu phù hợp Như ta thấy Hình 3.1, khoảng cách Hamming mà ta sử dụng phù hợp với sở liệu đậu tương ta quan sát rõ cụm thực tế biểu diễn phương pháp VAT Trong trường hợp này, phương pháp sử dụng luậnvăncho kết tốt (AvrARIB = 1) Tuy nhiên, hai sở liệu SPECT heart (Hình 3.4) Hayes-Roth (Hình 3.7), khơng thể quan sát cấu trúc cụm thực tế lược đồ VAT với khoảng cách Hamming Điều có nghĩa khoảng cách Hamming không phù hợp với hai sở liệu Quan sát lược đồ VAT kết phâncụm (Hình 3.5, Hình 3.8), thấy cấu trúc cụm rõ Điều có nghĩa cụm kết phương pháp phâncụm có độ cụm độ phân tách cụm theo khoảng cách Hamming tốt cụm thực tế Do giá trị AvrARIB thu thấp có sai khác kết phâncụmcụm thực tế (AvrARIB = 0.0244 sở liệu SPECT heart; AvrARIB = -0.0050 sở liệu Hayes-Roth) Cần cải thiện phương pháp chọn phương án tốt từ hệ cuối Mặc dù phương pháp chọn phương án tốt từ hệ cuối báo cáo đóng góp quan trọng [4], nhiên nhiều trường hợp, phương án chọn phương án tốt Quan sát thử nghiệm sở liệu đậu tương (là sở liệu mà hàm khoảng cách Hamming phù hợp để phân cụm) ta thấy có nhiều trường hợp 50 cá thể quần thể cuối cùng, có nhiều cá thể có ARI phương pháp chọn đưa phương án (có ARI < 1) 52 KẾT LUẬN Qua thời gian nghiên cứu, hướng dẫn trực tiếp thày PGS.TS Hoàng Xuân Huấn, em hoàn thành luậnvăn “Phân cụmđamụctiêumờcholiệuđịnh danh” Luậnvăn đạt hai kết là: Nghiên cứu tài liệu hệ thống lại kiến thức có liên quan sau: – Phâncụmliệu – Các phương pháp sử dụng để phâncụmliệu – Phâncụm rõ, phâncụmmờ giải thuật tối ưu hóa cụm – Nghiên cứu giải thuật tối ưu đamụctiêu thực phâncụmmờcholiệudịnhdanh Cài đặt thuật toán tối ưu đamụctiêu NSGA – II phâncụmmờcholiệuđịnhdanhLuậnvăn chạy thử nghiệm với liệu thực tế từ đưa bình luận, nhận xét rút số vấn đề cần tập trung nghiên cứu, giải Trong thời gian tới, em định hướng tập trung nghiên cứu, thực vấn đề sau đây: (i) Tìm hiểu tốn thực tế có liên quan đến sở liệudanh để áp dụng phương pháp mà luậnvăn nghiên cứu, tìm hiểu Khi đó, vấn đề quan trọng cần thực phân tích đặc điểm toán, đặc điểm liệucụm thực tế để thiết kế/lựa chọn hàm khoảng cách phù hợp (ii) Nghiên cứu để cải thiện hiệu bước chọn phương án tốt từ hế cuối cùng, kết thuật toán NSGA-II Thời gian qua thân em nỗ lực luậnvăn em không tránh khỏi thiếu sót lực thân em hạn chế, em mong nhận đóng góp Thày, Cơ, bạn bè có hướng quan tâm nghiên cứu Em xin gửi lời cảm ơn chân thành đến Thày PGS TS Hồng Xn Huấn tận tình bảo, nhận xét, góp ý cho nghiên cứu em Em xin gửi lời cảm ơn sâu sắc đến tất Thày, Cơ tận tình giảng dạy cho em suốt khóa học Trường Đại học Cơngnghệ - Đại học Quốc Gia Hà Nội 53 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học Cơngnghệ – Đại Học Quốc Gia Hà Nội [2] Nguyễn Hà Nam (2012), Nguyễn Trí Thành, Hà Quang Thụy, Giáo trình Khai phá liệu, NXB Đại học Quốc gia Hà Nội Tiếng Anh [3] [4] [5] [6] [7] [8] [9] Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhyay(2013), Hybrid Evolutionary Multiobjective Fuzzy CMedoids Clustering of Categorical Data, IEEE Workshop on Hybrid Intelligent Models and Applications (HIMA) Anirban Mukhopadhyay, Ujjwal Maulik and Sanghamitra Bandyopadhya (2009), Multiobjective Genetic Algorithm-Based Fuzzy Clustering of Categorical Attributes, IEEE transactions on evolutionary computation, vol 13, no 5, October A K Jain and R C Dubes (1988), Algorithms for Clustering Data Englewood Cliffs, NJ: Prentice-Hall A Konak, D W Coit, A E Smith (2006), “Multi objective optimization using genetic algorithms: A tutorial”, J Reability Engineering and System Safety, No 91, pp 992-1007 E Zitzler and L Thiele (1998), “An evolutionary algorithm for multiobjective optimization: The strength Pareto approach”, Swiss Fed Inst Technol., Zurich, Switzerland, Tech Rep 43 J C Bezdek (1981), Pattern Recognition with Fuzzy Objective Function Algorithms New York: Plenum J C Bezdek and R J Hathaway, “VAT: A tool for visual assessment of (cluster) tendency,” in Proc Int Joint Conf Neural Netw., vol Honolulu, HI, 2002, pp 2225–2230 [10] Jianhua Yang (2002), Algorithmic engineering of clustering and cluster validity with applications to web usage mining, School of Electrical Engineering and Computer Science, Australia [11] K Y Yip, D W Cheung, and M K Ng (2003), “A highly usable projected clustering algorithm for gene expression profiles,” in Proceedingsof 3rd ACM SIGKDD Workshop on Data Mining in Bioinformatics, pp 41–48 [12] L Kaufman and P J Rousseeuw (1990), Finding Groups in Data: An GIntroduction to Cluster Analysis NY, US: John Wiley & Sons [13] Osmar R.Zaiane (2001), Principles of knowledge discovery in databases, University of Alberta, Fall 54 [14] Z Huang and M K Ng (1999), “A fuzzy k-modes algorithm for clustering categorical data,” IEEE Trans Fuzzy Syst., vol 7, no 4, pp 446–452, Aug [15] Zadeh L.A.(1965), Fuzzy Sets, Information and Control, pp.338–353 [16] https://www.mathworks.com/matlabcentral/fileexchange/10429-nsga-ii amulti-objective-optimization-algorithm ... cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phân cụm. .. 25 CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 29 2.3 Tối ưu hóa đa mục tiêu giải... CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH Như giới thiệu, gần đây, vấn đề phân cụm liệu định danh thu hút quan tâm lớn nhà nghiên cứu Một số thuật toán phân cụm với trọng tâm phân cụm liệu