(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh(Luận văn thạc sĩ) Phân cụm đa mục tiêu mờ cho dữ liệu định danh
1 LỜI CẢM ƠN Để hồn thiện luận văn thạc sỹ mình, trước tiên em xin gửi lời cảm ơn sâu sắc đến thày PGS.TS Hồng Xn Huấn Thày tận tình định hướng, dìu dắt, bảo cho em bước đầu nghiên cứu khoa học Trong q trình thày ln quan tâm, lo lắng, động viên, điều đáng quý em xin ghi nhớ lòng Em xin gửi lời chân thành cảm ơn đến thày cô giáo môn Hệ thống thông tin, mơn Khoa học máy tính – Khoa Cơng nghệ thông tin – Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội thày cô tận tình dạy dỗ, nỗ lực, tâm huyết dạy mơn học giúp em có kiến thức sống, chun mơn hồn thành khóa học trường Đồng thời em xin gửi lời cảm ơn đến bạn học, người thân gia đình, đồng nghiệp giúp đỡ, động viên, tạo điều kiện cho em suốt khóa học Trường Đại học Công nghệ – Đại học Quốc gia Hà Nội Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm LỜI CAM ĐOAN Em xin cam đoan nội dung kiến thức mà em trình bày luận văn em tự tìm hiểu, nghiên cứu, trình bày hướng dẫn trực tiếp thày PGS TS Hoàng Xuân Huấn Tất phần nội dung mà em có tham khảo trích dẫn đầy đủ, ghi rõ nguồn gốc phần Tài liệu tham khảo Em xin chịu trách nhiệm với lời cam đoan mình, có phát chép không hợp lệ, vi phạm quy chế đào tạo em xin hoàn toàn chịu trách nhiệm Hà Nội, tháng 11 năm 2016 Học viên Nguyễn Thị Thanh Tâm MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ LỜI NÓI ĐẦU CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 10 1.2.1 Cấu trúc liệu 10 1.2.2 Các kiểu liệu 11 1.2.3 Độ đo tương tự phi tương tự 12 1.3 Phân cụm liệu mờ 15 1.3.1 Tổng quan tập mờ 15 1.3.2 Phân cụm rõ phân cụm mờ 17 1.4 Tối ưu đa mục tiêu [1] 21 1.4.1 Bài toán tối ưu tổng quát 21 1.4.2 Tối ưu đơn mục tiêu 21 1.4.3 Tối ưu đa mục tiêu 22 1.4.4 Chọn phương án toán đơn mục tiêu toán đa mục tiêu 23 1.5 Giải thuật di truyền sử dụng để tối ưu hóa đa mục tiêu 24 1.5.1 Giới thiệu 24 1.5.2 Các quy luật 25 CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 29 2.3 Tối ưu hóa đa mục tiêu giải thuật tối ưu hóa đa mục tiêu 31 2.3.1 Tối ưu hóa đa mục tiêu 31 2.3.2 Việc sử dụng giải thuật di truyền giải toán tối ưu đa mục tiêu 32 2.4 Phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền 33 2.4.1 Thuật toán NSGA-II 33 2.4.2 Biểu diễn nhiễm sắc thể 35 2.4.3 Khởi tạo quần thể 35 2.4.4 Tính tốn giá trị hàm mục tiêu 35 2.4.5 Thủ tục xếp khơng vượt trội tính tốn khoảng cách mật độ 37 2.4.6 Chọn lọc, lai ghép đột biến 38 2.4.7 Chọn phương án từ tập không vượt trội 39 CHƯƠNG THỬ NGHIỆM 42 3.1 Giới thiệu 42 3.2 Chương trình 42 3.3 Dữ liệu thử nghiệm 42 3.3.1 Cơ sở liệu Soybean 43 3.3.2 Cơ sở liệu SPECT heart 44 3.3.3 Cơ sở liệu Hayes – Roth 44 3.4 Phương pháp biểu diễn liệu 45 3.5 Độ đo hiệu suất 45 3.6 Thủ tục thực nghiệm 45 3.7 Các thông số đầu vào 46 3.8 Kết thử nghiệm 46 KẾT LUẬN 52 TÀI LIỆU THAM KHẢO 53 DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT Từ cụm từ Cơ sở liệu Thuật toán HAC Thuật toán BIRCH Từ viết tắt CSDL HAC BIRCH Thuật toán PAM Thuật toán STING Giải thuật di truyền Nhiễm sắc thể Thuật toán C-Mean mờ Thuật toán NSGA-II PAM STING GA NST FCM Từ Tiếng Anh DataBase Hierarchical agglomerative clustering Balanced Interative Reducing and Clustering using Hierarchies Partition Around Mediods A STatistical Information Grid approach Genetic Algorithms Chromosomes Fuzzy C-Means NSGA-II Non-dominated Sorting Genetic Algorithm-II DANH MỤC CÁC BẢNG Bảng 1.1 Bảng giá trị tham số 13 Bảng 1.2 Giá trị hàm liên thuộc tập liệu hình cánh bướm sử dụng thuật tốn k-means c-means mờ 21 DANH MỤC CÁC HÌNH VẼ Hình 1.1 Ví dụ phân cụm liệu Hình 1.2 Tiêu chí để phân cụm 10 Hình 1.3 Hình minh họa cho tập chiều cao người 16 Hình 1.4 Ví dụ minh họa tập mờ “Thấp”, “Trung bình”, “Cao” 17 Hình 1.5 Tập liệu hình cánh bướm 19 Hình 1.6 Kết phân cụm rõ với tập liệu hình cánh bướm 20 Hình 1.7 Hai cụm mờ tập liệu hình cánh bướm 20 Hình 1.8 Minh họa cho bánh xe xổ số với quần thể gồm cá thể 26 Hình 3.1 Phân cụm thực tế của liệu Soybean sử dụng biểu diễn VAT 46 Hình 3.2 Kết phân cụm thực nghiệm lại phương pháp [4] liệu Soybean 47 Hình 3.3 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở liệu đậu tương Điểm đánh dấu hình trịn màu xanh phương án lựa chọn cuối 47 Hình 3.4 Cơ sở liệu SPECT heart với cấu trúc cụm thực tế 48 Hình 3.5 Kết phân cụm thực nghiệm liệu SPECT heart 48 Hình 3.6 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở SPECT heart 49 Hình 3.7 Cơ sở liệu Hayes-Roth với cấu trúc cụm thực tế 49 Hình 3.8 Kết phân cụm thực nghiệm liệu Hayes-Roth 50 Hình 3.9 Lược đồ mối quan hệ Pi-1/Sep từ tập gần tối ưu Pareto thu hệ cuối thuật toán NSGA-2 sở Hayes-Roth 50 LỜI NÓI ĐẦU Bước sang kỷ hai mươi mốt, giới chứng kiến bùng nổ công nghệ thông tin Ngày nay, vật dụng thiếu phần đông người điện thoại thơng minh, máy tính bảng Có thể thấy với phát triển công nghệ phần cứng, phần mềm dung lượng liệu số người dùng tạo vấn đề đáng ý Bên cạnh tất lĩnh vực đời sống xã hội tin học hóa tạo nên lượng liệu khổng lồ Từ thấy nhu cầu cấp thiết phải có cơng cụ kĩ thuật để chuyển khối liệu khổng lồ thành tri thức có ích Do đó, lĩnh vực Khai phá liệu đời đáp ứng tính thời ngành Công nghệ thông tin không Việt Nam mà toàn giới Lĩnh vực khai phá liệu phát tri thức sở liệu lĩnh vực rộng lớn, hút nhà nghiên cứu Các cơng trình nghiên cứu từ nhiều chuyên ngành khác học máy, thu nhận mẫu, sở liệu (CSDL), thống kê, trí tuệ nhân tạo, thu nhận tri thức hệ chuyên gia, hướng đến mục tiêu thống trích lọc “tri thức” từ liệu kho chứa khổng lồ [2] Và nhiều người hiểu khai phá liệu thuật ngữ khác - phát tri thức sở liệu (Knowlegde Discovery in Databases – KDD) - Tuy nhiên, thực tế cho thấy khai phá liệu bước phát tri thức từ sở liệu Ngay từ xuất hiện, khai phá liệu trở thành hướng nghiên cứu có tiềm lĩnh vực học máy sở tri thức Một tốn khai phá liệu điển hình phân cụm liệu (Data clustering) Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng.Trong nhiều trường hợp, phân cụm gọi học máy không giám sát (unsupervised learning) Trong thực tế, liệu ln có tính nhập nhằng, ranh giới cụm đơi khơng rõ ràng, phương pháp phân cụm rõ làm việc không hiệu không mô tả cấu trúc tự nhiên tập liệu Do đó, lý thuyết tập mờ áp dụng nhằm làm cho việc phân cụm liệu tốt từ xây dựng nên phương pháp phân cụm liệu mờ (gọi tắt phân cụm mờ) [fuzzy clustering] Tuy nhiên, phương pháp phân cụm mờ áp dụng cho liệu Bởi giá trị thuộc tính liệu định danh khơng có thứ tự khơng áp dụng độ đo khoảng cách Euclide để tìm khoảng cách hai véc tơ đặc trưng liệu định danh Vì phải sử dụng phương pháp khác cho liệu K-mode mờ, K -medoid mờ, giải thuật di truyền, … Hiện nay, lý thuyết toán học tối ưu hóa đa mục tiêu ngày sử dụng rộng rãi sống khoa học, ví dụ cá nhân, tổ chức, phương pháp, kỹ thuật,… có lúc phải định việc lựa chọn phương án tối ưu để giải vấn đề Tùy thuộc vào tình cụ thể mà phương án đưa giải hay nhiều vấn đề lúc Khi phải nghiên cứu, phân tích, trích chọn thơng tin nhằm mục đích cuối đưa giải pháp để giải vấn đề Tối ưu hóa đa mục tiêu việc tìm phương án tốt theo nghĩa định để đạt nhiều mục tiêu lúc phương án gọi phương án lý tưởng Trong tốn tối ưu đa mục tiêu, việc có hay khơng có phương án lý tưởng việc mà cần phải quan tâm, xem xét tốn mục tiêu thường xung đột với nên việc cố gắng làm tăng giá trị cực đại hay cực tiểu mục tiêu dẫn đến làm giảm giá trị cực đại cực tiểu mục tiêu khác Do cách tốt tìm phương án nhằm thỏa mãn tất yêu cầu đa mục tiêu mức độ chấp nhận phương án mà tìm gọi phương án thỏa hiệp hàm mục tiêu Hiện có nhiều định nghĩa khác đề cập đến phương án hay nghiệm tối ưu Các định nghĩa thường có tương quan định với thường biểu diễn qua định lý, mệnh đề tính chất tối ưu Pareto [7] Nhờ vào ưu điểm hiệu thực tế mà tối ưu hóa đa mục tiêu mang lại, trở thành lý thuyết tốn học ứng dụng rộng rãi nhiều lĩnh vực khoa học như: cơng nghệ, tài chính, hàng khơng, kinh tế,… Bố cục luận văn chia làm chương sau: CHƯƠNG Nền tảng lý thuyết Chương trình bày tổng quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu định danh sử dụng giải thuật di truyền CHƯƠNG Thử nghiệm Chương tập trung trình bày kết thực nghiệm phương pháp trình bày CHƯƠNG Thuật tốn cài đặt thử nghiệm liệu, từ rút số bình luận, nhận xét kết luận Cuối cùng, phần Kết luận trình bày tóm tắt kết đạt luận văn đề xuất hướng nghiên cứu tương lai CHƯƠNG NỀN TẢNG LÝ THUYẾT 1.1 Phân cụm liệu gì? Phân cụm việc làm tự nhiên, hiểu tương tự việc người ta phân động, thực vật thành loài, họ… khác (hay nhóm có số đặc điểm đặc điểm lại khác với loài động, thực vật khác), hay lớp học người ta phân nhóm học sinh học tốt, học khá, học kém, … Phân cụm sử dụng rộng rãi nhiều lĩnh vực (hay toán) nghiên cứu thị trường, nhận dạng mẫu, phân tích liệu, xử lý ảnh, … Ví dụ lĩnh vực kinh doanh, phân cụm giúp phân khách hàng thành nhóm khác đồng thời cho biết đặc trưng nhóm người dùng này, từ cơng ty có sách khác dành cho nhóm khách hàng Vậy phân cụm liệu gì? “Phân cụm (Clustering) thực việc nhóm liệu thành "cụm" (có thể coi lớp mới) để phát mẫu phân bố liệu miền ứng dụng Phân cụm toán mô tả hướng tới việc nhận biết tập hữu hạn cụm lớp để mô tả liệu Các cụm (lớp) cá thể tách rời toàn phần (tạo nên phân hoạch cho tập liệu) trình bày đẹp phân lớp có thứ bậc chồng lên (giao nhau)” [2] Do đó, q trình phân cụm liệu trình phân chia tập liệu ban đầu thành cụm liệu để cho phần tử cụm “tương tự” phần tử cụm khác “kém tương tự” Việc xác định số cụm liệu thực xác định trước theo kinh nghiệm xác định tự động theo phương pháp phân cụm Hình 1.1 Ví dụ phân cụm liệu Trong ví dụ Hình 1.1, ta dễ dàng xác định cụm dựa vào liệu cho, tiêu chí “tương tự” nhắc đến để xác định số cụm trường hợp “khoảng cách”: hai nhiều đối tượng thuộc nhóm nhóm lại theo khoảng cách định Ví dụ cịn gọi phân cụm dựa khoảng cách 10 Cịn có kiểu phân cụm liệu khác phân cụm liệu dựa vào khái niệm: hai hay nhiều đối tượng thuộc vào nhóm có định nghĩa khái niệm chung cho tất đối tượng Hay, đối tượng nhóm phải phù hợp với theo miêu tả khái niệm định nghĩa, theo biện pháp đơn giản tương tự Mục tiêu định hướng toán phân cụm đặt cực đại tính tương đồng phần tử cụm cực tiểu tính tương đồng phần tử thuộc cụm khác (Hình 1.2) Hình 1.2 Tiêu chí để phân cụm Trong học máy, phân cụm liệu coi học máy khơng có giám sát (unsupervised learning), vấn đề mà phải giải tìm cấu trúc tập hợp liệu chưa biết trước thông tin cụm, thông tin tập huấn luyện hay thông tin nhãn lớp Trong nhiều trường hợp, phân lớp coi học máy có giám sát phân cụm liệu bước phân lớp liệu, khởi tạo lớp để phân lớp cách xác định nhãn cho nhóm liệu [10] 1.2 Các khái niệm cần thiết tiếp cận phân cụm liệu 1.2.1 Cấu trúc liệu Các thuật toán phân cụm liệu thường sử dụng hai loại cấu trúc liệu điển hình sau [6] Ma trận liệu (cách biểu diễn cấu trúc đối tượng theo biến): ma trận biểu diễn n đối tượngvà p biến (hay cịn gọi phép đo/ thuộc tính) đối tượng, có dạng ma trận n hàng p cột Trong đó, hàng biểu diễn cho đối tượng, phần tử hàng dùng để giá trị thuộc tính tương ứng đối tượng ... quan phân cụm liệu: khái niệm ý nghĩa việc phân cụm Để hiểu rõ phân cụm đa mục tiêu nội dung từ khái niệm đến khác phân cụm mục tiêu phân cụm đa mục tiêu Đồng thời đề cập phân tích phân cụm rõ phân. .. cụm mờ, giải thuật GA sử dụng để tối ưu hóa cụm CHƯƠNG Phân cụm đa mục tiêu mờ cho liệu định danh Chương trình bày nội dung luận văn Chương trình bày phương pháp phân cụm đa mục tiêu mờ cho liệu. .. 25 CHƯƠNG PHÂN CỤM ĐA MỤC TIÊU MỜ CHO DỮ LIỆU ĐỊNH DANH 28 2.1 Giới thiệu 28 2.2 Thuật toán phân cụm mờ cho liệu định danh [4] 29 2.3 Tối ưu hóa đa mục tiêu giải