MỞ ĐẦU ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội 2016 ĐẠI HỌC QUỐC GI[.]
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2016 LỜI CẢM ƠN Tôi xin gửi lời biết ơn sâu sắc đến ngƣời thầy PGS,TS Hoàng Xuân Huấn, thầy cô trƣờng Đại học Công nghệ dành nhiều thời gian tâm huyết giảng dạy, hƣớng dẫn khoa học; giúp nâng cao, mở rộng kiến thức, phát triển lực nghiên cứu khoa học, vận dụng thiết thực vào lĩnh vực hệ thống thông tin, hoàn thành tốt luận văn tốt nghiệp này; Trân trọng cảm ơn tới lãnh đạo đơn vị, đồng nghiệp nơi công tác tạo điều kiện thuận lợi cho tơi hồn thành khóa đào tạo; Xin biết ơn, u q gia đình, ngƣời thân ln đồng hành vƣợt khó sống, cơng tác học tập Tơi xin chân thành cảm ơn! Học viên Hồng Huyền Trang LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm cá nhân tôi, thực dƣới hƣớng dẫn PGS, TS Hoàng Xuân Huấn Toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn quy định Tơi xin hồn tồn chịu trách nhiệm lời cam đoan Hà Nội, tháng 11 năm 2016 Học viên Hoàng Huyền Trang MỤC LỤC LỜI CẢM ƠN .2 LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ .7 DANH MỤC CÁC BẢNG BIỂU .8 MỞ ĐẦU .9 CHƢƠNG I PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 10 1.1 Giới thiệu phân cụm liệu .10 1.1.1 Khái niệm mục đích phân cụm liệu 10 1.1.2 Phƣơng pháp phân cụm liệu 11 1.1.3 Phân cụm với giải thuật K-Means .12 1.2 Lý thuyết tập thô .14 1.2.1 Hệ thông tin định 14 1.2.2 Quan hệ bất khả phân biệt 16 1.2.3 Xấp xỉ tập hợp 17 1.2.4 Thuộc tính thiết yếu không thiết yếu 18 1.3 Giải thuật di truyền 19 1.3.1 Thông tin 19 1.3.2 Các thành phần giải thuật di truyền .19 1.3.3 Quy trình thuật tốn di truyền 23 1.3.4 Các thông số giải thuật di truyền 25 CHƢƠNG II PHÂN CỤM DỮ LIỆU DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN .26 2.1 Giới thiệu 26 2.2 Phƣơng pháp phân cụm tập thô 26 2.3 Phƣơng pháp phân cụm dựa giải thuật di truyền .31 2.4 Phƣơng pháp phân cụm dựa tập thô giải thuật di truyền 33 CHƢƠNG III CÀI ĐẶT VÀ PHÂN TÍCH THÍ NGHIỆM 35 3.1 Dữ liệu thử nghiệm 35 3.2 Cài đặt thuật toán 35 3.3 Kết thử nghiệm 37 KẾT LUẬN .39 TÀI LIỆU THAM KHẢO 40 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt GA NST Tiếng Anh Genetic Algorithm Nghĩa Tiếng Việt Giải thuật di truyền Nhiễm sắc thể DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình phân cụm Hình 1.2 Mơ phân cụm liệu Hình 1.3 Mơ tả phân cụm cứng/rõ phân cụm mềm/mờ Hình 1.4 Sơ đồ thuật tốn phân cụm K-Means Hình 1.5 Mơ tả q trình phân cụm K-Means Hình 1.6 Mơ tả xấp xỉ - dƣới Hình 1.7 Sơ đồ giải thuật di truyền Hình 2.1 Mơ tả khoảng cách đối tƣợng tới trung tâm cụm Hình 2.2 Mơ tả gom cụm vào xấp xỉ - dƣới Hình 2.3 Sơ đồ phân cụm K-Means thơ Hình 3.1 Giao diện chƣơng trình Hình 3.2 Giao diện nhập liệu thuộc tính Hình 3.3 Giao diện hiển thị file liệu Hình 3.4 Giao diện kết thuật toán DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Hệ thống thông tin Bảng 1.2 Bảng định Bảng 1.3 Các triệu chứng cảm cúm Bảng 2.1 So sánh hai giải thuật K-Means, di truyền Bảng 3.1 Kết thực nghiệm với phân cụm K-Means thông thƣờng Bảng 3.2 Kết thực nghiệm với phân cụm dựa tập thô giải thuật di truyền MỞ ĐẦU Phân cụm liệu nghiên cứu quan trọng khai thác liệu đƣợc áp dụng cho đa lĩnh vực [7,8] Mục tiêu phân cụm liệu để phân loại đối tƣợng khơng có nhãn thành nhiều cụm mà đối tƣợng thuộc cụm tƣơng tự khác cụm khác Phân cụm liệu đƣợc chia làm hai loại phân cụm liệu cứng/rõ (mỗi điểm liệu thuộc cụm) phân cụm liệu mềm/mờ (mỗi điểm liệu thuộc nhiều cụm dựa vào xác suất định) [12,15] Một kỹ thuật đƣợc sử dụng phổ biến phân cụm liệu thuật toán KMeans, thuộc phân cụm rõ, với hội tụ nhanh chóng khả tìm kiếm địa phƣơng mạnh mẽ Trong trình phân cụm K-Means truyền thống, đối tƣợng liệu thu đƣợc cụm định Tuy nhiên, thực tế đối tƣợng thuộc lớp khác thƣờng khơng có ranh giới rõ ràng, việc mơ tả liệu thực khó khăn Giải pháp cho đối tƣợng đƣợc cung cấp lý thuyết tập thơ, phƣơng pháp tính tốn mềm khai thác liệu Để tăng hiệu kết xác cho phân cụm việc sử dụng lý thuyết tập thô tiếp cận hỗ trợ phân cụm K-Means đƣợc đề xuất, xây dựng nên phƣơng pháp phân cụm K-Means thơ Mặc dù giải thuật K-Means thơ có khả tìm kiếm địa phƣơng mạnh mẽ nhƣng lại dễ rơi vào cực trị địa phƣơng Một biện pháp khắc phục đƣợc hạn chế kết hợp với giải thuật di truyền Thuật toán di truyền thuật tốn tìm kiếm ngẫu nhiên với kỹ thuật tối ƣu toàn cầu dựa nguyên tắc tiến hóa sinh học, có lƣợng lớn số song song tiềm ẩn thực khơng gian tìm kiếm lớn cung cấp giải pháp tối ƣu hóa toàn cầu giúp tránh đƣợc tối ƣu địa phƣơng Luận văn trình bày khảo cứu cách hệ thống báo [6] kiến thức phân cụm liệu rõ, thô theo hƣớng K-Means ứng dụng giải thuật di truyền để phân cụm liệu thô Trên sở xây dựng chƣơng trình thực nghiệm số liệu, kết cho thấy ƣu điểm phƣơng pháp Thông qua quy định phù hợp áp dụng lợi thuật toán, tính xác cụm đƣợc cải thiện Kết thực nghiệm cho thấy thuật tốn đƣợc đề xuất có khả điều chỉnh kết có đƣợc độ xác cao Cấu trúc luận văn gồm chƣơng : Chƣơng I Phân cụm liệu số vấn đề liên quan Chƣơng II Phân cụm dựa tập thơ thuật tốn di truyền Chƣơng III Cài đặt phân tích thí nghiệm