ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN Ngành: Hệ thống thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN Hà Nội - 2016 LỜI CẢM ƠN Tôi xin gửi lời biết ơn sâu sắc đến ngƣời thầy PGS,TS Hoàng Xuân Huấn, thầy cô trƣờng Đại học Công nghệ dành nhiều thời gian tâm huyết giảng dạy, hƣớng dẫn khoa học; giúp nâng cao, mở rộng kiến thức, phát triển lực nghiên cứu khoa học, vận dụng thiết thực vào lĩnh vực hệ thống thông tin, hoàn thành tốt luận văn tốt nghiệp này; Trân trọng cảm ơn tới lãnh đạo đơn vị, đồng nghiệp nơi công tác tạo điều kiện thuận lợi cho tơi hồn thành khóa đào tạo; Xin biết ơn, u q gia đình, ngƣời thân ln đồng hành vƣợt khó sống, cơng tác học tập Tơi xin chân thành cảm ơn! Học viên Hồng Huyền Trang LỜI CAM ĐOAN Tôi xin cam đoan kết đạt đƣợc luận văn sản phẩm cá nhân tôi, thực dƣới hƣớng dẫn PGS, TS Hoàng Xuân Huấn Toàn nội dung luận văn, điều đƣợc trình bày cá nhân đƣợc tổng hợp từ nhiều nguồn tài liệu Tất tài liệu tham khảo có xuất xứ rõ ràng đƣợc trích dẫn quy định Tơi xin hồn tồn chịu trách nhiệm lời cam đoan Hà Nội, tháng 11 năm 2016 Học viên Hoàng Huyền Trang MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU MỞ ĐẦU CHƢƠNG I PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 1.1 Giới thiệu phân cụm liệu 1.1.1 Khái niệm mục đích phân cụm liệu 1.1.2 Phƣơng pháp phân cụm liệu 1.1.3 Phân cụm với giải thuật K-Means 1.2 Lý thuyết tập thô 1.2.1 Hệ thông tin định 1.2.2 Quan hệ bất khả phân biệt 1.2.3 Xấp xỉ tập hợp 1.2.4 Thuộc tính thiết yếu khơng thiết yếu 1.3 Giải thuật di truyền 1.3.1 Thông tin 1.3.2 Các thành phần giải thuật di truyền 1.3.3 Quy trình thuật toán di truyền 1.3.4 Các thông số giải thuật di truyền CHƢƠNG II PHÂN CỤM DỮ LIỆU DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN 2.1 Giới thiệu 2.2 Phƣơng pháp phân cụm tập thô 2.3 Phƣơng pháp phân cụm dựa giải thuật di tru 2.4 Phƣơng pháp phân cụm dựa tập thô giải CHƢƠNG III CÀI ĐẶT VÀ PHÂN TÍCH THÍ NGHIỆM 3.1 Dữ liệu thử nghiệm 35 3.2 Cài đặt thuật toán 35 3.3 Kết thử nghiệm 37 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt GA NST DANH MỤC CÁC HÌNH VẼ Hình 1.1 Quy trình phân cụm Hình 1.2 Mơ phân cụm liệu Hình 1.3 Mơ tả phân cụm cứng/rõ phân cụm mềm/mờ Hình 1.4 Sơ đồ thuật tốn phân cụm K-Means Hình 1.5 Mơ tả q trình phân cụm K-Means Hình 1.6 Mơ tả xấp xỉ - dƣới Hình 1.7 Sơ đồ giải thuật di truyền Hình 2.1 Mơ tả khoảng cách đối tƣợng tới trung tâm cụm Hình 2.2 Mơ tả gom cụm vào xấp xỉ - dƣới Hình 2.3 Sơ đồ phân cụm K-Means thơ Hình 3.1 Giao diện chƣơng trình Hình 3.2 Giao diện nhập liệu thuộc tính Hình 3.3 Giao diện hiển thị file liệu Hình 3.4 Giao diện kết thuật toán DANH MỤC CÁC BẢNG BIỂU Bảng 1.1 Hệ thống thông tin Bảng 1.2 Bảng định Bảng 1.3 Các triệu chứng cảm cúm Bảng 2.1 So sánh hai giải thuật K-Means, di truyền Bảng 3.1 Kết thực nghiệm với phân cụm K-Means thông thƣờng Bảng 3.2 Kết thực nghiệm với phân cụm dựa tập thô giải thuật di truyền MỞ ĐẦU Phân cụm liệu nghiên cứu quan trọng khai thác liệu đƣợc áp dụng cho đa lĩnh vực [7,8] Mục tiêu phân cụm liệu để phân loại đối tƣợng khơng có nhãn thành nhiều cụm mà đối tƣợng thuộc cụm tƣơng tự khác cụm khác Phân cụm liệu đƣợc chia làm hai loại phân cụm liệu cứng/rõ (mỗi điểm liệu thuộc cụm) phân cụm liệu mềm/mờ (mỗi điểm liệu thuộc nhiều cụm dựa vào xác suất định) [12,15] Một kỹ thuật đƣợc sử dụng phổ biến phân cụm liệu thuật toán KMeans, thuộc phân cụm rõ, với hội tụ nhanh chóng khả tìm kiếm địa phƣơng mạnh mẽ Trong trình phân cụm K-Means truyền thống, đối tƣợng liệu thu đƣợc cụm định Tuy nhiên, thực tế đối tƣợng thuộc lớp khác thƣờng khơng có ranh giới rõ ràng, việc mơ tả liệu thực khó khăn Giải pháp cho đối tƣợng đƣợc cung cấp lý thuyết tập thơ, phƣơng pháp tính tốn mềm khai thác liệu Để tăng hiệu kết xác cho phân cụm việc sử dụng lý thuyết tập thô tiếp cận hỗ trợ phân cụm K-Means đƣợc đề xuất, xây dựng nên phƣơng pháp phân cụm K-Means thô Mặc dù giải thuật K-Means thô có khả tìm kiếm địa phƣơng mạnh mẽ nhƣng lại dễ rơi vào cực trị địa phƣơng Một biện pháp khắc phục đƣợc hạn chế kết hợp với giải thuật di truyền Thuật tốn di truyền thuật tốn tìm kiếm ngẫu nhiên với kỹ thuật tối ƣu toàn cầu dựa nguyên tắc tiến hóa sinh học, có lƣợng lớn số song song tiềm ẩn thực không gian tìm kiếm lớn cung cấp giải pháp tối ƣu hóa tồn cầu giúp tránh đƣợc tối ƣu địa phƣơng Luận văn trình bày khảo cứu cách hệ thống báo [6] kiến thức phân cụm liệu rõ, thô theo hƣớng K-Means ứng dụng giải thuật di truyền để phân cụm liệu thô Trên sở xây dựng chƣơng trình thực nghiệm số liệu, kết cho thấy ƣu điểm phƣơng pháp Thông qua quy định phù hợp áp dụng lợi thuật tốn, tính xác cụm đƣợc cải thiện Kết thực nghiệm cho thấy thuật toán đƣợc đề xuất có khả điều chỉnh kết có đƣợc độ xác cao Cấu trúc luận văn gồm chƣơng : Chƣơng I Phân cụm liệu số vấn đề liên quan Chƣơng II Phân cụm dựa tập thơ thuật tốn di truyền Chƣơng III Cài đặt phân tích thí nghiệm Nếu d v, xi d v, x j Thresold v A xi & v A x j v không thuộc xấp xỉ dƣới 30 Ngƣợc lại, v A x & v A x nhƣ d (v, x ) tối thiểu, 1≤ i i ≤ k i i Bƣớc Cập nhật lại trọng tâm xi trọng tâm w xj= lower v j vA x A x Trong wlower, wupper trọng số thỏa wlower +wupper = Nếu tiêu chuẩn hội tụ đƣợc đáp ứng, nghĩa trung tâm cụm trùng với lần lặp trƣớc dừng lại; Ngƣợc lại đến bƣớc Bắt đầu Input: k cụm, tập đối tƣợng Xác định trọng tâm cụm Với đối tƣợng, Tìm tâm cụm gần với khoảng cách d(v,xi) Tìm khoảng cách đối tƣợng đến trọng tâm khác d(v,xj) No d(v,xi)- d(v,xj) ≤ Thresold Yes Yes Gom đối tƣợng vào xấp xỉ Xi & Xj Thay đổi thành viên cụm? No Kết thúc Hình 2.3 Sơ đồ phân cụm K-Means thô 31 So sánh phân cụm thơ phân cụm K-Means Voges [16] có so sánh phân cụm thô với phân cụm K-Means, nhận thấy hai kỹ thuật phân cụm xác định số cụm cụ thể đƣợc sử dụng Giải pháp phân cụm thơ khác so với K-Means khả nhóm đối tƣợng nhiều cụm khác Phân cụm thô tạo nhiều cụm phân cụm K-Means [16], với số lƣợng cụm cần thiết để mô tả liệu phụ thuộc vào khoảng cách đo Nhiều cụm có nghĩa đối tƣợng có hội cao cụm Một giải pháp với q cụm khơng cung cấp giải pháp hữu ích phân vùng liệu Mặt khác, nhiều cụm làm cho lời giải khó khăn Ngồi ra, mức độ trùng lặp cụm đƣợc giảm thiểu để đảm bảo cụm đƣợc cung cấp thông tin để hỗ trợ việc giải thích 2.3 Phƣơng pháp phân cụm dựa giải thuật di truyền GA trình tìm kiếm dựa nguyên tắc tiến hóa thơng qua chọn lọc tự nhiên Các thành phần quan trọng bao gồm: gen, nhiễm sắc thể, quần thể, hệ, hàm thích nghi, lựa chọn, lai ghép đột biến K-Means sử dụng giải thuật di truyền Thuật tốn K-Means đƣợc sửa đổi để thích ứng với nguyên tắc GA Nhiễm sắc thể có tổng cộng kxm gen m gen đại diện cho trọng tâm cụm tƣơng ứng Kích thƣớc quần thể số hệ thông số đầu vào Đầu vào: Số cụm k, kích thƣớc quần thể, tập liệu D chứa n đối tƣợng, số hệ muốn tạo tMax Đầu ra: Một tập hợp K cụm Bƣớc 1: Khởi tạo Mỗi NST đƣợc tạo cách chọn ngẫu nhiên k phần tử tập liệu để làm k trọng tâm cụm Bƣớc 2: Lặp từ t =1 đến tMax 1, Đối với nhiễm sắc thể Đƣa phần tử D vào cụm với trọng tâm cụm gần Tính lại k tâm cụm trung bình k cụm vừa tạo thay vào NST Tính tốn độ thích nghi cho NST 2, Tạo hệ NST sử dụng phép toán lựa chọn, lai ghép đột biến 3, Sắp xếp cá thể sau đột biến theo thứ hạng (Chọn cá thể có độ thích nghi tốt nhất) Bƣớc 3: In kết Tách k cụm NST quần thể hệ tạo sau có độ thích nghi lớn Điều kiện dừng: Lặp lại bƣớc hệ t = tMax 32 Chú ý: khởi tạo ngẫu nhiên k phần tử không cho phần tử trùng NST Độ thích nghi lớn NST tức tổng khoảng cách từ trọng tâm cụm NST tới điểm liệu ban đầu nhỏ so với NST khác So sánh Phân cụm K-Means K-Means sử dụng giải thuật di truyền Thuật toán phân cụm phổ biến thƣờng đƣợc sử dụng K-Means - kỹ thuật phân nhóm đơn giản hiệu nhƣng kết chƣa đạt giá trị tối ƣu kết phụ thuộc vào việc lựa chọn trung tâm cụm ban đầu Giải thuật di truyền giải thuật tìm kiếm ngẫu nhiên dựa tiến hóa di truyền học tự nhiên, đồng thời có số lƣợng lớn giá trị tiềm ẩn song song, cung cấp giải pháp tối ƣu cho đối tƣợng hàm thích nghi Bảng 2.1 đƣa so sánh hai giải thuật: Bảng 2.1 So sánh hai giải thuật K-Means, di truyền K-Means - Đầu vào: k, liệu; k trung tâm cụm đƣợc lựa chọn ngẫu nhiên - Phƣơng pháp phân hoạch - Mục tiêu: Giảm thiểu tổng bình phƣơng khoảng cách - Điều kiện dừng: Khơng có thay đổi trung tâm cụm - Độ phức tạp: O(n*k*d*i) Trong đó: + n: số điểm liệu + k: số cụm + d: kích thƣớc liệu + i: số lần lặp Từ bảng 2.1 đƣa số nhận xét sau: Thuật tốn thực khơng gian tìm kiếm với số cá thể nhiều hơn, bị rơi vào lời giải tối ƣu cục nhƣ phƣơng pháp khác 33 Thuật toán dễ thực hiện, phải biểu diễn NST để giải toán khác tốn có phƣơng pháp mã hóa NST cần viết lại hàm tính độ thích nghi cho tốn Thời gian tính tốn thuật toán di truyền chậm phƣơng pháp khác 2.4 Phƣơng pháp phân cụm dựa tập thô giải thuật di truyền Thuật toán K-Means truyền thống thuật toán di truyền cần phải xác định trƣớc số cụm chọn kích cỡ ban đầu tham số Hơn nữa, thuật toán di truyền đƣợc cải tiến làm cho kết không rơi vào tối ƣu địa phƣơng, có khả tìm kiếm tồn cầu mạnh mẽ Đồng thời, đối tƣợng có ranh giới không rõ ràng đƣợc thể cách sử dụng tập thơ Vì mà xấp xỉ xấp xỉ dƣới cụm mơ tả giới khách quan tốt Trên sở này, phƣơng pháp phân cụm hiệu dựa vào tập thơ thuật tốn di truyền đƣợc cung cấp [6] Đầu vào: n đối tƣợng liệu, số cụm k Đầu ra: Đầu trung tâm cụm tƣơng ứng với thành phần có giá trị hàm thích nghi lớn Bƣớc Khởi tạo k số cụm, quần thể ngẫu nhiên P có p nhiễm sắc thể, chọn k tâm cụm, số hệ muốn lặp tMax Mã hóa k cụm Bƣớc Phân cụm thơ: Giải mã nhiễm sắc thể, gom đối tƣợng tƣơng ứng với k cụm phù hợp với nguyên tắc khoảng cách, sau làm theo phân cụm K-Means thô để phân phối đối tƣợng Bƣớc Tính tốn giá trị hàm thích nghi Bƣớc Lựa chọn, lai ghép đột biến Bƣớc Đánh giá lại quần thể Nếu số lần lặp với giá trị tối đa đƣợc xác định, chuyển sang bƣớc 6, khơng, thuật tốn tiếp tục từ bƣớc đến bƣớc Bƣớc Kết thúc Ở phƣơng pháp mã hóa nhị phân khái niệm xấp xỉ xấp xỉ dƣới đƣợc giới thiệu để mã hóa phân cụm thơ Chiến lƣợc mã hóa nhƣ sau: Nếu đối tƣợng tập liệu thuộc biên miền âm cụm, mã tƣơng ứng chuỗi nhiễm sắc thể 1, ngƣợc lại Thuật toán di truyền dễ dàng hoạt động có bảng mã nhị phân với tính đơn giản, biên dịch chéo thuận tiện 34 Cơ chế để ngăn chặn cận huyết [6] (The mechanisms to prevent incest) Để trì đa dạng quần thể lựa chọn cá thể kết nối, sử dụng chế để ngăn chặn cận huyết, hạn chế cá thể tƣơng tự lại kết đôi Cụ thể, chọn xác suất hai cá thể, khoảng cách Hamming chúng nhỏ so với ngƣỡng cho trƣớc, lai gép chúng quần thể; không, quay lại tiếp tục chọn lần Chiến lƣợc Elitist [6] (Chọn lọc ƣu tú) Để bảo tồn cá thể tốt giá trị hàm thích nghi cá thể, sử dụng chiến lƣợc chọn lọc ƣu tú, có nghĩa chép cá thể có giá trị thích nghi cao quần thể sang quần thể mới, cá thể không tham gia vào hoạt động lai ghép đột biến 35 CHƢƠNG III CÀI ĐẶT VÀ PHÂN TÍCH THÍ NGHIỆM 3.1 Dữ liệu thử nghiệm Để xác minh tính hợp lệ thuật toán phân cụm, sử dụng liệu sở liệu UCI học máy để kiểm tra thuật toán Nguồn liệu mẫu đƣợc lấy từ địa website: ftp://ftp.ics.uci.edu/pub/machine-learning-databases Sử dụng liệu Zoo để phân cụm, liệu đơn giản có 17 thuộc tính (15 thuộc tính Boolean, numerics) thuộc tính “type” thuộc tính lớp Số trƣờng hợp là: 101 Các thơng số thí nghiệm nhƣ sau: số cụm k đƣợc thay đổi tham số khác cố định, kích thƣớc quần thể ban đầu số trƣờng hợp liệu; thuật toán chạy t= 100 lần liên tục; Pc=0.3, Pm=0.02 3.2 Cài đặt thuật tốn Chƣơng trình cài đặt thuật toán xây dựng đặc trƣng dựa thuật toán KMeans kết hợp giải thuật di truyền để phân cụm tập liệu thô đƣợc viết ngôn ngữ C# môi trƣờng Net Framework, sử dụng công cụ visual studio 2013 kết hợp DevExpress Hình 3.1 Giao diện chương trình Chƣơng trình gồm modul chính: Module 1: Khai báo thuộc tính Module 2: Đọc file liệu tập thô Module 3: Phân cụm tập liệu đánh giá cụm 36 Chọn tải liệu Hình 3.2 Giao diện nhập liêu thuộc tính Hình 3.3 Giao diện hiển thị file liệu Phân cụm tập liệu đánh giá cụm Hình 3.4 Giao diện kết thuật toán 37 3.3 Kết thử nghiệm Bảng 3.1 Kết thực nghiệm với phân cụm K-Means thông thường K-Means Lƣợt test Cụm số Thời gian chạy Thời gian chạy Thời gian chạy 38 Bảng 3.2 Kết thực nghiệm với phân cụm dựa tập thô giải thuật di truyền GA rough K-Means Lƣợt test Cụm số Thời gian chạy Thời gian chạy Thời gian chạy Từ bảng 3.1 3.2 cho thấy so sánh giải thuật K-Means thông thƣờng với GA thô K-Means Kết bao gồm giá trị tỉ lệ gom đối tƣợng vào cụm giá trị trung trung bình thời gian từ thử nghiệm Có thể thấy GA thơ K-Means cải thiện kết K-Means qua lần thí nhiệm với số cụm xác định trƣớc Thời gian tính tốn phân cụm dựa tập thơ giải thuật di truyền có chậm nhƣng việc chọn lọc đối tƣợng vào cụm đa dạng, đồng cho lần chạy Kết thực nghiệm thuật tốn kết hợp tập thơ thuật tốn di truyền, làm cho độ xác phân cụm ƣu việt phân cụm K-Means thơng thƣờng Thuật tốn đƣa giải pháp tối ƣu tồn cầu có đƣợc kết phân cụm tốt 39 KẾT LUẬN Luận văn trình bày khảo cứu cách có hệ thống báo [6] kiến thức lý thuyết phân cụm liệu, thuật toán phân cụm K-Means; khái niệm lý thuyết tập thô giải thuật di truyền Tìm hiểu giải thuật chung cho phân cụm rõ, thơ theo hƣớng thuật tốn K-Means ứng dụng giải thuật di truyền phân cụm thô Tiến hành cài đặt thử nghiệm với liệu UCI Luận văn tìm hiểu chiến lƣợc cải tiến phân cụm dựa lý thuyết tập thô thuật toán di truyền để cải thiện chất lƣợng phân cụm Trên sở kết đạt đƣợc, hƣớng nghiên cứu tiếp nhƣ sau: Tiếp tục nghiên cứu số giải thuật phân cụm dựa tập thô giải thuật di truyền Xây dựng tiếp chƣơng trình chạy thử nghiệm giải thuật phân cụm, cải thiện thuật toán để có chất lƣợng phân cụm tốt Tìm kiếm cách thức ứng dụng giải thuật vào thực tiễn Do thời gian hiểu biết lĩnh vực nhiều hạn chế nên luận văn không tránh khỏi khiếm khuyết Tơi xin tiếp thu góp ý quý thầy cô, đọc giả, khắc phục hạn chế, tiếp tục phát triển đề tài theo hƣớng chọn ứng dụng hữu ích cơng việc sống 40 TÀI LIỆU THAM KHẢO I TÀI LIỆU TIẾNG VIỆT [1] Nguyễn Văn Chức, “Ứng dụng lý thuyết tập thô khai phá liệu”, bis.net.vn năm 2013 [2] Hồng Xn Huấn (2012), “Giáo trình Nhận dạng mẫu”, Trƣờng Đại học công nghệ – Đại Học Quốc Gia Hà Nội [3] Nguyễn Đức Thuần, “Lý thuyết tập thô khai phá liệu”, Tập san tin học Quản lý, tập 02, số 2, 2012, 25-32 [4] Vũ thị Anh Trâm, “Sử dụng phương pháp xây dựng đặc trưng dựa di truyền để toám tắt liệu”, luận văn ths năm 2012, ĐH Công nghệ- ĐHQGHN II TÀI LIỆU TIẾNG ANH [5] Bashar Al-Shboul, and Sung-Hyon Myaeng,“Initializing K-Means using Genetic Algorithms”, in World Academy of Science, Engineering and Technology 54 2009 [6] Jianyong Chen and Changsheng Zhang “Efficient Clustering Method Based on Rough Set and Genetic Algorithm” in College of Physics and Electronic Information Engineering, Wenzhou University, Wenzhou, 325035, China; Procedia Engineering 15 (2011) 1498 – 1503 [7] Jiawei Han, Micheline Kamber Data Mining: Concepts and Techniques[M] US Kaufmann Publishers, Inc, 2001: p.223-262 [8] Grabmeier J, Rudolph A Techniques of cluster algorithms in data mining[J] Data Mining and Knowledge Discovery, 2005,6(4):303-360 [9] Guoyin Wang, Yiyu Yao, Hong Yu “A Survey on Rough Set Theory and Applications[J]”, Chinese Journal of Computers,2009 32(7):1229-1246 [10] Kevin E Voges , and Nigel K Ll Pope, “Rough Clustering Using an Evolutionary Algorithm” [11] Parvesh Kumar and Siri Krishan Wasan, “Comparative Study of KMeans , Pam and Rough K-Means Algorithms Using Cancer Datasets”, in 2009 International Symposium on Computing, Communication, and Control (ISCCC 2009) Proc.of CSIT vol.1 (2011) © (2011) IACSIT Press, Singapore [12] Pawan Lingras, “Interval Set Clustering of Web Users with Rough KMeans [J]” Journal of Intelligent Information System,2004, 23: 15-16 [13] Pawan Lingras and Georg Peter, “Applying Rough Set Concepts to Clustering” 41 [14] Pawlak Z “Rough set theory and its application to data analysis[J]” Cybernetics and Systems, 1998, 9: 661-668 [15] Ting Lin, Haixiang Guo, Kejun Zhu, Siwei Gao “An Improved Genetic K-Means Algorithm for Optimal Clustering[J]”.Mathematic in Practice and Theory, 2007, 37(8):104-111 [16] Voges, K E., N K Ll Pope, and M R Brown, “Cluster Analysis of Marketing Data Examining On-line Shopping Orientation: A Comparison of KMeans and Rough Clustering Approaches”, in Abbass, H A., R A Sarker, and C S Newton (eds.), Heuristics and Optimization for Knowledge Discovery, Idea Group Publishing, Hershey, PA, 2002, pp 207-224 ... di truyền 1.3.4 Các thông số giải thuật di truyền CHƢƠNG II PHÂN CỤM DỮ LIỆU DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN 2.1 Giới thiệu 2.2 Phƣơng pháp phân cụm tập. .. thuyết phân cụm liệu, thuật toán phân cụm K-Means; khái niệm lý thuyết tập thô giải thuật di truyền Tìm hiểu giải thuật chung cho phân cụm rõ, thơ theo hƣớng thuật tốn K-Means ứng dụng giải thuật di. .. sánh hai giải thuật K-Means, di truyền Bảng 3.1 Kết thực nghiệm với phân cụm K-Means thông thƣờng Bảng 3.2 Kết thực nghiệm với phân cụm dựa tập thô giải thuật di truyền 9 MỞ ĐẦU Phân cụm liệu