Luận văn trình bày khảo cứu một cách hệ thống của bài báo các kiến thức về phân cụm dữ liệu rõ, thô theo hướng KMeans và ứng dụng giải thuật di truyền để phân cụm dữ liệu thô. Trên cơ sở đó xây dựng chương trình thực nghiệm trên một số bộ dữ liệu, kết quả cho thấy ưu điểm của phương pháp mới.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ HOÀNG HUYỀN TRANG PHƢƠNG PHÁP PHÂN CỤM DỰA TRÊN TẬP THÔ VÀ GIẢI THUẬT DI TRUYỀN Chuyên ngành: Hệ thống thơng tin Mã số: 60480104 TĨM TẮT LUẬN VĂN THẠC SĨ Hà Nội - 2016 MỞ ĐẦU Phân cụm liệu nghiên cứu quan trọng khai thác liệu áp dụng cho đa lĩnh vực [7,8] Mục tiêu phân cụm liệu để phân loại đối tượng khơng có nhãn thành nhiều cụm mà đối tượng thuộc cụm tương tự khác cụm khác Phân cụm liệu chia làm hai loại phân cụm cứng/rõ phân cụm mềm [12,15] Một kỹ thuật sử dụng phổ biến phân cụm liệu thuật toán K-Means, thuộc phân cụm rõ, với hội tụ nhanh chóng khả tìm kiếm địa phương mạnh mẽ Trong trình phân cụm K-Means truyền thống, đối tượng liệu thu cụm định Tuy nhiên, thực tế đối tượng thường khơng có ranh giới rõ ràng Để tăng hiệu kết xác cho phân cụm việc sử dụng lý thuyết tập thô tiếp cận hỗ trợ phân cụm K-Meansđược đề xuất Mặc dù giải thuật K-Means thơ có khả tìm kiếm địa phương mạnh mẽ lại dễ rơi vào cực trị địa phương Một biện pháp khắc phục hạn chế kết hợp với giải thuật di truyền thuật toán dựa nguyên tắc tiến hóa sinh học, có lượng lớn số song song tiềm ẩn thực khơng gian tìm kiếm lớn cung cấp giải pháp tối ưu hóa tồn cầu giúp tránh tối ưu địa phương Luận văn trình bày khảo cứu cách hệ thống báo [6] kiến thức phân cụm liệu rõ, thô theo hướng KMeans ứng dụng giải thuật di truyền để phân cụm liệu thơ Trên sở xây dựng chương trình thực nghiệm số liệu, kết cho thấy ưu điểm phương pháp Cấu trúc luận văn gồm chương : Chương I Phân cụm liệu số vấn đề liên quan Chương II Phân cụm dựa tập thơ thuật tốn di truyền Chương III Cài đặt phân tích thí nghiệm CHƢƠNG I PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN 1.1 Giới thiệu phân cụm liệu Khai phá liệu tuộc trình khám phá tri thức Về chất giai đoạn tìm thơng tin mới, tiềm ẩn có sở liệu chủ yếu phục vụ cho mô tả dự đoán Phân cụm liệu kỹ thuật khai phá liệu với mục đích khám phá cấu trúc mẫu liệu để thành lập nhóm liệu từ tập liệu lớn, cho phép phân tích nghiên cứu cho cụm liệu nhằm khám phá tìm kiếm thơng tin tiềm ẩn, hữu ích 1.1.1 Khái niệm mục đích phân cụm liệu Bài tốn phân cụm liệu nhánh ứng dụng lĩnh vực học không giám sát, mà liệu mô tả tốn khơng dán nhãn Trong trường hợp này, thuật tốn tìm cách phân cụm liệu thành nhóm có đặc điểm tương tự nhau, đồng thời đặc tính nhóm lại phải khác biệt tốt Số cụm liệu xác định trước theo kinh nghiệm tự động xác định theo thuật tốn Hình 1.1 Quy trình phân cụm Độ tương tự xác định dựa giá trị thuộc tính mô tả đối tượng Thông thường, phép đo khoảng cách thường sử dụng để đánh giá độ tương tự hay phi tương tự Vấn đề phân cụm minh hoạ hình 1,2: Hình 1.2 Mơ phân cụm liệu Ứng dụng phân cụm liệu: Được áp dụng nhiều lĩnh vực như: Kinh doanh; Sinh học; Thư viện; Bảo hiểm; www… 1.1.2 Phƣơng pháp phân cụm liệu Phân cụm liệu chia làm hai loại phân cụm liệu cứng phân cụm liệu mềm: Phân cụm liệu cứng (hay phân cụm rõ) phương pháp gán đối tượng vào cụm xác định rõ ranh giới cụm Một số thuật toán: Thuật toán KMeans, Thuật toán K-Medoids Phân cụm liệu mềm (hay phân cụm mờ) phương pháp cho phép đối tượng thuộc nhiều cụm liệu có mơ hồ mờ ranh giới cụm: Thuật tốn Fuzzy C-mean… Hình 1.3 Mơ tả phân cụm cứng/rõ phân cụm mềm/mờ Tùy theo đặc điểm tính tương đồng đối tượng tốn xét, có nhiều cách tiếp cận cho thuật toán phân cụm Các kỹ thuật gồm: - Phân cụm phân cấp (Hierarchical Data Clustering) - Phân cụm phân hoạch (Partition Based Data Clustering) - Phân cụm dựa mật độ (Density Based Data Clustering) - Phân cụm dựa lưới (Grid Based Data Clustering) 1.1.3 Phân cụm với giải thuật K-Means Thuật toán K-Means (MacQueen, 1967)[2] thuật tốn học khơng giám sát đơn giản để giải vấn đề phân cụm liệu tiếng, với số cụm xác định trước k cụm Thuộc nhóm phân cụm liệu cứng/rõ, ý tưởng để xác định k trọng tâm cho k cụm, trọng tâm cho cụm Những trọng tâm nên đặt vị trí thích hợp vị trí khác gây kết khác Vì vậy, lựa chọn tốt đặt chúng nhiều tốt cách xa Bước với điểm thuộc tập liệu cho trước liên kết với trọng tâm gần Giả sử thiết lập tập đối tượng X={x1,x2,…xn} k trọng tâm cụm C={C1,C2,…Ck}; lấy w1,w2,…wk k cụm Công thức C j Nj x với j=1, 2, …, jk Nj số xw j lượng cụm thứ j Xác định hàm mục tiêu sau: k E d ( x, ci ) ci tâm cụm wi tương ứng i 1 xw i Với d(x,ci)= x ci khoảng cách Euclide từ điểm đối tượng cụm đến trung tâm cụm Thuật toán K-Means: Quá trình phân cụm K-Means biểu diễn hình 1.4 Đầu vào: k: số cụmX: tập liệu chứa n đối tượng Đầu ra: tập hợp k cụm Bƣớc Xác định số lượng cụm k điều kiện dừng Bƣớc Khởi tạo ngẫu nhiên k trọng tâm cụm Bƣớc Gom đối tượng vào cụm mà gần tâm Bƣớc Tính lại tâm theo đối tượng phân hoạch bước Lặp điều kiện dừng thỏa mãn Điều kiện dừng thường chọn điều kiện sau: • Số lần lăp t=Tmax Tmax số cho trước • |Et – Et-1|