Trong các thuật toán phân cụm dữ liệu, GA thường đươc sử dụng để tìm đặc trưng của các cụm theo chiến lược Heuictic với mục đích tăng nhanh độ hội tụ của thuật toán
Sử dụng phương pháp biểu diễn gen bằng số thực với một nhiễm sắc thể là một dãy các chữ số đặc trưng của một tâm cụm. Thuật toán áp dụng cho họ các thuật toán phân cụm phân hoạch có thể áp dụng như sau:
Bước 1:Khởi tạo một quần thể ban đầu là một tập nhiễm sắc thể tương ứng với k đặc trưng của cụm ban đầu.
Bước 2: Lặp
Bước 3: Phân các đối tượng dữ liệu vào k cụm tương ứng theo thuật toán
Bước 4: Thay vì tính lại tâm cụm, ta sử dụng các toán tử trong GA để tìm các đặc trưng mới cho các cụm.
Cụm 1: Sử dụng toán tử lai để tạo ra các cụm đặc trưng mới từ k cum đặc trưng ban đầu, bằng việc chọn lọc các cặp nhiễm sắc thể để lai bằng bánh xe sổ số. Chọn ngẫu nhiên m cặp gen trong nhiễm sắc thể để tiến hành lai tạo, kết quả tạo ra hai nhiễm sắc thể con mới
Cụm 2: Sử dụng toán tử đột biến để đột biến một số các gen được chọn ngẫu nhiên trong nhiễm sắc thể đặc trưng cho một tâm cụm đang xét. Việc giả sử một gen an được đột biến sẽ tạo ra một giá trị tương ứng là an' bằng cách chọn một giá trị ngẫu nhiên trong tập các khả năng lựa chọn của an được xác định bởi dữ liệu của bài toán.
Kết quả phép đột biến cũng tạo ra một nhiễm sắc thể mới. Sau khi tìm được các thế hệ mới của k cụm, ta sử dụng một hàm đánh giá để quyết định chọn ra k đại diện mới trong bước phân hoạch tiếp theo.
CHƯƠNG 3: TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN
GIẢI THUẬT DI TRUYỀN
3.1. Giới thiệu
Một vấn đề thách thức đối với cơ sở dữ liệu quan hệ là tìm cách hiệu quả để liên kết nội dung giữa các mẫu tin được lưu trong nhiều bảng. Trong cơ sở dữ liệu quan hệ, một bản ghi được lưu trong một bảng có thể được liên kết với một hoặc nhiều bản ghi được lưu trong một bảng khác theo quan hệ ràng buộc một - nhiều. Các phương pháp khai phá dữ liệu truyền thống đòi hỏi dữ liệu trong cơ sở dữ liệu quan hệ phải được chuyển thành giá trị thuộc tính định dạng bằng cách nối nhiều bảng. Tuy nhiên, trong nhiều trường hợp, việc thực hiện nhiều phép nối sẽ tạo ra bảng dữ liệu khổng lồ, nghĩa là bảng kết quả thu được sau phép nối có thể quá lớn để xử lý, thậm chí có thể gây mất hoặc trùng lặp thông tin khi thực hiện phép nối.
Trong một sơ sở dữ liệu quan hệ, một bản ghi được lưu trong bảng đích thường được liên kết với một hoặc nhiều bản ghi được lưu trong một bảng tham chiếu. Có một số cách để chuyển đổi các dữ liệu liên kết này thành các nhóm các bản ghi. Sau đó, dữ liệu đại diện sẽ được phân cụm [17] để tóm tắt các trường hợp này. Các mẫu phổ biến nhất được chọn từ cơ sở dữ liệu quan hệ là các quy tắc liên kết. Tuy nhiên, để rút ra các quy tắc phân loại hiệu quả từ cơ sở dữ liệu quan hệ, chúng ta cần tổng hợp nhiều trường hợp. Trong nghiên cứu này, luận văn sử dụng kỹ thuật phân cụm dựa trên thuật toán di truyền để tổng hợp các trường hợp của một bản ghi đơn trong cơ sở dữ liệu quan hệ như một phương pháp làm giảm khối lượng dữ liệu. Trước khi áp dụng kỹ thuật phân cụm cần chuyển đổi dữ liệu thành một dạng thích hợp.
Nghiên cứu này xem xét ba giai đoạn của quá trình khai thác dữ liệu: Giai đoạn tiền xử lý dữ liệu, giai đoạn chuyển đổi dữ liệu và giai đoạn tóm tắt dữ liệu. Các giai đoạn được minh họa trong hình 3.1.
Giai đoạn tiền xử lý dữ liệu: Dữ liệu trước được xử lý để chuẩn bị cho quá trình chuyển đổi dữ liệu. Giai đoạn liên quan đến một trong các kỹ thuật giảm dữ liệu, rời rạc hóa các thuộc tính liên tục thành các giá trị phân loại trong một thiết lập đa quan hệ.
Hình 3.1: Ba giai đoạn chính trong quá trình tóm tắt dữ liệu quan hệ
Giai đoạn chuyển đổi dữ liệu: Dữ liệu trong một thiết lập đa quan hệ được chuyển đổi thành một mô hình không gian vector. Trong mô hình không gian vector, một bản ghi có thể được biểu diễn như một ma trận mẫu, trong đó hàng đại diện cho một bản ghi đơn được lưu trong bảng đích của một cơ sở dữ liệu quan hệ và cột đại diện cho một mẫu tồn tại trong bản ghi.
Giai đoạn tổng kết dữ liệu: Dữ liệu được tóm tắt bằng cách sử dụng kỹ thuật phân cụm thành các nhóm dựa trên đặc điểm của chúng. Trong giai đoạn này, luận văn giới thiệu thuật toán di truyền bán giám sát dựa trên kỹ thuật phân cụm để tóm tắt dữ liệu.