Trong giai đoạn II, chúng ta thực hiện công việc phân cụm dựa trên nhóm các
hạt giống thu được từ giai đoạn I. Ở đây, chúng ta mô tả việc khởi tạo của tập quần thể, các tính toán của hàm phù hợp và lựa chọn, tương giao chéo và quá trình đột biến.
3.6.2.1 Khởi tạo tập hợp
Một tập hợp các chuỗi X chiều dài m được phát sinh một cách ngẫu nhiên, trong đó m là số các tập hợp (các thành phần được kết nối) thu được từ giai đoạn I. Các chuỗi X được tạo ra với số lượng của một trong các chuỗi phân bố đồng đều trong
đoạn [1, m]. Mỗi chuỗi đại diện cho một tập hợp con của (B1, B2, B3 ,..., Bm-1, Bm). Nếu Bi là tập hợp con của S, vị trí thứ i của chuỗi sẽ là 1; ngược lại sẽ là 0, với 1 ≤ i ≤ m. Mỗi Bi trong tập hợp S được sử dụng như một hạt giống để tạo ra một cụm. Nếu Bj không ở trong nhóm, chúng sẽ được sát nhập vào Bk gần nhất trong tập S, với j, k = 1, 2, 3 ,..., m và j ≠ k. Quá trình sát nhập hai thành phần Bj và Bk dựa vào khoảng cách giữa các trung tâm cụm của chúng, sự sát nhập này tạo thành một cụm mới. Sau khi sát nhập, kích cỡ và trung tâm của cụm mới sẽ được tính lại. Quá trình sát nhập cho tất cả các thành phần mà không được liệt kê trong tập con S sẽ được lặp lại cho đến khi tất cả chúng đều được chuyển vào các cụm gần nhất.
3.6.2.2 Ước tính phù hợp
Hàm mục tiêu có hai thành phần (biểu thức 3.8) bao gồm cụm phân tán và cụm tạp chất. Để có được các cụm tốt nhất, một trong những yêu cầu là phải cực tiểu hóa DBI [17]. Mặt khác, để tạo nhóm các bản ghi đích cùng loại trong một nhóm, hàm tính độ tạp chất, GI (biểu thức 3.6) cần được tối ưu. Kể từ khi hàm mục tiêu thích hợp phải được cực đại hóa ở GA, các hàm mục tiêu OFF (Objective Fitness Function) cần được cực đại hóa sẽ tích lũy giá trị của các đối ứng cụm phân tán và đối ứng của cụm tạp chất đã định nghĩa trong biểu thức 3.9:
Hai đại lượng vô hướng β, α (biểu thức 3.10) giữ vai trò mang trọng số của cụm phân tán và các tham số cụm tạp chất. Nếu β = 1 và α = 0, thuật toán sẽ trở thành thuật toán phân cụm không giám sát dựa trên giải thuật di truyền, thuật toán sẽ tối ưu hóa giá trị cụm phân tán để có được các cụm tốt nhất (đại diện bởi DBI-GA trong Bảng 3.2). Mặt khác, nếu β = 1 và α = 1, thuật toán trở thành thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền, thuật toán sẽ tối ưu các giá trị của cụm phân tán và cụm tạp chất để có được các cụm tốt nhất trong khi vẫn đảm bảo độ tinh của các cụm (đại diện là SS-GA trong bảng 3.2). Cuối cùng, nếu β= 0 và α = 1, thuật toán sẽ trở thành thuật toán phân cụm giám sát (đại diện là GI-GA như trong Bảng 3.2). Trong nghiên cứu này, các hành vi của các thuật toán phân cụm với phần còn lại của các phép hợp các giá trị cho β, α được kiểm tra, như thể hiện trong Bảng 3.2.
Quá trình chọn: Quá trình này sẽ chọn ra các mẫu phù hợp bằng cách sử dụng một bánh xe xổ số hoặc sử dụng phương pháp loại bỏ mẫu.
Quá trình tương giao chéo: Một cặp nhiễm sắc thể, ci và cj được lựa chọn để áp dụng toán tử tương giao chéo. Một trong các đối số của một hệ thống di truyền là xác suất của phép tương giao chéo pc. Trong thử nghiệm này, xác suất tương giao chéo pc được thiết lập là 0,25. Xác suất này cho phép các số dự kiến pc • X của nhiễm sắc thể trải qua các hoạt động tương giao chéo
Bảng 3.2: Thiết lập các giá trị của hai đại lượng vô hướng β and α
Thuật toán Đại lượng vô hướng
β α K--means - - DBI-GA (GDBI) 1.00 0.00 MORE-DBI-GA (GMDBI) 0.75 0.25 SS-GA (GSS) 0.50 0.50 MORE-GI-GA (GMGI) 0.25 0.75 GI-GA (GGI) 0.00 1.00
Quá trình đột biến: Quá trình đột biến thực hiện trên cơ sở bit-by-bit. Một tham số khác là xác suất hoán vị pm, cho ta số lượng các bit đột biến dự kiến pm • m • X. Trong thử nghiệm này, xác suất hoán vị pmđược đặt là 0,01.
Sau quá trình lựa chọn, phân loại và đột biến, quần thể mới sẽ sẵn sàng cho thế hệ tiếp theo. Quá trình này được sử dụng để xây dựng các phân bố xác suất nhằm xây dựng một bánh xe sổ xố có các rãnh được xác định theo giá trị hiện thời. Quá trình này sẽ được lặp đi lặp lại cho đến khi đạt được một ngưỡng cụ thể. Một khi các thế hệ của nhiễm sắc thể mới dừng lại, các cụm ghi nhận ít mục tiêu (ít hơn 3 mục tiêu) sẽ bị loại bỏ và các thành phần của nó được chuyển đến cụm gần nhất (dựa vào khoảng cách giữa các cụm trung tâm).
CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN
4.1. Giới thiệu
Những thí nghiệm này được thực hiện để làm rõ ba vấn đề chính sau:
- Khả năng tóm tắt dữ liệu hỗ trợ công việc phân cụm dữ liệu với nguồn dữ liệu gồm nhiều bảng có quan hệ 1:n.
- Đánh giá giá trị hàm mục tiêu thay đổi khi điều chỉnh trọng số của cụm phân tán và cụm tạp chất.
- Hiệu suất của thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền so với các kỹ thuật phân cụm truyền thống đạt được bằng cách điều chỉnh trọng số cụm phân tán và cụm tạp chất để lựa chọn phương án phân cụm tốt nhất.