CHƢƠNG I PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ VẤN ĐỀ LIÊN QUAN
2.4. Phƣơng pháp phân cụm dựa trên tập thô và giải thuật di truyền
Thuật toán K-Means truyền thống và thuật toán di truyền cần phải xác định trƣớc số cụm và chọn kích cỡ ban đầu của tham số. Hơn nữa, thuật toán di truyền đƣợc cải tiến làm cho các kết quả không rơi vào các tối ƣu địa phƣơng, trong đó có khả năng tìm kiếm toàn cầu mạnh mẽ. Đồng thời, đối tƣợng có ranh giới không rõ ràng đƣợc thể hiện bằng cách sử dụng tập thô. Vì vậy mà các bộ xấp xỉ trên và xấp xỉ dƣới trong các cụm có thể mô tả thế giới khách quan tốt hơn. Trên cơ sở này, phƣơng pháp phân cụm hiệu quả dựa vào tập thô và thuật toán di truyền đƣợc cung cấp [6].
Đầu vào: n đối tƣợng dữ liệu, số cụm k
Đầu ra: Đầu ra là các trung tâm cụm tƣơng ứng với các thành phần có giá trị
hàm thích nghi lớn nhất.
Bƣớc 1. Khởi tạo k số cụm, quần thể ngẫu nhiên P có p nhiễm sắc thể, chọn
ra k tâm cụm, số thế hệ muốn lặp tMax. Mã hóa k cụm.
Bƣớc 2. Phân cụm thô: Giải mã mỗi nhiễm sắc thể, gom các đối tƣợng tƣơng ứng với mỗi k cụm phù hợp với nguyên tắc về khoảng cách, sau đó làm theo phân cụm K-Means thô để phân phối các đối tƣợng.
Bƣớc 3. Tính toán các giá trị hàm thích nghi. Bƣớc 4. Lựa chọn, lai ghép và đột biến.
Bƣớc 5. Đánh giá lại quần thể mới. Nếu số lần lặp bằng với giá trị tối đa
đƣợc xác định, chuyển sang bƣớc 6, nếu không, các thuật toán tiếp tục từ bƣớc 2 đến bƣớc 4.
Bƣớc 6. Kết thúc
Ở đây phƣơng pháp mã hóa nhị phân cùng khái niệm về xấp xỉ và xấp xỉ dƣới đƣợc giới thiệu để mã hóa phân cụm thô.
Chiến lƣợc mã hóa nhƣ sau: Nếu đối tƣợng trong tập dữ liệu thuộc biên
hoặc miền âm trong các cụm, thì mã tƣơng ứng của chuỗi nhiễm sắc thể là 1, ngƣợc lại là 0. Thuật toán di truyền dễ dàng hoạt động khi có bảng mã nhị phân với các tính năng đơn giản, biên dịch chéo và thuận tiện.
Cơ chế để ngăn chặn cận huyết [6] (The mechanisms to prevent incest)
Để duy trì sự đa dạng của các quần thể khi lựa chọn các cá thể kết nối, ở đây sử dụng cơ chế để ngăn chặn sự cận huyết, hạn chế cá thể tƣơng tự lại kết đôi. Cụ thể, chọn xác suất hai cá thể, nếu khoảng cách Hamming giữa chúng nhỏ hơn so với ngƣỡng cho trƣớc, thì lai gép chúng trong quần thể; nếu không, quay lại và tiếp tục chọn lần nữa.
Chiến lƣợc Elitist [6] (Chọn lọc ƣu tú)
Để bảo tồn các cá thể tốt nhất của giá trị hàm thích nghi trong cá thể, trong bài sử dụng chiến lƣợc chọn lọc ƣu tú, có nghĩa là sao chép cá thể có giá trị thích nghi cao nhất trong quần thể hiện tại sang quần thể mới, và các cá thể này không tham gia vào các hoạt động của lai ghép và đột biến.