0
Tải bản đầy đủ (.pdf) (70 trang)

Giảm dữ liệu và gieo hạt

Một phần của tài liệu TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN (Trang 50 -51 )

Mục tiêu của công việc trong giai đoạn I là tìm ra những hạt giống ban đầu của cụm bằng cách nhóm các bản ghi đích gần các láng giềng của chúng nhất. Các bước được mô tả như sau:

1. Đối với mỗi bản ghi đích Oi, tìm ra khoảng cách đến láng giềng gần nó nhất, dNNj (Oi) = | | Oi – Oj | |, trong đó Oj là láng giềng gần Oi nhất và i ≠ j

2. Tính khoảng cách trung bình của tất cả các bản ghi đích tới láng giềng gần chúng nhất

3. Cho d = trọng số • dAVE, trong đó đại lượng vô hướng là một hằng số (trọng số được khởi tạo là 0,5). Bây giờ, xem n bản ghi đích như các nút của đồ thị và kết nối tất cả các nút có khoảng cách nhỏ hơn hoặc bằng d. Tăng đại lượng vô hướng thêm 0,1. Điều này được thực hiện để tìm thấy các hạt giống cho các cụm.

4. Lặp lại bước 3 cho đến khi không còn bản ghi đích nào được chọn là láng giềng gần nhất cho hai thành phần khác nhau của các bản ghi đích được kết nối. Điều này đảm bảo tất cả các bản ghi đích được kết nối là đủ gần với nhau.

5. Tìm tất cả các nút được kết nối và cho phép các bộ dữ liệu đại diện bởi các nút này được ký hiệu là (B1, B2, B3 ,..., Bm-1, Bm), trong đó m là số các nút được kết nối và m <N, Bi gồm 1 hoặc nhiều nút được kết nối, i ≤ m.

6. Tính m cụm trung tâm (Z1, Z2, Z3, ..., Zm) từ tất cả các kết nối của các thành phần (B1, B2, B3 ,..., Bm-1, Bm) ở bước (5), trong đó:

ở đây, Ni là số nút được kết nối ở Bi.

Sau khi giảm N điểm trong m cụm bằng cách nhóm chúng với láng giềng gần chúng nhất, một thuật toán di truyền được áp dụng bằng cách xử lý các điểm m là chuỗi các nhiễm sắc thể trong tập hợp khởi tạo ban đầu.

Một phần của tài liệu TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN (Trang 50 -51 )

×