Lựa chọn phƣơng pháp phân cụm

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 62 - 63)

Bài toán này sử dụng phƣơng pháp phân cụm hai bƣớc. Trong bƣớc thứ nhất, sử dụng thuật toán phân cụm phân cấp Agglomerative Hierarchical Clustering (AHC) để đƣa ra đƣợc những cụm tốt nhất. Sau đó, sử dụng thuật toán phân cụm phân hoạch K-means để tiếp thực hiện phân cụm và đƣa ra kết quả.

Bƣớc thứ nhất: Dùng thuật toán AHC để tiến hành phân cụm. Ban đầu, xem mỗi đối tƣợng là một cụm và nhóm hai đối tƣợng gần nhất thành một cụm. Lặp lại quá trình cho đến khi tất cả các đối tƣợng đƣợc nhóm vào cùng một cụm cuối cùng.

Để xác định đƣợc khoảng cách giữa các đối tƣợngta có thể dùng nhiều phƣơng pháp. Nhƣng trong luận văn sẽ dụng công thƣ́c Euclidean để xác định khoảng cách đó:

dij = , (i,j = 1,2,….,n)

dij:Khoảng cách giữa đối tƣợng i và j(Khoảng cách Euclidean giữa mỗi khu vực hành chính)

m: số lƣợng các biến n: số lƣợng mẫu

Các bƣớc thực hiện phân cụm:

1. Chuyển các đặc trƣng, thuộc tính của đối tƣợng vào ma trận khoảng cách. 2. Xem mỗi đối tƣợng là một cụm.

3. Gộp hai cụm gần nhất, dùng công thức Ecuclide Distance để xác định khoảng cách giữa các đối tƣợng, hai cụm gần nhau nhất là hai cụm có khoảng cách nhỏ nhất.

4. Cập nhật lại ma trận khoảng cách.

Bƣớc thứ hai: Tiếp tục sử dụng thuật toán k-means trong phân cụm phân hoạch để thực hiện phân nhóm.

Các bƣớc thực hiện:

1. Chọn K tâm cho K cụm. Mỗi cụm đƣợc đại diện bằng các tâm của cụm (Trong bƣớc một đã thực hiện phân cụm phân cấp để quyết định chọn số lƣợng cụm và chọn các tâm cụm)

2. Tính khoảng cách giữa các đối tƣợng đến K tâm (dùng khoảng cách Euclidean).

3. Nhóm các đối tƣợng vào nhóm gần nhất. 4. Xác định lại tâm mới cho các nhóm.

5. Thực hiện lại bƣớc thứ hai cho đến khi không có sự thay đổi nào của các nhóm đối tƣợng.

Cuối cùng sau khi thực hiện các thủ tục của hai bƣớc sẽ đƣa ra đƣợc kết quả phân cụm.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu các phương pháp phân cụm dữ liệu ứng dụng xây dựng bản đồ phân bố bệnh trên địa bàn tỉnh thái nguyên​ (Trang 62 - 63)

Tải bản đầy đủ (PDF)

(73 trang)