Thuật toán k-prototypes chi tiết

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 80 - 82)

Các khái niệm biến và hàm sử dụng trong thủ tục Allocation():

 Biến X[i] lƣu giữ đối tƣợng thứ i

 Biến X[i,j] lƣu giữ giá trị của thuộc tính thứ j của đối tƣợng thứ i;

O_Prototypes[]: Lƣu giữ phần thuộc tính số của Prototype với cụm tƣơng ứng.

C_Prototypes[]: Phần thuộc tính hạng mục của Prototype với cụm tƣơng ứng.

O_Prototypes[i,j]: Phần thuộc tính hạng số của Prototype ứng với cụm thứ i.

C_Prototypes[i,j]: Phần thuộc tính hạng mục của Prototype ứng với cụm thứ i.

Distance(): Hàm khoảng cách Euclide

Sigma(): là một thể hiện của hàm  () trong công thức (2.3)

CLustership[]: Lƣu giữ thành phần cụm của các đối tƣợng.

CLusterCount[]: Lƣu giữ số các đối tƣợng trong cụm.

SumInCluster[]: Tính tổng các giá trị thuộc tính số của các đối tƣợng trong các cụm và đƣợc sử dụng để cập nhật các giá trị thuộc tính số cho các Prototype của cụm.

FrequencyInCluster[]: lƣu giữ các tần số xuất hiện của giá trị thuộc tính hạng mục tƣơng ứng trong mỗi cụm.

 Hàm HighestFreq (): tần suất xuất hiện lớn nhất của các giá trị của thuộc tính hạng mục tƣơng ứng.

Trong thụât toán k-prototypes, thủ tục phân phối lại gần giống với thủ tục phân phối khởi tạo. Sau khi phân phối lại, các Prototypes của cả hai cụm trƣớc và cụm hiện thời đƣợc cập nhật. Biến Moves lƣu giữ số các đối tƣợng có thay chỉ số cụm, khi biến Moves =0 thì quá trình phân phối kết thúc và thuật toán kết thúc. Các Prototypes cũng nhƣ các cụm kết quả thu đƣợc sau khi thụât toán kết thúc chính là kết quả của quá trình phân cụm. Do thuật toán thoả mãn hàm tiêu chuẩn đƣợc biểu diễn nhƣ trong công thức (2.7) nên thuật toán chỉ cho ta nghiệm tối ƣu cục bộ. Hình 30 sau mô phỏng quá trình thực hiện của thuật toán k-Prototypes bằng đƣờng cong hội tụ, thuật toán thực hiện trên tập dữ liệu có n= 75808 bản ghi dữ liệu và d = 20 thuộc tính. Số các cụm là k= 64.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân cụm dữ liệu và ứng dụng trong công tác tái bảo hiểm Luận văn ThS. Công nghệ thông tin 1 01 10 (Trang 80 - 82)

Tải bản đầy đủ (PDF)

(101 trang)