Kỹ thuật thích nghi p-scanning

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp lan truyền độ tương tự trong phân cụm dữ liệu và ứng dụng (Trang 37 - 39)

Tham số p ảnh hưởng đến có bao nhiêu điểm giành chiến thắng cuối cùng để làm tâm cụm. Khi p(k) là lớn hơn, thì có nhiều khả năng rằng điểm k là một tâm cụm cuối cùng. Điều này có nghĩa là số lượng cụm được xác định sẽ tăng hoặc giảm bằng cách điều chỉnh p tương ứng.

Kỹ thuật thích nghi p-scanning được thiết kế như sau: (1) xác định một p lớn để bắt đầu các thuật toán;

(2) chạy một lần lặp với K hình mẫu ;

(3) kiểm tra xem khuôn mẫu K hội tụ (điều kiện là mỗi khuôn mẫu đáp ứng sẵn thời gian liên tục không thay đổi );

(4) đi đến bước (5) nếu K khuôn mẫu hội tụ, nếu không về bước (2)

(5) giảm p bước ps nếu K khuôn mẫu hội tụ quá trong lần lặp dy (điều này là sự hội tụ đáng tin cậy hơn), nếu không về bước (2); (6) đi đến bước (2).

Một tập dữ liệu với n mẫu được chia cho k cụm Ci (i = 1 ~ k), a (t) khác trung bình mẫu t của Cj cho tất cả các mẫu khác vào Cj, d (t, Ci) là khác trung

bình mẫu t của Cj để tất cả các mẫu trong một cụm Ci, sau đó b (t) = min {d (t, Ci)}, i = 1 ~ k, i ≠ j. Công thức Silhouette cho mẫu t là:

Sil(t) =

Với Sil (t) cho mỗi mẫu, tổng silhouette trung bình Sil cho n mẫu của bộ dữ liệu được lấy trực tiếp. Những silhouette trung bình chung lớn nhất lớn nhất cho thấy chất lượng phân cụm tốt nhất và tối ưu NC [3]. Sử dụng công thức (1), một loạt các giá trị tương ứng với Sil giải pháp phân cụm khác nhau được tính toán, và các giải pháp phân cụm tối ưu được tìm thấy tại Sil lớn nhất.

Bảng 3: Thủ tục thích nghi quét p để tìm kiếm không gian NC

2.3 Thuật toán lan truyền AP với tập dữ liệu hỗn hợp kiểu số và kiểu phân loại

Thuật toán lan truyền là một phương pháp phân cụm dựa trên mẫu, đã chứng minh hiệu suất tốt trên nhiều loại bộ dữ liệu. Tuy nhiên, nó có những hạn chế khi xử lý các bộ dữ liệu hỗn hợp. Một thước đo độ tương tự mới được đề xuất cho bộ dữ liệu hỗn hợp và một thuật toán phân cụm lan truyền thích ứng để phân cụm dữ liệu hỗn hợp. Để đánh giá hiệu suất của thuật toán, đã thử nhiều bộ dữ liệu thực tế. So sánh với các thuật toán phân cụm khác chứng minh rằng phương pháp đề xuất hoạt động tốt không chỉ trên bộ dữ liệu hỗn hợp mà cả trên các tập dữ liệu chỉ thuần kiểu số hoặc thuần kiểu phân loại.

Khởi tạo: p←pm/2, ps←pm/100, b←0, v←40, dy←10, nits←0, maxits←50000.

for i←1 to maxits do

Kset(i)←K (K là số lượng cụm)

if điểm k là exemplar

then B(k,j)←1 (j là phần dư của i/v) else B(k,j)←0 (j là phần dư của i/v) end if

if có K exemplars sao cho ∑j B(k,j) = v then Hdown←1 (K hình mẫu đã hội tụ) else Hdown←0, b←0, nits←0 nits←nits+1 end if

if Hdown = 1 and nits >= dy

then b←b+1 q ←0.1 √K+50 p ←p+b* ps / q nits ←0 if K <= 2 then stop end if

Một phần của tài liệu (LUẬN văn THẠC sĩ) phương pháp lan truyền độ tương tự trong phân cụm dữ liệu và ứng dụng (Trang 37 - 39)