Kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids

Một phần của tài liệu Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG DATA MINING TRONG PHÒNG CHỐNG XÂM NHẬP (Trang 29)

4. XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN XÂM NHẬP 1 Thuật toán phân cụm

4.1.2.Kỹ thuật dùng đối tượng đại diện: Phương pháp k-medoids

Thuật toán k-means không chính xác trong trường hợp dữ liệu dữ liệu bị nhiễu bởi vì một đối tượng với giá trị rất lớn có thể ảnh hưởng rất nhiều trong việc phân bố dữ liệu vào các cụm. Để khắc phục lỗi trên, thay vì dùng giá trị trung bình của các đối tượng trong một cluster làm điểm đại diện cho cluster, chúng ta có thể dùng một đối tượng thực sự để đại diện cho cluster đó. Mỗi đối tượng còn lại được phân vào cụm mà đối tượng đại diện tương tự với nó nhất. Phương pháp phân hoạch dựa trên nguyên lý cực tiểu các sự khác nhau giữa mỗi đối tượng và đối tượng đại diện tương ứng. Do đó hàm mục tiêu absolute-error được sử dụng:

∑ ∑= ∉ = ∉ − = k j p C j j o p E 1

Trong đó p là điểm trong không gian biểu diễn một đối tượng trong cluster Cj; và oj là đối tượng đại diện của của Cj. Trong trường hợp tổng quát, thuật toán lặp cho đến khi mỗi đối tượng đại diện là một medoid thực sự, có nghĩa là nó nằm ở trung tâm của cluster tương ứng. Đây chính là ý tưởng cơ bản của phương pháp k- medois.

XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN XÂM NHẬP

Thuật toán k-medoids

Input: Tập dữ liệu D; số cluster k. Output: k cluster.

Method:

(1) Chọn ngẫu nhiên k đối tượng Oi (i=1..k) làm trung tâm (medoids) ban đầu của cụm.

(2) Repeat

(3) Gán (hoặc gán lại) từng đối tượng còn lại vào cụm có trung tâm gần điểm đang xét nhất.

(4) Với mỗi đối tượng trung tâm

Lần lượt xét các đối tượng không là trung tâm (non-medoids) x. Tính độ lợi S khi hoán đổi Oi bởi x

S được xác định như sau: S = Ex – EOi

Nếu S<0 thì thay thế Oi bởi x.

(5) Until không có sự thay đổi trong các cluster.

Ưu điểm: K-medoids làm việc được với nhiễu và biệt lệ.

Khuyết điểm: K-medoid chỉ hiệu quả khi tập dữ liệu không quá lớn vì có độ phức

tạp là O(k(n-k)2t). Trong đó: n: Số điểm trong không gian dữ liệu; k: Số cụm cần phân hoạch; t: Số lần lặp, t khá nhỏ so với n.

XÂY DỰNG CHƯƠNG TRÌNH PHÁT HIỆN XÂM NHẬP

Một phần của tài liệu Tiểu luận môn Hệ hỗ trợ quyết định ỨNG DỤNG DATA MINING TRONG PHÒNG CHỐNG XÂM NHẬP (Trang 29)