Mode và thuật toán k-modes

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân cụm dữ liệu định danh với số chiều cao (Trang 37 - 40)

CHƢƠNG 3 : PHÂN CỤM DỮ LIỆU VỚI THUỘC TÍNH ĐỊNH DANH

3.1. Mode và thuật toán k-modes

Dữ liệu trong thế giới thực thƣờng có chứa các thuộc tính định danh [12]. Để mở rộng thuật toán cho các đối tƣợng dữ liệu có chứa thuộc tính định danh trong [23, 24] Huang xét tập N đối tƣợng  N1

i i x

 trong đó xi  (x1i, ...,xmi ,xmi1, ...,xni) là phần tử của quan hệ r trên lƣợc đồ quan hệ R = {A1, ..., An} và xijD o m A( j) với mỗi jm là các giá trị thực còn với m  1 jn là các giá trị định danh, các thuật toán toán trong [23, 24] dựa trên khái niệm mode và dùng mode thay cho trọng tâm của mỗi tập dữ liệu C.

3.1.1. Mode của tập dữ liệu hỗn hợp.

Để tiện trình bày định nghĩa mode của tập dữ liệu hỗn hợp [1], chúng tôi đƣa thêm định nghĩa j-mode với jn

Định nghĩa: Giả sử C là tập con của tập dữ liệu hỗn hợp D

i) Với mọi jn, j-mode của C (kí hiệu là j-mode(C)) là giá trị có tần suất nhiều nhất trong thuộc tính Aj của C nếu A là thuộc tính định danh và là trung bình cộng của các giá trị thuộc tính Aj của C khi Aj là thuộc tính số. Nếu Aj là thuộc tính định danh và có nhiều giá trị có tần suất nhƣ nhau trong C thì j-mode(C) có thể không duy nhất và ta chọn giá trị nào cũng đƣợc.

ii) Mode của tập hợp C kí hiệu là mode(C) là phần tử z = (z1, ..., zn) trong đó zj = j-mode(C),  j n

Ví dụ, hình 3.1 [17] cho thấy tần số của mỗi giá trị thuộc tính của nó trong một cụm. Ta thấy rằng, giá trị mode trong thuộc tính a4, a5, a6, a7 có tần số cao hơn so với các thuộc tính khác. Điều này cho thấy các thuộc tính a4, a5, a6, a7 đƣợc cho là quan trọng để xác định các cụm.

Một bảng dữ liệu phạm trù đƣợc định nghĩa nhƣ là một tập gồm 4 thành phần: IS = (X, A, V, f), trong đó:

(1) X = {x1, x2, …, xn} là một tập hợp không rỗng của n điểm dữ liệu. (2) A = {a1, a2, …, am} là một tập hợp không rỗng m thuộc tính định danh. (3) 1 j m a j V V   , với  ( 1 ) ( 2 ) ( ) , , . . . , j j n a j j j

Va a a là miền giá trị của thuộc tính aj, hữu hạn và có thứ tự, ví dụ nhƣ, đối với bất kỳ 1 pqnj hoặc ( ) ( ) ( ) ( ) , p q p q j j j j aa aa

Ở đây, nj là số các loại thuộc tính của aj với 1 jm . (4) f: RxA V là một hàm thông tin sao cho ( , )

j i j a f x aV với 1 i n và 1 jm . Ở đây 1 2 ... m a a a RVV  VUR

Thuật toán k-modes sử dụng mô hình k-means phân cụm dữ liệu định danh. Mục tiêu của phân cụm một tập hợp n đối tƣợng phạm trù vào k cụm là để tìm W và Z để giảm thiểu [19] 1 1 ( W , ) w ( , ) k n l i l i l i F Z d z x      (3.1) Tuân theo wl i{ 0 , 1} , 1 l k, 1 i n 1 w 1 k l i l   , 1 i n (3.2) 1 0 w n l i i   , 1 l k Ở đây:

* W = [wli] là một ma trận kích thƣớc kxn có giá trị 0 hoặc 1, wli là một biến nhị phân và cho biết đối tƣợng xi có thuộc phân cụm thứ l, wli= 1 nếu xi thuộc phân cụm thứ l và wli = 0 trong trƣờng hợp ngƣợc lại.

* Z = [z1, z2, …, zk] và zl = [f(zl, a1), f(zl, a2), …, f(zl, am)] là tâm cụm thứ l với các thuộc tính định danh a1, a2, …, am.

d(zl, xi) là thƣớc đo khoảng cách hoặc khoảng cách không tƣơng tự giữa hai đối tƣợng xi và tâm cụm zl với 1 ( , ) ( , ) j m l i a l i j d z xz x    (3.3) Ở đây: 1, f(zl, aj)  f(xi, aj), ( , ) j a zl xi  = (3.4) 0, f(zl, aj) = f(xi, aj).

Tối thiểu F trong (3.1) với ràng buộc trong (3.2), phƣơng pháp thông thƣờng theo hƣớng tối ƣu hóa F trong (3.1) là sử dụng tối ƣu hóa một phần cho Z và W. Phƣơng pháp này, đầu tiên chúng tôi cố định Z và tìm điều kiện cần thiết trên W giảm thiểu F. Sau đó, ta cố định W và giảm thiểu F, Z. Tối ƣu các vấn đề trên có thể đƣợc giải quyết bằng cách lặp đi lặp lại giải quyết giảm thiểu hai vấn đề sau đây:

Bài toán P1 : Cố định zzˆ, giải quyết bài toán giảm thiểu F( w , )zˆ ;

Bài toán P2: Cố định w  wˆ , giải quyết bài toán giảm thiểu F( w , )ˆ z . Bài toán P1 đƣợc giải quyết bởi:

1 nếu d zl,xi) d zh,xi) , 1 hk

ˆ

wl i= (3.5) 0 ngƣợc lại

Với 1 i n, 1 hk

Bài toán P2 đƣợc giải quyết bởi: ( ) ( , ) j r l j j a f z aaV (3.6) Trong đó ( ) | { w \ f(x ,a ) a r , w 1} | ( ) | { w \ f(x ,a ) a t , w 1} |, 1 t n (3.7)

Với 1 jm . Ở đây |X| biểu thị các yếu tố trong thiết lập X, (1 ) ( 2 ) { , , ..., j} j n a j j j Va a a , nj là số lƣợng loại thuộc tính của aj với 1 jm .

3.1.2. Thuật toán k-modes

Quá trình này đƣợc thể hiện trong các thuật toán k-modes nhƣ sau [19]:

Thuật toán k-modes(KM)

Bước 1: Chọn một tập hợp điểm ban đầu (1 )

ZR xác định W(1) sao cho F(W, Z(1)) là giảm thiểu. Đặt t =1.

Bước 2: Xác định Z(t+1) sao cho F(W(t), Z(t+1)) là giảm thiểu. Nếu F(W(t), Z(t+1)) = F(W(t), Z(t)) thì dừng, ngƣợc lại đến bƣớc 3.

Bước 3: Xác định W(t+1) sao cho F(W(t+1), Z(t+1)) là giảm thiểu. Nếu F(W(t+1)

, Z(t+1)) = F(W(t), Z(t+1)) thì dừng, ngƣợc lại t = t+1 và chuyển đến bƣớc 2

Hạn chế của thuật toán K-modes coi tất cả các thuộc tính là quan trọng nhƣ nhau. Thực tế ta thấy rằng những thuộc tính đóng vai trò thứ yếu phải có vai trò quan trọng hơn.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phân cụm dữ liệu định danh với số chiều cao (Trang 37 - 40)

Tải bản đầy đủ (PDF)

(91 trang)