Thuật toán LNERF (phân cụm mờ trên D n)

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 60 - 63)

Phân cụm trong Dn đã được thực hiện với thuật toán NERF trong [24]. Ta ký hiệu, || . || là chuẩn Euclid trên n, ek biểu thị cho vectơ đơn vị thứ k

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

trongn, M là ma trận cỡ n x n với các số 0 trên đường chéo chính, và số 1 ở các vị trí còn lại, và Mfcn là tập tất cả các ma trận phân hoạch mờ Ucn thỏa mãn

[0,1]

ik

u  , ic1uik 1 với k  1, ,n và nk1uik 0 với i 1, ,c. Để không nhầm với U( )q , ước lượng thứ q của ma trận U cỡ c x n, ta ký hiệu là Uq, biểu thị cho cột thứ q của các ma trận U.

Thuật toán LNERF: (Phân cụm mờ trong ma trận phi tương tự 23

n

D )

Vào: Ma trận phi tương tự Dncỡ n x n

Các ràng buộc: Dn thỏa mãn điều kiện (dij 0;dijdji;dii 0)

Chọn: c = số cụm, 2 c n

m = số mũ trọng số mờ (fuzzy weighting exponent), m1

L

= điều kiện dừng.

( ) ( 1)

||U qU q ||= chuẩn cuối cùng trên các ước lượng kế tiếp của ma trận U

M

Q = số lần lặp lớn nhất được cho phép.

Khởi tạo: q0; 0;U(0)Mfcn;Udifference 2 *L

WHILE (Ud ferenceif LqQM)

LNERF-1 Tính c “trung bình” các vectơ vi( )r

( ) ( ) ( ) ( ) ( ) 1 2 (( ) , ( ) ,...,( ) ) (( ) ,1 n q q m q m q m T q m iui ui uinuij  i c v (2.18a)

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

LNERF-2 Tính các “khoảng cách” từ đối tượng tới các cụm

( ) ( ) ( ) (( ) q ) ( q T( ) q ) / 2 ik Dn M i k i Dn M i   vv v ,1 i c;1kn (2.18b) IF ik 0với bất kỳ i và k, THEN Tính  ( ) 2 , ax{ 2 ik/ || iq k || } i k m    ve (2.18c) Cập nhật: ikik  ( / 2). ||vi( )qek || ,2 1 i c; 1kn (2.18d) Cập nhật:   (2.18e) ENDIF

LNERF-3 Cập nhật U( )q thành U(q1)Mfcn để thỏa mãn mọi k  1, ,n

IF ik 0, i1...c, THEN ( 1) 1/( 1) 1 1 ( / ) c q m ik ik jk j U          (2.18f)

ELSE uik(q1) 0cho mọi k với ik 0,

uik(q1)[0,1] với cj1u(jkq1) 1 (2.18g)

ENDIF

Cập nhật: qq1

Chương 2. Phân cụm xấp xỉ trong dữ liệu quan hệ rất lớn

ENDWHILE

Ra: Ma trận thành viên ULNERF,nMfcn, các vectơ mẫu đầu tiên “prototype”

1

{ ,...,v vc} n

Kết quả chính là các ma trận phân hoạch tuần tự được sinh ra bởi LFCM trên một tập dữ liệu đối tượng X giống như các ma trận phân hoạch tuần tự được sinh ra bởi LNERF trên ma trận quan hệ tương ứng D(X) của các cặp bình phương khoảng cách Euclid được suy từ X, có nghĩa là,dij( )X   ||xixj ||2. Thuật ngữ “phi-Euclid” chỉ ra rằng LNERF có thể áp dụng được với dữ liệu phi- Euclid. Tiếp tục của thuật toán được thực hiện bởi trải căng D thành

n

DDM thông qua phương trình 2.18b-e, trong đó, khi được kích hoạt, thêm hạng từ để ra khỏi các phần tử trên đường chéo chính của D như được mô tả trong [24]. Việc bổ sung giới hạn Msinh ra dữ liệu phi tương tự quan hệ rất gần với Euclid, trong khi đó vẫn duy trì được hầu hết cấu trúc cụm của R ban đầu. {ik} trong phương trình 2.18 là tương tự như các khoảng cách trong dữ liệu đối tượng đối ngẫu của LNERF, nhưng không đúng với những khoảng cách trong các thiết lập dữ liệu quan hệ. Chuẩn được sử dụng trong LNERF để kết thúc thì chỉ quan trọng ở chỗ các chuẩn khác nhau có thể dừng các thuật toán tại các yếu tố khác nhau trong chuỗi lặp.

Một phần của tài liệu CNTT: Lấy mẫu chọn lọc cho phân cụm xấp xỉ các tập dữ liệu RẤTLỚN (Trang 60 - 63)

Tải bản đầy đủ (PDF)

(111 trang)