Tính toán các hàm mục tiêu phù hợp

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu (Trang 55 - 57)

2.2 .Một số giải thuật tối ƣu hóa cụm

3.4. Phƣơng pháp đề xuất để phân cụm đa mục tiêu

3.4.3. Tính toán các hàm mục tiêu phù hợp

Trong thuật toán này, hai hàm mục tiêu được tối ưu hóa đồng thời là chỉ số Xie- Beni (XB) [14] dựa vào khoảng cách Euclidean và chỉ số Sym dựa trên khoảng đối xứng điểm [11,15]. Chú ý, cũng có thể sử dụng nhiều chỉ số phù hợp khác. Hai chỉ số này được tối ưu hóa đồng thời bằng phương pháp tối ưu cụm AMOSA.

Chỉ số XB là một chỉ số dựa trên khoảng cách Euclidean. Nó là một tỷ lệ của độ nén nhóm giữa các nhóm (sử dụng khoảng cách Ơ-clít) theo sự phân tách giữa các cặp nhóm. Do đó, nó có thể phát hiện tốt các nhóm có hình dạng siêu cầu. Ở đây, sự phân nhóm được đo bằng cách sử dụng khoảng cách nhỏ nhất giữa hai trung tâm nhóm. Nhưng trong chỉ số Sym, sự tách nhóm được đo bằng cách sử dụng khoảng cách lớn nhất giữa tâm hai nhóm. Do đó hai chỉ số này kiểm tra các đặc điểm khác nhau của các nhóm. Hơn nữa, chỉ số XB là chỉ số hiệu lực nhóm rất thông dụng và nổi tiếng dựa trên khoảng cách Ơ-clit. Do đó, ở đây chúng ta đã tối ưu hóa cả chỉ số XB và chỉ số Sym đồng thời sử dụng MOO là AMOSA.

Để tính tóan các phương pháp này, ban đầu các trung tâm được mã hóa trong dãy được trích ra. Cho số K trung tâm nhóm được mã hóa trong một dãy riêng. Diễn tả chúng là

Trong đó: σ và sep được viết là: σ(Z,X)= và sep(Z)= min { }

trong đó là định chuẩn Ơ-Clít và de là khoảng cách Ơ-clit giữa điểm thứ k và

nhóm thứ i và tâm nhóm , ni diễn tả số điểm dữ liệu xuất hiện trong nhóm thứ i. Z và X là bộ các tâm nhóm và bộ dữ liệu. chỉ số XB sau đó được viết như sau:

XB= =

Chú ‎ý: Khi sự phân chia chắc chắn và tốt thì tổng độ lệch σ sẽ có giá trị thấp trong khi đó sự phân tách cực tiểu (sep) giữa mỗi cặp trung tâm sẽ có giá trị cao. Do đó, mục tiêu là tối thiểu chỉ số XB để đạt được sự phân nhóm tốt.

Chỉ số XB => Min

+ Chỉ số Sym: xác định dựa trên khoảng cách đối xứng điểm [11,15]. Nó được xác định như sau:

Sym (K) = ( )

Trong đó: K là tổng số nhóm cho trước. Ở đây = trong đó = và DK=

. DK là khoảng cách Ơ-clit lớn nhất giữa các trung tâm cặp nhóm. là khoảng cách dối xứng điểm [3] giữa điểm thứ j và nhóm thứ i. Ở đây, các lân cận k gần nhất của = 2 x sẽ chỉ được tìm kiếm giữa các các điểm trong nhóm i, tức là các lân cận k gần nhất của , điểm phản chiếu của đối với và nên thuộc về nhóm thứ i.

Chú ‎ý: Mục tiêu là tối đa hóa chỉ số Sym để đạt được số nhóm thực và đạt được sự phân nhóm tốt. Sym là tập hợp 3 yếu tố là 1/K, 1/ và DK. Yếu tố thứ nhất tăng khi K giảm để giảm giá trị của K. Yếu tố thứ hai nằm trong tổng thể khoảng cách đối xứng nhóm. Đối với nhóm có cấu trúc đối xứng tốt, giá trị Ei là nhỏ hơn. Điều này chỉ ra rằng sự hình thành thêm nhiều nhóm, đối xứng về hình dạng được khích lệ. Cuối cùng yếu tố thứ ba Dk đo sự phân tách cực đại của các cặp nhóm, tăng với giá trị của K. Khi ba yếu tố này bổ sung về bản chất, chúng được kỳ vọng là sẽ hoàn thiện và cân bằng với nhau để quyết định sự phân chia chính xác.

Chỉ số Sym => Max

Vậy cần tối ưu hóa đồng thời hai hàm mục tiêu dựa trên phương pháp tối ưu nhóm AMOSA:

Chỉ số XB => Min Chỉ số Sym => Max

Một phần của tài liệu (LUẬN văn THẠC sĩ) ứng dụng kỹ thuật đa mục tiêu vào phân cụm dữ liệu (Trang 55 - 57)

Tải bản đầy đủ (PDF)

(68 trang)