Thuộc tớnh nhị phõn

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 28 - 29)

CHƯƠNG 2 CÁC KỸ THUẬT PHÂN CỤM

2.2. CÁC PHẫP ĐO ĐỘ TƯƠNG TỰ VÀ KHOẢNG CÁCH ĐỐI VỚI CÁC

2.2.3. Thuộc tớnh nhị phõn

Tất cả cỏc phộp đo được định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục, cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa và là 1 nếu cỏc trường hợp cú cỏc giỏ trị danh nghĩa khỏc nhau hoặc với độ đo tương tự 1 (nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).

Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tương tự của cỏc trường hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung, định nghĩa mới một biến nhị phõn từ mỗi biến danh nghĩa bằng việc nhúm cỏc nhón thành hai lớp, một nhón là 1, và nhón khỏc là 0. Xõy dựng và xem xột bằng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tượng x, y bằng cỏc biến số nhị phõn 0 và 1.

Y 1 0 X 1 a b a+b 0 c d c+d a+c b+d P=a+b+c+d Bảng 2.1. Bảng tham số

a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tượng x,y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tượng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tượng x, y

Cỏc phộp đo độ tương tự của cỏc trường hợp với dữ liệu thuộc tớnh nhị phõn được thực hiện bằng cỏch sau:

Hệ số đối sỏnh đơn giản: d(x,y)=

p d

a+ , cả hai trọng số cú vai trũ như nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.

Hệ số Jaccard: d(x,y)= c b a a +

+ , tham số này bỏ qua cỏc đối sỏnh 0-0. Cụng thức này sử dụng trong trường hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tượng dữ liệu cú cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0, như vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.

d(x,y)= p a d(x,y)= c b a + d(x,y)= c b a a + + 2 2

Cỏc giỏ trị được định nghĩa trong khoảng [0,1] và cú thể biến đổi sang độ đo phi tương tự bằng biểu thức: ds(x,y)=1-d(x,y)

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 28 - 29)

Tải bản đầy đủ (PDF)

(118 trang)