Thuộc tính nhị phân:

Một phần của tài liệu Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp (Trang 31 - 33)

Giả sử tất cả thuộc tính về đối tượng đều là nhị phân biểu thị bằng 0 và 1. Xét bảng tham số sau về hai đối tượng x và y:

y = 1 y = 0 x = 1 a b a + b x = 0 c d c + d a + c b + d a + b + c + d Hình 2.8: Bảng tham số Trong đó

- a là tổng số các thuộc tính có giá trị là 1 trong cả hai đối tượng x, y. - b là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y. - c là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y. - d là tổng số các giá trị thuộc tính có giá trị là 0 trong cả x và y. Ta có tổng số các thuộc tính về đối tượng p = a + b + c + d.

Các phép đo độ tương tự giữa hai đối tượng trong trường hợp dữ liệu thuộc tính nhị phân được định nghĩa như sau:

Hệ số đối sánh đơn giản:

, a b

d x y

p

Ở đây cả hai đối tượng x và y có vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số.

Hệ số Jacard:

, a

d x y

a b c

Chú ý rằng tham số này bỏ qua số các đối sánh giữa 0-0. Công thức tính này được sử dụng trong trường hợp mà trọng số của các thuộc tính có giá trị 1 của đối tượng dữ liệu có cao hơn nhiều so với các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng.

Ví dụ: Bảng hồ sơ bệnh nhân:

Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4

Jack M Y N P N N N

Mary F Y N P N P N

Jim M Y P N N N N

Có 8 thuộc tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4

trong đó:

Gender là thuộc tính nhị phân đối xứng. Các thuộc tính còn lại là nhị phân bất đối xứng

Ta gán các trị Y và P bằng 1 và trị N được gán bằng 0. Tính khoảng cách giữa các bệnh nhân dựa vào các bất đối xứng dùng hệ số Jacard ta có

, . d Jack Mary 0 1 0 33 2 0 1 , . d Jack Jim 1 1 0 67 1 1 1

, .

d Jim Mary 1 2 0 75 1 1 2

Như vậy, theo tính toán trên, Jim và Marry có khả năng mắc bệnh giống nhau nhiều nhất vì d(Jim, Marry)=0.75 là lớn nhất.

Một phần của tài liệu Phân cụm dữ liệu bài toán và các giải thuật theo tiếp cận phân cấp (Trang 31 - 33)