Giả sử tất cả thuộc tính về đối tượng đều là nhị phân biểu thị bằng 0 và 1. Xét bảng tham số sau về hai đối tượng x và y:
y = 1 y = 0 x = 1 a b a + b x = 0 c d c + d a + c b + d a + b + c + d Hình 2.8: Bảng tham số Trong đó
- a là tổng số các thuộc tính có giá trị là 1 trong cả hai đối tượng x, y. - b là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y. - c là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y. - d là tổng số các giá trị thuộc tính có giá trị là 0 trong cả x và y. Ta có tổng số các thuộc tính về đối tượng p = a + b + c + d.
Các phép đo độ tương tự giữa hai đối tượng trong trường hợp dữ liệu thuộc tính nhị phân được định nghĩa như sau:
Hệ số đối sánh đơn giản:
, a b
d x y
p
Ở đây cả hai đối tượng x và y có vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số.
Hệ số Jacard:
, a
d x y
a b c
Chú ý rằng tham số này bỏ qua số các đối sánh giữa 0-0. Công thức tính này được sử dụng trong trường hợp mà trọng số của các thuộc tính có giá trị 1 của đối tượng dữ liệu có cao hơn nhiều so với các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng.
Ví dụ: Bảng hồ sơ bệnh nhân:
Name Gender Fever Cough Test-1 Test-2 Test-3 Test-4
Jack M Y N P N N N
Mary F Y N P N P N
Jim M Y P N N N N
Có 8 thuộc tính Name, Gender, Fever, Cough, Test-1, Test-2, Test-3, Test-4
trong đó:
Gender là thuộc tính nhị phân đối xứng. Các thuộc tính còn lại là nhị phân bất đối xứng
Ta gán các trị Y và P bằng 1 và trị N được gán bằng 0. Tính khoảng cách giữa các bệnh nhân dựa vào các bất đối xứng dùng hệ số Jacard ta có
, . d Jack Mary 0 1 0 33 2 0 1 , . d Jack Jim 1 1 0 67 1 1 1
, .
d Jim Mary 1 2 0 75 1 1 2
Như vậy, theo tính toán trên, Jim và Marry có khả năng mắc bệnh giống nhau nhiều nhất vì d(Jim, Marry)=0.75 là lớn nhất.