2. Cho điểm của cán bộ phản biện
2.5.3. Thuộc tớnh nhị phõn
Tất cả cỏc phộp đo được định nghĩa ở trờn là đa số thớch hợp cho cỏc biến liờn tục. Cho cỏc biến danh nghĩa, “phộp đo khoảng cỏch” là 0 nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa, và 1 nếu cỏc trường hợp cú cỏc giỏ trị danh nghĩa khỏc nhau, hoặc với độ đo tương tự 1 (nếu cỏc trường hợp cú cựng giỏ trị danh nghĩa) và 0 (nếu khụng giống nhau).
Do đú nếu xem xột p biến định danh, cú thể đỏnh giỏ độ tương tự của cỏc trường hợp bằng số cỏc biến mà cú giỏ trị giống nhau. Núi chung định nghĩa với một biến
Đồ ỏn tốt nghiệp Trường ĐHDL Hải Phũng
Phạm Văn Đức-Lớp CT1201 18
hai lớp, một nhón là 1, nhón khỏc là 0. Xõy dựng và xem xột bảng ngẫu nhiờn cỏc sự kiện cú thể xảy ra và định nghĩa cỏc thuộc tớnh của đối tượng x, y bằng cỏc biến số nhị phõn 0 và 1. Y 1 0 X 1 a bb b b b a+b 0 c d c+d a+c b+d p=a+b+c+d Hỡnh 2.8: Bảng tham số Trong đú:
a là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong hai đối tượng x, y b là tổng số cỏc thuộc tớnh cú giỏ trị 1 trong x và giỏ trị 0 trong y c là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong x và giỏ trị 1 trong y d là tổng số cỏc thuộc tớnh cú giỏ trị 0 trong hai đối tượng x, y p là tổng tất cả cỏc thuộc tớnh của hai đối tượng x, y
Ta cú tổng số cỏc thuộc tớnh về đối tượng p = a + b + c + d.
Cỏc phộp đo độ tương tự giữa hai đối tượng trong trường hợp dữ liệu thuộc tớnh nhị phõn được định nghĩa như sau:
Hệ số đối sỏnh đơn giản: d(x,y)=
cả hai đối tượng cú vai trũ như nhau, nghĩa là chỳng đối xứng và cú cựng trọng số.
Hệ số Jaccard:
d(x,y)=
tham số này bỏ qua số cỏc đối sỏnh 0-0
Cụng thức này sử dụng trong trường hợp mà trọng số của cỏc thuộc tớnh cú giỏ trị 1 của đối tượng dữ liệu cao hơn nhiều so với cỏc thuộc tớnh cú giỏ trị 0. Như vậy thuộc tớnh nhị phõn ở đõy là khụng đối xứng.