Phụ thuộc và phụ thuộc xấp xỉ

3.2. Khảo sát phụ thuộc bằng Ma trận phụ thuộc

3.2.1. Phụ thuộc và phụ thuộc xấp xỉ

Trong phần này ta luôn xét A= (U, A)là một hệ thống thông tin với U là tập các đối tượng và A là tập các thuộc tính. Với mỗi u ∈U và a∈ A ta ký hiệu u(a)

là giá trị thuộc tính a của đối tượngu. Nếu X ⊆Alà một tập các thuộc tính ta ký hiệu u(X)là bộ gồm các giá trị u(a)với a∈X. Vì vậy, nếu uvà v là hai đối tượng thuộc U, ta sẽ nói u(X) =v(X) nếu u(a) =v(a)với mọi thuộc tính a ∈X.

Trong nhiều trường hợp ta không nhận được X →→Y nhưng tồn tại một tập con V ⊂ U sao cho X →→Y trên V, lúc đó ta ký hiệu X→→VY. Nếu tập V như vậy nhận được bằng cách loại bỏ một số rất ít các đối tượng trong U, thì ta nói Y

“phụ thuộc đa trị xấp xỉ“ vào X trên U. Rõ ràng ta cần chọn tập V như vậy càng lớn càng tốt và điều này sẽ gợi ý cho chúng ta cách đánh giá sai số của phụ thuộc hàm g3 (xem Mục 2.4.2.) lên phụ thuộc đa trị, cụ thể ta có định nghĩa như sau

Định nghĩa 3.1. Cho X, Y ⊆ A. Ta gọi giá trị sau là sai số của phụ thuộc đa trị

X →→Y

g3(X →→Y) := 1− max{Card(V)|V ⊆U, X→→VY} Card(U) .

Rõ ràng, X →→Y đúng khi và chỉ khi g3(X →→ Y) = 0. Trong nhiều trường

hợp, ngoài các phụ thuộc đa trị, chúng ta cũng cần xác định các phụ thuộc xấp xỉ có sai số khơng vượt q một giá trị ngưỡng ∈[0,1)cho trước.

Cho V ⊆U và X ⊆A. Ta gọi tập hợp sau

dom(V, X) = {u(X)|u∈V}

là miền giá trị của V trên X. Nhắc lại rằng, trên V tồn tại quan hệ tương đương

IND(X|V) xác định bởi

Họ các lớp tương đương trên V, tương ứng với IND(X|V), được ký hiệu là V /X.

Bây giờ cho X, Y ⊆A là hai tập con các thuộc tính. Giả sử

U/X ={V1, V2,· · · , Vm}; Vi/Y ={Vi

1, V2i,· · · , Vnii }; 1≤i≤m.

Nghĩa là, với mọi đối tượng u, v ∈U, ta có

u(X) =v(X)⇔∃i:u, v ∈Vi (3.3)

u(X∪Y) =v(X∪Y)⇔∃i, j :u, v ∈Vji. (3.4) Định lý sau cho ta các đặc trưng của phụ thuộc hàm và phụ thuộc đa trị.

Định lý 3.1. Cho X, Y ⊆A. Đặt Z =A\(X∪Y). Khi đó,

a) X →Y ⇔Vi/Y ={Vi} (hay ni = 1), với mọi 1≤i≤m.

b) X →→Y ⇔dom(Vi, Z) = dom(Vi

j, Z), với mọi 1≤i≤m, 1≤j ≤ni.

Chứng minh.

a) Hiển nhiên đúng xuất phát từ định nghĩa của phụ thuộc hàm và (3.3)-(3.4).

b) (⇒) Giả sử X →→ Y. Vì bao hàm thức dom(Vi, Z) ⊃ dom(Vi

j, Z) là hiển nhiên, nên ta chỉ cần chứng minh dom(Vi, Z)⊂dom(Vi

j, Z), với mọi i, j. Thật vậy,

nếu α ∈ dom(Vi, Z) thì ∃v ∈ Vi sao cho v(Z) = α. Lấy u ∈ Vi

j suy ra u ∈ Vi hay

u(X) =v(X). Vì X →→Y nên tồn tại t ∈Vi sao cho t(Y) =u(Y) (nên t∈Vi j) và

t(Z) =v(Z) = α. Vậy α∈dom(Vi j, Z).

(⇐) Giả sửdom(Vi, Z) = dom(Vi

j, Z), với mọi i, j. Lấy hai đối tượng bất kỳ u, v ∈ U mà u(X) = v(X), gọi i và j là các chỉ số sao cho u, v ∈ Vi và u ∈ Vji. Vì

v ∈Vi nên α=v(Z)∈dom(Vi, Z) = dom(Vi

j, Z). Nghĩa là tồn tại đối tượng t∈Vi j sao cho t(Z) =α. Vì t, u∈ Vji nên t(X) =u(X) =v(X) và t(Y) =u(Y). Hơn nữa

t(Z) =v(Z). Vậy X →→Y.

Ví dụ 3.1. Cho hệ thống quản lý các mơn học của sinh viên với tập thuộc tính

A = {a1, a2, a3, a4} trong đó a1, a2, a3, a4 lần lượt lưu môn học, mã sinh viên, tên sinh viên, lớp.

U a1 a2 a3 a4 u1 T01 101 G K1 u2 T01 102 H K1 u3 T01 103 I K1 u4 T01 104 J K1 u5 T02 101 G K1 u6 T02 102 H K1 u7 T02 103 I K1 u8 T02 104 J K1 u9 T05 201 E K2 u10 T05 202 F K2 u11 T05 203 K K2 u12 T06 201 E K2 u13 T06 202 F K2 u14 T06 203 K K2

Bảng 3.1: Bảng dữ liệu sinh viên.

Từ hệ thống trên, đặt X ={a2}; Y ={a3}ta có:

U/X = {V1 = {u1, u5}; V2 = {u2, u6}; V3 = {u3, u7}; V4 = {u4, u8}; V5 = {u9, u12};

V6 ={u10, u13}; V7 ={u11, u14}}.

Mặt khác, Vi/Y ={Vi}, với mọi 1≤i≤7. Do đó X →Y

Bây giờ ta xét X ={a4} và Y = {a1}. Rõ ràng X →→ Y. Chúng ta sẽ kiểm tra điều này theo kết quả của Định lý 3.1.

Đặt Z =A\(X∪Y) = {a2, a3}, ta có

V1/Y ={V1 1 ={u1, u2, u3, u4}; V1 2 ={u5, u6, u7, u8}} V2/Y ={V2 1 ={u9, u10, u11}; V2 2 ={u12, u13, u14}} dom(V1, Z) ={(101, G),(102, H),(103, I),(104, J)} dom(V1 1, Z) ={(101, G),(102, H),(103, I),(104, J)}= dom(V1, Z) dom(V1 2, Z) ={(101, G),(102, H),(103, I),(104, J)}= dom(V1, Z) dom(V2, Z) ={(201, E),(201, F),(201, G)}

dom(V12, Z) ={(201, E),(201, F),(201, G)}= dom(V2, Z) dom(V22, Z) ={(201, E),(201, F),(201, G)}= dom(V2, Z)

Vậy X →→Y.

Ma trận phân biệt được M

Phụ thuộc hàm xấp xỉ