Các phụ thuộc hàm mờ (ffd) phản ánh ngữ nghĩa của các tập con thuộc tính trong thế giới thực.Các ffd được sử dụng để thiết kế các cơ sở dữ liệu mờ, làm giảm dư thừa dữ liệu và các dị thường trong cập nhật.
Trong mô hình truyền thống, một phụ thuộc hàm X→Y nói rằng các giá trị bằng nhau của Y tương ứng với các giá trị bằng nhau của X. Tuy nhiên,
định nghĩa về phụ thuộc hàm không được áp dụng trực tiếp tới cơ sở dữ liệu mờ dựa trên quan hệ tương tự vì các khái niệm “bằng” không được áp dụng trực tiếp trong mô hình cơ sở dữ liệu mờ. Trong mô hình quan hệ mờ, mức độ
“X xác định Y” có thể không nhất thiết là 1 như trong quan hệ rõ. Một cách tự nhiên, một giá trị trong khoảng [0,1] có thể được chấp nhận. Trong trường hợp này, định nghĩa của ffd trở thành “các giá trị tương tự của Y tương ứng với các giá trị tương tự của X”
Các phụ thuộc hàm mờ là các ràng buộc được xác định giữa các thuộc tính của lược đồ quan hệ mờ. Các phụ thuộc hàm mờ được định nghĩa dựa trên khái niệm về sự phù hợp (conformance) giữa các bộ dữ liệu (sau đây gọi tắt là bộ) [25][30][31].
2.2.1.1. Sự phù hợp của các bộ
Quan hệ tương tự của các giá trị thuộc tính định nghĩa thế nào là sự phù hợp giữa 2 bộ trên thuộc tính đó. Một định nghĩa chuẩn về sự phù hợp của các bộđược đưa ra như sau:
Định nghĩa 2.2. [4] Sự phù hợp của thuộc tính Ak được định nghĩa trên miền trị Dk cho bất kỳ 2 bộ t1 và t2 trong quan hệ r, ký hiệu bởi C( Ak [t1 , t2] ).
C(Ak[t1,t2]) = min {minx∈d1{maxy∈d2{s(x,y)}},minx ∈d2{maxy∈d1{s(x,y)}}}
Trong đó d1 là tập giá trị của thuộc tính Ak đối với bộ t1, d2 là tập giá trị của thuộc tính Akđối với bộ t2, s(x, y) là một quan hệ tương tự của các giá trị x và y, và s là một ánh xạ của mọi cặp phần tử trong miền Dk vào đoạn [0, 1].
Ví dụ 2.1. Cho quan hệ mờ
NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)
Các quan hệ tương tự của miền thuộc tính được cho trong các bảng sau:
TÊN Nam Hùng Quang Hà
Nam 1 0 0 0
Hùng 0 1 0 0
Quang 0 0 1 0
Hà 0 0 0 1
Bảng 2.1: Quan hệ tương tựđối với thuộc tính TÊN
NĂNG LỰC Rất kém Kém Trung bình Tốt Xuất sắc Rất kém 1 0.75 0.3 0.3 0.3 Kém 0.75 1 0.3 0.3 0.3 Trung bình 0.3 0.3 1 0.6 0.6 Tốt 0.3 0.3 0.3 1 0.65 Xuất sắc 0.3 0.3 0.3 0.65 1
Bảng 2.2: Quan hệ tương tựđối với thuộc tính NĂNG LỰC
THU NHẬP Rất thấp Thấp Trung bình Cao Rất cao
Rất thấp 1 0.8 0.2 0.2 0.2
Thấp 0.8 1 0.2 0.2 0.2
Trung bình 0.2 0.2 1 0.6 0.6
THU NHẬP Rất thấp Thấp Trung bình Cao Rất cao
Rất cao 0.2 0.2 0.6 0.8 1
Bảng 2.3: Quan hệ tương tựđối với thuộc tính THU NHẬP
TÊN NĂNG LỰC THU NHẬP
t1 {Nam} {Kém, rất kém} {rất thấp} t2 {Quang} {trung bình} {thấp, trung bình} t3 {Hùng} {trung bình, tốt} {thấp} t4 {Hà} {trung bình} {rất thấp}
Bảng 2.4: Các bộ dữ liệu đối với quan hệ NGƯỜI
Sự phù hợp đối với thuộc tính THU NHẬP cho các bộ t2 và t3 được tính như sau:
C(Thu nhập[t2, t3]) = min{min {max {s(thấp, thấp )}, max{s(trung bình, thấp)}}, min {max{s( thấp, thấp), s( thấp, trung bình)}}}
= min {min {max{1}, max{0.2}}, min {max{1,0.2}}} = min {min {1, 0.2}, min {1}}
= min {0.2, 1} = 0.2
Trong mô hình dữ liệu quan hệ truyền thống, cả d1 và d2 là tập một phần tử, và quan hệ tương tự giữa bất cứ bộ nào chỉ có thể là 0 hoặc 1. Ở đây, quan hệ đồng nhất được thay thế bởi mô tả s(x, y) mà quan hệ đồng nhất là một trường hợp đặc biệt. Để mô tả sự gần nhau giữa 2 bộ trên một tập các thuộc tính, định nghĩa về sự phù hợp được mở rộng trong tài liệu tham khảo [30] như sau:
Định nghĩa 2.3. Sự phù hợp của tập thuộc tính X cho bất kỳ 2 bộ t1 và t2 trong quan hệ r, ký hiệu bởi C( X [t1, t2] )
C ( X [t1, t2] ) = minAk∈X {C( Ak [t1, t2] )}.
2.2.1.2.Sự phù hợp với độđo khả năng
Mô hình quan hệ dựa trên quan hệ tương tự cho phép giá trị tại mỗi thuộc tính là đa trị (một tập giá trị có thể) và có một quan hệ tương tự giữa các giá trị thuộc tính được định nghĩa trên miền trị thuộc tính. Tuy nhiên trên thực tế dữ liệu thường có một độ chắc chắn thể hiện khả năng có thể xảy ra của dữ liệu. Trong mô hình dựa trên lý thuyết khả năng, mỗi giá trị của thuộc tính thường được gắn với một độđo khả năng thể hiện khả năng có thể xảy ra của dữ liệu đó. Trong mô hình dựa trên quan hệ tương tự, mặc dù cho phép một tập các giá trị có thể tại mỗi thuộc tính nhưng nó không thể hiện được độ chắc chắn xảy ra của mỗi giá trị đó. Để khắc phục, người ta thường kết hợp độ đo khả năng của dữ liệu trong lý thuyết khả năng vào mô hình dựa trên quan hệ tương tự. Lúc này, mỗi giá trị trong mô hình dựa trên quan hệ tương tự sẽđược gắn thêm một độđo khả năng thể hiện khả năng có thể xảy ra của giá trị đó. Độđo khả năng này là một số thực nằm trong đoạn [0, 1].
Giả sử F là một tập giá trị trên một thuộc tính. F có khuôn dạng như sau: F= {FPi | labelFi} với i=1,2,....N
Trong đó, LabelFi là giá trị (nhãn ngôn ngữ). FPi là các độ đo khả năng xảy ra của giá trị, FPi nằm trong đoạn [0, 1]. N là số lượng các cặp {FPi | labelFi}, N≥1.
Ví dụ 2.2. Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP) được định nghĩa bởi ví dụ 2.1.
Theo định nghĩa mới, thuộc tính NĂNG LỰC sẽ có giá trị {0.8|kém,
0.3|rất kém}, nghĩa là giá trị kém có khả năng xảy ra cao hơn giá trị rất kém vì
Trên cơ sở định nghĩa mới về các bộ dữ liệu, luận văn đề xuất một định nghĩa mới về sự phù hợp giữa các bộ dữ liệu như sau:
Định nghĩa 2.4. Sự phù hợp của thuộc tính Ak được định nghĩa trên miền trị
Dk cho bất kỳ 2 bộ t1 và t2 trong quan hệ r, ký hiệu bởi C( Ak [t1, t2] )
C(Ak[t1,t2]) = maxx∈d1{maxy∈d2{min {s(x,y),degx,degy}}},
trong đó d1 là tập giá trị của thuộc tính Akđối với bộ t1, d2 là tập giá trị
của thuộc tính Ak đối với bộ t2, s(x, y) là một quan hệ tương tự giữa giá trị x và y, và s là một ánh xạ của mọi cặp phần tử trong miền Dk vào đoạn [0, 1],
degx là độđo khả năng xảy ra của giá trị x, degy là độđo khả năng xảy ra của giá trị y.
Độ phù hợp mới giữa hai giá trị được xây dựng dựa trên các tiêu chí về quan hệ tương tự và độđo khả năng xảy ra của dữ liệu.
Ví dụ 2.3. Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)
được định nghĩa bởi ví dụ 2.1. Lúc này các bộ dữ liệu mới đối với quan hệ
NGƯỜI được định nghĩa như sau:
TÊN NĂNG LỰC THU NHẬP
d1 {Nam} {0.8/kém, 0.3/rất kém} {0.9/rất thấp} d2 {Quang} {0.9/trung bình} {0.8/thấp,0.3/trung bình} d3 {Hùng} {0.3/trung bình, 0.9/ tốt} {0.9/thấp}
d4 {Hà} {0.8/trung bình} {0.8/rất thấp}
Bảng 2.5: Các bộ dữ liệu mới đối với quan hệ NGƯỜI
Quan hệ tương tự giữa các nhãn được định nghĩa nhưở ví dụ 2.1.
Theo định nghĩa mới, sự phù hợp đối với thuộc tính THU NHẬP của các bộ d2 và d3 được tính như sau:
C(Thu nhập[d2, d3]) = max {max {min {s(thấp, thấp ), 0.8, 0.9}},
max{min{s(trung bình, thấp),0.3, 0.9}}}
= max {max {min{1,0.8, 0.9}}, max{min{0.2, 0.3, 0.9}}} = max {max {0.8}, max {0.2}}
= max {0.8, 0.2} = 0.8
2.2.1.3.Định nghĩa phụ thuộc hàm mờ
Định nghĩa 2.5. [4] Cho quan hệ mờ r là một thể hiện bất kỳ trên lược đồ
quan hệ R(A1,… ,An), U là tập vũ trụ các thuộc tính A1,…, An và X, Y là tập con của U. Quan hệ mờ r gọi là thoả mãn phụ thuộc hàm mờ, X →ϑ Y, nếu mọi cặp bộ t1 và t2 thuộc r, C(Y [ t1, t2]) ≥ min(ϑ, C(X [ t1, t2 ])), trong đó ϑ
là số thực nằm trong đoạn [0, 1], mô tảđộ mạnh ngôn ngữ.
Các ffd cần được kiểm tra bất cứ khi nào các bộ được đưa vào cơ sở dữ liệu quan hệ mờ hoặc chúng được sửa đổi, sao cho các ràng buộc toàn vẹn được áp đặt bởi các ffd không bị vi phạm.
Ví dụ 2.4. Cho quan hệ mờ NGƯỜI = (TÊN, NĂNG LỰC, THU NHẬP)
được định nghĩa trong ví dụ 2.1
Ràng buộc toàn vẹn cho quan hệ “NGƯỜI” là “Năng lực làm việc của nhân viên nhiều hay ít xác định thu nhập của họ”, ffd của quan hệ này là
NĂNG LỰC →0.6 THU NHẬP, ở đây 0.6 là độ mạnh của ngôn ngữ. “nhiều hay ít”. Ffd này cần được kiểm tra bất cứ khi nào các bộ dữ liệu mới được thêm vào, để xem bộ mới này có vi phạm ffd không. Dưới đây, một cặp bộ được chèn vào để khảo sát sự phù hợp các bộ.
({Nam},{kém, rất kém}, {rất thấp})
Bộ này không xung đột với ffd
Bước 2: Chèn vào bộ thứ hai
({Quang},{trung bình}, {thấp,trung bình})
Các giá trị phù hợp của các thuộc tính vế phải và trái của ffd là
C(Năng lực[t1, t2]) =0.3, C(Thu nhập[t1, t2]) =0.2
Ởđây, ffd: NĂNG LỰC →0.6 THU NHẬP bị vi phạm bởi vì
C(Thu nhập[t1, t2]) =0.2 < min(0.6,C(Năng lực[t1, t2]))
Do đó bộ này không được chèn vào.
Bước 3: Chèn bộ thứ ba
({Hùng},{trung bình, tốt}, {thấp})
Chỉ có một bộ phù hợp với sự kiểm tra, vì các bộ của bước 2 không được chèn vào.
C(Năng lực[t1, t2]) =0.3, C(Thu nhập[t1, t2]) =0.8
Ffd: NĂNG LỰC →0.6 THU NHẬP không bị vi phạm vì
C(Thu nhập[t1, t2]) ≥ min(0.6, C(Năng lực[t1, t2])), do vậy bộ này được chèn vào. Bây giờ chúng ta có 2 bộ phù hợp với quan hệ
t1: ({Nam},{kém, rất kém}, {rất thấp}) t3: ({Hùng},{trung bình, tốt}, {thấp})
Bước 4: Chèn vào bộ thứ 4
({Hà},{trung bình}, {rất thấp})
C(Năng lực[t1, t3]) =0.3, C(Thu nhập[t1, t3]) =1 C(Năng lực[t2, t3]) =0.6, C(Thu nhập[t2, t3]) =0.8
Sau đó ffd: NĂNG LỰC →0.6 THU NHẬP không bị vi phạm bởi vì cả
C(Thu nhập[t1, t3]) ≥ min(0.6,C(Năng lực[t1, t3])), C(Thu nhập[t2, t3]) ≥ min(0.6,C(Năng lực[t2, t3]))
Do đó bộ này được chèn vào.
Do vậy chúng ta có 3 bộ thoả mãn ràng buộc của quan hệ
t1: ({Nam},{kém, rất kém}, {rất thấp}) t3: ({Hùng},{trung bình, tốt}, {thấp}) t4: ({Hà},{trung bình}, {rất thấp})
2.2.1.4.Phụ thuộc hàm mờ một phần
Ffd một phần được định nghĩa dựa trên định nghĩa về ffd, chúng được sử dụng đểđịnh nghĩa dạng chuẩn mờ thứ 2.
Định nghĩa 2.6. [4] Y được gọi là phụ thuộc hàm mờ một phần vào X với độ
mạnh ϑ, X→ϑY một phần, nếu và chỉ nếu X→ϑ Y và tồn tại X’ ⊂ X, X’ ≠
Ø, và X’→α Y với α ≥ ϑ.
Một phụ thuộc hàm mờ X→ϑY là phụ thuộc hàm mờ một phần, nếu loại bỏ một thuộc tính A khỏi X thì sự phụ thuộc vẫn giữ được. Có nghĩa, đối với một thuộc tính A∈ X, X − {A} vẫn xác định hàm mờ Y với độ α ≥ ϑ.
Ví dụ 2.5. Cho lược đồ quan hệ R = (A, B, C) và các ffd là AB→0.8 C và A→0.9 C. Sau khi loại bỏ thuộc tính B từ ffd đầu tiên, phụ thuộc vẫn giữ, do đó AB→0.8 C là ffd một phần.
2.2.1.5.Các quy tắc suy diễn phụ thuộc hàm mờ
Các quy tắc suy diễn của phụ thuộc hàm mờ [31]. 1. Quy tắc gộp (Inclusive rule)
Nếu X→θ1 Y và θ1≥θ2, thì X→θ2 Y 2. Quy tắc phản xạ (Reflexive Rule)
Nếu X ⊇Y, X→θ Y đúng với mọi θ ∈[0,1] 3. Quy tắc tăng trưởng (Augmentation) Nếu r thoả X→θ Y, nó cũng thỏa XZ→θ YZ 4. Quy tắc bắc cầu
Nếu r thoả X→θ1 Y và Y→θ2 Z, nó cũng thỏa X→min(θ1,θ2) Z. Một số quy tắc suy diễn khác được suy ra từ các quy tắc trên
5.Quy tắc hợp (Union Rule)
Nếu r thoả X→θ1 Y và X→θ2 Z, nó cũng thoả X→min(θ1,θ2) YZ. 6.Quy tắc giả bắc cầu (Pseudotransitivty rule)
Nếu r thoả X→θ1 Y và WY→θ2 Z, nó cũng thoả WX→min(θ1,θ2) Z. 7.Quy tắc phân rã (Decomposition Rule)
Nếu X→θ Y và Z ⊆ Y thì X→θ Z