Cụng trỡnh [51] của Raoul Medina và Lhouari Nourine là một cụng trỡnh hay và độc đỏo. Cỏc tỏc giả đó chỉ ra một thứ tự phõn cấp giữa cỏc FD,
CFD và AR: FD là hợp của cỏc CFD trong khi CFD là hợp của cỏc AR. Cỏc tỏc giả cũng đó thiết lập được mối liờn kết giữa cỏc AFD và cỏc AR xấp xỉ: AFD là hợp của cỏc AR và cỏc AR xấp xỉ với độ tin cậy tối đại. Ngoài ra, cỏc tỏc giả cũn thiết lập được mối liờn kết giữa vấn đề tỡm cỏc bảng mẫu tương đương của một CFD với bài toỏn tỡm khúa của lược đồ quan hệ. Thứ tự phõn cấp giữa cỏc FD, CFD và AR mang lại nhiều lợi ớch: cỏc thuật toỏn hiện cú để phỏt hiện AR cú thể được thớch nghi để phỏt hiện nhiều loại phụ thuộc dữ liệu khỏc và hơn nữa cũn sinh một tập được rỳt gọn cỏc phụ thuộc.
Cho R là một lược đồ quan hệ xỏc định trờn tập thuộc tớnh = Attr(R). Miền xỏc định của mỗi thuộc tớnh A được ký hiệu là Dom(A). Với một
thể hiện r của R, một bộ t r và X , ta sẽ ký hiệu t[X] là hỡnh chiếu của t lờn X.
Trong [51] cú đưa ra cỏc định nghĩa dưới đõy. Chỳng tụi nờu lại những định nghĩa đú và đưa ra một số nhận xột cựng cỏc kết quả mới cú liờn quan.
a) Một CFD xỏc định trờn R là một cặp (X Y, Tp) trong đú X, Y và (1). X Y là một FD tiờu chuẩn, được gọi là FD nhỳng trong .
(2). Tp là một bảng với cỏc thuộc tớnh trong , được gọi là bảng mẫu của
, trong đú với mỗi A và với mỗi bộ mẫu tp Tp, tp[A] hoặc là:
- một hằng a thuộc Dom(A),
- một biến khụng tờn lấy giỏ trị từ Dom(A),
- một biến rỗng để chỉ rằng thuộc tớnh A X Y).
b) Với một hằng a bất kỳ của một thuộc tớnh, ta cú a . Từ đú, ta định
nghĩa toỏn tử giao mẫu của hai bộ:
t1 t2 = tp sao cho A Attr(R),
1 1 2 2 1 2 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] , p p p t A t A t A t A t A t A t A t A t A nếu nếu trường hợp còn lại
t(X) = tp sao cho A Attr(R), [ ] [ ] [ ] p p t A t A t A nếu A X nếu A X
d) Định nghĩa toỏn tử gộp chung (a subsumption operator) trờn cỏc bộ mẫu t1 và t2 như sau:
t1 t2 nếu và chỉ nếu A Attr(R), t1[A] t2[A]
Núi cỏch khỏc, t1 t2 nếu và chỉ nếu t1 t2 = t1. Ta định nghĩa một bộ đặc
biệt, ký hiệu Top là bộ cú giỏ trị trờn tất cả cỏc thuộc tớnh. Khi đú tp Top với mọi bộ mẫu tp.
e) Một thể hiện r của R thỏa CFD = (X Y, Tp), ký hiệu r , nếu với bộ
mẫu tp trong bảng mẫu Tp của và với mỗi cặp bộ t1, t2 của r, nếu t1[X] =
t2[X] tp[X] thỡ t1[Y] = t2[Y] tp[Y]. Núi cỏch khỏc, một CFD là một FD
được thỏa bởi một quan hệ con (mảnh ngang - a fragment relation) của r. f) Một bộ mẫu tp xỏc định một quan hệ con (mảnh ngang) của r
p t r = {t r | tp t} Ta sẽ ký hiệu p T
r là quan hệ con (mảnh ngang) chứa tất cả cỏc bộ của r thỏa ớt nhất một bộ mẫu trong Tp. Lưu ý là cho trước một CFD = (X Y, Tp), ta cú
p T r X Y cũn p T rr X Y Vỡ lý do đú, ta sẽ ký hiệu p X Y T r r và rX Y = p T rr .
Để dễ đọc, với một CFD được cho trước = (X A, Tp), đụi khi ta ký hiệu
r là quan hệ được xỏc định bởi
p T r , cú nghĩa r = p T r = rXA.
Như vậy một bảng mẫu cú thể được xem như một truy vấn chọn trờn một quan hệ, trả về một quan hệ con (mảnh ngang) của quan hệ.
Hai bảng mẫu được gọi là tương đương nếu và chỉ nếu chỳng trả về cựng một quan hệ con (mảnh ngang).
Bõy giờ chỳng ta hóy luận bàn và đưa ra những nhận xột về hệ thống cỏc định nghĩa trờn.
Nhận xột 2.1. Khỏc với hầu hết cỏc tỏc giả nghiờn cứu về CFD (chẳng hạn [12], [31]), cỏc tỏc giả của [51] đó mở rộng cỏc bộ mẫu tp, cho xỏc định trờn toàn bộ Attr(R), trong đú tp[A] = với A X Y. được hiểu là một biến rỗng, thỏa món a , với a là một hằng bất kỳ. Điều này tạo thuận lợi
nhất định cho việc đối sỏnh một bộ mẫu tp Tp với một bộ t r, trỏnh việc
phải dựng cỏc hỡnh chiếu tp[X], t[X], tp[Y], t[Y] cho việc đối sỏnh. Tuy nhiờn, lại phải trả giỏ trong việc phải dựng đến cỏc thu hẹp mẫu tới cỏc thuộc tớnh X (tương ứng Y) của cỏc bộ t r hay tp Tp.
Nhận xột 2.2. Việc đối sỏnh một bộ t r với một bộ tp Tp (tp đó được mở
rộng, xỏc định trờn toàn bộ Attr(R)) để xem cỏc thu hẹp mẫu của chỳng vào X
Y cú sỏnh hợp hay khụng, thực chất là xem cú thể làm chỳng trở nờn giống nhau hay khụng bằng cỏch gỏn cho cỏc biến khụng tờn những giỏ trị phự
hợp. Muốn vậy, thay cho đối sỏnh t với tp, ta đối sỏnh t(X) với tp(X), t(Y) với tp(Y), như đó thấy trong định nghĩa c).
Về thực chất t(X) và tp(X) (tương tự cho t(Y) và tp(Y)) là sỏnh hợp nếu
A X: t(X)[A] = tp(X)[A] = a Dom(A) hoặc t(X)[A] = a và tp(X)[A] = .
Nhận xột 2.3. Trong định nghĩa f) cú phỏt biểu: Một bộ mẫu tp xỏc định một
quan hệ con (mảnh ngang)
p
t
r = {t r | tp t} (*)
Biểu thức (*) rừ ràng là khụng chỉnh vỡ hầu hết cỏc trường hợp đều cho kết
quả là tập rỗng. Thực vậy, trường hợp tp cú chứa ớt nhất một thành phần là
thỡ rừ ràng khụng tồn tại t r để cho tp t. Trường hợp ngược lại, với giả
Do đú cũng khụng thể tồn tại t r để cho tp t. Như vậy
p
t
r được xỏc định
bởi (*) cho kết quả khỏc rỗng khi X Y = Attr(R) và tp trựng với một bộ nào
đú của r. Như vậy biểu thức (*) phải được sửa lại như sau:
p
t
r = {t r | t(X Y) tp(X Y)}
Cỏc tỏc giả của [51] đó khai thỏc thành cụng cỏc tớnh chất của cỏc quan
hệ X-đầy đủ, được giới thiệu trong [14] để trờn cơ sở đú thiết lập được mối
liờn kết giữa cỏc FD, CFD và AR. Trong [51], ở mục 2.2 cú cỏc định nghĩa sau:
Định nghĩa tớnh chất X-đầy đủ. Quan hệ r được gọi là X-đầy đủ nếu và chỉ nếu
t1, t2 r ta cú t1[X] = t2[X].
Định nghĩa bộ mẫu X-đầy đủ. Ta gọi bộ mẫu X-đầy đủ của một quan hệ X-
đầy đủ r, ký hiệu (X, r), là bộ mẫu trờn đú cỏc bộ của r giống nhau. Một cỏch hỡnh thức hơn:
(X, r) = {t r}
Định nghĩa phõn tỏch ngang X-đầy đủ. Ký hiệu RX(r) là tập tất cả cỏc quan
hệ con (mảnh ngang) X-đầy đủ của r. Một cỏch hỡnh thức hơn: RX(r) = {r' r | r' là X-đầy đủ}
Định nghĩa tập cỏc bộ mẫu X-đầy đủ. Ký hiệu (X, r) là tập tất cả cỏc bộ
mẫu X-đầy đủ của một phõn tỏch ngang X-đầy đủ. Một cỏch hỡnh thức hơn:
(X, r) = {(X, r') | r' RX(r)}
Định nghĩa toỏn tử bao đúng. Ta gọi bao đúng của X trong r, ký hiệu (X,
r), là tập tất cả cỏc thuộc tớnh được xỏc định trong mọi bộ mẫu X-đầy đủ của quan hệ. Một cỏch hỡnh thức hơn:
(X, r) = {A Attr(R) | tp (X, r), tp[A] }
Sử dụng toỏn tử bao đúng, trong [51] đó chứng minh tớnh chất sau: Giả sử A X. Ta cú r X A (tức X A là một FD của r) nếu và chỉ nếu A (X, r).
Nhận xột 2.4. Như vậy, cho r' là một quan hệ X-đầy đủ và r' r. Theo [51],
cú thể tớnh (X, r') theo cụng thức
(X, r') = {t r'}
Trở lại với định nghĩa của toỏn tử trong [51] trờn hai bộ t1, t2 r.
t1 t2 = t sao cho A Attr(R),
1 1 2 2 1 2 [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] [ ] , t A t A t A t A t A t A t A t A t A nếu nếu trường hợp còn lại
Ở đõy chỉ dựa vào quan hệ thứ tự a với a là một giỏ trị hằng bất kỳ,
sẽ khiến cho việc tớnh t1 t2 gặp những khú khăn khụng cần thiết. Vớ dụ,
trường hợp Dom(A) là một tập cỏc số nguyờn hoặc thực chẳng hạn với thứ tự
quen thuộc. Về thực chất, ta chỉ cần so sỏnh cỏc thành phần tương ứng của
hai bộ t1 và t2 để biết chỳng bằng nhau hay khỏc nhau. Do đú, thay cho phộp
toỏn , ta sẽ dựng phộp toỏn đơn giản hơn.
Với t1, t2 r,
t1 t2 = t sao cho A Attr(R), 1 1 2
1 2 [ ] [ ] [ ] [ ] [ ] [ ] [ ] t A t A A t A t A A t A nếu t nếu t
Để minh họa cho những điều vừa trỡnh bày ở trờn, ta xột quan hệ r sau đõy:
r A B C D E G t1 a1 b1 c1 d1 e1 g1 t2 a2 b1 c1 d1 e2 g2 t3 a2 b4 c4 d1 e6 g2 t4 a2 b2 c2 d1 e3 g2 t5 a3 b2 c2 d2 e4 g3 t6 a3 b3 c3 d2 e5 g3 t7 a4 b3 c3 d3 e6 g4 t8 a1 b1 c1 d1 e3 g1 Bảng 2.2. Quan hệ r
Quan hệ r là một thể hiện của lược đồ quan hệ R = {A, B, C, D, E, G}. Dễ thấy r thỏa tập phụ thuộc hàm
F = {B C, C B, A DG}
Cỏc quan hệ r1, r2, r3, r4 sau đõy là những quan hệ con của r và là A-đầy đủ.
1 r A B C D E G t1 a1 b1 c1 d1 e1 g1 t8 a1 b1 c1 d1 e3 g1 Bảng 2.3. Quan hệ r1 (A, r1) = {t 1 r } = (a1, b1, c1, d1, , g1) 2 r A B C D E G t2 a2 b1 c1 d1 e2 g2 t3 a2 b4 c4 d1 e6 g2 t4 a2 b2 c2 d1 e3 g2 Bảng 2.4. Quan hệ r2 (A, r2) = {t 2 r } = (a2, , , d1, , g2) 3 r A B C D E G t5 a3 b2 c2 d2 e4 g3 t6 a3 b3 c3 d2 e5 g3 Bảng 2.5. Quan hệ r3 (A, r3) = {t 3 r } = (a3, , , d2, , g3) 4 r A B C D E G t7 a4 b3 c3 d3 e6 g4 Bảng 2.6. Quan hệ r4 (A, r4) = {t 4 r } = (a4, b3, c3, d3, e6, g4)
Như vậy, sắp xếp dưới dạng bảng ta cú tập cỏc bộ mẫu A-đầy đủ của r
(A, r) = {(a1, b1, c1, d1, , g1),
(a2, , , d1, , g2), (a3, , , d2, , g3), (a4, b3, c3, d3, e6, g4)}
Nhỡn vào bảng biểu diễn tập (A, r), ta chọn ra tập thuộc tớnh ứng với cỏc cột khụng chứa ký hiệu biến rỗng . Tập thuộc tớnh đú chớnh là bao đúng
của A trong r.
(A, r) = {A, D, G}
Lưu ý là, trong thực hành, để tớnh bộ mẫu (X, r) của một quan hệ X- đầy đủ cho trước, tức tớnh {t r} ta cú thể dựng phương phỏp sau:
A Attr(R), (X, r) [A] =
,
nếu cột A của r chỉ chứa một giá trị duy nhất a trường hợp còn lại a Một cỏch hỡnh thức hơn:
A Attr(R), (X, r)[A] = ( ) ( )
, A a r a nếu trường hợp còn lại
Dựa vào tớnh chất sau, đó được chứng minh trong [51], khẳng định rằng:
"Giả sử A X. Ta cú r X A (tức X A là một FD của r) nếu và chỉ nếu A (X, r)", ta dễ dàng chứng minh mệnh đề sau:
Mệnh đề. Cho r là một thể hiện của lược đồ R xỏc đinh trờn tập thuộc tớnh Attr(R), X Attr(R), và r thỏa một tập phụ thuộc hàm F.
Khi đú:
(X, r) = {A Attr(R) | tp (X, r), tp[A] } = XF = {A Attr(R) | (X A) F+},
trong đú (X, r) = {(X, r') | r' RX(r)} cũn (X A) F+ cú nghĩa FD X A được suy từ F bằng cỏch ỏp dụng một số hữu hạn lần cỏc quy tắc của hệ
tiờn đề Armstrong.
Chứng minh. i) Cho A (X, r). Theo tớnh chất trờn, ta cú X A, suy ra A
F
X (theo định nghĩa của XF). Từ đú
(X, r) XF (a)
ii) Cho A XF. Theo định nghĩa của XF, ta cú X A là một FD đỳng trờn r. Theo tớnh chất trờn, A (X, r). Suy ra
Kết hợp (a) và (b) ta cú (X, r) = XF.
Dựa vào cỏc bộ mẫu của cỏc quan hệ X-đầy đủ, trong [51] đó chứng
minh bổ đề và định lý sau đõy, là cơ sở cho việc thiết lập một thứ tự phõn cấp giữa cỏc FD, CFD và AR.
Bổ đề 2 trong [51]. Giả sử r là một quan hệ, X Attr(r), sao cho r là X-đầy đủ. Khi đú cỏc khẳng định sau là tương đương:
1. (X A, (X, r)) là một CFD của r. 2. X A là một FD của r.
3. (X A, (X, r)) là một AR của r.
Như vậy, bổ đề trờn khẳng định khi r là một quan hệ X-đầy đủ, cỏc FD, CFD, AR cú dạng X A là tương đương.
Định lý 1 trong [51]. Giả sử r là một quan hệ, X Attr(R), A Attr(R) \ X và
Tp = {tp (X, r) | tp[A] }. Khi đú cỏc khẳng định sau là tương đương: 1. (X A, Tp) là một CFD của r. 2. X A là một FD của p T r . 3. Với bất kỳ r' RX( p T r ), (X A, (X, r')) là một AR của r.
Định lý trờn rừ ràng là hết sức quan trọng và dựa vào đú cỏc tỏc giả của [51] đó thiết lập được một thứ tự phõn cấp giữa cỏc AR, CFD và FD như sau:
- Một AR (X A, tp) là một phụ thuộc đỳng trờn ớt nhất một quan hệ con
(mảnh ngang) X-đầy đủ của r. Núi cỏch khỏc, tồn tại ớt nhất một quan hệ con (mảnh ngang) X-đầy đủ sao cho cỏc bộ của nú giống nhau trờn cỏc thuộc tớnh X và A.
- Một CFD (X A, Tp) là một phụ thuộc đỳng trờn một số quan hệ con
(mảnh ngang) X-đầy đủ của r. Như vậy nú được xem như hợp của cỏc AR
đỳng trờn cỏc quan hệ con (mảnh ngang) đú. Núi cỏch khỏc, trờn mỗi quan hệ
con (mảnh ngang), cỏc bộ giống nhau trờn X cũng giống nhau trờn A.
- Một FD là một phụ thuộc đỳng trờn tất cả cỏc quan hệ con (mảnh ngang) X- đầy đủ của r. Như vậy nú cú thể được xem như hợp của cỏc AR đỳng trờn tất
(mảnh ngang) X-đầy đủ bất kỳ, cỏc bộ đều giống nhau trờn A.
Trong những năm 2008, 2009, Bravo et al. [15] và Chen et al. [19, 20] đó đề xuất một số hướng mở rộng cho cỏc CFD như sau [31] nhằm tăng tớnh biểu đạt của cỏc CFD.
+ Một CFD mở rộng, ký hiệu eCFD (Extended CFD) cho phộp cú phộp tuyển và phộp phủ định trong cỏc bộ mẫu của CFD.
Chẳng hạn, eCFD:
R([City] [AC], (NYC || {212, 718, 646})
phỏt biểu rằng với cỏc bộ t sao cho t[City] = NYC thỡ cỏc mó vựng của chỳng
phải lấy giỏ trị thuộc tập {212, 718, 646}. Một vớ dụ khỏc,
R([City] [AC], ({NYC LI, } || )
núi rằng mọi thành phố thuộc bang New York, trừ NYC và Long Island, đều
cú một mó vựng duy nhất.
+ CFD với cỏc ràng buộc về lực lượng và cỏc luật đồng nghĩa được nhỳng, ký hiệu CFDc.
Vớ dụ về một CFDc:
R([Country, Zip] [Street], (UK, || ), c)
trong đú c là một số nguyờn. CFDc này núi rằng với mọi bộ t sao cho t[Country, Zip] (UK, )
thỡ mọi bộ mà đồng nghĩa với t về Country và Zip chỉ cú thể cú nhiều nhất c giỏ trị phõn biệt cho Street.
+ Phụ thuộc điều kiện với cỏc vị từ được thiết lập sẵn (with built-in predicates). Cả CFD và CIND (phụ thuộc bao hàm điều kiện - Conditional Inclusion Dependencies) đều được mở rộng cho phộp cỏc bộ mẫu chứa , <, , > và .
Vớ dụ: R([Book] [Price], ( || > 0))
Tuy là cả ba hướng mở rộng đều đó làm tăng sức mạnh biểu đạt của CFD, cỏc vấn đề về tớnh nhất quỏn (thỏa được) và suy diễn của chỳng như đó được chứng minh trong [19, 20] vẫn cú độ phức tạp như trong trường hợp cỏc CFD chưa được mở rộng. Trong khuụn khổ những hướng phỏt triển của luận ỏn, chỳng tụi đang nghiờn cứu tỡm mối liờn kết giữa eCFD với một loại AR đặc biệt nào đú.