5. Các phụ thuộc dữ liệu
5.1. Phụ thuộc hàm và tập các luật suy dẫn
Trong mô hình cổ điển của CSDLQH, ngữ nghĩa tự nhiên của một phụ thuộc hàm có thể được hiểu là có một thuộc tính hoặc một tập thuộc tính mà các giá trị của nó xác định duy nhất một bộ của quan hệ thoả phụ thuộc hàm này. Như vậy, về trực giác có thể thấy rằng phụ thuộc hàm liên quan trực tiếp đến dư thừa dữ liệu và vì vậy nó là một trong những vấn đề trung tâm được nghiên cứu trong lý thuyết thiết kế CSDL.
Cho R(U) là một lược đồ quan hệ có m thuộc tính U={A1, A2,…, Am} tương ứng với các miền D1, D2,…, Dm. Cho X là tập các thuộc tính (X⊆U), hai bộ t1=(d11, d12,…, d1m) và t2=(d21, d22,…, d2m), nói rằng t1, t2 thừa (hay tương đương) đối với nhau trên X và viết t1[X]≈t2[X] nếu ∀j: Dj⊆X ta có ∀x∈d1j ∃x’∈d2j: x∼x’, và ngược lại ∀x∈d2j ∃x’∈d2j: x∼x’.
Định nghĩa 2.12. Một phụ thuộc hàm mờ X≈→αY được gọi là được thoả trong quan hệ r (với ngưỡng α) khi với hai bộ bất kỳ t1, t2∈r: nếu có t1[X]≈t2[X] thì cũng có t1 [Y]≈t2[Y].
Khi xét quan hệ r với một ngưỡng α đã xác định, không sợ nhầm lẫn chúng ta viết X≈→Y thay vì viết X≈→αY. Có những trường hợp cần thiết chúng ta sẽ viết cụ thể XαX≈→YαY.
Trong phần tiếp theo sẽ giả sử rằng một lược đồ quan hệ mờ R(U) đã cho với tập các thuộc tính U, một tập các phụ thuộc hàm mờ chỉ chứa các thuộc tính trong tập U. Với một ngưỡng α xác định, các luật suy dẫn tương tự với các tiên đề suy dẫn Amstrong trong trường hợp cổ điển là:
FFD1: phản xạ Nếu Y⊆X thì có X≈→Y.
FFD2: tăng trưởng Nếu có X≈→Y thì có XZ≈→YZ.
FFD3: bắc cầu Nếu có X≈→Y và Y≈→Z thì có X≈→Z.
Bổ đề 2.7. Tập các tiên đề suy dẫn (FFD1-FFD3) là xác đáng . Nghĩa là, nếu X≈→Y được suy dẫn từ một tập các phụ thuộc hàm mờ F nhờ sử dụng các tiên đề này thì X≈→Y được thoả trong bất kỳ quan hệ mờ nào thoả tất cả các phụ thuộc hàm trong F.
Chứng minh:
(FFD1) Dễ dàng thấy tiên đề phản xạ đúng.
(FFD2) Giả sử t1, t2∈r sao cho t1[XZ]≈t2[XZ] (1) từ định nghĩa của “≈” chúng ta có t1[X]≈t2[X]. Vì có X≈→Y nên t1[Y]≈t2[Y] (2)
(1) cho thấy ∀j: Dj∈XZ thì ∀x∈d1j ∃x’∈d2j: x≈x’ và ngược lại. (2) cho thấy ∀j: Dj∈Y thì ∀x∈d1j ∃x’∈d2j: x≈x’, và ngược lại.
Do vậy chúng ta có ∀j: Dj∈YZ thì ∀x∈d1j ∃x’∈d2j: x≈x’, và ngược lại. Điều này cũng có nghĩa là chúng ta có XZ≈→YZ.
(FFD3) Nếu t1[X]≈t2[X] thì t1[Y]≈t2[Y] do X≈→Y và t1[Z]≈t2[Z] do Y≈→Z. Từ các tiên đề trên chúng ta có thể suy dẫn ra các tiên đề sau:
FFD5: Tách Nếu có X≈→YZ thì có X≈→Y và có X≈→Z.
FFD6 : Giả bắc cầu Nếu có X≈→Y và có YW≈→Z thì có XW≈→Z. Định lý 2.2. Tập các tiên đề suy diễn (FFD1-FFD3) là xác đáng và đầy đủ.
Chứng minh tính đủ của hệ tiên đề tương tự trường hợp cổ điển. 5.2. Phụ thuộc đa trị và tập các luật suy dẫn
Ở mô hình cổ điển, ngoài phụ thuộc hàm còn có phụ thuộc đa trị được quan tâm nhiều, do nó cũng thường xuất hiện trên thực tế. Về trực giác, ta nói rằng “X đa xác định Y” kí hiệu là X≈→→Y nếu với những giá trị đã biết cho các thuộc tính của X, tồn tại một tập gồm không hay nhiều giá trị cho các thuộc tính của Y, và tập giá trị Y này không có liên hệ gì với những giá trị của các thuộc tính trong U-X-Y.
Trong mô hình mờ đang xem xét, quan niệm về phụ thuộc đa trị cũng nhất quán với cách mở rộng đã sử dụng. Đó là: mở rộng quan hệ đồng nhất của mô hình cổ điển thành quan hệ đủ tương tự (theo ngưỡng) và hai bộ là tương đương (hay thừa) với nhau nếu chúng cùng chung tập các khả năng. Như vậy với X, Y là tập các thuộc tính (X, Y⊆U), r là một quan hệ mờ của lược đồ R(U), với một ngưỡng α xác định, có thể định nghĩa:
Xr(x)={x’| ∃t∈r, sao cho t[X]=x’, x ≈ x’}. Yr(x)= {y| ∃t∈r, sao cho t[X]∈Xr(x), t[Y]=y}.
Đặt Z=R-XY. Rõ ràng Yr(x) không phụ thuộc vào những giá trị ở thuộc tính Z. Nói rằng hai tập Yr(x) và Yr(xz) tương đương với nhau nếu với mọi giá trị y thuộc tập này, tồn tại một giá trị y’ thuộc tập kia sao cho y≈y’ và ngược lại. Dùng kí hiệu Yr(x)≅Yr(xz) để chỉ sự tương đương theo nghĩa đó của hai tập Yr(x) và Yr(xz).
Định nghĩa 2.13. Một phụ thuộc đa trị mờ (FMVD) trên lược đồ R(U) là một phát biểu m: X≈→→αY, với ngưỡng α và X, Y là các tập con của tập thuộc tính U.
Với Z=R-XY. Một quan hệ r trên lược đồ R(U) gọi là thoả FMVD m: X≈→→αY nếu với giá trị xz xuất hiện (của một bộ t bất kỳ trong r) chúng ta có Yr(x)≅Yr(xz). Trong đó x là giá trị của bộ t trên thuộc tính X và z là giá trị của bộ t trên thuộc tính Z.
Ví dụ 2.13:
Cho quan hệ r như sau:
r X Y Z t1 a, b, c g, h z1 t2 a’, c’ g’, i z2 t3 a, c’ g, i’ z1’ t4 a’, c g’, h’ z2’ Hình 2.33. Một quan hệ mờ.
Giả sử với ngưỡng α đã cho trên r có: a ∼ b ∼ a’; c ∼ c’;
g ∼ g’; h ∼ h’; i ∼ i’;
z1 ∼ z1’; z2 ∼ z2’. Khi đó nếu đặt x1={a, b, c} thì:
Xr(x1)={{a, b, c}, {a’, c’}, {a, c’}, {a’, c}}, Yr(x1)={{g, h}, {g’, i}, {g, i’}, {g’, h’}}, Yr(x1z1)= {{g, h}, {g, i’}}.
Dễ nhận thấy: {g’, i} ≅ {g, i’}, {g’, h’} ≅ {g, h},
do vậy Yr(x1) ≅ Yr(x1z1) và một cách tương tự cũng có Yr(x1) ≅ Yr(x1z2).
Như vậy, có thể nói rằng quan hệ r (với ngưỡng tương tự α đã xác định) thoả phụ thuộc đa trị mờ X≈→→αY.
Khi xét quan hệ r với một ngưỡng α đã xác định, không sợ nhầm lẫn có thể viết X≈→→Y thay vì viết X≈→→αY.
Bổ đề 2.8. Cho r là một quan hệ mờ trên lược đồ R(U), X, Y là tập các thuộc tính (X, Y⊆U), Z=U-X-Y. Ba mệnh đề sau tương đương.
i) Yr(x) ≅ Yr(xz),
ii) ∀y0 ∈ Yr(x) ∃y’ ∈ Yr(xz): y’ ≈ y0,
iii) ∀y0 ∈ (Yr(x) – Yr(xz)) ∃y’ ∈ Yr(xz): y’ ≈ y0.
Chứng minh:
Theo khái niệm quan hệ ≅ ta có:
Điều kiện cần và đủ xảy ra i) là xảy ra đồng thời hai mệnh đề sau ∀y0 ∈ Yr(x) ∃y’ ∈ Yr(xz): y’ ≈ y0 ii)
∀y0 ∈ Yr(xz) ∃y’ ∈ Yr(x): y’ ≈ y0 ii’)
Dễ nhận thấy ii’) bao giờ cũng đúng bởi chính y0 có thể đóng vai trò của y’. Do đó i) ⇔ ii).
Rõ ràng ii) ⇒ iii) vì nếu có y0 ∈ (Yr(x) – Yr(xz)) thì hiển nhiên y0 ∈ Yr(x). Ngược lại, iii) ⇒ ii), thật vậy, chỉ cần để ý rằng Yr(x)=(Yr(x)- Yr(xz))∪(Yr(x)∩Yr(xz)) và (Yr(x)∩Yr(xz))=Yr(xz), nên Yr(x)=(Yr(x)- Yr(xz))∪Yr(xz).
Tương tự trong mô hình cổ điển, tiếp theo sẽ xem xét các luật suy dẫn cho phụ thuộc hàm mờ và phụ thuộc đa trị mờ:
A1: Tính phản xạ của phụ thuộc hàm mờ (FFD) Nếu Y⊆X thì có X≈→Y.
A2: Tính tăng trưởng của FFD Nếu có X≈→Y thì có XZ≈→YZ. A3: Tính bắc cầu của FFD
Nếu có X≈→Y và có Y≈→Z thì có X≈→Z. A4: Tính bù của phụ thuộc đa trị mờ (FMVD)
A5: Tính tăng trưởng của FMVD Nếu có X≈→→Y thì có XZ≈→→Y. A6: Tính bắc cầu của FMVD
Nếu có X≈→→Y và có Y≈→→A thì có X≈→→ (Z-Y). Hai tiên đề cuối cùng có liên quan đến FFD và FMVD: A7: Nếu có X≈→Y thì có X≈→→Y.
A8: Nếu có X≈→→Y, Z⊆Y, W∩Y=∅, và W≈→Z thì có W≈→Z.
Bổ đề 2.9. Tập các tiên đề (A1-A8) là xác đáng. Nghĩa là, một phụ thuộc mờ có thể suy dẫn được từ tập G các phụ thuộc mờ, bằng các tiên đề (A1-A8) thì nó sẽ được thoả trong bất kỳ quan hệ r nào nếu r thoả mọi phụ thuộc có mặt trong tập G.
5.3. Tách không mất thông tin
Giống như trong mô hình cổ điển, khi xuất hiện các phụ thuộc dữ liệu trong một lược đồ quan hệ, cần thiết phải khảo sát xem có thể tách-kết nối một quan hệ ban đầu thành những quan hệ nào đó sao cho có thể dùng phép kết nối tự nhiên để khôi phục lại được quan hệ ban đầu hay không. Ở mô hình đang xem xét, tương ứng với quan niệm đã đưa ra về dư thừa dữ liệu, có thể coi một phép tách-kết nối là không mất thông tin nếu có thể dùng phép kết nối tự nhiên mờ để có được một quan hệ mờ r’ tương đương (theo một ngưỡng α) với quan hệ ban đầu r.
Định lý 2.3. Cho r là một quan hệ mờ với ngưỡng α trên lược đồ R(U). X, Y⊆U và X∩Y=∅. Quan hệ r thoả FMVD X≈→→Y khi và chỉ khi r≅r[XY]r[X(U-Y)].
Chứng minh:
a) Giả sử với ngưỡng α, quan hệ r thoả X≈→→Y, cần chứng tỏ rằng r≅r[XY]r[XZ]. Với Z=U–Y.
• Lấy t∈r[XY]r[XZ], khi đó ∃t1∈r[XY] và ∃t2∈r[XZ] sao cho xảy ra đồng thời:
t[]=MαX{t1[X], t2[X]}, (1’)
t[Y]=t1[Y], (2)
t[Z]=t2[Z] (3)
Theo Định lý 2.1 từ (1’) ta được t[X]≈t1[X]≈t2 [X] (1’’) Do có X≈→→Y, nên Y(t2[X])≅Y(t2[X], t2[Z]) (4)
Từ (1) được t1[Y]∈Y(t2[X]), kết hợp với (4) suy ra ∃t3∈Y(t2[X], t2[Z]) sao cho t3[Y]≈t1[Y], nói cách khác đồng thời có
t3[X]≈t2[X] (5)
t3[Y]≈t1[Y] (6)
t3[Z]≈t2[Z] (7)
Đối chiếu với (1’’), (2) và (3) được t≈t3.
• Lấy t∈r, xét t[XY] và t1[XZ]. Nếu không có bộ t0∈r[XY] sao cho t0=t[XY] thì chứng tỏ phép chiếu r[XY] đã trộn t[XY] với một hay một số bộ của r[XY] và theo Định lý 2.1 thì ∃t1∈r[XY] : t1[XY]≈t[XY]. Một cách tương tự có thể thấy ∃t2∈r[XZ]: t2[XZ]≈t[XZ]. Khi kết nối tự nhiên r[XY] và r[XZ], vì có t1[]≈t[X]≈t2[X] nên ∃t’∈r[XY]r[XZ] sao cho:
t’[X]=Mα {t1[X], t2[X]}≈t[X], t’[Y]=t1[Y]≈t[Y],
t’[Z]=t2[Z]≈t[Z] Vậy t’≈t.
b) Giả sử r≅r[XY]r[XZ], cần chứng tỏ rằng quan hệ r thoả X≈→→Y. Cần phải chỉ ra rằng Yr(x)≅Yr(xz). Từ Bổ đề 2.8, chỉ cần chứng minh ∀y0∈Yr(x) ∃y’∈Yr(xz) sao cho y0≈y’.
Thật vậy, giả sử x là giá trị của bộ t trên thuộc tính X, t=<x, y, z>∈r. Với y0∈Yr(x), gọi t0 là bộ mà y0 chính là giá trị của nó trên thuộc tính Y, t0=<x0, y0, z >∈r. Rõ ràng là ∃t =<x , y , z >∈r[XY] sao cho t [XY]=t [XY] hoặc t là kết quả
của việc trộn t0[XY] với một số bộ khác khi thực hiện phép chiếu r[XY]. Cả hai tình huống này đều cho thấy x1y1≈x0y0. Với t=<x, y, z>∈r, lập luận tương tự cũng có ∃t2=<x2, y2, z2>∈r[XZ] sao cho x2z2≈xz. Vì y0∈Yr(x) nên x0≈x. Lại có x1≈x0 và x2≈x. Nhờ tính bắc cầu của quan hệ ≈, rõ ràng là x1≈x2≈x≈x0. Do đó, khi thực hiện phép kết nối r[XY]r[XZ], t1 và t2 kết nối được với nhau và ∃t*=<x*,y*,z*>∈r[XY]r[XZ] với :
x*=Mα{x1, x2}≈x≈x0 (1)
y*=y1≈y0 (2)
z*=z2≈z (3)
Do giả thiết r≅r[XY]r[XZ] nên ∃t’=<x’, y’, z’>∈r sao cho t*≈t’. Đối chiếu với (1), (2), (3) được:
x’≈x (1’)
y’≈y0 (2’)
z’≈z (3’)
Vậy ∀y0∈Yr(x) ∃y’∈Yr(xz) sao cho y’≈y0. Từ định lý trên, có thể suy ra được hệ quả sau:
Hệ quả. Cho r là một quan hệ mờ với ngưỡng α trên lược đồ R(U). X, Y⊆U và X ∩Y=∅. Nếu quan hệ r thoả FFD X≈ →Y thì r≅r[XY]r[X(U-Y)].
6. Kết luận
Như vậy, trên đây đã trình bày mô hình mở rộng CSDLQH truyền thống dựa trên tính tương tự nhằm nắm bắt được các thông tin không chính xác và không chắc chắn. Các kết quả đạt được là tương đối đầy đủ và hoàn thiện, tuy nhiên trên thực tế vẫn chưa tìm được một mô hình nào để có thể áp dụng một cách có hiệu quả. Nhưng có thể thấy rằng khả năng cho phép thay đổi ngưỡng tương tự tuỳ theo mức độ và quan niệm mờ hoá tuỳ vào nhóm người dùng rất phù hợp và cần thiết trong
các hệ trợ giúp quyết định, điều này sẽ cho phép người sử dụng tuỳ biến theo mức độ trợ giúp mà họ cần.
Chương III. Chuẩn hóa mô hình CSDLQH dựa trên tính tương tự
Chương này gồm có hai phần: phần thứ nhất sẽ trình bày định nghĩa về các dạng chuẩn của lược đồ CSDLQH dựa trên tính tương tự, dựa trên các định nghĩa này, trong phần thứ hai sẽ trình bày các thuật toán để chuẩn hoá một lược đồ CSDLQH dựa trên tính tương tự.
1. Các dạng chuẩn của CSDLQH dựa trên tính tương tự
Trong các phần trước cũng đã đề cập đến khoá của các quan hệ trong mô hình CSDLQH dựa trên tính tương tự, nhưng vẫn chưa đưa ra một định nghĩa hình thức. Trong phần này để nghiên cứu về các dạng chuẩn trong CSDL mờ trước hết cần thiết phải đưa ra một định nghĩa về khoá cho mô hình CSDL này.
Định nghĩa 3.1. Khoá của quan hệ r với ngưỡng tương tự α=(α1, α2,…, αm) trên tập thuộc tính U={A1, A2,…, Am} là tập con K⊆U sao cho bất kỳ hai bộ không dư thừa với nhau t1, t2 ∈ r luôn thoả t1(K)≈/t2(K), bất kỳ tập con thực sự K’⊂K nào đó đều không có tính chất đó.
Trước khi trình bày định nghĩa các dạng chuẩn cho mô hình này cần thiết phải đưa ra các khái niệm về thuộc tính khoá, phụ thuộc hàm mờ đầy đủ và phụ thuộc hàm mờ không đầy đủ.
Định nghĩa 3.2. Cho một lược đồ quan hệ R(U) với ngưỡng tương tự α=(α1, α2,…, αm) trên tập thuộc tính U={A1, A2,…, Am}. Thuộc tính A ∈ U được gọi là thuộc tính khoá nếu A là thành phần thuộc một khoá nào đó của R, ngược lại A được gọi là thuộc tính không khoá.
Ví dụ 3.1:
Cho lược đồ quan hệ R trên tập thuộc tính U={A, B, C, D}, với ngưỡng tương tự α cho trước, tồn tại các phụ thuộc hàm mờ AB≈→C, B≈→D và BC≈→A. Rõ ràng AB và BC là khoá của lược đồ R. Khi đó A, B và C là thuộc tính khoá, còn D là thuộc tính không khoá.
Định nghĩa 3.3. Cho lược đồ quan hệ R(U) với ngưỡng tương tự α=(α1, α2,… αm) trên tập thuộc tính U={A1, A2,…, Am}, X và Y là hai tập thuộc tính khác nhau X⊆U và Y⊆U. Ta nói Y phụ thuộc hàm mờ đầy đủ vào X nếu Y là phụ thuộc hàm mờ vào X nhưng không phụ thuộc hàm mờ vào bất kỳ một tập hợp con thực sự nào của X.
Định nghĩa 3.4. Lược đồ quan hệ mờ R(U) với ngưỡng tương tự α cho trước được gọi là ở dạng chuẩn mờ thứ nhất nếu mỗi thuộc tính không khoá của R đều phụ thuộc hàm mờ đầy đủ vào khoá chính.
Ví dụ 3.2:
Cho lược đồ quan hệ R trên tập thuộc tính U={S, I, D, M} và các phụ thuộc hàm mờ SI≈→D, SD≈→M tương ứng với ngưỡng α đã cho trước. Ở đây chỉ có một khoá chính là SI và R là ở dạng chuẩn mờ thứ nhất.
Có thể nhận thấy, dạng chuẩn mờ thứ nhất trong mô hình đang xem xét tương ứng với dạng chuẩn thứ hai trong mô hình CSDLQH truyền thống. Dạng chuẩn mờ thứ hai sắp được trình bày tới đây sẽ tương ứng với dạng chuẩn thứ ba trong mô hình CSDLQH truyền thống, do đó ở đây sẽ đưa thêm khái niệm về phụ thuộc bắc cầu tương ứng cho mô hình mới.
Định nghĩa 3.5. Cho một lược đồ quan hệ mờ R(U) với ngưỡng tương tự α cho trước, X là một tập con các thuộc tính X⊆U, A là một thuộc tính A∈U. A được gọi là phụ thuộc bắc cầu vào X trên R nếu tồn tại một tập con Y của R sao cho X≈→Y, Y≈→A nhưng Y ≈/→X (không xác định hàm) với A∉XY.
Định nghĩa 3.6. Lược đồ quan hệ mờ R(U) với ngưỡng tương tự α cho trước được gọi là ở dạng chuẩn mờ thứ hai nếu nó là ở dạng chuẩn mờ thứ nhất và mỗi thuộc tính không khoá của R không phụ thuộc hàm mờ bắc cầu vào khoá chính.
Ví dụ 3.3:
Cho lược đồ quan hệ R trên tập thuộc tính U={C, S, Z} với một ngưỡng α đã xác định tồn tại các phụ thuộc hàm mờ CS≈→Z, Z≈→C. Trong lược đồ này mọi thuộc tính đều là thuộc tính khoá. Do vậy R là ở dạng chuẩn mờ thứ hai.
Ví dụ 3.4:
Cho lược đồ quan hệ R trên tập thuộc tính U={S, A, I, P} với một ngưỡng α đã xác định tồn tại các phụ thuộc hàm mờ IS≈→P, S≈→A. R không ở dạng chuẩn mờ thứ hai và cũng không ở dạng chuẩn mờ thứ nhất. Ở đây chỉ có một khoá chính là SI, nhưng A lại không phụ thuộc đầy đủ vào khoá chính và IS≈→S và S≈→A tức là A phụ thuộc bắc cầu vào khoá chính.
2. Chuẩn hoá lược đồ CSDLQH dựa trên tính tương tự
Với các dạng chuẩn mờ đã nêu trong phần trên, phần này sẽ mở rộng các thuật toán được áp dụng cho quá trình chuẩn hoá CSDLQH truyền thống để chuẩn hoá một lược đồ CSDLQH dựa trên tính tương tự.
Để có thể trình bày các thuật toán chuẩn hoá trong ngữ cảnh của mô hình mới, trước hết cần phải định nghĩa lại một số khái niệm về bao đóng của tập phụ thuộc hàm mờ, bao đóng của tập các thuộc tính đối với tập các phụ thuộc hàm mờ, hai tập phụ thuộc hàm mờ tương đương, tập phụ thuộc hàm mờ tối thiểu. Các khái niệm này sẽ lần lượt được phát biểu lại dưới đây.
Định nghĩa 3.7. Cho lược đồ quan hệ R trên tập thuộc tính U={A1, A2,…, Am} với ngưỡng tương tự α=(α1, α2,…, αm) cho trước, F là một tập phụ thuộc hàm mờ trên U. Bao đóng của tập phụ thuộc hàm mờ F được định nghĩa là tập tất cả các phụ thuộc hàm mờ được suy ra từ F bằng cách áp dụng các luật suy dẫn.