Theo Raju và Majumdar [36], một quan hệ mờ trên một lƣợc đồ quan hệ có thể đƣợc định nghĩa nhƣ sau:
Định nghĩa 1. Một quan hệ mờ r trên lƣợc đồ quan hệ R(A1,…,An) là một tập con mờ của tích Descartes các miền trị, dom(A1) … dom(An).
Theo mức độ phức tạp của dom(Ai), các quan hệ mờ kinh điển có thể đƣợc chia thành quan hệ mờ loại-1 và quan hệ mờ loại-2. Trong quan hệ mờ loại-1, mỗi miền trị thuộc tính, dom(Ai) chỉ có thể là một tập rõ hay một tập con mờ, nên ta có thể nắm bắt đƣợc tính không chính xác của các giá trị thuộc tính. Mặt khác, các quan hệ mờ loại-2 cho phép mỗi miền trị thuộc tính có thể là một tập rõ, một tập con mờ, hay một tập các tập con mờ. Do đó, ta có thể sử dụng các quan hệ mờ loại-2 để biểu thị sự không chính xác trong sự kết hợp giữa các giá trị thuộc tính. Hơn nữa, với mỗi n-bộ ti, một thuộc tính r(ti)
đƣợc thêm vào nhằm biểu diễn khả năng của ti thuộc r, trong đó r là tập hợp tất cả các bộ có thể có với r(ti) > 0 trong quan hệ mờ. Mô hình quan hệ mờ kinh điển có thể đƣợc định nghĩa nhƣ sau:
Định nghĩa 2. Gọi R(A1,…,An,r) là một lƣợc đồ quan hệ mờ. Một quan hệ mờ bậc n r trên R là một tập con mờ hay một tập các tập con mờ của dom(A1) … dom(An), đƣợc đặc trƣng bởi hàm thuộc sau:
r(ti) : dom(A1) … dom(An) [0,1]. Quan hệ mờ loại-1 r có thể đƣợc mô tả bởi
i? r t , t i in in i r t , t i i i i i i (d ,...,d ) ) d ,..., d ( r hay t ) t ( r 1 1
trong đó với mỗi dij = (aij)/aij và (di1,… ,din) = min((ai1), …, (ain)), aij dom(Aj) và j = 1,…,n. Xét một bộ ti trong quan hệ mờ loại-2; mỗi thành phần
dij của ti cho phép tập các mục chỉ số là tập mờ, tức là
ij ij ijkj ijkj
ij (a )/a ,..., (a )/a d 1 1
trong đó aijl dom(Aj), l = 1,…,kj và (aijl) là độ thuộc của aijl. Giá trị thuộc tính dij trong quan hệ mờ loại-2 có thể là một tập các hạng từ vô hƣớng (scalar terms), tập các dữ liệu miền (set of range data), các hạng từ vô hƣớng rời rạc (discrete scalars), hay các số rời rạc (discrete numbers). Do đó, giá trị thuộc
r(ti) phải thoả mãn đẳng thức sau:
)) d ( ),..., d ( ( min ) t ( i in d i r ij 1
trong đó (dij) = max((aij1),…,(aijkj)) với mọi aijl dij và l = 1,…,kj.
Nhƣ trong các quan hệ mờ loại-1, r(ti) có thể đƣợc xem nhƣ hoặc là một độ đo khả năng của sự kết hợp giữa các giá trị thuộc tính hoặc là một giá trị độ chân lý mờ (fuzzy truth value) của một vị từ mờ liên kết với quan hệ mờ
3.1.2 Các phép Chọn - Chiếu - Kết nối mờ kinh điển
Zadeh [49] đã mở rộng khái niệm các phép toán chọn, chiếu, và kết nối tự nhiên của đại số quan hệ kinh điển sang các quan hệ mờ. Gọi quan hệ mờ r
là một thể hiện của lƣợc đồ quan hệ mờ R(A1, … , An, r), và Ri(Ai1,…, Ain, r) là một tập con của R. Kí hiệu Ri(r) là phép chiếu của r trên R.
Định nghĩa 3. Gọi phép chiếu của r trên Ri là một quan hệ mờ bậc k
trêndom(Ai1) … dom(Aik). Hàm thuộc của riđƣợc định nghĩa nhƣ sau
} i ,..., i { j vµ )) d ,..., d ( ( max ) d ,..., d ( r n k ) A ( dom d ik i r j j i 1 1 1
Giả sử r1,…,rn là CSDL mờ đối với các lƣợc đồ quan hệ mờ Ri(Ai1,…,
Ain, r),trong đó i =1,…,n có hàm thuộc ri và R = n
i=1Ri. Khi đó kết nối mờ của các quan hệ mờ r1,…,rk, r' = i=1,…,kri là một quan hệ mờ trên dom(A1) … dom(An). Hàm thuộc của r' đƣợc định nghĩa
)) d ,..., d ( ( min ) d ,..., d ( r i in i n ' r 1 i 1
trong đó r'(d1,...,dn)là mở rộng hình trụ (cylindrical extension) của
in i
r(d ,...,d
i 1
).
3.2 Cấu trúc logic của mô hình CSDLQH mờ
Các mô hình CSDLQH mờ kinh điển gặp khó khăn khi cần biểu diễn các thông tin mờ dạng tuyển. Ƣu điểm của cấu trúc logic của các CSDLQH mờ [39,40] là thể hiện một cách rõ ràng ngữ nghĩa của thông tin mờ. Trong phần này chúng ta [38,44] sẽ bắt đầu với việc xem xét các mô hình CSDL logic của Reiter [27], Liu và Sunderraman [29] và Villa cùng các tác giả khác [39], mở rộng chúng sử bằng việc dụng lý thuyết tập mờ để xử lý thông tin
tuyển mờ, và phát triển một phƣơng pháp mới nhằm đánh giá chất lƣợng của từng bộ trong câu trả lời cho các truy vấn SPJ mờ.
3.2.1 Lý thuyết quan hệ mờ mở rộng
Nhƣ đã nói ở phần trên, không chính xác và không chắc chắn là hai khía cạnh bổ sung cho nhau của thông tin không hoàn hảo. Thông tin tuyển có thể mô hình cho thông tin không chính xác, trong khi tập mờ hay lý thuyết khả năng có thể mô hình cho thông tin không chắc chắn. Dựa trên Giả thiết về thế giới đóng mở rộng ECWA (Expanded Closed World Assumption) [50], thông tin tuyển mờ đƣợc sử dụng để mô hình tƣờng minh hai loại thông tin không hoàn hảo đó, và ta cần định nghĩa một mô hình CSDLQH mờ mở rộng để biểu diễn thông tin tuyển mờ.
Trong ngôn ngữ quan hệ mờ (ALPHA, WFFS), một hạng từ (term) là một biến hoặc là một hằng của ALPHA. Nếu P là một vị từ của ALPHA và
c1,…,cn là các hạng từ thì P(c1, …, cn, r) là một công thức nguyên tố. Để cho tiện, ta gọi x = x1,…,xn là một dãy các biến phân biệt và (x,r)P(x,r) viết tắt cho (x1, …, xn, r) P(x1, …, xn, r), trong đó xi = xi hay (xi ,(xi)), và (xi) là độ thuộc của xi. Trong trƣờng hợp tập rõ, giá trị thuộc (xi) bằng một, và có thể bỏ qua trong vị từ. Một tập con hữu hạn R của WFFS là một lý thuyết quan hệ mờ nếu và chỉ nếu R thoả mãn các điều kiện sau:
Các tiên đề bao đóng của miền (Domain closure axioms): với mỗi kiểu đơn giản A, R chứa đúng một công thức dạng (x)A(x) = E(x,c1) .. E(x,cn), trong đó c1, .., cn là các hằng hay các giá trị ngôn ngữ trong ALPHA và E là một vị từ đẳng thức (equality predicate).
Với mỗi vị từ P n-ngôi của ANPHA khác với vị từ đẳng thức E và kiểu đơn, R chứa một tập các câu cơ sở dƣơng và tiên đề làm đầy đủ sau
(x,r)P(x,r) E((x,r),(c(1)r(c(1)))) .. E((x,r),(c(k)r(c(k)))) trong đó c(i) = ((c(i1),(c(i1)))), … , ((c(in),(c(in)))), i=1,…,k và k0. Nếu k = 0 thì công thức tƣơng ứng sẽ là (x,r) P(x,r).
R chứa các tiên đề về tên duy nhất dạng E(c1,c2) với mỗi cặp hằng phân biệt (c1,c2) của ALPHA.
Không còn gì khác trong R.
3.2.2 CSDLQH mờ mở rộng
Theo Lipski [26], các câu trả lời cho truy vấn Q trên một CSDL không đầy dủ có thể đƣợc chia thành hai tập: ||Q||* và ||Q||*. Các câu trả lời của một quan hệ mờ mở rộng r cho truy vấn Q có thể ánh xạ thành hai tập các câu trả lời:
||Q||* là tập các câu trả lời chắc chắn (certainly) thoả mãn câu truy vấn trên nền thông tin sẵn có trong quan hệ mờ mở rộng. Mỗi câu trả lời trong ||Q||* đƣợc gọi là một "câu trả lời chắc chắn" và đƣợc lƣu trong rchắc chắn (rsure ).
||Q||* là tập các câu trả lời có khả năng thoả mãn câu truy vấn trên nền thông tin sẵn có trong quan hệ mờ mở rộng. Mỗi câu trả lời trong ||Q||* đƣợc gọi là một "câu trả lời có khả năng (maybe answers)" và đƣợc lƣu trong
Tập các câu trả lời xác định ||Q|| liên hệ với hai tập các câu trả lời bởi ||Q||* ||Q|| ||Q||*. Trong chƣơng này chúng ta sẽ quan tâm tới cả các câu trả lời chắc chắn và có thể. Quan hệ mờ mở rộng đƣợc định nghĩa nhƣ sau.
Định nghĩa 4. Gọi R(A1,…,An, r) là một lƣợc đồ quan hệ mờ mở rộng, trong đó Ai là một thuộc tính và dom(Ai) là miền trị tƣơng ứng. Khi đó, một quan hệ mờ mở rộng r trên R bao gồm hai thành phần rsurevà rmaybe.
rsure = {(t,r(t)) | (t,r(t)) = {(t1,r(t1)), … , (tk,r(tk))} length(t) 1 (ti,r(ti)) dom(A1) … dom(An) r(ti) > 0
r(ti) = min((ti[A1]),…,(ti[An])) i = 1,…,k} và
rmaybe = {(t,r(t)) | (t,r(t)) dom(A1) … dom(An) length(t) = 1
r(t) = min((t[A1]),…,(t[An])) r(t) > 0}
trong đó mỗi(ti,r(ti)) là một bộ con của (t,r(t)) và length(t) là độ dài của bộ (t,r(t)).
Bộ (t,r(t)) là bằng với (t1,r(t1)) … (tk,r(tk)) về mặt biểu diễn logic. Ở đây, với mỗi bộ (t,r(t)), (t,r(t)) rsure, nếu length(t) = 1 thì (t,r(t)) bao gồm chỉ một bộ con là bộ chắc chắn xác định; nếu length(t) > 1 thì (t,r(t)) sẽ chứa nhiều hơn một bộ, gọi là các bộ chắc chắn bất định. Theo đó, với mỗi bộ có khả năng, (t,r(t)), (t,r(t)) rmaybe, chúng ta giả sử rằng độ dài của một bộ khả dĩ là luôn bằng một, và ngữ nghĩa của thông tin tuyển ở đây là or-không loại trừ. Ngữ nghĩa của thông tin tuyển mờ trong quan hệ mờ mở rộng đƣợc định nghĩa nhƣ sau:
Định nghĩa 5. Gọi (t,r(t)) là một bộ chắc chắn và (t,r(t)) là một bộ có khả năng trong quan hệ mờ mở rộng r của một CSDLQH mờ mở rộng, DB, trong đó (t,r(t)) = {(t1,r(t1)), … , (tk,r(tk))} và k 1. Ngữ nghĩa của thông tin tuyển mờ (t,r(t))là
(1) Nếu (t,r(t)) rsure, thì DB rsure((t,r(t))) và DB P
((t,r(t))). Tức là, tồn tại ít nhất một bộ con (ti,r(ti)) (t,r(t)) sao cho DB
r((ti,r(ti)))theo nghĩa logic tổng quát.
(2) Nếu (t,r(t)) rmaybe, thì DB rmaybe((t,r(t))) hoặc DB P
r((t,r(t))) theo nghĩa logic tổng quát. Ở đây, kí hiệu "dẫn xuất" và P
là "dẫn xuất có khả năng".
Thí dụ 1. Gọi R(Ten, Congviec, Tuoi, Luong, r) là một lƣợc đồ quan hệ mờ mở rộng của CSDLQH mờ mở rộng NHAN_VIEN, và quan hệ mờ mở rộng r trên R là
rsure = {{(Dƣơng, kĩ sƣ, 25, 35000, 1), (Dƣơng, quản đốc, 35, 45000, 1)}, {(Phƣơng, bán hàng, 24, (cao, 0.9), 0.9), (Phƣơng,bán hàng,25,cao,1)},
{(Mai, quản đốc, 26, 35000, 1)},
{(Nhung, bán hàng, 25, 28000, 1), (Nhung, quản đốc, 28, 40000, 1)}}
rmaybe = {{(Mai, quản đốc, 26, 35000, 1)}}
Để cho tiện, quan hệ mờ mở rộng r có thể đƣợc biểu diễn trong Bảng II.
NHAN_VIEN(Ten, Congviec, Tuoi, Luong, r)
rsure t1: (Dƣơng, kĩ sƣ, 25, 35000, 1) (Dƣơng, quản đốc, 35, 45000, 1)
t2: (Phƣơng, bán hàng, 24, (cao, 0.9), 0.9) (Phƣơng, bán hàng, 25, cao, 1) t3: (Mai, quản đốc, 26, 35000, 1)
t4: (Nhung, bán hàng, 25, 28000, 1) (Nhung, quản đốc, 28, 40000, 1)
rmaybe m1: (Mai, quản đốc, 26, 35000, 1)
3.2.3 Quan hÖ gièng nhau mê
Ý tƣởng nhằm xử lý thông tin không chắc chắn trong mô hình CSDLQH mờ mở rộng là cho phép mỗi giá trị thuộc tính có thể là một tập không rỗng các giá trị lấy từ miền giá trị thuộc tính tƣơng ứng. Sự xấp xỉ bằng nhau (approximate equality) của các giá trị thuộc tính trong mô hình CSDLQH mờ mở rộng xác định các lớp tƣơng đƣơng không thể phân biệt đƣợc với nhau theo các giá trị ngƣỡng định trƣớc. Để đảm bảo ràng buộc toàn vẹn, quan hệ giống nhau mờ EQUAL đƣợc định nghĩa nhƣ sau:
Định nghĩa 6. Một quan hệ mờ EQUAL (EQ) trên miền trị thuộc tính,
dom(Aj), đƣợc định nghĩa là một tập con mờ của tích Descartes dom(Aj) dom(Aj) và đƣợc đặc trƣng bởi hàm thuộc EQ: dom(Aj) dom(Aj) [0,1];
EQ thoả mãn các điều kiện sau:
EQ(x,x) = 1 (phản xạ)
EQ(x,y) = EQ(y,x) (đối xứng)
Theo lý thuyết khả năng của Zadeh, EQ(x,y) có thể đƣợc lý giải nhƣ là khả năng xem hai giá trị (x,(x)) và (y,(y)) là bằng nhau (equal), và EQUAL là quan hệ giống nhau trên dom(Aj). Do đó, một quan hệ mờ EQUAL trên dom(Aj) có thể đƣợc định nghĩa nhƣ sau:
y x ))) y ( ) x ( ( abs ( y x ) y , x ( EQ 1 0
trong đó EQ là một quan hệ giống nhau mờ trên khoảng đóng [0,1]. Ở đây, nếu j là một giá trị ngƣỡng định trƣớc đối với dom(Aj), thì
EQ(x,y) j có nghĩa -bằng hay -giống nhau. Hai bộ đƣợc coi nhƣ "xấp xỉ bằng" nếu chúng là -bằng. Do vậy, việc so sánh hai giá trị thuộc tính là giống nhƣ thực hiện phép toán chọn đối với một truy vấn, lúc này trở về ván đề xac định giá trị chân lý mờ giữa hai giá trị. Thủ tục đánh giá này có thể đƣợc mở rộng để so sánh độ tƣơng tự giữa các giá trị miền thuộc tính. Trong phần trình bày ở đây, ta chỉ quan tâm tới EQ, các hàm khác, greater-than hay
more-and-less, có thể đƣợc định nghĩa tƣơng tự.
3.2.4 Các ràng buộc toàn vẹn trên CSDLQH mờ mở rộng
Ràng buộc toàn vẹn ám chỉ tới một truy vấn đóng phải luôn đúng sau mỗi lần cập nhật CSDL. Các ràng buộc toàn vẹn là không thể thiếu trong việc xác định tính toàn vẹn của một CSDL. Đã có rất nhiều mở rộng, nhƣ phụ thuộc hàm mờ [26,51] và phụ thuộc đa trị mờ [52], cho các CSDLQH mờ. Một mô hình CSDLQH mờ mở rộng phải tính đến các ràng buộc toàn vẹn, đặc biệt là khi có liên quan tới các thông tin không hoàn hảo.
Định nghĩa 7. Gọi IC là ràng buộc toàn vẹn của lƣợc đồ quan hệ mờ mở rộng R. Khi đó, IC là tập các công thức đƣợc thiết lập đúng đắn của R và chứa một công thức đƣợc thiết lập đúng đắn có dạng:
(x1,…, xn, r)P(x1,…, xn, r) A1(x1, r) … An(xn, r) trong đó A1, …, An là các miền trị thuộc tính.
Nhƣ đã trình bày ở phần 3.2.1, ràng buộc miền xác định các giá trị có thể của một vị từ. Phụ thuộc hàm cấu thành lớp ràng buộc toàn vẹn quan trọng nhất. Theo Raju và Majumdar [14], phụ thuộc hàm mờ có thể đƣợc xem nhƣ một dạng cụ thể hoá của một mối quan hệ mờ bởi mệnh đề điều kiện, "IF X là bằng nhau THEN Y là bằng nhau". Sự cụ thể hoá của một quan hệ mờ liên quan tới các luật dịch đƣợc sử dụng cho các mệnh đề mờ điều kiện.
Mở rộng của đẳng thức xấp xỉ từ vị từ đẳng thức chỉ ra rằng phụ thuộc hàm mờ trên CSDLQH mờ mở rộng là nhƣ sau:
Định nghĩa 8. Xét một lƣợc đồ quan hệ mờ mở rộng R(A1, …, An, r). Hai tập các thuộc tính X = (Xi)iI {A1, …, An}, Y = (Yj)jJ {A1, …, An}, trong đó I và J là các tập chỉ số. Gọi r là một quan hệ mờ mở rộng thoả mãn
R, một phụ thuộc hàm mờ mở rộng đƣợc ký hiệu bởi e.f.f.d: 2D(X) r 2D(Y), trong đó 2D(X) và 2D(Y) là các tập giá trị các tập con mờ lần lƣợt xuất hiện trong
X vàY.
Vì các thông tin không hoàn hảo có thể xuất hiện trong CSDLQH mờ mở rộng nên chúng ta sẽ dùng quan hệ giống nhau mờ để mô hình sự xấp xỉ bằng của hai giá trị thuộc tính. Do đó, nghĩa của e.f.f.d là nhƣ sau:
Với hai bộ bất kỳ (t1, r(t1)) và (t2, r(t2)) trong r thoả e.f.f.d, khi đó (t1i)(t2j)((t1i, r(t1i)) (t1, r(t1)) (t2j, r(t2j)) (t2, r(t2)))
Định nghĩa 9. Một ràng buộc tham chiếu tuyển là một biểu thức dạng
(y1, …, yn, r) r(y1, …, yn, r) (z1)s1(x1,r) … (zm)sm(xm,r) trong đó s1, …, sm và r là các tên vị từ; y1, …, yn và z1, …, zm là các biến phân biệt; x1, …, xmlà các bộ của các biến và các ràng buộc.
3.3 Đánh giá chất lƣợng các câu trả lời
Hầu hết các nghiên cứu hiện nay đều tập trung vào lý thuyết tập mờ và lý thuyết khả năng của Zadeh nhằm xử lý vấn đề thông tin không hoàn hảo trong các CSDLQH mờ. Những lý thuyết này cung cấp một khung toán học cho việc xử lý thông tin không chắc chắn nhƣng vẫn chƣa thể xử lý đƣợc các thông tin không chính xác trong các CSDLQH mờ. Vì vậy chúng ta giới thiệu ở đây các bộ tuyển mờ. Gọi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) là một bộ tuyển mờ. Với mỗi một bộ con, (ti,r(ti)) (t, r(t)), (ti,r(ti)) có thể hoặc không thoả mãn điều kiện chọn của một truy vấn. Do đó, một bộ (t, r(t)) có thể phân thành hai thành phần của một truy vấn - phần thoả mãn và phần không thoả mãn. Khi (ti,r(ti)) thoả mãn truy vấn thì nó thuộc về phần thoả mãn; ngƣợc lại, nó thuộc về phần không thoả mãn.
Định nghĩa 10. Gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng r, và
(A) là một truy vấn. Khi đó,
Sat(t) = {(ti,r(ti)) | (ti)((ti,r(ti)) (t, r(t)) (ti,r(ti)) thoả mãn điều kiện chọn của(A))}
và
Unsat(t) = {(ti,r(ti)) | (ti)((ti,r(ti)) (t, r(t)) (ti,r(ti)) Sat(t))} trong đó Sat(t) và Unsat(t) lần lƣợt biểu diễn các phần thoả và phần không thoả mãn của (t, r(t)) đối với truy vấn (A).
Thí dụ 2. Theo Thí dụ 1, gọi YA(a) là hàm thuộc của "Young Age(YA)" (tuổi trẻ) biểu diễn bằng công thức dƣới đây; (Tuoi)={25} là một truy vấn và ngƣỡng trong trƣờng hợp này là 0.8. Khi đó:
27 0 1 99 27 6 27 1 1 a , a , )) / ) a (( ( ) a ( YA
Sat(t1) = {(Dƣơng, kĩ sƣ, 25, 35000, 1)}, Unsat(t1) = {(Dƣơng, quản đốc, 35, 45000, 1)};
Sat(t2) = {(Phƣơng, bán hàng, 24, (cao, 0.9), 0.9), (Phƣơng, bán hàng, 25, cao, 1)}, Unsat(t2) = ;
Sat(t3) = {(Mai, quản đốc, 26, 35000, 1)}, Unsat(t3) = ;
Sat(t4) = {(Nhung, bán hàng, 25, 28000, 1), (Nhung, quản đốc, 28, 40000, 1)}, Unsat(t4) = ;
Khi tất cả các bộ con của một bộ (t, r(t)) đều thuộc phần thoả mãn, có nghĩa Unsat(t) = , thì bộ (t, r(t)) là câu trả lời chắc chắn cho truy vấn. Khi Sat(t) và Unsat(t) , bộ (t, r(t)) có thể đƣợc chia thành tập các câu trả lời có khả năng cho truy vấn. Hơn nữa, khi Sat(t) = , bộ (t, r(t)) không là một câu trả lời cho truy vấn.
3.3.1 Đánh giá độ không chắc chắn