Theo Lipski [26], các câu trả lời cho truy vấn Q trên một CSDL không đầy dủ có thể đƣợc chia thành hai tập: ||Q||* và ||Q||*. Các câu trả lời của một quan hệ mờ mở rộng r cho truy vấn Q có thể ánh xạ thành hai tập các câu trả lời:
||Q||* là tập các câu trả lời chắc chắn (certainly) thoả mãn câu truy vấn trên nền thông tin sẵn có trong quan hệ mờ mở rộng. Mỗi câu trả lời trong ||Q||* đƣợc gọi là một "câu trả lời chắc chắn" và đƣợc lƣu trong rchắc chắn (rsure ).
||Q||* là tập các câu trả lời có khả năng thoả mãn câu truy vấn trên nền thông tin sẵn có trong quan hệ mờ mở rộng. Mỗi câu trả lời trong ||Q||* đƣợc gọi là một "câu trả lời có khả năng (maybe answers)" và đƣợc lƣu trong
Tập các câu trả lời xác định ||Q|| liên hệ với hai tập các câu trả lời bởi ||Q||* ||Q|| ||Q||*. Trong chƣơng này chúng ta sẽ quan tâm tới cả các câu trả lời chắc chắn và có thể. Quan hệ mờ mở rộng đƣợc định nghĩa nhƣ sau.
Định nghĩa 4. Gọi R(A1,…,An, r) là một lƣợc đồ quan hệ mờ mở rộng, trong đó Ai là một thuộc tính và dom(Ai) là miền trị tƣơng ứng. Khi đó, một quan hệ mờ mở rộng r trên R bao gồm hai thành phần rsurevà rmaybe.
rsure = {(t,r(t)) | (t,r(t)) = {(t1,r(t1)), … , (tk,r(tk))} length(t) 1 (ti,r(ti)) dom(A1) … dom(An) r(ti) > 0
r(ti) = min((ti[A1]),…,(ti[An])) i = 1,…,k} và
rmaybe = {(t,r(t)) | (t,r(t)) dom(A1) … dom(An) length(t) = 1
r(t) = min((t[A1]),…,(t[An])) r(t) > 0}
trong đó mỗi(ti,r(ti)) là một bộ con của (t,r(t)) và length(t) là độ dài của bộ (t,r(t)).
Bộ (t,r(t)) là bằng với (t1,r(t1)) … (tk,r(tk)) về mặt biểu diễn logic. Ở đây, với mỗi bộ (t,r(t)), (t,r(t)) rsure, nếu length(t) = 1 thì (t,r(t)) bao gồm chỉ một bộ con là bộ chắc chắn xác định; nếu length(t) > 1 thì (t,r(t)) sẽ chứa nhiều hơn một bộ, gọi là các bộ chắc chắn bất định. Theo đó, với mỗi bộ có khả năng, (t,r(t)), (t,r(t)) rmaybe, chúng ta giả sử rằng độ dài của một bộ khả dĩ là luôn bằng một, và ngữ nghĩa của thông tin tuyển ở đây là or-không loại trừ. Ngữ nghĩa của thông tin tuyển mờ trong quan hệ mờ mở rộng đƣợc định nghĩa nhƣ sau:
Định nghĩa 5. Gọi (t,r(t)) là một bộ chắc chắn và (t,r(t)) là một bộ có khả năng trong quan hệ mờ mở rộng r của một CSDLQH mờ mở rộng, DB, trong đó (t,r(t)) = {(t1,r(t1)), … , (tk,r(tk))} và k 1. Ngữ nghĩa của thông tin tuyển mờ (t,r(t))là
(1) Nếu (t,r(t)) rsure, thì DB rsure((t,r(t))) và DB P
((t,r(t))). Tức là, tồn tại ít nhất một bộ con (ti,r(ti)) (t,r(t)) sao cho DB
r((ti,r(ti)))theo nghĩa logic tổng quát.
(2) Nếu (t,r(t)) rmaybe, thì DB rmaybe((t,r(t))) hoặc DB P
r((t,r(t))) theo nghĩa logic tổng quát. Ở đây, kí hiệu "dẫn xuất" và P
là "dẫn xuất có khả năng".
Thí dụ 1. Gọi R(Ten, Congviec, Tuoi, Luong, r) là một lƣợc đồ quan hệ mờ mở rộng của CSDLQH mờ mở rộng NHAN_VIEN, và quan hệ mờ mở rộng r trên R là
rsure = {{(Dƣơng, kĩ sƣ, 25, 35000, 1), (Dƣơng, quản đốc, 35, 45000, 1)}, {(Phƣơng, bán hàng, 24, (cao, 0.9), 0.9), (Phƣơng,bán hàng,25,cao,1)},
{(Mai, quản đốc, 26, 35000, 1)},
{(Nhung, bán hàng, 25, 28000, 1), (Nhung, quản đốc, 28, 40000, 1)}}
rmaybe = {{(Mai, quản đốc, 26, 35000, 1)}}
Để cho tiện, quan hệ mờ mở rộng r có thể đƣợc biểu diễn trong Bảng II.
NHAN_VIEN(Ten, Congviec, Tuoi, Luong, r)
rsure t1: (Dƣơng, kĩ sƣ, 25, 35000, 1) (Dƣơng, quản đốc, 35, 45000, 1)
t2: (Phƣơng, bán hàng, 24, (cao, 0.9), 0.9) (Phƣơng, bán hàng, 25, cao, 1) t3: (Mai, quản đốc, 26, 35000, 1)
t4: (Nhung, bán hàng, 25, 28000, 1) (Nhung, quản đốc, 28, 40000, 1)
rmaybe m1: (Mai, quản đốc, 26, 35000, 1)
3.2.3 Quan hÖ gièng nhau mê
Ý tƣởng nhằm xử lý thông tin không chắc chắn trong mô hình CSDLQH mờ mở rộng là cho phép mỗi giá trị thuộc tính có thể là một tập không rỗng các giá trị lấy từ miền giá trị thuộc tính tƣơng ứng. Sự xấp xỉ bằng nhau (approximate equality) của các giá trị thuộc tính trong mô hình CSDLQH mờ mở rộng xác định các lớp tƣơng đƣơng không thể phân biệt đƣợc với nhau theo các giá trị ngƣỡng định trƣớc. Để đảm bảo ràng buộc toàn vẹn, quan hệ giống nhau mờ EQUAL đƣợc định nghĩa nhƣ sau:
Định nghĩa 6. Một quan hệ mờ EQUAL (EQ) trên miền trị thuộc tính,
dom(Aj), đƣợc định nghĩa là một tập con mờ của tích Descartes dom(Aj) dom(Aj) và đƣợc đặc trƣng bởi hàm thuộc EQ: dom(Aj) dom(Aj) [0,1];
EQ thoả mãn các điều kiện sau:
EQ(x,x) = 1 (phản xạ)
EQ(x,y) = EQ(y,x) (đối xứng)
Theo lý thuyết khả năng của Zadeh, EQ(x,y) có thể đƣợc lý giải nhƣ là khả năng xem hai giá trị (x,(x)) và (y,(y)) là bằng nhau (equal), và EQUAL là quan hệ giống nhau trên dom(Aj). Do đó, một quan hệ mờ EQUAL trên dom(Aj) có thể đƣợc định nghĩa nhƣ sau:
y x ))) y ( ) x ( ( abs ( y x ) y , x ( EQ 1 0
trong đó EQ là một quan hệ giống nhau mờ trên khoảng đóng [0,1]. Ở đây, nếu j là một giá trị ngƣỡng định trƣớc đối với dom(Aj), thì
EQ(x,y) j có nghĩa -bằng hay -giống nhau. Hai bộ đƣợc coi nhƣ "xấp xỉ bằng" nếu chúng là -bằng. Do vậy, việc so sánh hai giá trị thuộc tính là giống nhƣ thực hiện phép toán chọn đối với một truy vấn, lúc này trở về ván đề xac định giá trị chân lý mờ giữa hai giá trị. Thủ tục đánh giá này có thể đƣợc mở rộng để so sánh độ tƣơng tự giữa các giá trị miền thuộc tính. Trong phần trình bày ở đây, ta chỉ quan tâm tới EQ, các hàm khác, greater-than hay
more-and-less, có thể đƣợc định nghĩa tƣơng tự.
3.2.4 Các ràng buộc toàn vẹn trên CSDLQH mờ mở rộng
Ràng buộc toàn vẹn ám chỉ tới một truy vấn đóng phải luôn đúng sau mỗi lần cập nhật CSDL. Các ràng buộc toàn vẹn là không thể thiếu trong việc xác định tính toàn vẹn của một CSDL. Đã có rất nhiều mở rộng, nhƣ phụ thuộc hàm mờ [26,51] và phụ thuộc đa trị mờ [52], cho các CSDLQH mờ. Một mô hình CSDLQH mờ mở rộng phải tính đến các ràng buộc toàn vẹn, đặc biệt là khi có liên quan tới các thông tin không hoàn hảo.
Định nghĩa 7. Gọi IC là ràng buộc toàn vẹn của lƣợc đồ quan hệ mờ mở rộng R. Khi đó, IC là tập các công thức đƣợc thiết lập đúng đắn của R và chứa một công thức đƣợc thiết lập đúng đắn có dạng:
(x1,…, xn, r)P(x1,…, xn, r) A1(x1, r) … An(xn, r) trong đó A1, …, An là các miền trị thuộc tính.
Nhƣ đã trình bày ở phần 3.2.1, ràng buộc miền xác định các giá trị có thể của một vị từ. Phụ thuộc hàm cấu thành lớp ràng buộc toàn vẹn quan trọng nhất. Theo Raju và Majumdar [14], phụ thuộc hàm mờ có thể đƣợc xem nhƣ một dạng cụ thể hoá của một mối quan hệ mờ bởi mệnh đề điều kiện, "IF X là bằng nhau THEN Y là bằng nhau". Sự cụ thể hoá của một quan hệ mờ liên quan tới các luật dịch đƣợc sử dụng cho các mệnh đề mờ điều kiện.
Mở rộng của đẳng thức xấp xỉ từ vị từ đẳng thức chỉ ra rằng phụ thuộc hàm mờ trên CSDLQH mờ mở rộng là nhƣ sau:
Định nghĩa 8. Xét một lƣợc đồ quan hệ mờ mở rộng R(A1, …, An, r). Hai tập các thuộc tính X = (Xi)iI {A1, …, An}, Y = (Yj)jJ {A1, …, An}, trong đó I và J là các tập chỉ số. Gọi r là một quan hệ mờ mở rộng thoả mãn
R, một phụ thuộc hàm mờ mở rộng đƣợc ký hiệu bởi e.f.f.d: 2D(X) r 2D(Y), trong đó 2D(X) và 2D(Y) là các tập giá trị các tập con mờ lần lƣợt xuất hiện trong
X vàY.
Vì các thông tin không hoàn hảo có thể xuất hiện trong CSDLQH mờ mở rộng nên chúng ta sẽ dùng quan hệ giống nhau mờ để mô hình sự xấp xỉ bằng của hai giá trị thuộc tính. Do đó, nghĩa của e.f.f.d là nhƣ sau:
Với hai bộ bất kỳ (t1, r(t1)) và (t2, r(t2)) trong r thoả e.f.f.d, khi đó (t1i)(t2j)((t1i, r(t1i)) (t1, r(t1)) (t2j, r(t2j)) (t2, r(t2)))
Định nghĩa 9. Một ràng buộc tham chiếu tuyển là một biểu thức dạng
(y1, …, yn, r) r(y1, …, yn, r) (z1)s1(x1,r) … (zm)sm(xm,r) trong đó s1, …, sm và r là các tên vị từ; y1, …, yn và z1, …, zm là các biến phân biệt; x1, …, xmlà các bộ của các biến và các ràng buộc.
3.3 Đánh giá chất lƣợng các câu trả lời
Hầu hết các nghiên cứu hiện nay đều tập trung vào lý thuyết tập mờ và lý thuyết khả năng của Zadeh nhằm xử lý vấn đề thông tin không hoàn hảo trong các CSDLQH mờ. Những lý thuyết này cung cấp một khung toán học cho việc xử lý thông tin không chắc chắn nhƣng vẫn chƣa thể xử lý đƣợc các thông tin không chính xác trong các CSDLQH mờ. Vì vậy chúng ta giới thiệu ở đây các bộ tuyển mờ. Gọi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) là một bộ tuyển mờ. Với mỗi một bộ con, (ti,r(ti)) (t, r(t)), (ti,r(ti)) có thể hoặc không thoả mãn điều kiện chọn của một truy vấn. Do đó, một bộ (t, r(t)) có thể phân thành hai thành phần của một truy vấn - phần thoả mãn và phần không thoả mãn. Khi (ti,r(ti)) thoả mãn truy vấn thì nó thuộc về phần thoả mãn; ngƣợc lại, nó thuộc về phần không thoả mãn.
Định nghĩa 10. Gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng r, và
(A) là một truy vấn. Khi đó,
Sat(t) = {(ti,r(ti)) | (ti)((ti,r(ti)) (t, r(t)) (ti,r(ti)) thoả mãn điều kiện chọn của(A))}
và
Unsat(t) = {(ti,r(ti)) | (ti)((ti,r(ti)) (t, r(t)) (ti,r(ti)) Sat(t))} trong đó Sat(t) và Unsat(t) lần lƣợt biểu diễn các phần thoả và phần không thoả mãn của (t, r(t)) đối với truy vấn (A).
Thí dụ 2. Theo Thí dụ 1, gọi YA(a) là hàm thuộc của "Young Age(YA)" (tuổi trẻ) biểu diễn bằng công thức dƣới đây; (Tuoi)={25} là một truy vấn và ngƣỡng trong trƣờng hợp này là 0.8. Khi đó:
27 0 1 99 27 6 27 1 1 a , a , )) / ) a (( ( ) a ( YA
Sat(t1) = {(Dƣơng, kĩ sƣ, 25, 35000, 1)}, Unsat(t1) = {(Dƣơng, quản đốc, 35, 45000, 1)};
Sat(t2) = {(Phƣơng, bán hàng, 24, (cao, 0.9), 0.9), (Phƣơng, bán hàng, 25, cao, 1)}, Unsat(t2) = ;
Sat(t3) = {(Mai, quản đốc, 26, 35000, 1)}, Unsat(t3) = ;
Sat(t4) = {(Nhung, bán hàng, 25, 28000, 1), (Nhung, quản đốc, 28, 40000, 1)}, Unsat(t4) = ;
Khi tất cả các bộ con của một bộ (t, r(t)) đều thuộc phần thoả mãn, có nghĩa Unsat(t) = , thì bộ (t, r(t)) là câu trả lời chắc chắn cho truy vấn. Khi Sat(t) và Unsat(t) , bộ (t, r(t)) có thể đƣợc chia thành tập các câu trả lời có khả năng cho truy vấn. Hơn nữa, khi Sat(t) = , bộ (t, r(t)) không là một câu trả lời cho truy vấn.
3.3.1 Đánh giá độ không chắc chắn
Theo Buckles và Petry [33], một giá trị thuộc có thể không phải là một giá trị tĩnh mà là một độ đo tính thích đáng để một bộ là câu trả lời cho một truy vấn. Do đó, cần có một phƣơng pháp nhằm xác định độ sánh hợp của các câu trả lời cho câu truy vấn. Trong các nghiên cứu của Hsieh và các tác giả khác [38,44], tất cả các bộ con trong Sat(t) đƣợc xem là các câu trả lời có khả năng và bất định cho truy vấn, và họ đã định nghĩa thông tin sánh hợp và
thông tin phụ trợ để đánh giá độ thích đáng của từng câu trả lời với câu truy vấn. Độ thoả đáng ám chỉ tới lƣợng sánh hợp cho bởi Sat(t) của bộ (t, r(t)), và độ phụ trợ ám chỉ tới lƣợng không chắc chắn mà Unsat(t) cần để cho bộ (t,
r(t)) là câu trả lời chắc chắn cho câu truy vấn. Tuy nhiên, với việc xét tới loại bỏ dƣ thừa, câu trả lời có khả năng và không xác định này phải đƣợc biễu diễn dƣới dạng một tập các câu trả lời có khả năng và xác định cho câu truy vấn. Vì vấn đề này không đƣợc xét tới trong [38] nên ta sẽ xây dựng môt phƣơng pháp mới để đánh giá chất lƣợng các câu trả lời. Tức là, chất lƣợng của mỗi câu trả lời không chỉ phụ thuộc động vào câu truy vấn mà còn phụ thuộc tĩnh vào bản thân độ dài của bộ. Chúng ta sử dùng hai độ đo, độ thoả đáng và độ phụ trợ, nhằm xác định chất lƣợng các câu trả lời.
Định nghĩa 11. Gọi (t, r(t)) là một bộ chắc chắn và (t, r(t)) là một bộ có khả năng trong quan hệ mờ mở rộng r:
(1) Khi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) và (t, r(t)) là một câu trả lời chắc chắn cho truy vấn (A). Độ thoả của (t, r(t)) đối với truy vấn là
|Sat(t)| i i sat sat(t) I (t )/k I 1
(2) Khi (t, r(t)) là câu trả lời có khả năng cho truy vấn (A). Độ thoả của (t, r(t)) là
Isat(t) = r(t)
trong đó Isat(ti) là giá trị thuộc của một bộ con (ti,r(ti)) đƣợc áp đặt bởi truy vấn (A), và (ti,r(ti)) Sat(t), |Sat (t)|IÝat(ti)
i 1 là độ thoả tổng thể của bộ (t, r(t)) đối với truy vấn (A).
Thí dụ 3. Theo Thí dụ 2, ta có Isat(t1) = 0.5, Isat(t2) = 1, Isat(t3) = 1, Isat(t4) = 0.928.
Độ thoả của một bộ chắc chắn là độ thoả trung bình của bộ đối với truy vấn. Giá trị của nó tỉ lệ thuận với độ dài ban đầu của bộ chắc chắn. Nhƣ đã nêu ở trên, hai bộ tuyển mờ với các dạng tuyển khác nhau với truy vấn sẽ trả về cùng câu trả lời. Độ thoả chỉ thích hợp trong việc xử lý chất lƣợng của các bộ chắc chắn cho câu truy vấn, bởi vì hai câu trả lời có khả năng với chất lƣợng khác nhau có thể có cùng độ thoả. Do vậy, cần phải xét tới độ phụ trợ khi xử lý câu truy vấn để có thể phân biệt đƣợc chất lƣợng của các câu trả lời có khả năng.
3.3.2 Đánh giá độ không chính xác
Thƣớc đo sự không chính xác ở đây là độ phụ trợ. Độ phụ trợ đƣợc dùng để xếp hạng các bộ nhằm giới thiệu một đầu ra có giá trị cho ngƣời sử dụng. Độ phụ trợ có hai mục đích: Một là để đo độ không chính xác và hai là để chỉ ra bộ có khả năng. Với mọi bộ chắc chắn trong quan hệ mờ mở rộng,
bộ chắc chắn tường minh sẽ có độ phụ trợ là không; ngƣợc lại nó sẽ là một bộ có khả năng tường minh, vì giá trị thuộc của một bộ là không tĩnh mà là đo sự thích hợp của bộ đó với câu truy vấn. Do đó, độ phụ trợ độc lập có thể đƣợc hiểu là lƣợng tối thiểu của thông tin phụ trợ mà hệ CSDL cần để đảm bảo rằng bộ đó thoả mãn câu truy vấn [38,44] Độ phụ trợ độc lập là khoảng cách giữa các số đo Imin và I.
Định nghĩa 12. Gọi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) là một bộ trong quan hệ mờ mở rộng r, (A)={(b,(b))} là câu truy vấn, và A là giá trị ngƣỡng liên kết, Sat(t) và (ti,r(ti)) Unsat(t). Khi đó, độ phụ trợ độc lập của (ti,r(ti)) đối với truy vấn (A) là
Iext(ti) = Imin(ti) - I(A)(ti)
trong đó Imin(ti) = EQ(ti[A], (b)) chỉ lƣợng tối thiểu thông tin mà hệ CSDL cần để đảm bảo rằng bộ (ti,r(ti)) thoả (A), và I(A) = A chỉ lƣợng tối đa của thông tin sẵn có liên quan về bộ (ti,r(ti)) tới truy vấn (A).
Độ phụ trợ là lƣợng thông tin chân lý cần để cho bộ con (ti,r(ti)) của bộ chắc chắn (t, r(t)) thoả mãn câu truy vấn. Có hai loại độ phụ trợ nhất thiết phải xét đến: Loại thứ nhất là phụ thuộc động vào câu truy vấn, và loại thứ hai là phụ thuộc tĩnh vào độ dài của bộ. Gọi (t, r(t)) là bộ chắc chắn trong quan hệ mờ mở rộng. Thế thì chỉ khi tất cả các bộ con của (t, r(t)) tồn tại cùng một thời điểm và cùng thoả mãn câu truy vấn thì bộ (t, r(t)) mới đƣợc coi là đúng hoàn toàn cho câu truy vấn. Ngƣợc lại, sẽ có câu trả lời có khả năng cho truy vấn. Nhắc lại là, mỗi bộ con của (t, r(t)) vẫn đòi hỏi 1-1/length(t) lƣợng của thông tin phụ trợ khác nhằm đảm bảo (t, r(t)) là đúng hoàn toàn trong quan hệ mờ mở rộng. Và do vậy, độ phụ trợ mới của mỗi bộ con trong trả lời cho câu truy vấn đƣợc định nghĩa nhƣ sau:
Định nghĩa 13. Gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng và
(A) là câu truy vấn và |Unsat(t)| = n. Khi đó, độ phụ trợ của một bộ có khả năng (t,r(t)) với truy vấn (A) là
)) ( length / ( ) ( I ) ( I n i ext ext 1 1 t 1 i t t
trong đó (t,r(t)) Sat(t) và (ti,r(ti)) Unsat(t). Trong định nghĩa trên, giá trị n IÝat( )
i1 ti phụ thuộc động vào câu truy vấn và 1-1/length(t) phụ thuộc tĩnh vào độ dài của bộ. Hai độ đo này lần lƣợt đƣợc gọi là độ phụ trợ động và tĩnh của một bộ. Độ phụ trợ trình bày ở đây là thoả quan điểm về CSDLQ mờ của Buckles.
Thí dụ 4. Theo Thí dụ 2 và 3, gọi (m'1, r(m'1)) = (Dƣơng, quản đốc, 35, 45000, 1) là một bộ có khả năng trong (t1, r(t1)) ; thế thì ta có Iext(m'1) = (
n
i10.8 - 0.4285) + (1 - 0.5) = 0.875. Theo đó, Iext(t2) = Iext(t3) = Iext(t4) = 0.
3.3.3 Chất lượng cuối cùng của câu trả lời
Chất lƣợng của một câu trả lời phụ thuộc vào độ thoả cung cấp đƣợc là bao nhiêu và độ phụ trợ đƣợc đòi hỏi là nhiều cỡ nào. Tất nhiên, chất lƣợng của các câu trả lời chắc chắn phải vƣợt trên các câu trả lời có khả năng đối với câu truy vấn. Đối với các câu trả lời chắc chắn cho câu truy vấn, khi length(t) tiến gần đến một, chất lƣợng của câu trả lời tăng lên bởi nó là một câu trả lời chắc chắn hơn cho câu truy vấn theo ngữ nghĩa của thông tin tuyển mờ. Khi các độ dài của hai câu trả lời chắc chắn bằng nhau thì câu trả lời chắc chắn nào có độ thoả lớn hơn sẽ là câu trả lời có chất lƣợng cao hơn. Đối với các câu trả lời có khả năng, khi độ phụ trợ của một câu trả lời có khả năng giảm xuống thì câu trả lời đó trở nên "khả dĩ" hơn cho câu truy vấn. Theo đó, chất