Thƣớc đo sự không chính xác ở đây là độ phụ trợ. Độ phụ trợ đƣợc dùng để xếp hạng các bộ nhằm giới thiệu một đầu ra có giá trị cho ngƣời sử dụng. Độ phụ trợ có hai mục đích: Một là để đo độ không chính xác và hai là để chỉ ra bộ có khả năng. Với mọi bộ chắc chắn trong quan hệ mờ mở rộng,
bộ chắc chắn tường minh sẽ có độ phụ trợ là không; ngƣợc lại nó sẽ là một bộ có khả năng tường minh, vì giá trị thuộc của một bộ là không tĩnh mà là đo sự thích hợp của bộ đó với câu truy vấn. Do đó, độ phụ trợ độc lập có thể đƣợc hiểu là lƣợng tối thiểu của thông tin phụ trợ mà hệ CSDL cần để đảm bảo rằng bộ đó thoả mãn câu truy vấn [38,44] Độ phụ trợ độc lập là khoảng cách giữa các số đo Imin và I.
Định nghĩa 12. Gọi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) là một bộ trong quan hệ mờ mở rộng r, (A)={(b,(b))} là câu truy vấn, và A là giá trị ngƣỡng liên kết, Sat(t) và (ti,r(ti)) Unsat(t). Khi đó, độ phụ trợ độc lập của (ti,r(ti)) đối với truy vấn (A) là
Iext(ti) = Imin(ti) - I(A)(ti)
trong đó Imin(ti) = EQ(ti[A], (b)) chỉ lƣợng tối thiểu thông tin mà hệ CSDL cần để đảm bảo rằng bộ (ti,r(ti)) thoả (A), và I(A) = A chỉ lƣợng tối đa của thông tin sẵn có liên quan về bộ (ti,r(ti)) tới truy vấn (A).
Độ phụ trợ là lƣợng thông tin chân lý cần để cho bộ con (ti,r(ti)) của bộ chắc chắn (t, r(t)) thoả mãn câu truy vấn. Có hai loại độ phụ trợ nhất thiết phải xét đến: Loại thứ nhất là phụ thuộc động vào câu truy vấn, và loại thứ hai là phụ thuộc tĩnh vào độ dài của bộ. Gọi (t, r(t)) là bộ chắc chắn trong quan hệ mờ mở rộng. Thế thì chỉ khi tất cả các bộ con của (t, r(t)) tồn tại cùng một thời điểm và cùng thoả mãn câu truy vấn thì bộ (t, r(t)) mới đƣợc coi là đúng hoàn toàn cho câu truy vấn. Ngƣợc lại, sẽ có câu trả lời có khả năng cho truy vấn. Nhắc lại là, mỗi bộ con của (t, r(t)) vẫn đòi hỏi 1-1/length(t) lƣợng của thông tin phụ trợ khác nhằm đảm bảo (t, r(t)) là đúng hoàn toàn trong quan hệ mờ mở rộng. Và do vậy, độ phụ trợ mới của mỗi bộ con trong trả lời cho câu truy vấn đƣợc định nghĩa nhƣ sau:
Định nghĩa 13. Gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng và
(A) là câu truy vấn và |Unsat(t)| = n. Khi đó, độ phụ trợ của một bộ có khả năng (t,r(t)) với truy vấn (A) là
)) ( length / ( ) ( I ) ( I n i ext ext 1 1 t 1 i t t
trong đó (t,r(t)) Sat(t) và (ti,r(ti)) Unsat(t). Trong định nghĩa trên, giá trị n IÝat( )
i1 ti phụ thuộc động vào câu truy vấn và 1-1/length(t) phụ thuộc tĩnh vào độ dài của bộ. Hai độ đo này lần lƣợt đƣợc gọi là độ phụ trợ động và tĩnh của một bộ. Độ phụ trợ trình bày ở đây là thoả quan điểm về CSDLQ mờ của Buckles.
Thí dụ 4. Theo Thí dụ 2 và 3, gọi (m'1, r(m'1)) = (Dƣơng, quản đốc, 35, 45000, 1) là một bộ có khả năng trong (t1, r(t1)) ; thế thì ta có Iext(m'1) = (
n
i10.8 - 0.4285) + (1 - 0.5) = 0.875. Theo đó, Iext(t2) = Iext(t3) = Iext(t4) = 0.
3.3.3 Chất lượng cuối cùng của câu trả lời
Chất lƣợng của một câu trả lời phụ thuộc vào độ thoả cung cấp đƣợc là bao nhiêu và độ phụ trợ đƣợc đòi hỏi là nhiều cỡ nào. Tất nhiên, chất lƣợng của các câu trả lời chắc chắn phải vƣợt trên các câu trả lời có khả năng đối với câu truy vấn. Đối với các câu trả lời chắc chắn cho câu truy vấn, khi length(t) tiến gần đến một, chất lƣợng của câu trả lời tăng lên bởi nó là một câu trả lời chắc chắn hơn cho câu truy vấn theo ngữ nghĩa của thông tin tuyển mờ. Khi các độ dài của hai câu trả lời chắc chắn bằng nhau thì câu trả lời chắc chắn nào có độ thoả lớn hơn sẽ là câu trả lời có chất lƣợng cao hơn. Đối với các câu trả lời có khả năng, khi độ phụ trợ của một câu trả lời có khả năng giảm xuống thì câu trả lời đó trở nên "khả dĩ" hơn cho câu truy vấn. Theo đó, chất lƣợng của mỗi câu trả lời có thể đƣợc đo bởi định nghĩa sau:
Định nghĩa 14. Gọi (t1, r(t1)) và (t2, r(t2)) là hai bộ chắc chắn trong quan hệ mờ mở rộng r và (A) là câu truy vấn. Khi đó:
(1) khi length(t1) > length(t2), chất lƣợng của (t2, r(t2)) là tốt hơn (t1,
r(t1)).
(2) khi length(t1) = length(t2) và Isat(t1) < Isat(t2), chất lƣợng của (t2,
r(t2)) là tốt hơn (t1, r(t1)).
Mặt khác, gọi (t1, r(t1)) và (t2, r(t2)) là hai bộ có khả năng trong quan hệ mờ mở rộng r và (A) là câu truy vấn. Khi đó:
(2) khi Iext(t1) = Iext(t2) và Isat(t1) < Isat(t2), chất lƣợng của (t2, r(t2)) là tốt hơn (t1, r(t1)).
Định lý 1. Chất lƣợng của các câu trả lời của một CSDLQH mờ mở
rộng cho một câu truy vấn trên CSDL đó có thể đƣợc đo bởi Định nghĩa 14.
Chứng minh:
Các câu trả lời chắc chắn:
(1) Vì độ dài của một bộ chắc chắn ngày càng gần tới một nên nó càng trở nên chắc chắn đối với truy vấn theo ngữ nghĩa của thông tin tuyển mờ. Nói cách khác, nó càng gần hơn tới một câu trả lời chắc chắn xác định. Do đó, chất lƣợng của (t2, r(t2)) là tốt hơn (t1, r(t1)) vì chúng ta muốn câu trả lời xác định cho truy vấn hơn.
(2) Khi length(t1) = length(t2) và Isat(t1) < Isat(t2), (t2, r(t2)) là thoả điều kiện chọn của truy vấn hơn là (t1, r(t1)). Tức là, chất lƣợng của (t2, r(t2)) là tốt hơn (t1, r(t1)).
Các câu trả lời khả năng:
(1) Iext(t1) > Iext(t2) có nghĩa là bộ (t1, r(t1)) cần nhiều thông tin phụ trợ hơn so với (t2, r(t2)) đối với truy vấn (A). Do đó, câu trả lời (t2, r(t2)) là khả dĩ hơn so với câu trả lời (t1, r(t1)).
(2) Khi Iext(t1) = Iext(t2) có nghĩa là hiệu quả của thông tin phụ trợ cho hai bộ này là tƣơng đƣơng. Theo nghĩa của thông tin đối sánh, khi Isat(t1) <
Isat(t2), (t2, r(t2)) thoả điều kiện chọn của truy vấn hơn so với (t1, r(t1)). Do đó, chất lƣợng của (t2, r(t2)) là tốt hơn (t1, r(t1)).
Thí dụ 5. Theo các thí dụ 2, 3, và 4, (t2, r(t2)), (t3, r(t3)), và (t4, r(t4)) là bộ chắc chắn với truy vấn (Tuoi)={25}. Theo Định nghĩa 14, length(t2) >
length(t3); do đó, chất lƣợng của (t3, r(t3)) là tốt hơn chất lƣợng của (t2,
r(t2)). Hơn nữa, length(t2) =length(t4) và Isat(t2) > Isat(t4); do đó, chất lƣợng của (t2, r(t2)) tốt hơn chất lƣợng của (t4, r(t4)). Nhƣ vậy, trong số các bộ chắc chắn, ta có chất lƣợng (t3, r(t3)) > (t2, r(t2)) > (t4, r(t4)). Trong số các bộ khả năng ta có Iext(m'1) = 0.875, và giả sử ban đầu Iext(m1) = 0.8; do đó chất lƣợng của (m1, r(m1)) là tốt hơn chất lƣợng của (m'1, r(m'1)).
3.4. Các phép Chọn - Chiếu - Kết nối mở rộng
Các phép toán đại số đƣợc xác định duy nhất, không dƣ thừa, đúng đắn là các tính chất cơ bản của các CSDLQH. Cơ sở của các phép toán đại số đƣợc xác định đúng đắn dựa trên yếu tố các quan hệ mờ mở rộng đƣợc tổ chức lại là đƣợc xác định duy nhất và không dƣ thừa. Chúng ta giả sử các dƣ thừa sẽ đƣợc tự động loại bỏ sau khi ta thực hiện một phép toán đại số mở rộng. Quan hệ mờ mở rộng đƣợc tổ chức lại sẽ vẫn giữ lại các bộ có chất lƣợng cao hơn. Nhắc lại là, chất lƣợng của các câu trả lời đƣợc xác định động trong quá trình xử lý truy vấn thông qua độ dài ban đầu của bộ, thông qua độ phụ trợ, và thông qua độ thoả tổng thể của một bộ. Trong phần tiếp theo, ta kí hiệu length(t), ext(t), và total(t) lần lƣợt là độ dài, độ phụ trợ động, và độ thoả tổng thể của một bộ (t, r(t)) cụ thể. Khi các biến này không có mặt trong phép toán đại số, các giá trị của các biến kết hợp đƣợc kế thừa từ bộ ban đầu.
3.4.1 Phép Chọn mờ mở rộng
Theo Buckles và Petry [33] giá trị thuộc của một bộ đối với câu truy vấn là một độ đo sự thích hợp của bộ với truy vấn. Theo đó, giá trị thuộc của một bộ đƣợc tính toán động đối với câu truy vấn, và trợ giúp cho ngƣời dùng xác định độ chân lý của từng câu trả lời có đƣợc cho truy vấn. Vì vậy, đánh giá truy vấn là quá trình xác định giá trị chân lý của một bộ đối với truy vấn.
Tuy nhiên, trong nhiều tình huống, một bộ có thể không sánh hợp chính xác với điều kiện chọn của câu truy vấn. Do đó, cần thiết phải định ra một giá trị ngƣỡng j - độ thoả tối thiểu giữa các bộ đƣợc chọn và điều kiện chọn. Khi độ thoả của một bộ thấp hơn giá trị ngƣỡng thì bộ đó đƣợc coi là không thoả điều kiện chọn. Nhƣ vây, ta có thể định nghĩa phép toán chọn mờ mở rộng nhƣ sau:
Định nghĩa 15. Gọi r là một quan hệ mờ mở rộng và (A) là câu truy vấn trong đó (A) là điều kiện chọn trên thuộc tính A. Khi đó, (A) = r1, trong đó r r sure sure , ( , ( ))|( , ( )) r r1 t t t t length(t) i i r i r i r i i)((t , (t )) ( , ( )) (t [A])) total( ) (t ) t ( 1 t t t (t, (t))|(t, (t)) r (t[A]) r1,maybe r r maybe ) ( Sat )) t , , t ( )) ( , , ( )) t , , t ( r )) ( , , )(( (t1 t1 r t1 sure i r i t1 r t1 i r i t1 (tj,r,tj) Unsat(t1) Unsat(t1) i t i ext(t ) I ) t ( ext ) t ( length ) t ( length 1 Định lý 2. Phép chọn mờ mở rộng là xác đáng và đầy đủ. Chứng minh.
Trong trƣờng hợp câu trả lời chắc chắn, gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng r, (A) là câu truy vấn, và (t, r(t)) thoả Định nghĩa 15. Ta giả sử (t, r(t)) không là câu trả lời cho truy vấn, tức là,
])) A [ t ( )) ( , ( )) t ( , t )(( t
( i i r i t r t i . Trong trƣờng hợp câu trả lời khả năng, nếu (t,r(t)) không là câu trả lời cho truy vấn, có nghĩa (t[A])). Hiển
nhiên, cả hai trƣờng hợp này là mâu thuẫn với Định nghĩa 15; do đó, ta có thể kết luận rằng phép chọn mờ mở rộng là đúng đắn và đầy đủ.
Biểu thức Boole trong điều kiện chọn của một truy vấn đƣợc tạo bởi một số các mệnh đề liên kết với nhau qua các toán tử Boole để tạo nên điều kiện chọn tổng quát. Do vậy, một điều kiện chọn có thể chứa hai hay nhiều các điều kiện chọn con. Tuy nhiên, quá trình xử lý truy vấn không thể chia tách điều kiện chọn thành hai hay nhiều các điều kiện chọn con vì Unsat(t) không đƣợc duy trì. Nhắc lại là, ở đây, độ phụ trợ động liên quan tới mỗi bộ (ti, r(ti)) không thể đƣợc tính toán một cách độc lập. Đối với một điều kiện chọn tổng quát, thông phụ trợ động của (ti, r(ti)) đƣợc tính bởi công thức sau:
Định nghĩa 16. Gọi (t, r(t)) = (t1,r(t1)) … (tk,r(tk)) là một bộ trong quan hệ mờ mở rộng r, (A) là điều kiện chọn tổng quát. Khi đó, có thể áp dụng tính toán sau:
(1) Khi (ti, r(ti)) Sat(t), thế thì:
(a) khi (A) = (A1) … (Am), r(ti) = minm ( (ti[Aj]), r(ti));
j1 (b) khi (A) = (A1) … (Am), r(ti) = max (minm ( (ti[Aj]), rti))); j m j1 1 (2) Khi (ti, r(ti)) Unsat(t), thế thì:
(a) khi (A) = (A1) … (Am), Iext(ti)mj1(j ((ti[Aj]));
(b) khi (A) = (A1) … (Am), I (t ) minm ( j ( (ti[Aj])); Þn
i
ext 1
trong đó j là giá trị ngƣỡng đƣợc xác định trƣớc của của thuộc tính Aj.
Thí dụ 6. Xét quan hệ mờ mở rộng NHAN_VIEN trong Bảng III. Gọi
(A)(B) (NHAN_VIEN) là ba truy vấn, trong đó (A) là (Tuoi) = {30},
(B) là (Kinhnghiem) = {cao}, Tuoi = 0.85, và Kinhnghiem = 0.80. Tập mờ "Tuổi suýt xoát 30", đƣợc định nghĩa là
{…, (27,0.7), (28,0.8), (29,0.9), (30,1), (31,0.9), (32,0.8), (33,0.7),…} Khi đó, độ phụ trợ động của (t, r(t)) cho Q1 là 0.05, độ phụ trợ động của (t, r(t)) cho Q2 là 0.1, và độ phụ trợ động của (t, r(t)) cho Q3 là 0.15.
Bảng III. Quan hệ mờ mở rộng EMPLOYEE NHAN_VIEN(Ten, Congviec, Tuoi, Luong, r)
rsure t: ((Dƣơng), (28), (cao 0.7), 0.7) ((Dƣơng), (30), (cao), 1)
3.4.2 Phép Chiếu mờ mở rộng
Phép chiếu mờ mở rộng đƣợc dùng để chọn ra các thuộc tính cần quan tâm trên một quan hệ mờ mở rộng. Ta định nghĩa phép chiếu nhƣ sau:
Định nghĩa 17. Gọi r là một quan hệ mờ mở rộng. Khi đó, A(r) = r1, trong đó
r1,sure = {(t, r(t)) | (t1, r(t1)) rsure (t, r(t))
= 'A(t1, r(t1)) length(t) = length(t1) total(t) = total(t1)}
r1,maybe = {(t, r(t)) | (t1, r(t1)) rmaybe (t, r(t))
trong đó Achỉ tập các thuộc tính và 'A là phép chiếu theo quy ước.
Phép chiếu mờ mở rộng cũng giống nhƣ phép chiếu thông thƣờng. Trong quá trình chiếu, nó sẽ loại bỏ một vài thuộc tính khỏi quan hệ mờ mở rộng ban đầu; do đó, có thể có một vài bộ con trong bộ bị lặp. Để loại những bộ lặp này thì chất lƣợng của câu trả lời không đƣợc thay đổi sau khi chiếu, và chất lƣợng của câu trả lời là đƣợc thừa kế từ bộ ban đầu.
Định nghĩa 18. Gọi (t, r(t)) là một bộ trong quan hệ mờ mở rộng r của
R(Ap1, …, Apk, r). Khi đó,
(1) Bộ (t, r(t)) là không dƣ thừa khi và chỉ khi không tồn tại hai bộ bất kỳ (t1,r(t1)), (t2,r(t2)) của (t, r(t)) sao cho E(t1, t2) = true và
EQ(r(t1[Api]), r(t1[Api])) < i, i = p1,…,pk, trong đó E là vị từ đẳng thức và i là các giá trị ngƣỡng định trƣớc của các thuộc tính kết hợp, ngoài ra
(2) Bộ (t, r(t)) là dƣ thừa , và (t1,r(t1)), (t2,r(t2)) là hai bộ con bất kỳ của (t, r(t)). Khi đó, (t1,)r(t1) ~ (t2,r(t2)) có nghĩa bộ con (t2,r(t2)) có thể bị loại bỏ khỏi (t, r(t)) nếu và chỉ nếu E(t1, t2) = true r(t1) r(t2).
Định lý 3. Phép chiếu mờ mở rộng có thể cho câu trả lời tối tiểu và
không vi phạm e.f.f.d.
Chứng minh:
Phép chiếu mờ mở rộng cũng giống nhƣ phép chiếu thông thƣờng. Tuy nhiên, bộ mờ lại ở dạng tuyển; do đó, dƣ thừa có thể xảy ra trong số bộ con của một bộ sau phép chiếu. Dƣ thừa đó phải đƣợc loại bỏ theo Định nghĩa 18. Nhắc lại là, e.f.f.d có nghĩa với hai bộ bất kỳ (t,r(t)) và (t',r(t')) trong quan hệ mờ r, nếu t[X] t'[X] t'[X] t[X], thì e.f.f.d(t[X]) = e.f.f.d(t'[X]) hay sự
tƣơng đƣơng của nó phải đúng trong trƣờng hợp của Y. Tức là, e.f.f.d đúng trong quan hệ mờ tối tiểu r thì không có hai bộ bất kỳ (t,r(t)) và (t',r(t')) nào tồn tại trong r' sao cho (t,r(t)) ~ (t',r(t')) (t',r(t')) ~ (t,r(t)).
3.4.3 Phép Kết nối mờ mở rộng
Phép kết nối đƣợc dùng để kết hợp các bộ có liên quan từ hai quan hệ thành một quan hệ duy nhất. Phép toán này là rất quan trọng cho bất kỳ CSDLQH nào vì nó cho phép xử lý các mối quan hệ giữa các quan hệ. Hầu hết, điều kiện kết nối áp dụng bởi thao tác này liên quan tới những so sánh bằng giữa các khoá chính và các khoá ngoài của các quan hệ. Vì thế, các thuộc tính kết nối của các bộ liên quan luôn phải có các giá trị giống hệt nhau. Do vậy, phép kết nối có thể đƣợc biểu diễn bởi tích Descartes và phép chọn, và so sánh bằng có thể đƣợc mở rộng thành so sánh xấp xỉ trong trƣờng hợp CSDLQH mờ mở rộng. Vì các thuộc tính kết nối của hai bộ liên quan có các giá trị giống hệt nhau nên các điều kiện kết nối, không giống nhƣ các điều kiện chọn khác, có thể đƣợc đánh giá một cách độc lập mà không ảnh hƣởng gì tới độ phụ trợ.
Phép toán tích Descartes mờ mở rộng, biểu thị bởi , có vẻ nhƣ không ảnh hƣởng gì tới chất lƣợng của các câu trả lời cho truy vấn. Tuy nhiên, phép toán tích Descartes mờ mở rộng tạo ra các bộ với các thuộc tính kết hợp của hai quan hệ mờ mở rộng; do vậy, độ sánh hợp và độ phụ trợ bị ảnh hƣởng vì độ dài của các bộ thu đƣợc đã bị thay đổi. Gọi (t,
r(t)) có đƣợc bởi việc thực hiện phép toán tích Descartes mờ mở rộng trên hai bộ (t1, r(t1)) và (t2, r(t2)). Khi đó, thông tin liên quan đến chất lƣợng của bộ này đƣợc cập nhật bởi ext(t) = ext(t1) * length(t2) + ext(t2) * length(t1) và length(t) = length(t1) * length(t2). Khi bộ (ti, r(ti)), i = 1,2 là bộ chắc chắn
hoặc là bộ con của một bộ chắc chắn thì độ phụ trợ động của nó bằng không: ext(ti) = 0.
Gọi (t1, r(t1)) và (t2, r(t2)) là hai bộ với (t1, r(t1)) = {(t11, r(t11)), …, (t1n, r(t1n))} và (t2, r(t2)) = {(t21, r(t21)), …, (t2m, r(t2m))}. Khi đó, phép toán ' đƣợc định nghĩa là
t1 ' t2 = {(t11t21, min(r(t11), r(t21))), …, (t11t2m, min(r(t11), r(t2m))), …, (t1nt21, min(r(t1n), r(t21))), …, (t1nt2m, min(r(t1n),
r(t2m)))}
Khi đó, phép toán tích Descartes mờ mở rộng đƣợc định nghĩa nhƣ sau:
Định nghĩa 19. Gọi r1 và r2 là hai quan hệ mờ mở rộng. Khi đó, r1 r2 = r, trong đó
rsure = {(t, r(t)) | (t1)(t2)((t1, r(t1)) r1,sure (t2, r(t2)) r2, sure t = t1' t2 length(t) = length(t1) * length(t2))}
rmaybe = {(t, r(t)) | (t1)(t2)((t1, r(t1)) r1, maybe (t2, r(t2)) r2, maybe t = t1't2 ext(t) = ext(t1) * length(t2) + ext(t2) * length(t1) length(t) = length(t1) * length(t2))
(t1)(t2)(ti)(t1, r(t1) r1, sure (t2, r(t2)) r2, maybe (ti, r(ti) (t1, r(t1) t = ti't2
ext(t) = ext(t2) * length(t1) length(t) = length(t1) * length(t2)) (t1)(t2)(ti)(t1, r(t1)) r1, maybe (t2, r(t2)) r2, sure
(ti, r(ti) (t2, r(t2)) t = t1'ti
Phép kết nối mờ mở rộng đƣợc định nghĩa thông qua các phép tích Descartes và phép chọn mờ mở rộng.
Định nghĩa 20. Gọi r1 và r2 là hai quan hệ mờ mở rộng và B là điều kiện Boolean. Khi đó, r1Br2 = r, trong đó
r = {(t, r(t)) | (t1)(t2)((t1, r(t1)) r1 (t2, r(t2)) r2 t = t1 t2B(t1) B(t2))}
Định lý 4. Phép kết nối mờ mở rộng là xác đáng và đầy đủ. Chứng minh:
Vì mọi bộ trong r1 r2 phải theo đúng định nghĩa của phép toán tích Descartes mờ mở rộng nên tính đúng đắn của định lý này đƣợc suy ra trực tiếp từ định nghĩa phép toán tích Descartes mờ mở rộng.
Thí dụ 7. Xét quan hệ mờ mở rộng NHAN_VIEN và quan hệ VI_TRI mở rộng lần lƣợt trong Bảng IV và V. Gọi câu truy vấn là
RESULT=Ten,Tuoi,Luong,Kinhnghiem((A)(B)(C)(NHAN_VIEN