Độ bao hàm ngữ nghĩa
Định nghĩa [11]: πA và πB là hai dữ liệu mờ và SS(πA), SS(πB) là khoảng ngữ nghĩa của hai dữ liệu đó.
Độ bao hàm ngữ nghĩa πA trong πB đƣợc định nghĩa : SID(πA , πB) = (SS(πA) ∩ SS(πB))/ SS(πB)
Độ bằng nhau về ngữ nghĩa πA và πB đƣợc định nghĩa : SE(πA , πB) = min(SID(πA , πB), SID(πB , πA))
Hiệu của hai quan hệ
r và s là hai quan hệ mờ đƣợc cho nhƣ trên. Hiệu (phép trừ) giữa r và s [11] đƣợc định nghĩa nhƣ sau: v u t v u SE s v r u v u v t SE r t s v v t s r f , ( , | 3.4.1 Phép chọn mờ
Cho quan hệ mờ r(R) và một phép chọn rõ P. Phép chọn mờ Pf trên quan hệ mờ r đƣợc định nghĩa [11] nhƣ sau:
r t t r Pf t
Pf |
Phép chọn mờ là mở rộng của phép chọn truyền thống. Các toán tử ( =, ≠, < , >, ≤, ≥) đƣợc mở rộng thành cách toán tử so sánh mờ với ngƣỡng β (,,,,, ). ID Mã phòng ban Tuổi Trình độ Quốc gia Mã VP t1 9106 CS {0.5/18,0.9/19,0.7/20} ĐH Mỹ Y1101 t2 9107 CS {0.4/20,0.8/21,0.6/22} ĐH Canada Y1101 t3 9705 IS {0.2/24,0.9/25, 1.0/26} ĐH Pháp B6280 t4 9706 IS {0.1/28,0.7/29,0.6/30} THS Ý B6280 t5 9707 IS {0.6/29,0.7/30,0.1/31} THS Pháp B6280 Bảng 3-4: Quan hệ mờ r
Ví dụ: Có quan hệ mờ r nhƣ trên, trong đó thuộc tính mờ “Tuổi” đƣợc biểu diễn bằng phân bố khả năng (0.5/18 : biểu diễn thông tin tuổi 18 có khả năng 0.5; {0.5/18,0.9/19,0.7/20}: là các tuổi 18, 19, 20 tƣơng ứng với phân bố khả năng là 0.5, 0.9, 0.7). Trong phép chọn mờ, mệnh đề điều kiện mờ trong phép chọn mờ với điều kiện tuổi khoảng 25 – 26 đƣợc biểu diễn bằng phân bố khả năng {1.0/25, 0.9/26, 0.3/27} và “Mã phòng ban = IS”, ngƣỡng đƣợc cho β = 0.8. Phép chọn mờ với điều kiện thuộc tính Tuổi = khoảng 25-26 nhƣ trên và thuộc tính Mã phòng ban = IS cho kết quả nhƣ sau :
SE1.0(t3 (Tuổi), {1.0/25, 0.9/26, 0.3/27}) = min ((0.2+0.9+0.9)/(0.2+0.9+0.9+0.3), (0.9+0.9)/(0.9+0.9+0.3)) = min(0.86, 0.9)= 0.86 > β, nên
t 3(Tuổi) ≈β {1.0/25, 0.9/26, 0.3/27}.
3.4.2 Phép chiếu mờ
Quan hệ mờ r(R) và tập thuộc tính S R. Phép chiếu mờ r trên tập S đƣợc định nghĩa [11] nhƣ sau: ( )|( )( ( ) ) ) (r t S u u r R t fu R S .
Ví dụ: Phép chiếu của r trên 2 thuộc tính (Mã phòng ban, Tuổi ) theo ví dụ trên thu đƣợc kết quả nhƣ sau:
Mãphòngban,Tuôi(r) Mã phòng ban Tuổi CS {0.5/18,0.9/19,0.7/20} CS {0.4/20,0.8/21,0.6/22} IS {0.2/24,0.9/25, 1.0/26} IS {0.1/28,0.7/29,0.7/30,0.1/31}
Bảng 3-5: Kết quả của phép chiếu mờ của r trên hai thuộc tính Mã phòng ban và Tuổi
Trong kết quả trên, 2 bộ t4, t5 là xấp xỉ nhau bởi SE(t4,t5) = 0.92 > β. Hợp 2 bộ t4 và t5, thu đƣợc kết quả nhƣ trên
Vấn đề không thu đƣợc kết quả duy nhất:
Cho quan hệ mờ R xác định trên tập thuộc tính U và V U , V≠φ . Thực hiện phép chiếu thông thƣờng để thu đƣợc quan hệ *RV . Nếu có 2 bộ trong *RV là xấp xỉ nhau ở mức độ β nào đó thì ta có thể bỏ đi một trong hai bộ sao cho ta thu đƣợc quan hệ RV thỏa mãn: RV ≈β *RV. Nhận thấy rằng, phép chiếu có thể cho kết quả không duy nhất do quá trình loại bỏ các bộ dƣ thừa là không xác định duy nhất. Tuy nhiên, các kết quả khác nhau vẫn xấp xỉ nhau ở mức độ L do mỗi bộ bất kỳ trong *RV đều có một bộ xấp xỉ với mức độ L trong RV.
3.4.3 Phép kết nối mờ
Cho r(R) và s(S) là hai quan hệ mờ. Pf là mệnh đề khẳng định có dạng A θ B
trong đó θ (,,,,, ), A R, B S. Phép kết nối mờ giữa hai quan hệ đƣợc định nghĩa [11] qua phép chọn mờ nhƣ sau:
) (r s s r f f P P
Trƣờng hợp θ = , phép kết nối trở thành kết nối tự nhiên. Quan hệ mờ r
ID Mã phòng ban Tuổi ul 9106 CS {0.3/19,0.8/20,0.7/21} u2 9107 EE {0.8/21,0.7/22} u3 9711 IS {0.6/27, 0.9/28, 0.7/29} u4 9712 EE {0.8/32, 0.9/33, 0.6/34} Bảng 3-6: Quan hệ mờ r Quan hệ mờ s Họ Mã phòng ban Tuổi Trình độ Quốc gia Mã VP vl Mary CS {0.9/19,0.7/20,0.2/21} ĐH Mỹ Y1101
v2 Tom EE {1.0/21,0.7/22} THS Canada Y1101
v3 John IS {0.6/24, 1.0/25,0.7/26} ĐH Pháp B6280 v4 Jack EE {0.7/32,1.0/33,0.7/34} THS Ý B6280 Bảng 3-7: Quan hệ mờ s Phép kết nối tự nhiên rs ID Họ Mã phòng ban Tuổi Trình độ Quốc gia Mã VP
9107 Tom EE {0.8/21,0.7/22} THS Canada Y1101
9712 Jack EE 0.7/32,0.9/33,0.6/34} THS Ý B6280
Bảng 3-8: Kết quả phép kết nối tự nhiên giữa r và s
3.5 Kết luận chƣơng ba
Chƣơng ba đã đề cập đến những nội dung sau:
Một số vấn đề lý thuyết về việc biểu diễn dữ liệu theo hƣớng phân bố khả năng. Tập trung vào cách xây dựng cơ sở dữ liệu mờ theo cách tiếp cận hƣớng khả năng và một số các mô hình điển hình đƣợc xây dựng theo hƣớng này.
Vấn đề thực hiện cách phép toán đại số quan hệ trên cơ sở dữ liệu mờ hay mở rộng các phép toán đại số quan hệ thành các phép toán đại số quan hệ mờ.
CHƢƠNG 4
FSQL VÀ MỘT VÍ DỤ MINH HỌA
Tiếp theo chƣơng 3, chƣơng này giới thiệu khái quát về FSQL, là mở rộng của SQL và kiến trúc cơ bản của một hệ quản trị cơ sở dữ liệu mờ. Một ví dụ minh họa cho việc sử dụng FSQL trên cơ sở dữ liệu quan hệ rõ nhằm khai thác khả năng hỏi mềm dẻo trên một cơ sở dữ liệu quan hệ rõ đã có sẵn.
4.1 Truy vấn dữ liệu 4.1.1 Hỏi mềm dẻo 4.1.1 Hỏi mềm dẻo
Khẳng định mờ
Khi thực hiện truy vấn dữ liệu, đôi khi cần thiết biểu diễn các tham chiếu cũng nhƣ phân biệt các giá trị thỏa mãn điều kiện hoặc không thỏa mãn điều kiện theo các cung bậc. Để thực hiện điều này có một số giải pháp thực hiện và một giải pháp đƣa ra là biểu diễn các giá trị mơ hồ trên cơ sở tập mờ. Ứng dụng lý thuyết tập mờ để mô hình hóa các thuộc tính theo mức độ thỏa mãn theo cấp độ. Ví dụ một câu truy vấn tìm kiếm “vị trí đặt nhà xƣởng sản xuất không quá đắt và phải gần bến cảng” là một ví dụ về biểu diễn mức độ. Một câu hỏi mềm dẻo tốt sẽ trả về kết quả nhƣ có dạng sau: kết quả thứ nhất là rỗng theo phƣơng pháp truy vấn kinh điển (bởi câu hỏi yêu cầu nhiều điều kiện hơn), tiếp đó sẽ trả về các kết quả đƣợc sắp xếp theo mức độ phù hợp giảm dần.
Một câu hỏi bao gồm giá trị mờ hồ đƣợc biểu diễn bởi các tập mờ bằng sử dụng một số kiểu toán tử xây (constructor). Những khẳng định trong tập mờ trên một hay nhiều miền trị Di là một ánh xạ từ D1 x D2 x... Dn vào đoạn giá trị [0, 1]; ví dụ nhƣ các giá trị “cao”, “mới”, “đắt” ... Trong thực tế, hàm dạng hình thang thƣờng đƣợc sử dụng để biểu diễn các dạng giá trị mơ hồ (vào khoảng) . Biểu diễn giá trị mờ qua giá trị rõ hầu hết thông qua các hàm từ [0, 1] vào [0, 1] và đƣợc áp dụng vào các hàm quan hệ mờ để biểu diễn tác động của các giá trị ngôn ngữ mức
độ nhƣ “rất”, “ít”, “nhiều” ... [6] Các hàm biến đổi (Modifiers functions) giá trị đó có các dạng sau:
1. µmod p(x) = (µp(x))n (n > 1 đối với tổ hợp và n<1 đối với giá trị riêng lẻ) 2. µmod p(x) = On(µp(x)) trong đó O là một ma trận cho tập hợp
3. µmod p(x) = µp(x ± a)
Các điều kiện phức hợp đƣợc biểu diễn bằng biểu thức logic sẽ đƣợc biểu diễn bằng các phép toán tập mờ. Lý thuyết tập mờ đƣợc ứng dụng để liên kết cũng nhƣ tách rời các cấp độ của giá trị. Áp dụng lý thuyết tập mờ để biến đổi, chuẩn hóa các điều kiện:
mini max(µp(Ai(x)), 1-wi) = maxi min (µp(Ai(x)), wi)
trong đó wi là một trọng số quan trọng của mệnh đề trên thuộc tính Ai trong yêu cầu. Trọng số đƣợc xem nhƣ thỏa mãn trong điều kiện chuẩn: maxi wi = 1. Dễ thấy tất cả các phần tử của mệnh đề là bằng nhau mạnh (i, wi = 1).
Ví dụ: Tiếp theo ví dụ tìm kiếm “vị trí đặt nhà xƣởng sản xuất không quá đắt và phải gần bến cảng” đã đề cập ở trên
min (max (µch(price), 1 - wch)), max (µs - 1(area), 1 - ws-1) =
min (µch(price), max (µs - 1(area), 1 - ws-1))
Các phát biểu định lượng mờ
Các khẳng định mờ áp dụng với các phần tử của một tập các giá trị là một ánh xạ từ tất cả các phần tử đến tập đơn vị. [6] Có hai dạng lƣợng từ mờ phân biệt:
1. “Q các phần tử của tập X thỏa mãn khẳng định mờ A” đƣợc biểu diễn (“Q X’s are A”).
2. “Q các phần tử của tập X thỏa mãn khẳng định mờ B cũng sẽ thỏa mãn khẳng định mờ A” đƣợc biểu diễn (“Q X’s B are A”).
Lƣợng từ mờ đƣợc giới thiệu lần đầu tiên bởi Zadeh [4] để biểu diễn các biểu thức ngôn ngữ nhƣ “nhiều”, “ít nhất một tá”. Lƣợng từ tuyệt đối đƣợc biểu diễn bằng số mà mỗi số đại diện cho một tỷ lệ. Lƣợng từ tuyệt đối đƣợc biểu diễn bởi hàm Q từ một số nguyên (hoặc thực) vào [0, 1] và lƣợng từ có liên quan đƣợc biểu diễn bởi một hàm Q từ [0, 1] đến [0, 1]. Trong cả hai trƣờng hợp giá trị Q(j) định nghĩa giá trị thật của phát biểu “Q X’s are A” khi phần tử j trong X thỏa mãn đầy đủ A (A trở thành không thỏa mãn với các phần tử còn lại ).
Có một số cách xác định giá trị thực của lƣợng từ kiểu “Q X’s are A”. Cách đầu tiên dựa trên cơ sở nguyên lý mở rộng:
có hàm f mà f(a1) = f(a2) = ... = f(an) và luận cứ mờ X, khả năng sự kiện “f(X) = c” là phát biểu “Q X’s are A”, hàm f đƣợc biểu diễn bởi Q và X là yếu tố mờ cf và giá trị mờ thật Q(cf) đƣợc biểu diễn bằng phân bố khả năng.
Những phƣơng pháp khác sử dụng sự tƣơng tự giữa trƣờng hợp A là một khẳng định và A cũng là một khẳng định mờ. Trƣờng hợp thứ nhất, những phần tử thuộc X thỏa mãn A từ một tập hợp có yếu tố mờ c là rõ và Q(c) là cấp độ thực của “Q X’s are A”. Trong trƣờng hợp này, tập hợp các phần tử của X thoả mãn A là mờ. Yếu tố mờ cf là lƣợng từ mờ. Zadeh đã đề xuất một yếu tố mờ cf bằng biểu thức ΣCount(A). Cấp độ của “Q X’s are A” là hoàn toàn xác định đƣợc.
Đề xuất “Q X’s are A” kéo theo tiến trình so sánh mẫu. Sự thay đổi đƣợc coi là một khẳng định mờ và cf đƣợc xem nhƣ phân bố khả năng. Hai cấp độ đƣợc tính toán biểu diễn sự mở rộng của khả năng : khả năng-đáp ứng, cần-thỏa mãn. Mối liên hệ giữa các phƣơng pháp này là mờ đầy đủ đã đƣợc nghiên cứu. Một cách tiếp cận rất khác đƣợc đề xuất: mọi lƣợng từ đƣợc định nghĩa bằng tổ hợp tuyến tính của lƣợng từ không (ANY) và lƣợng từ mọi (ALL).
“Q X’s are A” là α * e + (1- α) * u
Trong đó e và u là các giá trị thực của phát biểu: “ít nhất một X là A” và “all X’s are A ”.
e = supxXµA(x) và u = inf xXµA(x).
Lƣợng từ của phát biểu “Q X’s B are A”. Zadeh đề xuất phần tử thỏa mãn A và thoả mãn B:
p = Σ Count(A∩B) / Σ Count(B). Và giá trị thực của “Q X’s B are A” là Q(p).
Phát biểu tổng hợp
Truy vấn với các giá trị lớn nhất, nhỏ nhất, trung bình cộng, và các giá trị khác là một hàm vô hƣớng trên tập các đối tƣợng cụ thể trong cách biểu diễn mờ. Một ví dụ nhƣ truy vấn: “Lƣơng trung bình của những nhân viên trẻ là bao nhiêu?”. Có nhiều cách tiếp cận để trả lời câu hỏi này, chúng đều dựa trên cơ sở tập mờ với hệ số cắt α. Khả năng giá trị hàm f(A) trong đó f là một hàm tập hợp và A là một tập mờ và là tập mờ của giá trị N:
µN(r) = sup{α [0, 1]| f(A α) = r} Trong đó A α là α cắt của A.
Ví dụ: Có quan hệ nhân viên NHANVIEN(Ma#, Ten, Luong, Tuoi) NHANVIEN
Ma# Ten Luong Tuoi µYOUNG
1 An 3500000 25 0.6
2 Hƣơng 4000000 30 1.0
3 Lan 2600000 24 0.9
4 Cƣờng 3000000 28 0.5
Bảng 4-1: Mối quan hệ tuổi trung bình và lương (tháng)
Kết quả của truy vấn mờ “Mức lƣơng trung bình của những ngƣời trẻ tuổi” :
N = 1/avg(4000000) + 0.9/avg(4000000,2600000) + 0.6/avg(4000000, 2600000,3500000) + 0.5/avg(4000000, 2600000,3500000,3000000)
4.1.2 Truy vấn mờ trong cơ sở dữ liệu quan hệ
Dựa trên lý thuyết khả năng
Truy vấn cơ sở dữ liệu quan hệ với những giá trị thuộc tính không đầy đủ đƣợc biểu diễn bằng phân bố khả năng. Ví dụ biểu diễn tuổi của John và số hạng “Trung niên”.
Hình 4-2: Tuổi của John và căn cứ “Trung niên”
µΠP(t) = Π(P; A(t)) = supdD min (µP (d), µA(t) (d))
µΠP(t) =N(P; A(t)) = 1 - Π(
__
P; A(t))
= 1 - supdD U {e} min (___p (d).A(t)(d)) = 1 - inf dD U {e} max(µP (d), 1- πA(t)(d)) Ví dụ: [6]
Hình 4-3: Tuổi của John = “Trung niên”
Tuổi 1
0
... min(πage(u), µp (u))
Tuổi 1
0
... max(1-πage(u), µp (u))
0.17
Căn cứ (Tuổi của John)
Tuổi 1
0
P D
BOOLEAN (Logic) VAGUE (Mơ hồ)
Precise (rõ) Π, N {0, 1} Π=N= 1 nếu d P Π, N [0, 1] (d) 0 với các trƣờng hợp khác Π, N {0, 1} Π= 1 nếu D ∩ P ≠Ø Π=N= µp(d) Π, N [0, 1] Π= 1 nếu D ∩ core(P) ≠Ø Interval (giãn cách)
0 với các trƣờng hợp khác = 0 nếu D ∩ supp(P) ≠Ø (D) N = 1 nếu DP, 0 với các trƣờng hợp khác Π, N [0, 1] Π= 1 nếu core(D) ∩ P ≠Ø 0 nếu supp(D) ∩ P ≠Ø N = 1 nếu Dcore(P) 0 nếu x D µp(x) = 0 Π, N [0, 1]
Π= 1 nếu core(D) ∩ core(P) ≠Ø 0 nếu supp(D) ∩ supp(P) ≠Ø Fuzzy N = 1 nếu supp(D)(P) N = 1 nếu supp(D)core(P) (D) 0 nếu x core(D) x P N > 0 => Π= 1 Π < 1=> N = 0 0 nếu x mà x core(D) x supp(D) Π N
Bảng 4-4: Một số các đặc trưng của khả năng và cấp độ cần thiết
4.1.3 Hỏi mềm dẻo trong cơ sở dữ liệu quan hệ kinh điển
Phần này đề cập đến cách thức hỏi mềm dẻo với một cơ sở dữ liệu quan hệ kinh điển, nhằm trả về các kết quả ở các cấp độ ít hơn hoặc nhiều hơn nào đó so với cách hỏi truyền thống trong Cơ sở dữ liệu kinh điển. Đã có nhiều nỗ lực nghiên cứu và giới thiệu một số cách hỏi mềm dẻo trong cơ sở dữ liệu quan hệ kinh điển, đƣợc phân làm 2 dạng chủ yếu sau [6]:
i) Hỏi dựa trên các tập mờ và các khẳng định của nó
ii) Hỏi trên cơ sở các bổ sung cụ thể vào các hệ thống quan hệ đó
Mở rộng số học đối với hỏi mềm dẻo
Cách mở rộng này sử dụng lý thuyết tập mờ và sự bổ sung các thuộc tính thể hiện cấp độ vào các bộ trong quan hệ. Cơ sở lý thuyết tập mờ đƣợc áp dụng ở đây
µR x S (xy) = min (µR (x), µS (y))
µR S (x) = max (µR (x), µS (x))
µR S (x) = min (µR (x), µS (x))
µR ÷ S (x) = µR __S (x) = min (µR (x), 1- µS (y)) Ví dụ : Có 2 quan hệ :
SANPHAM(Ma_sp#, Ten_sp, Sl_thuc, Gia) DONHANG(Ma_sp#, Sl_dh)
Có thể biểu diễn câu hỏi “Tìm số lƣợng đơn hàng và tên hàng của mọi mặt hàng có số lƣợng đặt hànglớn hơn số lƣợng thực có trong kho” nhƣ sau:
πMa_sp# (Sl_thuc << Sl_dh (SANPHAM |><|Ma_sp# = Ma_sp DONHANG )) x RA ÷ A S S Ґ -1 (x) khi Ґ -1 (x) = {a | (x, a) R} Có thể biểu diễn phép chia bằng quan hệ mờ nhƣ sau:
)) , ( ) ( ( inf ) (x a S S a f R a x S RA A aS1n(S(a),R(a,x))/aS1n(S(a))
4.2 Ngôn ngữ truy vấn mờ có cấu trúc (FSQL)
FSQL (Fuzzy Structured Query Language) là mở rộng của SQL. Vì vậy những truy vấn đúng trong FSQL thì cũng đúng trong SQL. Hƣớng mở rộng các toán tử và phép toán trong SQL để thu đƣợc FSQL rất có ý nghĩa trong thực tiễn bởi hiện đa số các cơ sở dữ liệu hiện có đều là cơ sở dữ liệu quan hệ rõ và nhu cầu hỏi mềm dẻo ngày càng cao trong các ứng dụng đƣợc xây dựng. Phần này chỉ giới thiệu các bổ sung chính vào SQL để thu đƣợc FSQL.
4.2.1 Nhãn ngữ nghĩa
[10] Nếu có thể xử lý mờ trên một thuộc tính thì có thể định nghĩa các nhãn ngữ nghĩa trên nó. Các nhãn này sẽ đƣợc bổ sung thêm ký hiệu $ ở đầu để có thể phân biệt chúng một cách dễ dàng. Có hai loại nhãn đƣợc sử dụng ở các kiểu thuộc