1. 4.1 Những phát biểu cơ bản
1.1.4.1.6 Sự tương tự tô-pô của dữ liệu định nghĩa bởi ánh xạ định lượng ngữ nghĩa
nghĩa
Chúng ta hãy cùng xem xét một biến ngôn ngữ và giả thiết rằng không gian tham chiếu là UA, nghĩa là các phần tử của UA là dữ liệu rõ. Bộ dữ liệu ngôn ngữ mô tả giá trị trong UA hay miền ngôn ngữ của A được ký hiệu là LDom(A). Vì trong nhiều trường hợp, một biến A có thể nhận giá trị trong UA cũng như trong một tập ngôn ngữ X = LDom(A) của biến ngôn ngữ A, chúng ta có thể xét một miền hỗn hợp của A và đặt DA = LDom(A) UA.
Câu hỏi đặt ra là làm thế nào để chúng ta có thể định nghĩa sự tương tự của dữ liệu trong một miền hỗn hợp DA?
Theo phương pháp kinh điển, mỗi dữ liệu ngôn ngữ đều được hiểu là một tập mờ trong UA. Rõ ràng theo cách thể hiện dữ liệu mờ này, việc xử l ý dữ liệu khó hơn so với xử lý dữ liệu rõ. Đặc biệt việc xác định sự tương tự dữ liệu bằng một phương pháp hợp l ý không hề đơn giản.
Chúng ta sẽ trả lời câu hỏi này theo cách chúng ta có thể xử l ý dữ liệu trong các cơ sở dữ liệu một cách dễ dàng và theo một phương pháp thống nhất.
Đầu tiên, chúng ta thấy rằng trong trường hợp này các kiểu dữ liệu của thuộc tính A không phải là duy nhất. Để thống nhất các dạng dữ liệu, chúng ta sử dụng một ánh xạ định lượng ngữ nghĩa A gắn với một biến A để biến đổi tuyến tính dữ liệu ngôn ngữ sang dữ liệu thực, nghĩa là A : X → UA. Như vậy, mỗi dữ liệu ngôn ngữ x của
A có thể được coi như là nhãn của một giá trị thực được định nghĩa bởi A. Vì A(x)
UA, chúng ta có thể thiết lập một phương pháp xử l ý dữ liệu dạng thực và dạng ngôn ngữ bằng một phương pháp thống nhất.
Vì giá trị thực A(x) chỉ là một đại diện của thuật ngữ không chắc chắn x, chúng ta không thể đơn thuần sử dụng A(x) thay cho x khi so sánh với dữ liệu thực và các giá trị ngôn ngữ của A. Vì vậy, vấn đề quan trọng hiện nay là làm thế nào để chúng ta có thể định nghĩa được một khái niệm về sự tương tự ngữ nghĩa của dữ liệu trong
DA.
Chúng ta đã biết, tập ’ = {H(x): x H(G)}{X} được coi là cơ sở của một tô-pô
, nghĩa là (X, ) trở thành một không gian tô-pô được định nghĩa bởi ’, và H(x), tập tất cả các thuật ngữ xuất phát từ nghĩa của x, thể hiện một sự tương tự ngữ nghĩa giữa các phần tử của nó. Bên cạnh đó, vì A bảo toàn quan hệ thứ tự ngữ nghĩa trên
X, chúng ta có thể coi khoảng (x) = (A(x), A(x)] như một lân cận của phần tử A(x) UA và gọi nó là lân cận ngữ nghĩa của thuật ngữ mờ x. Nó phản ánh một mức độ tương đồng về ngữ nghĩa giữa x và giá trị thực trong khoảng (x).
Dựa trên phân tích này, chúng ta có thể xử l ý dữ liệu trong một cơ sở dữ liệu theo cách thông thông thường và thống nhất như được trình bày dưới đây. Tuy nhiên, vấn đề đặt ra là làm thế nào để chúng ta có thể tìm một lân cận của thuật ngữ x đủ nhỏ ở mức mà chúng ta mong muốn? Chúng ta có thể tiến hành như sau:
Cho trước một miền thuật ngữ X của một biến ngôn ngữ A. K ý hiệu Xk là tập tất cả các thuật ngữ của x có độ dài k, nghĩa là Xk = {xX: l(x) = k}. Phần tử nhỏ nhất trong Xk được k hiệu là x0k. Chú ý là A(x0k) = 0. Ta hãy đưa ra các ký pháp như sau: Đặt (x) = (A(x), A(x)], với x Xk và x x0k, và (x0k) = [A(x0k), A(x0k)] hoặc đặt (x) = [A(x), A(x)] nếu A(x) = 0. Bằng phương pháp quy nạp, có thể thấy rằng:
(1) Đặt (Xk) = {(x0k) = [A(x0k), A(x0k)]} {(x) = (A(x), A(x)]: x
Xk & x x0k} và gọi các thành phần của nó là lân cận mức k. Khi đó (Xk) là một phân hoạch của khoảng UA, nghĩa là:
(i) Bất kỳ 2 lân cận khác nhau trong (Xk) đều rời nhau; và (ii) Hợp của tất cả các lân cận trong (Xk) bằng UA.
(2) Phân hoạch (Xk+1) mịn hơn (Xk), nghĩa là mỗi khoảng của (Xk+1) thuộc một khoảng của (Xk). Nếu chúng ta gọi k là độ dài lớn nhất của các khoảng trong (Xk) và là độ mờ lớn nhất của các gia tử trong H, khi đó ta có k+1 ≤ k ≤ k1. Vì < 1, nên thuật ngữ x càng cụ thể (hoặc càng dài) thì khoảng (x) càng nhỏ.
(3) Ánh xạ A(x) của mỗi thuật ngữ term xXj có độ dài j ≤ k luôn là điểm mút chung của hai phân hoạch thuộc khoảng (Xk+1).
Định nghĩa 1.9. Với mỗi thuật ngữ x = hk-1 ... h1c có độ dài k, c G, một tập hợp các khoảng, ký hiệu là NeiGd(x), d ≥ k, được gọi là một hệ lân cận ngữ nghĩa cơ sở với độ dài d của x theo ánh xạ A, nếu nó bao gồm những phân hoạch sau:
1) k(x) = (x) = (A(x),A(x)], một khoảng với độ sâu k của x;
2) j(x), với d ≥ j > k, j(x) là khoảng được định nghĩa là hợp giữa hai khoảng với độ sâu j có giá trị A(x) là điểm mút chung. Nó cũng được gọi là một lân cận có độ sâuj của thuật ngữ x.
Rõ ràng A(x) luôn là một điểm trong của mọi lân cận ngữ nghĩa của NeiGd(x). Cần lưu ý là cách định nghĩa các lân cận theo định nghĩa trên phụ thuộc vào quan hệ giữa chỉ số biểu thị độ sâu của một lân cận của thuật ngữ x và độ dài của x.
Ví dụ 1.2: Chúng ta hãy xem xét một đại số gia tử tuyến tính về AGE, AX = (X, G,
C, H,,,), với G = {young, old}, H = {P, L} và H+ = {M, V}, P, L, M và V là các chữ viết tắt tương ứng của Possibly, Little, More và Very. Giả sử DA = [0, 120],
fm(old) = 0.55, fm(young) = 0.45, (P) = 0.32, (L) = 0.20, (M) = 0.30 và (V) = 0.18. Như vậy = 0.52 và = 0.48.
1) Lân cận ngữ nghĩa của young: Theo định nghĩa A(young) = (0.45 – 0.45×0.52)×120 = 0.234×120 = 28.08. Hệ lân cận ngữ nghĩa cơ sở với độ sâu là 1 của từ young, NeiG1(young), bao gồm một phân hoạch duy nhất (young) = [A(young),A(young)] = [0, fm(young)×120] = [0, 54.00];
Hệ lân cận ngữ nghĩa cơ sở với độ sâu 2 của từ young, NeiG2(young), bao gồm phân hoạch (young) = [0, 54.00] và phân hoạch (A(Myoung), A(Myoung)]
(A(Pyoung), A(Pyoung)] = (A(Myoung), A(Pyoung)] = (A(young) – fm(M young), A(young) + fm(Pyoung)] = (28.08 – 0.135×120, 28.08 + 0.144×120) = (11.88, 45.36], vì Myoung and Pyoung là các từ lân cận trái và phải với độ sâu 2 của
young vàMyoung = Pyoung = young.
Lân cận với độ sâu 3 của young theo A là phân hoạch 3(young) = (A(LM young), A(LMyoung)] (A(VPyoung), A(VPyoung)] = (A(LMyoung), A(VPyoung)] = (A(young) fm(LMyoung), A(young) + fm(VPyoung)] = (28.08
0.027 120, 28.08 + 0.02592 120] = (24.84, 31.1904], vì cùng một l ý do như trên và LMyoung) = VPyoung.
Như vậy, giá trị thực của phân hoạch 3(young) tương tự với đại diện A(young) của từ young với một mức độ cao hơn giá trị thực trong các phân hoạch (young) và 2(young).
2) Các lân cận ngữ nghĩa của Possibly young: Theo định nghĩa, A(Pyoung) chia khoảng (A(young), A(W)] theo tỷ lệ : và do vậy A(Pyoung) = 28.08 + 0.48×0.32× 0.45×120 = 36.3744.
NeiG1(Pyoung) bao gồm một khoảng duy nhất [A(Pyoung), A(Pyoung)] = (28.08, 28.08 + 0.32×0.45×120] = (28.08, 45.36];
NeiG3(Pyoung) chứa các lân cận trong NeiG1(Pyoung) và các lân cận sau với lưu ý rằng độ sâu của Pyoung là 2:
2(Pyoung) = (A(Pyoung) – fm(MPyoung)×120, A(Pyoung) +
fm(PPyoung)×120]
= (36.3744 – 0.30×0.32×0.45×120, 36.3744 + 0.32×0.32×0.45×120] = (30.682, 41.904].
3(Pyoung) = (A(Pyoung) – fm(LMPyoung)×120, A(Pyoung) +
fm(VPPyoung)×120]
= (36.3744 – 0.20×0.30×0.32×0.45×120, 36.3744 + 0.18×0.32×0.32×0.45×120]
CHƯƠNG 2 – XÂY DỰNG MÔ HÌNH CSDL QUAN HỆ VỚI THÔNG TIN NGÔN NGỮ