Cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự

Một phần của tài liệu Lý thuyết chuẩn hóa của cơ sở dữ liệu mờ và ngôn ngữ SQL mờ (Trang 33)

Mô hình cơ sở dữ liệu quan hệ mờ dựa trên quan hệ tương tự thực tế là một tổng quát hoá của mô hình quan hệ truyền thống. Nó cho phép giá trị tại mỗi thuộc tính có thể là đa trị (một tập giá trị có thể) và thay thế khái niệm đồng nhất bằng khái niệm tương tự.

Mô hình cơ sở dữ liệu dựa trên quan hệ tương tự cho phép giá trị tại mỗi thuộc tính là một tập giá trị và tất cả các giá trị đó phải nằm trong cùng một miền trị. Do vậy, mô hình này vẫn giữ được các tính chất giá trị thuộc tính định kiểu mạnh của mô hình quan hệ truyền thống. Tính chất này rất có ích cho việc xử lý truy vấn và các thao tác cập nhật. Nếu giá trị thuộc tính là chính xác và rõ ràng, thì giá trị là đơn trị, nếu giá trị thuộc tính là không chính xác và mơ hồ, thì một tập các giá trị tương tự với giá trị này được xem xét. Độ tương tự giữa các giá trị được định nghĩa bởi quan hệ tương tự trong miền trị thuộc tính.

Mô hình truyền thống so sánh 2 giá trị thuộc tính bằng cách kiểm tra hai giá trị đó có bằng nhau hay không. Quan hệ đồng nhất phản ánh điều này:

i(x,y)=1 nếu và chỉ nếu x=y và i(x, y)=0 trong trường hợp khác. Mô hình quan hệ tương tự so sánh 2 giá trị bằng cách đo sự gần nhau giữa 2 giá trị đó dựa trên quan hệ tương tựđã được mô tả trong miền trị thuộc tính.

2.2. Các dng chun m đi vi các quan h m.

Trong một thiết kế cơ sở dữ liệu logic, ràng buộc toàn vẹn có một vai trò rất quan trọng. Một trong những ràng buộc toàn vẹn quan trọng nhất là phụ thuộc hàm. Bởi vì, các phụ thuộc hàm phản ánh ngữ nghĩa về mối quan hệ

giữa các thuộc tính. Chúng giúp loại bỏ các thông tin dư thừa của các quan hệ trong cơ sở dữ liệu.

2.2.1. Ph thuc hàm m (ffd)

Các phụ thuộc hàm mờ (ffd) phản ánh ngữ nghĩa của các tập con thuộc tính trong thế giới thực.Các ffd được sử dụng để thiết kế các cơ sở dữ liệu mờ, làm giảm dư thừa dữ liệu và các dị thường trong cập nhật.

Trong mô hình truyền thống, một phụ thuộc hàm XY nói rằng các giá trị bằng nhau của Y tương ứng với các giá trị bằng nhau của X. Tuy nhiên,

định nghĩa về phụ thuộc hàm không được áp dụng trực tiếp tới cơ sở dữ liệu mờ dựa trên quan hệ tương tự vì các khái niệm “bằng” không được áp dụng trực tiếp trong mô hình cơ sở dữ liệu mờ. Trong mô hình quan hệ mờ, mức độ

“X xác định Y” có thể không nhất thiết là 1 như trong quan hệ rõ. Một cách tự nhiên, một giá trị trong khoảng [0,1] có thể được chấp nhận. Trong trường hợp này, định nghĩa của ffd trở thành “các giá trị tương tự của Y tương ứng với các giá trị tương tự của X”

Các phụ thuộc hàm mờ là các ràng buộc được xác định giữa các thuộc tính của lược đồ quan hệ mờ. Các phụ thuộc hàm mờ được định nghĩa dựa trên khái niệm về sự phù hợp (conformance) giữa các bộ dữ liệu (sau đây gọi tắt là bộ) [25][30][31].

2.2.1.1. S phù hp ca các b

Quan hệ tương tự của các giá trị thuộc tính định nghĩa thế nào là sự phù hợp giữa 2 bộ trên thuộc tính đó. Một định nghĩa chuẩn về sự phù hợp của các bộđược đưa ra như sau:

Định nghĩa 2.2. [4] S phù hp ca thuc tính Ak được định nghĩa trên min tr Dk cho bt k 2 b t1 và t2 trong quan h r, ký hiu bi C( Ak [t1 , t2] ).

C(Ak[t1,t2]) = min {minx∈d1{maxy∈d2{s(x,y)}},minx ∈d2{maxy∈d1{s(x,y)}}}

Trong đó d1 là tp giá tr ca thuc tính Ak đối vi b t1, d2 là tp giá tr ca thuc tính Akđối vi b t2, s(x, y) là mt quan h tương t ca các giá tr x và y, và s là mt ánh x ca mi cp phn t trong min Dk vào đon [0, 1].

Ví d 2.1. Cho quan hệ mờ

NGƯỜI = (TÊN, NĂNG LC, THU NHP)

Các quan hệ tương tự của miền thuộc tính được cho trong các bảng sau:

TÊN Nam Hùng Quang

Nam 1 0 0 0

Hùng 0 1 0 0

Quang 0 0 1 0

Hà 0 0 0 1

Bng 2.1: Quan h tương tựđối vi thuc tính TÊN

NĂNG LC Rt kém Kém Trung bình Tt Xut sc Rất kém 1 0.75 0.3 0.3 0.3 Kém 0.75 1 0.3 0.3 0.3 Trung bình 0.3 0.3 1 0.6 0.6 Tốt 0.3 0.3 0.3 1 0.65 Xuất sắc 0.3 0.3 0.3 0.65 1

Bng 2.2: Quan h tương tựđối vi thuc tính NĂNG LC

THU NHP Rt thp Thp Trung bình Cao Rt cao

Rất thấp 1 0.8 0.2 0.2 0.2

Thấp 0.8 1 0.2 0.2 0.2

Trung bình 0.2 0.2 1 0.6 0.6

THU NHP Rt thp Thp Trung bình Cao Rt cao

Rất cao 0.2 0.2 0.6 0.8 1

Bng 2.3: Quan h tương tựđối vi thuc tính THU NHP

TÊN NĂNG LC THU NHP

t1 {Nam} {Kém, rt kém} {rt thp} t2 {Quang} {trung bình} {thp, trung bình} t3 {Hùng} {trung bình, tt} {thp} t4 {Hà} {trung bình} {rt thp}

Bng 2.4: Các b d liu đối vi quan h NGƯỜI

Sự phù hợp đối với thuộc tính THU NHẬP cho các bộ t2 và t3 được tính như sau:

C(Thu nhp[t2, t3]) = min{min {max {s(thp, thp )}, max{s(trung bình, thp)}}, min {max{s( thp, thp), s( thp, trung bình)}}}

= min {min {max{1}, max{0.2}}, min {max{1,0.2}}} = min {min {1, 0.2}, min {1}}

= min {0.2, 1} = 0.2

Trong mô hình dữ liệu quan hệ truyền thống, cả d1 và d2 là tập một phần tử, và quan hệ tương tự giữa bất cứ bộ nào chỉ có thể là 0 hoặc 1. Ở đây, quan hệ đồng nhất được thay thế bởi mô tả s(x, y) mà quan hệ đồng nhất là một trường hợp đặc biệt. Để mô tả sự gần nhau giữa 2 bộ trên một tập các thuộc tính, định nghĩa về sự phù hợp được mở rộng trong tài liệu tham khảo [30] như sau:

Định nghĩa 2.3. S phù hp ca tp thuc tính X cho bt k 2 b t1 và t2 trong quan h r, ký hiu bi C( X [t1, t2] )

C ( X [t1, t2] ) = minAk∈X {C( Ak [t1, t2] )}.

2.2.1.2.S phù hp vi độđo kh năng

Mô hình quan hệ dựa trên quan hệ tương tự cho phép giá trị tại mỗi thuộc tính là đa trị (một tập giá trị có thể) và có một quan hệ tương tự giữa các giá trị thuộc tính được định nghĩa trên miền trị thuộc tính. Tuy nhiên trên thực tế dữ liệu thường có một độ chắc chắn thể hiện khả năng có thể xảy ra của dữ liệu. Trong mô hình dựa trên lý thuyết khả năng, mỗi giá trị của thuộc tính thường được gắn với một độđo khả năng thể hiện khả năng có thể xảy ra của dữ liệu đó. Trong mô hình dựa trên quan hệ tương tự, mặc dù cho phép một tập các giá trị có thể tại mỗi thuộc tính nhưng nó không thể hiện được độ chắc chắn xảy ra của mỗi giá trị đó. Để khắc phục, người ta thường kết hợp độ đo khả năng của dữ liệu trong lý thuyết khả năng vào mô hình dựa trên quan hệ tương tự. Lúc này, mỗi giá trị trong mô hình dựa trên quan hệ tương tự sẽđược gắn thêm một độđo khả năng thể hiện khả năng có thể xảy ra của giá trị đó. Độđo khả năng này là một số thực nằm trong đoạn [0, 1].

Giả sử F là một tập giá trị trên một thuộc tính. F có khuôn dạng như sau: F= {FPi | labelFi} với i=1,2,....N

Trong đó, LabelFi là giá trị (nhãn ngôn ngữ). FPi là các độ đo khả năng xảy ra của giá trị, FPi nằm trong đoạn [0, 1]. N là số lượng các cặp {FPi | labelFi}, N≥1.

Ví d 2.2. Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LC, THU NHP) được định nghĩa bởi ví dụ 2.1.

Theo định nghĩa mới, thuộc tính NĂNG LC sẽ có giá trị {0.8|kém,

0.3|rt kém}, nghĩa là giá trị kém có khả năng xảy ra cao hơn giá trị rt kém vì

Trên cơ sở định nghĩa mới về các bộ dữ liệu, luận văn đề xuất một định nghĩa mới về sự phù hợp giữa các bộ dữ liệu như sau:

Định nghĩa 2.4. S phù hp ca thuc tính Ak được định nghĩa trên min tr

Dk cho bt k 2 b t1 và t2 trong quan h r, ký hiu bi C( Ak [t1, t2] )

C(Ak[t1,t2]) = maxx∈d1{maxy∈d2{min {s(x,y),degx,degy}}},

trong đó d1 là tp giá tr ca thuc tính Akđối vi b t1, d2 là tp giá tr

ca thuc tính Ak đối vi b t2, s(x, y) là mt quan h tương t gia giá tr x và y, và s là mt ánh x ca mi cp phn t trong min Dk vào đon [0, 1],

degxđộđo kh năng xy ra ca giá tr x, degyđộđo kh năng xy ra ca giá tr y.

Độ phù hợp mới giữa hai giá trị được xây dựng dựa trên các tiêu chí về quan hệ tương tự và độđo khả năng xảy ra của dữ liệu.

Ví d 2.3. Với quan hệ mờ NGƯỜI = (TÊN, NĂNG LC, THU NHP)

được định nghĩa bởi ví dụ 2.1. Lúc này các bộ dữ liệu mới đối với quan hệ

NGƯỜI được định nghĩa như sau:

TÊN NĂNG LC THU NHP

d1 {Nam} {0.8/kém, 0.3/rt kém} {0.9/rt thp} d2 {Quang} {0.9/trung bình} {0.8/thp,0.3/trung bình} d3 {Hùng} {0.3/trung bình, 0.9/ tt} {0.9/thp}

d4 {Hà} {0.8/trung bình} {0.8/rt thp}

Bng 2.5: Các b d liu mi đối vi quan h NGƯỜI

Quan hệ tương tự giữa các nhãn được định nghĩa nhưở ví dụ 2.1.

Theo định nghĩa mới, sự phù hợp đối với thuộc tính THU NHẬP của các bộ d2 và d3 được tính như sau:

C(Thu nhp[d2, d3]) = max {max {min {s(thp, thp ), 0.8, 0.9}},

max{min{s(trung bình, thp),0.3, 0.9}}}

= max {max {min{1,0.8, 0.9}}, max{min{0.2, 0.3, 0.9}}} = max {max {0.8}, max {0.2}}

= max {0.8, 0.2} = 0.8

2.2.1.3.Định nghĩa ph thuc hàm m

Định nghĩa 2.5. [4] Cho quan h m r là mt th hin bt k trên lược đồ

quan h R(A1,… ,An), U là tp vũ tr các thuc tính A1,…, An và X, Y là tp con ca U. Quan h m r gi là tho mãn ph thuc hàm m, X →ϑ Y, nếu mi cp b t1 và t2 thuc r, C(Y [ t1, t2]) min(ϑ, C(X [ t1, t2 ])), trong đó ϑ

là s thc nm trong đon [0, 1], mô tảđộ mnh ngôn ng.

Các ffd cần được kiểm tra bất cứ khi nào các bộ được đưa vào cơ sở dữ liệu quan hệ mờ hoặc chúng được sửa đổi, sao cho các ràng buộc toàn vẹn được áp đặt bởi các ffd không bị vi phạm.

Ví d 2.4. Cho quan hệ mờ NGƯỜI = (TÊN, NĂNG LC, THU NHP)

được định nghĩa trong ví dụ 2.1

Ràng buộc toàn vẹn cho quan hệ “NGƯỜI” là “Năng lực làm việc của nhân viên nhiều hay ít xác định thu nhập của họ”, ffd của quan hệ này là

NĂNG LC 0.6 THU NHP, ở đây 0.6 là độ mạnh của ngôn ngữ. “nhiều hay ít”. Ffd này cần được kiểm tra bất cứ khi nào các bộ dữ liệu mới được thêm vào, để xem bộ mới này có vi phạm ffd không. Dưới đây, một cặp bộ được chèn vào để khảo sát sự phù hợp các bộ.

({Nam},{kém, rt kém}, {rt thp})

Bộ này không xung đột với ffd

Bước 2: Chèn vào bộ thứ hai

({Quang},{trung bình}, {thp,trung bình})

Các giá trị phù hợp của các thuộc tính vế phải và trái của ffd là

C(Năng lc[t1, t2]) =0.3, C(Thu nhp[t1, t2]) =0.2

Ởđây, ffd: NĂNG LC 0.6 THU NHP bị vi phạm bởi vì

C(Thu nhp[t1, t2]) =0.2 < min(0.6,C(Năng lc[t1, t2]))

Do đó bộ này không được chèn vào.

Bước 3: Chèn bộ thứ ba

({Hùng},{trung bình, tt}, {thp})

Chỉ có một bộ phù hợp với sự kiểm tra, vì các bộ của bước 2 không được chèn vào.

C(Năng lc[t1, t2]) =0.3, C(Thu nhp[t1, t2]) =0.8

Ffd: NĂNG LC 0.6 THU NHP không bị vi phạm vì

C(Thu nhp[t1, t2]) min(0.6, C(Năng lc[t1, t2])), do vậy bộ này được chèn vào. Bây giờ chúng ta có 2 bộ phù hợp với quan hệ

t1: ({Nam},{kém, rt kém}, {rt thp}) t3: ({Hùng},{trung bình, tt}, {thp})

Bước 4: Chèn vào bộ thứ 4

({Hà},{trung bình}, {rt thp})

C(Năng lc[t1, t3]) =0.3, C(Thu nhp[t1, t3]) =1 C(Năng lc[t2, t3]) =0.6, C(Thu nhp[t2, t3]) =0.8

Sau đó ffd: NĂNG LC 0.6 THU NHP không bị vi phạm bởi vì cả

C(Thu nhp[t1, t3]) min(0.6,C(Năng lc[t1, t3])), C(Thu nhp[t2, t3]) min(0.6,C(Năng lc[t2, t3]))

Do đó bộ này được chèn vào.

Do vậy chúng ta có 3 bộ thoả mãn ràng buộc của quan hệ

t1: ({Nam},{kém, rt kém}, {rt thp}) t3: ({Hùng},{trung bình, tt}, {thp}) t4: ({Hà},{trung bình}, {rt thp})

2.2.1.4.Ph thuc hàm m mt phn

Ffd một phần được định nghĩa dựa trên định nghĩa về ffd, chúng được sử dụng đểđịnh nghĩa dạng chuẩn mờ thứ 2.

Định nghĩa 2.6. [4] Y được gi là ph thuc hàm m mt phn vào X vi độ

mnh ϑ, X→ϑY mt phn, nếu và ch nếu X→ϑ Y và tn ti X’ X, X’

Ø, và X’→α Y vi α ≥ ϑ.

Một phụ thuộc hàm mờ X→ϑY là phụ thuộc hàm mờ một phần, nếu loại bỏ một thuộc tính A khỏi X thì sự phụ thuộc vẫn giữ được. Có nghĩa, đối với một thuộc tính A∈ X, X − {A} vẫn xác định hàm mờ Y với độ α ≥ ϑ.

Ví d 2.5. Cho lược đồ quan hệ R = (A, B, C) và các ffd là AB→0.8 C và A→0.9 C. Sau khi loại bỏ thuộc tính B từ ffd đầu tiên, phụ thuộc vẫn giữ, do đó AB→0.8 C là ffd một phần.

2.2.1.5.Các quy tc suy din ph thuc hàm m

Các quy tắc suy diễn của phụ thuộc hàm mờ [31]. 1. Quy tắc gộp (Inclusive rule)

Nếu X→θ1 Y và θ1≥θ2, thì X→θ2 Y 2. Quy tắc phản xạ (Reflexive Rule)

Nếu X ⊇Y, X→θ Y đúng với mọi θ ∈[0,1] 3. Quy tắc tăng trưởng (Augmentation) Nếu r thoả X→θ Y, nó cũng thỏa XZ→θ YZ 4. Quy tắc bắc cầu

Nếu r thoả X→θ1 Y và Y→θ2 Z, nó cũng thỏa X→min(θ1,θ2) Z. Một số quy tắc suy diễn khác được suy ra từ các quy tắc trên

5.Quy tắc hợp (Union Rule)

Nếu r thoả X→θ1 Y và X→θ2 Z, nó cũng thoả X→min(θ1,θ2) YZ. 6.Quy tắc giả bắc cầu (Pseudotransitivty rule)

Nếu r thoả X→θ1 Y và WY→θ2 Z, nó cũng thoả WX→min(θ1,θ2) Z. 7.Quy tắc phân rã (Decomposition Rule)

Nếu X→θ Y và Z ⊆ Y thì X→θ Z

2.2.2. Khoá m

Tương tự như trong quan hệ truyền thống, trong mô hình cơ sở dữ liệu quan hệ mờ, các dạng chuẩn mờ được định nghĩa dựa trên khái niệm phụ thuộc hàm mờ và khoá mờ.

Định nghĩa 2.7. [4] Cho K, S U, và F là mt tp ph thuc hàm m ca lược đồ quan h R: K được gi là mt khoá m ca R vi độ mnh ϑ nếu và

ch nếu K→ϑi U F và K→ϑi U không phi là ffd mt phn, trong đó

ϑ=minϑi và ϑ >0.

Ví d 2.6. Cho quan hệ R=(A, B, C, D), và các phụ thuộc hàm mờ: A→0.7 B và A→0.9 CD, A là khoá mờ của quan hệ với độ mạnh 0.7, vì giá trị B được xác định bởi A với độ mạnh là 0.7 và các giá trị C, D được xác định bởi A với độ mạnh 0.9. Các giá trị ϑ1=0.7 và ϑ2 = 0.9 và giá trị ϑ khi đó là min của {0.7,0.9}, đó là 0.7.

Khoá mờ có các giá trị như một thuộc tính thông thường. Nó có thể có nhiều giá trị như là {a,b} ở đó a và b là tương tự nhau với một mức độ tương tự nhất định. Giá trị khoá mờ chỉ có một hạn chế như các thuộc tính khác là không được là tổ hợp của AND. Điều này sẽđược giải thích ở phần sau.

2.2.2.1.Bao đóng các ph thuc hàm m

Cho một tập các phụ thuộc hàm mờ của một quan hệ, khoá mờ của quan hệ có thể tìm thấy bằng cách sử dụng khái niệm bao đóng bắc cầu. Chen, Kerre và Vandenbulcke ([13]) đã nghiên cứu bao đóng bắc cầu và các tiên đề của phụ thuộc hàm mờ. Việc tính bao đóng bắc cầu của tập phụ thuộc hàm mờ F dựa trên các quy tắc suy diễn là không đơn giản, bởi vì tập đó có thể là rất lớn cho dù tập phụ thuộc F là nhỏ. Thay vì sử dụng phương pháp trên, thuật toán sau tìm tất cả các thuộc tính phụ thuộc hàm mờ vào tập thuộc tính X và độ mạnh lớn nhất sẽđược lấy, gọi là bao đóng bắc cầu của X.

Thut toán 2.1. [4] Thut toán tính bao đóng bc cu.

Vào: X là tp k thuc tính X=X1, X2,....Xk . F là tp các ph thuc hàm m.

Ra: X+, bao đóng bc cu ca X ng vi F.

1) Khi to danh sách bao đóng ca X, ký hiu là XList, vi tp các thuc tính thuc X vi độ ln nht, 1, cho mi thuc tính.

Một phần của tài liệu Lý thuyết chuẩn hóa của cơ sở dữ liệu mờ và ngôn ngữ SQL mờ (Trang 33)

Tải bản đầy đủ (PDF)

(105 trang)