Hướng mở rộng ngữ nghĩa, dữ liệu vẫn được lưu trữ như mô hình quan hệ, dữ liệu tại các thuộc tính của các bộ vẫn là dữ liệu rõ nhưng cho phép khai thác dữ liệu với ngữ nghĩa rộng hơn có
Trang 1MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỞ ĐẦU 8
CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ 11
1.1 Các mô hình cơ sở dữ liệu mờ 11
1.1.1 Mô hình dựa trên lý thuyết tập mờ (mô hình tập con mờ) 11
1.1.2 Mô hình dựa trên quan hệ tương tự 13
1.1.3 Mô hình dựa trên lý thuyết khả năng 15
1.2 Phụ thuộc dữ liệu trên cơ sở dữ liệu mờ 17
1.2.1 Phụ thuộc hàm mờ 17
1.2.2 Phụ thuộc đa trị mờ 21
1.3 Kết luận chương một 23
CHƯƠNG 2 CHUẨN HÓA VÀ TÁCH LƯỢC ĐỒ QUAN HỆ TRONG CƠ SỞ DỮ LIỆU MỜ 25
2.1 Phụ thuộc hàm mờ 26
2.1.1 Độ phù hợp giữa các bộ 27
2.1.2 Định nghĩa phụ thuộc hàm mờ 28
2.1.3 Các quy tắc suy diễn cho phụ thuộc hàm mờ 31
2.2 Khóa mờ 32
2.2.1 Bao đóng bắc cầu của các phụ thuộc hàm mờ (bao đóng của tập thuộc tính đối với tập phụ thuộc hàm) 33
2.2.2 Tìm khóa mờ của một quan hệ 35
2.2.3 Thuộc tính khóa và thuộc tính không khóa 37
2.3 Các dạng chuẩn mờ 37
2.3.1 Dạng chuẩn mờ một (f-1NF) 37
2.3.2 Dạng chuẩn mờ hai (f-2NF) 38
2.3.3 Dạng chuẩn mờ ba (f-3NF) 40
2.4 Tách lược đồ quan hệ mờ 42
2.4.1 Phân tách thành dạng chuẩn mờ hai 42
Trang 22.4.2 Phân tách thành dạng chuẩn mờ ba 42
2.5 Dạng chuẩn mờ Boyce Codd 53
2.6 Kết luận chương hai 54
CHƯƠNG 3 MỞ RỘNG CƠ SỞ DỮ LIỆU QUAN HỆ THÀNH CƠ SỞ DỮ LIỆU MỜ DỰA TRÊN LÝ THUYẾT KHẢ NĂNG 56
3.1 Bộ có trọng số (Weighted tuples) trong quan hệ mờ 56
3.2 Biểu diễn dữ liệu mờ bằng phân bố khả năng 57
3.3 Một số mô hình cơ sở dữ liệu mờ dựa trên lý thuyết khả năng 61
3.3.1 Mô hình Prade-Testemale 61
3.3.2 Mô hình Umano-Fukami 62
3.3.3 Mô hình Zemankova-Kandel 63
3.4 Các phép toán đại số quan hệ mờ 64
3.4.1 Phép chọn mờ 64
3.4.2 Phép chiếu mờ 65
3.4.3 Phép kết nối mờ 66
3.5 Kết luận chương ba 67
CHƯƠNG 4 FSQL VÀ MỘT VÍ DỤ MINH HỌA 68
4.1 Truy vấn dữ liệu 68
4.1.1 Hỏi mềm dẻo 68
4.1.2 Truy vấn mờ trong cơ sở dữ liệu quan hệ 72
4.1.3 Hỏi mềm dẻo trong cơ sở dữ liệu quan hệ kinh điển 73
4.2 Ngôn ngữ truy vấn mờ có cấu trúc (FSQL) 74
4.2.1 Nhãn ngữ nghĩa 75
4.2.2 Các phép so sánh 75
4.2.3 Các hằng số mờ 76
4.2.4 Các thuộc tính mờ và biểu diễn giá trị mờ 76
4.3 Mô hình cơ sở dữ liệu quan hệ mờ cơ bản 78
4.4 Ứng dụng FSQL trên một cơ sở dữ liệu rõ 82
4.5 Kết luận chương bốn 88
KẾT LUẬN 89
Trang 3TÀI LIỆU THAM KHẢO 100
Trang 4DANH MỤC CÁC HÌNH VẼ VÀ BẢNG BIỂU
Bảng 1-1:Quan hệ r trên lược đồ EMPLOYEE 12
Bảng 1-2: Phép chiếu quan hệ r trên hai thuộc tính N và D 12
Hình 1-3: Bảng tổng kết các tiêu chuẩn cho các phụ thuộc hàm mờ 21
Bảng 2-1: Bảng quan hệ tương tự cho thuộc tính NAME 28
Bảng 2-2: Bảng quan hệ tương tự cho thuộc tính PERFORMANCE 29
Bảng 2-3: Bảng quan hệ tương tự cho thuộc tính EARNING 29
Bảng 2-4: Bảng khởi tạo cho quan hệ R = (A,B,C,D,E,F) 50
Bảng 2-5: Bảng sau khi áp dụng bước ba của thuật toán 2.12 với R 51
Bảng 2-6: Bảng khởi tạo cho quan hệ R = (A,B,C,D,E,F,G) 51
Bảng 2-7: Bảng sau khi áp dụng bước ba của thuật toán 2.12 vào R 52
Bảng 2-8: Bảng sau khi áp dụng bước bốn của thuật toán vào R 52
Bảng 2-9: Bảng kết quả sau khi kết thúc thuật toán 53
Hình 3-1: Biểu diễn các tình huống bằng phân bố khả năng trong trường hợp thông thường 58
Hình 3-2: Biểu diễn các tình huống bằng phân bố khả năng trong trường hợp xấu 59 Bảng 3-3: Biểu diễn thông tin trong hai mô hình Prade-Testemale và Umano-Fukami 63
Bảng 3-4: Quan hệ mờ r 65
Bảng 3-5: Kết quả của phép chiếu mờ của r trên hai thuộc tính Mã phòng ban và Tuổi 66
Bảng 3-6: Quan hệ mờ r 67
Bảng 3-7: Quan hệ mờ s 67
Bảng 3-8: Kết quả phép kết nối tự nhiên giữa r và s 67
Bảng 4-1: Mối quan hệ tuổi trung bình và lương (tháng) 71
Hình 4-2: Tuổi của John và căn cứ “Trung niên” 72
Hình 4-3: Tuổi của John = “Trung niên” 72
Bảng 4-4: Một số các đặc trưng của khả năng và cấp độ cần thiết 73
Bảng 4-5: Một số phép so sánh mờ 75
Bảng 4-6: Biểu diễn bên trong của thuộc tính mờ loại 2 (Cho mỗi thuộc tính mờ F) 77
Trang 5Bảng 4-7: Biểu diễn bên trong của thuộc tính mờ loại 3 hoặc 4 (Cho mỗi thuộc tính
mờ F) 78
Hình 4-8: Kiến trúc cơ bản của FRDB với FSQL Server 79
Bảng 4-9: [10] Các bảng trong FMB (theo mô hình của Jose Galindo) 80
Hình 4-10: [10] Các bảng trong FMB và mối quan hệ của chúng (theo mô hình của Jose Galindo) 81
Hình 4-11: Định nghĩa các nhãn trên TUOI 83
Hình 4-12: Định nghĩa các nhãn trên LUONG 84
Bảng 4-13: Quan hệ tương tự giữa các nhãn của thuộc tính NANGLUC 84
Hình 4-14: Định nghĩa các nhãn trên MUAHANG 85
Hình 4-15: Kết quả truy vấn mềm dẻo 87
Trang 6MỞ ĐẦU
Mô hình cơ sở dữ liệu quan hệ do Codd E.F đề xuất năm 1970 đã đạt được những kết quả hoàn chỉnh về lý thuyết và ứng dụng Tuy nhiên mô hình này hạn chế trong việc biểu diễn thông tin không đầy đủ, không chắc chắn (gọi chung là dữ liệu mờ), loại dữ liệu này được con người sử dụng thường xuyên trong thực tế Đã có nhiều cách tiếp cận và đề xuất mô hình cơ sở dữ liệu mờ, những kết quả lý thuyết đã được xây dựng trong mô hình quan hệ truyền thống cũng được kiểm chứng trên các
mô hình mới với những mở rộng thích hợp Do vậy việc tìm hiểu cơ sở dữ liệu mờ
và ứng dụng vào giải quyết các bài toán thực tế là một nhu cầu cấp thiết trong thực tiễn Một trong những cách xây dựng một cơ sở dữ liệu mờ là mở rộng cơ sở dữ liệu quan hệ kinh điển Có thể mở rộng mô hình quan hệ để đáp ứng nhu cầu lưu trữ và khai thác dữ liệu mờ theo hai hướng, đó là: mở rộng ngữ nghĩa của dữ liệu để khai thác dữ liệu rõ với yếu tố mờ và mở rộng miền trị thuộc tính để biểu diễn được dữ liệu mờ
Hướng mở rộng ngữ nghĩa, dữ liệu vẫn được lưu trữ như mô hình quan hệ, dữ liệu tại các thuộc tính của các bộ vẫn là dữ liệu rõ nhưng cho phép khai thác dữ liệu với ngữ nghĩa rộng hơn (có yếu tố mờ) Cách tiếp cận này sử dụng sử dụng lý thuyết tập mờ để mở rộng bằng cách thêm thuộc tính độ thuộc cho mỗi bộ trong quan hệ vào quan hệ Ví dụ ta có thể truy xuất một cơ sở dữ liệu nguồn lực của một doanh nghiệp với một câu hỏi như sau: Liệt kê những người trẻ tuổi trong công ty Thế nào là trẻ tuổi?, ta sẽ phải xây dựng cơ sở logic cho việc xử lý ngữ nghĩa mở rộng của dữ liệu như thế này và lý thuyết tập mờ và logic mờ là cơ sở để thực hiện Hướng mở rộng ngữ nghĩa có thể vẫn sử dụng các hệ quản trị cơ sở dữ liệu quan hệ sẵn có trong việc lưu trữ dữ liệu, còn những mở rộng cho việc xử lý dữ liệu được xây dựng thành các gói riêng, cài đặt thêm, nhúng vào hệ quản trị đó Tuy nhiên cách mở rộng này chưa cho phép lưu trữ dữ liệu mờ nên hạn chế nhiều đến khả năng quản lý dữ liệu thực tế
Trang 7Hướng mở rộng miền trị thuộc tính là cách mở rộng tổng quát hơn, phản ánh đúng bản chất của vấn đề, nó cho phép bổ sung thêm các cú pháp trong biểu diễn dữ liệu nhằm biểu diễn được dữ liệu mờ Với cách mở rộng này, ngoài việc đưa vào hệ thống ký hiệu còn phải xây dựng được cơ sở logic cho việc lập luận trên các ký hiệu
để xử lý, khai thác được dữ liệu Theo hướng này, để mở rộng cơ sở dữ liệu kinh điển thành cơ sở dữ liệu mờ có hai cách tiếp cận tiêu biểu là mở rộng bằng cách sử dụng quan hệ tương tự và mở rộng theo lý thuyết khả năng
Ở Việt Nam, việc nghiên cứu về cơ sở dữ liệu mờ lần đầu tiên được PGS.TS
Hồ Thuần và PGS.TS Lê Tiến Vương quan tâm nghiên cứu từ những năm 1985 Các tác giả đã đề xuất một cách mở rộng mô hình quan hệ bằng cách mở rộng miền trị thuộc tính, xem mỗi miền trị thuộc tính là một biến ngôn ngữ Một số kết quả của
mô hình quan hệ cũng được mở rộng trên mô hình này Năm 1996, Trương Đức Hùng tiếp tục phát triển mô hình này Năm 2002, Hồ Cẩm Hà đã mở rộng mô hình
cơ sở dữ liệu mờ bằng cách sử dụng quan hệ tương tự và phát triển một số kết quả cho mô hình này Năm 2005, Trần Thiên Thành đã mở rộng mô hình cơ sở dữ liệu
mờ dựa trên lý thuyết khả năng, đưa ra được khái niệm phụ thuộc hàm với lượng từ ngôn ngữ, xây dựng được công thức đánh giá độ tin cậy của các dạng luật tổng kết
dữ liệu
Những nghiên cứu về cơ sở dữ liệu mờ đang tiếp tục và ngày càng phát triển mạnh mẽ trên thế giới cũng như ở trong nước Với mong muốn tìm hiểu về một hướng phát triển và ứng dụng nó vào thực tiễn, luận văn đề ra nhiệm vụ như sau:
1 Cách tiếp cận để mở rộng Cơ sở dữ liệu kinh điển thành cơ sở dữ liệu mờ được chọn để nghiên cứu và ứng dụng vào một bài toán cụ thể là cách tiếp cận dựa trên lý thuyết khả năng (Mô hình dựa trên lý thuyết khả năng)
2 Nghiên cứu xem trên mô hình này, cách thức xử lý thông tin không chắc chắn, mở rộng các phép toán, mở rộng ngôn ngữ truy vấn dữ liệu rõ (SQL) thành ngôn ngữ truy vấn dữ liệu mờ (FSQL)
Trang 8Luận văn gồm phần mở đầu, 4 chương, kết luận và tài liệu tham khảo
Chương 1 trình bày các khái niệm cơ bản Giới thiệu tổng quan về các mô hình cơ sở dữ liệu mờ
Chương 2 trình bày cách giải quyết các vấn đề khi mở rộng cơ sở dữ liệu quan
hệ thành cơ sở dữ liệu mờ: vấn đề phụ thuộc hàm mờ, khóa mờ, các dạng chuẩn mờ, tách lượng đồ quan hệ mờ và dạng chuẩn mờ Boyce Codd
Chương 3 đi sâu về cách tiếp cận mở rộng cơ sở dữ liệu quan hệ thành cơ sở
dữ liệu mờ theo lý thuyết khả năng Các cách thức xử lý thông tin không chắc chắn,
mở rộng các phép toán đại số quan hệ trên mô hình mới
Chương 4 ứng dụng một hướng giải quyết mở rộng ngôn ngữ truy vấn dữ liệu truyền thống (SQL) thành ngôn ngữ truy vấn dữ liệu mờ (FSQL) và ứng dụng cách tiếp cận đã trình bày trong chương 3 để giải quyết bài toán quản lý cửa hàng bán lẻ xăng dầu
Trang 9CHƯƠNG 1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ
1.1 Các mô hình cơ sở dữ liệu mờ
Các mô hình cơ sở dữ liệu mờ cho đến hiện nay chủ yếu là các mô hình mở rộng từ mô hình cơ sở dữ liệu quan hệ kinh điển Đã có nhiều mô hình cơ sở dữ liệu
mờ được đề xuất và tựu trung lại có ba cách tiếp cận để mở rộng cơ sở dữ liệu quan
hệ thành cơ sở dữ liệu mờ
1.1.1 Mô hình dựa trên lý thuyết tập mờ (mô hình tập con mờ)
Năm 1984, Mô hình này được Baldwin và Zhou đề xuất [6] Cách tiếp cận này không mở rộng miền trị thuộc tính mà mở rộng về ngữ nghĩa của dữ liệu rõ bằng cách đưa ra đánh giá độ thuộc 0,1 của mỗi bộ vào một quan hệ Một cách hình
thức, một quan hệ mờ trên lược đồ R = {A1, A2, An} các thuộc tính là một tập con mờ của tích Đề-Các:
dom(A1) x dom(A2) x x dom(An)
Về mặt biểu diễn, quan hệ mờ trong mô hình này giống như trong mô hình
quan hệ nhưng có thêm một cột µ để lưu độ thuộc của mỗi bộ vào quan hệ
Ví dụ, xét lược đồ EMPLOYEE(N,P,D,F), trong đó N (Name) là tên của nhân viên, P (Project) là tên dự án tham gia, D (Days) là số ngày tham gia, F (Fee) là số tiền thù lao được hưởng Miền trị của các thuộc tính D, F là các tập con mờ trên các
không gian tương ứng là U D = [25,60], U F= [1000,3500] Các hàm thuộc ND ,
PF, tương ứng của các tập con mờ “số ngày ít”, “tiền thù lao cao”, được cho như sau:
30,5/30
d
d d
d
ND
Trang 101500,
50/1500
f
f f
Bảng 1-1:Quan hệ r trên lược đồ EMPLOYEE
Các phép tính toán quan hệ như: Phép chiếu, hợp, giao và tích Đề–Các được thực hiện như các phép toán tương ứng trên các tập mờ [6] Chẳng hạn
như quan hệ r như trên khi chiếu lên tập thuộc tính N,D sẽ được quan hệ như Bảng 1.2
N(Tên nhân viên) D(Số ngày ) µ
Trang 11Phép so sánh giá trị trong miền trị được thực hiện qua quan hệ hai ngôi “giống nhau”(EQ) được xác định qua hàm thuộc EQ có hai tính chất phản xạ và đối xứng Trong lược đồ quan hệ trên, các quan hệ giống nhau có thể định nghĩa trên từng miền trị như sau:
EQ (a,b) = 0, Với a b, a,b dom(N)
EQ (a,b) = 1/(1+ \a-b\), trong đó = 1, Với a,b dom(D), = 1/10 Với a,b dom(F)
Đã có nhiều kết quả nghiên cứu về cơ sở dữ liệu mờ đã sử dụng mô hình này, như: những kết quả về phụ thuộc hàm mờ, kết nối không mất thông tin của Raju, phụ thuộc đa trị mờ của Jyothi, xây dựng ngôn ngữ hỏi mềm dẻo trên cơ sở dữ liệu mờ của Kacprzyk, Mô hình này tận dụng được khả năng lưu trữ dữ liệu của các hệ quản trị cơ sở dữ liệu đã có, chỉ bổ sung những mở rộng tính toán cần thiết nên nó được ứng dụng nhiều để cài đặt cho cơ sở dữ liệu mờ trong những năm cuối của thập kỷ 80 trong thế kỷ trước, tiêu biểu là các hệ OMRON, FQUERY [4]
1.1.2 Mô hình dựa trên quan hệ tương tự
Vào cuối những năm 1970, Buckles và Petry bắt đầu nghiên cứu sử dụng quan
hệ tương tự trong mô hình quan hệ làm cơ sở cho việc xây dựng mô hình cơ sở dữ liệu mờ Đến năm 1982, hai ông đã đề xuất mô hình cơ sở dữ liệu mờ dựa trên quan
hệ tương tự bằng cách mở rộng miền trị thuộc tính cho phép biểu diễn được những
dữ liệu không chắc chắn [4] Trong mô hình này, giá trị của mỗi bộ tại một thuộc tính có thể đa trị (một tập các giá trị có thể) Trên mỗi miền trị chứa dữ liệu mờ được bổ sung một quan hệ tương tự để làm cơ sở đánh giá độ “gần nhau” giữa các giá trị
Quan hệ tương tự s (Similarity relationship) trên miền D là một ánh
xạ từ D x D vào [0,1] thỏa mãn với mọi x,y,zD, các luật [5]:
1 Phản xạ :
Trang 122.Đối xứng s x,y s y,x
3 Max-min bắc cầu : s x,z maxyDmins x,y ,s y,z
Cho x,yD, 0,1 , ta nói x tương đương với y với ngưỡng , ký hiệu
y
x~ , nếu s , x y Quan hệ ~ là một quan hệ tương đương, nó chia
miền D thành các lớp tương đương d 1, d 2 , d k
Một quan hệ mờ r trên các thuộc tính A1 ,A2, , An là một tập con của tích Đề–Các : 2D1x 2D2 x D n
Khái niệm - dư thừa: hai bộ t = (d 1, d 2 , d n ) và t’ = (d’ 1, d’ 2 , d’ n )
được gọi là - dư thừa, ký hiệu t t’, nếu j = 1,2, ,n, x dj, x’ di’,
~ x
x và ngược lại Trong một quan hệ có các dư thừa thì hợp các thành phần tương ứng với nhau để tạo thành một bộ mới tương đương với hai bộ ban đầu
Hạn chế của mô hình này là sử dụng quan hệ tương tự, đây là một dạng quan hệ có yêu cầu khá chặt do tính max-min bắc cầu làm hạn chế khả năng biểu diễn của những quan hệ trên thực tế Đã có một số nghiên cứu thay quan hệ tương tự bởi quan hệ gần nhau (proximity) không yêu cầu phải thỏa tính max-min bắc cầu, tiêu biểu là các nghiên cứu của Shenoi [8] mở rộng
mô hình dựa trên quan hệ tương tự bằng cách sử dụng quan hệ gần nhau Tuy nhiên, để đảm bảo các kết quả trong mô hình quan hệ, các tác giả đưa ra quan hệ tương đương - gần nhau với mục đích phân hoạch miền trị mỗi
Trang 13thuộc tính thành các lớp tương đương Do các miền trị được phân hoạch thành các lớp tương đương theo quan hệ tương đương - gần nhau và giá trị
một bộ tại mỗi thuộc tính phải nằm trong một lớp tương đương nên các kết quả quan trọng của lý thuyết cơ sở dữ liệu quan hệ được mở rộng trên mô hình này đều đúng như: Phụ thuộc hàm mờ, các dạng chuẩn, phân tách không mất mát thông tin,
Một mở rộng khác với mục đích bỏ ràng buộc các giá trị trên mỗi thuộc tính của một bộ phải nằm trong một lớp tương đương đã được Hồ Cẩm Hà
đề xuất nhằm mở rộng khả năng biểu diễn của mô hình này
Nhiều kết quả nghiên cứu chọn mô hình này làm cơ sở phát triển và đạt được kết quả quan trọng, tiêu biểu là những kết quả về phụ thuộc hàm mờ, phụ thuộc đa trị mờ của Sozat M.I và Yazici A [9], đây là kết quả bước đầu
về nghiên cứu cấu trúc truy nhập cho mô hình của Yazici A và Cibiceli D
1.1.3 Mô hình dựa trên lý thuyết khả năng
Mô hình này được đề xuất bởi Prade và Testemale vào năm 1983 [4], bằng cách mở rộng miền trị thuộc tính, sử dụng phân bố khả năng để biểu diễn các dữ liệu mờ Giá trị của một n-bộ t tại thuộc tính A được biểu diễn bởi phân bố khả năng chuẩn A(t) trên miền trị mở rộng D e Trong đó e
là phần tử bổ sung vào mỗi miền trị, được sử dụng trong trường hợp thuộc tính A không áp dụng được cho bộ t
Một quan hệ mờ r trên tập thuộc tính A1, A2, , An là một tập con của tích Đề–Các:
(D 1) x (D 2) x x (D n) với (D i ) là tập các phân bố khả năng chuẩn trên miền trị D i của thuộc tính Ai , i = 1,2, ,n
Trang 14Sử dụng phân bố khả năng cho phép biểu diễn được nhiều loại dữ liệu:
Dữ liệu rõ, dữ liệu chưa biết, dữ liệu không có thông tin, dữ liệu với thông tin không chắc chắn:
Biểu diễn dữ liệu trong các tình huống cổ điển:[Trần Thiên Thành
Biểu diễn dữ liệu không chính xác, không chắc chắn:
Không biết chính xác lương nhưng chắc chắn trong khoảng từ 200 đến 300: L(T)(e) = 0; L( T)(d) = 1, nếu 200 d300; L(T)(d) = 0, nếu d < 200 hoặc d >300
Biết lương của T là cao Khi đó dùng tập mờ cao với hàm thuộc cao
để biểu diễn : L(T)(e) = 0; L(T)(d) = cao(d), d D
Ta biết những thông tin rời rạc về lương của T:
L( T)(e) = 0; L(T)(di) = 1, i = 1,2, ,m: L( T)(d) = 0, d D
Trang 15d D - (d1, d2, dm)
1.2 Phụ thuộc dữ liệu trên cơ sở dữ liệu mờ
Trong mô hình quan hệ, phụ thuộc hàm và phụ thuộc đa trị là hai dạng phụ thuộc dữ liệu quan trọng giúp cho việc chuẩn hóa tốt các cơ sở dữ liệu
Đã có nhiều công trình tập trung nghiên cứu mở rộng hai dạng phụ thuộc này, các mở rộng chủ yếu dựa vào hai nguyên tắc chính :
Mở rộng ký hiệu: nguyên tắc mở rộng này thay quan hệ bằng nhau trên
dữ liệu rõ bởi quan hệ gần nhau hoặc quan hệ tương tự trên dữ liệu mờ và đặt ngưỡng để xác định độ gần nhau
Mở rộng ngữ nghĩa: nguyên tắc này dựa vào ý nghĩa của các phụ thuộc
dữ liệu để xây dựng định nghĩa tương ứng cho mô hình mới sao cho bảo toàn được một số kết quả quan trọng đã được xây dựng trong mô hình quan hệ Một số quy ước ký hiệu được sử dụng trong phần này
(t A, t’A) là một số thuộc 0,1 để chỉ độ gần nhau của giá trị hai
Trang 16Mở rộng ký hiệu: Một phụ thuộc hàm mờ X~>Y thỏa trên quan hệ r khi
và chỉ khi với mọi cặp bộ t1, t2 r, nếu t1X t2X thì t1Y t2Y Trong
đó quan hệ dùng để chỉ sự gần nhau của hai giá trị mờ
Mở rộng ngữ nghĩa: Một cách khác, mở rộng khái niệm phụ thuộc hàm
mờ trên mô hình cơ sở dữ liệu mờ là dựa vào ngữ nghĩa của phụ thuộc hàm Với những tiếp cận theo cách này, một phụ thuộc hàm mờ X~>Y thỏa trên
quan hệ r khi và chỉ khi độ gần nhau về giá trị dữ liệu của các bộ trên các
tập thuộc tính X kéo theo độ gần nhau của các bộ trên tập thuộc tính Y Phép kéo theo mờ đóng vai trò quan trọng trong cách tiếp cận này
Việc chọn toán tử kéo theo I phụ thuộc vào ngữ nghĩa của phụ thuộc hàm Tuy nhiên, để bảo toàn một số tính chất quan trọng của phụ thuộc hàm cho các phụ thuộc hàm mờ, Chen đề xuất cách chọn toán tử kéo theo mờ I thỏa mãn các tính chất sau: a,b,c 0,1
B A
, 1
B A
Dienes: A B = max (1-A, B)
Trang 17Một số khái niệm phụ thuộc hàm mờ tiêu biểu
Khái niệm phụ thuộc hàm mờ của Raju [6]
Đƣợc xây dựng trên mô hình tập con mờ, phụ thuộc hàm XY thỏa trên
quan hệ r khi và chỉ khi với mọi t1,t2 r ta có
(t1X, t2X) (t1Y, t2Y)
Đây đƣợc xem là một mở rộng tiêu biểu của khái niệm phụ thuộc hàm
mờ
Khái niệm phụ thuộc hàm mờ của Chen [4]
Phụ thuộc hàm mờ X Y thỏa mãn quan hệ r khi và chỉ khi
Khái niệm phụ thuộc hàm mờ của Cuber [4]
Xuất phát từ quan điểm xem mỗi thuộc tính, dữ liệu có độ mờ khác nhau nên đặt độ đo ngƣỡng gần nhau cho mỗi thuộc tính
Quan hệ r thỏa phụ thuộc hàm mờ X Y
Trang 18Trong đó , tương ứng là véc tơ ngưỡng của các tập thuộc tính X,Y
Có thể chứng minh được phụ thuộc hàm mờ của Cubero là mở rộng khái niệm phụ thuộc hàm mờ của Raju và Chen
Khái niệm phụ thuộc hàm mờ của Sozat và Yazici [4]
Quan hệ r thỏa phụ thuộc hàm mờ X Y nếu chỉ nếu với mọi t1, t2r,
mở rộng này không “mạnh” nhưng đủ để hệ tiên đề của phụ thuộc hàm mờ
có bổ sung tiên đề bao hàm ngưỡng là xác đáng và đầy đủ
Một số tiêu chuẩn cho phụ thuộc hàm mờ
Các tiêu chuẩn sau được tổng kết từ những nghiên cứu về phụ thuộc hàm mờ [4]
Tiêu chuẩn 1: Khái niệm phụ thuộc hàm mờ khi thu hẹp trên mô hình quan hệ thì trùng với khái niệm phụ thuộc hàm
Tiêu chuẩn 2.1: Với những cặp bộ mà độ gần nhau trên tập thuộ c tính X không đủ lớn thì thỏa phụ thuộc hàm mờ X Y mà không phụ thuộc vào độ
gần nhau trên tập thuộc tính Y
Tiêu chuẩn 2.2: Phụ thuộc hàm mờ X Y được thỏa trên quan hệ r khi
những Y – giá trị của r phải đủ gần nhau khi X- giá trị đủ gần nhau
Tiêu chuẩn 3 : Dữ liệu của mỗi thuộc tính tùy vào đặc trưng mà có độ
mờ khác nhau do đó cần có ngưỡng riêng cho từng thuộc tính Khái niệm phụ thuộc hàm mờ phải đáp ứng được yêu cầu ngưỡng riêng cho từng thuộc tính
Tiêu chuẩn 4: Với những phụ thuộc hàm có dùng ngưỡn g thì ngưỡng không cố định mà thay đổi theo từng tình huống Điều này thể hiện ở hệ tiên
Trang 19đề của phụ thuộc hàm mờ phải có tiên đề bao hàm ngưỡng và phải là hệ tiên
Hình 1-3: Bảng tổng kết các tiêu chuẩn cho các phụ thuộc hàm mờ
Như vậy khái niệm phụ thuộc hàm mờ của Cubero là thỏa mãn nhiều nhất các tiêu chuẩn do sử dụng véctơ ngưỡng Tuy nhiên, hạn chế của mở rộng này là cố định véctơ ngưỡng, làm hạn chế đến khả năng biểu diễn của phụ thuộc dữ liệu
1.2.2 Phụ thuộc đa trị mờ
Tương tự phụ thuộc hàm, phụ thuộc đa trị cũng được nhiều tác giả nghiên cứu mở rộng trên mô hình cơ sở dữ liệu mờ Tuy nhiên các kết quả nghiên cứu về phụ thuộc đa trị không được phong phú như phụ thuộc hàm v ì tính phức tạp của nó Những kết quả mở rộng phụ thuộc đa trị mà đa số là
mở rộng về ngữ nghĩa mà không mở rộng ký hiệu vì không đảm bảo những kết quả tương tự như trong mô hình quan hệ
Một số quy ước ký hiệu được sử dụng trong phần này:
R là tập thuộc tính của lược đồ quan hệ
X,Y R
Trang 20Khái niệm phụ thuộc đa trị mờ của Jyothi và Babu
Dựa vào ý nghĩa của phụ thuộc đa trị, các tác giả đưa ra khái niệm phụ thuộc đa trị mờ bằng cách thay quan hệ đồng nhất trên dữ liệu rõ bằng quan
hệ gần nhau trên cơ sở dữ liệu mờ, với quan hệ gần nhau thỏa hai tính chất phản xạ và đối xứng mà không cần tính chất bắc cầu
Quan hệ r thỏa phụ thuộc đa trị mờ X Y khi và chỉ khi với mọi t1, t2r, Tồn tại t3r sao cho
( ), , , (
)), ,
( ), , ( min(
)), ,
( ), , ( min(
max ,
(
3 2 1 3
2 1
3 2 3
1
3 2 3
1 2
1
Z t Z t Z t Y t Y t Y t
Z t Z t Y t Y t
Z t Z t Y t Y t X
t X
với (a,b,c)= min ((a,b), (b,c), (a,c))
Khái niệm phụ thuộc đa trị mờ của Bhattachjee và Mazumdar
Bhttacharjee và Mazumdar dựa vào ngữ nghĩa của phụ thuộc đa trị X
Y thỏa trên quan hệ r thì Y- giá trị của bộ các bộ chỉ phụ thuộc vào các X –
giá trị và đưa ra định nghĩa phụ thuộc đa trị mờ như sau:
Quan hệ r thỏa phụ thuộc đa trị mờ X Y khi và chỉ khi với mọi tr,
đặtxt X ,zt Z , ta có Y r(x) Y r(xz),
Với Y r(x) y: tr,t X x,t Y y,Y r(x) Y r(xz)khi và chỉ khi
yY, (x)thì y’Yr(xz) sao cho (y,y’) và ngược lại
Khái niệm phụ thuộc hàm của Sozat và Yazici
Trên mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương tự, Sozat và Yazici đã mở rộng khái niệm phụ thuộc đa trị mờ như sau:
Quan hệ r thỏa phụ thuộc đa trị mờ X Y khi và chỉ khi với mọi t 1 ,
t 2 r, tồn tại t3r sao cho
Trang 21Khái niệm phụ thuộc đa trị mờ của Hồ Thuần Và T.T.Thành [2]
Với quan điểm ngưỡng gần nhau của mỗi miền trị thuộc tính là khác nhau, khái niệm phụ thuộc đa trị mờ được mở rộng theo cách tiếp cận mở rộng ký hiệu và sử dụng véctơ ngưỡng cho mỗi thuộc tính Mở rộng này được xây dựng trên mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương tự với
độ gần nhau có tính bắc cầu
Quan hệ r thỏa phụ thuộc đa trị mờ X
) ( xy Y khi và chỉ khi với mọi
t 1 ,t 2r, nếu (t1 X ,t2 X )x thì tồn tại t 3 r sao cho
(t1 X ,t3 X )x, (t1 Y ,t3 Y )y, (t1 Z ,t3 Z )z
Điểm hạn chế của cách mở rộng này là phải cố định véctơ ngưỡng
Với các khái niệm phụ thuộc hàm mờ như trên, các tác giả cũng đã chứng minh được tính xác đáng và đầy đủ của hệ tiên đề tương tự tiên đề cho phụ thuộc hàm và phụ thuộc đa trị
1.3 Kết luận chương một
Chương này đã trình bày những kiến thức cơ bản sau:
- Các mô hình cơ sở dữ liệu mờ đã và đang được phát triển đem lại một cái nhìn khái quát về việc mở rộng cơ sở dữ liệu mờ phục vụ việc lưu trữ và xử lý những thông tin không chắc chắn, không đầy đủ
- Ba cách tiếp cận để mở rộng cơ sở dữ liệu quan hệ thành cơ
sở dữ liệu mờ
Trang 22- Một số kết quả nghiên cứu về phụ thuộc dữ liệu trên cơ sở dữ liệu mờ Các khái niệm tiêu biểu về phụ thuộc hàm mờ, phụ thuộc đa trị mờ
Trang 23CHƯƠNG 2 CHUẨN HÓA VÀ TÁCH LƯỢC ĐỒ QUAN HỆ
TRONG CƠ SỞ DỮ LIỆU MỜ
Mô hình cơ sở dữ liệu mờ tổng quát hóa mô hình cơ sở dữ liệu truyền thống bằng cách cho phép lưu trữ và thao tác với những thông tin không chính xác và không chắc chắn Vấn đề cơ sở lý thuyết cho việc xây dựng một cơ sở dữ liệu mờ là một vấn đề hết sức quan trọng Chương này sẽ đề cập tới những mở rộng của các dạng chuẩn trong mô hình cơ sở dữ liệu mờ dựa trên quan hệ tương tự, những khái niệm như độ tương tự, độ giống nhau giữa các bộ, phụ thuộc hàm mờ, và phụ thuộc hàm mờ một phần được sử dụng để định nghĩa khái niệm khóa mờ, bao đóng bắc cầu, và các dạng chuẩn mờ Mô hình dựa trên quan hệ tương tự được sử dụng trong chương này cho vấn đề chuẩn hóa và tách lược đồ quan hệ trong cơ sở dữ liệu mờ cũng như các vấn đề liên quan về cơ sở lý thuyết
Một trong những mục đích chính của bất kỳ một cơ sở dữ liệu nào là giảm
dư thừa dữ liệu và cung cấp tính đáng tin cậy của dữ liệu Dư thừa dữ liệu, dị thường cập nhật và ràng buộc toàn vẹn cũng là những khái niệm đóng vai trò quan trọng trong lý thuyết thiết kế cơ sở dữ liệu mờ Nhiều kiểu phụ thuộc dữ liệu như phụ thuộc hàm và phụ thuộc đa trị đã được sử dụng như những nguyên tắc dẫn giắt (guidelines) cho việc thiết kế cơ sở dữ liệu truyền thống Việc này rất có ý nghĩa về mặt khái niệm và nó không ràng buộc với các dạng dị thường Ví dụ, nếu một thuộc tính xác định duy nhất một thuộc tính khác, ta nói là có một phụ thuộc hàm giữa các thuộc tính đó Sự xác định này là duy nhất trong mô hình quan hệ kinh điển trong khi nó không còn như vậy trong mô hình cơ sở dữ liệu mờ Trong mô hình kinh điển, phụ thuộc hàm và phụ thuộc đa trị là những định nghĩa chính xác, tuy nhiên nó lại không đúng trong một số ứng dụng thực tế Khi mô hình quan hệ kinh điển được
mở rộng để giải quyết vấn đề với dữ liệu mờ, ràng buộc toàn vẹn cũng phải được
Trang 24mở rộng Có một số cách để đưa những phụ thuộc dữ liệu mờ vào cơ sở dữ liệu mờ Sau đây là một ví dụ về phụ thuộc hàm mờ
Xét một một ví dụ về xếp lương cho các nhân viên trong một hệ thông tin quản trị nguồn nhân lực của doanh nghiệp: Để đánh giá để xếp mức lương cho một nhân viên sẽ dựa vào các yếu tố chính sau (giả sử trong cùng một chức danh): Kinh nghiệm làm việc, chất lượng công việc, mức độ đóng góp cho doanh nghiệp Như vậy “Kinh nghiệm làm việc, chất lượng công việc và mức độ đóng góp cho doanh nghiệp xác định mức lương của một nhân viên” là một ràng buộc trong hệ thông tin này Để đưa các yếu tố và ràng buộc giữa chúng vào cơ sở dữ liệu cần chuẩn hóa chúng và tách thành các lược đồ quan hệ Các yếu tố “kinh nghiệm làm việc”, “chất lượng công việc” và “mức độ đóng góp cho doanh nghiệp” sẽ được đưa về các dạng chuẩn mờ và dạng chuẩn mờ Boyce Codd (f-BCNF) Song song với việc đưa ra những dạng chuẩn mờ, ta sẽ đưa ra những thuật toán xây dựng những phép tách một lược đồ quan hệ thành các lược đồ quan hệ ở các dạng chuẩn mờ một, hai, ba, Boyce Codd Hai trong số những tính chất quan trọng nhất khi tách lược đồ quan hệ
là tính chất bảo toàn phụ thuộc và tính chất kết nối không mất thông tin cũng sẽ được đề cập, cùng với đó là các thuật toán tách lược đồ quan hệ để đảm bảo được hai thuộc tính này
2.1 Phụ thuộc hàm mờ
Tiếp theo khái niệm cơ bản về phụ thuộc hàm mờ đã trình bày ở chương 1, phụ thuộc hàm mờ (ffd) phản ánh sự hiểu biết về ngữ nghĩa giữa các thuộc tính Ffd được sử dụng để thiết kế cơ sở dữ liệu nhằm làm giảm dư thừa dữ liệu và dị thường khi cập nhật
Trong mô hình cơ sở dữ liệu quan hệ kinh điển, một phụ thuộc hàm XY chỉ
ra rằng giá trị của hai bộ bằng nhau trên X sẽ dẫn đến bằng nhau trên Y Tuy nhiên
định nghĩa này không thể áp dụng trực tiếp cho cơ sở dữ liệu mờ được, vì khái niệm
bằng nhau không áp dụng trong mô hình này Trong mô hình cũ, "X xác định Y" chỉ
có thể cho một giá trị, 0 hoặc 1, nếu phụ thuộc hàm tồn tại thì sẽ là giá trị 1, ngược
Trang 25lại là 0, tuy nhiên, trong mô hình mờ, một khoảng giá trị trên đoạn đóng [0,1] là có
thể chấp nhận Vì vậy, định nghĩa ffd sẽ trở thành "tương tự trên X - giá trị dẫn đến tương tự trên Y giá trị"
Ffds [4] là những ràng buộc xác định giữa những thuộc tính của một lược đồ quan hệ mờ Trong định nghĩa của ffds, ta sử dụng khái niệm độ giống nhau giữa các bộ Theo định nghĩa của độ giống nhau giữa các bộ, một bộ là tương tự với bản thân nó bất chấp giá trị của các thuộc tính của nó, và định nghĩa này là bắc cầu max
- min, đối xứng và phản xạ
2.1.1 Độ phù hợp giữa các bộ
Một ffd có thể được biểu diễn như sau X Y, trong đó là độ mạnh của
ngữ nghĩa (như "nhiều hay ít", "đôi khi" ) Một ffd, X Y chỉ ra rằng tương tự trên X dẫn đến tương tự đến Y Ở đây, độ tương tự (hay độ gần nhau) là để chỉ độ
giống nhau giữa các bộ Độ tương tự giữa các giá trị thuộc tính xác định mức độ giống nhau giữa các bộ trên thuộc tính đó Sau đây là định nghĩa của độ phù hợp giữa các bộ
Định nghĩa: [4] Độ phù hợp giữa hai bộ t 1 , t 2 trên thuộc tính Ak xác định trên
miền Dk, kí hiệu là C(Ak[t 1 ,t 2]), được cho bởi
C K , min minx d maxy d , , minx d maxy d ,
1 2
2 1
2
trong đó d1 là tập giá trị của thuộc tính Ak trong bộ t1, d2 là tập giá trị của Aktrong đó t2, s(x,y) là một quan hệ tương tự cho hai giá rị x và y, và s là một ánh xạ từ tập các cặp phần tử trong miền Dk vào [0,1], tức s:DkxDk -> [0,1]
Trong mô hình cơ sở dữ liệu cũ, cả hai miền giá trị d1, d2 đều chỉ có một giá trị, và độ tương tự giữa hai bộ chỉ nhận một trong hai giá trị, 0 hoặc 1 Ở đây, quan
hệ đồng nhất đã được thay thế bởi quan hệ tương tự s(x,y) mà theo đó quan hệ đồng
nhất chỉ là một trường hợp đặc biệt của nó Để mô tả độ phù hợp giữa hai bộ trên một tập thuộc tính, ta sử dụng định nghĩa sau
Trang 26Định nghĩa: Độ phù hợp giữa hai bộ t1, t2 trên tập thuộc tính X, kí hiệu bởi
Một định nghĩa chính thức cho ffd có thể được phát biểu như sau:
Định nghĩa: Cho r là một thể hiện trên lược đồ R(A 1 , A 2 , ,A n ), U là tập thuộc tính {A 1 ,A 2 , ,A n } và X, Y là hai tập con của U r được gọi là thỏa phụ thuộc hàm mờ X Y nếu với mỗi cặp bộ t1, t2 trong r, C(Y[t 1 ,t 2])min{,C(X[t 1 ,t 2])}, với
là một số thực trong đoạn [0,1] mô tả độ mạnh ngôn ngữ
Mỗi một ffd xác định một ràng buộc toàn vẹn, cũng giống như trong mô hình
cơ sở dữ liệu kinh điển, mỗi khi thêm vào một bộ hay thay đổi một bộ đã có, cần phải đảm bảo các ràng buộc toàn vẹn được xác định bởi các phụ thuộc hàm vẫn đúng
Ví dụ 2.1 [7]: Xét một thể hiện Person = (Name, Performance, Earning)
Quan hệ tương tự của các thuộc tính trong miền giá trị được cho bởi ba bảng: 2-1, 2-2 và 2-3
NAME Kelly Jerry Matthew Sandra
Trang 27PERFORMANCE Very poor Poor Average Good Excellent
Bảng 2-2: Bảng quan hệ tương tự cho thuộc tính PERFORMANCE
EARNING Little Moderate Average High Very high
Bảng 2-3: Bảng quan hệ tương tự cho thuộc tính EARNING
Ràng buộc toàn vẹn cho quan hệ Person là "Hiệu suất làm việc của một nhân viên nhiều hay ít xác định thu nhập của anh ta" Do đó, phụ thuộc hàm mờ là
PERFORMANCE 0.6 EARNING, với 0.6 là độ mạnh ngôn ngữ, "nhiều hay ít"
Phụ thuộc hàm mờ này cần được kiểm tra mỗi khi thêm mới một bộ hay thay đổi một bộ xem nó có bị vi phạm hay không
Bước 1: Thêm bộ đầu tiên
<{Kelly}, {poor, very poor}, {little}>
Vì là bộ đầu tiên nên nó không vi phạm phụ thuộc hàm mờ
Bước 2: Thêm bộ thứ hai
<{Matthew}, {average}, {moderate, average}>
Trang 28Giá trị độ phù hợp của các thuộc tính ở vế trái và phải của phụ thuộc hàm mờ là:
C(Performance[t 1 ,t 2 ])=0.3, C(Earning[t 1 ,t 2]) =0.2
Ở đây, phụ thuộc hàm mờ PERFORMANCE 0.6 EARNING đã bị vi phạm
vì C(Earning[t 1 ,t 2 ]) < min{0,6,C(Performance[t 1 ,t 2])}, nên bộ thứ ha không thể thêm vào
Bước 3: thêm vào bộ thứ ba
<{Jerry}, {average, good}, {moderate}>
Cần phải kiểm tra bộ này với bộ đầu tiên xem có vi phạm phụ thuộc hàm mờ hay không, không cần kiểm tra với bộ thứ hai, vì nó không được thêm vào
C(Performance[t 1 ,t 2 ])=0.3, C(Earning[t 1 ,t 2]) =0.8
Phụ thuộc hàm mờ PERFORMANCE 0.6 EARNING không bị vi phạm vì
C(Earning[t 1 ,t 2]) min{0,6,C(Performance[t 1 ,t 2])}, nên bộ này có thể thêm vào Bây giờ chúng ta có hai bộ trong quan hệ
t1 : <{Kelly}, {poor, very poor}, {little}>
t2 : <{Jerry}, {average, good},{moderate}>
Trang 29và
C(Earning[t 2 ,t 3]) min{0,6,C(Performance[t 2 ,t 3])}
nên bộ này có thể thêm vào Đến đây, ta có ba bộ trong quan hệ
t1 : <{Kelly}, {poor, very poor}, {little}>
t2 : <{Jerry}, {average, good},{moderate}>
t3 : <{Sandra},{average},{little}
Phụ thuộc hàm mờ một phần
Sử dụng định nghĩa của phụ thuộc hàm mờ, ta có thể định nghĩa phụ thuộc hàm mờ một phần, định nghĩa này sẽ sử dụng trong định nghĩa của dạng chuẩn mờ hai (fuzzy 2NF)
Định nghĩa: Y được gọi là phụ thuộc hàm mờ một phần vào X với độ mạnh
, ký hiệu X Y một phần, nếu và chỉ nếu X Y và tồn tại một tập con thực sự của X, X' X, X' , sao cho X' Y với
Hay nói cách khác, một phụ thuộc hàm mờ X Y là phụ thuộc hàm mờ một phần nếu có thể bỏ đi một thuộc tính A nào đó từ vế trái X mà phụ thuộc hàm vẫn còn Tức là, với thuộc tính A, X - {A} vẫn xác định hàm mờ Y với mức độ
Ví dụ 2.2: Cho lược đồ quan hệ R=(A,B,C) và các phụ thuộc hàm là AB 0.6
C và A 0.7 C Sau khi bỏ đi thuộc tính B khỏi phụ thuộc hàm thứ nhất dễ thấy phụ
thuộc hàm vẫn còn (chính là phụ thuộc hàm thứ hai), vì vậy AB0.6 C là phụ thuộc
hàm một phần
2.1.3 Các quy tắc suy diễn cho phụ thuộc hàm mờ
Một khái niệm quan trọng liên quan đến phụ thuộc dữ liệu là khái niệm các quy tắc suy diễn Cho trước một tập các phụ thuộc hàm, các quy tắc suy diễn cho phép tìm ra các phụ thuộc hàm khác là hệ quả logic của các phụ thuộc hàm đã cho
Trang 30Các quy tắc suy diễn cho phụ thuộc hàm mờ được liệt kê dưới đây Tập các quy tắc này cũng đã được chứng minh là xác đáng và đầy đủ
Bằng cách áp dụng liên tiếp các quy tắc suy diễn trên đây, ta có thể tìm thêm
ra các quy tắc suy diễn sau [4]:
1 Luật hợp
Nếu X Y và X Z đúng trên r thì X min( , ) YZ cũng đúng
2 Luật giả bắc cầu
Nếu X Y và WY Z đúng trên r thì WX min( , ) Z cũng đúng
Trang 31Trong mô hình cơ sở dữ liệu kinh điển, giả sử K là khóa của lược đồ quan hệ
R với tập thuộc tính U Với 2 bộ r 1 , r 2 bất kỳ của quan hệ, giá trị khóa lần lượt là k 1 ,
k 2 , nếu k 1 k 2 thì u1 u2 với u1, u2 là giá trị tập thuộc tính U tại r 1 , r 2 Nói cách khác, với mọi bộ của quan hệ, đồng nhất giá trị khóa thì đồng nhất giá trị các thuộc tính còn lại Trong mô hình cơ sở dữ liệu mờ, khái niệm đồng nhất được thay thế bởi khái niệm độ tương tự Khái niệm đồng nhất được mở rộng thành tương tự trên
K giá trị dẫn đến tương tự trên U giá trị Trong mô hình cơ sở dữ liệu mờ, khái niệm
khóa chính (primary key) được mở rộng thành khái niệm khóa mờ với độ mạnh , với là độ mạnh ngôn ngữ đã đề cập ở các phần trên
Định nghĩa: Cho K U, và F là tập phụ thuộc hàm mờ của lược đồ quan hệ
R (F = {f 1 , f 2 , , f n } với i = 1 n ) K được gọi là khóa mờ của R với độ mạnh nếu
và chỉ nếu K i U F và K i U không phải là phụ thuộc hàm một phần với = min(i) với i = 1 n và > 0
Ví dụ 2.3: Giả sử ta có quan hệ R, R = (A,B,C,D) và các phụ thuộc hàm là A
0.6 B và A 0.8 CD Lúc này, A khóa mờ với độ mạnh 0.6, bởi vì các giá trị của B được xác định bởi A với mức độ 0.6, các giá trị C, D được xác định bởi A với mức
độ 0.8 Các giá trị i ở đây là 1 = 0.6 và 2=0.8 Giá trị của là giá trị nhỏ nhất trong các giá trị này, do đó là 0.6
Chú ý: Một lược đồ quan hệ có thể có nhiều khóa mờ Mỗi một khóa mờ đó được gọi là một khóa ứng viên
2.2.1 Bao đóng bắc cầu của các phụ thuộc hàm mờ (bao đóng của tập
thuộc tính đối với tập phụ thuộc hàm)
Cho trước một tập các phụ thuộc hàm mờ của một quan hệ, khóa mờ của quan hệ có thể tìm được nhờ sử dụng khái niệm bao đóng bắc cầu Bao đóng bắc cầu (mà sau đây ta sẽ gọi ngắn gọn là bao đóng) được sử dụng khi ta muốn biết liệu
một phụ thuộc hàm mờ có thể suy diễn logic từ tập phụ thuộc hàm mờ F sử dụng
Trang 32các phụ thuộc hàm mờ suy diễn từ F, bởi vì nó có thể là vô hạn Thay cho việc tính
toán toàn bộ tập này, thuật toán sau đây tìm ra tất cả các thuộc tính phụ thuộc hàm
vào tập thuộc tính X, và cấp độ lớn nhất để các phụ thuộc là đúng, và ta gọi tập thuộc tính này là bao đóng của X đối với tập phụ thuộc hàm mờ F
Thuật toán 2.1 : Tìm bao đóng của tập thuộc tính đối với tập phụ thuộc hàm
Vào: Cho X là một tập k thuộc tính, X = X 1 X 2 X k , F là tập phụ thuộc hàm mờ
Ra: Bao đóng của X đối với F
2 Với mỗi phụ thuộc hàm mờ V W
Nếu vế trái V là tập con của Dom, V Dom
Tìm trong danh sách XList trong số những thuộc tính thuộc V, thuộc
tính có cấp độ nhỏ nhất, gọi là giá trị nhỏ nhất đó là minstrength Đặt bằng giá trị nhỏ nhất trong hai giá trị và minstrength
= min(,minstrength)
Với mỗi thuộc tính Wj của vế phải, W, thêm thành phần (Wj,) vào danh sách BList
3 Tổ hợp BList với XList bằng phép hợp mờ
4 Nếu sau khi tổ hợp XList có thay đổi, khởi tạo lại BList bằng rỗng, điều chỉnh lại giá trị Dom theo danh sách XList mới, quay lại bước 2
Nếu không, XList là bao đóng của X đối với F
Trang 33Ví dụ 2.4: Sử dụng ví dụ 2.3, ta có lược đồ quan hệ R với bốn thuộc tính
(A,B,C,D), các phụ thuộc hàm là A 0.6 B và A 0.8 CD Ta thử tính xem bao đóng
của thuộc tính A đối với tập phụ thuộc hàm mờ này
Bước đầu
XList = {(A,1)}, Dom={A}, BList =
Với phụ thuộc hàm đầu tiên, A 0.6 B
Và hai phụ thuộc hàm lại được kiểm tra giống như trên Nhưng lần này, sau khi tổ
hợp, XList không có thay đổi gì, nên bao đóng của A là {(A,1),(B,0.6),(C,0.8),(D,0.8)}
2.2.2 Tìm khóa mờ của một quan hệ
Sử dụng khái niệm bao đóng của tập thuộc tính đối với tập phụ thuộc hàm
mờ để tìm khóa mờ của một quan hệ mờ Phương pháp đơn giản nhất và chi phí thuật toán cao nhất là vét cạn, sẽ phân tích bao đóng của tất cả các tổ hợp của các thuộc tính trong quan hệ và kiểm tra xem bao đóng đó có chứa tất cả các thuộc tính hay không Điều này có nghĩa là tổ hợp thuộc tính nào mà bao đóng của nó chứa tất
cả các thuộc tính của quan hệ, thì tổ hợp thuộc tính đó là khóa mờ, với độ mạnh là giá trị nhỏ nhất trong các độ thuộc trong danh sách bao đóng Tuy nhiên, cũng không cần phải xem xét bao đóng của tất cả các tổ hợp các thuộc tính Vì nếu một
Trang 34thuộc tính nào đó là một phần của khóa thì nó phải nằm trong vế trái của một phụ thuộc hàm nào đó, hoặc nó không xuất hiện trong bất kỳ phụ thuộc hàm nào Sau đây là thuật toán tìm khóa mờ của một quan hệ đã cho với tập phụ thuộc hàm mờ
Thuật toán 2.2: Tìm khóa mờ của một quan hệ
Vào: Quan hệ R, tập phụ thuộc hàm mờ F đúng trên R
Ra: Tìm ra các khóa mờ của R
Tìm bao đóng của tổ hợp thuộc tính
Nếu bao đóng vừa tìm đƣợc chứa tất cả các thuộc tính của quan
hệ, đặt là số nhỏ nhất trong tất cả các độ mạnh có trong bao đóng, lúc này bao đóng vừa tìm đƣợc là khóa mờ với độ mạnh Thêm nó vào danh sách khóa mờ
Với thuật toán này, có thể tìm tất cả các khóa ứng viên
Ví dụ 2.5: Xét lại ví dụ 2.3 Áp dụng thuật toán 2.2 ở trên để tìm tất cả các
khóa mờ của quan hệ R=(A,B,C,D) với các phụ thuộc hàm A 0.6 B và A 0.8 CD
Trang 35Tập tất cả các thuộc tính có xuất hiện trong vế trái của các phụ thuộc hàm là {A}
Không có thuộc tính nào không xuất hiện trong bất kỳ phụ thuộc hàm nào Do đó,
AttributeList = {A} Do chỉ có một thuộc tính trong AttributeList nên ta chỉ phải tính bao đóng của một tổ hợp thuộc tính đơn, tổ hợp {A} Theo ví dụ 2.2, ta đã tính đƣợc bao đóng này là {(A,1),(B,0.6),(C,0.8),(D,0.6) Vì bao đóng này chứa tất cả
các thuộc tính của quan hệ, nên nó là khóa, với độ mạnh là 0.6, đó là giá trị nhỏ nhất trong các giá trị 0.6, 0.8 và 1
2.2.3 Thuộc tính khóa và thuộc tính không khóa
Định nghĩa: [4] Cho một quan hệ R với tập thuộc tính U A U, XU A
đƣợc gọi là thuộc tính khóa nếu nó thuộc vào một khóa ứng viên nào đó của R X
đƣợc gọi là tập thuộc tính khóa nếu nó là tập con của một khóa ứng viên nào đó của
R Những thuộc tính mà không phải là thuộc tính khóa thì đƣợc gọi là thuộc tính
không khóa
Những thuộc tính không khóa là những thuộc tính không xuất hiện trong bất
kỳ một khóa ứng viên nào
2.3 Các dạng chuẩn mờ
Mô hình cơ sở dữ liệu quan hệ mờ là mở rộng của mô hình cơ sở dữ liệu quan hệ kinh điển Vì vậy các dạng chuẩn mờ cũng là sự mở rộng trên cơ sở các dạng chuẩn trong mô hình cơ sở dữ liệu kinh điển
2.3.1 Dạng chuẩn mờ một (f-1NF)
Định nghĩa: Một lƣợc đồ quan hệ R gọi là ở dạng chuẩn một nếu không có
thuộc tính nào của nó có giá trị là tổ hợp Và (AND-combined)
Khi một lƣợc đồ quan hệ chƣa ở f-1NF, có thể đƣa nó về f-1NF theo thuật toán sau đây:
Thuật toán 2.3: chuẩn hóa một lƣợc đồ quan hệ về dạng chuẩn mờ một
Trang 361 Bỏ đi các bộ vi phạm điều kiện f-1NF ra khỏi quan hệ
2 Đặt mỗi một thuộc tính trong tổ hợp và cùng với các thuộc tính khác thành các bộ riêng rẽ để thu được quan hệ ở dạng f-1NF
Ví dụ 2.6: [4] Có lược đồ quan hệ R(Name, Age, Language), tương ứng với
các thuộc tính là Tên, Tuổi, Ngoại ngữ Một thể hiện r của R có các bộ như sau:
t1 = {Kelly, 35, English}
t2 = {Jerry, [very young, young], {English, French})
t3 = {Matthew, middle-age, Japanese)
t4 = (Sandra, 60, German)
Trong r, t1 có nghĩa là Kelly 35 tuổi, nói được tiếng Anh, t2 có nghĩa là Jerry
trẻ tuổi, nói được tiếng Anh và tiếng Pháp, t3 có nghĩa là Matthew, trung niên, nói
được tiếng Nhật, và t4 có nghĩa là Sandra, 60 tuổi, nói được tiếng Đức
Lược đồ này chưa ở f-1NF, do bộ thứ hai Trong bộ này, Jerry nói được hai ngoại ngữ, và đây là một ví dụ về kiểu dữ liệu đa trị theo tổ hợp Và Khi áp dụng
thuật toán 2.3, ta được các bộ như sau (t2 được tách thành t5 và t6):
t1 = {Kelly, 35, English}
t2 t5 = {Jerry, [very young, young], {English)
t6 = (Jerry, [very young, young], {English)
t3 = {Matthew, middle-age, Japanese)
Trang 37có thuộc tính không khóa nào phụ thuộc hàm một phần vào khóa mờ Sử dụng khái niệm khóa mờ và khái niệm phụ thuộc hàm mờ một phần, ta có thể định nghĩa dạng chuẩn mờ hai (f-2NF) một cách hình thức như sau:
Định nghĩa: Cho F là tập phụ thuộc hàm mờ của lược đồ R, K là một khóa mờ của
R với độ mạnh R được gọi là ở dạng chuẩn mờ hai (f-2NF) khi và chỉ khi không
có thuộc tính không khóa nào của R phụ thuộc hàm một phần vào khóa mờ K
Ví dụ 2.7: Có lược đồ quan hệ R=(A,B,C,D) với các phụ thuộc hàm là AB
0.7 D và A 0.8 C Ở đây, AB là khóa mờ với độ mạnh 0.7 Vì C là thuộc tính
không khóa và phụ thuộc hàm một phần vào khóa mờ AB (do phụ thuộc hàm thứ hai) nên R không ở f-2NF
Kiểm tra dạng chuẩn mờ 2
Vì trong định nghĩa f-2NF có sử dụng phụ thuộc hàm một phần, nên để kiểm tra f-2NF cần một thuật toán kiểm tra một phụ thuộc hàm có phải là phụ thuộc hàm một phần hay không
Thuật toán 2.4: Kiểm tra phụ thuộc hàm một phần
Vào: F là tập phụ thuộc hàm mờ, một phụ thuộc hàm mờ X Y
Ra: Kết luận X Y có phải là phụ thuộc hàm một phần hay không
Thuật toán
1 Nếu vế trái của phụ thuộc hàm mờ X chỉ có một thuộc tính, thuật toán kết thúc, đương nhiên X Y không phải là phụ thuộc hàm một phần
2 Bắt đầu với những tổ hợp thuộc tính đơn, tăng dần số lượng thuộc tính
của tổ hợp, trừ tổ hợp bao gồm tất cả các thuộc tính của X:
Tính bao đóng của tổ hợp
Trang 38 Nếu bao đóng của tất cả các thộc tính của vế phải của phụ thuộc
hàm mờ, Y, và độ mạnh của bao đóng lớn hơn hoặc bằng , thì kết luận là phụ thuộc hàm một phần
Thuật toán này dựa vào một nhận xét rằng, nếu một tập con thực sự của vế trái của một phụ thuộc hàm có thể xác định hàm vế phải của nó với độ mạnh lớn hơn hoặc bằng độ mạnh của phụ thuộc hàm thì nó là phụ thuộc hàm một phần
Thuật toán 2.5: Kiểm tra dạng chuẩn mờ 2
Vào: Một lược đồ quan hệ R, tập tất cả các khóa mờ K của R
Ra: Kết luận R có ở f-2NF hay không
Thuật toán
Với mỗi một khóa ứng viên Ki
Nếu Ki chứa một thuộc tính thì không có thuộc tính không khóa nào phụ thuộc hàm một phần vào nó, tiếp tục với khóa ứng viên
2.3.3 Dạng chuẩn mờ ba (f-3NF)
Đối với mô hình cơ sở dữ liệu quan hệ kinh điển, các quan hệ đều được chuẩn hóa ở dạng chuẩn ba sẽ giảm thiểu được các dị thường khi thêm bộ, xóa và cập nhật bộ Tương tự như ở dạng chuẩn mờ hai, dạng chuẩn mờ ba có thể định nghĩa một cách hình thức như sau:
Trang 39Định nghĩa: Cho F là tập phụ thuộc hàm mờ của lƣợc đồ quan hệ R, K là
một khóa mờ của R với độ mạnh q R đƣợc gọi là ở dạng f-3NF khi và chỉ khi R đã
ở dạng f-2NF và với bất kỳ phụ thuộc hàm mờ X A trong F, với A không thuộc X, thì hoặc X chứa khóa mờ, hoặc A là khóa mờ
Kiểm tra dạng chuẩn mờ 3
Có thể sử dụng trực tiếp định nghĩa của f-3NF để kiểm tra xem một quan hệ
có ở f-3NF hay chƣa Tất cả các phụ thuộc hàm đều đƣợc kiểm tra xem có thỏa mãn một trong các điều kiện: nếu các thuộc tính ở vế trái của phụ thuộc hàm chứa tất cả các thuộc tính ở vế phải của phụ thuộc hàm thì phụ thuộc hàm đó không vi phạm điều kiện f-3NF; nếu vế trái chứa bất kỳ một khóa mờ nào thì phụ thuộc hàm đó không vi phạm điều kiện f-3NF; nếu các thuộc tính ở vế phải đều là các thuộc tính khóa thì phụ thuộc hàm cũng không vi phạm điều kiện f-3NF
Thuật thoán 3.6: Kiểm tra dạng chuẩn mờ
Vào : một quan hệ R, tập phụ thuộc hàm mờ F của R, tập khóa mờ Ҝ của R,
P là tập thuộc tính khóa của R
Ra : kết luận R có ở f-3NF hay chƣa?
Thuật toán
1 Với mỗi phụ thuộc hàm mờ X Y của F
Nếu X Y, điều kiện f-3NF không bị vi phạm, nếu không
Nếu X K i với bất kỳ Ki Ҝ, điều kiện f-3NF không bị vi phạm, nếu không
Nếu Y P, điều kiện f-3NFcũng không bị vi phạm
2 Nếu có ít nhất một phụ thuộc hàm mờ trong F không thỏa mãn cả ba điều
kiện trên thì quan hệ chƣa ở f-3NF
Trang 402.4 Tách lược đồ quan hệ mờ
2.4.1 Phân tách thành dạng chuẩn mờ hai
Nếu một lược đồ quan hệ chưa ở f-3NF, nó có thể được chuẩn hóa thành một
số các quan hệ nhỏ hơn ở f-3NF, sử dụng thuật toán sau đây
Thuật toán 2.7: Tách lược đồ quan hệ thành dạng chuẩn mờ hai
Vào : Lược đồ quan hệ R chưa ở f-2NF
Ra : Các lược đồ quan hệ nhỏ hơn, tách từ R, ở f-2NF
Thuật toán
Sử dụng thuật toán 2.5 kiểm tra f-2NF, tìm ra tất cả các khóa mờ mà có thuộc tính không khóa phụ thuộc hàm một phần vào nó, tương ứng với mỗi khóa
mờ như vậy, tìm tất cả các thuộc tính không khóa phụ thuộc hàm một phần vào nó
Với mỗi khóa mờ như vậy, tách và thành lập một quan hệ mới có thuộc tính
là các thuộc tính của khóa và các thuộc tính phụ thuộc hàm một phần vào nó
Loại bỏ ra khỏi quan hệ ban đầu những thuộc tính không khóa đã tách ra ở bước trên, những thuộc tính còn lại thành lập một quan hệ mới
Ví dụ 2.8: Xem xét lại ví dụ 2.7, R = (A,B,C,D) và các phụ thuộc hàm là AB
0.7 D và A 0.8 C AB là khóa mờ với độ mạnh là 0.7 Phụ thuộc hàm thứ hai A
0.8 C là phụ thuộc hàm một phần, do đó R chưa ở f-2NF, ta sẽ tách nó thành các
quan hệ nhỏ hơn ở f-2NF Theo thuật toán trên, sau khi tách sẽ được hai quan hệ là
R1 = (A,C) và R2 = (A,B,D) với A là khóa mờ của quan hệ thứ nhất với độ mạnh 0.8
và AB là khóa mờ của quan hệ thứ hai với độ mạnh 0.7
2.4.2 Phân tách thành dạng chuẩn mờ ba
Quá trình chuẩn hóa một quan hệ bao gồm một số các phép tách được đồ để tại mỗi bước của quá trình chuẩn hóa thu được các quan hệ ở các dạng chuẩn nhất định Tuy nhiên, các dạng chuẩn chưa đủ đảm bảo cho ta một thiết kế tốt, ngay cả