Chính vì vậy vấn đề đặt ra là làm sao cho thông tin được chính xác, đầy đủ và phản ánh nguyên vẹn, đầy đủ thông tin không bị mất mát , do đó rất cần khóa để liên kết các thuộc tính có mố
Trang 1MỤC LỤC
Trang 2Hình 6 Giao diện chương trình tìm 1 khóa mờError: Reference source not foundHình 7 Giao diện chương trình tìm tất cả các khóa mờ Error: Reference sourcenot found
Trang 3DANH MỤC CÁC TỪ VIẾT TẮT
1 CSDL Cơ sở dữ liệu
2 FD Functional Dependency ( Phụ thuộc hàm)
3 FFD Fuzzy Functional Dependency ( Phụ thuộc hàm mờ)
Trang 4Mô hình quan hệ do Codd E F đề xuất năm 1970 đã đáp ứng được nhu cầu lưu trữ và xử lý dữ liệu của con người trong một thời gian dài Tuy nhiên,
mô hình này vẫn tồn tại nhiều hạn chế chưa giải quyết được Trên thực tế, đôi khi chúng ta có thể thu nhận được dữ liệu với thông tin không đầy đủ, hoặc có những thông tin không chính xác, không chắc chắn gọi chung là các dữ liệu mờ Nếu giới hạn trong mô hình cơ sở dữ liệu kinh điển thì phải đợi đầy đủ thông tin
về đối tượng mới cập nhật vào cơ sở dữ liệu, hoặc nếu cứ nhập thì sẽ gây khó khăn, mất ngữ nghĩa và không nhất quán trong xử lý dữ liệu Do đó để đáp ứng nhu cầu thực tế, chúng ta phải mở rộng mô hình cơ sở dữ liệu kinh điển để biểu diễn và xử lý những dữ liệu mờ gọi là cơ sở dữ liệu mờ (Fuzzy Database)
Trong thời hiện đại có hàng ngàn thông tin kết nối với nhau và có thể sẽ
có những thông tin dư thừa lặp đi lặp lại không cần thiết và làm cho chuỗi cơ sở
dữ liệu trở nên khổng lồ quá tải Chính vì vậy vấn đề đặt ra là làm sao cho thông tin được chính xác, đầy đủ và phản ánh nguyên vẹn, đầy đủ thông tin không bị mất mát , do đó rất cần khóa để liên kết các thuộc tính có mối quan hệ khăng khít lại với nhau tạo nên một hệ cơ sở dữ liệu chặt chẽ hơn và tránh đươc tình trạng dư thừa dữ liệu Qua đó ta thấy được khóa là một vấn đề rất quan trọng trong việc thiết kế CSDL dù là rõ hay mờ
Trang 5Trong một hệ cơ sở dữ liệu mờ việc tìm ra khóa mờ cũng rất quan trọng
Nó giúp liên kết các thuộc tính có quan hệ với nhau tạo nên một hệ cơ sở dữ liệu chặt chẽ hơn,giúp cho dữ liệu không bị dư thừa Khóa chính là một tập các thuộc tính, nhờ nó có thể phân biệt được đối tượng này với đối tượng khác.Với các ràng buộc Khóa chính luôn luôn xác định và phải duy nhất Khóa có một vai trò rất quan trọng trong CSDL đó là nó giúp dễ dàng tạo mối liên hệ giữa các bảng trong CSDL quan hệ Chính vì vậy việc xây dựng và tìm ra được khóa mờ trong
mô hình cơ sở dữ liệu mờ vô cùng quan trọng và cần thiết ở đây khóa mờ đã được nghiên cứu theo cách tiếp cận Đại số gia tử
Với mong muốn được học hỏi tìm hiểu thêm về CSDL mờ, và được sự hướng dẫn của thầy Nguyễn Văn Định khoa Công nghệ thông tin, em quyết
định chọn đề tài: “Xây dựng thuật toán tìm khóa mờ trong mô hình CSDL mờ ”
cho khóa luận tốt nghiệp của mình
2 Mục đích
Tìm hiểu về cơ sở dữ liệu mờ và khóa mờ
Xây dựng chương trình demo tìm bao đóng mờ và khóa mờ
3 Phương pháp nghiên cứu
Tìm kiếm thông tin trên internet
Phương pháp nghiên cứu các tài liệu chuyên khảo
Phương pháp khảo nghiệm: Xây dựng chương trình để kiểm tra các kết quả nghiên cứu
Trang 6Phần II
TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
1 Tình hình nghiên cứu trong nước
Trong những năm gần đây, CSDL mờ và các vấn đề liên quan đã được nhiều tác giả trong và ngoài nước quan tâm nghiên cứu và đã có những kết quả đáng kể Hiện nay mô hình cơ sở dữ liệu mờ đang được các nhà khoa học tâm huyết nghiên cứu và phát triển thành các ứng dựng áp dụng cho thực tế: chẳng hạn như ứng dụng của logic mờ trong hệ thống chuẩn đoán điều trị đau thắt ngực
2 Tình hình nghiên cứu ngoài nước
Các nhà nghiên cứu nước ngoài cũng đang nỗ lực tìm ra những công nghệ
mờ hiện đại như: logic mờ là một cách mới để biểu diễn xác suất và nó đã được Bart Kosko thực hiện rất thành công…
Ứng dụng đầu tiên của logic mờ vào công nghiệp được thực hiện ở Châu
Âu, khoảng sau năm 1970 Tại trường Queen Mary ở Luân Đôn – Anh, Ebrahim Mamdani dùng logic mờ để điều khiển một máy hơi nước mà trước đây ông ấy không thể điều khiển được bằng các kỹ thuật cổ điển Và tại Đức, Hans Zimmermann dùng logic mờ cho các hệ ra quyết định Liên tiếp sau đó, logic
mờ được áp dụng vào các lĩnh vực khác như điều khiển lò xi măng
Trang 7
Phần III NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
I CÁC KHÁI NIỆM LIÊN QUAN ĐẾN CƠ SỞ DỮ LIỆU QUAN HỆ
1 Quan hệ
Một quan hệ trên ( hay xác định trên ) tập thuộc tính Ω = { A1, A2, …, An} là một tập con của tích Decartes Dom (A1) ×Dom (A2) × … × Dom (An), trong đó Dom (Ai) là miền trị của thuộc tính Ai, i = 1, 2, …, n
Cho quan hệ r xác định trên tập thuộc tính Ω = { A1, A2, …, An} Theo định nghĩa, ta có thể viết r dưới dạng sau:
r ⊆ {( a1, a2, …, an)| ai∈Dom(Ai), I = 1,2 , … , n}.
Ví Dụ 1: cho quan hệ TKB ( thời khóa biểu ) được sử dụng cho một cơ sở
đào tạo như sau:
Trang 8Ngày Tiết thứ Môn Phòng Giáo viên
Dữ liệu quan hệ TKB có thể thường xuyên thay đổi trong khi cấu trúc của
nó vẫn ổn định Mặc dù dữ liệu trong quan hệ thay đổi nhưng luôn phải thỏa mãn các ràng buộc để đảm bảo tính đúng đắn của thời khóa biểu, chẳng hạn: mọi giáo viên đều không được phép dạy ở hơn một phòng tại củng một thời điểm
Cho lược đồ quan hệ S = < Ω, F > với Ω = { A1, A2, , An} Nếu không quan tâm đến tập các ràng buộc F thì ta sẽ dùng ký hiệu S( A1, A2, …, An) thay cho S = < Ω, F >
Ta dùng quan hệ r(S) để chỉ một quan hệ r ( hay một thể hiện r ) của lược
đồ quan hệ S với một bộ t của r(S) và X ⊆ Ω, ta ký hiệu t[X] là bộ chỉ chứa các giá trị của bộ t tại các thuộc tính trong X
3 Khóa của lược đồ quan hệ
Một quan hệ là một tập hợp các bộ Các phần tử trong một tập hợp là phân biệt nên không thể có hai bộ trùng nhau trong một quan hệ Như vậy, với mỗi lược đồ quan hệ S = < Ω, F >, tồn tại một tập thuộc tính SK ⊆ Ω có tính chất: với mỗi thể hiện r(S) thì t1[SK] ≠ t2[SK], với t1, t2 là hai bộ khác nhau bất kỳ trong r
Siêu khóa của một lược đồ quan hệ S là một tập gồm một hay nhiều thuộc tính của lược đồ S có tính chất xác định duy nhất một bộ trong mỗi thể hiện của S
Trang 9Cho lược đồ quan hệ S = < Ω, F > Nếu SK là siêu khóa của S thì mọi tập con của Ω mà chứa SK cũng là siêu khóa của S Một siêu khóa “nhỏ nhất” được gọi là một khóa.
Khóa của một lược đồ quan hệ S là một siêu khóa của S sao cho mọi tập con thực sự của siêu khóa này đều không phải là siêu khóa của S
Mỗi lược đồ quan hệ có ít nhất một khóa và có thể có nhiều khóa Một thuộc tính xuất hiện trong một khóa nào đó được gọi là thuộc tính khóa Ngược lại, một thuộc tính không xuất hiên trong bất kỳ khóa nào được gọi là thuộc tính không khóa
Khóa ngoài của một lược đồ quan hệ S là một tập hợp gồm một hay nhiều thuộc tính của lược đồ S và tập thuộc tính này là khóa của một lược đồ quan hệ khác Khóa ngoài được dùng để biểu diễn các mối liên kết giữa các quan hệ
Ví Dụ 2: xét hai lược đồ quan hệ KHOA (khoa) và LOP (lớp) trong một
cơ sở dữ liệu của một trường cao đẳng:
KHOA(Ma_Khoa, Ten_Khoa, So_DT) LOP(Ma_Lop, Ten_Lop, Ma_khoa) Trong đó mỗi khoa có một mã số (Ma_Khoa) duy nhất và mỗi lớp có một
mã lớp (Ma_Lop) duy nhất Ta có {Ma_Khoa} và {Ma_Khoa, Ten_Khoa} tương ứng là khóa và siêu khóa của lược đồ KHOA, còn {Ma_Khoa} trong lược đồ LOP là khóa ngoài của lược đồ LOP.
Trong mô hình dữ liệu quan hệ, các khái niệm phụ thuộc hàm, bao đóng của một tập thuộc tính đối với một tập phụ thuộc hàm, khóa của lược đồ quan hệ
là các khái niệm trung tâm
3.1 Phụ thuộc hàm
Phụ thuộc hàm là một ràng buộc giữa hai nhóm thuộc tính của một lược
đồ quan hệ và nó thể hiện tính chất ngữ nghĩa của các thuộc tính
Trang 10Nếu Y phụ thuộc hàm vào X thì ta cũng nói “ X xác định hàm Y”.
Định nghĩa 3.1.2: Với mỗi quan hệ r trên lược đồ S(Ω), ta nói rằng r thỏa mãn phụ thuộc hàm X→ Y( hay phụ thuộc hàm X → Y đúng trên r) nếu và chỉ nếu với mọi bộ t1, t2 ∈ r, t1[X] = t2[X] kéo theo t1[Y] = t2[Y].
Định nghĩa 3.1.3: Cho F là tập phụ thuộc hàm trên lược đồ quan hệ S(Ω)
Ta nói X → Y được suy diễn logic từ F, ký hiệu là F |= (X → Y), nếu với mọi quan hệ trên S(Ω), r thỏa F ( r thỏa mọi phụ thuộc hàm trong F) thì r thỏa X → Y
Định nghĩa 3.1.4: Ta gọi bao đóng của tập phụ thuộc hàm F, ký hiệu là
F*, là tập tất cả các phụ thuộc hàm được suy diễn logic từ F
F* = {X → Y| F |= (X → Y)}
Ví Dụ 3 Một cửa hàng cần quản lý dữ liệu về các loại hàng hóa mà họ
bán ra Thông tin về mỗi loại hàng bao gồm mã số (MaSo), tên hàng (TenHang)
và giá bán (GiaBan) Giả sử mỗi loại có một mã số duy nhất và một tên duy nhất Khi đó {MaSo} → {TenHang}, {TenHang} → {GiaBan}, {MaSo} →{GiaBan} và dễ nhận thấy rằng {MaSo} → {TenHang, GiaBan}
3.1.2 Hệ quy tắc suy diễn Armstrong
Hệ quy tắc suy diễn Armstrong được đưa ra lần đầu tiên vào năm 1974 và còn được gọi là hệ tiên đề Armstrong Hệ quy tắc này cho phép ta tìm được các phụ thuộc hàm được suy diễn logic từ tập phụ thuộc hàm F và hơn nữa, về mặt
lý thuyết, sử dụng hệ quy tắc này ta có thể tìm được tất cả các phụ thuộc hàm được suy diễn logic từ F
Trang 11Với lược đồ quan hệ S = <Ω, F> và X, Y ⊆ Ω , ta ký hiệu XY thay cho
X ∪ Y và Ai1Ai2…Aij thay cho {Ai1, Ai2, , Aij} Với mọi X, Y, Z ⊆ Ω, hệ quy tắc suy diễn Armstrong đối với các phụ thuộc hàm gồm 3 quy tắc sau đây:
AB → DEG (giả thiết) nên theo quy tắc Q3, ta có BC → DEG
Từ hệ quy tắc suy diễn Armstrong, ta có các quy tắc suy diễn bổ sung dưới đây:
Quy tắc hợp: Nếu X → Y và X → Z thì X → YZ
Quy tắc tách: Nếu X → Y và Z ⊆ Y thì X → Z
Quy tắc giả bắc cầu: Nếu X → Y và WY → Z thì WX → Z
Ký hiệu F+ là tập tất cả các phụ thuộc hàm được suy diễn từ F bằng cách
áp dụng các quy tắc của hệ quy tắc suy diễn Armstrong
Định lý 3.1.1: Hệ suy diễn Armstrong là xác đáng và đầy đủ.
Tính xác đáng khẳng định rằng nếu (X → Y) ∈ F+ thì (X → Y) ∈ F* hay
F+ ⊆ F* Tính đầy đủ chỉ ra rằng F*=F+ Vậy F* = F+
Định nghĩa 3.1.5: (Khóa của lược đồ quan hệ)
Cho lược đồ quan hệ S = <Ω, F> và K ⊆ Ω Ta nói K là một khóa của S nếu hai điều kiện sau đây đồng thời được thỏa mãn :
(i) (K → Ω) ∈ F+
(ii) Nếu K’ ⊂ K thì (K’ → Ω) ∉ F+
Nếu K ⊆ Ω thỏa mãn điều kiện (i) thì K được gọi là một siêu khóa của S.Như vậy, mọi khóa của S đồng thời cũng là siêu khóa của S
Ta ký hiệu KS là tập gồm tất cả các khóa của S = <Ω, F>
3.1.3 Bao đóng của một tập thuộc tính đối với một tập phụ thuộc hàm
Trang 12Bài toán xác định một phụ thuộc hàm X → Y có được suy diễn từ tập phụ thuộc hàm F cho trước nhờ hệ quy tắc suy diễn Armstrong hay không thường đặt ra trong lý thuyết thiết kế cơ sở dữ liệu quan hệ Để giải bài toán này, ta có thể tính bao đóng F+ và sau đó kiểm tra xem X → Y có thuộc F+ hay không Tuy nhiên, do việc tính F+ nói chung tốn rất nhiều thời gian nên một cách tiếp cận khác hiệu quả hơn đó là sử dụng khái niệm bao đóng của một tập thuộc tính với một tập phụ thuộc hàm.
Định nghĩa 3.1.6: Cho tập phụ thuộc hàm F xác định trên tập thuộc tính
Ω(phụ thuộc hàm Y → Z xác định trên tập thuộc tính Ω nếu Y, Z ⊆ Ω) và X
⊆ Ω Ta gọi bao đóng của tập thuộc tính X đối với tập phụ thuộc hàm F, ký hiệu là X+
F, là tập tất cả các thuộc tính A của Ω sao cho X → A được suy diễn
từ F nhờ hệ quy tắc suy diễn Armstrong
X+
F = {A ∈ Ω| (X →A) ∈ F+}
Bổ đề 3.1.1 Phụ thuộc hàm (X → Y) ∈ F+ khi Và chỉ khi Y ⊆ X+
F
II CƠ SỞ DỮ LIỆU QUAN HỆ MỜ
1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU MỜ
1.1 Giới thiệu
Năm 1965 Giáo sư L.Zadeh đã đề nghị một lý thuyết toán về tập mờ (Fuzzy Sets) Lý thuyết này tổng quát hóa lý thuyết tập hợp kinh điển và nó đã được sử dụng để làm cơ sở cho việc xây dựng CSDL quan hệ mờ, theo đó mô hình CSDL quan hệ mờ thực chất là sự tổng quát hóa của mô hình CSDL quan hệ kinh điển bởi sự cho phép thông tin không hoàn hảo được biểu diễn và thao tác
Các hệ CSDL kinh điển, phổ biến nhất là các hệ CSDL quan hệ, hầu như không có khả năng biểu diễn và xử lý có hiệu quả các thông tin không chính xác
và không chắc chắn Chẳng hạn, với một truy vấn “ hãy cho biết họ tên của những nhân viên trẻ tuổi và có lương khá cao” trên một CSDL Quản lý lương
Trang 13được xây dựng theo mô hình CSDL quan hệ kinh điển thì chắc chắn sẽ không có câu trả lời thỏa đáng.
Mặt khác, ta luôn phải đối mặt với một thực tế là sự hiểu biết của ta về thế giới thực thường không hoàn hảo và do đó việc duy trì tính toàn vẹn của các CSDL luôn là một thách thức Trong tình huống đó, để duy trì tính toàn vẹn của các CSDL, có hai giải pháp:
Hoặc là ta giới hạn mô hình ở phần của thế giới thực tại đó có được thông tin hoàn hảo (đầy đủ) Điều đó có nghĩa, trong mô hình dữ liệu quan hệ chẳng hạn, các bộ ứng với các nhân viên không có đủ thông tin (giả sử về tuổi hoặc mức lương) sẽ hoàn toàn bị loại (không có mặt trong CSDL)
Hoặc là phát triển các mô hình dữ liệu cho phép biểu diễn, thao tác và xử
lý các thông tin không hoàn hảo hoặc không đầy đủ
Giải pháp thứ nhất sẽ đảm bảo dễ dàng thực hiện hơn giải pháp thứ hai nhưng nó lại không thỏa mãn nhu cầu mở rộng các ứng dụng của CSDL trong thực tế Vì vậy giải pháp thứ hai được chấp nhận nhưng để thực hiện giải pháp thư hai ta phải đi xây dựng được một CSDL gắn kết với các mô hình dữ liệu có
ít nhất một số đặc điểm nắm bắt thông tin không hoàn hảo, trong đó đặc điểm chung nhất là khả năng lưu trữ các giá trị Null
Với những lý do trên, CSDL quan hệ mờ luôn là một lĩnh vực được nhiều nhà tin học quan tâm phát triển Nhiều công trình có giá trị về CSDL quan hệ
mờ đã được nghiên cứu và công bố trên các tạp chí Tin học quốc tế cũng như được viết thành sách, một số ứng dụng thực tế của nó cũng được triển khai và bước đầu thành công
Một số khái niệm cơ bản trong mô hình CSDL quan hệ mờ
Thông tin không hoàn hảo
Có nhiều loại thông tin không hoàn hảo, trong đó có 5 loại thông tin không hoàn hảo cơ bản, đó là: thông tin không nhất quán, thông tin không chính xác, thông tin mơ hồ, thông tin không chắc chắn, thông tin nhập nhằng
Trang 14 Thông tin không nhất quán (inconsistent information): là loại thông tin mang ý nghĩa xung đột với thông tin đúng, thông tin không nhất quán thường xuất hiện từ các thông tin tích hợp, đây là loại thông tin không hoàn hảo đơn giản nhất.
Thông tin không chính xác (imprecise information): là thông tin ký hiệu một tập các giá trị có thể, và giá trị thực của một phần tử của tập đó Như vậy,thông tin không chính xác không là thông tin không nhất quán và không làm phương hại tới tính toàn vẹn của CSDL
Thông tin mơ hồ (vague information): bằng trực quan ta có thể thấy thông tin không chính xác và thông tin mơ hồ có mối liên hệ nào đó tới nội dung của giá trị thuộc tính, và nó có nghĩa rằng một lựa chọn phải được thực hiện trên một vùng đã cho (một khoảng hay tập hợp) của các giá trị, nhưng ta không thực
sự biết một cách chính xác giá trị nào đang được chọn Thông thường, thông tin
mơ hồ được hiểu là sự biểu diễn của biến ngôn ngữ
Thông tin không chắc chắn (uncertaint information): là loại thông tin không được phát biểu với niềm tin tuyệt đối, và đòi hỏi ta phải xác định niềm tin
về thông tin được phát biểu Thông tin với độ chắc chắn nhất định cũng là thông tin không nhất quán và không làm phương hại tới tính toàn vẹn của CSDL
Thông tin nhập nhằng (ambiguous information): là loại thông tin mà một số các yếu tố của nó còn thiếu ngữ nghĩa hoàn chỉnh, theo đó có thể dẫn tới nhiều cách hiểu và giải thích khác nhau
1.2 Lý thuyết tập mờ
1.2.1 Khái niệm tập con mờ
Tập mờ là mở rộng của lý thuyết tập hợp cổ điển Trong lý thuyết tập hợp
cổ điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc thuộc hoặc không thuộc về tập hợp Ngược lại, lý thuyết tập mờ cho phép đánh giá với các
Trang 15mức độ khác nhau về quan hệ thành viên giữa một phần tử và một tập hợp, quan
hệ này được mô tả bằng một hàm thuộc
Định nghĩa 1: Cho U là một vũ trụ tham chiếu Tập mờ A trên U là một
tập các cặp có thứ tự (μA (u), u), với μ A là hàm từ U vào [0, 1], ( 0 ≤ μA (u) ≤ 1),
gán cho mỗi phần tử u thuộc U giá trị μA (u) phản ánh mức độ mà phần tử u
thuộc vào tập mờ A, μA được gọi là hàm thuộc hay hàm thành viên của tập mờ
A Như vậy A là tập con mờ trên U và được xác định bởi hàm thuộc μA Tập mờ
A được mô tả như sau:
A = { μA(u1)/u1, μA(u2)/u2, … , μA(un)/un; ui ∈ U, i = 1, 2, … , n }
Nếu hàm μA(u) cho kết quả 0 đối với phần tử u ∈ U thì phần tử đó không có trong tập đã cho, kết quả 1 thì phần tử đó hoàn toàn thuộc tập đã cho Các giá trị trong khoảng mở từ 0 đến 1 đặc trưng cho các phần tử mờ, tức là mức độ là thành viên của phần tử đó đối với tập hợp đã cho
Ví Dụ 5 Xét tập U gồm 8 căn hộ u1, u2,…,u8 , có thể kí hiệu U = { u1, u2,
… , u8 }. Mỗi căn hộ có số phòng tương ứng là 1, 2, … , 8 phòng Gọi A là tập
hợp gồm các căn hộ “rộng”, B là tập hợp gồm các căn hộ “thích hợp cho 4
người” Ta xây dựng hàm thuộc cho các tập mờ A và B như sau:
μA(3) = 0.4; μA(4) = 0.5; μA(5) = 0.6; μA(6) = 0.8; μA(7) = 0.9; μA(8) = 1.0
μB(3) = 0.4; μB(4) = 1.0; μB(5) = 0.7; μB(6) = 0.5đối với các phần tử khác, các giá trị của hàm thuộc bằng 0
Tập mờ A = {0.4/3; 0.5/4; 0.6/5; 0.8/6; 0.9/7; 1.0/8}
Tập mờ B = {0.4/3; 1.0/4; 0.7/5; 0.5/6}
1.2.2 Các đặc trưng của tập mờ
Định nghĩa 2: Cho A là tập mờ trên vũ trụ tham chiếu U.
a Giá đỡ của tập mờ A (Support): là tập các phần tử có giá trị hàm thuộc
lớn hơn 0 trong tập mờ A, ký hiệu Supp(A), và được định nghĩa như sau:
Supp(A) = {u | u ∈ U | μA (u) > 0}.
Trang 16b Chiều cao của tập mờ A (Hight): là giá trị lớn nhất mà hàm thuộc có
thể lấy trong tập mờ A, ký hiệu H(A), và được định nghĩa như sau:
H(A) = max(Supp(A))
c Hạt nhân của tập mờ A (Kernel): là tập các phần tử có giá trị hàm thuộc
bằng 1, ký hiệu Ker(A), và được định nghĩa như sau:
Ker(A) = {u | u∈U | µA(u) = 1}
d α - nhát cắt của tập mở A (hay tập mức α của A): là tập các phần tử có
giá trị hàm thuộc lớn hơn hoặc bằng α, α ∈ [0, 1], ký hiệu là Aα và được định nghĩa như sau:
Trang 17A0.5 = {4, 5, 6, 7, 8}; A0.9 = {7, 8}
1.2.3 Các phép toán trên tập mờ
Tương tự như lý thuyết tập hợp, trên các tập mờ cũng định nghĩa một số phép toán như: phép giao, phép hợp, bằng nhau, bao nhau là sự mở rộng các định
nghĩa trên lý thuyết tập hợp
Định nghĩa 3: Cho A và B là hai tập mờ trên vũ trụ tham chiếu U với hai
hàm thuộc tương ứng là µA và µB.
a A bằng B: ký hiệu A = B, nếu µA(u) = µB(u), ∀ u ∈ U
b A chứa trong B: ký hiệu A ⊆ B, nếu µA(u) ≤µB(u), ∀ u ∈U
trên U với hàm thuộc µA ∪ B là một ánh xạ: U → [0,1], được xác định như sau:
∀ u ∈U, µA ∪ B(u) = Max{µA(u), µB (u)}
Trang 18Hình 2 Hợp của hai tập mờ A và B
trên U với hàm thuộc µA ∩B là một ánh xạ: U → [0,1] được xác định như sau:
∀ u ∈U, µA ∩ B(u) = Min{µA(u), µB (u)}
Hình 3 Giao của hai tập mờ A và B
hàm thuộc µΑ là một ánh xạ: U → [0,1], được xác định như sau:
Trang 19Hình 4 Phần bù của tập mờ A
tham chiếu Ui với i = 1, 2, … , n Tích Đề - các của các tập mờ Ai ký hiệu A1×
A2× …× An là một tập mờ A trên miền tham chiếu U = U1× U2× …× Un, với hàm thuộc μA là một ánh xạ từ U vào miền [0,1] được xác định như sau:
Trang 20rộng ngữ nghĩa của dữ liệu rõ, xem mỗi quan hệ như một tập con mờ của tích
Đề - các của các miền trị thuộc tính Mỗi bộ trong quan hệ với các dữ liệu rõ, được gán với một số thuộc miền [0, 1], chỉ độ thuộc của bộ đó vào quan hệ
Về mặt biểu diễn quan hệ trong mô hình này giống trong mô hình quan hệ nhưng thêm cột µ để lưu độ thuộc của một bộ vào quan hệ
Như vậy, mỗi bộ của một quan hệ trong mô hình này có dạng:
t = <a1, a2, …, ai, … , an, µ >
Với ai là giá trị các thuộc tính Ai, tức là ai ∈ Dom(Ai), µ ∈ [0, 1], là độ thuộc của mỗi bộ vào quan hệ
1.3.2 Mô hình CSDL mờ dựa trên quan hệ tương tự
Cách tiếp cận quan hệ tương tự đã được Buckles và Petry đề xuất năm
1982 Trong mô hình này, giá trị tại mỗi thuộc tính của đối tượng có thể là đơn
trị hoặc đa trị nhưng có một ràng buộc là các giá trị đòi hỏi phải “đủ tương tự
nhau”, hay nói cách khác là độ tương tự của hai giá trị bất kỳ trong miền trị
không nhỏ hơn ngưỡng cho trước
Định nghĩa 4: Một quan hệ tương tự trên tập U là một ánh xạ: U × U →[0, 1], có các tính chất sau:
(1) ∀x ∈ U, Sim (x, x) = 1 – tính phản xạ
(2) ∀ x, y ∈ U, Sim (x, y) = Sim (y, x) – tính đối xứng
(3) ∀x, y, z ∈ U, Sim (x, z) ≥ max y (min(Sim (x, y), Sim (y, z))) –
tính bắc cầu max-min.
Như vậy, mỗi bộ của một quan hệ trong mô hình này có dạng:
t = <p1, p2, … , pi, … , pn>
Với tập con pi ⊆ Di, trong đó Di là miền trị của thuộc tính Ai, trên mỗi Di
có xác định một quan hệ tương tự giữa mọi cặp giá trị bất kỳ thuộc miền trị Mỗi tập con pi chứa các giá trị có “độ tương tự” không nhỏ hơn ngưỡng cho trước
Trang 211.3.3 Mô hình CSDL mờ dựa trên phân bố khả năng
Mô hình này đề xuất bởi Prade và Testermale vào năm 1984 bằng cách
mở rộng miền trị thuộc tính, sử dụng phân bố khả năng để biểu diễn giá trị một
bộ của một thuộc tính Việc dùng phân bố khả năng để biểu diễn dữ liệu mờ cho phép biểu diễn được nhiều dạng dữ liệu thường gặp trong thực tế như dữ liệu rõ,
dữ liệu chưa biết, dữ liệu thiếu thông tin, dữ liệu không chắc chắn…
Như vậy, mỗi bộ của một quan hệ trong mô hình này có dạng:
t = <πA1, πA2, … , πAi, … , πAn>
Với πAi là phân bố khả năng của thuộc tính Ai trên miền trị Di của nó, (πAi
là một tập con mờ trên Di và πAi(x), x ∈ Di, là khả năng x là giá trị thực sự của t[Ai])
Ngoài ba mô hình CSDL mờ chủ yếu được trình bày ở trên, còn có hai mô hình nữa là mô hình dựa trên cách tiếp cận mở rộng lý thuyết phân bố khả năng
mà ta sẽ trình bày trong các phần sau, và cách tiếp cận phối hợp tất cả ba cách trên cũng được một số tác giả nghiên cứu như Kerre (1988) và Chen (1991)
1.3.4 Mô hình CSDL mờ dựa trên phân bố khả năng mở rộng
Mô hình này là cách tiếp cận mở rộng của lý thuyết phân bố khả năng đã trình bày ở trên, tuy nhiên trong mô hình này cho phép các quan hệ giống nhau được liên kết với các miền giá trị
Như vậy, mỗi bộ của một quan hệ mờ trong mô hình dựa trên phân bố khả năng mở rộng cũng có dạng như trong mô hình dựa trên phân bố khả năng, tuy nhiên, khi xem xét mối liên quan giữa các bộ (liên quan dư thừa bộ, liên quan về phụ thuộc dữ liệu…), thì người ta có tính đến các quan hệ giống nhau được liên kết với miền trị của các thuộc tính
1.3.5 Mô hình CSDL mờ dựa trên tổ hợp các mô hình trên
Theo cách tiếp cận này, tính mờ có liên quan đến độ thuộc của các bộ vào CSDL, tính mờ thể hiện trong các giá trị thuộc tính và quan hệ giữa các phần tử của miền trị của thuộc tính Như vậy, cách tiếp cận này là tổ hợp của cách tiếp
Trang 22cận theo phân bố khả năng, theo quan hệ tương tự và theo mô hình tập con mờ Mỗi bộ của một quan hệ trong mô hình này có dạng :
t = <πA1, πA2, … , πAi, … , πAn, µt}Trong đó các giá trị thuộc tính là các phân bố khả năng, trong đó πAi ∈ π
Ui, ngoài ra, mỗi bộ t còn được gán giá trị µt ( 0 ≤ µt ≤ 1) biểu diễn khả năng để một bộ thuộc quan hệ
1.4 Các phụ thuộc dữ liệu trên cơ sở dữ liệu mờ
1.4.1 Sự phù hợp của hai bộ.
Chúng ta xem xét một quan hệ mờ R của mô hình CSDL mờ dựa trên
quan hệ tương tự Mức độ gần nhau giữa hai bộ trong quan hệ này được gọi là mức độ phù hợp của chúng Mức độ phù hợp giữa hai bộ được xác định trên một thuộc tính hoặc trên một tập thuộc tính
Đối với CSDL rõ, hai bộ bất kỳ gọi là bằng nhau trên một thuộc tính, nếu
và chỉ nếu các giá trị trên thuộc tính đó bằng nhau Đối với mô hình CSDL mờ (dựa trên quan hệ tương tự), tính chất bằng nhau của hai giá trị được thay thế bởi tính tương tự của hai giá trị trên một thuộc tính, tính chất này sẽ xác định mức
độ phù hợp của hai bộ đối với thuộc tính đó như thế nào
Định nghĩa 1:
Mức đô phù hợp của hai bộ t1 và t2 của quan hệ R đối với thuộc tính Ak
xác định trên miền trị Dk được ký hiệu và xác định như sau:
C(Ak[t1,t2]) = min { min [ max s(x, y)], min [ max s(x, y)]}
x∈d1 y∈d2 x∈d2 y∈d1
Với d1, d2 là tập giá trị của bộ t1, t2 trên miền trị Dk, s(x, y) là quan hệ tương tự trên miền trị Dk
Định nghĩa 2 :
Mức độ phù hợp của hai bộ t1, t2 của quan hệ R đối với tập thuộc tính X
được ký hiệu và xác định như sau :
C(X[t1, t2] = min {C(Ak[t1,t2])}
Ak ∈ X
1.4.2 Phụ thuộc hàm mờ
Trang 23Trong mỗi CSDL luôn tồn tại nhiều mối liên hệ giữa các thuộc tính, giữa các bộ Sự liên hệ này có thể xảy ra trong một lược đồ quan hệ hoặc trong các lược đồ quan hệ của một CSDL Các mối liên hệ này là những điều kiện bất biến
mà tất cả các bộ của những quan hệ có liên quan trong CSDL đều phải thỏa mãn
ở mọi thời điểm Những điều kiện bất biến đó gọi là ràng buộc toàn vẹn Trong thực tế ràng buộc toàn vẹn là các quy tắc quản lý được áp đặt trên các đối tượng của thế giới thực
Các ràng buộc toàn vẹn đóng vai trò quan trọng trong việc thiết kế CSDL Trong số các ràng buộc đó, các phụ thuộc dữ liệu được chú ý hơn cả Một trong những phụ thuộc dữ liệu quan trọng nhất là phụ thuộc hàm (Functional Dependency- FD) Sự quan trọng của các phụ thuộc hàm là nó có thể giúp các nhà thiết kế CSDL loại bỏ được hầu hết các dữ liệu dư thừa trong một quan hệ
Trong các mô hình CSDL mờ, phụ thuộc hàm mờ (Fuzzy Functional Dependency- FFD) cũng có vai trò rất quan trọng Tuy nhiên, định nghĩa phụ thuộc hàm không thể áp dụng trực tiếp cho các CSDL mờ dựa trên quan hệ tương tự Đối với CSDL quan hệ kinh điển, khái niệm phụ thuộc hàm dựa trên
sự bằng nhau của hai bộ trên một tập thuộc tính Phụ thuộc hàm X→ Y nói lên rằng : nếu t[X] = t’[X] thì suy ra t[Y] = t’[Y] (ký hiệu t[X] là hạn chế của bộ t trên X, tức là tập các giá trị của bộ t đối với các tập thuộc tính trong X) Nhưng
sẽ không có một cách rõ ràng nào để kiểm tra được hai giá trị mờ (có thể là 2 tập con) là bằng nhau, mà chỉ có thể đánh giá chúng tương tự hay phù hợp nhau đến mức nào Trong một mô hình dữ liệu quan hệ mờ, mức độ của " Y phụ thuộc X"
có thể không nhất thiết là 1 như trong trường hợp của CSDL rõ, tất nhiên một vùng giá trị trên đoạn [0,1] có thể được chấp nhận là mức độ của sự phụ thuộc này Vì vậy, bằng cách nào đó phải mở rộng định nghĩa phụ thuộc hàm cho các
mô hình CSDL quan hệ mờ Trong mô hình CSDL mờ dựa trên quan hệ tương
tự, định nghĩa dưới đây là một khái niệm phụ thuộc hàm mở rộng của khái niệm phụ thuộc hàm kinh điển cho mô hình CSDL quan hệ mờ, theo đó phụ thuộc
Trang 24hàm mờ giữa 2 tập thuộc tính X và Y sẽ có nghĩa là "sự phù hợp của các bộ trên
X sẽ kéo theo sự phù hợp của các bộ trên Y" Những phụ thuộc hàm mờ (FFD) phản ánh một số kiểu tri thức ngữ nghĩa về những tập con thuộc tính của thế giới thực FFD được sử dụng để thiết kế CSDL mờ trong đó dư thừa và những dị thường khi cập nhật dữ liệu được giảm tới mức thấp nhất
Định nghĩa 3 :
Cho R là một quan hệ mờ trên lược đồ quan hệ R(A1, A2, , An) Gọi U
= {A1, A2, , An} là tập vũ trụ các thuộc tính và X, Y là các tập con của U Quan hệ mờ R gọi là thỏa phụ thuộc hàm mờ FFD : X → θ Y (đọc : X xác định
mờ Y với độ mạnh θ) nếu với 2 bộ bất kỳ t1 và t2 trong R, ta có :
C(Y[t1, t2]) ≥ min {θ, C(X[t1, t2])}
Ở đây θ ∈ [0, 1], là độ mạnh ngữ nghĩa của phụ thuộc hàm, tức là mức độ khẳng định của các phát biểu của phụ thuộc hàm mờ, nói chung θ càng lớn thì các phát biểu của phụ thuộc hàm càng có ý nghĩa, và thường chọn θ ≥ C(X[t1, t2] )
1.4.3 Các quy tắc suy diễn cho các phụ thuộc hàm mờ
Một khái niệm quan trọng có liên quan tới những phụ thuộc dữ liệu là các quy tắc suy diễn Cho một quan hệ và một tập phụ thuộc hàm, những quy tắc suy diễn là những phép sinh những phụ thuộc hàm mới cũng thỏa quan hệ đã cho, và bởi vậy chúng có quan hệ gần gũi với định nghĩa và ngữ nghĩa của những phụ thuộc hàm Đối với CSDL quan hệ kinh điển, chúng ta đã biết hệ tiên
đề Armstrong là một tập các quy tắc suy diễn cho các phụ thuộc hàm
Dưới đây chúng ta trình bày những quy tắc suy diễn cho các phụ thuộc hàm mờ FFD Bằng trực quan ta thấy những quy tắc này gần giống như những quy tắc suy diễn trong hệ tiên đề Armstrong cho các FD trong CSDL quan hệ kinh điển, tuy nhiên các quy tắc này có thêm một vài tính chất đặc trưng cho các quan hệ mờ
Cho một lược đồ quan hệ R trên U = {A1, A2, , An} là tập vũ trụ các thuộc tính, và một tập phụ thuộc hàm mờ F trên R Giả sử X, Y, Z là các tập con của U.
Trang 25Ta có các quy tăc suy diễn cho các phụ thuộc hàm mờ trên R như sau : với mọi quan hệ mờ R trên R, ta có :
1 Quy tắc bao hàm
Nếu X → θ 1 Y đúng và θ 1 ≥ θ2 thì X →θ 2 Y
2 Quy tắc phản xạ
Nếu X ⊇ Y, thì X → θ Y đúng cho mọi θ ∈[0, 1]
3 Quy tắc tăng trưởng
∀R thỏa mãn X → θ 1 Y, X → θ 2 Z thì nó thỏa mãn X min( θ 1 , θ 2 ) →YZ
6 Quy tắc giả bắc cầu:
Trang 26Theo cách hiểu khác, một FFD: X → θ Y là một FFD một phần, nếu tồn tại một thuộc tính A ∈ X sao cho khi ta bớt A khỏi X thì phụ thuộc hàm vẫn đúng Nghĩa là X \ {A} vẫn xác định Y với độ mạnh α≥ θ
Nhắc lại một số khái niệm về khóa trong CSDL quan hệ kinh điển:
• Siêu khóa: là vế trái của một phụ thuộc hàm đặc biệt X→U, trong đó U
là tập tất cả các thuộc tính Như vậy có thể hiểu là, một tập con X các thuộc tính của U được xác định bởi những thuộc tính trong X Vậy tập thuộc tính X là siêu khóa nếu X xác định U
• Khóa( hay khóa dự tuyển): là một siêu khóa K, mà không có tập con nào của K có thể xác định U
Trong mô hình CSDL quan hệ kinh điển, những giá trị đồng nhất trên khóa K sẽ kéo theo những giá trị đồng nhất trên U Còn trong mô hình CSDL quan hệ mờ, khái niệm đồng nhất trên một tập thuộc tính sẽ được thay thế bởi khái niệm tương đương ngữ nghĩa, hay sự phù hợp của các bộ trên một tập thuộc tính Vậy nếu K là một khóa mờ trong CSDL quan hệ mờ thì sự phù hợp của các
bộ trên K sẽ kéo theo sự phù hợp của các bộ trên U Khi các phụ thuộc hàm mờ được gắn với độ mạnh ngữ nghĩa thì khóa trong quan hệ mờ cũng được gắn với
độ mạnh ngữ nghĩa θ nào đó
Trang 27Phát biểu định nghĩa về khóa mờ như sau:
Định nghĩa 5:
Cho một lược đồ quan hệ R trên U = {A1, A2, , An} là tập vũ trụ các thuộc tính, và một tập phụ thuộc hàm mờ F trên R với độ mạnh θ nếu và chỉ nếu thỏa mãn hai điều kiện sau:
cho lược đồ quan hệ R = (A, B, C,D), và tập phụ thuộc hàm mờ:
F ={ A → 0 7 B, A → 0 9 CD}.Hãy tìm khóa mờ của R