Dữ liệu mờ và các thuộc tính mờ

Dữ liệu với thông tin mơ hồ, không chính xác được phân loại thành 2 nhóm dữ liệu: dữ liệu với miền trị cơ sở có thứ tự và dữ liệu với miền trị không có thứ tự. Trên miền trị có thứ tự, chúng ta có thể biểu diễn bất kỳ một kiểu phân bố khả năng hoặc tập mờ nào, chẳng hạn như: nhãn ngôn ngữ (liên quan đến một dạng phân bố khả năng), các giá trị xấp xỉ (phân bố tam giác). Trong miền trị không có thứ tự, có các nhãn “vô hướng” và một quan hệ tương tự giữa các cặp nhãn được định nghĩa

Dựa trên việc phân loại dữ liệu đó, luận văn sử dụng 3 kiểu thuộc tính mờ [16] như sau:

Kiểu 1: Đây là các thuộc tính với dữ liệu chính xác và rõ. Các nhãn ngôn ngữ (linguistic label) có thểđược định nghĩa trên miền trị của thuộc tính này. Các câu truy vấn mờ có thể được thực hiện trên kiểu thuộc tính. Ở kiểu này, chúng ta không thể lưu dữ liệu với thông tin không chính xác, mơ hồ và do vậy chúng không mờ mặc dù chúng cho phép các câu truy vấn mờ được thực hiện.

Kiểu 2: Kiểu thuộc tính này cho phép lưu trữ cả dữ liệu rõ và dữ liệu mờ ở dạng phân bố khả năng trên miền trị cơ sở có thứ tự. Nó là một mở rộng của thuộc tính kiểu 1, cho phép lưu dữ liệu với thông tin mơ hồ, không chính xác. Chẳng hạn như là thông tin về tuổi của một người có các nhãn ngôn ngữ: “Cao”, “Trung niên”, “Trẻ”, v.v...

Kiểu 3: Kiểu thuộc tính cho phép lưu trữ các dữ liệu được định nghĩa trên miền trị cơ sở không có thứ tự. Ở các thuộc tính đó các nhãn được định nghĩa (ví dụ: “vàng”, “hoe”, “nâu” , v.v...) và một quan hệ tương tự giữa các cặp nhãn cũng được định nghĩa. Độ tương tự nằm trong khoảng đóng [0, 1]. Trong đó mỗi một nhãn có một độ đo khả năng thể hiện khả năng chắc chắn xảy ra của dữ liệu. Ví dụ như giá trị {0.8|đen, 0.4|nâu} có nghĩa là màu tóc của một người nào đó giống màu đen hơn màu nâu.

Ví dụ 3.8. Xét quan hệ NHAN_VIEN bao gồm các thuộc tính:

MA_NHAN_VIEN (Mã nhân viên), CHIEU_CAO (Chiều cao), TUOI (Tuổi), MAU_TOC (Màu tóc). Các thuộc tính này được mô tả như sau:

MA_NHAN_VIEN: đây là kiểu thuộc tính truyền thống, kiểu số nguyên và là khoá chính của quan hệ này.

CHIEU_CAO: đây là thuộc tính mờ kiểu 1. Miền trị của thuộc tính này nằm trong đoạn [0, 250]. Đây là thuộc tính truyền thống lưu dữ liệu với thông tin chính xác và rõ. Nhưng chúng ta có thể định nghĩa các nhãn ngôn ngữ (như là “Thấp”, “Trung bình”, “Cao”) và sử dụng chúng trong quá trình truy vấn dữ liệu. Nếu không có dữ liệu về chiều cao của một nhân viên thì giá trị NULL được lưu trữ. Điều này cũng tương tự như trong cơ sở dữ liệu truyền thống.

TUOI: Đây là thuộc tính mờ kiểu 2, miền trị nằm trong đoạn [0, 150] (miền trị có thứ tự), có các nhãn ngôn ngữ như là “Trẻ”, “Trung niên”, “Già”. Các nhãn ngôn ngữ này được biểu diễn và định nghĩa như là các phân bố khả năng (hình 3.2). Chú ý rằng, nhãn ngôn ngữ “Trẻ” được định nghĩa bởi một hàm thuộc hình thang với bộ bốn (0/1, 1/20, 1/25, 0/30). Tuổi 26 thuộc về nhãn ngôn ngữ “Trẻ” (hoặc thuộc tập người trẻ) với độ thuộc là 0.8.

Hình 3.2: Phân bố khả năng đối với các nhãn của thuộc tính Tuổi

MAU_TOC: là thuộc tính mờ kiểu 3. Miền trị cơ sở tương đương với tập dữ liệu {“Vàng”, “Đen”, “Hoe”}. Mỗi nhãn ngôn ngữ phải có một độ tương tự với các nhãn ngôn ngữ khác. Độ tương tự nằm trong đoạn [0, 1]. Độ tương tự giữa các cặp nhãn ngôn ngữ của thuộc tính MAU_TOC được trình bày trong bảng 3.1 sau:

Vàng Đen Hoe

Vàng 1 0.1 0.8

Đen 0.1 1 0.3

Hoe 0.8 0.3 1

Bảng 3.1: Quan hệ tương tự giữa các nhãn đối với thuộc tính: MAU_TOC

Mô hình tập con mờ

Mô hình dựa trên lý thuyết khả năng