Đặc trưng của tập rút gọn

Cũng trong nổ lực xây dựng thuật toán cải tiến tìm tập rút gọn dựa vào đại số quan hệ, trong [14] các tác giả đã đưa ra một định nghĩa rút gọn mới.

Định nghĩa 2.5. [14]

a) Cho R là một tập con các thuộc tính điều kiện: R ⊆ C. Độ phụ thuộc giữa

R và tập thuộc tính quyết định D trong bảng quyết địnhT= (U, C ∪D), ký hiệu K(R, D), là giá trị được định nghĩa bởi

K(R, D) = Card(

(R∪D)) Card(Q

(C∪D)). (2.5)

b) Tập con R ⊆ C được gọi là một rút gọn của tập thuộc tính điều kiện tương ứng với tập thuộc tính quyết định D nếu

K(R, D) =K(C, D) (2.6)

và

K(R, D)> K(R0, D), ∀R0 ⊂R. (2.7) Rất tiếc, không như định nghĩa về lõi (Định nghĩa 2.4), định nghĩa này không tương đương với định nghĩa của tập rút gọn trong lý thuyết tập thô truyền thống ngay cả khi bảng là nhất quán. Vì vậy thuật toán rút gọn mà các tác giả đã đề nghị trong [14] là không chuẩn xác. Chúng ta có thể dễ dàng nhận thấy điều này qua ví dụ sau.

Ví dụ 2.2. Ta vẫn xét bảng quyết định cho ở Ví dụ 2.1. Trong bảng này có hai rút gọn là R1 ={Weight, Size} và R2 = {Weight, Cylinder} nhưng

K(R1, D) = Card( Q (R1 ∪D)) Card(Q (C∪D)) = 5 8 6=K(C, D) = 1. Cũng vậy ta có K(R2, D) = Card( Q (R2 ∪D)) Card(Q (C∪D)) = 5 8 6=K(C, D) = 1.

Như chúng ta đã biết, bài toán tìm tập rút gọn của một tập thuộc tính điều kiện chính là việc chọn lựa các đặc trưng thiết yếu và đủ để biểu diễn dữ liệu trong bảng. Hay nói cách khác, ta tìm cách loại bỏ (tối đa) các thuộc tính thừa mà phần còn lại cũng chứa đầy đủ thông tin của bảng. Đối với một bảng quyết định có thể có nhiều tập rút gọn khác nhau. Việc tìm tất cả các tập rút gọn từ bảng quyết định là bài toán NP-khó, hơn nữa, trong nhiều ứng dụng thực tế, thường không cần phải tìm tất cả các tập rút gọn, mà chỉ cần một tập rút gọn tốt nhất. Một câu hỏi khá tự nhiên là dựa vào tiêu chuẩn nào để đánh giá một tập rút gọn là tốt? Và như vậy, nói chung, việc chọn các thuộc tính trong tập rút gọn còn phụ thuộc vào tiêu chuẩn tối ưu đặt ra.

Ở đây chúng tôi sẽ đưa ra một định nghĩa tương đương của tập rút gọn dựa trên các phép toán đại số quan hệ. Trên cơ sở đó, chúng tôi đề nghị một số thuật toán tìm rút gọn hợp lý và do đó khả thi hơn các thuật toán được đề nghị trong [14].

Định nghĩa 2.6. Cho R là một tập con của tập thuộc tính điều kiện C. Độ phụ thuộc của tập thuộc tính quyết định Dvào R, ký hiệu k(R, D), là giá trị

k(R, D) = Card(

(R)) Card(Q

(R∪D)). (2.8)

Độ phụ thuộc này phản ánh khả năng phân hoạch trên R ∪D bằng cách chỉ dựa vào tập thuộc tínhR. Tính hợp lý của định nghĩa này được thể hiện qua mệnh đề dưới đây mà việc chứng minh nó là không có gì khó khăn.

Mệnh đề 2.2. Với mọi tập R⊆C, ta có a) k(R, D)≤1.

b) k(R, D) = 1⇔ phụ thuộc hàmR →D đúng trên U.

c) T nhất quán ⇔k(C, D) = 1.

d) Nếu k(R, D) = 1, thì k(R0, D) = 1 với mọi R⊆R0 ⊆C.

Khi phân hoạch trên Rtrùng với phân hoạch trên R∪D thì tậpR có thể được chọn làm đặc trưng cho tập thuộc tính điều kiện. Vì vậy ta đi đến định nghĩa về tập rút gọn như sau.

Định nghĩa 2.7. Tập con các thuộc tính điều kiện R ⊆C được gọi là một tập rút gọn của tập thuộc tính điều kiện C đối vớiD nếu

k(R, D) =k(C, D) (2.9)

và

k(R0, D)< k(C, D),∀R0 ⊂R. (2.10) Trong trường hợp T là bảng nhất quán ta có thể chứng minh được định nghĩa này là hoàn toàn tương đương với định nghĩa trong lý thuyết tập thô truyền thống (trang 17). Thật vậy, giả sử U/R= {V1, V2,· · · , Vp} và U/D ={W1, W2,· · · , Wq}, ta có:

k(R, D) = k(C, D) = 1⇔Card(Y(R)) = Card(Y(R∪D)) ⇔U/R=U/(R∪D)

⇔ ∀Vi ∈U/R,∃Wj ∈U/D sao cho Vi ⊆Wj

⇔Lower[R]/[D]= q [ i=1 RWj =U = Lower[C]/[D] ⇔POSR(D) = POSC(D).

Phụ thuộc hàm xấp xỉ

Tập lõi trong bảng quyết định