2.2.1.1 Định nghĩa
Hệ thống thông tin là một cặp A = (U, A), với U là tập hữu hạn, khá rỗng, được gọi là tập vũ trụ các đối tượng và A là tập hữu hạn khác rỗng các thuộc tính. Với mỗi u U và a A, ta ký hiệu u(a) là giá trị của đối tượng u tại thuộc tính a. Nếu gọi Ia là tập tất cả các giá trị của thuộc tính a, thì u(a) Ia với mọi u U. Bây giờ, nếu B = {b1, b2,…,bk} A là một tập con các thuộc tính thì ta sẽ ký hiệu bộ các giá trị u(bi) bởi u(B). Như vậy, nếu u và v là hai đối tượng, thì ta sẽ viết u(B) = v(B) nếu u(bi) = v(bi) với mọi i = 1,…,k.
2.2.1.2 Quan hệ không phân biệt được
Cho hệ thống thông tin A = (U, A). Với mỗi tập con các thuộc tính
B A, tồn tại một quan hệ hai ngôi trên U, ký hiệu IND(B), xác định bởi: IND(B) = {(u,v)U×U u(B) = v(B)}
IND(B) được gọi là quan hệ B – không phân biệt được. Để kiểm chứng được rằng đây là quan hệ tương đương trên U. Với V U, ta ký hiệu IND (B/V) là quan hệ tương đương trên V, cảm sinh bởi IND(B), tức là:
IND(B/V) = {(u,v)U×U u(B) = v(B)}
Nếu (u,v) IND(B) thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong B. Lớp tương đương chứa phần tử u được ký hiệu [u]B. Khi đó quan hệ IND(B) được xác định hoàn toàn bởi các lớp tương đương [u]B, u U. Tập hợp thương của quan hệ IND(B) được ký hiệu [IND(B)] hay đơn giản U/B, tức là [ IND(B)] = U/B = {[u]B / u U} và tập hợp thương của quan hệ IND(B/V) là [ IND(B/V)] hay V/B.
Ví dụ
U / {Màu sắc} = {{u1, u2, u6}, {u3, u5}, {u4, u7}} U / {Kích thước} = {{u1, u5}, {u3, u4}, {u2, u6, u7}} U / {Hình dáng} = {{u1, u2, u6}, {u3, u4}, {u5, u7}}
U / {Màu sắc, Hình dáng} = {{u1, u2, u6}, {u3}, {u4}, {u5}, {u7}} Màu sắc Kích thước Hình dáng Xanh To Tròn Xanh Nhỏ Tròn Vàng Vừa Vuông Đỏ Vừa Vuông Vàng To Tam giác Xanh Nhỏ Tròn Đỏ Nhỏ Tam giác Hình 2.1: Bảng dữ liệu các đồ chơi
Như vậy các đồ chơi u1, u2 không phân biệt được về màu sắc và hình dáng, nhưng phân biệt được về kích thước. Tương tự, các đồ chơi u3, u4 không phân biệt nhau về kích thước và hình dáng, nhưng phân biệt được về màu sắc, v.v…
Với một tập thuộc tính B cho trước, chúng ta có các lớp tương đương của quan hệ IND(B), thế thì một tập đối tượng V có thể diễn đạt thông qua:
Cách thứ nhất là cho tương ứng bởi “miền trong” Cách thứ hai có thể xấp xỉ bởi “bao đóng” của V.
Hai giá trị xấp xỉ này được gọi là tương ứng là B-xấp xỉ dưới và B-xấp xỉ trên của V, ký hiệu là lượt là BV và BV cụ thể các tập xấp xỉ này được xác định như sau: , B BV u U u V , B BV u U u V
Với các xấp xỉ trên, ta gọi B-miền biên của V là tập BNB V BV BV\ , và B- miền ngoài của V là tập U BV\ Dễ thấy B-miền biên của V là tập chứa các đối tượng không chắc chắn thuộc hay không thuộc V, còn B-miền ngoài của V chứa các đối tượng chắc chắn không thuộc V. Với ký hiệu tập thương của quan hệ tương đương IND(B) trên U là U/B, các xấp xỉ trên và dưới của V có thể viết lại:
BV = {W U / B : W V}
BV = {W U / B : W V ≠ }.
Bây giờ nếu B, D A ta sẽ gọi B-miền khẳng định của D là tập được xác định như sau: / B V U D POS D BV U Rõ rằng POSB D
là tập tất cả đối tượng u sao cho với mọi v U mà u(B) = v(B) ta đều có u(D) = v(D). Nói cách khác, POSB D
Ví dụ :
U Đau đầu Thân nhiệt Cảm cúm u1 Có Bình thường Không
u2 Có Cao Có
u3 Có Rất cao Có
u4 Không Bình thường Không
u5 Không Cao Không
u6 Không Rất cao Có
u7 Không Cao Có
u8 Không Rất cao Không Bảng 2.2: Bảng các triệu chứng của bệnh nhân
Các lớp không phân biệt được bởi B = {Đau đầu, thân nhiệt} là: {u1}, {u2}, {u3}, {u4}, {u5, u7}, {u6, u8}. Đặt V = {u / u(Cảm cúm) = Có} = {u2, u3, u6, u7}. Lúc đó, BV = {u2, u3} và BV = {u2, u3, u6, u7, u5, u8} . Như vậy, B-miền biên của V là tập hợp BNB(V) = {u5, u6, u7, u8}. Nếu đặt D = {Cảm cúm} thì
U / D = {V1 = {u1, u4, u5, u8}; V2 = {u2, u3, u6, u7}}, BV1 = {u1, u4}; BV2 = {u2, u3},
1 2 3 4 / , , , B V U D POS D BV u u u u U 2.2.2 Bảng quyết định 2.2.2.1 Định nghĩa
Một lớp đặc biệt của các hệ thống thông tin có vai trò quan trọng trong nhiều ứng dụng là bảng quyết định. Bảng quyết định là một hệ thống thông tin T với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuôc tính điều kiện và tập thuộc tín quyết định. Tức là T = (U, C D) với C
D = . Trong trường hợp không sợ bị nhầm lẫn, người ta ký hiệu T = (C D). Bảng quyết định là mô hình thường gặp trong thực tế, khi mà giá trị dữ liệu tại các thuộc tính có điều kiện có thể cung cấp cho ta thong tin về giá trị của thuộc tính quyết định. Bảng quyết định được gọi là nhất quán nếu D phụ thuộc hàm vào C, tức
là với mọi u, v U, u(C) = v(C) kéo theo u(D) = v(D). Ngược lại thì gọi là không nhất quán hay mâu thuẫn.
Dễ thấy bảng quyết định là nhất quán khi và chỉ khi POS C(D) = U. Trong trường hợp bảng không nhất quán thì POS C(D) chính là tập con cực đại của U sao cho phụ thuộc hàm CD đúng.
2.2.2.2 Rút gọn thuộc tính
Trong bảng quyết định, các thuộc tính điều kiện được phân thành ba nhóm: thuộc tính lõi, thuộc tính rút gọn và thuộc tính không cần thiết. Thuộc tính lõi là thuộc tính cốt yếu, không thể thiếu trong việc phân hoạch chính xác tập dữ liệu. Thuộc tính không cần thiết là những thuộc tính dư thừa, nghĩa là có thể loại bỏ một thuộc tính như vậy (không phải là tất cả!) mà không ảnh hưởng đến việc phân lớp dữ liệu. Thuộc tính của tập rút gọn nằm giữa hai tập thuộc tính trên, với một tổ hợp thuộc tính nào đó, nó là thuộc tính dư thừa và với một tổ hợp các thuộc tính khác nó có thể là cốt yếu.
Cho T = (U, C D) là một bảng quyết định, thuộc tính c C được gọi là không cần thiết trong bảng quyết định T nếu POS C(D) = POS(C\{c})(D). Nói cách khác, c C là không cần thiết khi và chỉ khi trên POS C(D) phụ thuộc hàm C\{c}
D nghiệm đúng; Ngược lại, c được gọi là cần thiết.
Bảng quyết định T được gọi là độc lập nếu mọi thuộc tính c C đều cần thiết. Tập tất cả các thuộc tính cần thiết trong T được gọi là lõi và được ký hiệu Core(C). Lúc đó, một thuộc tính cần thiết còn được gọi là thuộc tính lõi. Trong trường hợp không sợ bị nhầm lẫn ta có thể viết Core thay cho Core(C).
Tập các thuộc tính R C được gọi là một rút gọn của tập thuộc tính điều kiện C nếu T = (U, R D) là độc lập và POSR(D) = POSC(D). Nói cách khác, R là tập rút gọn nếu nó là tập tối thiểu thỏa mãn POSR(D) = POSC(D). Rõ rằng là có thể có nhiều tập rút gọn của C. Ta ký hiệu Red (C) là tập tất cả rút gọn của C trong T. Một thuộc tính là cần thiết khi và chỉ khi nó thuộc vào mọi tập rút gọn của C. Điều đó được thể hiện trong mệnh đề sau.
Mệnh đề 1.1 [2, 9, 11] Re or R d C C e C R I
Ví dụ 1.3 Xét bảng quyết định về bệnh cúm cho ở Bảng 2.3. Bảng này có hai tập rút gọn là R1 = {Đau cơ, Thân nhiệt} (xem Bảng 2.4) và R2 = {Đau đầu, Thân nhiệt} (xem Bảng 2.5). Như vậy tập lõi là Core = {Thân nhiệt} và Thân nhiệt là
thuộc tính cần thiết duy nhất. Các thuộc tính Đau đầu, Đau cơ đều không cần thiết theo nghĩa là, từ bảng dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh. Tức là
POS{Đau cơ, than nhiệt}({Cảm cúm}) = POSC({Cảm cúm}), POS{Đau đầu, than nhiệt}({Cảm cúm}) = POSC({Cảm cúm}),
Bảng 2.3: Bảng quyết định về cúm
Hình 2.4: Bảng rút gọn thứ nhất của hệ thống bệnh cúm (R1) U Đau đầu Đau cơ Thân nhiệt Cảm cúm u1 Có Có Bình thường Không
u2 Có Có Cao Có
u3 Có Có Rất cao Có
u4 Không Có Bình thường Không u5 Không Không Cao Không u6 Không Có Rất cao Có
U Đau cơ Thân nhiệt Cảm cúm u1, u4 Có Bình thường Không
u2 Có Cao Có
u3, u6 Có Rất cao Có
U Đau đầu Thân nhiệt Cảm cúm u1 Có Bình thường Không u2 Có Cao Có u3 Có Rất cao Có
u4 Không Bình thường Không
u5 Không Cao Không
u6 Không Rất cao Có
Bảng 2.5 : Bảng rút gọn thứ hai của hệ thống bệnh cúm (R2)