Khái niêm về bảng quyết địnhẦẦẦẦẦẦẦẦẦẦ

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 30 - 33)

Để có thể biểu diễn một dữ liệu thực tế, trong đó có những thuộc tắnh quyết đinh, chúng ta xét một trường hợp đặc biệt của hệ thông tin được gọi là bảng quyết định được định nghĩa như sau[24].

Định nghĩa 3: Bảng quyết định là một hệ thông tin có dạng

S = (U, A∪{d}), với d ∉A là thuộc tắnh phân biệt, được gọi là thuộc tắnh quyết định. Các thành phần của A được gọi là các thuộc tắnh điều kiện.

Vắ dụ: Cho hệ thống thông tin A như sau:

Đối tượng Thuộc tắnh

U Hãng sản xuất Màu sắc Dung tắch Mua

Dulux Xanh lam 100 lắt Có

Nippon Xanh lam 100 lắt Không

Cova Trắng 50 lắt Có

Cova Hồng 20 lắt Có

Dulux Vàng 5 lắt Không

Dulux Xanh lam 50 lắt Có

Nippon Hồng 20 lắt Không

Nippon Hồng 20 lắt Không

Cova Vàng 100 lắt Có

Dulux Xanh lam 50 lắt Có

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Tập thuộc tắnh điều kiện là {Hãng sản xuất, Màu sắc, dung tắch}. Dựa vào các thuộc tắnh này, người dùng có quyết định mua sơn hay không? Thuộc tắnh Mua là thuộc tắnh quyết định.

Hệ thống thông tin trên được viết dưới dạng bảng quyết định như sau:

Đối tượng Thuộc tắnh Thuộc tắnh quyết

định

U Hãng sản xuất Màu sắc Dung tắch Mua

Dulux Xanh lam 100 lắt Có

Nippon Xanh lam 100 lắt Không

Cova Trắng 50 lắt Có

Cova Hồng 20 lắt Có

Dulux Vàng 5 lắt Không

Dulux Xanh lam 50 lắt Có

Nippon Hồng 20 lắt Không

Nippon Hồng 20 lắt Không

Cova Vàng 100 lắt Có (adsbygoogle = window.adsbygoogle || []).push({});

Dulux Xanh lam 50 lắt Có

1.2.1.1.3. Khái niệm quan hệ không phân biệt được trong hệ thông tin. Một trong những đặc điểm cơ bản của lý thuyết tập thô là dùng để lưu giữ và sử lý các dữ liệu trong đó có sự mập mờ, không phân biệt được [8,18,23]. Trong một hệ thông tin theo định nghĩa trên cũng có thể có những đối tương không phân biệt được. Trước tiên ta nhắc lại định nghĩa quan hệ tương đương như sau:

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Định nghĩa 5: Một quan hệ hai ngôi (quan hệ nhị phân) R ⊆ U ừ U trên U là một quan hệ tương đương khi nó có cả 3 tắnh chất:

- Phản xạ: Mọi đối tượng đều quan hệ với chắnh nó.

- Đối xứng: Nếu xRy thì yRx.

- Bắc cầu: Nếu xRy và yRz thì xRz.

Quan hệ tương đương R sẽ chia tập các đối tượng U thành các lớp tương đương. Lớp tương đương của phần tử x ∈U, ký hiệu là [x], chứa tất cả các đối tượng y mà xRy.

Bây giờ chúng ta bắt đầu định nghĩa một quan hệ tương đương trên hệ thông tin. Quan hệ này sau này được sử dụng đê biểu diễn những thông tin mập mờ, không rõ ràng.

Định nghĩa 6: Cho hệ thống thông tin S = (U, A), tập con bất kỳ B  A, tồn tại một quan hệ tương đương (Kắ hiệu INDA(B)) được xá định như sau:

INDA(B) = {(x,x‟)  U2 a  B: a(x) = a(x‟)}

INDA(B) được gọi là quan hệ không phân biệt nếu như hai đối tượng x, x‟ mà (x,x‟)  INDA(B) thì x và x‟ là không phân biệt bởi các thuộc tắnh trong

B.

Lớp tương theo quan hệ không phân biệt được B được biểu diễn là [x]B

Tập các lớp tương đương {X1, X2 Ầ..Xn} định nghĩa bởi quan hệ INDA(B) được gọi là phân hoạch trên U, được ký hiệu là B*

hay U/ INDA(B).

Số hóa bởi Trung tâm Học liệu Ờ Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

1.2.1.4. Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định

Trong quá trình phân lớp và rời rạc dữ liệu, ta có thể dùng nhiều phương pháp. Tuy nhiên, sử dụng nhát cắt để phân lớp dữ liệu là một trong những phương pháp phổ biến. Ta xét đinh nghĩa nhát cắt dưới đây.

Định nghĩa 7: Xét một bảng quyết định S =(U, A ∪ {d} ).

Trong đó:

U= {x1 , . . . ,xn }, A={a1 , . . . ,ak } và d:U→{1,. . .,r}

Giả sử V =[la , ra ) ⊂ R với mọi a thuộc A Chúng ta giả sử rằng T là một bảng quyết định thống nhất.

Xét Pa là một cách chia Va thành các khoảng co như:

Pa ={[ ca ca ca ca cka cka a a, ) } ),....[ , [ ), , 1 1 2 1

0  với ka là số nguyên khi:

la= a a k a k a a r c c K c c0  1   aa1  và Va ={[ c0a,c1a)[c1a,c2a)....[ckaa,ckaa1)

Khi đó Pa sẽ định nghĩa duy nhất tập các nhát cắt trên Va:

Ca= ca ca K cka

a } (adsbygoogle = window.adsbygoogle || []).push({});

, , ,

{ 0 1 và bộ (a,c) trong đó: aA và cCa được gọi là nhát cắt trên Va.

Một phần của tài liệu Khai phá dữ liệu văn bản bằng lý thuyết tập thô (Trang 30 - 33)