Lý thuyết tập thụ đặc biệt thớch hợp cho việc xử lý sự khụng nhất quỏn trong bảng quyết định đầu vào. Nếu bảng quyết định đầu vào là khụng nhất quỏn, khi đú cỏc xấp xỉ dưới và trờn của cỏc lớp quyết định sẽ được tớnh toỏn. Cỏch xử lý dữ liệu khụng nhất quỏn này dẫn đến hai loại quy tắc phõn biệt (theo thuật ngữ sử dụng trong [2,12]):
(1) Cỏc quy tắc chắc chắn (cũn gọi là cỏc quy tắc chớnh xỏc, tất định, hay phõn biệt)
(2) Cỏc quy tắc gần đỳng (cũn gọi là cỏc quy tắc cú thể, khụng tất định).
Với mỗi lớp quyết định, cỏc quy tắc quyết định chắc chắn được sinh ra từ tập cỏc đối tượng thuộc xấp xỉ dưới. Cỏc quy tắc gần đỳng được tạo ra từ gần đỳng trờn hoặc từ vựng biờn của lớp đú với cỏc lớp quyết định khỏc. Cần nhớ rằng, cỏc quy tắc chắc chắn chỉ cho ta một quyết định duy nhất cần thực hiện, trong khi cỏc quy tắc gần đỳng sẽ cho biết một số quyết định cú thể.
Khi xem xột cỏc quy tắc thuộc loại thứ hai, cần chỳ ý rằng cú một số sự khỏc biệt giữa cỏc cỏch tiếp cận. Trong hệ LERS được xõy dựng bởi Grzymala [2], cỏc quy tắc gần đỳng được quy nạp từ cỏc gần đỳng trờn. Tuy nhiờn, cỏc quy tắc này chỉ chỉ ra một lớp quyết định cú thể (theo nghĩa gần đỳng trờn của nú). Trong nghiờn cứu tiếp theo, ta sẽ xem xột cỏc quy tắc được quy nạp từ vựng biờn giữa lớp quyết định đó cho và cỏc lớp khỏc.
Chỳ ý rằng, vựng biờn của một lớp quyết định núi chung cú thể bao gồm một số ớt tập con rời nhau của cỏc đối tượng. Cỏc tập con này là những phần chung giữa gần đỳng trờn của lớp đó cho với cỏc gần đỳng trờn của cỏc lớp quyết định khỏc. Trong trường hợp này, cỏc quy tắc gần đỳng sẽ khụng được quy nạp từ tập biờn toàn bộ mà được quy nạp một cỏch độc lập từ mỗi tập con
Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/
rời nhau. Vớ dụ, giả sử cỏc lớp quyết định X X X1, 2, 3 là cỏc lớp định nghĩa thụ trong một bảng quyết định. Biờn của lớp X1 là
1 1 2 3 1 3 2 1 2 3
( ) ( ) ( ) ( )
B
BN X BX BX BX BX BX BX BX BX BX
Cỏc quy tắc quyết định gần đỳng sẽ được quy nạp một cỏch độc lập từ mỗi tập
trong số ba tập con rời nhau , và
.
Những khớa cạnh núi trờn của việc quy nạp cỏc quy tắc chắc chắn và gần đỳng cú thể được diễn đạt thụng qua khỏi niệm quyết định mở rộng đối với một bảng quyết định ([7, 8]. Để đơn giản ký hiệu, ta giả sử tiếp rằng tập Vd
cỏc giỏ trị của thuộc tớnh quyết định d là 1,2,...,k .
Cho bảng quyết định ( ,U A d ). Giả sử thuộc tớnh quyết định d cú tập giỏ trị Vd = 1,2,...,k . Hàm A:U P 1,...,k định nghĩa bởi:
( ) : sao cho ( ) và ( )
A x i x U x I A x f xd i
được gọi là hàm quyết định mở rộng của bảng quyết định đó cho. ( A( )x là tập tất cả cỏc nhón lớp của cỏc đối tượng x’ quan hệ khụng phõn biệt với x). Bảng quyết định được gọi là nhất quỏn nếu A( )x 1 với mọi x U , trường hợp ngược lại gọi là khụng nhất quỏn.
Cỏc đối tượng trong một bảng quyết định cú thể được phõn hoạch thành
m tập hợp con Yj (0 j k m). Mỗi tập con bao gồm cỏc đối tượng được mụ tả bởi cựng một quyết định mở rộng A( )x . Nếu với mỗi đối tượng x
trong Yj ta đều cú A( )x 1 thỡ Yj sẽ thuộc xấp xỉ dưới của lớp quyết định được chỉ ra bởi A( )x . Trường hợp ngược lại, với mỗi đối tượng x trong Yj ta cú A( )x 1, thỡ tập con Yj sẽ cú giao khỏc rỗng với vựng biờn (hay là một
Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/
tập con của vựng biờn) giữa cỏc lớp quyết định và nú sẽ được sử dụng vào việc quy nạp cỏc quy tắc quyết định gần đỳng.
Cỏc quy tắc quyết định được quy nạp lần lượt cho mỗi tập con Yj
(i 1,..., )m . Như vậy, mỗi tập con được xem xột một cỏch độc lập và được mụ tả bởi cỏc quy tắc quy nạp được. Mụ tả quy tắc phải thỏa món bởi những vớ dụ dương của khỏi niệm quyết định này (tức là cỏc đối tượng thuộc Yj) và khụng thể thỏa món bởi những vớ dụ õm (tức là cỏc vớ dụ thuộc U Yj). Ta hóy định nghĩa một cỏch hỡnh thức điều này.
Trong phần dưới đõy, K sẽ được dựng để biểu diễn khỏi niệm quyết định
j
Y cần mụ tả.
Một mụ tả ( , )a v , với a A và v Va được gọi là một điều kiện sơ cấp c
của quy tắc quyết định mà ta cần kiểm tra đối với mỗi x U . Một số tỏc giả gọi mụ tả như thế này là một bộ chọn (selector). Trong phần lớn cỏc hệ thống học dựa vào lý thuyết tập thụ, cỏc điều kiện sơ cấp này được biểu diễn dưới dạng (a v). Điều kiện c cú thể được xem như là một ỏnh xạ
: true, false
c U .
Một biểu thức hội của q điều kiện sơ cấp được ký hiệu bởi . Số q điều kiện sơ cấp trong C được gọi là kớch thước của C và được ký hiệu là Size(C).
Phủ của một biểu thức hội C, ký hiệu là C , là tập con cỏc vớ dụ thỏa món cỏc điều kiện trong C. Một cỏch hỡnh thức, ta cú
: ( )
C x U C x true .
Cho K là một khỏi niệm cần mụ tả và C là một biểu thức hội của cỏc điều kiện sơ cấp. Ta sẽ ký hiệu tập cỏc vớ dụ thuộc K được phủ bởi C và tập cỏc vớ dụ khụng thuộc K được phủ bởi C lần lượt là và
Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/
. được gọi là phủ dương của C đối với K, cũn được gọi là phủ õm của C đối với K.
Một quy tắc r là một mệnh đề logic dạng
if R then K
trong đú R là một biểu thức hội c1 c2 ... cq thỏa món
K
R .
Như vậy, một quy tắc r được đặc trưng bởi phần điều kiện R và khỏi niệm K mụ tả bởi r. Tập cỏc cặp thuộc tớnh-giỏ trị xuất hiện ở vế trỏi của quy tắc được coi như là phần điều kiện và vế phải là phần quyết định. Trong cỏc hệ thống phần mềm, phần quyết định của quy tắc thường được biểu diễn dưới cỏc dạng:
- ifRthen (d = i) với i Vd, khi quy tắc là quy tắc chắc chắn,
- if R then với , ,...,i j l là cỏc nhón lớp của cỏc đối tượng thỏa phần điều kiện R, khi quy tắc là quy tắc gần đỳng,
Cho quy tắc chắc chắn r với phần điều kiện . R được gọi là:
- Nhất quỏn nếu R K
- Tối tiểu nếu loại bỏ bất kỳ một điều kiện cjnào thỡ R sẽ trở thành khụng nhất quỏn.
Cho quy tắc r cú phần điều kiện R. Độ mạnh Strength(r) và độ dài
Length(r) của nú được định nghĩa như sau:
K
Strength r R
e( )
Length r Siz r .
Từ một số tập dữ liệu, đặc biệt là cỏc tập dữ liệu cú chứa cỏc vớ dụ khụng nhất quỏn, cỏc hệ phỏt hiện quy tắc cú thể tỡm ra cỏc quy tắc đủ mạnh, tức là
Số húa bởi Trung tõm Học liệu – Đại học Thỏi Nguyờn http://www.lrc-tnu.edu.vn/
cỏc quy tắc cú Strength(r) đủ lớn. Từ cỏc quy tắc đủ mạnh này, người ta cú thể tỡm kiếm cỏc quy tắc chắc chắn. Trong nhiều hệ quy nạp quy tắc theo hướng khỏm phỏ, người sử dụng cú thể quan tõm đến cỏc quy tắc đơn giản nhưng đủ mạnh, tức là cỏc quy tắc cú Length(r) nhỏ nhưng Strength(r) đủ lớn.
Trong một hệ phõn lớp, chất lượng của tập đầy đủ cỏc quy tắc quyết định sinh ra được đỏnh giỏ bằng độ chớnh xỏc (hay ngược lại bằng độ sai lầm) khi ỏp dụng vào việc phõn lớp. Độ chớnh xỏc là tỷ lệ phần trăm n nc , trong đú n
là số cỏc vớ dụ dựng để kiểm trứng, nc là số vớ dụ được phõn lớp đỳng trong số cỏc vớ dụ kiểm chứng.