Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
414,5 KB
Nội dung
ĐỀ TÀI
ỨNG DỤNGTẬPTHÔ
TRONG LẬPLUẬNTỪ
DỮ LIỆU
1
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
1. Mở Đầu 3
2. VÍ DỤ 4
3. Tậpthô và các xấp xỉ 5
4. Các tậpthô và hàm thức 8
5. CÁC BẢNG QUYẾT ĐỊNH VÀ THUẬT GIẢI QUYẾT ĐỊNH 9
6. SỰ PHỤ THUỘC VÀO CÁC THUỘC TÍNH 11
7. THU GỌN CÁC THUỘC TÍNH 13
8. CÁC HÀM VÀ MA TRẬN PHÂN BIỆT 19
9. ĐỘ QUAN TRỌNG CỦA CÁC THUỘC TÍNH VÀ CÁC THU GỌN XẤP XỈ 22
10. KẾT LUẬN 25
2
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
1. Mở Đầu
Các tậpthô được xây dựng trên lý thuyết tập hợp. Ta thường sử dụng
thêm một số thông tin về các phần tử của một tập tổng thể. Các phần tử có cùng
thông tin là không phân biệt được và tạo thành một khối có thể được xem như là
các hạt cơ bản của tri thức về tập tổng thể đó. Chẳng hạn, các bệnh nhân mắc
phải một căn bệnh nào đó có cùng các triệu chứng là không phân biệt được và có
thể được biểu diễn như một hạt (khối bệnh) trong tri thức y học. Những hạt này
được gọi là các tập phần tử cơ bản và có thể xem như là những phần tử xây dựng
nên các khối tri thức. Phù hợp với tính chất hạt của tri thức, các tậpthô cũng
được mô tả bằng các tri thức có được. Do đó, với mỗi tập hợp khi không phân
biệt được các phần tử một cách chính xác thì ta gắn nó với hai tập hợp rõ được
gọi là xấp xỉ trên và xấp xỉ dưới. Theo trực giác, xấp xỉ dưới của một tập chứa tất
cả các phần tử chắc chắn thuộc vào tập đó, còn xấp xỉ trên được tạo thành từ tất
cả các phần tử có thể thuộc vào tập này. Phần khác biệt giữa xấp xỉ trên và xấp xỉ
dưới gọi là vùng biên. Vùng biên chứa tất cả các phần tử không được phân lớp
một cách duy nhất thuộc vào một tập hợp hoặc phần bù của nó khi sử dụng các
tri thức có được. Do đó, mỗi tậpthô khác với tập thông thường là nó có vùng
biên thường khác rỗng.
Bộ lý thuyết tậpthô được xác định xấp xỉ. Thông báo, mà bộ thường được
xác định bởi các hàm thành viên. Bộ thô có thể được xác định bằng cách sử
dụng, thay vì xấp xỉ, thành viên chức năng, tuy nhiên hàm thành viên không phải
là một khái niệm nguyên thủy trong cách tiếp cận này, và cả hai định nghĩa là
không tương đương.
Trong bài báo này chúng tôi định nghĩa các khái niệm cơ bản của lý
thuyết tậpthô dưới dạng dữ liệu. Các khái niệm này sẽ được áp dụngđể thực
hiện lậpluậntừdữ liệu. Các tậptrong lý thuyết tậpthô được định nghĩa bằng các
xấp xỉ dựa trên hàm thuộc.
3
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
2. VÍ DỤ
Trước tiên, chúng tôi trình bày một ví dụ đơn giản để mô tả phương pháp
một cách trực quan. Dữliệu được biểu diễn bằng một bảng, các cột là các thuộc
tính, các hàng là các đối tượng còn mỗi ô trong bảng là giá trị của thuộc tính của
đối tượng tương ứng. Ví dụtrong một bảng có thông tin về các bệnh nhân nhiễm
phải một căn bệnh nào đó, các đối tượng là các bệnh nhân, các thuộc tính có thể
là: huyết áp, nhiệt độ cơ thể… Những bảng như vậy được gọi là các hệ thông tin
hoặc các bảng thông tin. Dưới đây là một ví dụ về một bảng thông tin
Giả sử chúng ta có dữliệu về 6 bệnh nhân như trong bảng 1 dưới đây.
Bệnh
nhân
(Patient)
Đau đầu
(Headache
)
Đaucơ
(Muscle-
pain)
Nhiệt độ
(Temperature
)
Bị bệnh cúm
(Flu)
p1 không có cao có
p2 có không cao có
p3 có có rất cao có
p4 không có bình thường không
p5 có không cao không
p6 không có rất cao có
Bảng 1
Các cột của bảng được gán nhãn bởi các thuộc tính là các triệu chứng và
các hàng là các đối tượng (các bệnh nhân). Do đó, các ô của bảng là giá trị của
các thuộc tính của các đối tượng. Mỗi hàng của bảng có thể được xem như thông
tin về một bệnh nhân nào đó. Ví dụ bệnh nhân p2 được biểu diễn trong bảng bởi
tập giá trị-thuộc tính như sau: (Đau đầu, có), (Đau cơ, không), (Nhiệt độ, cao),
(Bị bệnh cúm, có).
Trong bảng 1 các bệnh nhân p2, p3, và p5 là không phân biệt được với
thuộc tính đau đầu, các bệnh nhân p3 và p6 là không phân biệt được với thuộc
tính đau cơ và bị bệnh cúm,và các bệnh nhân p2 và p5 là không phân biệt được
4
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
với các thuộc tính đau đầu, đau cơ và nhiệt độ. Do đó, thuộc tính đau đầu sinh ra
hai tập cơ bản {p2, p3, p5} và {p1, p4, p6}, trong khi các thuộc tính đau đầu và
đau cơ tạo thành các tập cơ bản sau: {p1, p4, p6}, {p2, p5} và {p3}. Tương tự
chúng ta có thể định nghĩa các tập cơ bản sinh bởi một tập con các thuộc tính.
Bệnh nhân p2 bị bệnh cúm, trong khi bệnh nhân p5 thì không. Họ là
không phân biệt được với thuộc tính đau đầu, đau cơ và nhiệt độ. Do đó, bị bệnh
cúm không thể biểu diễn được theo các thuộc tính đau đầu, đau cơ và nhiệt độ.
Vì vậy p2 và p5 là các trường hợp biên, chúng không thể được phân lớp một
cách đúng đắn theo quan sát bằng các tri thức có được. Các bệnh nhân còn lại p1,
p3 và p6 có các triệu chứng cho phép chúng ta có thể phân lớp một cách chính
xác khi bị bệnh cúm. Các bệnh nhân p2 và p5 không được coi là cùng bị cúm và
p4 chắc chắn không bị cúm. Do đó xấp xỉ dưới của tập các bệnh nhân bị cúm là
tập {p1, p3, p6} và xấp xỉ trên của tập này là {p1, p2, p3, p5, p6}, trong đó
trường hợp biên là các bệnh nhân p2 và p5. Tương tự p4 không bị cúm và p2, p5
không thể được coi như bị cúm. Do đó, xấp xỉ dưới của khái niệm không bị cúm
là {p4} và xấp xỉ trên là tập {p2, p4, p5}, vùng biên của nó là tập {p2, p5} giống
như trong trường hợp trước.
3. Tậpthô và các xấp xỉ
Như đã đề cập trong phần mở đầu, cơ sở của lý thuyết tậpthô là quan hệ
“không phân biệt được” được sinh ra từ thông tin về các đối tượng. Quan hệ
không phân biệt được, được sử dụngđể biểu diễn tình trạng thiếu tri thức khi ta
không thể phân biệt được một số đối tượng. Điều đó có nghĩa là không thể xử lý
các đối tượng một cách đơn lẻ nhưng có thể nghiên cứu cụm các đối tượng theo
quan hệ không phân biệt được.
Giả sử có hai tập rỗng U và A, trong đó U là tập tổng thể và A là tập các
thuộc tính. Với mỗi thuộc tính a∈A, ký hiệu V
a
là tập tất cả các giá trị có thể của
a và gọi là miền của a.
5
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Định nghĩa 1: Mỗi tập con B ⊆ A xác định một quan hệ không phân biệt được
I(B) trên U, được định nghĩa như sau:
Mọi x, y∈ U, x I(B)y <=> mọi a∈B, a(x)=a(y), trong đó a(x) biểu diễn
giá trị tại thuộc tính a của phần tử x.
Hiển nhiên, I(B) là một quan hệ tương đương. Lớp tương đương của I(B)
chứa x được kí hiệu bởi B(x). Họ tất cả các lớp tương đương của I(B) là một phân
hoạch của tập U xác định bởi B được ký hiệu là U/I(B), hoặc là U/B.
Nếu (x,y)∈ I/B thì ta nói rằng x và y là B-không phân biệt được. Các lớp
tương đương của quan hệ I(B) được nghiên cứu như các tập B-phần tử. Trong
phương pháp tậpthô các tập phần tử là các khối cơ bản các khái niệm của các tri
thức thực tế.
Quan hệ tương đương trên được sử dụngđể định nghĩa các xấp xỉ như
sau:
( ) ( ){ }
XxBUxXB ⊆∈=
∗
:
,
( ) ( ){ }
∅≠∩∈=
∗
XxBUxXB :
Nghĩa là, ta gắn với mỗi tập con X của tập tổng thể U hai tập B
*
(X) và
B
*
(X) và gọi chúng là B-xấp xỉ dưới và B-xấp xỉ trên của X.
Tập hợp
)()()( XBXBXBN
B ∗
∗
−=
được gọi là B-vùng biên của X.
Nếu vùng biên của X là tập rỗng thì tập X là tập rõ theo B. Ngược lại nếu
BN
B
(X) = ∅ thì tập X là tậpthô theo B.
Một số tính chất của các xấp xỉ:
1)
)()( XBXXB
∗
∗
⊆⊆
,
2)
UUBUB BB ==∅=∅=∅
∗
∗
∗
∗
)()(;)()(
,
3)
)()(( YBXBYXB
∗∗∗
∪=∪
,
4)
)()()( YBXBYXB
∗∗∗
∩=∩
,
5)
YX ⊆
⇒
)()( YBXB
∗∗
⊆
và
)()( YBXB
∗
∗
⊆
,
6
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
6)
)()()( YBXBYXB
∗∗∗
∪⊇∪
,
7)
)()()( YBXBYXB
∗∗∗
∩⊆∪
,
8)
)()( XBXB
∗
∗
−=−
,
9)
)()( XBXB
∗
∗
−=−
,
10)
)())(())(( XBXBBXBB
∗∗
∗
∗∗
==
,
11)
)())(())(( XBXBBXBB
∗∗
∗
∗∗
==
trong đó: -X ký hiệu thay cho U\X và là phần bù của X
Ta phân chia 4 lớp tậpthô cơ bản sau đây:
a)
∅≠
∗
)(XB
và
≠
∗
)(XB
U thì X là B-định nghĩa được thô
b)
∅=
∗
)(XB
và
UXB ≠
∗
)(
thì X là B-không định nghĩa được bên trong,
c)
∅≠
∗
)(XB
và
UXB =
∗
)(
thì X là B-định nghĩa được bên ngoài,
d)
∅=
∗
)(XB
và
UXB =
∗
)(
thì X là B-không định nghĩa được hoàn toàn
Ý nghĩa trực quan của các lớp này như sau:
- Nếu X là B-định nghĩa được thô, có nghĩa rằng có thể xác định một số
phần tử của U hoặc là thuộc vào X hoặc là thuộc vào –X khi sử dụng B.
- Nếu X là B-không định nghĩa được bên trong, có nghĩa rằng có thể quyết
định được một số phần tử của U thuộc vào –X nhưng không thể quyết định một
phần tử nào đó của U có thuộc vào X hay không khi sử dụng B.
- Nếu X là B-không định nghĩa được bên ngoài, có nghĩa là có thể quyết
định được một số phần tử của U thuộc vào X nhưng không thể quyết định được
bất kỳ một phần tử nào của U có thuộc vào –X hay không khi sử dụng B.
- Nếu X là B-không định nghĩa được hoàn toàn thì ta không thể quyết định
được với mỗi phần tử của U có thuộc vào X hoặc –X hay không khi sử dụng B.
Các tậpthô cũng có thể được tính chất hóa bằng hệ số sau đây:
|)(|
|)(|
)(
XB
XB
X
B
∗
∗
=
α
7
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Hệ số này được gọi là độ chính xác của xấp xỉ. Hiển nhiên,
1)(0 ≤≤ X
B
α
.
Nếu
1)( =X
B
α
thì X là tập rõ theo B còn nếu
1)( <X
B
α
thì X là tậpthô theo
B (X không rõ ràng theo B).
Chúng ta mô tả các định nghĩa ở trên bằng các ví dụtừ bảng 1 với khái
niệm “bị bệnh cúm”, tập X={p1, p2,p3,p6} và tập các thuộc tính B = {đau đầu,
đau cơ, nhiệt độ}. Khái niệm “bị bệnh cúm” là B-định nghĩa được thô, vì
∅≠=
∗
}6,3,1{)( pppXB
và
UpppppXB ≠=
∗
}6,5,3,2,1{)(
. Với trường hợp này,
chúng ta nhận được
α
B
(“bị bệnh cúm”) =3/5. Có nghĩa là khái niệm “bị bệnh
cúm” chỉ được mô tả bộ phận từ các triệu chứng: đau đầu, đau cơ và nhiệt độ.
Chỉ xét một triệu chứng B= {đau đầu} chúng ta có
∅=
∗
)(XB
, và
UXB =
∗
)(
, có
nghĩa rằng khái niệm “bị bệnh cúm” không định nghĩa được hoàn toàn theo thuộc
tính đau đầu. Tuy nhiên, khi lấy thuộc tính B = {nhiệt độ} chúng ta có
}6,3{)( ppXB =
∗
và
}6,5,3,2,1{)( pppppXB =
∗
. Do đó, khái niệm “bị bệnh cúm”
định nghĩa được một cách thô. Trong trường hợp này ta nhận được
α
B
(X)= 2/5.
Điều này có nghĩa là triệu chứng nhiệt độ ít ảnh hưởng với bị bệnh cúm hơn toàn
bộ các triệu chứng và bệnh nhân p1 không thể được phân lớp là bị cúm trong
trường hợp này.
4. Các tậpthô và hàm thức
Các tậpthô có thể được định nghĩa bằng cách sử dụng một hàm thuộc thô
được xác định như sau:
|)(|
|)(|
)(
xB
xBX
x
B
X
∩
=
µ
.
Hiển nhiên:
]1,0[)( ∈x
B
X
µ
Giá trị của hàm thuộc
µ
X
(x) là xác suất có điều kiện và có thể được hiểu
như độ chắc chắn để x thuộc vào X.
8
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
Hàm thuộc thô có thể được sử dụngđể định nghĩa các xấp xỉ và vùng biên
của một tập hợp như sau:
}1)(:{)( =∈=
∗
xUxXB
B
X
µ
,
}0)(:{)( >∈=
∗
xUxXB
B
X
µ
,
}1)(0:{)( <<∈= xUxXBN
B
XB
µ
Hàm thuộc thô có những tính chất sau đây:
a)
1)( =x
B
X
µ
iff
)(
*
XBx∈
,
b)
0)( =x
B
X
µ
iff
)(
*
XBx −∈
,
c)
1)(0 << x
B
X
µ
iff
)(XBNx
B
∈
,
d) Nếu
}:),{()( UxxxBI ∈=
, thì
)(x
B
X
µ
là hàm đặc trưng của X,
e) Nếu xI(B)y, thì
)(x
B
X
µ
=
)(y
B
X
µ
theo I(B),
f) Mọi x∈U,
)(1)( xx
B
X
B
XU
µµ
−=
−
,
g) Mọi x∈U,
≥
∪
)(x
B
YX
µ
max
))(),(( xx
B
Y
B
X
µµ
h) Mọi x∈U,
≤
∩
)(x
B
YX
µ
min
))(),(( xx
B
Y
B
X
µµ
.
Các tính chất trên cho thấy rõ ràng sự khác biệt giữa thành viên mờ và thô.
Trong các biểu thức g) và h) cho thấy các thành viên thô chính thức có thể được
coi như là một sự tổng quát của các thành viên mờ. Chúng ta hãy nhớ lại rằng “
thô thành viên”, trái ngược với “thành viên mờ” , có tính chất xác suất.
Nó có thể được dễ dàng nhìn thấy rằng có tồn tại một kết nối chặt chẽ giữa
sự mơ hồ và không chắc chắn. Như chúng tôi đã đề cập ở trên không rõ ràng có
liên quan đến bộ( khái niệm), trong khi không chắc chắn liên quan đến các yếu tố
của bộ. Cách tiếp cận tậpthô cho thấy kết nối rõ ràng giữa hai khái niệm này.
5. CÁC BẢNG QUYẾT ĐỊNH VÀ THUẬT GIẢI QUYẾT ĐỊNH
Trong một bảng thông tin, ta phân biệt hai lớp các thuộc tính: các thuộc
tính điều kiện và các thuộc tính quyết định. Ví dụtrong bảng 1 các thuộc tính:
9
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
đau đầu, đau cơ và nhiệt độ có thể được xem như các thuộc tính điều kiện, còn
thuộc tính bị cúm là thuộc tính quyết định.
Mỗi hàng của một bảng quyết định xác định một luật quyết định, nó xác
định các quyết định có thể xảy ra khi các điều kiện được thỏa mãn. Ví dụtrong
bảng 1 điệu kiện (đau đầu, không), (đau cơ, có), (nhiệt độ, cao) xác định duy
nhất quyết định (bị bệnh cúm,có). Các đối tượng trong một bảng quyết định được
sử dụng như là các nhãn của các luật quyết định.
Các luật 2) và 5) trong bảng 1 có cùng các điều kiện nhưng khác nhau ở
các quyết định. Những luật như vậy được gọi là mâu thuẫn còn trong trường hợp
ngược lại thì các luật được gọi là nhất quán. Đôi khi các luật quyết định nhất
quán còn được gọi là các luật chắc chắn.
Tỷ lệ các luật nhất quán trên tất cả các luật trong một bảng quyết định có
thể được xem như là hệ số nhất quán của bảng quyết định, và được ký hiệu bởi
γ
(C, D), trong đó C là các thuộc tính điều kiện và D là các thuộc tính quyết định.
Do đó, nếu
γ
(C, D) =1 thì bảng quyết định là nhất quán và nếu
γ
(C, D) ≠ 1 thì
bảng quyết định là không nhất quán. Ví dụ với bảng 1 chúng ta có
γ
(C, D) = 4/6.
Các luật quyết định thường được biểu diễn bằng các phép kéo theo theo
dạng các luật “if…then…”. Ví dụ luật 1) trong bảng 1 có thể được biểu diễn như
sau:
If (Đau đầu, không) và (Đau cơ, có) và (Nhiệt độ, cao) then (Bị bệnh cúm,
có).
Một tập các luật quyết định được gọi là một thuật giải quyết định. Do đó,
với mỗi bảng quyết định ta có thể gắn với một thuật giải quyết định chứa tất cả
các luật quyết định xuất hiện trong bảng quyết định đó.
Chúng ta cần phải phân biệt sự khác biệt giữa các bảng quyết định và các
thuật giải quyết định. Một bảng quyết định là các dữliệutrong khi một thuật giải
quyết định là một tập các luật kéo theo, chẳng hạn các biểu thức logic. Để xử lý
dữ liệu chúng ta sử dụng một số phương pháp thống kê toán học. Nhưng để phân
tích các luật kéo theo chúng ta cần phải sử dụng tới các công cụ logic. Do đó, hai
10
Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5
[...]... bỏ được sử dụng lý thuyết tậpthô Điều này cho phép chúng ta dễ dàng hơn trong việc lậpluận với dữliệu vì số lượng các thuộc tính hay phạm vi của bài toán đã được thu hẹp lại Lý thuyết tậpthô có rất nhiều ứng dụngtrong phân tích dữliệu y học, tài chính, nhận dạng giọng nói, xử lý ảnh và một số lĩnh vực khác Phương pháp được trình bày trong bài báo là đơn giản hơn so với nhiều ứng dụngtrong thực... Có thể xóa bớt một số dữliệutừ bảng dữliệu mà vẫn giữ được các tính chất cơ bản của nó hay không? Hay nói một cách khác, liệutrong bảng có chứa một số dữliệu không cần thiết hay không? Dễ thấy rằng, nếu ta xóa trong bảng 1 hoặc là thuộc tính đau đầu hoặc đau cơ thì sẽ nhận được tậpdữliệu là tương đương với tập ban đầu theo định nghĩa các xấp xỉ và các phụ thuộc Dó đó, trong trường hợp này độ... nhiều ứng dụngtrong thực tế và đã được mở rộng theo nhiều hướng khác nhau Những thảo luận chi tiết về 25 Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5 những vấn đề trên có thể thấy trong các tàiliệu [5,6] Ở đây chúng tôi chỉ đưa ra những ý tưởng cơ bản đểlậpluận với các hạt dữliệu khi sử dụng lý thuyết các tậpthôTÀILIỆU THAM KHẢO [1] Z Pawlak: Rough sets, International Journal of Computer and Information... nếu B' nếu là độc lập và I(B') = I(B) Do đó một thu gọn là một tập các thuộc tính bảo toàn phân hoạch Có nghĩa rằng một phân hoạch là một tập con nhỏ nhất các thuộc tính có khả năng phân lớp các phần tửtrongtập tổng thể giống như khi sử dụng toàn bộ tập các thuộc tính Nói cách khác, các thuộc tính không thuộc vào một thu gọn là các thuộc tính dư thừa khi phân lớp các phần tử của tập tổng thể Các thu... logic gắn với tập thuộc tính δ ( x, y ) Hàm phân biệt được định nghĩa bằng công thức: f ( B) = ∏{Σδ ( x, y) : ( x, y ) ∈ U ( x , y )∈U 2 2 & δ ( x, y ) ≠ ∅} Tính chất sau đây thiết lập mối quan hệ giữa hàm f(B) và tập tất cả các thu gọn của B Định lý 5: Tập tất cả các phần tửtrong dạng chuẩn tắc nhỏ nhất của hàm f(B) chính là tập tất cả các thu gọn của B Chứng minh: Thật vậy,với mỗi phần tửtrong dạng... T 5 H, M M, T 6 T Bảng 6 Trong bảng H, M, T tương ứng là ký hiệu Đau đầu, Đau cơ và Nhiệt độ Hàm phân biệt cho bảng trên là: T ( H + M )( H + M + T )( M + T ) , Trong đó ký hiệu + là tổng logic còn phép nhân logic không cần ký hiệu trong công thức Sử dụng các luật của đại số logic chúng ta có biểu thức sau: TH + TM Điều này chỉ ra rằng có hai thu gọn TH và TM trong bảng dữliệu và T là hạt nhân 9 ĐỘ... Tuy nhiên, để đơn giản chúng ta sẽ sử dụng các luật quyết định theo phép kéo theo chứ không đi sâu hơn về biểu diễn tự nhiên như đã thực hiện trong trí tuệ nhân tạo 6 SỰ PHỤ THUỘC VÀO CÁC THUỘC TÍNH Một vấn đề quan trọng khác trong phân tích dữliệu là khám phá sự phụ thuộc giữa các thuộc tính Một cách trực giác, một tập các thuộc tính D phụ thuộc hoàn toàn vào một tập các thuộc tính C, ký hiệu: C ⇒D,... mức độ phụ thuộc giống như trong bảng trước đó nhưng với tập các thuộc tính nhỏ hơn Để diễn đạt những ý tưởng trên rõ ràng hơn chúng tôi sử dụng một số khái niệm bổ trợ Định nghĩa 3: Gỉa sử B ⊆ A và a∈B 1 a được gọi là có thể bỏ được trong B nếu I(B)=I(B – {a}; ngược lại a là không thể bỏ được trong B 2 Tập B là độc lập nếu tất cả các thuộc tính của nó là không thể bỏ được 3 Tập con B' của B là một thu... fD(C) được định nghĩa như trước đây Chúng ta cũng có tính chất sau đây: Định lý 6: Tập tất cả các phần tửtrong dạng phân biệt chuẩn tắc của hàm fD(C) chính là tập tất cả các D-thu gọn của C Chứng minh: Thật vậy với mỗi phần tửtrong dạng chuẩn tắc phân biệt của hàm fD(C) có tương ứng một ma trận phân biệt MD(C) Nó bao gồm tập con nhỏ nhất các thuộc tính phân biệt tất cả các lớp tương đương của quan hệ... chính xác thành các khối của các phân hoạch U/D khi sử dụng các thuộc tính C Do đó khái niệm tính độc lập của các thuộc tính được liên hệ với khái niệm tính nhất quán của bảng dữliệu Chẳng hạn với quan hệ {đau đầu, đau cơ, nhiệt độ}⇒{bị bệnh cúm} ta nhận được k=4/6, vì bốn trong sáu bệnh nhân có thể được phân lớp thành tập bị bệnh cúm khi sử dụng các thuộc tính đau đầu, đau cơ và nhiệt độ Khi quan . ĐỀ TÀI ỨNG DỤNG TẬP THÔ TRONG LẬP LUẬN TỪ DỮ LIỆU 1 Sinh viên: Trịnh Văn Dương – Lớp KHMT4K5 1. Mở Đầu 3 2. VÍ DỤ 4 3. Tập thô và các xấp xỉ 5 4. Các tập thô và hàm thức 8 5 đương. Trong bài báo này chúng tôi định nghĩa các khái niệm cơ bản của lý thuyết tập thô dưới dạng dữ liệu. Các khái niệm này sẽ được áp dụng để thực hiện lập luận từ dữ liệu. Các tập trong. một tập hợp hoặc phần bù của nó khi sử dụng các tri thức có được. Do đó, mỗi tập thô khác với tập thông thường là nó có vùng biên thường khác rỗng. Bộ lý thuyết tập thô được xác định xấp xỉ. Thông