Một ưu điểm của lý thuyết tập thô đối với hướng tiếp cận xác suất Bayes là không cần giả định về sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu.. Hệ
Trang 1CHƯƠNG TRÌNH ĐẠO TẠO THẠC SĨ CNTT QUA MẠNG
oOo
BÀI THU HOẠCH MÔN HỌC
KHAI PHÁ DỮ LIỆU &
KHO DỮ LIỆU
-LÝ THUYẾT TẬP THÔ &
ỨNG DỤNG TÌM MA TRẬN PHÂN BIỆT
PGS TS.: ĐỖ PHÚC HỌC VIÊN: NGUYỄN HOÀNG HUY
MSHV: CH1101090
< 2012 >
Trang 2MỤC LỤC
A LÝ THUYẾT TẬP THÔ 2
1 Tổng quan 2
2 Các hệ thong tin 2
a Hệ thông tin 2
b Hệ quyết định 3
3 Quan hệ bất khả phân biệt 3
4 Xấp xỉ tập hợp 5
5 Rút gọn 7
a Định nghĩa 7
b Ma trận phân biệt 8
c Hàm phân biệt 8
6 Phụ thuộc thuộc tính 9
B ỨNG DỤNG TÍNH MA TRẬN PHÂN BIỆT 10
1 Giới thiệu 10
2 Cài đặt 10
3 Thử nghiệm 10
TÀI LIỆU THAM KHẢO 13
Trang 3A LÝ THUYẾT TẬP THÔ
1 Tổng quan
Lý thuyết tập thô được Z Pawlak phát triển vào đầu thập niên 1980 Lý thuyết tập thô rất hiệu quả trong khai thác dữ liệu (KTDL), tìm kiếm thông tin, hỗ trợ quyết định, máy học, các hệ cơ sở tri thức Rất nhiều ứng dụng sử dụng ý tưởng của lý thuyết tập thô như phân tích dữ liệu y khoa, lượng giá điều phối hang không, xử lý ảnh, nhận dạng…
Hầu hết cơ sở dữ liệu (CSDL) được sử dụng cho việc KTDL đều không hoàn thiện về dữ liệu Lý thuyết tập thô là công cụ nhằm giải quyết sự gần đúng và các trường hợp không chắc chắn
Một ưu điểm của lý thuyết tập thô đối với hướng tiếp cận xác suất Bayes là không cần giả định về sự độc lập của các thuộc tính cũng như không cần bất kỳ kiến thức nền nào về dữ liệu
2 Các hệ thong tin
a Hệ thông tin
Hệ thông tin là tập hợp dữ liệu được biểu diễn dưới dạng bảng, trong đó mỗi dòng biểu diễn một trường hợp, một sự kiện, một khác hang… hoặc là một đối tượng Mỗi cột biểu diễn một thuộc tính và có thể đo đạc được với từng đối tượng Một cách hình thức, hệ thông tin là cặp A = (U, A) Trong đó U là tập hữu hạn khác rỗng các đối tượng (tập phổ quát) và A là tập hữu hạn khác rỗng các thuộc tính sao cho a : U Va với mỗi thuộc tính a A Tập Va được gọi là tập giá trị của thuộc tính a
Ví dụ 2.a:
Cho bảng thể hiện một hệ thông tin như sau:
Bảng gồm bảy đối tượng (x1 x7) và hai thuộc tính (Độ_tuổi, Số_buổi)
Ta thấy các bộ x3 và x4 cũng như x5 và x7 có cùng giá trị của thuộc tính Độ_tuổi Các bộ này – theo từng cặp – là bất khả phân biệt với thuộc tính Độ_tuổi
Trang 4b Hệ quyết định
Ta thấy có sự phân loại kết quả trong nhiều ứng dụng – đó là sự mô tả tri thức bởi một thuộc tính đặc trưng phân biệt được gọi là thuộc tính quyết định Hệ thống này là một hình thức học có giám sát Các hệ thông tin theo loại này được gọi là các hệ quyết định Một hệ quyết định là một hệ thông tin có dạng (U ; A {d}).d}).) Trong đó d A là thuộc tính quyết định Các thành phần thuộc tính của A được gọi là các thuộc tính điều kiện hoặc gọi đơn giản là các thuộc tính Thuộc tính quyết định có thể có nhiều hơn hai giá trị mặc dù thường gặp là thuộc tính nhị phân
Ví dụ 2.b:
Cho bảng quyết định đơn giản như sau:
Bảng này có them thuộc tính quyết định là Thi_đậu với hai khả năng kết quả
Có thể nhận thấy các bộ x3 và x4 cũng như x5 và x7 có cùng giá trị của thuộc tính Độ_tuổi và Số_buổi Nhưng cặp x3, x4 có kết quả Thi_đậu khác nhau trong khi cặp x5, x7 có cùng kết quả Thi_đậu
Có thể rút từ bảng quyết định này ra luật sau:
“Nếu Độ_tuổi là 16-30 và Số_buổi là 50 thì Thi_đậu là Có”
Trong tiến trình tạo tập luật sau này cần lưu ý đến việc rút gọn vế trái của luật
3 Quan hệ bất khả phân biệt
Một hệ quyết định (bảng quyết định) biểu diễn tất cả các tri thức về mô hình Bảng này có thể có kích thước lớn một cách không cần thiết vì bảng này là dư thừa ít nhất ở hai mặt Các đối tượng giống nhau hoặc bất khả phân biệt có thể được biểu diễn nhiều lần hoặc thừa
Một quan hệ nhị phân R X X là có tính phản xạ (một đối tượng sẽ có quan hệ với chính nó xRx), phản xứng (nếu xRy thì yRx) và bắc cầu (nếu xRy và yRz thì xRz) được gọi là một quan hệ tương đương Lớp tương đương của một phần tử x X bao gồm tất cả các đối tượng y X sao cho xRy
Trang 5Cho một hệ thông tin S = (U; A), với tập thuộc tính B A có quan hệ tương đương tương ứng INDS(B):
INDS(B) = {d}).(u; v) U2 | a B, a(u) = a(v)})
INDS(B) được gọi là quan hệ bất khả phân biệt theo B Nếu (u, v) INDS(B) thì các đối tượng u và v là không thể phân biệt lẫn nhau qua tập thuộc tính B Các lớp tương đương của quan hệ bất khả phân biệt theo B được ký hiệu là [x]B (ký hiệu S trong quan hệ bất khả phân biệt thường được lược bỏ vì ta xác định được hệ thông tin nào đang khảo sát)
Ví dụ 3:
Quan hệ bất khả phân biệt được định nghĩa với bảng quyết định
Các tập con khác rỗng của các thuộc tính điều kiện là {d}).Độ_tuổi})., {d}).Số_buổi}) và {d}).Độ_tuổi, Số_buổi})
Với tập {d}).Số_buổi})., các bộ x3 và x4 thuộc cùng một lớp tương đương và bất khả phân biệt Tương tự cho các bộ x5, x6 và x7 thuộc vào các lớp tương đương Quan hệ tương đương IND trên các tập thuộc tính {d}).Độ_tuổi})., {d}).Số_buổi}) và {d}).Độ_tuổi, Số_buổi}) cho ta các phân hoạch tập U như sau:
IND({d}).Độ_tuổi}).) = {d}).{d}).x1; x2; x6}).; {d}).x3; x4}).; {d}).x5; x7}).})
IND({d}).Số_buổi}).) = {d}).{d}).x1}).; {d}).x2}).; {d}).x3; x4}).; {d}).x5; x6; x7}).})
IND({d}).Độ_tuổi, Số_buổi}).) = {d}).{d}).x2}).; {d}).x2}).; {d}).x3; x4}).; {d}).x5; x7}).; {d}).x6}).})
4 Xấp xỉ tập hợp
Một quan hệ tương đương dẫn đến một phân hoạch tập phổ quát U (tập các bộ trong hệ thông tin) Có thể dùng phép phân hoạch để tạo các tập con mới của tập phổ quát Các tập con thường được quan tâm là các tập con có cùng giá trị của thuộc tính quyết định Tuy nhiên không thể phân định rõ ràng một số khái niệm
Ví dụ không thể định nghĩa một cách rõ ràng tập các khách hàng có trị dương cho thuộc tính quyết định (Thi_đậu = Có) bằng các thuộc tính khác trong bảng quyết định
ở ví dụ 3 Những khách hàng “gặp khó khăn” là các bộ x3 và x4 Nói cách khác, không
Trang 6thể có một định nghĩa chính xác với những khách hàng như vậy từ bảng này Từ đây phát sinh khái niệm tập thô
Mặc dù ta không thể xác định khách hàng một cách chính xác nhưng có thể chỉ ra các khách hàng nào chắc chắn có trị dương cho thuộc tính quyết định, các khách hàng nào chắc chắn không có kết quả dương cho thuộc tính quyết định và cuối cùng là các khách hàng nào thuộc vào vùng biên giữa các trường hợp chắc chắn Nếu vùng biên này là khác rỗng, tập đang xét là tập thô Các khái niệm trên được biểu diễn một cách hình thức như sau:
Cho hệ thông tin IS = (U; A) và cho B A và X U Ta có thể xấp xỉ tập đối tượng X chỉ với thông tin chứa trong tậo thuộc tính B bằng cách xây dựng các xấp xỉ
B-dưới và B-trên của tập X, ký hiệu tương ứng là B X và B X, trong đó:
B X = {d}).x | [x]B X}) và
B X = {d}).x | [x]B X ≠})
Các đối tượng trong B X có thể chắc chắn được phân lớp như là các thành viên của tập X theo tập thuộc tính B, trong khi các đối tượng trong B X chỉ có thể phân lớp
là các thành viên có kết quả dương tính của tập X theo tập thuộc tính B
Tập BNB(X) = B X - B X được gọi là cùng B-biên của tập X và chứa các đối tượng
mà ta không thể phân lớp chắc chắn vào X dựa theo tập thuộc tính B
Tập U - B X được gọi là vùng B-ngoài của X và chứa các đối tượng phấn lớp chắc
chắn là không thuộc về tập X dựa theo tập thuộc tính B
Một tập hợp được gọi là thô nếu vùng biên là khác rỗng Ngược lại, một tập hợp
được gọi là rõ nếu vùng biên là rỗng
Ví dụ 4:
Gọi tập đối tượng W = {d}).x | Thi_đậu(x) = Có}) = {d}).x1, x4, x6}) và B = {d}).Độ_tuổi, Số_buổi}) theo ví dụ 3 Ta có các vùng xấp xỉ:
B W = {d}).x1; x6})
B W = {d}).x1; x3; x4; x6})
BNB(W) = {d}).x3; x4}) và U - B W = {d}).x2; x5; x7})
Như vậy lớp quyết định Thi_đậu là thô vì vùng biên khác rỗng
Trang 7{x2; x5; x7}
{x3; x4}
Yes
Xấp xỉ tập các khách hàng có thuộc tính quyết định Thi_đậu qua hai thuộc tính điều kiện là Độ_tuổi và Số_buổi Các lớp tương đương được trình bày theo các vùng tương ứng
Có thể chứng minh các tính chất sau của các tập xấp xỉ tập hợp:
(1) B(X) X B(X)
(2) B() = B() = , B(U) = B(U) = U
(3) B(X Y) = B(X) B(Y)
(4) B(X Y) = B(X) B(Y)
(5) X Y B(X) B(Y) và B(X) B(Y)
(6) B(X Y) B(X) B(Y)
(7) B(X Y) B(X) B(Y)
(8) B(U – X) = – B(X)
(9) B(U – X) = – B(X)
(10) B(B(X)) = B(B(X)) = B(X)
(11) B(B(X)) = B(B(X)) = B(X)
Có thể định nghĩa bốn lớp cơn bản của tập thô ứng với bốn loại mập mờ như sau:
1 X là có thể xác định thô theo B
nếu và chỉ nếu B(X) ≠ và B(X) ≠ U;
2 X là không thể xác định phía trong theo B
nếu và chỉ nếu B(X) = và B(X) ≠ U;
3 X là không thể xác định phía ngoài theo B
nếu và chỉ nếu B(X) ≠ và B(X) = U;
4 X là hoàn toàn không thể xác định theo B
nếu và chỉ nếu B(X) = và B(X) = U;
Độ chính xác của xấp xỉ: Tập thô còn có thể đặc trưng hóa dưới hình thức số bằng
hệ số phản ánh độ chính xác của xấp xỉ:
α B ( X )=¿B ( X )∨ ¿
¿B ( X )∨¿ ¿¿
Trang 8Trong đó |X| biểu diễn lực lượng của tập X ≠
Và ta có 0 α B(X) 1
Nếu α B(X) = 1, X là rõ theo B (X là chính xác theo B)
Nếu α B(X) < 1, X là thô theo B (X là gần đúng theo B)
5 Rút gọn
a Định nghĩa
Một rút gọn của hệ thông tin IS là một tập tối tiểu các thuộc tính B A sao cho INDS(B) = INDS(A)
Nói cách khác, một rút gọn là một tập tối tiểu các thuộc tính từ tập thuộc tính
A, mà rút gọn này bảo toàn việc phân hoạch tập phổ quát U và vì thế bảo toàn khả năng phân lớp thay vì phải thực hiện với toàn bộ tập thuộc tính A
Ví dụ 5.a:
Cho bảng quyết định :
Bằng_cấp Kinh_nghiệ
m
Tiếng_An
Tuyển_dụn g
Ta có:
S’ = (U;{d}).Bằng_cấp, Kinh_nghiệm, Tiếng_Anh, Giới_thiệu}).{d}).Tuyển_dụng}).) Nếu chỉ xem xét các thuộc tính điều kiện nghĩa là với hệ thông tin:
S = (U;{d}).Bằng_cấp, Kinh_nghiệm, Tiếng_Anh, Giới_thiệu}).)
Để đơn giản, mỗi lớp tương đương chỉ chứa một phần tử Theo quan sát cho thấy tồn tại một tập tối tiểu các thuộc tính là {d}).Kinh_nghiệm, Giới_thiệu}) cho phép phân biệt các đối tượng như là toàn bộ tập thuộc tính của các đối tượng đang xét Ngoài ra cũng có thể kiểm chứng là quan hệ tương đương với toàn bộ tập thuộc tính và quan hệ tương đương với tập {d}).Kinh_nghiệm, Giới_thiệu}) là như nhau
Trang 9b Ma trận phân biệt
Với S là một hệ thông tin có n đối tượng, ma trận phân biệt của S là một ma trận đối xứng n n với các giá trị cij được định nghĩa như sau :
cij = {d}).a A | a(xi) ≠ a(xj)}) với i, j = 1 n
Mỗi dòng bao gồm tập giá trị các thuộc tính khác nhau với các đối tượng xi, xj
Ví dụ 5.b:
Từ ví dụ 5.a, ta sắp lại thứ tự của bảng quyết định theo thuộc tính Tuyển_dụng như sau:
Bằng_cấp (d)
Kinh_nghiệ m (e)
Tiếng_An h (f)
Giới_thiệu (r)
Tuyển_dụn g
Ta có ma trận phân biệt tương ứng là đối xứng và có đường chéo rỗng:
c Hàm phân biệt
Hàm phân biệt fS của hệ thông tin S là một hàm bool của m biến bool a*;
…;a*
m (ứng với các thuộc tính a1;…;am) và được định nghĩa như sau :
fIS(a*;…;a*
m) = {d}).c ij¿
| 1 j i n, cij ≠ })
trong đó c ij¿
= {d}).a* | a cij})
Tập các đơn thức của fIS xác định tập các rút gọn của IS
Ví dụ 5.c:
Từ ví dụ 5.b, ta có hàm phân biệt liên quan đến quyết định là f M d (IS )=ed er
Trang 10Từ định nghĩa của ma trận phân biệt liên quan đến quyết định, tiến hành chọn một cột của ma trận bất khả phân biệt (ví dụ như tương ứng với [x1]) và đơn giản hóa nó cho hàm tối tiểu phân biệt [x1] với các đối tượng thuộc vào các lớp quyết định tương ứng từ các đối tượng thuộc về các lớp quyết định khác (ví dụ như cột thứ nhất cho hàm bool là (er)(der)(dr)(def), ta đơn giản hóa trở thành edrdrerf
Ta thấy các trường hợp x1 và x6 đúng với luật “Nếu Giới_thiệu là Xuất_sắc và Tiếng_Anh là Tốt thì Tuyển_dụng là Chấp_nhận”
Nếu một hàm bool như trường hợp hàm phân biệt k-tương đối được xâu dựng bằng việc giới hạn chỉ duyệt trên các cột liên quan đến các đối tượng với quyết định trên xk thì ta thu được hàm phân biệt (k, d) tương đối Các luật quyết định với
số lượng điều kiện ít nhất ở vế trái có thể được xây dựng từ các đơn thức của các hàm này
6 Phụ thuộc thuộc tính
Một vấn đề quan trọng khác trong phân tích dữ liệu là phát hiện sự phụ thuộc giữa các thuộc tính Bằng trực giác, một tập thuộc tính D phụ thuộc hoàn toàn vào một tập thuộc tính C (ký hiệu C D), nếu tất cả giá trị của các thuộc tính trong D được xác định duy nhất bởi các giá trị của C
Cho D và C là các tập thuộc tính con của A Ta nó rằng D phụ thuộc vào C ở mức
k (0 k 1), ký hiệu C k D nếu :
k =(C ; D)=¿POS C D∨ ¿
¿U∨¿ ¿¿
hoạch U theo tập thuộc tính D Với C là tập mọi thành phần của U có thể được phân lớp theo phép phân hoạch U/D
Hiển nhiên:
γ (C ; D)= ∑
X ∈U / D
¿C( X)∨ ¿
¿U ∨¿¿¿
Nếu k = 1 ta nói rằng D phụ thuộc hoàn toàn vào C
Nếu k < 1 ta nói rằng D phụ thuộc một phần (theo mức độ k) vào C
Trang 11B ỨNG DỤNG TÍNH MA TRẬN PHÂN BIỆT
1 Giới thiệu
Chương được viết bằng ngôn ngữ C# trên bộ Microsoft Visual C# 2010 Express Input: Bản quyết định từ file Excel
Output: Ma trận phân biệt
2 Cài đặt
Chương trình gồm một số hàm chính như sau:
ref DataGridView dataGridView2)
3 Thử nghiệm
Trang 14TÀI LIỆU THAM KHẢO
1 Giáo trình Khai thác dữ liệu – PGS TS Đỗ Phúc
2 Giáo trình bài giảng Khai thác dữ liệu & Kho dữ liệu – PGS TS Đỗ Phúc
3 Một số tài liệu tham khảo từ internet