Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG --- NGUYỄN QUỲNH LAN NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP RÚT G
Trang 1Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN
THÔNG
-
NGUYỄN QUỲNH LAN
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY
Trang 2Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
LỜI CẢM ƠN
Em xin chân thành cảm ơn và biết ơn sâu sắc đến GS.TS Vũ Đức Thi, Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam Người đã tận tình dày công hướng dẫn và giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn các Thầy ở Viện Công nghệ Thông tin đã dạy bảo, giúp đỡ và truyền đạt kiến thức cho em trong suốt khóa học, trong suốt cả quá trình
em làm luận văn
Em xin chân thành cảm ơn các Thầy, các Cô ở trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã động viên, giúp đỡ và tạo điều kiện cho
em trong suốt thời gian học tập và nghiên cứu
Cuối cùng xin chân thành cảm ơn bàn bè, người thân và gia đình luôn là người đồng hành, động viên, chia sẻ những khó khăn trong suốt thời gian hoàn thành luận văn
Thái Nguyên, tháng 08 năm 2013
Nguyễn Quỳnh Lan
Trang 3Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản phẩm tìm hiểu, nghiên cứu của mình Một số Định nghĩa, Định lý, Tính chất, Mệnh đề và Thuật toán tôi lấy từ nguồn tài liệu chính xác có trích dẫn tên tài liệu và tên tác giả rõ ràng Tôi xin chịu trách nhiệm về luận văn của mình
Nguyễn Quỳnh Lan
Trang 4Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỤC LỤC
MỤC LỤC i
Danh mục các thuật ngữ iii
Bảng các ký hiệu, từ viết tắt iv
Danh sách bảng v
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ 3
1.1 Bảng quyết định đầy đủ 3
1.2 Hệ thông tin 3
1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống 3
1.3.1 Hệ thông tin đầy đủ 3
1.3.2 Mô hình tập thô truyền thống 5
1.3.3 Tập rút gọn và tập lõi 7
1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai 9
1.4.1 Hệ thông tin không đầy đủ 9
1.4.2 Bảng quyết định không đầy đủ 11
1.4.3 Tập rút gọn của bảng quyết định không đầy đủ 11
1.5.Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric 12
1.5.1 Metric trên họ các tri thức và tính chất 12
1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn 12
1.5.1.2 Metric trên họ các tri thức 14
1.5.1.3 Một số tính chất của metric trên bảng quyết định 15
1.5.2 Rút gọn thuộc tính trong bảng quyết định sử dụng metric 18
Trang 5Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1.5.2.1.Tập lõi và tập rút gọn của bảng quyết định dựa trên metric……….…… 18
1.5.2.2.Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric 19
1.6 Kết luận chương 1……… 27
Chương 2.RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ….28 2.1 Giới thiệu 28
2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất… …… 29
2.2.1 Entropy Liang mở rộng của tập thuộc tính 29
2.2.2 Entropy Liang mở rộng có điều kiện 30
2.2.3 Một số tính chất của entropy Liang mở rộng 32
2.3 Metric trên họ các phủ và các tính chất 37
2.3.1 Metric trên họ các phủ 37
2.3.2 Một số tính chất chất của metric 40
2.4 Rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng metric……… … 43
2.4.1 Tập rút gọn của bảng quyết định không đầy đủ dựa trên metric 43
2.4.2.Thuật toán tìm tập rút gọn của bảng quyết định không đầy đủ 44
2.5 Kết luận chương 2 52
Chương 3 CHƯƠNG TRÌNH THỬ NGHIỆM 53
3.1 Mô tả dữ liệu 53
3.2 Xây dựng chương trình 57
3.3 Kết quả thực nghiệm 59
3.4 Nhận xét 60
KẾT LUẬN 61
TÀI LIỆU THAMKHẢO……….62
PHỤ LỤC……… 64
Trang 6Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Danh mục các thuật ngữ
Thuật ngữ tiếng việt Thuật ngữ tiếng anh
Trang 7Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bảng các ký hiệu, từ viết tắt
Ký hiệu, từ viết tắt Diễn giải
hệ thông tin không đầy đủ
biết P trong hệ thông tin không đầy đủ
thuộc tính P Trong hệ thông tin không đầy đủ là phủ sinh bởi tâp thuộc tính P
đầy đủ dựa trên khoảng cách Jaccard giữa hai tập hợp
không đầy đủ dựa trên entropy Liang mở rộng
Trang 8Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
DANH SÁCH BẢNG
Bảng 1.1 Bảng thông tin về bệnh cúm 6
Bảng 1.2 Bảng quyết định về bệnh cúm 9
Bảng 1.3 Bảng thông tin về các xe hơi 12
Bảng 1.4 Bảng quyết định về bệnh cảm cúm 19
Bảng 1.5 Bảng quyết định minh họa ví dụ 1.5 22
Bảng 2.1 Bảng hệ thông tin không đầy đủ về các xe hơi 37
Bảng 2.3 Bảng quyết định không đầy đủ minh họa ví dụ 2.3 49
Bảng 2.4 Bảng quyết định không đầy đủ về các xe hơi 52
Bảng 3.1 Bảng quyết định không đầy đủ về các xe hơi 56
Bảng 3.2 Kết quả thực hiện thuật toán Thuật toán 2.2………65
Bảng 3.3 Tập rút gọn của Thuật toán 2.2……… 65
Trang 9Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
MỞ ĐẦU
Mười năm trở lại đây chúng ta đã chứng kiến sự phát triển mạnh mẽ và sôi
động của lĩnh vực nghiên cứu về rút gọn thuộc tính sử dụng lý thuyết tập thô
Trong xu thế đó, nhiều nhóm nhà khoa học trên thế giới quan tâm nghiên cứu các
phương pháp rút gọn thuộc tính trong bảng quyết định Các phương pháp chính là:
Phương pháp dựa trên miền dương, phương pháp sử dụng các phép toán trong đại
số quan hệ, phương pháp sử dụng ma trận phân biệt, phương pháp sử dụng entropy
thông tin, phương pháp sử dụng các độ đo trong tính toán hạt
Mục tiêu của rút gọn thuộc tính là loại bỏ các thuộc tính dư thừa để tìm ra các
thuộc tính cốt yếu và cần thiết trong cơ sở dữ liệu Với bảng quyết định không đầy
đủ rút gọn thuộc tính là tìm tập con nhỏ nhất của tập thuộc tính điều kiện bảo đảm
thông tin phân lớp của bảng quyết định đó Đối với một bảng quyết định không đầy
đủ có thể có nhiều tập rút gọn khác nhau Tuy nhiên, trong thực hành thường không
đòi hỏi tìm tất cả các tập rút gọn mà chỉ cần tìm được một tập rút gọn theo một tiêu
chuẩn đánh giá nào đó là đủ
Các kết quả nghiên cứu cho thấy rút gọn thuộc tính làm giảm thiểu đáng kể
khối lượng tính toán, nhờ đó có thể áp dụng đối với các bài toán có khối lượng dữ
liệu lớn Thuật toán khá đơn giản về mặt thực thi Nên em quyết định lựa chọn đề
tài luận văn: “Nghiên cứu một số phương pháp rút gọn thuộc tính trong bảng
quyết định không đầy đủ”
Mục tiêu của luận văn: Tập trung nghiên cứu rút gọn thuộc tính trong bảng
quyết định đầy đủ từ đó làm cơ sở nghiên cứu tiếp phương pháp rút gọn thuộc tính
trong bảng quyết định không đầy đủ
Đối tượng và phạm vi nghiên cứu: Các bảng quyết định đầy đủ, các bảng
quyết định không đầy đủ với kích thước trung bình và lớn
Trang 10Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Phương pháp nghiên cứu
- Về nghiên cứu lý thuyết: Các Định lý, Mệnh đề…đã được chứng minh dựa vào các kiến thức cơ bản và các kết quả nghiên cứu đã công bố
- Về nghiên cứu thực nghiệm: Cài đặt thuật toán, chạy thử nghiệm thuật toán
Ý nghĩa khoa học của đề tài
-Đây là phương pháp được nhiều nhà khoa học nghiên cứu và đã có đóng góp trong thực tiễn
-Có thể coi luận văn là một tài liệu tham khảo khá đầy đủ, rõ ràng về các kiến thức cơ bản trong bảng quyết định không đầy đủ
Bố cục của luận văn: Gồm phần mở đầu và 3 chương nội dung, phần kết luận, danh mục tài liệu tham khảo và phụ lục
Chương 1: Trình bày các khái niệm cơ bản về bảng quyết định đầy đủ, bảng
quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai, trình bày phương pháp xây dựng 1 metric trên họ các tri thức trong hệ thông tin đầy
đủ dựa trên khoảng cách Jaccard giữa hai tập hợp hữu hạn, trình bày phương pháp
rút gọn thuộc tính trong bảng quyết định đầy đủ
Chương 2: Trình bày phương pháp xây dựng một metric trên họ các phủ trong
hệ thông tin không đầy đủ dựa trên entropy Liang mở rộng, trình bày phương pháp
rút gọn thuộc tính trong bảng quyết định không đầy đủ
Chương 3: Chương trình thử nghiệm trình bày các nội dung: mô tả dữ liệu,
xây dựng chương trình, và kết quả thực nghiệm của thuật toán
Cuối cùng, phần kết luận nêu những đóng góp của luận văn và hướng phát triển của luận văn
Trang 11Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Chương 1 TỔNG QUAN VỀ BẢNG QUYẾT ĐỊNH ĐẦY ĐỦ VÀ BẢNG
QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
1.1 Bảng quyết định đầy đủ
Một lớp đặc biệt của hệ thông tin có vai trò quan trọng trong nhiều ứng dụng
là bảng quyết định Bảng quyết định là một hệ thông tin DS với tập thuộc tính A được chia thành hai tập khác rỗng rời nhau C và D, lần lượt được gọi là tập thuộc tính điều kiện và tập thuộc tính quyết định Tức là DS = (U, C∪D, V, f) với
Xét bảng quyết định DS = (U, C∪D, V, f) với giả thiết mọi u∈U, mọi d∈D,
d(u) đầy đủ giá trị, nếu tồn tại u∈U và c∈C sao cho c(u) thiếu giá trị thì DS được
gọi là bảng quyết định không đầy đủ, trái lại DS được gọi là bảng quyết định đầy
đủ Trong luận văn này, bảng quyết định đầy đủ được gọi tắt là bảng quyết định
1.2 Hệ thông tin
Hệ thông tin là công cụ biểu diễn tri thức dưới dạng 1 bảng dữ liệu gồm p cột tương ứng với p thuộc tính và n hàng ứng với n đối tượng
1.3 Hệ thông tin đầy đủ và mô hình tập thô truyền thống
1.3.1 Hệ thông tin đầy đủ
Một cách hình thức, hệ thông tin được định nghĩa như sau:
Định nghĩa 1.1.[1] Hệ thông tin là một bộ tứ IS= (U, A, V, f) trong đó U là một tập
hữu hạn, khác rỗng các đối tượng, A là một tập hữu hạn, khác rỗng các thuộc tính,
Trang 12Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
a A V với Va là tập giá trị các thuộc tính a∈A; f: U x A Va là hàm thông tin, mọi a∈A, u∈U f(u,a)∈Va
Với mọi u∈U, a∈A ta ký hiệu giá trị thuộc tính a tại đối tượng u là a(u) thay vì
f(u,a) Nếu B= {b1, b2, ,bk}⊆A là một tập con các thuộc tính thì ta ký hiệu bộ các giá trị bi(u) bởi B(u) Như vậy, nếu u và v là hai đối tượng, thì ta viết B(u)=B(v), nếu bi(u)=bi(v) với mọi i= 1, ,k
Cho hệ thông tin IS = (U, A, V, f), nếu tồn tại u∈U và a∈A sao cho a(u) thiếu giá trị (missing value) thì IS được gọi là hệ thông tin không đầy đủ, trái lại IS được gọi là hệ thông tin đầy đủ Chúng ta tự hiểu hệ thông tin đầy đủ được gọi tắt là hệ thông tin
Xét hệ thông tin IS = (U, A, V, f) Mỗi tập con các thuộc tính P⊆A xác định một quan hệ hai ngôi trên U, ta ký hiệu IND(P), xác định bởi:
IND(P) là quan hệ P – không phân biệt được Dễ thấy rằng IND (P) là một quan hệ tương đương trên U Nếu (u,v)∈IND(P) thì hai đối tượng u và v không phân biệt được bởi các thuộc tính trong P Quan hệ tương đương IND(P) xác định một phân hoạch U/P chứa đối tượng u là [u]p khi đó [u]p= {v∈U/(u,v)∈IND(P)}
Định nghĩa 1.2.[12] Cho hệ thông tin IS=(U, A, V, f), và P, Q⊆A
1) Phân hoạch U/P và phân hoạch U/Q là như nhau (viết U/P=U/Q), khi và chỉ khi u ∈U, [u]P=[u]Q
Trang 13Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
u ∈U, [u]P ⊆[u]Q
Tính chất 1.1 [12] Xét hệ thông tin IS= ( U,A,V, f ) và P, Q⊆A
1) Nếu P⊆Q thì U/Q≼U/P, mỗi lớp của U/P là một lớp hoặc hợp của một số lớp thuộc U/Q
2) Với mọi u ∈U ta có [u]P∪Q=[u]p ∩[u]Q
1.3.2 Mô hình tập thô truyền thống
Cho hệ thông tin IS=(U, A, V, f), và tập đối tượng X⊆U Với một tập thuộc tính
B⊆A cho trước chúng ta có các lớp tương đương của phân hoạch U/B, thế thì một tập
đối tượng X có thể biểu diễn thông qua các lớp tương đương này như thế nào?
Để biểu diễn X thông qua các lớp tương đương của U/B (còn gọi là biểu diễn
X bằng tri thức có sẵn trong B), người ta xấp xỉ X bởi hợp của một số hữu hạn các lớp tương đương của U/B Có hai cách xấp xỉ tập đối tượng X thông qua tập thuộc tính B, được gọi là B xấp xỉ dưới và B xấp xỉ trên của X, ký hiệu lần lượt là BX và
BX={u ∈U /[u]B ⊆X }
Tập BX bao gồm tất cả các phần tử của U chắc chắn thuộc vào X, còn tập
hai tập xấp xỉ nêu trên, ta định nghĩa các tập
Trang 14Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
B miền biên của X là tập chứa các đối tượng có thể thuộc hoặc không thuộc
X, còn B miền ngoài của X chứa các đối tượng chắc chắn không thuộc X Sử dụng các lớp của phân hoạch U/B, các xấp xỉ dưới và trên của X có thể viết lại
gọi là tập thô (rough set)
Với B,D ⊆A, ta gọi B miền dương của D là tập được xác định như sau:
Trang 15Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
nhƣng phân biệt đƣợc về thân nhiệt
Các lớp không phân biệt đƣợc bởi B={Đau đầu, Thân nhiệt} là:
Định nghĩa 1.3 (Tập lõi dựa trên miền dương) Cho bảng quyết định DS = (U,
C∪D, V,f) Thuộc tính c∈C đƣợc gọi là không cần thiết (dispensable) trong DS dựa
Trang 16Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
trên miền dương nếu POSC(D)=POS(C-{c})(D) Ngược lại, c được gọi là cần thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS được gọi là tập lõi dựa trên miền dương và được ký hiệu là PCORE (C) Khi đó, thuộc tính cần thiết chính
2) Mọi r∈R, POSR-{r} (D)≠POSC (D)
Thì R là một tập rút gọn của C dựa trên miền dương
Tập rút gọn định nghĩa như trên còn gọi là tập rút gọn Pawlak Ký hiệu PRED(C) là họ tất cả các tập rút gọn Pawlak của C Khi đó PCORE (C)
=
( )
R PRED C R
Định nghĩa 1.5 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng a
là thuộc tính rút gọn của DS nếu tồn tại 1 tập rút gọn R∈PRED(C) sao cho a∈R
Định nghĩa 1.6 Cho bảng quyết định DS = (U, C∪D, V, f) Và a∈C Ta nói rằng a
là thuộc tính dư thừa của DS nếu
a∈C-( )
R PRED D R
Ví dụ 1.2 Xét bảng quyết định về bệnh cúm cho ở Bảng 1.2
Trang 17Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
nhiệt} Nhƣ vậy tập lõi là PCORE (C)={Thân nhiệt} và Thân nhiệt là thuộc lõi duy nhất Các thuộc tính không cần thiết bao gồm:
+Thuộc tính Mệt mỏi là thuộc tính dƣ thừa vì không tham gia vào rút gọn nào
+Hai thuộc tính Đau đầu và Đau cơ là hai thuộc tính rút gọn vì đều có mặt trong một tập rút gọn Hai thuộc tính này đều không cần thiết theo nghĩa là, từ bảng
dữ liệu, có thể loại bỏ một trong hai thuộc tính này mà vẫn chuẩn đoán đúng bệnh Tức là:
POS{Đau cơ, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
POS{Đau đầu, Thân nhiệt}({Cảm cúm})= POSC({Cảm cúm})
1.4 Hệ thông tin không đầy đủ và mô hình tập thô dung sai
Trong phần này, em xin trình bày các khái niệm cơ bản về mô hình tập thô mở rộng trong hệ thông tin không đầy đủ dựa trên quan hệ dung sai do Marzena Kryszkiewicz [6] đề xuất
1.4.1 Hệ thông tin không đầy đủ
Trang 18Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Như đã trình bày ở trên hệ thông tin IS=(U, A, V, f), nếu tồn tại u∈U và a∈A
sao cho a(u) thiếu giá trị IS được gọi là hệ thông tin không đầy đủ Ta biểu diễn giá trị thiếu là „*‟ và hệ thông tin không đầy đủ là IIS= (U, A, V, f )
Xét hệ thông tin không đầy đủ IIS = (U, A, V, f ) Với tập thuộc tính P⊆A ta định nghĩa một quan hệ nhị phân trên U như sau:
Quan hệ SIM(P) không phải là quan hệ tương đương vì chúng có tính phản xạ, đối xứng nhưng không có tính bắc cầu SIM (P) là một quan hệ dung sai (tolerance relation), hay quan hệ tương tự (similarity relation) trên U Theo [6], SIM (P)=∩a∈PSIM({a})
Gọi SP(u) là tập {v∈U/(u,v)∈SIM (P) } SP(u) là tập lớn nhất các đối tượng không có khả năng phân biệt được với u trên tập thuộc tính P, còn gọi là một lớp dung sai hay một hạt thông tin Ký hiệu tập tất cả các lớp dung sai sinh bởi quan hệ SIM (P) trên U là U/ SIM (P), khi đó các lớp dung sai trong U/ SIM (P) không phải
là một phân hoạch của U mà hình thành một phủ của U vì chúng có thể giao nhau
và ∪u∈U SP(u)= U Ký hiệu tập tất các phủ của U sinh bởi các tập con thuộc tính
Trang 19Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1) Phủ U/SIM(P) và phủ U/SIM(Q) là như nhau (viết U/SIM(P) = U/SIM(Q)) khi và chỉ khi u∈U, SP(u)=SQ(u)
2) U/SIM(P) mịn hơn U/SIM(Q) (viết U/SIM(P)≼U/SIM(Q)) khi và chỉ khi u∈U, SP(u)⊆SQ(u)
{u}, u∈U} và phần tử lớn nhất gọi là phủ một khối δ={SA(u)/ SA(u )= U, u∈U}
Tính chất 1.2 [7] Cho hệ thông tin không đầy đủ IIS =(U, A, V, f)
3) Nếu P, Q ⊆A thì SP∪Q(u)= SP(u)∩SQ(u) với mọi u∈U
Tương tự hệ thông tin đầy đủ, các tập P- xấp xỉ dưới và P- xấp xỉ trên của X trong
hệ thông tin không đầy đủ, ký hiệu lần lượt là PX và PX được xác định như sau:
Với các tập xấp xỉ nêu trên, ta gọi P- miền biên của X là tập: BNP(X)= PX -
PX và P- Miền ngoài của X là tập: U-PX
Ví dụ 1.3 Bảng 1.3 biểu diễn thông tin về các xe hơi là hệ thông tin không đầy đủ
IIS = {U, A, V, f}với U={u1, u2, u3, u4, u5, u6}, A={a1, a2, a3, a4} với a1 (Đơn giá),
a2 (KM đã đi), a3 (Kích thước), a4 (Tốc độ tối đa)
Trang 20Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Bảng 1.3 Bảng thông tin về các xe hơi
Ô tô Đơn giá Km đã đi Kích thước Tốc độ tối đa
1.4.2 Bảng quyết định không đầy đủ
Như đã trình bày ở trên với bảng quyết định DS = (U, C∪D,V,f), nếu tồn tại
u∈U và c∈C sao cho c(u) thiếu gái trị thì DS được gọi là bảng quyết định không đầy
đủ Ta biểu diễn giá trị thiếu là „*‟ và bảng quyết định không đầy đủ là IDS=(U,
C∪D,V, f) với mọi d∈D, „*‟ Vd Không mất tính chất tổng quát, giả thiết D chỉ gồm một thuộc tính quyết định duy nhất {d} [6]
1.4.3 Tập rút gọn của bảng quyết định không đầy đủ
Trang 21Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Trong [6], Marzena Kryszkiewic định nghĩa tập rút gọn của bảng quyết định
không đầy đủ, là tập con tối thiểu của tập thuộc tính điều kiện mà bảo toàn hàm
quyết định suy rộng của tất cả các đối tượng
Định nghĩa 1.8 [6] (Tập rút gọn của bảng quyết định không đầy đủ) Cho bảng
quyết định không đầy đủ IDS=(U C∪D, V, f) và tập thuộc tính R⊆C Nếu:
Thì R được gọi là một tập rút gọn của C.Tập rút gọn định nghĩa như trên còn
gọi là tập rút gọn Kryszkiewic
1.5 Rút gọn thuộc tính trong bảng quyết định đầy đủ sử dụng metric
1.5.1 Metric trên họ các tri thức và các tính chất
1.5.1.1 Khoảng cách Jaccard giữa hai tập hợp hữu hạn
Định nghĩa 1.9 Cho tập U là tập hữu hạn các đối tượng và X, Y U Biểu thức:
X Y được gọi là khoảng cách Jaccard ( Jaccacrd distance)
đo độ tương tự giữa hai tập hợp X và Y Hiển nhiên D(X, Y)+J(X,Y)=1
Định lý 1.1 Cho U là tập hữu hạn các đối tượng và P(U) là tập các tập con của U
Khoảng cách Jaccard là một metric trên P(U), nghĩa là mọi X,Y,Z P(U) thoả mãn
các điều kiện sau:
Trang 22Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
(P1) D(X,Y) 0, điều kiện D(X,Y) = 0 khi và chỉ khi X=Y
Nếu J(X,Y) J(X,Z) hoặc J(Y,Z) J(X,Z) thì hiển nhiên (3.1) thoả mãn Do
đó, ta cần chứng minh (3.1) đối với trường hợp đồng thời J(X,Y) > J(X,Z) và J(Y,Z)
Trang 23Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1.5.1.2 Metric trên họ các tri thức
(knowledge) K(P)={[ui]p u i U} trên U Ký hiệu họ tất cả các tri thức trên U là
Trang 24Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
(U) Dựa vào khoảng cách Jaccard giữa hai tập, định lý sau xây dựng một metric
1.5.1.3 Một số tính chất của metric trên bảng quyết định
U/C và U/D
Trang 25Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Mệnh đề 1.1 Cho bảng quyết định DS=(U,C D V f, , ), giả sử U/C ={C C1 , 2 , ,C m}
Trang 26Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Mệnh đề 1.2 Cho bảng quyết định DS=(U, C D, V, f) Giả sử d j(K(C), K(C, D)
Mệnh đề 1.3 (Tính phản đơn điệu) Cho bảng quyết định DS=(U, C D, V, f) và
D)) Dấu đẳng thức d K Q K Q j( ( ), ( D)) d K P K P j( ( ), ( D)) xảy ra khi và chỉ khi ( \ ) ( \ )
*Trình bày chứng minh:
(DS 1 ) 1- (DS 2 ) Do đó theo Mệnh đề 1.2 ta có d j (K(Q), K(Q D)) j
d (K(P), K(P D))
chỉ khi H(D Q ) = H(D P )
Mệnh đề 1.3 Cho thấy tập thuộc tính P càng lớn thì khoảng cách giữa hai tri thức K (P) và K (P D) càng nhỏ, hay K(P) càng gần (càng tương tự) K(P D),
Trang 27Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
nghĩa là khả năng phân lớp dựa trên P vào các lớp quyết định sinh bởi D càng lớn,
và ngƣợc lại
Ví dụ 1.4 Xét bảng quyết định về bệnh cúm DS = ( U,C {d} ,V, f ) cho ở bảng 1.4
với U = {u 1 ,u 2 ,u 3 ,u 4 ,u 5 ,u 6 }, C ={a 1 , a 2 , a 3 } với a 1 (Đau đầu), a 2 (Đau cơ), a 3 (Thân
i
2 1
j
2
i j i
1-2 1
i
2 1
j
2
i j i
Trang 28Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1.5.2.1 Tập lõi và tập rút gọn của bảng quyết định dựa trên metric
Định nghĩa 1.10 (Tập lõi dựa trên metric) Cho bảng quyết định DS = (U,C D,V,
f), thuộc tính c C gọi là không cần thiết (dispensable) trong DS dựa trên metric
thiết (indispensable) Tập tất cả các thuộc tính cần thiết trong DS đƣợc gọi là tập lõi dựa trên metric và ký hiệu là MCORE (C)
Định nghĩa 1.11 (Tập rút gọn dựa trên metric ) Cho bảng quyết định
1) d J (K (R), K (R D)) = d J (K(C),K(C D))
2) r R, d J (K (R-{r}),K((R-{r}) D)) d J (K(C),K(C D))
Thì R là một tập rút gọn của C dựa trên mertic Ký hiệu MRED(C) là họ tất cả các tập rút gọn của C dựa trên metric
1.5.2.2 Thuật toán tìm tập rút gọn của bảng quyết định sử dụng metric
Định nghĩa 1.12 (Độ quan trọng của thuộc tính dựa trên metric) Cho bảng quyết
định DS = (U, C D,V, f), B C và b C-B Độ quan trọng của thuộc tính b đối với B đƣợc định nghĩa bởi:
SIGB (b) = dj (K(B),K(B D))-dj (K(B {b}),K(B {b} D)) với giả thiết
i
cách càng lớn, hay thuộc tính b càng quan trọng và ngƣợc lai Độ quan trọng của
Trang 29Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
thuộc tính b đặc trưng cho chất lượng phân lớp của thuộc tính b, và được sử dụng làm tiêu chuẩn lựa chọn thuộc tính trong thuật toán heuristic tìm tập rút gọn của bảng quyết định
Để xây dựng thuật toán heuristic tìm tập rút gọn, ta có thể sử dụng hai hướng tiếp cận: hướng tiếp cận từ dưới lên (bottom-up) và hướng tiếp cận từ trên xuống (top-down) Trong phần này, luận văn trình bày thuật toán heuristic tìn tập rút gọn tính lõi theo hướng tiếp cận bottom-up Ý tưởng của thuật toán là xuất phát từ tập lõi, lần lượt bổ xung vào tập lõi các thuộc tính có độ quan trọng lớn nhất cho đến khi tìm được tập rút gọn Thuật toán sử dụng chiến lược Thêm-Xóa[13]
Thuật toán 1.1.[2] Thuật toán tìm lõi sử dụng metric
Đầu vào: Bảng quyết định DS = (U,C D,V, f)
Đầu ra: Tập lõi MCORE (C)
*Phân tích độ phức tạp thời gian của thuật toán 1.1
Sử dụng thuật toán trong [10] để tính U/C , độ phức tạp thời gian là O(|C||U|)
Trang 30Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
phức tạp thời gian của vòng lặp For từ dòng lệnh thứ 3 đến dòng lệnh thứ 7 là O(|C|2|U|) độ phức tạp thời gian của thuật toán 1.1 là O(|C|2
i 1
m i
2
i j i
U/C - {a1) = U/{a2, a3}= {{u1, u2},{u3, u4, u5}, {u6},{u7}} = U /C do đó
dj(K(C-{a1}),((K(C-{a1}) {d})=dj(K({a2,a3}),K({a2,a3,d}))=dj(K(C),
U/C - { a2} =U/{ a1, a3}={{ u1, u2},{ u3, u4, u5},{ u6},{u7}}=U/C do đó
Trang 31Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
dj(K(C -a2}), K(C - a2}) {d}))=dj(K{a1, a3}),K({a1, a3, d}))=dj(K(C),
U/C-{a3}=U/{a1,a2}={{u1, u2, u3,u4,u5},{u6, u7}}
dj(K(C –a3}), K(C – a3}) {d}))=dj(K{a1, a2}),K({a1, a2, d}))
i 1
n j
2 '
1 ' 1
J
R - 1
U 1k
i 1
n J
2 '
1 ' 1
J
văn trình bày thuật toán tính phân hoạch U/R {a} khi biết phân hoạch U/R nhƣ sau
Thuật toán 1.2.[2] Tính phân hoạch U/R {a}
Đầu vào : Phân hoạch U/R={R1,R2, ,RK }, thuộc tính a R
Đầu ra: Phân hoạch U/R {a}
3 Begin
Trang 32Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
4 Tính phân hoạch R i / {a};
5 TMP = TMP R i / {a};
6 End;
7 Return (TMP);
* Trình bày chứng minh tính đúng đắn của thuật toán 1.2
Tại bước 4, phân hoạch Ri / {a} chứa các lớp tương đương X = [ui] a với
ui Ri, [ui]R=Ri, nghĩa là X=[ui] a =[ui] a [ui]R Theo tính chất 1.1 của Pawlak Z, [ui] a [ui]R = [ui]R a nên X= [ui]R a Như vậy tập TMP thu
* Độ phức tạp thời gian của thuật toán 1.2
o R i thì độ phức tạp thời gian của Thuật toán 1.2 là
1
k i
O R i =O U
tính các phép giao Ri Aj , i=1 k, j=1 l với độ phức tạp thời gian là O( U 2) Do
lớn hơn độ phức tạp của Thuật toán 1.2 Sở dĩ độ phức tạp thời gian của Thuật toán 1.2 nhỏ hơn là vì Thuật toán 1.2 không phải tính các phép giao Ri Ajtrong
Ví dụ 1.6 Xét bảng quyết định DS=(U,C {d},V,f) cho ở ví dụ 1.5 Giả sử R={a3} và phân hoạch U/R=U/{a3}={{u1,u2,u7},{u3,u4,u5,u6}}, áp dụng Thuật toán 1.2 tính phân hoạch U/{a2,a3} (với a={a2}) ta có:
Trang 33Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
1.TMP =
2.Xét R1={u1,u2,u7}, tính R1/{a2}={{u1,u2},{u7}} và TMP= {{u1,u2},{u7}} Xét R2={u3,u4,u5,u6}, tính R2/{a2}={{u3,u4,u5},{u6}} và TMP = {{u1,u2}, {u3,u4,u5}, {u6},{u7}} Vậy U/{a2,a3} = TMP = {{u1,u2}, {u3,u4,u5}, {u6}, {u7}}
Thuật toán 1.3.[2] Thuật toán heuristic tìm một tập rút gọn tốt nhất sử dụng metric Đầu vào: Bảng quyết định DS=(U,C D,V,f)
Đầu ra: R là một tập rút gọn tốt nhất của C
1 Tìm tập lõi MCORE (C) theo Thuật toán 1.1;
Trang 34Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
* Trình bày chứng minh tính đúng đắn của thuật toán 1.3
Với bước thêm dần vào R các thuộc tính có độ quan trọng lớn nhất, tập thuộc
tính R thu được từ câu lệnh từ 3 đến 13 thoả mãn điều kiện bảo toàn khoảng cách
dJ K R K R( ), ( D) d J K C K C( ), ( D)
Với bước loại bỏ các thuộc tính dư thừa, câu lệnh từ 14 đến 19 đảm bảo tập R
là tối thiểu, nghĩa là r R, d J K R( { }) ,r K (R { })r D) d J K C K C( ), ( D)
Theo Định nhĩa 1.3, R là tập rút gọn dựa trên metric
* Độ phức tạp thời gian của Thuật toán 1.3
Xét vòng lặp While từ dòng lệnh số 3 đến dòng lệnh số 13, theo công thức
(1.9) để tính SIGR(a) ta chỉ cần tính hoạch U R/ {a} vì phân hoạch U R/ đã được
biết U R/ là O U nên độ phức tạp thời gian để tính tất cả các SIGR a là:
Trang 35Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
hiện R* lần, mỗi lần ta phải tính d J K R K R( ), ( D) với độ phức tạp thời gian
O R U Do đó, độ phức tạp thời gian của dòng lệnh 15 là O ( *
phức tạp thời gian để tính tất cả các SIG a là:
phức tạp thời gian của thuật toán là O(C2 U )
* Đánh giá Thuật toán 1.3 dựa trên lý thuyết
Với phương pháp rút gọn thuộc tính sử dụng entropy Shannon (trong nhóm phương pháp Entropy Shannon), thuật toán MIBARK trong [11] có độ phức tạp
C U + U3), O (C U 2+ U3) Do đó về lý thuyết, độ phức tạp thời gian Thuật toán 1.3 (thuật toán sử dụng metric) nhỏ hơn các thuật toán sử dụng entropy Shannon
Trang 36Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Độ phức tạp thời gian của các thuật toán tìm tập rút gọn phụ thuộc vào độ phức tạp của việc tính phân hoạch U/C Nếu cùng sử dụng thuật toán tính U/C trong [10]:
1) Độ phức tạp thời gian của Thuật toán 1.3 nhỏ hơn độ phức tạp các thuật toán sử dụng entropy Shannon vì Thuật toán 1.3 sử dụng kết quả đã được tính ở bước trước U/ R để tính U/ R {a}
2) Thuật toán 1.3 không phải tính toán các biểu thức logarit nên khối lượng tính toán nhỏ hơn các thuật toán sử dụng entropy Shannon
Do đó, Thuật toán 1.3 hiệu quả hơn các thuật toán sử dụng entropy Shannon
Ví dụ 1.7 Xét bảng quyết định DS=(U,C {d}, V, f ) cho ở Ví dụ 1.5 Từ Ví
dụ 1.5 ta đã tính tập lõi MCORE(C) = {a3} và dj ( K(C), K(C {d})) =1
3 Thực hiện các bước Thuật toán 1.3 tìm một tập tút gọn tốt nhất ,ta có:
Trang 37Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Do a1và a2 có độ quan trọng như nhau nên chọn bất kì a1 hoặc a2, giả sử chọn a1, khi đó và R a a1, 3 và theo tính toán ở Ví dụ 1.5:
1, 3 , 1, 3, ,
một tập rút gọn tốt nhất của C dựa trên metric
1.6 Kết luận chương 1
Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ,
mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ
Trang 38Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Chương 2 RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT
ĐỊNH KHÔNG ĐẦY ĐỦ
2.1 Giới thiệu
Dữ liệu trong thực tế thường không đầy đủ, dư thừa hoặc không chính xác, gây ảnh hưởng không tốt trong quá trình phát hiện tri thức từ dữ liệu Ý tưởng “rút gọn” được sử dụng cho phép loại bỏ những thông tin dư thừa mà vẫn giữ được đầy
đủ ý nghĩa của tập dữ liệu đang xét Vì vậy, việc tìm tập rút gọn của bảng quyết định không đầy đủ được đặt ra là hoàn toàn tự nhiên và cần thiết Cũng đã thu được một số kết quả khi nghiên cứu về vấn đề này trên bảng quyết định đầy đủ Tiếp nối cho những kết quả trước đây, em mở rộng nghiên cứu, tìm hiểu tập rút gọn trên bảng quyết định thiếu thông tin Cụ thể, trong luận văn này em sẽ trình bày một thuật toán heuristic tìm tập rút gọn tốt nhất của bảng quyết định không đầy đủ
Trong chương 1 đã trình bày, hệ thông tin không đầy đủ là hệ thông tin có giá trị thiếu trên miền giá trị thuộc tính Từ mô hình tập thô dung sai trên hệ thông tin không đầy đủ do Marzena Kryszkiewicz [6] đề xuất, nhiều nhóm nhà khoa học trên thế giới đã quan tâm nghiên cứu các độ đo không chắc chắn và đề xuất các phương pháp tìm tập rút gọn Trong hệ thông tin không đầy đủ: Jiye Liang và các cộng sự [8] đề xuất thuật toán tìm tập rút sử dụng entropy thô với độ phức tạp O(|A|2|U|) Trên bảng quyết định không đầy đủ: Huang Bing và các cộng sự đề xuất thuật toán tìm tập rút gọn sử dụng độ đo lượng thông tin của tri thức với độ phức tạp O(|C|-
3
gọn sử dụng ma trận dung sai với độ phức tạp O(|C|3|U|2)
Như đã trình bày ở trên, kỹ thuật sử dụng metric đã được sử dụng hiệu quả vào việc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ Trong bảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số khái niệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chất
Trang 39Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
của chúng Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế
Chương này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủ dựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ các phủ dựa trên entropy Liang mở rộng Sử dụng metric được xây dựng, chương này trình bày một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ
Nội dung được trình bày trong chương 2 chủ yếu được nghiên cứu, tìm hiểu ở tài liệu [4]
2.2 Entropy Liang mở rộng trong hệ thông tin không đầy đủ và các tính chất
Xuất phát từ entropy Liang trên hệ thông tin đầy đủ, phần này tìm hiểu entropy Liang mở rộng trên hệ thông tin không đầy đủ và chứng minh một số tính chất
2.2.1 Entropy Liang mở rộng của tập thuộc tính
Định nghĩa 2.1 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P ⊆ A và
U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} Entropy Liang mở rộng của P được định nghĩa bởi:
IE P
S u
Trong đó | SP(u) | chỉ lực lượng tập SP(u) Nếu U/SIM (P)=ω thì IE(P) đạt giá
trị lớn nhất là 1-1/ |U| Nếu U/SIM(P) =δ thì IE(P) đạt giá trị nhỏ nhất là 0
Như vậy 0 ≤ IE(P) ≤ 1-1/|U|
Trang 40Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Mệnh đề 2.1 sau đây cho thấy entropy Liang E(P) trường hợp riêng của entropy Liang mở rộng
Mệnh đề 2.1 Cho hệ thông tin đầy đủ IS = ( U, A, V, f ), P ⊆ A và U/P
Định nghĩa 2.2 Cho hệ thông tin không đầy đủ IIS = ( U, A, V, f ), P, Q ⊆ A giả sử
U/SIM(P) = { SP (u1), SP (u2), , SP (u|U|)} và U/SIM(Q) = { SQ (u1), SQ (u2), , SQ
(u|U|)} Entropy Liang mở rộng của P ∪ Q được định nghĩa bởi
P
P Q
( ) ( )( )
i Q i i