Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
1,58 MB
Nội dung
ðẠI HỌC THÁI NGUYÊN TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THƠNG HỒNG THỊ NGỌC MAI MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Thái Nguyên - Năm 2013 ðẠI HỌC THÁI NGUYÊN TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THƠNG HỒNG THỊ NGỌC MAI MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ ðức Thi Thái Nguyên - Năm 2013 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN I LỜI CAM ðOAN II DANH MỤC CÁC THUẬT NGỮ III BẢNG CÁC KÝ HIỆU IV DANH SÁCH BẢNG VI LỜI MỞ ðẦU Chương KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH 1.1 Hệ thông tin 1.2 Tập thô 1.3 Bảng ñịnh 1.4 Tập rút gọn lõi 1.5 Ma trận phân biệt hàm phân biệt 10 1.6 Mối liên hệ tập rút gọn phương pháp rút gọn thuộc tính 11 1.6.1 Entropy hệ thơng tin tính chất 12 1.6.2 Tập rút gọn dựa entropy thông tin 14 1.6.3 Mối liên hệ tập rút gọn dựa Shannon entropy 15 1.6.4 Mối liên hệ tập rút gọn dựa ñộ khác biệt tri thức 19 1.7 Sự thay ñổi ñộ ño ñánh giá hiệu bảng định rút gọn thuộc tính 22 1.7.1 Luật ñịnh ñộ ño cổ ñiển 23 1.7.2 ðộ ño hiệu cải tiến bảng ñịnh 24 1.7.3 ðề xuất ñộ ño hiệu bảng ñịnh 25 1.7.4 Sự thay ñổi ñộ ño thực phương pháp rút gọn thuộc tính 29 1.8 Kết luận Chương 31 Chương MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH 32 2.1 Mở ñầu 32 Số hóa Trung tâm Học liệu – Đại học Thái Ngun http://www.lrc-tnu.edu.vn 2.2 Thuật tốn tìm tập rút gọn sử dụng Liang entropy 39 2.2.1 Tập rút gọn dựa Liang entropy với phân hoạch cải tiến 40 2.2.2 Thuật tốn tìm tập rút gọn sử dụng Liang entropy 43 2.3 Thuật tốn tìm tập rút gọn sử dụng metric 48 2.3.1 Khoảng cách Jaccard hai tập hợp hữu hạn 49 2.3.2 Metric hệ thông tin 50 2.3.3 Tập rút gọn dựa metric 51 2.3.4 Thuật tốn tìm tập rút gọn sử dụng metric 54 2.3.5 Thuật tốn tìm tập rút gọn theo ngưỡng chắn bảng ñịnh 59 2.4 Kết luận Chương 61 Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 62 3.1 Bài toán 62 3.2 Phương pháp 62 3.3 Xây dựng chương trình thử nghiệm 63 3.4 Kết thử nghiệm 64 3.5 Kết luận chương 65 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin chân thành cảm ơn đến: - Trường ðại học Cơng nghệ thông tin Truyền thông, ðại học Thái Nguyên - Viện Công nghệ Thông tin thầy cô giáo trực tiếp giảng dạy, hướng dẫn tơi q trình học tập định hướng quan trọng việc hình thành ý tưởng nghiên cứu Tơi xin chân thành cảm ơn Chi bộ, BGH, BCH Cơng đồn, Tổ Khoa học tự nhiên cán giáo viên, nhân viên Trường THPT Bình ðộ động viên, giúp đỡ, tạo điều kiện thuận lợi cho tơi q trình học tập nghiên cứu ðặc biệt, xin bày tỏ lịng biết ơn sâu sắc đến GS.TS Vũ ðức Thi, người thầy ñã trực tiếp hướng dẫn giúp đỡ tơi hồn thành luận văn tốt nghiệp Cuối xin chân thành cảm ơn người thân gia đình ln chia sẻ khó khăn chỗ dựa vững vật chất, tinh thần ñể tơi hồn thành chương trình khóa học suốt thời gian hồn thành luận văn Mặc dù có nhiều cố gắng, thời gian có hạn thân cịn hạn chế định nên luận văn khơng tránh khỏi thiếu sót Mong nhận ý kiến phê bình, góp ý Hội đồng chấm luận văn, thầy giáo đồng nghiệp để cơng trình nghiên cứu hồn chỉnh Thái Nguyên, tháng 01 năm 2013 Tác giả Hoàng Thị Ngọc Mai Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ðOAN Tôi xin cam đoan luận văn cơng trình tơi tổng hợp nghiên cứu Trong luận văn có sử dụng số tài liệu tham khảo ñã nêu phần tài liệu tham khảo Tác giả Luận văn Hồng Thị Ngọc Mai Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC THUẬT NGỮ Tập thô Rough Set Hệ thông tin Information System Hệ thơng tin đầy đủ Complete Information System Bảng ñịnh Decision Table Bảng ñịnh ñầy ñủ Comple Decision Table Bảng định khơng qn Inconsistent Decision Table Quan hệ khơng phân biệt Indiscernibility Relation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Shannon entropy Entropy Liang entropy Entropy Jiye Liang [28] Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV BẢNG CÁC KÝ HIỆU IS = (U , A,V , f ) DS = (U , C ∪ D, V , f ) Hệ thơng tin Cho bảng định U Số đối tượng C Số thuộc tính điều kiện bảng ñịnh u (a) Giá trị ñối tượng u thuộc tính a [ u ]B Lớp tương ñương chứa u quan hệ IND ( B ) SB ( u ) Lớp dung sai ñối tượng u quan hệ SIM ( B ) U/B Phân hoạch U sinh tập thuộc tính B BX B - xấp xỉ X BX B - xấp xỉ X BN B ( X ) B - miền biên X POS B ( D ) B - miền dương D PRED ( C ) Tập tất rút gọn dựa miền dương HRED ( C ) Tập tất rút gọn dựa Shannon entropy SRED ( C ) Tập tất rút gọn phương pháp ma trận phân biệt ERED ( C ) Tập tất rút gọn dựa Liang entropy NERED ( C ) Tập tất rút gọn dựa Liang entropy với phân hoạch cải tiến MRED ( C ) Tập tất rút gọn dựa metric KRED ( C ) Tập tất rút gọn dựa ñộ ño lượng tri thức khác Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn V COREP ( C ) Tập lõi dựa miền dương COREH ( C ) Tập lõi dựa Shannon entropy CORES ( C ) Tập lõi phương pháp ma trận phân biệt COREE ( C ) Tập lõi dựa Liang entropy COREM ( C ) Tập lõi dựa metric COREK ( C ) Tập lõi dựa ñộ ño lượng tri thức khác H ( P) Shannon entropy tập thuộc tính P H (Q \ P ) Shannon entropy có điều kiện Q ñã biết P E ( P) Liang entropy tập thuộc tính P E (Q \ P ) Liang entropy có điều kiện Q biết P K ( P) Tri thức sinh tập thuộc tính P d ( K ( P ) , K (Q)) Metric hai tri thức K ( P ) K ( Q ) hệ thơng tin đầy đủ sử dụng khoảng cách Jaccard hai tập hợp DQP ( K ( P ) , K ( Q ) ) Lượng tri thức khác K ( P ) K ( Q ) Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn VI DANH SÁCH BẢNG Bảng 1.1 Bảng thông tin bệnh cúm Bảng 1.3 Bảng định minh họa Ví dụ 1.3 18 Bảng 1.4 Bảng ñịnh minh họa Ví dụ 1.4 46 Bảng 2.1 Bảng định minh họa Ví dụ 2.1 46 Bảng 2.2 Bảng ñịnh bệnh cảm cúm 53 Bảng 2.3 Bảng ñịnh minh họa Ví dụ 2.5 57 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 54 ðịnh lý 2.4 Cho bảng ñịnh DS = (U , C ∪ D, V , f ) Nếu B ⊆ C thỏa mãn: 1) d ( K ( B ) , K ( B ∪ D ) ) = d ( K ( C ) , K ( C ∪ D ) ) 2) ∀b ⊆ B, d ( K ( B − {b} ) , K ( B − {b} ∪ D )) ≠ d ( K ( C ) , K ( C ∪ D )) B rút gọn C dựa metric Chứng minh Suy từ Mệnh ñề 2.5 Như vậy, tập rút gọn dựa metric tập rút gọn dựa Entropy Shannon Ký hiệu MRED ( C ) tập tất rút gọn C dựa metric, ta có MRED ( C ) = ERED ( C ) COREE ( C ) = COREM ( C ) với COREM ( C ) tập lõi bảng định dựa metric Từ ta có hệ sau: Hệ 2.2 Cho bảng ñịnh DS = (U , C ∪ D, V , f ) a ∈ C , a ∈ COREM ( C ) d ( K ( C − {a} ) , K ( C − {a} ∪ D ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) 2.3.4 Thuật tốn tìm tập rút gọn sử dụng metric Trong mục này, trình bày thuật tốn heuristic tìm tập rút gọn tập thuộc tính điều kiện bảng ñịnh sử dụng metric ðịnh nghĩa 2.5 Cho bảng ñịnh DS = (U , C ∪ D, V , f ) , B ⊂ C ðộ quan trọng thuộc tính b∈C − B ( SIGB ( B ) = d ( K ( B ) , K ( B ∪ D ) ) − d K ( B ∪ {b}) , K ( B ∪ {b} ∪ D ) nghĩa: ñịnh ) với giả thiết [ui ]∅ = U với ui ∈U , i = U Theo Mệnh ñề 2.5, d ( K ( B − {b}) , K ( B ∪ {b} ∪ D )) ≤ d ( K ( B ) , K ( B ∪ D ) ) nên SIGB ( b ) ≥ Do đó, SIGB ( b ) tính lượng thay đổi metric B B ∪ D thêm thuộc tính b vào B SIGB ( b ) lớn lượng thay đổi metric lớn, hay thuộc tính b quan trọng ngược lại ðộ quan Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 55 trọng thuộc tính tiêu chuẩn lựa chọn thuộc tính thuật tốn heuristic xây dựng Thuật tốn 2.3 Tìm tập lõi dựa metric Input: Bảng ñịnh DS = (U , C ∪ D,V , f ) Output: Tập lõi COREM ( C ) Method: COREM ( C ) = ∅ ; Tính metric d ( K ( C ) , K ( C ∪ D ) ) ; For each a ∈ C Begin Tính d ( K ( C − {a} ) , K ( C − {a} ∪ D ) ) ; If ( ) d K ( C − {a} ) , K ( C − {a} ∪ D ) ≠ d ( K ( C ) , K ( C ∪ D ) ) then COREM ( C ) := COREM ( C ) ∪ {a} ; End; Return COREM ( C ) ; ðộ phức tạp ñể tính U / C O ( C U ) nên độ phức tạp để tính [ui ]C với ui ∈ U O ( C U ) , độ phức tạp để tính d ( K ( C ) , K ( C ∪ D ) ) O ( C U ) ñộ phức tạp tính SIGC −{a} ( a ) O ( C U ) Do đó, độ phức tạp vịng lặp For ( ) từ dòng lệnh thứ ñến dòng lệnh thứ O C U độ phức tạp thuật ( tốn tìm tập lõi O C U ) Thuật tốn 2.4 Tìm tập rút gọn dựa metric Input: Bảng ñịnh DS = (U , C ∪ D,V , f ) Output: Tập rút gọn R Method: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 56 Tìm tập lõi COREM ( C ) theo Thuật toán 2.3; R = COREM ( C ) ; While d ( K ( R ) , K ( R ∪ D ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) Begin For each a ∈ C − R tính SIGR ( a ) ; Chọn am ∈ C − R cho SIGR ( am ) = Max {SIGR ( a )} ; a∈C − R //Chọn thuộc tính có độ quan trọng lớn R = R ∪ ( am ) End; //Kiểm tra tập rút gọn thu ñược R* = R − COREM ( C ) , t = R* ; 10 For ( i = 1, i ≤ t , + + i ) 11 Begin 12 R* = R* − {ai } với {ai } ∈ R* ; 13 If d ( K ( R* ) , K ( R* ∪ D ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) then R* = R* ∪ {ai } ; 14 End; 15 R = R* ∪ COREM ( C ) ; 16 Return R ; Ta có SIGR ( a ) = U [u ] i R∪{a}∪ D − [ui ]R∪ D ∑ [ui ]R i =1 [ u ] i R ∪{a} n Xét vòng lặp While từ dịng lệnh đến 8, độ phức tạp để tính [ui ]R∪{a} , [ui ]R ∪{a}∪D biết [ui ]R , [ui ]R∪ D với ui ∈ U [49] O ( U ) nên ñộ phức tạp để tính tất SIGR ( a ) là: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 57 ( C + ( C − 1) + + 1) * U = ( C * ( C − 1) / 2) * U ( =O C U ) ðộ phức tạp để chọn thuộc tính có độ quan trọng lớn ( ) Vòng lặp For từ dòng lệnh 10 ñến 14 C + ( C − 1) + + = C * ( C − 1) / =O C thực R* lần, lần ta phải tính d ( K ( R* ) , K ( R* ∪ D ) ) với ñộ phức tạp ( ( ) ) O R* U Do đó, độ phức tạp Bước 10 O R* U Do đó, độ phức tạp ( ) thuật toán O C U Ví dụ 2.3 Xét bảng định DS = (U , C ∪ D,V , f ) với C = {c1 , c2 , c3} D = {d } cho Bảng 2.3 U a1 a2 a3 d u1 1 u2 1 u3 0 u4 1 u5 1 u6 0 u7 1 Bảng 2.3 Bảng ñịnh minh họa Ví dụ 2.3 Ta có U = {u1 , u2 , u3 , u4 , u5 , u6 , u7 } , U = , U / {d } = {{u1 , u3 } , {u2 , u4 , u5 , u6 , u7 }} , U / C = {{u1 , u2 } , {u3 , u4 , u5 } , {u6 } , {u7 }} Thực bước Thuật tốn 2.3 tìm tập lõi, ta có: d ( K (C ) , K (C ∪ D )) = 1− [ui ]C ∩ [ui ]{d} 11 1 2 = − + + + + + + 1 = ∑ i =1 72 3 [ui ]C U / {a2 , a3 } = {{u1 , u2 } , {u3 , u4 , u5 } , {u6 } , {u7 }} = U / C Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 58 ( ) d K ({a2 , a3 } ) , K ({a2 , a3 , d }) = d ( K ( C ) , K ( C ∪ D ) ) ( ) SIG{a2 , a3 } ( a1 ) = d K ({a2 , a3 } ) , K ({a2 , a3 , d } ) − d ( K ( C ) , K ( C ∪ D ) ) = Tính tốn tương tự, ta có SIG{a , a } ( a2 ) = , SIG{a ,a } ( a2 ) = 1 3 12 > , 35 COREM ( C ) = {a3 } Thực bước Thuật tốn 2.4 tìm tập rút gọn, ta có: R = {a3 } ( ) d K ({a3 } ) , K ({a3 , d }) = − [ui ]{a3 } ∩ [ui ]{d } 3 17 = 1− + + + + + + = ∑ i =1 3 4 4 42 [ui ]{a } Do d ( K ({a3} ) , K ({a3 , d } ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) thực vòng lặp While SIG{a } ( a1 ) = d ( K ({a3 }) , K ({a3 , d } ) ) − d ( K ({a1 , a3} ) , K ({a1 , a3 , d } ) ) ( ) d K ({a1 , a3} ) , K ({a1 , a3 , d } ) = − [ui ]{a1 ,a3} ∩ [ui ]{d} 11 1 2 = − + + + + + + 1 = ∑ i =1 72 3 [ui ]{a ,a } 3 17 1 Do đó, SIG{a3 } ( a1 ) = − = 42 14 Tính tốn tương tự ta có SIG{a } ( a2 ) = = SIG{a3} ( a1 ) 14 Do a1 a2 có độ quan trọng nên chọn bất lỳ a1 a2 , giả sử chọn a1 ñó R = {a1 , a3 } ( ) d K ({a1 , a3 } ) , K ({a1 , a3 , d } ) = − [ui ]{a1 ,a3} ∩ [ui ]{d} = = K ( C ) , K ( C ∪ {d } ) ∑ [u ] i =1 i {a , a } ( ) Do thực vịng lặp For ( ) d K ({a1} ) , K ({a1 , d } ) = − [ ui ]{a1} ∩ [ui ]{d} 3 2 12 = 1− + + + + + + = ∑ i =1 5 5 2 35 [ui ]{a } nên d ( K ({a1} ) , K ({a1 , d } ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) Mặt khác, theo tính tốn trên, d ( K ({a3 }) , K ({a3 , d } ) ) ≠ d ( K ( C ) , K ( C ∪ D ) ) Do R = {a1 , a3 } rút gọn C Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 59 Chú ý: Nếu chọn a2 đưa vào R ta thu rút gọn khác C R = {a2 , a3} Như vậy, tập rút gọn C MRED ( C ) = {{a1 , a3 } , {a2 , a3 }} Nhận xét Với bảng định ví dụ 1) POS{a } ({d } ) = POSC ({d } ) = {u6 , u7 } , POS{a2} ({d } ) = POSC ({d } ) = {u6 , u7 } , POS{a3 } ({d } ) = {∅} ≠ POSC ({d }) Do đó, tập rút gọn dựa miền dương PRED ( C ) = {{a1} , {a2 }} 2) Theo phương pháp sử dụng Shannon entropy, ta có: H ({d } | {a1 , a2 , a3} ) = log 3, H ({d } | {a1 , a2 } ) = log − log − , 7 7 H ({d } | {a1 , a2 } ) ≠ H ({d } | {a1 , a2 , a3} ) suy a3 ∈ COREN ( C ) Hơn H ( D | {a1 , a3 }) = log = H ( D | {a1 , a2 , a3} ) H ({d } | {a2 , a3} ) = log = H ({d } | {a1 , a2 , a3 } ) H ({d } | {a3 } ) = ≠ H ({d } | {a1 , a2 , a3 }) Do đó, tập rút gọn Shannon entropy ERED ( C ) = {{a1 , a3} , {a2 , a3}} Từ kết thực Thuật toán 2.4 ta thấy MRED ( C ) = ERED ( C ) Kết tính toán phù hợp với ðịnh lý 2.4 tập rút gọn dựa metric 2.3.5 Thuật tốn tìm tập rút gọn theo ngưỡng chắn bảng ñịnh Như trình bày phần trên, Thuật tốn 2.4 tìm tập rút gọn Shannon entropy nên bảo tồn ñộ chắn bảng ñịnh ñộ chắn tất luật ñịnh Tuy nhiên, nhiều tốn thực tế khơng thể rút gọn tập thuộc tính điều kiện mà bảo tồn ñộ chắn tất luật ñịnh Do đó, vấn đề đặt tìm tập rút gọn xấp xỉ cho ñộ chắn bảng Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 60 ñịnh sau rút gọn thuộc tính cần lớn giá trị ngưỡng ε cho trước khơng cân độ chắn bảng ñịnh ban ñầu Theo Mệnh ñề 2.4, metric sử dụng Thuật tốn 2.4 đại lượng ñối ngẫu với ñộ chắn bảng ñịnh Do đó, xây dựng thuật tốn tìm tập rút gọn với tham số ngưỡng ñộ chắn ε sở cải tiến Thuật tốn 2.4 Nghĩa là, độ chắn bảng ñịnh sau thực thuật tốn rút gọn thuộc tính lớn ngưỡng độ chắn ε cho trước Giả sử α ( DS ) ñộ chắn bảng ñịnh ban ñầu DS α ( DS ' ) ñộ chắn bảng ñịnh rút gọn DS ' tập rút gọn R ⊆ C , ε ngưỡng ñộ chắn với ε ≤ α ( DS ) Thuật tốn 2.5 Tìm tập rút gọn sử dụng metric với ngưỡng ñộ chắn ε Input: Bảng ñịnh DS = (U , C ∪ D, V , f ) giá trị ngưỡng ñộ chắn ε với ε ≤ α ( DS ) Output: Một tập rút gọn R cho α ( DS ' ) ≥ ε Method: Khởi tạo R = ∅ ; Khởi tạo α ( DS ' ) = ; While α ( DS ' ) < ε Begin For each a ∈ C − R tính ( ) SIGR ( a ) = d ( K ( R ) , K ( R ∪ D ) ) − d K ( R ∪ {a} ) , K ( R ∪ {a} ∪ D ) ; Chọn am ∈ C − R cho SIGR ( am ) = Max {SIGR ( a )} ; a∈C − R //Chọn thuộc tính có độ quan trọng lớn R = R ∪ ( am ) α ( DS ' ) = − d ( K ( R ) , K ( R ∪ D ) ) ; End; Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 61 10 //Kiểm tra tập rút gọn thu ñược 11 t = R ; 12 For ( i = 1, i ≤ t , + + i ) 13 Begin 14 R = R − {ai } với {ai } ∈ R ; 15 α ( DS ' ) = − d ( K ( R ) , K ( R ∪ D ) ) ; 16 If α ( DS ' ) < ε then R = R ∪ ( ) ; 17 End; 18 Return R ; ( ) Tương tự Thuật tốn 2.4, độ phức tạp Thuật tốn 2.5 O C U 2.4 Kết luận Chương Chương trình bày kết nghiên cứu khoảng cách Jaccard hai tập hữu hạn, xây dựng metric hạt thông tin chứng minh metric ñại lượng ñối ngẫu với ñộ chắn bảng ñịnh Sử dụng metric ñược xây dựng, nghiên cứu Thuật tốn 2.4 tìm tập rút gọn Shannon entropy bảng định Thuật tốn 2.4 khơng sử dụng biểu thức logarit cơng thức tính tốn nên hiệu nhiều so với phương pháp sử dụng Shannon entropy Từ Thuật tốn 2.4, từ xây dựng Thuật tốn 2.5 tìm tập rút gọn theo tham số ngưỡng ñộ chắn bảng ñịnh dựa vào tính chất đối ngẫu metric Theo phương pháp sử dụng độ đo khơng chắn, xây dựng Thuật tốn 2.2 tìm tập rút gọn Pawlak sử dụng Liang entropy Thuật toán sử dụng toán rút gọn thuộc tính địi hỏi phân lớp xác tập liệu Các thuật tốn xây dựng ( ) có độ phức tạp O C U , ñộ phức tạp tốt số thuật tốn tìm tập rút gọn bảng định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 62 Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM Chương trình thử nghiệm xây dựng thuật tốn rút gọn bảng định dựa metric trình bày phần 2.3.4 Kết thử nghiệm chương trình thực sở liệu Bảng ñịnh DS = (U , C ∪ D, V , f ) xây dựng Java, từ đưa tập rút gọn 3.1 Bài tốn Rút gọn thuộc tính bảng ñịnh Input: Bảng ñịnh DS = (U , C ∪ D,V , f ) Output: Tập rút gọn R Ví dụ: Xét bảng ñịnh DS = (U , C ∪ D,V , f ) với C = {c1 , c2 , c3} D = {d } c1 U c2 c3 d u1 1 u2 1 u3 0 u4 1 u5 1 u6 0 u7 1 U = {u1 , u2 , u3 , u4 , u5 , u6 , u7 } , U = , U / {d } = {{u1 , u3 } , {u2 , u4 , u5 , u6 , u7 }} , U / C = {{u1 , u2 } , {u3 , u4 , u5 } , {u6 } , {u7 }} 3.2 Phương pháp - Tìm tập lõi theo Thuật tốn 2.3 - Tìm tập rút gọn dựa Thuật tốn 2.4: Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 63 + Chọn thuộc tính có độ quan trọng lớn + Kiểm tra tập rút gọn thu ñược 3.3 Xây dựng chương trình thử nghiệm Chương trình xây dựng ngơn ngữ lập hướng đối tượng Java sử dụng công cụ NetBeans IDE 7.1.2 thực Thuật tốn 2.4 trình bày Chương phần 2.3.4 Hình 3.1 Màn hình chương trình Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 64 Hình 3.2 Giao diện chương trình 3.4 Kết thử nghiệm Kết kiểm thử ví dụ bảng định trình bày Hình 3.3 Giao diện nhập liệu đầu vào Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 65 Hình 3.4 Giao diện kết rút gọn 3.5 Kết luận chương Qua kết thực nghiệm chương trình Hình 3.4 tơi nhận thấy thuật tốn thực tìm tập mục rút gọn Kết với tính tốn ban đầu Qua khẳng định thuật tốn trình bày Chương phần 2.3.4 có khả tìm tập rút gọn dựa metric Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 66 KẾT LUẬN Luận văn ñã thực ñược kết sau: Nghiên cứu mối liên hệ tập rút gọn phương pháp rút gọn thuộc tính: phương pháp dựa miền dương, phương pháp sử dụng ñộ ño không chắn (ñộ ño Shannon entropy, ñộ ño lượng tri thức khác nhau) phương pháp sử dụng ma trận phân biệt Tìm hiểu độ qn cải tiến nghiên cứu thay ñổi ñộ ño ñánh giá hiệu bảng ñịnh thực phương pháp rút gọn thuộc tính Tìm hiểu thuật tốn heuristic tìm tập rút gọn Pawlak sử dụng ñộ ño Liang entropy Xây dựng metric hạt thông tin dựa vào khoảng cách Jaccard hai tập hợp hữu hạn khám phá số tính chất metric, đặc biệt tính đối ngẫu metric với ñộ chắn bảng ñịnh Mơ thuật tốn heuristic tìm tập rút gọn bảng ñịnh sử dụng metric làm tiêu chuẩn lựa chọn thuộc tính Chứng minh tập rút gọn thu tương đương với tập rút gọn Shannon entropy, từ kết luận thuật tốn xây dựng hiệu thuộc tính tìm tập rút gọn sử dụng Shannon entropy khơng sử dụng biểu thức logarit cơng thức tính tốn Sử dụng tính chất đối ngẫu metric xây dựng, đề xuất thuật tốn tìm tập rút gọn bảng ñịnh theo tham số ngưỡng độ chắn bảng định Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 67 TÀI LIỆU THAM KHẢO Tiếng Việt [1] Nguyễn ðức Thuần (2010), “Phủ tập thơ độ đo đánh giá hiệu tập luật ñịnh”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin [2] Nguyễn Long Giang, Nghiêm Hải Lâm (2008), “Một thuật toán hiệu rút gọn thuộc tính bảng định”, Kỷ yếu hội thảo Một số vấn ñề chọn lọc CNTT TT, Huế, tr 257-267 [3] Nguyễn Long Giang, Nguyễn Thanh Tùng (2009), “Nghiên cứu mối liên hệ ba khái niệm tập rút gọn lý thuyết tập thơ”, Kỷ yếu hội thảo Một số vấn đề chọn lọc CNTT TT, ðồng Nai, tr 282-293 [4] Nguyễn Long Giang, Nguyễn Thanh Tùng, Phạm Quang Dũng (2011), “Về metric hệ thông tin ứng dụng vào tốn rút gọn thuộc tính”, Hội thảo Một số vấn ñề chọn lọc CNTT TT, Cần Thơ [5] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hữu hạn”, Tạp chí Tin học ðiều khiển học, T.26, S.1, tr 73-75 Tiếng Anh [6] Andrzej Sknowron and Rauszer C (1992), “The Discernibility Matrices and Functions in Information Systems”, Intelligent Decision Support, Handbook of Applications and Advances of the Rough Sets Theory, Kluwer, Dordrecht, pp 331-362 [7] Hu X.H and Cercone N (1995), “Learning in relational databases: a rough set approach”, International Journal of computational intelligence, pp.323-338 [8] Li J.H., Lv Y.J., and Liu N.X (2007), “A Different Quantity of Partitionbased Efficient Algorithm for Reduction of Attribute in Information Systems”, Fourth International Conference on Fuzzy Systems and Knowledge Discovery Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 68 [9] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, pp 331-342 [10] Liu Q., Cai H.B., Min F and Yang G.Y (2005), “Knowledge Reduction in A New Information View”, 2005 International Conference on Communications, Circuits and Systems, 2005 Proceedings., IEEE 2005 [11] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [12] Pawlak Z (1998), “Rough set theory and its applications in data analysis”, Cybernetics and system 29, pp 661-688 [13] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures of Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol 178, pp 181-202 [14] Sun L., Xu J.C and Cao X.Z (2009), “Decision Table Reduction Method Based on New Conditional Entropy for Rough Set Theory”, International Workshop on Intelligent Systems and Applications, pp 1-4 [15] Wang G.Y., Zhao J An J.J and Wu Y (2004), “Theoretical Study on Attribute Reduction of Rough Set Theory: Comparision of Algebra and Information Views”, IEEE ICCI, pp 148-155 [16] Wieman M.J (1999), “Measuring uncertainty in rough set theory”, International Journal of General Systems, pp 283-197 [17] Ye D.Y and Cheng Z.J (2002), “A new discernibility matrix and computation of a core”, Acta Electronica Sinica, vol 30 , No.7, pp 1086-088 [18] Ye D.Y and Chen Z.J (2003), “Incosistency classification and discernibility matrix based approaches for computing and attribute Core”, In: G Wang et al (Eds): RSFDGrC 2003, LNAI 2639, Springer-Verlag, Berlin Heidelberg, pp 269-273 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn ... ñộ ño hiệu bảng ñịnh 25 1.7.4 Sự thay ñổi ñộ ño thực phương pháp rút gọn thuộc tính 29 1.8 Kết luận Chương 31 Chương MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH... nhóm: thuộc tính lõi, thuộc tính (hay thuộc tính rút gọn) thuộc tính dư thừa (hay thuộc tính khơng cần thiết) - Thuộc tính lõi thuộc tính cần thiết cốt yếu, thiếu việc phân lớp xác tập liệu - Thuộc. .. quan trọng thuộc tính, sở xây dựng thuật tốn rút gọn thuộc tính Rút gọn thuộc tính sử dụng ma trận phân biệt Người xây dựng phương pháp tìm tập rút gọn tập thuộc tính điều kiện bảng định Skowron