Một số phương pháp rút gọn thuộc tính trong bảng quyết định

78 626 0
Một số phương pháp rút gọn thuộc tính trong bảng quyết định

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ðẠI HỌC THÁI NGUYÊN TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THÔNG HOÀNG THỊ NGỌC MAI MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Thái Nguyên - Năm 2013 ðẠI HỌC THÁI NGUYÊN TRƯỜNG ðẠI HỌC CNTT VÀ TRUYỀN THÔNG HOÀNG THỊ NGỌC MAI MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS Vũ ðức Thi Thái Nguyên - Năm 2013 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn MỤC LỤC LỜI CẢM ƠN I LỜI CAM ðOAN II DANH MỤC CÁC THUẬT NGỮ III BẢNG CÁC KÝ HIỆU IV DANH SÁCH BẢNG VI LỜI MỞ ðẦU 1 Chương 1. KHÁI QUÁT VỀ TẬP THÔ VÀ RÚT GỌN THUỘC TÍNH 5 1.1. Hệ thông tin 5 1.2. Tập thô 7 1.3. Bảng quyết ñịnh 9 1.4. Tập rút gọn và lõi 9 1.5. Ma trận phân biệt và hàm phân biệt 10 1.6. Mối liên hệ giữa các tập rút gọn của các phương pháp rút gọn thuộc tính. 11 1.6.1. Entropy trong hệ thông tin và các tính chất. 12 1.6.2. Tập rút gọn dựa trên entropy thông tin 14 1.6.3. Mối liên hệ của tập rút gọn dựa trên Shannon entropy 15 1.6.4. Mối liên hệ của tập rút gọn dựa trên ñộ khác biệt giữa các tri thức 19 1.7. Sự thay ñổi các ñộ ño ñánh giá hiệu năng bảng quyết ñịnh khi rút gọn thuộc tính. 22 1.7.1. Luật quyết ñịnh và các ñộ ño cổ ñiển 23 1.7.2. ðộ ño hiệu năng cải tiến của bảng quyết ñịnh 24 1.7.3. ðề xuất ñộ ño hiệu năng mới của bảng quyết ñịnh 25 1.7.4. Sự thay ñổi các ñộ ño khi thực hiện các phương pháp rút gọn thuộc tính 29 1.8. Kết luận Chương 1 31 Chương 2. MỘT SỐ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ðỊNH. 32 2.1. Mở ñầu 32 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn 2.2. Thuật toán tìm tập rút gọn sử dụng Liang entropy 39 2.2.1. Tập rút gọn dựa trên Liang entropy với phân hoạch cải tiến 40 2.2.2. Thuật toán tìm tập rút gọn sử dụng Liang entropy 43 2.3. Thuật toán tìm tập rút gọn sử dụng metric 48 2.3.1. Khoảng cách Jaccard giữa hai tập hợp hữu hạn 49 2.3.2. Metric trên hệ thông tin 50 2.3.3. Tập rút gọn dựa trên metric 51 2.3.4. Thuật toán tìm tập rút gọn sử dụng metric 54 2.3.5. Thuật toán tìm tập rút gọn theo ngưỡng chắc chắn của bảng quyết ñịnh 59 2.4. Kết luận Chương 2 61 Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 62 3.1. Bài toán 62 3.2. Phương pháp 62 3.3. Xây dựng chương trình thử nghiệm 63 3.4. Kết quả thử nghiệm 64 3.5. Kết luận chương 3 65 KẾT LUẬN 66 TÀI LIỆU THAM KHẢO 67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn I LỜI CẢM ƠN Tôi xin chân thành cảm ơn ñến: - Trường ðại học Công nghệ thông tin và Truyền thông, ðại học Thái Nguyên - Viện Công nghệ Thông tin và các thầy cô giáo ñã trực tiếp giảng dạy, hướng dẫn tôi trong quá trình học tập và ñịnh hướng quan trọng trong việc hình thành ý tưởng nghiên cứu. Tôi xin chân thành cảm ơn Chi bộ, BGH, BCH Công ñoàn, Tổ Khoa học tự nhiên và cán bộ giáo viên, nhân viên Trường THPT Bình ðộ ñã ñộng viên, giúp ñỡ, tạo ñiều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu. ðặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc ñến GS.TS Vũ ðức Thi, người thầy ñã trực tiếp hướng dẫn và giúp ñỡ tôi hoàn thành luận văn tốt nghiệp. Cuối cùng xin chân thành cảm ơn những người thân và gia ñình ñã luôn chia sẻ mọi khó khăn và là chỗ dựa vững chắc về vật chất, tinh thần ñể tôi hoàn thành chương trình khóa học cũng như trong suốt thời gian hoàn thành luận văn. Mặc dù ñã có nhiều cố gắng, nhưng do thời gian có hạn và bản thân còn những hạn chế nhất ñịnh nên luận văn không tránh khỏi thiếu sót. Mong nhận ñược các ý kiến phê bình, góp ý của Hội ñồng chấm luận văn, các thầy cô giáo và ñồng nghiệp ñể công trình nghiên cứu ñược hoàn chỉnh hơn. Thái Nguyên, tháng 01 năm 2013 Tác giả Hoàng Thị Ngọc Mai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn II LỜI CAM ðOAN Tôi xin cam ñoan luận văn này là công trình do tôi tổng hợp và nghiên cứu. Trong luận văn có sử dụng một số tài liệu tham khảo như ñã nêu trong phần tài liệu tham khảo. Tác giả Luận văn Hoàng Thị Ngọc Mai Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn III DANH MỤC CÁC THUẬT NGỮ Tập thô Rough Set Hệ thông tin Information System Hệ thông tin ñầy ñủ Complete Information System Bảng quyết ñịnh Decision Table Bảng quyết ñịnh ñầy ñủ Comple Decision Table Bảng quyết ñịnh không nhất quán Inconsistent Decision Table Quan hệ không phân biệt ñược Indiscernibility Relation Rút gọn thuộc tính Attribute Reduction Tập rút gọn Reduct Tập lõi Core Shannon entropy Entropy Liang entropy Entropy mới của Jiye Liang trong [28] Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn IV BẢNG CÁC KÝ HIỆU ( ) , , , IS U A V f = Hệ thông tin ( , , , ) DS U C D V f = ∪ Cho bảng quyết ñịnh U Số ñối tượng C Số thuộc tính ñiều kiện trong bảng quyết ñịnh ( ) u a Giá trị ñối tượng của u của thuộc tính a [ ] B u Lớp tương ñương chứa u của quan hệ ( ) IND B ( ) B S u Lớp dung sai của ñối tượng u trên quan hệ ( ) SIM B / U B Phân hoạch U sinh bởi tập thuộc tính B BX B - xấp xỉ dưới của X BX B - xấp xỉ trên của X ( ) B BN X B - miền biên của X ( ) B POS D B - miền dương của D ( ) PRED C Tập tất cả các rút gọn dựa trên miền dương ( ) HRED C Tập tất cả các rút gọn dựa trên Shannon entropy ( ) SRED C Tập tất cả các rút gọn của phương pháp ma trận phân biệt ( ) ERED C Tập tất cả các rút gọn dựa trên Liang entropy ( ) NERED C Tập tất cả các rút gọn dựa trên Liang entropy với phân hoạch cải tiến. ( ) MRED C Tập tất cả các rút gọn dựa trên metric ( ) KRED C Tập tất cả các rút gọn dựa trên ñộ ño lượng tri thức khác nhau. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn V ( ) P CORE C Tập lõi dựa trên miền dương ( ) H CORE C Tập lõi dựa trên Shannon entropy ( ) S CORE C Tập lõi của phương pháp ma trận phân biệt. ( ) E CORE C Tập lõi dựa trên Liang entropy. ( ) M CORE C Tập lõi dựa trên metric ( ) K CORE C Tập lõi dựa trên ñộ ño lượng tri thức khác nhau. ( ) H P Shannon entropy của tập thuộc tính P ( ) \ H Q P Shannon entropy có ñiều kiện của Q khi ñã biết P ( ) E P Liang entropy của tập thuộc tính P ( ) \ E Q P Liang entropy có ñiều kiện của Q khi ñã biết P ( ) K P Tri thức sinh bởi tập thuộc tính P ( ) ( ) ( ) , d K P K Q Metric giữa hai tri thức ( ) K P và ( ) K Q trên hệ thông tin ñầy ñủ sử dụng khoảng cách Jaccard giữa hai tập hợp. ( ) ( ) ( ) , DQP K P K Q Lượng tri thức khác nhau giữa ( ) K P và ( ) K Q Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn VI DANH SÁCH BẢNG Bảng 1.1. Bảng thông tin về bệnh cúm 6 Bảng 1.3. Bảng quyết ñịnh minh họa Ví dụ 1.3 18 Bảng 1.4. Bảng quyết ñịnh minh họa Ví dụ 1.4 46 Bảng 2.1. Bảng quyết ñịnh minh họa Ví dụ 2.1. 46 Bảng 2.2. Bảng quyết ñịnh về bệnh cảm cúm 53 Bảng 2.3. Bảng quyết ñịnh minh họa Ví dụ 2.5 57 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn [...]... phương pháp rút g n thu c tính trong b ng quy t ñ nh” 2 M c tiêu c a lu n văn M c tiêu c a lu n văn là tìm hi u m t s v n ñ liên quan ñ n phương pháp rút g n thu c tính trong h thông tin và xây d ng chương trình th nghi m m t s thu t toán liên quan ñ n t p rút g n trong b ng quy t ñ nh 3 Các ñóng góp c a lu n văn Lu n văn ñã có hai ñóng góp chính sau: Th nh t là nghiên c u m i liên h gi a các t p rút. .. U Trong trư ng h p b ng không nh t quán thì POSC ( D ) chính là t p con c c ñ i c a U sao cho ph thu c hàm C → D ñúng 1.4 T p rút g n và lõi Trong b ng quy t ñ nh, các thu c tính ñi u ki n ñư c chia thành ba nhóm: thu c tính lõi, thu c tính cơ b n (hay thu c tính rút g n) và thu c tính dư th a (hay thu c tính không c n thi t) - Thu c tính lõi là thu c tính c n thi t và c t y u, không th thi u trong. .. tìm ki m m i liên h gi a các phương pháp tìm t p rút g n, Wang Xiongbin và các c ng s ñ ngh phương pháp rút g n thu c tính d a vào các phép toán ñ i s và ñã ch ng minh t p rút g n d a trên các phép toán ñ i s và t p rút g n d a trên Shannon entropy là tương ñương nhau Tóm l i, n u Rs ∈ SRED ( C ) là m t t p rút g n c a phương pháp s d ng ma tr n phân bi t thì t n t i các t p rút g n RE , RF , RP , RK... g i là m t rút g n c a C Ký hi u SRED ( C ) là t p t t c các rút g n c a C theo phương pháp ma tr n phân bi t Ta có: CORES ( C ) = I R R∈SRED ( C ) 1.6 M i liên h gi a các t p rút g n c a các phương pháp rút g n thu c tính Ph n này trình bày k t qu nghiên c u v m i liên h gi a t p rút g n s d ng các ñ ño tính không ch c ch n (Shannon entropy và ñ ño s khác nhau gi a các tri th c) v i t p rút g n d... chương, g m 66 trang Chương m t khái quát v t p thô và rút g n thu c tính Chương hai trình bày k t qu nghiên c u v ba v n ñ Th nh t nghiên c u m i liên h gi a các t p rút g n c a các phương pháp rút g n thu c tính, bao g m phương pháp d a trên mi n dương, phương pháp s d ng các ñ ño không ch c ch n (entropy thông tin, h t tri th c) và phương pháp s d ng ma tr n phân bi t Th hai là tìm hi u các ñ ño c i ti... ) trên U còn g i là quan h không phân bi t ñư c Rút g n thu c tính là bài toán quan tr ng nh t trong lý thuy t t p thô M c tiêu c a bài toán rút g n thu c tính trong b ng quy t ñ nh là lo i b (t i ña) các thu c tính dư th a mà ph n thu c tính còn l i cũng ch a ñ y ñ thông tin c a b ng D a vào t p thu c tính rút g n thu ñư c, vi c sinh lu t và phân l p Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên... các phương pháp rút g n thu c tính, tìm hi u các ñ ño c i ti n ñánh giá hi u năng b ng quy t ñ nh và nghiên c u s thay ñ i c a các ñ ño này khi th c hi n các phương pháp rút g n thu c tính Th hai là xây d ng toán heuristic tìm t p rút g n c a b ng quy t ñ nh ñ y ñ s d ng Liang entropy và metric 4 B c c lu n văn Lu n văn ñư c vi t trong ba chương, g m 66 trang Chương m t khái quát v t p thô và rút g... năm g n ñây ch ng ki n s phát tri n m nh m và sôi ñ ng c a các nghiên c u v rút g n thu c tính Ph n l n các nghiên c u này ñ u t p trung vào ba phương pháp: phương pháp d a trên mi n dương; phương pháp s d ng các ñ ño không ch c ch n và phương pháp s d ng ma tr n phân bi t Lĩnh v c nghiên c u ñ ño không ch c ch n c a tri th c trong m y năm g n ñây t p trung vào hai hư ng ti p c n chính là entropy thông... (U , C ∪ D, V , f ) và a ∈ C Ta nói r ng a là thu c tính dư th a c a C n u a ∈ C − U R R∈PRED ( C ) 1.5 Ma tr n phân bi t và hàm phân bi t Ngư i ñ u tiên xây d ng phương pháp rút g n thu c tính trong b ng quy t ñ nh là Skowron Ông ñã ñưa ra khái ni m ma tr n phân bi t và hàm phân bi t, t ñó ñưa ra phương pháp tìm t p rút g n s d ng hàm phân bi t Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn... v i m t b ng quy t ñ nh có th có nhi u t p rút g n khác nhau Tuy nhiên, trong th c t thư ng không ñòi h i tìm t t c các t p rút g n mà ch c n tìm ñư c m t t p rút g n “t t nh t” theo m t tiêu chu n ñánh giá nào ñó là ñ Vì v y, ph n l n các phương pháp rút g n thu c tính ñ u ñ xu t các thu t toán heuristic tìm t p rút g n theo m t tiêu chu n t i ưu ñ t ra Trong m y năm g n ñây ch ng ki n s phát tri . văn: Một số phương pháp rút gọn thuộc tính trong bảng quyết ñịnh”. 2. Mục tiêu của luận văn Mục tiêu của luận văn là tìm hiểu một số vấn ñề liên quan ñến phương pháp rút gọn thuộc tính trong. Tập rút gọn và lõi Trong bảng quyết ñịnh, các thuộc tính ñiều kiện ñược chia thành ba nhóm: thuộc tính lõi, thuộc tính cơ bản (hay thuộc tính rút gọn) và thuộc tính dư thừa (hay thuộc tính. bài toán rút gọn thuộc tính trong bảng quyết ñịnh là loại bỏ (tối ña) các thuộc tính dư thừa mà phần thuộc tính còn lại cũng chứa ñầy ñủ thông tin của bảng. Dựa vào tập thuộc tính rút gọn thu

Ngày đăng: 20/11/2014, 19:47