Nghiên cứu các tập rút gọn trong bảng quyết đinh : Luận văn ThS. Công nghệ thông tin: 60 48 05

61 51 0
Nghiên cứu các tập rút gọn trong bảng quyết đinh : Luận văn ThS. Công nghệ thông tin: 60 48 05

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ LÊ THỊ HÂN NGHIÊN CỨU CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - Năm 2013 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ - - LÊ THỊ HÂN NGHIÊN CỨU CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH Ngành : Công nghệ thông tin Chuyên ngành : Hệ thống thông tin Mã số : 60 48 05 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: GS.TS VŨ ĐỨC THI Hà Nội - Năm 2013 -1- MỤC LỤC MỤC LỤC - LỜI CẢM ƠN - LỜI CAM ĐOAN - BẢNG CÁC KÝ HIỆU, VIẾT TẮT - DANH SÁCH BẢNG - DANH SÁCH HÌNH VẼ - MỞ ĐẦU - Chƣơng CÁC KHÁI NIỆM VỀ LÝ THUYẾT TẬP THÔ - 11 1.1 Hệ thông tin đầy đủ - 11 1.2 Mô hình tập thơ truyền thống - 12 1.3 Bảng định đầy đủ - 14 1.4 Tập rút gọn tập lõi - 14 1.5 Ma trận phân biệt hàm phân biệt - 16 1.6 Một số khái niệm sở liệu quan hệ - 17 1.6.1 Quan hệ - 17 1.6.2 Phụ thuộc hàm - 17 1.6.3 Hệ tiên đề Armstrong - 17 1.6.4 Sơ đồ quan hệ - 17 1.6.5 Khoá phản khoá - 18 1.6.6 Hệ hệ cực đại - 19 1.7 Một số thuật toán - 19 Chƣơng : MỘT SỐ PHƢƠNG PHÁP TÌM MỘT TẬP RÚT GỌN VÀ TÌM CÁC TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH - 23 2.1 Thuật tốn tìm tập rút gọn bảng định sử dụng metric - 23 2.1.1 Khoảng cách Jaccard hai tập hợp hữu hạn - 23 2.1.2 Một số tính chất metric bảng định - 25 2.2 Thuật toán tìm tập rút gọn theo tham số độ chắn tập luật - 33 2.3.huật tốn tìm tập tất thuộc tính rút gọn bảng định quán - 34 2.3.1 Đặt vấn đề - 34 2.3.2 Thuật toán - 35 2.4 Thuật tốn tìm họ tất tập rút gọn bảng định quán - 38 2.5 Thuật toán xây dựng phụ thuộc hàm từ bảng định quán - 40 - -2- 2.6 Thuật toán xây dựng bảng định từ tập phụ thuộc hàm - 41 Chƣơng 3: THỰC NGHIỆM THUẬT TỐN TÌM MỘT TẬP RÚT GỌN - 45 3.1 Thử nghiệm thuật tốn heuristic tìm tập rút gọn tốt - 45 3.1.1 Mô tả thuật toán CEBARKCC - 45 3.1.2 Thử nghiệm đánh giá thuật toán số liệu mẫu UCI - 46 3.1.3 Thử nghiệm phƣơng pháp sinh luật định tập rút gọn - 48 3.2 Thử nghiệm thuật tốn tìm tập rút gọn theo tham số độ chắn - 50 3.3 Thử nghiệm thuật tốn tìm tất thuộc tính rút gọn bảng định quán - 51 3.4 Một số toán ứng dụng - 52 3.5 Một số giao diện chƣơng trình thử nghiệm - 53 3.5.1 Giao diện chƣơng trình - 53 3.5.2 Nạp tệp liệu mẫu lấy từ kho liệu UCI - 53 3.5.3 Thực thuật toán CEBARKCC - 54 3.5.4 Thực thuật toán sử dụng khoảng cách - 54 3.5.5 Thực thuật toán sinh luật định từ tập rút gọn - 55 3.5.6 Thực thuật tốn tìm tập rút gọn xấp xỉ - 56 3.5.7 Thực thuật tốn tìm tất thuộc tính rút gọn - 56 KẾT LUẬN - 57 TÀI LIỆU THAM KHẢO - 58 - -3- LỜI CẢM ƠN Trong trình tìm hiểu nghiên cứu hồn thành luận văn, tác giả luận văn xin gửi lời cảm ơn chân thành đến GS.TS Vũ Đức Thi Viện Công nghệ thông tin Viện Khoa học Công nghệ Việt Nam Ngƣời thầy đáng kính tận tình hƣớng dẫn giúp đỡ tác giả hoàn thành luận văn Tác giả xin gửi lời cảm ơn đến thầy - cô giáo trƣờng Đại học Công Nghệ - Đại học Quốc Gia Hà Nội tận tình giảng dạy truyền thụ cho tác giả kiến thức quý báu suốt trình học tập trƣờng Tác giả xin chân thành cảm ơn ngƣời thân gia đình bạn bè ln ủng hộ, cổ vũ động viên vật chất lẫn tinh thần suốt q trình hồn thành luận văn tốt nghiệp Xin chân thành cảm ơn! Hà Nội, tháng 12 năm 2013 Lê Thị Hân -4- LỜI CAM ĐOAN Tôi xin cam đoan: luận văn tốt nghiệp cơng trình nghiên cứu thực riêng cá nhân tác giả, đƣợc thực sở nghiên cứu lý thuyết thực nghiệm thông qua phần mềm có mã nguồn mở dƣới hƣớng dẫn GS.TS khoa học Vũ Đức Thi Các số liệu, kết trung thực chƣa đƣợc công bố cơng trình nghiên cứu Dữ liệu thực nghiệm có nguồn gốc rõ ràng khơng mang tính chất thƣơng mại Học viên -5- BẢNG CÁC KÝ HIỆU, VIẾT TẮT Ký hiệu, từ viết tắt IS  U , A,V , f  Diễn giải Hệ thông tin, hệ thông tin đầy đủ DS  U , C  D,V , f  Bảng định, bảng định đầy đủ U Số đối tƣợng C Số thuộc tính điều kiện bảng định A Số thuộc tính hệ thơng tin u a Giá trị đối tƣợng u thuộc tính a IND  B  Quan hệ B  không phân biệt  u B SB u  Lớp tƣơng đƣơng chứa u quan hệ IND  B  U/B  B (u ) Phân hoạch U sinh tập thuộc tính B Hàm định suy rộng đối tƣợng u B BX B  xấp xỉ dƣới X BX B  xấp xỉ X BN B  X  B - miền biên X POS B  D  B  miền dƣơng D PRED  C  Họ tất tập rút gọn Pawlak HRED  C  Họ tất tập rút gọn Entropy Shannon FRED  C  MRED  C  Họ tất tập rút gọn dựa phép toán đại số quan hệ Họ tất tập rút gọn dựa metric KRED  C  Họ tất tập rút gọn dựa độ khác biệt tri thức PCORE  C  Tập lõi dựa miền dƣơng HCORE  C  Tập lõi dựa entropy Shannon có điều kiện SCORE  C  Tập lõi sử dụng ma trận phân biệt MCORE  C  Tập lõi dựa metric H  P Entropy Shannon tập thuộc tính P H (Q | P) Entropy Shannon có điều kiện Q biết P K  P Trong hệ thông tin đầy đủ, ký hiệu K  P  tri thức sinh Lớp dung sai đối tƣợng u quan hệ SIM  B  tập thuộc tính P Trong hệ thông tin không đầy đủ, ký hiệu K  P  phủ sinh tập thuộc tính P -6- Ký hiệu, từ viết tắt d J  K  P  , K Q   Diễn giải Khoảng cách K  P  K  Q  hệ thông tin đầy đủ dựa khoảng cách Jaccard hai tập hợp dE  K  P  , K Q  Khoảng cách K  P  K  Q  hệ thông tin không đầy đủ dựa entropy Liang mở rộng DQP  K  P  , K  Q   Độ khác biệt K  P  K  Q  SĐQH Sơ đồ quan hệ Phụ thuộc hàm PTH -7- DANH SÁCH BẢNG Bảng 1.1 Bảng thông tin bệnh cúm - 13 Bảng 1.2 Bảng định bệnh cúm - 15 Bảng 2.1 Bảng định bệnh cảm cúm - 26 Bảng 2.2 Bảng định minh họa Ví dụ 2.1 - 28 Bảng 2.3 Bảng định Ví dụ 2.3 - 37 Bảng 2.4 Bảng định Ví dụ 2.4 - 39 Bảng 2.5 Bảng định đƣợc xây dựng từ Thuật toán 2.8 - 44 Bảng 3.1 Kết thực Thuật toán CEBARKCC Thuật toán MBAR - 47 Bảng 3.2 Tập rút gọn Thuật toán CEBARKCC Thuật toán MBAR - 47 Bảng 3.3 Kết thực Thuật toán CEBARKCC Thuật toán MBAR - 48 số liệu lớn - 48 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small - 49 Bảng 3.5 Các luật phân lớp bảng định rút gọn sử dụng tập thô - 50 Bảng 2.6 Sự thay đổi tập rút gọn theo ngƣỡng độ chắn  - 51 Bảng 2.7 Kết thử nghiệm Thuật toán REATA - 52 - -8- DANH SÁCH HÌNH VẼ Hình 3.1 Sự thay đổi tập rút gọn theo ngƣỡng độ chắn  - 51 - - 45 - Chƣơng THỰC NGHIỆM THUẬT TỐN TÌM MỘT TẬP RÚT GỌN Tìm hiểu thuật tốn heuristic tìm tập rút gọn tốt theo tiêu chuẩn đánh giá độ quan trọng thuộc tính (chất lƣợng phân lớp thuộc tính) Thuật tốn giảm thiểu đáng kể khối lƣợng tính tốn, nhờ áp dụng tốn có liệu lớn Các thuật toán heuristic thƣờng đƣợc xây dựng theo hai hƣớng tiếp cận khác nhau: hƣớng tiếp cận từ dƣới lên (bottom-up) hƣớng tiếp cận từ xuống (top-down) Dựa vào nhận xét tập lõi xuất tập rút gọn nên thuật toán xây dựng theo hƣớng tiếp cận bottom-up đƣợc chia thành hai nhóm: thuật tốn tính tốn lõi thuật tốn khơng tính tốn lõi Ý tƣởng chung thuật tốn tính toán lõi xuất phát từ tập lõi, bổ sung thuộc tính có độ quan trọng lớn vào tập lõi thu đƣợc tập rút gọn Các thuật tốn khơng tính tốn lõi xuất phát từ tập rỗng bổ sung dần thuộc tính có độ quan trọng lớn cho thu đƣợc tập rút gọn Các thuật toán đƣợc xây dựng theo hƣớng tiếp cận buttom-up xuất phát từ tập thuộc tính điều kiện ban đầu, loại bỏ dần thuộc tính có độ quan trọng nhỏ thu đƣợc tập rút gọn Cả hai hƣớng tiếp cận đòi hỏi phải xếp danh sách thuộc tính theo thứ tự giảm dần tăng dần độ quan trọng bƣớc lặp 3.1 Thử nghiệm thuật tốn heuristic tìm tập rút gọn tốt Trong phần này, chọn thuật tốn tìm tập rút gọn tốt sử dụng entropy Shannon có điều kiện có tính tốn lõi [18] (gọi tắt thuật toán CEBARKCC) để so sánh với thuật tốn sử dụng khoảng cách chúng tơi tìm hiểu (gọi tắt thuật tốn MBAR – Metric Based Attribute Reduction) thời gian thực kết thực Để tiến hành thử nghiệm, thực cơng việc sau: Cài đặt thuật tốn CEBARKCC thuật tốn MBAR ngơn ngữ C# Cả hai thuật toán sử dụng thuật toán [11] để tính U / C Chạy thử nghiệm hai thuật tốn cấu hình máy tính, so sánh kết thực hai thuật toán đánh giá tính hiệu thuật tốn MBAR thời gian thực Trƣớc hết, chúng tơi trình bày thuật tốn CEBARKCC 3.1.1 Mơ tả thuật tốn CEBARKCC Thuật toán CEBARKCC [19] (Conditional Entropy Based Algorithm for Reduction of Knowledge with Computing Core) Input: Bảng định DS = (U, CD, V, f) Output: Một tập rút gọn R - 46 - // Tìm tập lõi dựa entropy Shannon có điều kiện HCORE  C    ; Tính H  D C  ; For each a  C Begin Tính H  D C  a ; If H  D C  a  H  D C  then HCORE  C  : HCORE  C   a ; End; // Tìm tậprút gọn Entropy Shannon R  HCORE  C  ; While H  D R   H  D C  10 11 Begin For each a  C  R tính SIGR  a   H  D R   H  D R  a ; 12 Chọn am  C  R cho SIGR  am   Max SIGR  a  ; 13 R  R  am  ; 14 15 16 aC  R End; //Loại bỏ thuộc tính dư thừa R có R*  R  HCORE  C  ; For each a  R * If H  D R  a  H  D C  then R  R  a ; 17 18 Return R ; 3.1.2 Thử nghiệm đánh giá thuật toán số liệu mẫu UCI Sau cài đặt, chúng tơi tiến hành thử nghiệm thuật tốn CEBARKCC thuật toán MBAR số liệu vừa nhỏ lấy từ kho liệu UCI [21] Mơi trƣờng chạy thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Với số liệu, giả sử U số đối tƣợng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn thu đƣợc; t thời gian thực thuật toán (đơn vị giây s) Kết chạy thử nghiệm đƣợc tổng kết Bảng 3.1 Bảng 3.2 sau đây: - 47 - Bảng 3.1 Kết thực Thuật toán CEBARKCC Thuật toán MBAR Thuật toán Thuật CEBARKC toán U C STT STT Bộ số liệu C MBAR t T R R 5.937 0.312 0.62 2.562 127.4 Liver-disorders 345 0.796 0.531 Iris 150 0.93 0.78 Chess End Game (kr-vs- 3196 35 29 325.2 29 219.1 kp.data) Bảng 3.2 Tập rút gọn Thuật toán CEBARKCC Thuật toán MBAR STT Tic-tac-toe.data Hepatitis.data Lung-cancer.data Automobile.data Abalone.data Bộ số liệu 958 155 32 205 4177 19 56 25 Tập rút gọn Thuật toán CEBARKCC {1, 2, 3, 4, 5, 7, 8, 9} {2, 15, 16} {3, 4, 9, 43} Tic-tac-toe.data Hepatitis.data LungCancer.data {1, 2, 7, 14, 20, 21} Automobile.data {2, 5, 6} Abalone.data {1, 2, 5} Liver-disorders {1, 2, 3} Iris {1,3,4,5,6,7,9,10,11,12,13 Chess End , Game (kr-vs-kp.data) 15,16,17,18,20,21,23,24,2 5, 26,27,28,30,31,33,34,35,3 6} 8.343 0.484 0.78 3.921 256.12 Tập rút gọn Thuật toán MBAR {1, 2, 3, 4, 5, 7, 8, 9} {2, 15, 16} {3, 4, 9, 43} {1, 2, 7, 14, 20, 21} {2, 5, 6} {1, 2, 5} {1, 2, 3} {1,3,4,5,6,7,9,10,11,12,13 , 15,16,17,18,20,21,23,24,2 5, 26,27,28,30,31,33,34,35,3 6} Kết thử nghiệm số liệu vừa nhỏ cho thấy  Trên số liệu đƣợc chọn, tập rút gọn thu đƣợc Thuật toán MBAR Thuật toán CEBARKCC nhƣ Hơn nữa, số liệu này, tập rút gọn Thuật toán CEBARKCC thử nghiệm luận văn thử - 48 - nghiệm cơng trình [16, 17, 18] nhƣ Điều khẳng định tính đắn thử nghiệm  Thời gian thực Thuật toán MBAR nhanh Thuật tốn CEBARKCC, Thuật tốn MBAR hiệu Thuật toán CEBARKCC Tiếp theo, luận văn tiến hành thử nghiệm Thuật toán MBAR số liệu kích thƣớc lớn số liệu đƣợc chọn để thử nghiệm có miền giá trị thuộc tính giá trị nguyên dƣơng, giá trị rời rạc (đã qua bƣớc tiền xử lý liệu) đƣợc lấy từ kho liệu UCI [21] Kết thử nghiệm đƣợc mô tả bảng sau: Bảng 3.3 Kết thực Thuật toán CEBARKCC Thuật toán MBAR số liệu lớn Thuật toán Thuật CEBARKCC toán U C STT Bộ số liệu MBAR R R t t CensusIncome.data Adult.data Dorothea.data 299285 40 21 11415 21 5206 48842 1950 14 100 000 11 92 1270 2867 92 675 1247 100000 8977 4376 Poker-hand0 testing.data CovType.data 581012 54 17 14289 17 7256 Với số liệu có kích thƣớc lớn, rõ ràng thời gian thực Thuật toán MBAR nhỏ nhiều Thuật toán CEBARKCC, số liệu kích thƣớc lớn, Thuật toán MBAR hiệu 3.1.3 Thử nghiệm phƣơng pháp sinh luật định tập rút gọn Trƣớc hết, luận văn trình bày thuật tốn trích lọc luật định (luật phân lớp) sử dụng tập thô 1) Thuật toán sinh luật định sử dụng tập thô Cho bảng định DS  U , C  D  , giả sử U / C  {X1, X , , X m} U / D  {Y1, Y2 , , Yn } Với X i U / C , Y j U / C X i  Yj   Thuật toán RuleExtract hiển thị luật định dạng Zij : des  X i   des Yj  với độ chắn   Zij   X i  Yj / X i đỗ hỗ trợ s  Zij   X i  Yj / U tƣơng ứng Thuật toán RuleExtract Input: Bảng định DS = (U, CD, V, f) - 49 - Output: Hiển thị danh sách luật với độ chắn  độ hỗ trợ s Tính phân hoạch U / C ; For each X i U / C Begin Tính X i / D ; For each Yj  X i / D Begin Sinh luật Zij : des  X i   des  Yj  Tính   Zij   Yj / X i ; Tính s  Zij   Yj / U ; 10 Hiển thị luật Z ij , độ chắn   Zij  , độ hỗ trợ s  Zij  ; 11 End; 12 End; Return 2) Thử nghiêm thuật toán sinh luật định tập rút gọn Để tiến hành thử nghiệm, cài đặt Thuật tốn RuleExtract ngơn ngữ C# Mơi trƣờng thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Soybean-small.data lấy từ kho liệu UCI [20] Soybean-small.data số liệu rời rạc hóa với miền giá trị thuộc tính số ngun dƣơng a) Thử nghiệm Thuật tốn 2.3 tìm tập rút gọn tốt Với số liệu thử nghiệm, giả sử U số đối tƣợng, C số thuộc tính điều kiện,   DS  độ chắn bảng định với tập thuộc tính ban đâu,   DS '  độ chắn bảng định với tập thuộc tính rút gọn, thuộc tính điều kiện đƣợc đặt tên theo thứ tự từ c1, c2,…,cn Kết thử nghiệm đƣợc mô tả Bảng 3.4 Bảng 3.4 Tập rút gọn tốt số liệu Soybean-small ST Bộ số liệu U Tập thuộc   DS  Tập thuộc   DS '  C T tính ban đầu tính rút gọn Soybeansmall.dat a 47 35 {c1,…,c35} {c4, c22} - 50 - b) Thử nghiệm Thuật toán RuleExtract sinh luật định (luật phân lớp) sử dụng tập thô với số liệu Soybean-small.data Trên bảng định ban đầu với 35 thuộc tính điều kiện {c1,…,c35}, kết thử nghiệm thu đƣợc 47 luật phân lớp, độ dài luật 35 (đƣợc tính tổng số thuộc tính điều kiện tham gia vào vế trái luật) Trên bảng định rút gọn với thuộc tính điều kiện {c4, c22}, kết thử nghiệm đƣợc mơ tả Bảng 3.5, đó: tổng số luật phân lớp 7, độ dài luật 2,  độ chắn s độ hỗ trợ luật Bảng 3.5 Các luật phân lớp bảng định rút gọn sử dụng tập thô STT Các luật bảng định  rút gọn s C4(1) and c22(1) ==> D1 0.12766 C4(1) and c22(0) ==> D1 0.08511 C4(2) and c22(3) ==> D2 0.12766 C4(1) and c22(3) ==> D2 0.08511 C4(0) and c22(1) ==> D3 0.21277 C4(1) and c22(2) ==> D4 0.21277 C4(0) and c22(2) ==> D4 0.14894 Chú thích: Trên bảng Bảng 3.5, c4(1) nghĩa thuộc tính c4 nhận giá trị (c4 = 1) D1, D2, D3, D4 giá trị thuộc tính định (tổng số lớp định) Kết thử nghiệm cho thấy, tập rút gọn tốt thu đƣợc Thuật toán MBAR, số lƣợng luật từ 47 giảm xuống 7, độ dài luật từ 35 giảm xuống Độ chắn tập luật không thay đổi (bằng 1) Kết khẳng định ý nghĩa việc rút gọn thuộc tính bƣớc tiền xử lý liệu 3.2 Thử nghiệm thuật tốn tìm tập rút gọn theo tham số độ chắn Để tiến hành thử nghiệm, cài đặt thuật tốn tìm tập rút gọn theo tham số độ chắn (Gọi tắt thuật tốn CP_MBAR) ngơn ngữ C# Thử nghiệm Thuật tốn CP_MBAR máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Bộ số liệu thử nghiệm Tic-tac-toe.data lấy từ kho liệu UCI [21] Tic-tac-toe.data số liệu quán với 958 đối tƣợng thuộc tính điều kiện đƣợc đánh số từ đến Đầu tiên, thực thuật toán với tham số độ chắn   Sau đó, thực thuật toán với tham số  giảm dần, bƣớc giảm 0.1 Kết thực cho Bảng 2.6 - 51 - Bảng 2.6 Sự thay đổi tập rút gọn theo ngưỡng độ chắn  STT Tham số Tập rút gọn Số thuộc tính Thời gian tập rút gọn thực  (s) 1 {1, 2, 3, 4, 5, 7, 8, 9} 3.937 0.95 {1, 2, 3, 5, 7, 9} 3.62 0.9 {1, 2, 3, 5, 7, 9} 3.46 0.85 {1, 3, 5, 7, 9} 2.265 0.8 {1, 3, 5, 9} 1.625 0.75 {1, 3, 5, 9} 1.625 0.7 {1, 5} 0.812 0.65 {1, 5} 0.812 0.6 0.265 {} Số thuộc tính tập rút gọn 0.5 0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 Ngưỡng độ chắn Hình 3.1 Sự thay đổi tập rút gọn theo ngưỡng độ chắn  3.3 Thử nghiệm thuật tốn tìm tất thuộc tính rút gọn bảng định quán Để tiến hành thử nghiệm, cài đặt thuật tốn tìm tất thuộc tính rút gọn bảng định quán (Gọi tắt thuật tốn REATA) ngơn ngữ C# Chạy thử nghiệm thuật tốn máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Professional Thử nghiệm đƣợc tiến hành số liệu quán lấy từ kho liệu UCI [21] - 52 - Với số liệu, giả sử U số đối tƣợng, C số thuộc tính điều kiện, t thời gian thực thuật toán (đơn vị giây s) Các thuộc tính điều kiện đƣợc đánh số thứ tự từ 1, C Kết thử nghiệm Thuật tốn REATA đƣợc mơ tả Bảng 2.7 Bảng 2.7 Kết thử nghiệm Thuật toán REATA Tập thuộc tính Tập thuộc tính dƣ C STT Tập liệu U t rút gọn thừa thực Adult20 0.93 {3,4} {1,2} stretch Soybean47 35 2.74 {1,2,3,4,5,6,7,8,9, {11,13,14,15,16,17, 10,12,20,21,22,23, 18,19,29,30,31,32, small.data 24,25,26,27,28,35} 33,34} Sponge.data 76 45 2.1 {1,…,11,13,…,34, {12,35} 36,…,45} Zoo.data 101 17 3.19 {1,2,4,5,7,8,9,10, {3,6,16} 11,12,13,14,15,17} 3.4 Một số toán ứng dụng Trong thực tế, việc sử dụng phƣơng pháp rút gọn thuộc tính bảng định có ý nghĩa quan trọng Nó loại bỏ đƣợc thuộc tính dƣ thừa (những thuộc tính khơng có ý nghĩa việc sinh luật định) Trong phần này, chúng tơi xin giới thiệu vài tốn ứng dụng phƣơng pháp rút gọn thuộc tính bảng định đầy đủ, đồng thời sinh luật định Chúng xin nêu số toán ứng dụng sử dụng thuật toán rút gọn trình bày liệu chuẩn thuộc liệu UCI Thông thƣờng bảng định số thuộc tính bảng cịn thuộc tính dƣ thừa, việc loại bỏ thuộc tính dƣ thừa khỏi bảng định cần thiết, giúp việc sinh luật định trở lên hiệu tiết kiệm thời gian Trong liệu Lung-Cancer liệu UCI số thuộc tính ban đầu chƣa thực thuật toán 56 Sau thực số thuật tốn rút gọn trình bày số thuộc tính định cịn Nhƣ vậy, thay việc để dự đoán bệnh nhân có khả mắc ung thƣ cao, Bác sĩ phải xét tất 56 thuộc tính mà có tới 52 thuộc tính dƣ thừa, cần dựa vào thuộc tính bảng định, Bác sĩ có kết luận nhƣ - 53 - Một ví dụ khác, áp dụng thuật tốn tìm tập rút gọn với liệu viêm gan Hepatiris.data kho liệu UCI để sinh luật định phục vụ cho bác sĩ chuyên ngành chuẩn đoán bệnh nhân mắc bệnh viêm gan Ban đầu, liệu Hepatiris.data gồm 19 thuộc tính điều kiện, tƣơng ứng với 19 triệu chứng thu thập đƣợc từ bệnh nhân có biểu viêm gan, bao gồm: Tuổi, Giới tính, STEROID, Dùng thuốc kháng Vius, Mệt mỏi, Khó ở, Chán ăn, Gan sƣng to, Sơ gan, Viêm lách, STEROID, Huyết thanh, Tĩnh mạch, Sắc tố da, ALK PHOSPHATE, SGOT, ALBUMIN, PROTIME, Tiền sử mắc bệnh hay chƣa Sau thực thuật toán rút gọn thuộc tính, chúng tơi thu đƣợc tập rút gọn gồm 03 thuộc tính là: Giới tính, Sắc tố da, ALK PHOSPHATE Điều có nghĩa 16 thuộc tính cịn lại dƣ thừa Thay sinh luật từ tập 19 thuộc tính ban đầu, chúng tơi thực việc sinh luật tên tập rút gọn gồm 03 thuộc tính để chuẩn đốn bệnh viêm gan… 3.5 Một số giao diện chƣơng trình thử nghiệm 3.5.1 Giao diện chƣơng trình Giao diện chƣơng trình nhƣ sau: 3.5.2 Nạp tệp liệu mẫu lấy từ kho liệu UCI Dowload liệu mẫu dùng cho thử nghiệm từ kho liệu UCI: http://archive.ics.uci.edu/ml/datasets.html Vào Menu: Tệp liệu \ Nạp liệu từ UCI để thực nạp liệu Ví dụ: tệp liệu tuyển sinh IRIS.DATA - 54 - 3.5.3 Thực thuật toán CEBARKCC Kết thực thuật tốn CEBARKCC tìm tập rút gọn tốt sử dụng entropy Shannon với liệu IRIS.DATA nhƣ sau: 3.5.4 Thực thuật toán sử dụng khoảng cách Kết thực thuật tốn MBAR tìm tập rút gọn tốt sử dụng khoảng cách chúng tơi tìm hiểu với liệu IRIS.DATA nhƣ sau: - 55 - 3.5.5 Thực thuật toán sinh luật định từ tập rút gọn Nhƣ mô tả trên, tiến hành thử nghiệm với số liệu Soybean-small.data 1) Thực thuật tốn MBAK tìm tập rút gọn tốt nhất: 2) Thực thuật toán RuleExtract sinh luật định từ tập rút gọn tìm đƣợc: Nhấn nút “Xem tập rút gọn” Nhấn nút “Sinh luật định”, thu đƣợc luật sau: - 56 - 3.5.6 Thực thuật tốn tìm tập rút gọn xấp xỉ Nhƣ mô tả trên, tiến hành thử nghiệm với số liệu Tic-tactoe.data với ngƣỡng độ chắn khác 1) Giao diện chọn ngƣỡng: 2) Ví dụ: Chọn ngƣỡng 0.7, kết thực nhƣ sau: 3.5.7 Thực thuật tốn tìm tất thuộc tính rút gọn Kết thực Thuật tốn REATA tìm tất thuộc tính rút gọn chúng tơi tìm hiểu với liệu Soybean-small.data nhƣ sau: - 57 - KẾT LUẬN Trong q trình nghiên cứu hồn thành luận văn, luận văn đạt đƣợc kết sau: Kết đạt đƣợc  Tìm hiểu khái niệm hệ thống thông tin, bảng định, tập rút gọn…  Tìm hiểu lý thuyết sở liệu quan hệ, khái niệm số thuật tốn liên quan  Tìm hiểu số thuật tốn tìm tập rút gọn thuật tốn tìm tất tập rút gọn bảng định quán  Cài đặt thử nghiệm thành công số chƣơng trình thử nghiệm để từ so sánh phƣơng pháp có với phƣơng pháp tìm hiểu dựa lý thuyết tìm hiểu máy tính, liệu thử nghiệm liệu UCI Từ đó, rút nhận xét thời gian thực hiện, kết thực phƣơng pháp trình bày, đồng thời đƣa số toán ứng dụng thực tế sử dụng phƣơng pháp rút gọn để sinh luật Hƣớng nghiên cứu Trong thực tế, việc tìm tập rút gọn bảng định cần thiết có tính thực tế cao Do đó, việc nghiên cứu tìm hiểu tập rút gọn thuật tốn tìm tập rút gọn bảng định hƣớng nghiên cứu tiếp luận văn - 58 - TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Hồng Thị Lan Giao (2007), “Khía cạnh đại số lôgic phát luật theo tiếp cận tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin [2] Nguyễn Thanh Tùng (2010), “Về metric họ phân hoạch tập hợp hữu hạn”, Tạp chí Tin học Điều khiển học, T.26, S.1, tr 73-85 Tài liệu tiếng Anh [3] Chen D.G, Zhao S.Y., Zhang L., Yang Y.P and Zhang X (2011), “Sample pair selection for attribute reduction with rough set”, IEEE Transaction on Knowledge and Data Engineering, 29 March 2011 [4] Chin K.S., Liang J.Y and Dang C.Y (2003), “Rough Set Data Analysis Algorithms for Incomplete Information Systems”, Proceedings of the 9th international conference on Rough sets, fuzzy sets, data mining, and granular computing, RSFDGrC'03, pp 264-268 [5] Demetrovics J and Thi V.D (1987), “Keys, antikeys and prime attributes”, Ann Univ Scien Budapest Sect Comput 8, pp 37-54 [6] Demetrovics J and Thi V.D (1995), “Some remarks on generating Armstrong and inferring functional dependencies relation”, Acta Cybernetica 12, pp 167180 [7] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [8] Luo P., He Q and Shi Z.Z (2005), “Theoretical study on a new information entropy and its use in attribute reduction”, ICCI, pp 73-79 [9] Lv Y.J and Li J.H (2007), “A Quick Algorithmfor Reduction of Attribute in Information Systems”, The First International Symposium on Data, Privacy, and E-Commerce (ISDPE 2007), pp 98-100 [10] Miao D.Q and Hu G.R (1999), “A heuristic algorithm for knowledge reduction”, Computer Research and Development, Vol 36, No 6, pp 681684 [11] Nguyen S Hoa, Nguyen H Son (1996), "Some Efficient Alogrithms for Rough Set Methods", Proceedings of the sixth International Conference on Information Processing Management of Uncertainty in Knowledge Based Systems, pp 1451 - 1456 - 59 - [12] Pawlak Z (1991), Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers [13] Pawlak Z (1998), “Rough set theory and its applications to data analysis”, Cybernetics and systems 29, pp 661-688 [14] Qian Y.H., Liang J.Y., Dang C.Y., Wang F and Xu W (2007), “Knowledge distance in information systems”, Journal of Systems Science and Systems Engineering, Vol 16, pp 434-449 [15 ] Qian Y.H., Liang J.Y., Li D.Y., Zhang H.Y and Dang C.Y (2008), “Measures for Evaluating The Decision Performace of a Decision Table in Rough Set Theory”, Information Sciences, Vol.178, pp.181-202 [16] Sun L., Xu J.C and Cao X.Z (2009), “Decision Table Reduction Method Based on New Conditional Entropy for Rough Set Theory”, International Workshop on Intelligent Systems and Applications, pp 1-4 [17] Wang B.Y and Zhang S.M (2007), “A Novel Attribute Reduction Algorithm Based on Rough Set and Information Entropy Theory”, 2007 International Conference on Computational Intelligence and Security Workshops, IEEE CISW, pp.81-84 [18] Wang C.R and OU F.F (2008), “An Attribute Reduction Algorithm in Rough Set Theory Based on Information Entropy”, 2008 International Symposium on Computational Intelligence and Design, IEEE ISCID, pp 3-6 [19] Wang G.Y., Yu H and Yang D.C (2002), “Decision table reduction based on conditional information entropy”, Journal of Computers, Vol 25 No 7, pp 759-766 [20] Yao Y.Y., Zhao Y and Wang J (2006), “On reduct construction algorithms”, Proceedings of International Conference on Rough Sets and Knowledge Technology, pp 297-304 [21] The UCI machine learning repository,

Ngày đăng: 23/09/2020, 22:42

Tài liệu cùng người dùng

Tài liệu liên quan