Bài viết xây dựng một phương pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách phân hoạch. Trước hết, chúng tôi định nghĩa một khoảng cách phân hoạch xác định bởi một tập đối tượng U và một tập thuộc tính P dựa vào khoảng cách Jaccard giữa hai tập hợp hữu hạn.
Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Phƣơng pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng khoảng cách phân hoạch Partition Distance Based Attribute Reduction in Incomplete Decision Tables Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tạo, Nguyễn Long Giang Abstract: Tolerance based attribute reduction in incomplete decision tables is a hot topic which has attracted the attention of researchers in recent years In this paper, we develop a distance based attribute reduction method in incomplete decision tables The distance between the conditional attribute and the decision attribute has determined based on a partition distance By theoretically and experimentally, we compare the proposed method with others methods on the time complexity and the obtained reduct Keyword: Tolerance rough set, incomplete decision table, attribute reduction, reduct, partition distance I GIỚI THIỆU Rút gọn thuộc tính hệ thơng tin đầy đủ chủ đề nghiên cứu quan trọng lý thuyết tập thô truyền thống Pawlak [8] Trong thực tế, hệ thông tin thường thiếu giá trị miền giá trị thuộc tính, goi hệ thơng tin khơng đầy đủ Nhằm giải tốn rút gọn thuộc tính khai phá luật hệ thông tin đầy đủ, Kryszkiewicz [3] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai xây dựng mơ hình tập thô dung sai Trong năm gần đây, nhiều phương pháp rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận mơ hình tâp thơ dung sai công bố Mỗi phương pháp đưa khái niệm tập rút gọn dựa độ đo chọn xây dựng thuật toán heuristic tìm tập rút gọn tốt dựa tiêu chuẩn chất lượng phân lớp thuộc tính, cịn gọi độ quan trọng thuộc tính Một số tập rút gọn phương pháp kể đến là: tập rút gọn dựa hàm định suy rộng [3], tập rút gọn miền dương [10], tập rút gọn dựa lượng thông tin [1], tập rút gọn dựa metric [5], tập rút gọn phân bố (distribution reduct), tập rút gọn ấn định (assignment reduct) [9,11], tập rút gọn dựa ma trận phân biệt [7], tập rút gọn dựa ma trận dung sai [2] Trong cơng trình [7], tác giả phân nhóm phương pháp rút gọn thuộc tính dựa vào tập rút gọn nghiên cứu mối liên hệ tập rút gọn phương pháp nhằm so sánh, đánh giá tính hiệu phương pháp Trong báo xây dựng phương pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng khoảng cách phân hoạch Trước hết, định nghĩa khoảng cách phân hoạch xác định tập đối tượng U tập thuộc tính P dựa vào khoảng cách Jaccard hai tập hợp hữu hạn Dựa khoảng cách phân hoạch, xây dựng độ đo khoảng cách tập thuộc tính điều kiện thuộc tính định, sở xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Tương tự phương pháp heuristic khác, phương pháp bao gồm bước: định nghĩa tập rút gọn dựa khoảng cách, định nghĩa độ quan trọng thuộc tính dựa khoảng cách xây dựng thuật tốn heuristic tìm tập rút gọn tốt dựa tiêu chí đánh giá độ quan trọng thuộc tính Bằng lý thuyết thực nghiệm, chúng tơi so sánh, đánh giá phương pháp sử dụng khoảng cách đề xuất với phương pháp khác công bố hai tiêu chuẩn: độ phức tạp thời gian tập rút gọn thu Cấu trúc báo sau: - 23 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Phần II trình bày số khái niệm mơ hình tập thô dung sai số kết rút gọn thuộc tính bảng định khơng đầy đủ Phần III trình bày phương pháp xây dựng khoảng cách Phần IV trình bày phương pháp rút gọn thuộc tính sử dụng khoảng cách Phần V trình bày kết thử nghiệm thuật toán Cuối kết luận hướng phát triển Tập V-2, Số 14 (34), tháng 12/2015 SP u v U u ,v SIM P S P u tập đối tượng không phân biệt với u quan hệ dung sai tập thuộc tính P, cịn gọi lớp dung sai hay hạt thông tin Rõ ràng lớp dung sai U / SIM P phân hoạch U mà hình thành phủ U chúng giao nhau, nghĩa S P u với u U uU SP u U Với B A , X U , B-xấp xỉ X tập II CÁC KHÁI NIỆM CƠ BẢN Phần trình bày số khái niệm mơ hình tập thô dung sai [3] số kết nghiên cứu phương pháp rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thơ dung sai Hệ thơng tin cặp IS U , A U tập khác rỗng, hữu hạn đối tượng; A tập khác rỗng, hữu hạn thuộc tính Mỗi thuộc tính a A xỉ (missing value) IS gọi hệ thông tin không đầy đủ, ngược lại hệ thông tin đầy đủ, giá trị thiếu biểu diễn „*‟ Bảng định không đầy đủ hệ thông tin không đầy đủ IDS U , A d với X S BX u U S B u X B-xấp B tập u u U , B- miền biên X tập BN P X PX PX Với tập xấp xỉ vậy, ta gọi B-miền dương {d} tập: POS B d xác định ánh xạ: a : U Va với Va tập giá trị thuộc tính a A Nếu Va chứa giá trị thiếu BX u U SB u X u X S B u X , Cho bảng IDS U , A d X U /d định Với BX (2) không B A đầy đủ u U , B (u) f d v v S B (u ) gọi hàm định suy rộng IDS Nếu | C (u) | với d , d A * Vd , thuộc tính định, tập u U IDS qn, trái lại IDS khơng quán Theo định nghĩa miền dương, IDS quán thuộc tính A gọi tập thuộc tính điều kiện POS A (d ) U , trái lại IDS không Với tập thuộc tính P A , ta định nghĩa quan hệ nhị phân U sau: a P, SIM P u, v U U f u, a f v, a f u, a (1) '*' f v, a '*' SIM P quan hệ dung sai (tolerance relation) U chúng có tính phản xạ, đối xứng khơng có tính bắc cầu Dễ thấy SIM P hiệu aP SIM a Ký U / SIM P S P u u U với quán Kể từ Kryszkiewicz [3] đề xuất mơ hình tập thơ dung sai, nhiều phương pháp heuristic rút gọn thuộc tính bảng định công bố Mỗi phương pháp đưa khái niệm tập rút gọn dựa độ đo chọn xây dựng thuật toán heuristic tìm tập rút gọn tốt dựa tiêu chuẩn chất lượng phân lớp thuộc tính, cịn gọi độ quan trọng thuộc tính Các phương pháp rút gọn thuộc tính điển hình tập rút gọn trình bày Bảng Trong cơng trình [7], tác giả phân nhóm tập rút gọn bảng định không quán - 24 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT thành 04 nhóm theo nguyên tắc tập rút gọn giống phân vào nhóm: Nhóm 1: Bao gồm tập rút gọn RP Nhóm 2: Bao gồm tập rút gọn R , R , RM Nhóm 3: Bao gồm tập rút gọn RI , RTM , RH Nhóm 4: Bao gồm tập rút gọn R Mối liên hệ tập rút gọn nhóm sau: (1) Nếu R3 tập rút gọn thuộc nhóm tồn tập rút gọn R2 thuộc nhóm tập rút cơng trình [6], tác giả nghiên cứu thay đổi độ đo đánh giá tập luật định tập rút gọn Trên bảng định không quán, tập rút gọn thuộc nhóm tốt có số thuộc tính tối thiểu Phần tiếp theo, chúng tơi xây dựng phương pháp rút gọn thuộc tính bảng định không đầy đủ sử dụng độ đo khoảng cách xác định tập thuộc tính điều kiện thuộc tính định III XÂY DỰNG ĐỘ ĐO KHOẢNG CÁCH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ III.1 Khoảng cách phân hoạch độ đo thông tin gọn R1 thuộc nhóm cho R1 R2 R3 Cho U tập hữu hạn đối tượng X , Y U (2) Nếu R4 tập rút gọn thuộc nhóm tồn tập rút gọn R2 thuộc nhóm tập rút gọn R1 thuộc nhóm cho R1 R2 R4 D X ,Y 1 Biểu thức: X Y X Y gọi khoảng cách Jaccard (Jaccard distance) hai tập hợp X Y [4] Dựa vào khoảng cách Jaccard, xây dựng khoảng cách phân hoạch Bảng Các phương pháp rút gọn thuộc tính tập rút gọn STT Phƣơng pháp rút gọn thuộc tính Tập V-2, Số 14 (34), tháng 12/2015 Ký hiệu Cho hệ thông tin IS U , A , giả sử Phương pháp miền dương [10] RP K P U / P P1, , Pk phân hoạch sinh Phương pháp sử dụng hàm định suy rộng [3] R tập thuộc tính P A K 1, , k với Phương pháp sử dụng hàm ấn định (assignment) [11] R K K P , ta gọi khoảng cách phân hoạch Phương pháp sử dụng ma trận phân biệt [7] RM xác định tập đối tượng U tập thuộc tính P, tính tổng khoảng cách Jaccard trung bình Phương pháp sử dụng độ đo lượng thông tin [1] RI Phương pháp sử dụng ma trận dung sai [2] RTM Phương pháp sử dụng metric [5] RH Phương pháp sử dụng hàm phân bố (distribution) [9] Mệnh đề Cho hệ thông tin IS U , A với P A R U u1 , , un Giả sử i U , i k Khi đó, khoảng cách phân hoạch phần tử tương ứng thuộc K K P sau: d K , K P Trên sở đó, phương pháp rút gọn thuộc tính phân thành 04 nhóm tương ứng Trong U Pi k 1 k i 1 U Pi (3) K P P1, , Pk , K 1, , k với i U , i k Khi ta có: - 25 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT 1) d K , K P hoạch xác định lớp dung sai S P ui thuộc tính k 2) d K , K P đạt giá trị lớn n K P u1, ,un d K , K P đạt giá trị nhỏ K P U d K Pi , K Pi d bảng định k Pi không (4) đầy đủ IDS U , A d U u1, , un , với P A 1) Từ cơng thức (3) ta có: định d : Cho Chứng minh d K , K P Tập V-2, Số 14 (34), tháng 12/2015 ta có U / SIM P SP ui ui U , i n Pi k i 1 U k phủ U Khi đó, ta xây dựng khoảng cách tập thuộc tính điều kiện P thuộc tính định d , ký P1 Pk k 1 k k U k k hiệu D P, d , trung bình cộng khoảng cách phân hoạch thành phần xác định lớp dung 2) Dễ thấy d K , K P đạt giá trị lớn sai S P ui d , khoảng cách định nghĩa đạt giá trị nhỏ nhất, nghĩa k n hay k K P u1, ,un d K , K P đạt công thức (5) sau : giá trị nhỏ k , nghĩa K P U n 1 i n i 1 k P Từ khoảng cách phân hoạch xác định tập đối tượng U tập thuộc tính P nêu trên, mục chúng tơi xây dựng khoảng cách tập thuộc tính DP, d n d K Pi , K Pi d n i 1 n i n i 1 k P (5) Với n số đối tượng bảng định k Pi điều kiện P thuộc tính định d bảng số lớp tương phân hoạch SP ui / d với định không đầy đủ ui U III.2 Xây dựng khoảng cách bảng định không đầy đủ Mệnh đề Cho bảng định không đầy đủ Cho bảng định không đầy đủ IDS U , A d với U u1, , un tập thuộc tính P A Với lớp dung sai SP ui , ui U , ta ký hiệu K Pi d SP ui / d S1i , S2i , , Ski i P phân hoạch lớp dung sai S P ui thuộc tính định d , K Pi 1i , 2i , , ki i P với ij SP ui , j kPi Khi đó, khoảng cách phân IDS U , A d P, Q A Nếu P Q D P,d D Q,d D P,d D Q,d đẳng Dấu thức P u Q u với u U Chứng minh Xét bảng IDS U , A d định không đầy đủ với U u1 , , un Nếu P Q SQ ui SP ui với ui U Giả sử với ui U ta có SP ui / d S1i , S2i , , Ski i , - 26 - P Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 SQ ui / d S1i , S2i , , Ski i , rõ ràng 2) Tương tự, D P, d đạt giá trị nhỏ n 1 n k k Vì vậy, i i , nghĩa n i 1 k P n i 1 kQ k Pi đạt giá trị nhỏ với ui U , xảy i Q Q i P D P,d D Q,d Dấu đẳng thức D P,d D Q,d k k i P i Q với ui U , theo định nghĩa hàm định suy rộng ta có P ui Q ui với ui U Từ SQ ui SP ui ta suy IDS bảng định quán tập thuộc tính điều kiện P Mệnh đề Cho bảng định không đầy đủ IDS U , A d Khi ta có: d A,d IDS Mệnh đề chứng minh tính phản đơn điệu khoảng cách lực lượng tập thuộc tính điều kiện Nghĩa tập thuộc tính điều kiện P nhỏ phủ sinh P thơ khoảng cách từ P tới thuộc tính định {d} lớn ngược lại Mệnh đề quan trọng cho ta sở để xây dựng phương pháp rút gọn thuộc tính sử dụng khoảng cách Mệnh đề Cho bảng định không đầy đủ IDS U , A d P A Khi ta có: P ui n với ui U n 2) D P, d đạt giá trị nhỏ P ui với ui U (Bảng định IDS quán tập thuộc tính P) Chứng minh 1) Từ cơng thức (5) ta thấy D P, d đạt giá trị lớn k Pi đạt giá trị lớn n với ui U , xảy SP ui U phân hoạch SP ui / d ui ui U (phân hoạch rời rạc), nghĩa P ui n Khi đó, giá trị lớn 1 n 1 1 1 n i 1 n n (phân hoạch khối), nghĩa P ui với ui U , P ui Q ui với ui U 1) D P, d đạt giá trị lớn phân hoạch SP ui / d SP ui (6) với IDS độ chắn bảng định IDS cơng trình [6] Mệnh đề dễ dàng suy từ cơng thức tính khoảng cách (5) cơng thức tính độ chắn bảng định IDS cơng trình [6] Mệnh đề cho thấy khoảng cách từ tập thuộc tính điều kiện A đến thuộc tính định {d} đại lượng đối ngẫu với độ chắn bảng định Nếu khoảng cách lớn (thuộc tính điều kiện xa thuộc tính định) độ chắn bảng định nhỏ ngược lại IV RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHƠNG ĐẦY ĐỦ SỬ DỤNG KHOẢNG CÁCH Trong phần này, chúng tơi trình bày phương pháp heuristic rút gọn thuộc tính bảng định khơng đầy đủ sử dụng khoảng cách Giống phương pháp heuristic khác, phương pháp bao gồm bước: định nghĩa tập rút gọn dựa khoảng cách, định nghĩa độ quan trọng thuộc tính dựa khoảng cách xây dựng thuật tốn heuristic tìm tập rút gọn tốt dựa tiêu chí đánh giá độ quan trọng thuộc tính Định nghĩa Cho bảng định không đầy đủ IDS U , A d tập thuộc tính R C Nếu - 27 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 IDS U , A d 1) D( R,d ) D( A, d ) 2) r R, D( R r,d ) D( A,d ) Đầu ra: Một tập rút gọn tốt R R tập rút gọn C dựa khoảng cách R ; Từ Mệnh đề ta thấy tập rút gọn dựa khoảng cách tập rút gọn dựa hàm định suy rộng Từ kết phân nhóm phương pháp rút gọn thuộc tính [7] ta có, phương pháp rút gọn khoảng cách xây dựng thuộc Nhóm Do đó, tập rút gọn phương pháp đề xuất tương đương tập rút gọn phương pháp thuộc Nhóm hiệu chất lương phân lớp (tối thiểu hơn) phương pháp thuộc Nhóm Nhóm Điều có nghĩa tập rút gọn phương pháp đề xuất thuộc nhóm phương pháp tốt chất lượng phân lớp Tính khoảng cách D R,d D A, d ; Định nghĩa Cho bảng định không đầy đủ R R am ; Tính khoảng cách D R,d ; IDS U , A d , B A b A B While D R,d D A,d Begin For a A R tính Chọn am A R cho aA R End; //Loại bỏ thuộc tính dư thừa R có 10 For each a R 11 Begin SIGB b SIGB b tính lượng thay đổi khoảng cách tập thuộc tính điều kiện B thuộc tính định {d} thêm thuộc tính b vào B 12 Tính khoảng cách D R a,d ; 13 If D R a,d D R,d then R R a ; 14 End; 15 SIGB b lớn lượng thay đổi khoảng cách Thuật tốn Thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách SIGR am Max SIGR a ; Theo Mệnh đề 2, D B,d D B b,d nên Ý tưởng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách xuất phát từ tập rỗng R , bổ sung thêm vào R thuộc tính có độ quan trọng lớn tìm tập rút gọn (7) lớn, hay thuộc tính b quan trọng ngược lại Độ quan trọng thuộc tính tiêu chuẩn lựa chọn thuộc tính thuật tốn heuristic tìm tập rút gọn bảng định SIGR a D R,d D R a,d ; quan trọng thuộc tính b tập thuộc tính B định nghĩa bởi: // Thêm vào R thuộc tính có độ quan trọng lớn Độ SIGB b D B,d D B b,d Return R ; Xét vòng lặp While từ dòng lệnh đến 9, để tính SIGR a ta cần tính phải phải tính D R a,d D R,d tính bước trước, nghĩa cần phải tính S Ra ui phân hoạch SRa ui / d Trong cơng trình [5], độ phức tạp để tính S Ra ui với ui U , độ phức tạp để tính S R ui tính O U phân hoạch SRa ui / d với ui U Đầu vào: Bảng định không đầy đủ - 28 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Do đó, độ phức tạp thời gian để tính tất O U Ta khởi tạo R từ công thức SIGR a dòng lệnh số là: A A 1 1 * U A * A / * U O A U 2 Tập V-2, Số 14 (34), tháng 12/2015 SP u v U u, v SIM P ta có S R u1 S R u S R u3 S R u S R u5 S R u U Từ đó: S R u1 /d S R u /d S R u3 /d S R u /d S R u5 /d S R u6 /d với A số thuộc tính điều kiện U số đối U /d u1 , u2 , u4 , u6 , u3 , u5 tượng Độ phức tạp thời gian để chọn thuộc tính có độ quan trọng lớn dịng lệnh số là: Tính D R,d , từ cơng thức : A A 1 A * A 1 / O A DP, d Do đó, độ phức tạp thời gian vòng lặp While Tương tự, độ phức tạp vòng lặp For từ dòng lệnh số 10 đến 14 O A U Vì vậy, độ phức tạp thời gian Thuật toán O A U O A U 2 2 ta có n d K Pi , K Pi d n i 1 n 1 i n i 1 k P n i n i 1 k P D R,d = 1/6 { (1-1/3)+ (1-1/3)+(1-1/3)+ (1-1/3)+ (1-1/3)+(1-1/3)}=2/3 Tiếp tục tính D A, d , ta có S A u1 u1 , Độ phức tạp tương đương với độ phức tạp phương pháp sử dụng độ đo Nhóm Nhóm hiệu phương pháp theo tiếp cận tính tốn ma trận Nhóm Nhóm S A u u ,u , S A u u , S A u u ,u , Ví dụ Xét bảng định không đầy đủ mô tả liệu xe cho Bảng [1] S A u /d u , S A u /d u , u5 IDS U , A d với U u1, u2 , u3 , u4 , u5 , u6 A = {Car, Price, Mileage, Size, Max-speed} Bảng Bảng mô tả xe S A u u , u , u , S A u u , u , u Khi S A u1 /d u1 , S A u /d u , u , S A u /d u , u , u , S A u /d u , u , u5 Từ công thức (5) ta có: DA, d / 61 1 1 1 1 1 1 / 2 1 / 2 1 / 2 / Vì vậy: D R,d D A,d Tiếp tục thực vòng lặp While Tính tương tự ta có: Car Price Mileage Size Maxspeed d u1 High High Full Low Good u2 Low * Full Low Good u3 * * Compact High Poor 1/ 61 1/ 3 1 1/ 3 1 1/ 3 1 1/ 3 1 1/ 3 1 1/ 3 2/3 Từ u4 High * Full High Good SIGR a1 DR, d DR a1 , d / / u5 * * Full High Excellent SIGR a2 DR, d DR a2 , d / / u6 Low High Full * Good SIGR a3 DR, d DR a3 , d / / 12 / DR a1 , d Tương tự , - 29 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT SIGR a4 DR, d DR a4 , d / / / Vậy SIG R a3 lớn R R a3 Từ ta có DR, d / 12 Tập V-2, Số 14 (34), tháng 12/2015 [12] Với số liệu, giả sử U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn, t thời gian thực thuật toán (đơn vị giây s), thuộc tính điều kiện đánh số 1, Tiếp tục tính: SIGR a1 DR, d DR a1 , d / 12 / 12 SIGR a2 DR, d DR a2 , d / 12 / 12 2,…, C Kết thực hai thuật tốn mơ tả Bảng Bảng 4: SIGR a4 DR, d DR a4 , d / 12 / / Vậy SIG R a lớn ta có R R a , Vậy DR, d / DR, d D A, d dừng vòng lặp, Bảng Kết thực thuật toán IQBAR Thuật toán U C T T Bộ số liệu Loại bỏ thuộc tính dư thừa R Hepatitis.data 155 19 DR a , d DR, d 32 56 không loại bỏ a4 205 DR a , d DR, d Lungcancer.data Automobile.d ata Anneal.data Congressiona l Voting Records Credit Approval R a3 , a Ta có DR a , d / 12 Ta có DR a3 , d / không loại bỏ a3 Vậy tập rút gọn R a3 , a V THỰC NGHIỆM THUẬT TỐN Chúng tơi chọn thuật tốn IQBAR tìm tập rút gọn bảng định khơng đầy đủ sử dụng độ đo lượng thông tin (Information Quantity) [1] để so sánh với thuật toán đề xuất (Thuật toán 1) thời gian thực kết thực Sở dĩ chọn thuật tốn IQBAR theo lý thuyết trình bày, tập rút gọn Thuật tốn (Nhóm 2) tối thiểu tập rút gọn thuật tốn IQBAR (Nhóm 3) Để tiến hành thử nghiệm, thực công việc sau: 1) Cài đặt thuật toán IQBAR Thuật toán ngơn ngữ C# Cả hai thuật tốn sử dụng thuật tốn [6] để tính lớp dung sai S B ui với ui U 2) Trên máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows XP Proessional, chạy thử nghiệm hai thuật toán với số liệu lấy từ kho liệu UCI - 30 - Thuật toán Thuật toán IQBAR T R R t 1.3 1.29 0.17 0.17 25 1.7 1.68 798 435 38 16 15 179 16.5 13 178 16.73 690 15 16.2 15.68 Bảng Tập rút gọn thuật toán IQBAR Thuật toán T T Tập liệu Hepatitis.data Lungcancer.data Automobile.da ta Anneal.data Congressional Voting Records Credit Approval Tập rút gọn Thuật toán IQBAR {1, 2, 4, 17} {3, 4, 9, 43} Tập rút gọn Thuật toán {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 33, 34, 35} {1, 2, 3, 4, 5, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} {1, 13, 14, 20, 21} {1, 3, 4, 5, 8, 9, 34, 35} {1, 2, 3, 4, 5, 8, 10, 11, 12, 13, 14, 15, 16} {1, 2, 3, 4, 5, 6, 8} {1, 2, 4, 17} {3, 4, 9, 43} Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT Tập V-2, Số 14 (34), tháng 12/2015 Kết thử nghiệm cho thấy: TÀI LIỆU THAM KHẢO - Trên số liệu Hepatitis.data, Lung-cancer.data, Automobile.data, Credit Approval, tập rút gọn thu Thuật toán Thuật toán IQBAR Tuy nhiên, với số liệu Anneal.data, Congressional Voting Records, tập rút gọn thu Thuật toán tối thiểu tập rút gọn thu Thuật toán IQBAR Điều phù hợp với kết nghiên cứu lý thuyết [1] HUANG B., LI H X AND ZHOU X Z., “Attribute Reduction Based on Information Quantity under Incomplete Information Systems”, Systems Application Theory & Practice, Vol 34, 2005, pp 55-60 [2] HUASHENG ZOU, CHANGSHENG ZHANG, “Efficient Algorithm for Knowledge Reduction in Incomplete Information System”, Journal of Computational Information Systems 8: 6, 2012, pp 2531-2538 [3] KRYSZKIEWICZ M., “Rough set approach to incomplete information systems”, Information Science, Vol 112, 1998, pp 39-49 [4] LONG GIANG NGUYEN, “Metric Based Attribute Reduction in Decision Tables”, Federated Conference on Computer Science and Information System (FEDCSIS), Wroclaw, Poland, IEEE, 2012, pp 311316 [5] LONG GIANG NGUYEN, HUNG SON NGUYEN, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, LNCS, SpingerLink, Vol 8170, 2013, pp 99110 [6] NGUYỄN LONG GIANG, VŨ VĂN ĐINH, “Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn bảng định không đầy đủ”, Fundamental and Applied IT Research, Vol 52, 2013, pp.394 – 402 [7] NGUYEN LONG GIANG, VU VAN DINH, “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, 2013, pp 417-426 [8] PAWLAK Z, “Rough sets”, International Journal of Information and Computer Sciences, 11(5) 1982, pp 341-356 [9] RENPU LI, DAO HUANG, “Reducts in incomplete decision tables”, Proceedings of the First international conference on Advanced Data Mining and Applications, ADMA‟05, 2005, pp 165-174 [10] ZUQIANG MENG, ZHONGZHI SHI, “A fast approach to attribute reduction in incomplete decision - Thời gian thực Thuật toán Thuật toán IQBAR tương đương VI KẾT LUẬN Các nghiên cứu rút gọn thuộc tính bảng định không đầy đủ theo tiếp cận mô hình tập thơ dung sai sơi động năm gần Trong báo này, đề xuất phương pháp heuristic rút gọn thuộc tính bảng định không đầy đủ sử dụng độ đo khoảng cách phân hoạch, bao gồm bước: xây dựng độ đo khoảng cách tập thuộc tính điều kiện thuộc tính định; định nghĩa tập rút gọn dựa khoảng cách; định nghĩa độ quan trọng thuộc tính dựa khoảng cách; xây dựng thuật tốn heuristic tìm tập rút gọn tốt sử dụng khoảng cách Chúng chứng minh tập rút gọn dựa khoảng cách thuộc Nhóm Do chất lượng phân lớp, phương pháp sử dụng khoảng cách tương đương với phương pháp thuộc Nhóm hiệu phương pháp thuộc Nhóm 3, Nhóm Về độ phức tạp thời gian, phương pháp sử dụng khoảng cách tương đương với phương pháp khác sử dụng độ đo hiệu phương pháp theo tiếp cận ma trận Nhóm Nhóm Kết thu báo bổ sung thêm phương phương pháp rút gọn thuộc tính bảng định không đầy đủ Hướng phát triển nhóm tác giả nghiên cứu phương pháp rút gọn bảng định không đầy đủ với liệu thay đổi - 31 - Các cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT systems with tolerance relation-based rough sets”, Information Sciences, Vol 179, 2009, pp 2774-2793 [11] ZHOU, X.Z., HUANG, B, “Rough Set-based Attribute Reduction under Incomplete Information Systems”, Journal of Nanjing University of Science and Technology, 27(2003), pp 630-635 Tập V-2, Số 14 (34), tháng 12/2015 [12] The UCI machine learning http://archive.ics.uci.edu/ml/datasets.html repository, Ngày nhận bài: 04/12/2014 SƠ LƢỢC VỀ TÁC GIẢ VŨ VĂN ĐỊNH Sinh ngày 22/08/1977 Hải Phòng Tốt nghiệp Trương ĐH Khoa học Tự nhiên, ĐH Quốc gia Hà Nội năm 2003, chuyên ngành Toán tin ứng dụng Bảo vệ luận án Thạc sĩ ĐH Công nghệ Thông tin năm 2007, chuyên ngành Khoa học máy tính Hướng nghiên cứu: Khai phá liệu, sở liệu mơ hình hóa hệ thống thơng tin Email: dinhvv@epu.edu.vn VŨ ĐỨC THI Sinh ngày 07/04/1949 Hải Dương Tốt nghiệp ĐH Tổng hợp Hà Nội năm 1971 Bảo vệ luận án tiến sỹ Viện Hàn lâm Khoa học Hungary, năm 1987, chuyên ngành Cơ sở liệu, CNTT Nhận học hàm Phó giáo sư năm 1991, Giáo sư năm 2009 Hướng nghiên cứu: Cơ sở liệu hệ thống thông tin, khai phá liệu học máy Email: vdthi@vnu.edu.vn NGUYỄN LONG GIANG Sinh ngày 05/06/1975 Hà Tây Tốt nghiệp Trường ĐH Bách khoa Hà Nội năm 1997, thạc sĩ Trường ĐH Công nghệ, ĐH Quốc gia Hà Nội năm 2003 Bảo vệ luận án tiến sỹ Viện CNTT, Viện Hàn lâm KH&CN Việt Nam năm 2012, chuyên ngành: Đảm bảo toán học cho máy tính hệ thống tính tốn Hướng nghiên cứu: Cơ sở liệu, khai phá liệu học máy Email: nlgiang@ioit.ac.vn NGƠ QUỐC TẠO Tốt nghiệp: Khoa Tốn lý, Trường ĐH Bách khoa Hà Nội năm 1982, chuyên ngành Tốn Máy tính Nhận Tiến sỹ Tốn lý năm 1997, Chuyên ngành đảm báo toán học cho hệ thống tính tốn Được phong Phó Giáo sư Tin học năm 2002 Lĩnh vực nghiên cứu: Nhận dạng, xử lý ảnh, nhập liệu tự động, trí tuệ nhân tạo, khai phá liệu Email: nqtao@ioit.ncst.ac.vn - 32 - ... IV RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ SỬ DỤNG KHOẢNG CÁCH Trong phần này, chúng tơi trình bày phương pháp heuristic rút gọn thuộc tính bảng định không đầy đủ sử dụng khoảng cách. .. tập rút gọn Trên bảng định không quán, tập rút gọn thuộc nhóm tốt có số thuộc tính tối thiểu Phần tiếp theo, xây dựng phương pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng độ đo khoảng cách. .. tượng bảng định k Pi điều kiện P thuộc tính định d bảng số lớp tương phân hoạch SP ui / d với định không đầy đủ ui U III.2 Xây dựng khoảng cách bảng định không đầy đủ Mệnh đề Cho bảng định