Các thuật toán tìm các rút gọn cho hệ tin đơn trị và đa trị sử dụng khái niệm vùng dương

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	4
Dung lượng	334,64 KB

Nội dung

Trong bài viết này tác giả trình bày một số khái niệm và tính chất liên quan đến vùng dương trong lý thuyết tập thô của Pawlak. Nêu ra một số các ràng buộc giữa các thuộc tính và đặc biệt giữa các thuộc tính điều kiện trong hệ quyết định để làm tiền đề cho các thuật toán tìm rút gọn cho hệ tin giá trị đơn và hệ tin giá trị tập.

ISSN 2354-0575 CÁC THUẬT TỐN TÌM CÁC RÚT GỌN CHO HỆ TIN ĐƠN TRỊ VÀ ĐA TRỊ SỬ DỤNG KHÁI NIỆM VÙNG DƯƠNG Nguyễn Hữu Đông1, Nguyễn Bá Tường1, Nguyễn Đức Thọ2 Trường Đại học Sư phạm Kỹ thuật Hưng Yên Học viện Kỹ thuật Quân Ngày nhận: 05/4/2016 Ngày sửa chữa: 03/6/2016 Ngày xét duyệt: 20/6/2016 Tóm tắt: Trong chúng tơi trình bày số khái niệm tính chất liên quan đến vùng dương lý thuyết tập thô Pawlak Trên sở tính chất vùng dương, chúng tơi nêu số ràng buộc thuộc tính đặc biệt thuộc tính điều kiện hệ định để làm tiền đề cho thuật tốn tìm rút gọn cho hệ tin giá trị đơn hệ tin giá trị tập Đồng thời viết minh chứng hệ tin đa trị (a set-value information system) xét hệ tin đơn trị Từ khóa: Tập thơ, vùng dương, hệ định, hệ thống thông tin, khai thác liệu Mở đầu Trong [1] Guangming Lang cộng dùng phương pháp nén cách rút gọn liệu hệ tin giá trị tập Trong chúng tơi trình bày số khái niệm tính chất liên quan đến vùng dương lý thuyết tập thô Pawlak Trên sở tính chất vùng dương, chúng tơi nêu số ràng buộc thuộc tính đặc biệt thuộc tính điều kiện hệ định để làm tiền đề cho thuật toán tìm rút gọn cho hệ tin giá trị đơn hệ tin giá trị tập Một số khái niệm Định nghĩa Hệ thống thông tin Hệ thống thông tin (information system) S = (U, A); U tập hữu hạn khác rỗng đối tượng; A tập hữu hạn khác rỗng thuộc tính Mỗi thuộc tính a ! A, Va tập giá trị a u ! U a(u) giá trị u thuộc tính a Chú ý: Nếu 6a ! A, 6o ! U a(o) có giá trị S = (U, A) hệ tin đơn trị, ngược lại S = (U, A) gọi hệ tin đa trị hay hệ tin giá trị tập (set-value information system) Ví dụ Bảng hệ tin đơn trị, Bảng hệ tin đa trị Trong viết ta nói cho hệ tin S = (U, A) S đơn trị đa trị Cho hệ tin S = (U, A), B A Định nghĩa Quan hệ bất khả phân biệt Quan hệ IND (B) U # U gọi quan hệ bất khả phân biệt U với cặp đối tượng o, o' ! U o IND (B) o ' a(o) = a(o’) với a ! B Khoa học & Công nghệ - Số 10/Tháng - 2016 Dễ dàng thấy quan hệ IND(B) quan hệ tương đương U Phân hoạch U / IND (B) = U / B phân hoạch tương đương Chú ý: Chúng ta ký hiệu U/B phân hoạch U/IND(B) U/B = {[o]B: o ! U} nhóm tương đương Với [o]B nhóm đối tương quan hệ với Định nghĩa Hệ định Hệ định hệ tin S mà tập thuộc tính A có thuộc tính định D Vậy hệ định T = (U, A); A = C , D; C + D ! z Tập C gọi tập thuộc tính điều kiện, D thuộc tính định Ví dụ: Bảng Hệ định đơn trị U C1 C2 C3 C4 C5 D u1 2 u2 2 u3 2 u4 2 2 u5 u6 3 2 u7 3 Bảng Hệ định đa trị U C1 C2 C3 C4 C5 D u1 {1} {1,2} {2} {1,2} {1} Journal of Science and Technology 65 ISSN 2354-0575 u2 {1} {1,2} {2} {1,2} {2} u3 {1} {1,2} {2} {1,2} {1} u4 {1,2} {1,2} {1,2} {1,2} {2} u5 {1,2,3} {1,3} {1,4} {1,3} {1} u6 {1,2,3} {1,3} {1,4} {1,3} {2} u7 {1,2,3} {1,3} {1,4} {1,3} {1} Chú ý: Trong hệ định đa trị 6o ! U o 6D@ có giá trị Định nghĩa Hệ định quán Hệ định T = (U, C , D) quán cặp x, y ! U mà x[C] = y[C] x[D] = y[D] Nói cách khác T quán đối tượng giống C giống D Ví dụ Bảng 1, hệ định quán Định nghĩa Vùng dương hai tập thuộc tính B, B’ Cho hệ tin S = (U, A), B, B ' A Vùng dương (positive region) B B' , với B, B' A, ký hiệu POS (B, B') hợp nhóm U / B bao hàm nhóm U/ B' Hay POS (B, B ') = ' {Ei ! U / B: 7Pj ! U / B ' cho Ei Pj} Chú ý: Vùng dương B B' cho ta khung nhìn độ bao hàm tập sơ cấp hai không gian Apr = (U, U / B) Apr ' = (U, U / B ') Định nghĩa Phụ thuộc hàm với độ phụ thuộc k(B,B’) Cho hệ tin S = (U, A), B, B ' A Tập B' gọi phụ thuộc hàm độ k (B, B ') k(B,B’) vào B, ký hiệu B B' Card (POS (B, B ') k (B, B ') = Card (U) Định nghĩa Rút gọn tập thuộc tính Cho hệ tin S = (U, A) Tập R A gọi tập rút gọn A R tập tối thiểu thỏa mãn U / R = U / A R tối thiểu theo nghĩa với b ! R U / (R \ {b}) ! U / A Định nghĩa Rút gọn tập thuộc tính điều kiện Cho hệ định T = (U, C , D) Tập R C gọi tập rút gọn C R tập tối thiểu thỏa mãn U / R = U / C R tối thiểu theo nghĩa với b ! R U / (R \ {b}) ! U / C 66 Một số tính chất vùng dương rút gọn Tính chất Sự bao nhóm tập thuộc tính bao Cho hệ tin S = (U, A) Nếu B B ' A o ! U ta ln có [o] B ' [o] B Chứng minh: Lấy o ' ! [o] B ' o' o giống (bất khả phân biệt) B' B B' nên o o' giống B, hay o ' ! [o] B ' nên [o] B ' [o] B Tính chất Cho hệ tin S = (U, A) Với o ! U o ! POS (B, B') [o] B [o] B' Chứng minh: tính chất suy trực tiếp từ định nghĩa vùng dương Tính chất Biểu diễn vùng dương qua xấp xỉ Nếu đặt E = U / B = {E1, E2, , Ek}; AprE = (U, E) P = U / B’ = {P1, P2, , Pl}; AprP = (U, P) POS (B, B ') = ' (Pj ) E Pj ! P POS (B, B ') = ' (Ei ) P Ei ! E Chứng minh: Tính chất suy trực tiếp từ định nghĩa vùng dương xấp xỉ Tính chất Vùng dương rút gọn R D vùng dương C D Cho hệ định T = (U, C , D) Nếu R rút gọn C POS(R, D) = POS(C, D) Chứng minh: Giả sử P = U/D = {P1, P2, , Pl} phân hoạch định Vì R rút gọn C nên E = U/R = U/C = {E1, E2, , Ek} Khi theo tính chất ta có POS (C, D) = ' (Pj ) E = POS (R, D) pj ! P Tính chất Độ phụ thuộc tập rút gọn Cho hệ định T = (U, C , D) Nếu R rút gọn C k(R, D) = k(C, D) Chứng minh: tính chất suy trực tiếp từ tính chất Tính chất Số nhóm đối tượng liên quan đến tập thuộc tính Cho hệ tin S = (U, A) Nếu B B' hai tập thuộc tính thỏa mãn B B' card (U / B) # card (U / B ') Chứng minh: Vì nhóm U/B’ nhóm U/B nên số nhóm U/B khơng thể vượt q số nhóm U/B’ Tính chất Sự đồng biến hàm độ đo phụ thuộc Cho hệ định T = (U, C , D) Hàm Khoa học & Công nghệ - Số 10/Tháng - 2016 Journal of Science and Technology ISSN 2354-0575 k (B, D): C " [0, 1] với 2C họ tập C Card (POS (B, D) hàm đồng biến k (B, D) = Card (U) Chứng minh: Để chứng minh tính chất ta cần chứng minh với cặp tập thuộc tính điều kiện B, B' mà B B' POS(B, D) = POS( B' , D) Lấy o ! POS(B, D) [o]B [o]D Mặt khác B B' nên theo tính chất ta có [o]B’ [o]B Vậy [o]B’ [o]D hay o ! POS( B' , D) Tính chất Cho hệ định T = (U, C , D) Nếu đặt w (c) = k ({c}, D) trọng số thuộc tính c ! C w(B) = k(B, D) trọng số tập thuộc tính B (B C) w(c) # w(B) với c ! B Chứng minh tính chất suy từ tính chất Một số thuật tốn tìm rút gọn Cho hệ định T = (U, C , D) Từ tính chất hàm k(B,D) Card (POS (B, D)) hàm đồng biến Card (U) Nên k(C,D) = = Card (POS (C, D)) đạt giá trị Card (U) cực đại Nếu R rút gọn C từ tính chất ta có k(R,D) = k(C,D) Đặt k = k(C,D) Đặt w (c) = k ({c}, D) với c ! C trọng số c Thuật tốn Tính xấp xỉ XE X không gian Apr = (U, E) Input Tập đối tượng U; phân hoạch E = {E1, E2, , Ek}; X U Output xấp xỉ XE X Apr = (U, E) Algorithm XE = z for i = to k thực if Ei X XE = XE , Ei Thuật tốn có độ phức tạp O(k) Thuật tốn Thuật tốn tìm phân họach U/B Input Hệ tin S = (U, A), B A; Card(B) = j Output U / B = {E1, E2, , Ek} Algoritm Coi đối tượng o U tập thuộc tính B véc tơ o[B] từ tập V: o[B] = (v1, v2, , vj); Sắp xếp U theo thứ tự từ điển B; Đặt E = {E1, E2, , Ek} họ nhóm sau xếp ta phân hoạch cần tìm Chú ý: Phép xếp m từ có độ dài Card(B) với độ phức tạp O (Card (B) m log m) Nếu đặt Card(U) Khoa học & Công nghệ - Số 10/Tháng - 2016 = m, Card(B) = k ta có độ phức tạp thuật toán O (k m log m) Thuật tốn Thuật tốn tìm k(C, D) Input Hệ định T = (U, C , D) ; Card(U) = m; Card(C) = n; Card(D) = l Ouput k(C,D) Algorithm Tính U/C ta U/C ={X1, X2, , Xk}=E Tính U/D ta U/D = {Y1, Y2, , Yk} POS = z for i = to l thực Begin Tính xấp xỉ (Yi)E Yi khơng gian Apr = (U, U / C) = (U, E) POS = POS , (Yi ) E End Tính k (C, D) = POS/Card (U) Chú ý: Theo nguyên lý cộng độ phức tạp thuật toán O (nm log m) với n = Card (C); m = Card (U) Thuật tốn Tính rút gọn R dựa vào tập thuộc tính bất khả phân biệt Input Hệ định T = (U, C , D) Output R rút gọn C Algorithm Tính nửa ma trận phân biệt M = (tij) với j > i tij = {c ! C: oi[c] = oj[c]} Đặt Mmax họ tập cực đại M (phần tử cực đại M phần tử không bị chứa phần tử khác M) Đặt R = C for each c ! R if R\{c} không tập phần tử Mmax R = R\{c} Kết thúc vịng lặp ta có rút gọn C Chú ý: Bước thuật toán ta có thời gian tính ma trận O(m2) Bước có thời gian tính O(m) Ở bước thời gian tính O(n) Theo nguyên lý cộng thời gian tính hay độ phức tạp thuật tốn O (max {m2 , n}) Độ phức tạp phụ thuộc vào hệ định có tập đối tượng lớn hay tập thuộc tính lớn Đặt l = max {m2 , n} với n = Card (C); m = Card (U) ; độ phức tạp thuật tốn O(l) Kết luận Trong viết chúng tơi giới thiệu số nghiên cứu, tính chất có tính hệ thống, vùng dương, độ phụ thuộc, ràng buộc tập thuộc tính hệ tin, hệ định, sở làm để tính rút gọn Đồng thời viết minh chứng hệ tin đa trị (a set-value information system) xét hệ tin đơn trị Journal of Science and Technology 67 ISSN 2354-0575 Tài liệu tham khảo [1] Guangming Lang, Quingguo Li, Data Compression of Dynamic Set-valued Inforrmation Systems, arXiv: 1209.6509v1 [cs.IT] 28 Sep 2012 [2] Acuna, E (2003), A Comparison of Filters and Wrappers for Feature Selection in Supervised Classification, R Package 1.0 http://Math.uprm.edu/~edgar/dprep.html Accessed on February 17, 2006 [3] Chen, D., Cui, D., Wang, C., Wang, Z (2006), A Rough Set-Based Hierarchical Clustering Algorithm for Categorical Data, International Journal of Information Technology, Vol 12, No.3, pp 149-159 [4] Deogun, J., Choubey, S., Raghavan, V and Sever, H (1998), Feature Selection and Effective Classifers, Journal of ASIS 49,5, pp 403-414 [5] Geng, L and Hamilton, H J (2002) ESRS, A Case Selection Algorithm Using Extended Semilarity-based Rough Sets, Second IEEE International Coference on data Mining (ICDM’20) [6] Grochowski, M and Jankowski, N ( 2004), Comparison of the Instance Selection Algorithms II.Results and Comments, In: ICAISC 2004, L Rutkowski et al (Eds.), LNAI 3070, pp 580-585, 2004 [7] Han, J., Hu,X., Lin, T.Y, Feature Subset Selection Based on Relative Dependenccy between Attributes, Rough Sets and Current Trends in Computing 2004, pp 176-185 [8] Hu, K., Lu, Y and Shi, C (2003), Feature ranking in Rough Set, AI Communications, pp 41-50 [9] Jensen, R and Shen, Q (2003), Finding Rough Set Reducts with Ant Colony Optimization, Proceeding of the 2001 UK Workshop on computational intelligence, 69-74 [10] Jensen, R and Shen, Q (2004), Fuzzy-Rough Set Attribute Reduction with Application to Web Categorization, Fuzzy Sets and System, vol.141, no 3, pp 469-485 [11] Shen, Q and Chouchooulas, A (2001), Rough Set-based Dimensionality Reduction for Supervised and Unsupervised Learning, Int J Applied Mathematics Computational Science Vo 11, N 3, pp 583-601 [12] Z Pawlak (1991), Rough Sets: Theoretical Aspect of Reasoning about Data ALGORITHMS FINDING REDUCTIONS FOR A SINGLE AND A SET-VALUE INFORMATION SYSTEM USING THE CONCEPT OF POSITIVE REGION Abstract: This paper studies some concepts and properties of positive region of Pawlak’s rough set Consequently, we propose some constraints among attributes, especially among conditional attributes which are in decision systems We then introduce algorithms to find the reductions for both a single and a set-value information system Furthermore, we will prove that in the proposed algorithm a set-value information system can be considered as a single information system Keywords: Rough set, positive region, information system, decision systems, data mining 68 Khoa học & Công nghệ - Số 10/Tháng - 2016 Journal of Science and Technology ... tính hệ thống, vùng dương, độ phụ thuộc, ràng buộc tập thuộc tính hệ tin, hệ định, sở làm để tính rút gọn Đồng thời viết minh chứng hệ tin đa trị (a set-value information system) xét hệ tin đơn trị. .. trực tiếp từ định nghĩa vùng dương xấp xỉ Tính chất Vùng dương rút gọn R D vùng dương C D Cho hệ định T = (U, C , D) Nếu R rút gọn C POS(R, D) = POS(C, D) Chứng minh: Giả sử P = U/D = {P1, P2,... cộng độ phức tạp thuật toán O (nm log m) với n = Card (C); m = Card (U) Thuật tốn Tính rút gọn R dựa vào tập thuộc tính bất khả phân biệt Input Hệ định T = (U, C , D) Output R rút gọn C Algorithm

Ngày đăng: 28/04/2021, 03:05