Khái niệm tập rút gọn và thuật toán 2.2 như đã trình bày tại mục con 2.2.1 cung cấp các nội dung nền tảng theo cách tiếp cận rút gọn thuộc tính với yêu cầu tập rút gọn bảo đảm đầy đủ hiệu năng như tập toàn bộ các thuộc tính khi xử lý dữ liệu. Phụ thuộc xấp xỉ (approximative dependent, hay phụ thuộc bộ phận: partially dependent) như trình bày dưới đây cung cấp các nội dung nền tảng cho cách tiếp cận rút gọn thuộc tính đảm bảo "một mức độ nào đó" hiệu năng xử lý dữ liệu.
Định nghĩa 2.6. (Độ phụ thuộc xấp xỉ)
Cho X và Y là các tập con của tập thuộc tính A. Ta nói rằng độ phụ thuộc của Y vào X là k ký hiệu X kY, nếu:
k=(X,Y) = POSX( )Y U hay / | ( ) | | | Z U Y X Z k U
Khi k1, ta nói rằng Y phụ thuộc bộ phận vào X (với độ phụ thuộc k ). Khi 1,
k Y được gọi là phụ thuộc hoàn toàn vào X, và ký hiệu đơn giản X Y. Rõ ràng, Y phụ thuộc hoàn toàn vào X nếu phụ thuộc hàm X xác định Y là đúng trên hệ thông tin (bảng quyết định) đã cho, tức là với mọi cặp đối tượng
, , ( ) ( )
u v U u X v X suy ra u Y( )v Y( ). Vì vậy trong trường hợp k1, chúng ta cũng nói rằng tồn tại phụ thuộc xấp xỉ X xác định Y trên U với độ sai số 1 k.
Gần đây, Feng Wang và cộng sự [65] đề xuất ba thuật toán rút gọn thuộc tính trong hệ thông tin, bao gồm (i) Thuật toán CAR rút gọn thuộc tính dựa trên entropy thông tin trong bảng quyết định, (ii) Thuật toán ACOREX' tính toán tập CORE và tìm tập thuộc tính rút gọn trong bảng quyết định động (tập giá trị thuộc tính được cập nhật); và (iii) Thuật toán AREDX' tính toán rút gọn đối với bảng quyết định
động. Các thuật toán được trình bày tại Chương 4 của luận án bao gồm các nội dung tương ứng với cách tiếp cận các thuật toán này.