Trình bày về bảng quyết định đầy đủ, bảng quyết định không đầy đủ, mô hình tập thô truyền thống, mô hình tập thô dung sai và cuối cùng là thuật toán rút gọn thuộc tính trong bảng quyết định đầy đủ.
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
Chƣơng 2. RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ
2.1 Giới thiệu
Dữ liệu trong thực tế thƣờng không đầy đủ, dƣ thừa hoặc không chính xác, gây ảnh hƣởng không tốt trong quá trình phát hiện tri thức từ dữ liệu. Ý tƣởng “rút gọn” đƣợc sử dụng cho phép loại bỏ những thông tin dƣ thừa mà vẫn giữ đƣợc đầy đủ ý nghĩa của tập dữ liệu đang xét. Vì vậy, việc tìm tập rút gọn của bảng quyết định không đầy đủ đƣợc đặt ra là hoàn toàn tự nhiên và cần thiết. Cũng đã thu đƣợc một số kết quả khi nghiên cứu về vấn đề này trên bảng quyết định đầy đủ. Tiếp nối cho những kết quả trƣớc đây, em mở rộng nghiên cứu, tìm hiểu tập rút gọn trên bảng quyết định thiếu thông tin. Cụ thể, trong luận văn này em sẽ trình bày một thuật toán heuristic tìm tập rút gọn tốt nhất của bảng quyết định không đầy đủ.
Trong chƣơng 1 đã trình bày, hệ thông tin không đầy đủ là hệ thông tin có giá trị thiếu trên miền giá trị thuộc tính. Từ mô hình tập thô dung sai trên hệ thông tin
không đầy đủ do Marzena Kryszkiewicz [6]đề xuất, nhiều nhóm nhà khoa học trên
thế giới đã quan tâm nghiên cứu các độ đo không chắc chắn và đề xuất các phƣơng pháp tìm tập rút gọn. Trong hệ thông tin không đầy đủ: Jiye Liang và các cộng sự [8] đề xuất thuật toán tìm tập rút sử dụng entropy thô với độ phức tạp O(|A|2|U|). Trên bảng quyết định không đầy đủ: Huang Bing và các cộng sự đề xuất thuật toán tìm tập rút gọn sử dụng độ đo lƣợng thông tin của tri thức với độ phức tạp O(|C|- 3
|U|2); Huang Bing, Zhou Xian Zhong và các cộng sự đề xuất thuật toán tìm tập rút
gọn sử dụng ma trận dung sai với độ phức tạp O(|C|3|U|2).
Nhƣ đã trình bày ở trên, kỹ thuật sử dụng metric đã đƣợc sử dụng hiệu quả vào việc giải quyết bài toán rút gọn thuộc tính trong bảng quyết định đầy đủ. Trong bảng quyết định không đầy đủ, Yuhua Qian và các cộng sự đã đề xuất một số khái niệm về khoảng cách tri thức giữa các lớp dung sai và chứng minh một số tính chất
Số hóa bởi Trung tâm Học liệu http://www.lrc-tnu.edu.vn/
của chúng. Tuy nhiên, các kết quả nghiên cứu về việc sử dụng metric để giải quyết bài toán rút gọn thuộc tính trong bảng quyết định không đầy đủ còn hạn chế.
Chƣơng này tìm hiểu Entropy Liang mở rộng trong hệ thông tin không đầy đủ dựa trên entropy Liang trong hệ thông tin đầy đủ và tìm hiểu một metric trên họ các phủ dựa trên entropy Liang mở rộng. Sử dụng metric đƣợc xây dựng, chƣơng này trình bày một phƣơng pháp rút gọn thuộc tính trong bảng quyết định không đầy đủ.
Nội dung đƣợc trình bày trong chƣơng 2 chủ yếu đƣợc nghiên cứu, tìm hiểu ở tài liệu [4].