7. Bố cục của luận văn
1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập dung sai
1.4.1. Rút gọn thuộc tính theo tiếp cận tập thơ dung sai
1.4.1.1. Các nghiên cứu liên quan
Trong hai thập kỷ vừa qua đã chứng kiến sự phát triển mạnh mẽ và sôi động của lĩnh vực nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thơ dung sai. Nhiều nhóm nhà khoa học trên thế giới và tại Việt Nam đã đề xuất các thuật tốn rút gọn thuộc tính hiệu quả trong bảng quyết định không đầy đủ sử dụng các độ đo khác nhau như miền dương, entropy thông tin, lượng thông tin, ma trận phân biệt, hàm phân biệt, khoảng cách…Bảng 2.1 liệt kê các nghiên cứu liên quan đến các thuật tốn heuristic tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai.
Bảng 1.2. Các thuật tốn tìm tập rút gọn của bảng quyết định không đầy đủ theo
tiếp cận tập thô dung sai
STT Cơng bố, năm xuất bản Thuật tốn
1) Miền dương 1 • Hu và các cộng sự [6], 2017. • Xu và các cộng sự [9], 2013. • Peng và các cộng sự [5], 2010. • Meng và các cộng sự [8], 2009. Các thuật tốn tìm tập rút gọn sử dụng miền dương mở rộng 2 • Qian và các cộng sự [7], 2011. Thuật tốn tìm tập rút gọn sử dụng miền dương xấp xỉ
2) Ma trận phân biệt, hàm phân biệt
3 • Ma và các cộng sự [10], 2017. • Vu Van Dinh, Nguyen Long
Giang [14], 2013.
Các thuật toán sử dụng ma trận phân biệt, hàm phân biệt mở rộng.
4 • Zou và các cộng sự [11], 2012. • Tan và các cộng sự [15], 2010. • Xu và các cộng sự [16], 2009.
Các thuật tốn tìm tập rút gọn sử dụng ma trận phân biệt, ma trận gán
5 • Zhou và các cộng sự [13], 2009. Thuật tốn tìm tập rút gọn sử dụng ma trận tương tự
6 • Li và các cộng sự [12], 2010. Thuật tốn tìm tập rút gọn sử dụng ma trận nhị phân
3) Entropy thơng tin
7 • Tao và các cộng sự [23], 2017. • Yue và các cộng sự [17], 2015. • Xu và các cộng sự [37], 2013. • Dai và các cộng sự [20], 2013. • Sun và các cộng sự [21], 2012. Các thuật tốn tìm tập rút gọn sử dụng entropy thơng tin mở rộng.
8 • Qian và các cộng sự [22], 2015. Thuật tốn tìm tập rút gọn sử dụng entropy tương hỗ mở rộng
4) Độ đo lượng thông tin, hạt thông tin
9 • Xu và các cộng sự [25], 2019. • Xu và các cộng sự [26], 2012.
Các thuật tốn tìm tập rút gọn sử dụng lượng thơng tin mở rộng 10 • Sai Prasad và các cộng sự [24], 2012. Thuật tốn tìm tập rút gọn sử dụng hạt thông tin mở rộng 5) Độ đo khoảng cách 11 • Vu Van Dinh và các cộng sự [28], 2015.
• Long Giang Nguyen, Hung Son Nguyen [27], 2013.
Các thuật tốn tìm tập rút gọn sử dụng độ đo khoảng cách
6) Các độ đo khác
12 • Xie và các cộng sự [31], 2018. Thuật tốn tìm tập rút gọn sử dụng độ đo khơng nhất qn.
13 • Shu và các cộng sự [29], 2014. Thuật tốn tìm tập rút gọn sử dụng quan hệ khơng phân biệt được 14 • Zhao và các cộng sự [18], 2014. Các thuật tốn tìm tập rút gọn sử
dụng hàm quyết định suy rộng, entropy dựa trên quan hệ dung sai lân
cận.
15 • Meng và các cộng sự [38], 2012. So sánh, đánh giá các thuật tốn heuristic tìm tập rút gọn
16 • Dai và các cộng sự [30], 2010. Thuật tốn tìm tập rút gọn sử dụng độ bao phủ của thuộc tính
17 • Qian và các cộng sự [39], 2010. • Nguyen Long Giang và các cộng
sự [40], 2013.
Nghiên cứu về các tập rút gọn và mối quan hệ giữa chúng.
1.4.1.2. Các vấn đề cịn tồn tại
Các thuật tốn tìm tập rút gọn đều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mơ hình phân lớp dựa trên các tiêu chí: giảm thiểu tối đa số thuộc tính tập rút gọn để giảm thiểu độ phức tạp của mơ hình và nâng cao độ chính xác của mơ hình. Các thuật tốn đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác của mơ hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.
1.4.1.3. Động lực nghiên cứu của luận văn
Trong các độ đo được sử dụng trong các thuật toán trong Bảng 2.1, khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài tốn rút gọn thuộc tính trong bảng quyết định khơng đầy đủ [27], [28]. Động lực nghiên cứu là nghiên cứu, tìm hiểu các thuật tốn tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng độ đo khoảng cách nhằm giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo tồn và cải thiện độ chính xác mơ hình phân lớp.