Rút gọn thuộc tính theo tiếp cận tập thơ dung sai- 123docz.net

7. Bố cục của luận văn

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập dung sai

1.4.1. Rút gọn thuộc tính theo tiếp cận tập thơ dung sai

1.4.1.1. Các nghiên cứu liên quan

Trong hai thập kỷ vừa qua đã chứng kiến sự phát triển mạnh mẽ và sôi động của lĩnh vực nghiên cứu về rút gọn thuộc tính theo tiếp cận tập thơ dung sai. Nhiều nhóm nhà khoa học trên thế giới và tại Việt Nam đã đề xuất các thuật tốn rút gọn thuộc tính hiệu quả trong bảng quyết định không đầy đủ sử dụng các độ đo khác nhau như miền dương, entropy thông tin, lượng thông tin, ma trận phân biệt, hàm phân biệt, khoảng cách…Bảng 2.1 liệt kê các nghiên cứu liên quan đến các thuật tốn heuristic tìm tập rút gọn của bảng quyết định không đầy đủ theo tiếp cận tập thô dung sai.

Bảng 1.2. Các thuật tốn tìm tập rút gọn của bảng quyết định không đầy đủ theo

tiếp cận tập thô dung sai

STT Cơng bố, năm xuất bản Thuật tốn

1) Miền dương 1 • Hu và các cộng sự [6], 2017. • Xu và các cộng sự [9], 2013. • Peng và các cộng sự [5], 2010. • Meng và các cộng sự [8], 2009. Các thuật tốn tìm tập rút gọn sử dụng miền dương mở rộng 2 • Qian và các cộng sự [7], 2011. Thuật tốn tìm tập rút gọn sử dụng miền dương xấp xỉ

2) Ma trận phân biệt, hàm phân biệt

3 • Ma và các cộng sự [10], 2017. • Vu Van Dinh, Nguyen Long

Giang [14], 2013.

Các thuật toán sử dụng ma trận phân biệt, hàm phân biệt mở rộng.

4 • Zou và các cộng sự [11], 2012. • Tan và các cộng sự [15], 2010. • Xu và các cộng sự [16], 2009.

Các thuật tốn tìm tập rút gọn sử dụng ma trận phân biệt, ma trận gán

5 • Zhou và các cộng sự [13], 2009. Thuật tốn tìm tập rút gọn sử dụng ma trận tương tự

6 • Li và các cộng sự [12], 2010. Thuật tốn tìm tập rút gọn sử dụng ma trận nhị phân

3) Entropy thơng tin

7 • Tao và các cộng sự [23], 2017. • Yue và các cộng sự [17], 2015. • Xu và các cộng sự [37], 2013. • Dai và các cộng sự [20], 2013. • Sun và các cộng sự [21], 2012. Các thuật tốn tìm tập rút gọn sử dụng entropy thơng tin mở rộng.

8 • Qian và các cộng sự [22], 2015. Thuật tốn tìm tập rút gọn sử dụng entropy tương hỗ mở rộng

4) Độ đo lượng thông tin, hạt thông tin

9 • Xu và các cộng sự [25], 2019. • Xu và các cộng sự [26], 2012.

Các thuật tốn tìm tập rút gọn sử dụng lượng thơng tin mở rộng 10 • Sai Prasad và các cộng sự [24], 2012. Thuật tốn tìm tập rút gọn sử dụng hạt thông tin mở rộng 5) Độ đo khoảng cách 11 • Vu Van Dinh và các cộng sự [28], 2015.

• Long Giang Nguyen, Hung Son Nguyen [27], 2013.

Các thuật tốn tìm tập rút gọn sử dụng độ đo khoảng cách

6) Các độ đo khác

12 • Xie và các cộng sự [31], 2018. Thuật tốn tìm tập rút gọn sử dụng độ đo khơng nhất qn.

13 • Shu và các cộng sự [29], 2014. Thuật tốn tìm tập rút gọn sử dụng quan hệ khơng phân biệt được 14 • Zhao và các cộng sự [18], 2014. Các thuật tốn tìm tập rút gọn sử

dụng hàm quyết định suy rộng, entropy dựa trên quan hệ dung sai lân

cận.

15 • Meng và các cộng sự [38], 2012. So sánh, đánh giá các thuật tốn heuristic tìm tập rút gọn

16 • Dai và các cộng sự [30], 2010. Thuật tốn tìm tập rút gọn sử dụng độ bao phủ của thuộc tính

17 • Qian và các cộng sự [39], 2010. • Nguyen Long Giang và các cộng

sự [40], 2013.

Nghiên cứu về các tập rút gọn và mối quan hệ giữa chúng.

1.4.1.2. Các vấn đề cịn tồn tại

Các thuật tốn tìm tập rút gọn đều hướng tới mục tiêu là tìm được tập rút gọn hiệu quả nhất để thực thi mơ hình phân lớp dựa trên các tiêu chí: giảm thiểu tối đa số thuộc tính tập rút gọn để giảm thiểu độ phức tạp của mơ hình và nâng cao độ chính xác của mơ hình. Các thuật tốn đã đề xuất được trình bày trong Bảng 1.2 nêu trên đều là các thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa là tập rút gọn thu được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa. Việc đánh giá độ chính xác của mơ hình phân lớp được thực hiện sau khi tìm được tập rút gọn. Do đó, tập rút gọn của các thuật toán filter nêu trên chưa tối ưu về số lượng thuộc tính và độ chính xác phân lớp.

1.4.1.3. Động lực nghiên cứu của luận văn

Trong các độ đo được sử dụng trong các thuật toán trong Bảng 2.1, khoảng cách được chứng minh là độ đo hiệu quả giải quyết bài tốn rút gọn thuộc tính trong bảng quyết định khơng đầy đủ [27], [28]. Động lực nghiên cứu là nghiên cứu, tìm hiểu các thuật tốn tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng độ đo khoảng cách nhằm giảm thiểu số lượng thuộc tính tập rút gọn, trong khi cố gắng bảo tồn và cải thiện độ chính xác mơ hình phân lớp.

Rút gọn thuộc tính theo tiếp cận tập thơ dung sai

chính xác phân lớp của ba thuật toán

Tiền xử lý dữ liệu