1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ
1.4.3. Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ
Trong bối cảnh hiện nay, các bảng quyết định thường có kích thước lớn và luôn thay đổi, cập nhật. Việc áp dụng các thuật toán tìm tập rút gọn theo tiếp cận tập thô truyền thống và các mô hình tập thô mở rộng gặp nhiều thách thức. Trường hợp các bảng quyết định bị thay đổi, các thuật toán này tính lại tập rút gọn trên toàn bộ bảng quyết định sau khi thay đổi nên chi phí về thời gian tính toán tăng lên đáng kể.
Trường hợp bảng quyết định có kích có thước lớn, việc thực hiện thuật toán trên toàn bộ bảng quyết định sẽ gặp khó khăn về thời gian thực hiện. Do đó, việc chia nhỏ bảng quyết định để tìm tập rút gọn trên từng phần là giải pháp đặt ra. Tuy nhiên, việc tính toán tập rút gọn dựa vào các tập rút gọn của từng phần là vấn đề cần giải quyết. Vì vậy, các nhà nghiên cứu đề xuất hướng tiếp cận tính toán gia tăng tìm tập rút gọn. Với trường hợp bảng quyết định bị thay đổi, thuật toán gia tăng không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã có dựa
trên thành phần dữ liệu bị thay đổi. Với trường hợp bảng quyết định có kích thước lớn, thuật toán gia tăng tìm tập rút gọn trên một thành phần bị chia nhỏ, sau đó thực hiện cập nhật lại tập rút gọn khi bổ sung các thành phần còn lại. Về lý thuyết, thuật toán gia tăng có khả năng giảm thiểu thời gian thực hiện và có khả năng thực hiện trên các bảng quyết định kích thước lớn.
1.4.3.1. Các n hiên cứu liên quan đến phươn pháp ia tăn tìm tập rút ọn theo tiếp cận tập thô truyền thốn và tập thô dun sai
Theo tiếp cận tập thô truyền thống và tập thô dung sai, các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi khá sôi động và tập trung vào các trường hợp: bổ sung và loại bỏ đối tượng; bổ sung và loại bỏ thuộc tính; cập nhật tập đối tượng.
Với trường hợp bổ sung một đối tượng, Guan [56] đề xuất thuật toán gia tăng tìm tập rút gọn sử dụng ma trận phân biệt. Liu [102] đề xuất thuật toán gia tăng tìm tập rút gọn tối thiểu của hệ thông tin. Hu và các cộng sự [36] đề xuất thuật toán gia tăng tìm tập rút gọn sử dụng miền dương. Sau đó, Hu và các cộng sự [37] đề xuất thuật toán gia tăng tìm tất cả các tập rút gọn sử dụng ma trận phân biệt mở rộng.
Yang và các cộng sự [96] đề xuất thuật toán gia tăng tìm tập rút gọn dựa trên việc cập nhật ma trận phân biệt. Zhang và các cộng sự [20] đề xuất thuật toán gia tăng tìm tập lõi sử dụng ma trận phân biệt. Chen và các cộng sự [28] đề xuất thuật toán gia tăng tìm tập rút gọn dựa trên mô hình tập thô độ chính xác thay đổi sử dụng chiến lược thêm, xóa tập thuộc tính. Li và các cộng sự [66] đề xuất phương pháp gia tăng tìm tập rút gọn dựa trên mô hình tập thô láng giềng gần nhất.
Với trường hợp bổ sung tập đối tượng, Liang và cộng sự [49] xây dựng các công thức gia tăng tính entropy Shannon, entropy Liang và Entropy kết hợp. Trên cơ sở đó, các tác giả xây dựng các thuật toán gia tăng tìm tập rút gọn. Shu và các cộng sự [86] xây dựng thuật toán gia tăng tìm tập rút gọn trong bảng quyết định không đầy đủ dựa vào công thức gia tăng tính miền dương.
Với trường hợp bổ sung và loại bỏ tập đối tượng, Jing và các cộng sự [95] đề xuất công thức tính toán gia tăng hạt thông tin, từ đó xây dựng các thuật toán gia tăng tìm tập rút gọn.
Với trường hợp bổ sung tập thuộc tính, Wang và các cộng sự [38] phát triển các thuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng các công thức entropy Shannon, entropy Liang và Entropy kết hợp.
Với trường hợp bổ sung và loại bỏ tập thuộc tính, Liu và các cộng sự [31] xây dựng các công thức tính toán gia tăng các tập xấp xỉ dưới, xấp xỉ trên trong mô hình tập thô xác xuất. Shu và các cộng sự [87] đề xuất hai thuật toán gia tăng cập nhật tập rút gọn dựa trên tính toán gia tăng miền dương trong bảng quyết định không đầy đủ. Các tác giả trong [54, 83] đề xuất thuật toán gia tăng tìm các tập rút gọn xấp xỉ.
Với hợp cập nhật tập đối tượng, Wang và các cộng sự [39] xây dựng các công thức tính toán gia tăng entropy Shannon, entropy Liang và Entropy kết hợp, trên cơ sở đó đề xuất các thuật toán gia tăng tìm tập rút gọn. Shu và các cộng sự [86, 88]
phát triển thuật toán gia tăng tìm tập rút gọn dựa trên việc tính toán gia tăng lớp dung sai và miền dương trong bảng quyết định không đầy đủ.
Mới đây, Wei và các cộng sự [89] đề xuất phương pháp gia tăng tính các ma trận phân biệt, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn dựa trên ma trận phân biệt.
Sử dụng độ đo khoảng cách, các tác giả trong [24, 65] đã xây dựng các công thức gia tăng tính toán khoảng cách, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung, loại bỏ tập thuộc tính. Trong các thuật toán gia tăng đã trình bày ở trên, các tác giả đều xây dựng các công thức gia tăng tính toán độ đo. Sử dụng độ đo, các tác giả xây dựng các thuật toán gia tăng tìm tập rút gọn theo tiếp cận heuristic. Các thuật toán này không tính lại tập rút gọn trên toàn bộ bảng quyết định mà chỉ nhật lại tập rút gọn đã có dựa trên thành phần dữ liệu bị thay đổi. Kết quả thực nghiệm cho thấy các thuật toán gia tăng giảm thiểu đáng kể thời gian thực hiện so với các thuật toán không gia tăng.
4 3 Các n hiên cứu liên quan đến phươn pháp ia tăn tìm tập rút ọn theo tiếp cận tập thô mờ
Trong mấy năm gần đây, một số nhóm nghiên cứu đã đề xuất các thuật toán gia tăng tìm tập rút gọn trên bảng quyết định thay đổi theo tiếp cận tập thô mờ.
Zeng và các cộng sự [15] giới thiệu mô hình tập thô mờ trên hệ thông tin hỗn hợp (HIS), trong đó quan hệ mờ được xây dựng dựa trên hàm nhân Gaussian. Dựa trên các công thức tính gia tăng quan hệ mờ, các tác giả xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc mờ trong trường hợp bổ sung và loại bỏ một thuộc tính (tương ứng là FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD). Thực nghiệm trên các tập dữ liệu mẫu cho thấy, thời gian thực hiện của các thuật toán gia tăng nhỏ hơn thuật toán không gia tăng (FRSA-NFS-HIS).
Với trường hợp tập thuộc tính thay đổi giá trị, Zeng và các cộng sự [15, 16]
xây dựng thuật toán gia tăng tính các tập xấp xỉ trên mờ, xấp xỉ dưới mờ của HIS (IUAFRS-VCAV và IUAFRS-VDAV). Các thuật toán gia tăng này có thời gian thực hiện nhỏ hơn thuật toán không gia tăng NIUAFRS trên các bộ số liệu thử nghiệm.
Với trường hợp bổ sung tập đối tượng, Yang và các cộng sự [98] xây dựng công thức tính toán gia tăng quan hệ phân biệt trong tập thô mờ, trên cơ sở đó xây dựng thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt. Thời gian thực hiện của thuật toán gia tăng IARM giảm thiểu đáng kể so với thuật toán không gia tăng RDRAR. Yang và các cộng sự [99] đề xuất hai phiên bản của thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung tập đối tượng: thuật toán V- FS-FRS-1 và V-FS-FRS-2. Cả hai thuật toán đều sử dụng quan hệ phân biệt trong tập thô mờ. Thử nghiệm trên một số bộ số liệu mẫu cho thấy, các thuật toán gia tăng V-FS-FRS-1, V-FS-FRS-2 hiệu quả hơn một số thuật toán không gia tăng theo tiếp cận tập thô mờ: thuật toán sử dụng quan hệ phân biệt, thuật toán sử dụng độ phụ thuộc mờ, thuật toán sử dụng entropy mờ. Liu và các cộng sự [97] xây dựng công thức tính gia tăng độ phụ thuộc mờ trong trường hợp bổ sung tập đối tượng, trên cơ sở đó xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc mờ FIAR.
Thuật toán gia tăng FIAR hiệu quả hơn thuật toán không gia tăng NonIAR về thời gian thực hiện trên một số bộ dữ liệu thử nghiệm.
4 3 3 Các vấn đề còn tồn tại
1) Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu trên có thời gian thực hiện nhỏ hơn đáng kể các thuật toán không gia tăng và có thể thực thi trên các bảng dữ liệu kích thước lớn. Tuy nhiên, các thuật toán nêu trên đều theo hướng tiếp cận lọc truyền thống (filter). Trong đó, tập rút gọn tìm được là tập thuộc tính tối thiểu bảo toàn độ đo được định nghĩa (độ phụ thuộc mờ, quan hệ phân biệt…), việc đánh giá độ chính xác phân lớp được thực hiện sau khi tìm được tập rút gọn. Vì vậy, tập rút gọn tìm được của các thuật toán nêu trên chưa tối ưu cả về số lượng thuộc tính và độ chính xác phân lớp, nghĩa là tập rút gọn tìm được chưa chắc có độ chính xác phân lớp tốt nhất.
2) Các nghiên cứu liên quan đến phương pháp gia tăng được trình bày ở mục 1.4.3.2 đã giải quyết bài toán rút gọn thuộc tính trong trường hợp bổ sung tập đối tượng, bổ sung và loại bỏ tập thuộc tính, cập nhật tập thuộc tính, chưa giải quyết bài toán xóa bỏ tập đối tượng.
4 4 Các đề xuất của luận án
Động lực nghiên cứu của luận án là xây dựng các công thức khoảng cách mờ hiệu quả với công thức tính toán đơn giản và sử dụng khoảng cách mờ để giải quyết bài toán rút gọn thuộc tính. Như trình bày ở mục 1.4.3.1, công bố [24, 65] cho thấy khoảnh cách là độ đo hiệu quả sử dụng trong các phương pháp gia tăng tìm tập rút gọn của bảng quyết định. Do đó, với hướng nghiên cứu này, luận án sử dụng độ đo khoảng cách mờ để xây dựng các thuật toán gia tăng tìm tập rút gọn trong trường hợp bổ sung, loại bỏ tập đối tượng. Các thuật toán đề xuất theo tiếp cập lai filter- wrapper nhằm tìm tập rút gọn tối ưu cả về độ chính xác phân lớp và số lượng thuộc tính, khắc phục các nhược điểm chung của các phương pháp gia tăng đã công bố.