Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 31 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
31
Dung lượng
1,12 MB
Nội dung
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - HỒ THỊ PHƯỢNG PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI THEO TIẾP CẬN TẬP THƠ MỜ Chun ngành: Khoa học máy tính Mã số: 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH Hà Nội - 2021 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Vào hồi… ngày tháng năm 20 Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Rút gọn thuộc tính tốn quan trọng bước tiền xử lý liệu trình khai phá tri thức từ liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa, khơng cần thiết nhằm nâng cao tính hiệu mơ hình khai phá liệu Rút gọn thuộc tính bảng định trình lựa chọn tập nhỏ tập thuộc tính điều kiện, loại bỏ thuộc tính dư thừa mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn (reduct) Kết rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Cho đến nay, có hai hướng tiếp cận tốn lựa chọn thuộc tính: Lọc (filter) đóng gói (wrapper) Cách tiếp cận fifter thực việc lựa chọn thuộc tính độc lập với thuật tốn khai phá sử dụng sau Các thuộc tính chọn dựa độ quan trọng chúng việc mơ tả liệu Trong đó, cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Lý thuyết tập thơ mờ (fuzzy rough set) Dübois cộng [1] đề xuất cơng cụ hiệu giải tốn rút gọn thuộc tính trực tiếp bảng định gốc không qua bước tiền xử lý liệu nhằm nâng cao hiệu độ xác mơ hình phân lớp Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ đề xuất, điển hình phương pháp sử dụng hàm thuộc mờ [2, 3, 4], phương pháp sử dụng miền dương mờ [5, 6], phương pháp sử dụng entropy mờ [7, 8, 9], phương pháp sử dụng khoảng cách mờ [10, 11, 12] số phương pháp khác [13, 14, 15, 16, 17, 18] Trong xu liệu lớn (Big data) nay, bảng định ngày có số thuộc tính lớn, ví dụ bảng liệu lĩnh vực tin sinh học có hàng triệu thuộc tính Hơn nữa, bảng định luôn thay đổi, cập nhật với tình bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Để xây dựng mơ hình phân lớp hiệu quả, ta cần giải tốn rút gọn thuộc tính bảng định kích thước lớn thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyền thống bảng định gặp hai thách thức Thứ nhất, với bảng định có kích thước lớn, việc thực thuật tốn tìm tập rút gọn gặp khó khăn khơng gian lưu trữ tốc độ tính tốn Thứ hai, với bảng định thay đổi, cập nhật, thuật toán phải tính tốn lại tập rút gọn tồn bảng định sau thay đổi, chi phí thời gian tính tốn tăng lên đáng kể Để giải hai thách thức trên, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn Các thuật tốn gia tăng cập nhật lại tập rút gọn phần liệu bị thay đổi mà khơng tính lại tập rút gọn toàn bảng định ban đầu Do đó, chúng giảm thiểu đáng kể thời gian thực Hơn nữa, thuật tốn gia tăng thực bảng định kích thước lớn giải pháp chia nhỏ bảng định thành nhiều phần, tập rút gọn tính bổ sung phần Hướng tiếp cận tính tốn gia tăng tìm tập rút gọn bảng định thu hút quan tâm nhà nghiên cứu suốt thập kỷ qua Theo tiếp cận lý thuyết tập thô truyền thống Pawlak [19] mơ hình tập thơ mở rộng, nhà nghiên cứu đề xuất nhiều thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt [37], entropy thông tin [38], độ đo khơng qn [39], lựa chọn mẫu kích hoạt [40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, số thuật tốn gia tăng tìm tập rút gọn đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc thuộc tính [49], hạt tri thức [50, 51] Theo tiếp cận tập thô mờ [1], năm gần số thuật tốn gia tăng tìm tập rút gọn bảng định đề xuất với trường hợp: bổ sung loại bỏ tập đối tượng [52, 53, 54, 55, 56, 57], bổ sung loại bỏ tập thuộc tính [58] Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu cộng [52] xây dựng cơng thức gia tăng tính độ phụ thuộc mờ đề xuất thuật tốn giăng FIAT tìm tập rút gọn bổ sung tập đối tượng Yang cộng [53] xây dựng cơng thức gia tăng tính quan hệ phân biệt, sở xây dựng thuật tốn gia tăng IARM tìm tập rút gọn bổ sung tập đối tượng Yang cộng [54] xây dựng chế cập nhật quan hệ phân biệt đề xuất hai thuật tốn IV-FSFRS-1 IV-FS-FRS-2 tìm tập rút gọn trường hợp bổ sung tập đối tượng Zhang cộng [56] đề xuất thuật tốn gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trường hợp bổ sung tập đối tượng Ni cộng [57] đưa khái niệm tập đối tượng (key instance set), sở xây dựng hai thuật tốn gia tăng tìm tập rút gọn dựa tập đối tượng trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc mờ thuật toán PIAR sử dụng miền dương mờ Với trường hợp bổ sung, loại bỏ tập thuộc tính, kết nghiên cứu thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ mờ cịn hạn chế Zeng cộng [58] xây dựng công thức gia tăng cập nhật độ phụ thuộc mờ hệ thông tin hỗn hợp (HIS), sở đề xuất hai thuật tốn gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật tốn FRSA-IFS-HIS(AA) trường hợp bổ sung tập thuộc tính thuật toán FRSA-IFS-HIS(AD) trường hợp loại bỏ tập thuộc tính Kết thực nghiệm cơng trình nêu cho thấy, thuật toán gia tăng giảm thiểu đáng kể thời gian thực so với thuật tốn khơng gia tăng Do đó, chúng thực thi hiệu bảng định có kích thước lớn thay đổi, cập nhật Tuy nhiên, phần lớn thuật toán đề xuất theo hướng tiếp cận lọc (filter) truyền thống Với cách tiếp cận này, tập rút gọn tìm tập thuộc tính tối thiểu bảo toàn độ đo xây dựng Việc đánh giá độ xác phân lớp thực sau tìm tập rút gọn Vì vậy, tập rút gọn thu chưa phải lựa chọn tốt hai tiêu chí: số lượng thuộc tính tập rút gọn độ xác phân lớp Do đó, động lực nghiên cứu luận án nghiên cứu, đề xuất thuật toán gia tăng theo tiếp cận kết hợp filter-wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp Mục tiêu nghiên cứu Nghiên cứu, đề xuất thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi dựa tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp, từ giảm thiểu độ phức tạp mơ hình khai phá liệu Với mục tiêu đặt ra, luận án thu kết sau: 1) Đề xuất thuật tốn filter-wrapper tìm tập rút gọn bảng định sử dụng độ đo khoảng cách mờ Đóng góp trình bày Chương luận án 2) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp trình bày Chương luận án 3) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập thuộc tính Đóng góp trình bày Chương luận án CHƯƠNG TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THƠ MỜ 1.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính tốn quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộc tính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật toán khai phá liệu: Gia tăng tốc độ, cải thiện chất lượng tính dễ hiểu kết thu Các kỹ thuật rút gọn thuộc tính thường phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) biến đổi thuộc tính (Attribute transformation) Trong luận án này, tác giả nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung rút gọn thuộc tính 1.2 Các hướng tiếp cận filter-wrapper rút gọn thuộc tính Hiện có hai cách tiếp cận tốn rút gọn thuộc tính [43, 44]: filter (lọc) wrapper (đóng gói) Cách tiếp cận filter thực việc rút gọn thuộc tính độc lập với thuật khai phá liệu sử dụng sau Cho đến nay, phần lớn phương pháp rút gọn thuộc tính dựa lý thuyết tập thô mở rộng theo hướng tiếp cận Cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Cách tiếp cận filter có ưu điểm thời gian tính tốn nhanh, nhược điểm không sử dụng sử dụng thông tin nhãn lớp liệu nên độ xác khơng cao Hình 1.1 Cách tiếp cận filter wrapper rút gọn thuộc tính Nhằm kết hợp ưu điểm hai cách tiếp cận filter wrapper, số cách tiếp cận tác giả đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper [67, 91] 1.3 Tổng quan tập thô mờ 1.3.1 Quan hệ tương đương mờ DS = ( U , C ∪ D ) R% Định nghĩa 1.1 [1] Cho bảng định , quan hệ xác định miền giá trị thuộc tính gọi quan hệ tương đương mờ thỏa mãn điều kiện sau x, y , z ∈ U với 1) Tính phản xạ (reflexive): R%( x, x ) = ; 2) Tính đối xứng (symetric): R%( x, y ) = R%( y , x ) ; { R%( x, y ) ≥ sup z∈U R%( x, z ) , R%( y, z ) 3)Tính bắc cầu max-min (max-min transitive): } với R%( x, y ) giá trị quan hệ hai đối tượng x y DS = ( U , C ∪ D ) Mệnh đề 1.1 [58] Cho bảng định quan hệ tương đương mờ R% P Ký hiệu R% Q , tương ứng quan hệ R% R% xác định tập thuộc tính P, Q Khi đó, với x, y ∈ U ta có: % % % R% P = RQ ⇔ RP ( x, y ) = RQ ( x, y ) 1) { % % % % % R% P ∩Q = RP ∪ RQ ⇔ R ( x, y ) = max RP ( x, y ) , RQ ( x, y ) 2) { % % % % % R% P ∪Q = RP ∩ RQ ⇔ R ( x, y ) = RP ( x, y ) , RQ ( x, y ) 3) } } % % % R% P ⊆ RQ ⇔ RP ( x, y ) ≤ RQ ( x, y ) 4) 1.3.2 Ma trận tương đương mờ Định nghĩa 1.2.[58] Cho bảng định DS = ( U , C ∪ D ) quan hệ tương đương mờ xác định tập thuộc tính mờ biểu diễn R% P p11 p 21 M ( R% ) = P pn1 , ký hiệu p12 p22 pn ( ° P x ,x pij = R i j với M ( R% P) = pij n×n P⊆C R% P Khi đó, ma trận tương đương định nghĩa sau: p1n p2 n pnn ) giá trị quan hệ hai đối tượng pij ∈ [ 0,1] với U = { x1 , x2 , , xn } xi xj tập thuộc tính P, xi , x j ∈ U , ≤ i , j ≤ n , Như vậy, giá trị phần tử ma trận tương đương mờ R% P M ( R% P) phụ thuộc vào quan hệ tương đương mờ chọn Mặt khác, ma trận tương đương mờ sở để xây dựng độ đo sử dụng để giải toán rút gọn thuộc tính bảng định Do đó, việc lựa chọn quan hệ tương đương mờ ảnh hưởng đến kết thực phương pháp rút gọn thuộc tính 1.3.3 Phân hoạch mờ Định nghĩa 1.3.[64] Cho bảng định R% P DS = ( U , C ∪ D ) với P⊆C , U = { x1 , x2 , , xn } quan hệ tương đương mờ P Khi phân hoạch mờ U sinh ( ) ( ) Φ R% P xác định xi P° = pi1 / x1 + pi / x2 + + pin / xn equivalent class) đối tượng Với lớp tương đương mờ ( ) ( ) ( sau: { } n % Φ R% P = U / RP = xi P% i =1 = P , ký hiệu là: {[ x ] } P%, …, xn P% với tập mờ đóng vai trị lớp tương đương mờ (fuzzy xi ∈ U xi P% , hàm thuộc đối tượng x j ∈U xác định ) µx ° x j = µ R% xi , x j = R% P xi , x j = pij i P R% P và lực lượng lớp đương đương mờ xi P% tính n xi P%= ∑p ij j =1 1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ 1.4.1 Rút gọn thuộc tính theo tiếp cận tập thơ mờ 1.4.1.1 Các nghiên cứu liên quan Bảng 1 Liệt kê nghiên cứu liên quan đến thuật toán heuristic tìm tập rút gọn bảng định theo tiếp cận tập thô mờ STT Công bố, năm xuất Thuật toán 1) Hàm thuộc mờ Anoop Kumar Tiwari 2018, [3] Các thuật tốn tìm tập rút gọn sử dụng Z Wang cộng 2017, [4] hàm thuộc mờ Zhang cộng 2018, [5] 2) Miền dương mờ T.K Sheeja cộng 2018, [6] Các phương pháp sử dụng miền dương Y Lin cộng 2018, [7] mờ 3) Entropy mờ J.H Dai cộng 2018, [8] Các thuật tốn tìm tập rút gọn sử dụng Q.H Hu cộng 2016, [9] phương pháp entropy mờ X Zhang cộng 2016,[10] 4) Phương pháp sử dụng khoảng cách mờ C.Z Wang cộng 2019, [11] Các thuật tốn tìm tập rút gọn sử dụng C.Z Wang cộng 2015, [12] độ đo phương pháp khoảng cách mờ Cao Chinh Nghia cộng 2016, [13] 5) Các phương pháp khác J.H Dai cộng 2018, [14] Các thuật tốn tìm tập rút gọn sử dụng J.H Dai cộng 2017, [15] L.J.Ping cộng 2020, [16] W.P Ding cộng 2019, [17] X.M Liu cộng 2019, [18] Y.J Lin cộng 2017, [19] số phương pháp khác 1.4.1.2 Các vấn đề cịn tồn Các thuật tốn đề xuất trình bày Bảng 1.1 nêu thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa tập rút gọn thu tập thuộc tính tối thiểu bảo tồn độ đo định nghĩa Việc đánh giá độ xác mơ hình phân lớp thực sau tìm tập rút gọn Do đó, tập rút gọn thuật toán filter nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp 1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ 1.4.2.1 Các nghiên cứu liên quan Bảng 1.2 Liệt kê nghiên cứu liên quan đến thuật tốn gia tăng tìm tập rút gọn bảng định theo tiếp cận tập thô mờ STT Cơng bố, năm xuất Thuật tốn Trường hợp bổ sung, loại bỏ tập đối tượng 1.1 Tiếp cận tập thô truyền thống Demetrovics, J., Thi, V.D., & Giang, N.L Các thuật tốn gia tăng tìm tập rút [20], 2014 gọn sử dụng khoảng cách Huong, N T L., &Giang, N L [ 21], (2016) Y.G Jing cộng [22, 23], 2017 Các thuật toán gia tăng tìm tập rút Zhang cộng [24], 2020 gọn sử dụng hạt thông tin Cai cộng [25], 2019 Zhang cộng [26], 2019 Zhang cộng [27], 2020 W Wei cộng 2018, [28] Các thuật tốn gia tăng tìm tập rút G Lang cộng 2017, [29] gọn sử dụng ma trận phân biệt Ma cộng 2019, [30] Yang cộng sự, [31] Liu cộng sự, [32] Das cộng 2018, [33] Các thuật toán gia tăng tìm tập rút Lang cộng 2018, [34] gọn sử dụng miền dương Hao cộng 2019, [35] Shua cộng 2019, [36] Các thuật tốn gia tăng tìm tập rút gọn sử dụng hàm thuộc Nandhini cộng 2019, [37] Các thuật tốn gia tăng tìm tập rút gọn sử dụng quan hệ không phân biệt Shu cộng 2020, [38] Các thuật tốn gia tăng tìm tập rút gọn sử dụng entropy thông tin Xie cộng 2018, [39] Thuật tốn gia tăng tìm tập rút gọn sử dụng độ đo không quán Y.Y Yang cộng Các thuật toán gia tăng tìm tập rút gọn sử dụng lựa chọn mẫu kích hoạt 1.2 Tiếp cận tập thơ mờ Liu cộng 2017, [52] 10 Yang cộng 2017, [53] 11 Yang cộng 2017, [54] 12 Giang cộng 2020, [55] 13 Zhang cộng 2020, [56] 14 Ni cộng 2020, [57] 15 Trường hợp bổ sung, loại bỏ tập thuộc tính 2.1 Tiếp cận tập thô truyền thống W.H Shu cộng 2014, [41] 16 17 18 19 20 21 F Wang cộng 2013, [42] M.J Cai cộng 2017, [43] Ma cộng 2019, [44] Wei cộng 2019, [45] Nandhini cộng 2019, [46] Chen cộng 2020, [47] Demetrovics Janos cộng 2016, [48] M.S Raza cộng 2016, [49] Y Jing cộng 2016, [50] Y.G Jing cộng 2018, [51] 2.2 Tiếp cận tập thô mờ A.P Zeng cộng 2015, [58] 22 23 Thuật tốn gia tăng FIAT tìm tập rút gọn sử dụng độ phụ thuộc mờ Các thuật toán gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt mờ Các thuật tốn gia tăng IV-FS-FRS-1 IV-FS-FRS-2 tìm tập rút gọn sử dụng quan hệ phân biệt mờ Các thuật tốn gia tăng IFW_FDAR_AdObj IFW_FDAR_DelObj tìm tập rút gọn sử dụng quan hệ khoảng cách mờ Thuật tốn gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng Thuật tốn gia tăng DIAR sử dụng hàm thuộc mờ thuật toán PIAR sử dụng miền dương mờ tìm tập rút gọn dựa tập đối tượng Thuật tốn gia tăng tìm tập rút gọn sử dụng miền dương Thuật toán gia tăng tìm tập rút gọn sử dụng entropy thơng tin Thuật tốn gia tăng tìm tập rút gọn sử dụng ma trận phân biệt Thuật tốn gia tăng tìm tập rút gọn sử dụng quan hệ không phân biệt Thuật tốn gia tăng tìm tập rút gọn sử dụng khoảng cách Thuật tốn gia tăng tìm tập rút gọn sử dụng độ phụ thuộc thuộc tính Các thuật tốn gia tăng tìm tập rút gọn sử dụng hạt tri thức Xây dựng công thức gia tăng cập nhật độ phụ thuộc mờ hệ thông tin hỗn hợp (HIS), sở đề xuất hai thuật tốn gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trường hợp bổ sung tập thuộc tính thuật tốn FRSA-IFS-HIS(AD) trường hợp loại bỏ tập thuộc tính 10 1.4.2.2 Các vấn đề cịn tồn Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếp cận lọc truyền thống (filter) Trong đó, tập rút gọn tìm tập thuộc tính tối thiểu bảo tồn độ đo định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánh giá độ xác phân lớp thực sau tìm tập rút gọn Vì vậy, tập rút gọn tìm thuật toán nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp, nghĩa tập rút gọn tìm chưa có độ xác phân lớp tốt CHƯƠNG THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 2.1 Mở đầu Trong năm gần đây, nhóm nghiên cứu Nguyễn Long Giang cộng sử dụng độ đo khoảng cách để giải tốn rút gọn thuộc tính bảng định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] bảng định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58] Theo tiếp cận tập thơ mờ, nhóm nghiên cứu mở rộng độ đo khoảng cách đề xuất thành độ đo khoảng cách mờ có số kết việc sử dụng độ đo khoảng cách mờ để giải toán rút gọn thuộc tính bảng định có miền giá trị số [3, 8, 18] Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm độ đo khoảng cách hiệu (có cơng thức tính tốn đơn giản) giải tốn rút gọn thuộc tính, giảm thiểu thời gian thực hiện, chương luận án đề xuất độ đo khoảng cách mờ (sau gọi khoảng cách mờ) dựa độ đo khoảng cách phân hoạch cơng trình [65] Sử dụng khoảng cách mờ xây dựng, luận án đề xuất phương pháp filter-wrapper rút gọn thuộc tính bảng định nhằm nâng cao độ xác phân lớp giảm thiểu số lượng thuộc tính tập rút gọn Bao gồm nội dung sau: Xây dựng khoảng cách hai tập mờ; Xây dựng khoảng cách mờ hai phân hoạch mờ; Thuật tốn filter tìm tập rút gọn sử dụng khoảng cách mờ; Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ; Thử nghiệm đánh giá tính hiệu thuật toán đề xuất Các kết chương cơng bố cơng trình 1, phần “Danh mục cơng trình khoa học cơng bố” 2.2 Xây dựng khoảng cách hai tập mờ 2.2.1 Độ đo khoảng cách mờ FD ( X , Y ) = X ∪ Y − X ∩ Y Mệnh đề 2.1 Cho tập mờ tập đối tượng U, khoảng cách 2.2.2 Độ đo khoảng cách mờ tính chất % Φ ( R% DS = ( U , C ∪ D ) U = { x1 , x2 ,…, xn } P ) Φ ( RQ ) Mệnh đề 2.2 Cho bảng định với , phân hoạch mờ sinh hai quan hệ tương đương mờ R% R% Q P , ,Q ⊆ C P đó: 17 U ∪ ∆U Tính ma trận tương đương mờ tập đối tượng ( ) ( ) % M U ∪∆U R% B = bij ( n + s ) ×( n + s ) , M U ∪∆U RD = dij ( n + s ) ×( n + s ) ; Bước 2: Kiểm tra tập đối tượng thêm vào Đặt For If If X := ∆U i = 1 ; to s xn + i B%⊆ xn+ i D% X =∅ then then Return X := X − { xn + i } B0 ; ; // Tập xấp xỉ không thay đổi ∆U := X ; s := ∆U Đặt ; //Gán lại tập đối tượng Bước 3: Tìm tập rút gọn tốt FPDΦ U ( ( R%, Φ) ( R% ; )FPD ) B∪ D B Φ U Tính khoảng cách mờ ban đầu Tính khoảng cách mờ cơng thức gia tăng: ( ( ) ( R%; FPD) ) % FPDΦ U ∪∆U , Φ RB ( ( R%, Φ) ( R% ) ) C C ∪D ; ( ( ) ( R% ) ) % Φ U ∪∆U , Φ RC B∪D C ∪D // Giai đoạn fifter: tìm ứng viên cho tập rút gọn ( ( ) ( R% FPD) ) ≠ % FPDΦ U ∪∆U , Φ RB 10 11 While Begin 12 13 For each Begin a ∈C − B FPDΦ U ∪∆U 14 Tính ( ( R%, Φ { } ) ( R% { } ) ) B∪ a 17 18 Tính End; Select B := B ∪ { am } T := T ∪ B0 20 21 công thức gia tăng; End; B∪ D Φ U ∪∆U ( ( R%, Φ { } ) ( R% {; } ) ) B∪ a B∪ a ∪ D SIGB ( am ) = Max { SIGB ( a ) } satisfying a∈C − B ; ; B0 := B0 ∪ { am } 19 B∪ a ∪ D ( ( ) ( R%FPD) ) − a ∈C − B C ∪D % SIGB ( a ) = FPDΦ U ∪∆U , Φ RB 15 16 ( ( ) ( R% ) ) % Φ U ∪∆U , Φ RC B∪D ; ; //Giai đoạn Wrapper: tìm tập rút gọn với độ xác phân loại cao t := T 22 Đặt //t số phần tử T, T = { B0 ∪ { a1} , B0 ∪ { a1 , a2 } , , B0 ∪ { a1 , a2 , , at } } ; 18 T1 := B0 ∪ { a1} ; T2 := B0 ∪ { a1 , a2 } ; ; Tt := B0 ∪ { a1 , a2 , , at } 23 24 Đặt For j:= to t ; Tj 25 Tính độ xác phân lớp Bbest := T jo với 26 phân lớp sử dụng phương pháp 10-fold; T jo Return có độ xác phân lớp cao nhất; Bbest ; Độ phức tạp thuật toán IFW_FDAR_AdObj là: ( max O B * ∆U * ( U + ∆U ) ) ,O ( ( C − B ) * ∆U * ( U + ∆U ) ) ÷ + O ( ( C − B ) *T ) Dựa kết thấy thuật toán IFW_FDAR_AdObj giảm thiểu đáng U kể thời gian thực hiện, đặc biệt trường hợp tập đối tượng C lớn tập điều kiện B lớn nhỏ 3.2.3 Thực nghiệm thuật toán 3.2.3.1 Mục tiêu thực nghiệm 1) Đánh giá thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với hai thuật toán hai thuật toán gia tăng theo tiếp cận filter tập thô mờ IV-FS-FRS-2 [54], IARM [18]) hai thuật tốn filter tập thơ (ASS-IAR [40], IFSA [36])) Đặc biệt, thuật toán IV-FS-FRS-2 thuật toán filter dựa ma trận phân biệt mờ, IARM thuật toán filter dựa quan hệ phân biệt ASS-IAR thuật toán filter dựa lựa chọn mẫu hoạt động, IFSA thuật toán filter dựa chức phụ thuộc 2) Đánh giá tính hiệu độ xác phân lớp số lượng thuộc tính tập rút gọn thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj so với bốn thuật toán filter nêu 3.2.3.2 Dữ liệu thực nghiệm Bảng 3.1 Bộ liệu thử nghiệm thêm tập đối tượng Số thuộc tính điều Số Số Số đối kiện đối lớp Giá St Bộ Số đối tượng Giá quyế Mô tả tượn Tổng trị t liệu tượng ban trị g gia t số định đầu thực định tăng danh (1 (2) (3) (4) (5) (6) (7) (8) (9) (10) ) Libras Libra 360 180 180 90 90 15 movement WDBC Wisconsin 569 284 285 30 30 19 diagnostic breast cancer Horse Horse colic 368 183 185 22 15 Heart Statlog (heart) 270 135 135 13 Credit Credit 690 345 345 15 approval Germa German credit 1000 500 500 20 13 n data Contraceptive Cmc Method 1473 733 740 Choice Wave Waveform 5000 2500 2500 21 21 3.2.3.3 Kết so sánh thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật tốn IV-FS-FRS-2, IARM, ASS-IAR, IFSA Hình 3.1 Thời gian thực thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR IFSA liệu mẫu Libra (tính giây) 3.2.2.4 Kết so sánh độ xác phân lớp số lượng thuộc tính tập rút gọn thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật tốn IV-FS-FRS-2, IARM, ASS-IAR, IFSA Hình 3.2 Độ xác phân lớp thuật tốn IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR IFSA 20 Hình 3.3 Số lượng thuộc tính tập rút gọn thuật tốn IFW_FDAR_AdObj, IVFS-FRS-2, IARM, ASS-IAR IFSA 3.3 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn loại bỏ tập đối tượng 3.3.1 Cập nhật khoảng cách mờ loại bỏ tập đối tượng DS = ( U , C ∪ D ) U = { x1 , x2 , , xn } R% Mệnh đề 3.5 Cho bảng định với quan ∆U = { xk , xk +1 , , xk + s −1} hệ tương đương mờ Giả sử tập đối tượng gồm s phần tử bị loại khỏi U, s