Tóm tắt Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

27 12 0
Tóm tắt Luận án Tiến sĩ Máy tính: Phương pháp gia tăng rút gọn thuộc tính trong bảng quyết định thay đổi theo tiếp cận tập thô mờ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu nghiên cứu của Luận án nhằm đề xuất các thuật toán gia tăng tìm tập rút gọn của bảng quyết định thay đổi dựa trên tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó giảm thiểu độ phức tạp của mô hình khai phá dữ liệu Mời các bạn cùng tham khảo!

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - HỒ THỊ PHƢỢNG PHƢƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI THEO TIẾP CẬN TẬP THƠ MỜ Chun ngành: Khoa học máy tính Mã số: 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH Hà Nội - 2021 Cơng trình đƣợc hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học: PGS.TS Nguyễn Long Giang Phản biện 1: Phản biện 2: Phản biện 3: Luận án đƣợc bảo vệ trƣớc Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam Vào hồi… ngày tháng năm 20 Có thể tìm hiểu luận án tại: - Thƣ viện Học viện Khoa học Công nghệ - Thƣ viện Quốc gia Việt Nam MỞ ĐẦU Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu trình khai phá tri thức từ liệu Mục tiêu rút gọn thuộc tính loại bỏ thuộc tính dư thừa, khơng cần thiết nhằm nâng cao tính hiệu mơ hình khai phá liệu Rút gọn thuộc tính bảng định trình lựa chọn tập nhỏ tập thuộc tính điều kiện, loại bỏ thuộc tính dư thừa mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn (reduct) Kết rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Cho đến nay, có hai hướng tiếp cận tốn lựa chọn thuộc tính: Lọc (filter) đóng gói (wrapper) Cách tiếp cận fifter thực việc lựa chọn thuộc tính độc lập với thuật tốn khai phá sử dụng sau Các thuộc tính chọn dựa độ quan trọng chúng việc mô tả liệu Trong đó, cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Lý thuyết tập thơ mờ (fuzzy rough set) Dübois cộng [1] đề xuất công cụ hiệu giải toán rút gọn thuộc tính trực tiếp bảng định gốc khơng qua bước tiền xử lý liệu nhằm nâng cao hiệu độ xác mơ hình phân lớp Cho đến nay, nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ đề xuất, điển hình phương pháp sử dụng hàm thuộc mờ [2, 3, 4], phương pháp sử dụng miền dương mờ [5, 6], phương pháp sử dụng entropy mờ [7, 8, 9], phương pháp sử dụng khoảng cách mờ [10, 11, 12] số phương pháp khác [13, 14, 15, 16, 17, 18] Trong xu liệu lớn (Big data) nay, bảng định ngày có số thuộc tính lớn, ví dụ bảng liệu lĩnh vực tin sinh học có hàng triệu thuộc tính Hơn nữa, bảng định ln ln thay đổi, cập nhật với tình bổ sung loại bỏ tập đối tượng, bổ sung loại bỏ tập thuộc tính, giá trị tập đối tượng, tập thuộc tính thay đổi Để xây dựng mơ hình phân lớp hiệu quả, ta cần giải tốn rút gọn thuộc tính bảng định kích thước lớn thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyền thống bảng định gặp hai thách thức Thứ nhất, với bảng định có kích thước lớn, việc thực thuật tốn tìm tập rút gọn gặp khó khăn khơng gian lưu trữ tốc độ tính tốn Thứ hai, với bảng định thay đổi, cập nhật, thuật toán phải tính tốn lại tập rút gọn tồn bảng định sau thay đổi, chi phí thời gian tính tốn tăng lên đáng kể Để giải hai thách thức trên, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn Các thuật toán gia tăng cập nhật lại tập rút gọn phần liệu bị thay đổi mà khơng tính lại tập rút gọn tồn bảng định ban đầu Do đó, chúng giảm thiểu đáng kể thời gian thực Hơn nữa, thuật tốn gia tăng thực bảng định kích thước lớn giải pháp chia nhỏ bảng định thành nhiều phần, tập rút gọn tính bổ sung phần Hướng tiếp cận tính tốn gia tăng tìm tập rút gọn bảng định thu hút quan tâm nhà nghiên cứu suốt thập kỷ qua Theo tiếp cận lý thuyết tập thô truyền thống Pawlak [19] mô hình tập thơ mở rộng, nhà nghiên cứu đề xuất nhiều thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi Với trường hợp bổ sung, loại bỏ tập đối tượng, số thuật toán gia tăng đề xuất sử dụng khoảng cách [20, 21], hạt thông tin [22, 23, 24, 25, 26, 27], ma trận phân biệt [28, 29, 30, 31, 32], miền dương [33, 34, 35], hàm thuộc [36], quan hệ không phân biệt [37], entropy thông tin [38], độ đo khơng qn [39], lựa chọn mẫu kích hoạt [40] Với trường hợp bổ sung, loại bỏ tập thuộc tính, số thuật tốn gia tăng tìm tập rút gọn đề xuất sử dụng miền dương [41], entropy thông tin [42], ma trận phân biệt [43, 44, 45], quan hệ không phân biệt [46, 47], khoảng cách [48], độ phụ thuộc thuộc tính [49], hạt tri thức [50, 51] Theo tiếp cận tập thô mờ [1], năm gần số thuật toán gia tăng tìm tập rút gọn bảng định đề xuất với trường hợp: bổ sung loại bỏ tập đối tượng [52, 53, 54, 55, 56, 57], bổ sung loại bỏ tập thuộc tính [58] Với trường hợp bổ sung, loại bỏ tập đối tượng, Liu cộng [52] xây dựng công thức gia tăng tính độ phụ thuộc mờ đề xuất thuật tốn giăng FIAT tìm tập rút gọn bổ sung tập đối tượng Yang cộng [53] xây dựng cơng thức gia tăng tính quan hệ phân biệt, sở xây dựng thuật tốn gia tăng IARM tìm tập rút gọn bổ sung tập đối tượng Yang cộng [54] xây dựng chế cập nhật quan hệ phân biệt đề xuất hai thuật tốn IV-FSFRS-1 IV-FS-FRS-2 tìm tập rút gọn trường hợp bổ sung tập đối tượng Zhang cộng [56] đề xuất thuật toán gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng trường hợp bổ sung tập đối tượng Ni cộng [57] đưa khái niệm tập đối tượng (key instance set), sở xây dựng hai thuật tốn gia tăng tìm tập rút gọn dựa tập đối tượng trường hợp bổ sung tập đối tượng: thuật toán DIAR sử dụng hàm thuộc mờ thuật toán PIAR sử dụng miền dương mờ Với trường hợp bổ sung, loại bỏ tập thuộc tính, kết nghiên cứu thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ mờ cịn hạn chế Zeng cộng [58] xây dựng công thức gia tăng cập nhật độ phụ thuộc mờ hệ thơng tin hỗn hợp (HIS), sở đề xuất hai thuật toán gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật toán FRSA-IFS-HIS(AA) trường hợp bổ sung tập thuộc tính thuật tốn FRSA-IFS-HIS(AD) trường hợp loại bỏ tập thuộc tính Kết thực nghiệm cơng trình nêu cho thấy, thuật toán gia tăng giảm thiểu đáng kể thời gian thực so với thuật toán khơng gia tăng Do đó, chúng thực thi hiệu bảng định có kích thước lớn thay đổi, cập nhật Tuy nhiên, phần lớn thuật toán đề xuất theo hướng tiếp cận lọc (filter) truyền thống Với cách tiếp cận này, tập rút gọn tìm tập thuộc tính tối thiểu bảo toàn độ đo xây dựng Việc đánh giá độ xác phân lớp thực sau tìm tập rút gọn Vì vậy, tập rút gọn thu chưa phải lựa chọn tốt hai tiêu chí: số lượng thuộc tính tập rút gọn độ xác phân lớp Do đó, động lực nghiên cứu luận án nghiên cứu, đề xuất thuật toán gia tăng theo tiếp cận kết hợp filter-wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp Mục tiêu nghiên cứu Nghiên cứu, đề xuất thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi dựa tập thô mờ theo tiếp cận kết hợp filter-wrapper nhằm giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp, từ giảm thiểu độ phức tạp mơ hình khai phá liệu Với mục tiêu đặt ra, luận án thu đƣợc kết nhƣ sau: 1) Đề xuất thuật tốn filter-wrapper tìm tập rút gọn bảng định sử dụng độ đo khoảng cách mờ Đóng góp trình bày Chương luận án 2) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp trình bày Chương luận án 3) Đề xuất hai thuật toán gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập thuộc tính Đóng góp trình bày Chương luận án CHƢƠNG TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THƠ MỜ 1.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính toán quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộc tính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật toán khai phá liệu: Gia tăng tốc độ, cải thiện chất lượng tính dễ hiểu kết thu Các kỹ thuật rút gọn thuộc tính thường phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) biến đổi thuộc tính (Attribute transformation) Trong luận án này, tác giả nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung rút gọn thuộc tính 1.2 Các hƣớng tiếp cận filter-wrapper rút gọn thuộc tính Hiện có hai cách tiếp cận tốn rút gọn thuộc tính [43, 44]: filter (lọc) wrapper (đóng gói) Cách tiếp cận filter thực việc rút gọn thuộc tính độc lập với thuật khai phá liệu sử dụng sau Cho đến nay, phần lớn phương pháp rút gọn thuộc tính dựa lý thuyết tập thơ mở rộng theo hướng tiếp cận Cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Cách tiếp cận filter có ưu điểm thời gian tính tốn nhanh, nhược điểm không sử dụng sử dụng thông tin nhãn lớp liệu nên độ xác khơng cao Hình 1.1 Cách tiếp cận filter wrapper rút gọn thuộc tính Nhằm kết hợp ưu điểm hai cách tiếp cận filter wrapper, số cách tiếp cận tác giả đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper [67, 91] 1.3 Tổng quan tập thô mờ 1.3.1 Quan hệ tương đương mờ Định nghĩa 1.1 [1] Cho bảng định DS  U , C  D  , quan hệ R xác định miền giá trị thuộc tính gọi quan hệ tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive): R  x, x   ; 2) Tính đối xứng (symetric): R  x, y   R  y, x  ; 3)Tính bắc cầu max-min (max-min transitive): R  x, y   sup zU R  x, z  , R  y, z  với R  x, y  giá trị quan hệ hai đối tượng x y Mệnh đề 1.1 [58] Cho bảng định Ký hiệu x, y U 1) tương ứng quan hệ RP , RQ R DS  U , C  D  R xác định tập thuộc tính P, Q Khi đó, với ta có: RP  RQ  RP  x, y   RQ  x, y  3)   RPQ  RP  RQ  R( x, y)  RP  x, y  , RQ  x, y  4) RP  RQ  RP  x, y   RQ  x, y  2) quan hệ tương đương mờ RPQ  RP  RQ  R( x, y)  max RP  x, y  , RQ  x, y  1.3.2 Ma trận tương đương mờ Định nghĩa 1.2.[58] Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  RP quan hệ tương đương mờ xác định tập thuộc tính P  C Khi đó, ma trận tương đương mờ biểu diễn RP , ký hiệu M ( RP )   pij  nn định nghĩa sau:  p11 p M ( RP )   21    pn1 với p12 p22 pn  pij  R P xi , x j  p1n  p2 n    pnn  giá trị quan hệ hai đối tượng xi xj tập thuộc tính P, pij  0,1 , xi , x j U ,1  i, j  n Như vậy, giá trị phần tử ma trận tương đương mờ M ( RP ) phụ thuộc vào quan hệ tương đương mờ RP chọn Mặt khác, ma trận tương đương mờ sở để xây dựng độ đo sử dụng để giải tốn rút gọn thuộc tính bảng định Do đó, việc lựa chọn quan hệ tương đương mờ ảnh hưởng đến kết thực phương pháp rút gọn thuộc tính 1.3.3 Phân hoạch mờ Định nghĩa 1.3.[64] Cho bảng định RP   Φ RP xác xi P  pi1 / x1  pi / x2   pin / xn equivalent class) đối tượng Với lớp tương đương mờ  P định P  C , U  x1 , x2 , , xn  P  xi P  p ij j 1 RP , ký hiệu sau: Φ  RP   U / RP  xi P i 1   x1 P ,, xn P  với n tập mờ đóng vai trò lớp tương đương mờ (fuzzy xi  U  xi P ,  x j   R  xi , x j   RP  xi , x j   pij n với quan hệ tương đương mờ P Khi phân hoạch mờ U sinh là: xi  DS  U , C  D  hàm thuộc đối tượng x j U xác định lực lượng lớp đương đương mờ  xi P tính 1.4 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ 1.4.1 Rút gọn thuộc tính theo tiếp cận tập thô mờ 1.4.1.1 Các nghiên cứu liên quan Bảng 1 Liệt kê nghiên cứu liên quan đến thuật tốn heuristic tìm tập rút gọn bảng định theo tiếp cận tập thô mờ STT Cơng bố, năm xuất Thuật tốn 1) Hàm thuộc mờ Anoop Kumar Tiwari 2018, [3] Các thuật toán tìm tập rút gọn sử dụng Z Wang cộng 2017, [4] hàm thuộc mờ Zhang cộng 2018, [5] 2) Miền dương mờ T.K Sheeja cộng 2018, [6] Các phương pháp sử dụng miền dương Y Lin cộng 2018, [7] mờ 3) Entropy mờ J.H Dai cộng 2018, [8] Các thuật tốn tìm tập rút gọn sử dụng Q.H Hu cộng 2016, [9] phương pháp entropy mờ X Zhang cộng 2016,[10] 4) Phương pháp sử dụng khoảng cách mờ C.Z Wang cộng 2019, [11] Các thuật tốn tìm tập rút gọn sử dụng C.Z Wang cộng 2015, [12] độ đo phương pháp khoảng cách mờ Cao Chinh Nghia cộng 2016, [13] 5) Các phương pháp khác J.H Dai cộng 2018, [14] Các thuật tốn tìm tập rút gọn sử dụng J.H Dai cộng 2017, [15] số phương pháp khác L.J.Ping cộng 2020, [16] W.P Ding cộng 2019, [17] X.M Liu cộng 2019, [18] Y.J Lin cộng 2017, [19] 1.4.1.2 Các vấn đề tồn Các thuật tốn đề xuất trình bày Bảng 1.1 nêu thuật toán heuristic theo tiếp cận filter truyền thống, nghĩa tập rút gọn thu tập thuộc tính tối thiểu bảo toàn độ đo định nghĩa Việc đánh giá độ xác mơ hình phân lớp thực sau tìm tập rút gọn Do đó, tập rút gọn thuật tốn filter nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp 1.4.2 Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thơ mờ 1.4.2.1 Các nghiên cứu liên quan Bảng 1.2 Liệt kê nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn bảng định theo tiếp cận tập thô mờ STT Công bố, năm xuất Thuật toán Trƣờng hợp bổ sung, loại bỏ tập đối tƣợng 1.1 Tiếp cận tập thô truyền thống Demetrovics, J., Thi, V.D., & Giang, N.L Các thuật toán gia tăng tìm tập rút gọn [20], 2014 sử dụng khoảng cách Huong, N T L., &Giang, N L [ 21], (2016) 6 Y.G Jing cộng [22, 23], 2017 Zhang cộng [24], 2020 Cai cộng [25], 2019 Zhang cộng [26], 2019 Zhang cộng [27], 2020 W Wei cộng 2018, [28] G Lang cộng 2017, [29] Ma cộng 2019, [30] Yang cộng sự, [31] Liu cộng sự, [32] Das cộng 2018, [33] Lang cộng 2018, [34] Hao cộng 2019, [35] Shua cộng 2019, [36] Nandhini cộng 2019, [37] Shu cộng 2020, [38] Xie cộng 2018, [39] Y.Y Yang cộng 1.2 Tiếp cận tập thô mờ Liu cộng 2017, [52] 10 11 Yang cộng 2017, [53] Yang cộng 2017, [54] 12 Giang cộng 2020, [55] 13 Zhang cộng 2020, [56] 14 Ni cộng 2020, [57] 15 Trƣờng hợp bổ sung, loại bỏ tập thuộc tính 2.1 Tiếp cận tập thơ truyền thống W.H Shu cộng 2014, [41] 16 Các thuật tốn gia tăng tìm tập rút gọn sử dụng hạt thơng tin Các thuật tốn gia tăng tìm tập rút gọn sử dụng ma trận phân biệt Các thuật tốn gia tăng tìm tập rút gọn sử dụng miền dương Các thuật tốn gia tăng tìm tập rút gọn sử dụng hàm thuộc Các thuật toán gia tăng tìm tập rút gọn sử dụng quan hệ khơng phân biệt Các thuật tốn gia tăng tìm tập rút gọn sử dụng entropy thơng tin Thuật tốn gia tăng tìm tập rút gọn sử dụng độ đo khơng qn Các thuật tốn gia tăng tìm tập rút gọn sử dụng lựa chọn mẫu kích hoạt Thuật tốn gia tăng FIAT tìm tập rút gọn sử dụng độ phụ thuộc mờ Các thuật tốn gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt mờ Các thuật tốn gia tăng IV-FS-FRS-1 IV-FS-FRS-2 tìm tập rút gọn sử dụng quan hệ phân biệt mờ Các thuật tốn gia tăng IFW_FDAR_AdObj IFW_FDAR_DelObj tìm tập rút gọn sử dụng quan hệ khoảng cách mờ Thuật toán gia tăng AIFWAR tìm tập rút gọn sử dụng entropy có điều kiện mở rộng Thuật toán gia tăng DIAR sử dụng hàm thuộc mờ thuật toán PIAR sử dụng miền dương mờ tìm tập rút gọn dựa tập đối tượng Thuật tốn gia tăng tìm tập rút gọn sử dụng miền dương 17 18 19 20 21 F Wang cộng 2013, [42] M.J Cai cộng 2017, [43] Ma cộng 2019, [44] Wei cộng 2019, [45] Nandhini cộng 2019, [46] Chen cộng 2020, [47] Demetrovics Janos cộng 2016, [48] M.S Raza cộng 2016, [49] Y Jing cộng 2016, [50] Y.G Jing cộng 2018, [51] 2.2 Tiếp cận tập thô mờ A.P Zeng cộng 2015, [58] 22 23 Thuật tốn gia tăng tìm tập rút gọn sử dụng entropy thơng tin Thuật tốn gia tăng tìm tập rút gọn sử dụng ma trận phân biệt Thuật tốn gia tăng tìm tập rút gọn sử dụng quan hệ khơng phân biệt Thuật tốn gia tăng tìm tập rút gọn sử dụng khoảng cách Thuật toán gia tăng tìm tập rút gọn sử dụng độ phụ thuộc thuộc tính Các thuật tốn gia tăng tìm tập rút gọn sử dụng hạt tri thức Xây dựng công thức gia tăng cập nhật độ phụ thuộc mờ hệ thông tin hỗn hợp (HIS), sở đề xuất hai thuật tốn gia tăng cập nhật tập rút gọn sử dụng độ phụ thuộc mờ: thuật tốn FRSA-IFS-HIS(AA) trường hợp bổ sung tập thuộc tính thuật toán FRSA-IFS-HIS(AD) trường hợp loại bỏ tập thuộc tính 1.4.2.2 Các vấn đề cịn tồn Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ mờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật tốn nêu theo hướng tiếp cận lọc truyền thống (filter) Trong đó, tập rút gọn tìm tập thuộc tính tối thiểu bảo tồn độ đo định nghĩa (hàm thuộc mờ, quan hệ phân biệt…), việc đánh giá độ xác phân lớp thực sau tìm tập rút gọn Vì vậy, tập rút gọn tìm thuật tốn nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp, nghĩa tập rút gọn tìm chưa có độ xác phân lớp tốt CHƢƠNG THUẬT TỐN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 2.1 Mở đầu Trong năm gần đây, nhóm nghiên cứu Nguyễn Long Giang cộng sử dụng độ đo khoảng cách để giải toán rút gọn thuộc tính bảng định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] bảng định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58] Theo tiếp cận tập thơ mờ, nhóm nghiên cứu mở rộng độ đo khoảng cách đề xuất thành độ đo khoảng cách mờ có số kết việc sử dụng độ đo khoảng cách mờ để giải tốn rút gọn thuộc tính bảng định có miền giá trị số [3, 8, 18] Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm độ đo khoảng cách hiệu (có cơng thức tính tốn đơn giản) giải tốn rút gọn thuộc tính, giảm thiểu thời gian thực hiện, chương luận án đề xuất độ đo khoảng cách mờ (sau gọi khoảng cách mờ) dựa độ đo khoảng cách phân hoạch công trình [65] Sử dụng khoảng cách mờ xây dựng, luận án đề xuất phương pháp filter-wrapper rút gọn thuộc tính bảng định nhằm nâng cao độ xác phân lớp giảm thiểu số lượng thuộc tính tập rút gọn Bao gồm nội dung sau: (1) Xây dựng khoảng cách hai tập mờ; (2) Xây dựng khoảng cách mờ hai phân hoạch mờ; (3) Thuật tốn filter tìm tập rút gọn sử dụng khoảng cách mờ; (4) Thuật tốn filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ; (5) Thử nghiệm đánh giá tính hiệu thuật tốn đề xuất Các kết chương công bố cơng trình 1, phần “Danh mục cơng trình khoa học cơng bố” 2.2 Xây dựng khoảng cách hai tập mờ 2.2.1 Độ đo khoảng cách mờ Mệnh đề 2.1 Cho tập mờ tập đối tượng U, FD  X , Y   X  Y  X  Y khoảng cách 2.2.2 Độ đo khoảng cách mờ tính chất Mệnh đề 2.2 Cho bảng định DS  U , C  D  với U  x1 , x2 ,, xn    RP  ,   RQ  phân hoạch mờ sinh hai quan hệ tương đương mờ       n1   x  n FPD Φ RP , Φ RQ i P i 1   xi Q   xi P   xi Q Là khoảng cách mờ    RP  RP , RQ P ,Q  C đó:   , gọi khoảng cách mờ  RQ Mệnh đề 2.3 Cho bảng định DS  U , C  D  với U  x1 , x2 ,, xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, khoảng cách mờ hai tập thuộc tính C C  D xác định sau:     FPD Φ RC , Φ RC  D   n12 i1 xi C  xi C  xi D    n 2.3 Thuật tốn filter tìm tập rút gọn sử dụng khoảng cách mờ Định nghĩa 2.1 Bảng định DS  U , C  D  RB , RC quan hệ tương đương mờ tập thuộc tính điều kiện B, C với B  C Nếu: 1) FPD  Φ  RB  ,Φ  RBD    FPD  Φ  RC  ,Φ  RC D   2) b  B,     FPD Φ RB b ,Φ RB b D   FPD Φ  R  ,Φ  R  C C D Thì B tập rút gọn bảng định sử dụng khoảng cách mờ Định nghĩa 2.2 Bảng định DS  U , C  D  với B  C b  C  B Độ quan trọng thuộc tính định nghĩa bởi: SIGB  b   FPD  Φ  RB  ,Φ  RB  D    FPD  Φ  RB b  ,Φ  RB b D   Theo tính chất khoảng cách mờ ta có SIGB  b   Độ quan trọng SIGB  b  đặc trưng cho chất lượng phân lớp thuộc tính b thuộc tính định D sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật tốn filter F_FDBAR tìm tập rút gọn Thuật toán F_FDBAR (Filter - Fuzzy Distance Based Attribute Reduction): Thuật tốn filter tìm tập rút gọn sử dụng khoảng cách mờ Đầu vào: Bảng định DS  U , C  D  , quan hệ tương đương mờ R xác định tập thuộc tính điều kiện 11 lớp, hồi quy) để tính độ xác phân lớp giai đoạn wrapper với phương pháp kiểm tra chéo 10-fold Hình 2.1 Độ xác phân lớp ba thuật tốn Hình 2.2 Số lượng thuộc tính tập rút gọn ba thuật tốn Kết Hình 2.1 Hình 2.2 cho thấy, số thuộc tính tập rút gọn thuật tốn đề xuất FW_FDAR nhỏ nhiều so với thuật toán filter FPDAR Độ xác FW_FDAR cao FPDAR tất liệu Với thuật toán filter-wrapper FEBAR [91] sử dụng -entropy mờ, số lượng thuộc tính tập rút gọn FW_FDAR xấp xỉ FEBAR, độ xác phân lớp FW_FDAR xấp xỉ FEBAR 2.5.4 Kết so sánh thời gian thực Hình 2.3 Thời gian thực FW_FDBAR, FEBAR, FPDAR Hình 2.3 cho thấy, thuật tốn FW_FDAR có thời gian thực nhỏ đáng kể thuật toán FEBAR [91], chủ yếu thủ tục filter tìm tập rút gọn Ngun nhân thuật tốn FEBAR phải tính miền dương mờ để xác định hệ số , thuật tốn FEBAR phải tính tốn công thức logarit phức tạp công thức entropy Shannon Tuy nhiên, thuật toán theo tiếp cận filter-wrapper FW_FDAR FEBAR [91] có thời gian thực lớn thuật tốn theo tiếp cận filter FPDAR [18] phải thực phân lớp để tính độ xác tập rút gọn xấp xỉ giai đoạn wrapper 12 CHƢƠNG THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƢỢNG 3.1 Mở đầu Trong chương này, trước hết luận án trình bày cơng thức gia tăng cập nhật khoảng cách mờ (được đề xuất Chương 2) trường hợp bổ sung, loại bỏ tập đối tượng Dựa cơng thức tính tốn gia tăng khoảng cách mờ xây dựng, luận án trình bày 02 thuật tốn gia tăng tìm tập rút gọn bảng định theo tiếp cận kết hợp filter-wrapper: 1) Thuật tốn gia tăng filter-wrapper IFW_FDAR_AdObj tìm tập rút gọn bổ sung tập đối tượng 2) Thuật toán gia tăng filter-wrapper IFW_FDAR_DelObj tìm tập rút gọn loại bỏ tập đối tượng Hai thuật toán đề xuất theo tiếp cận kết hợp filter-wrapper, giai đoạn filter tìm ứng viên cho tập rút gọn (là tập thuộc tính bảo tồn độ đo sử dụng), giai đoạn wrapper tìm tập rút gọn có độ xác phân lớp cao Hai thuật toán đề xuất nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp Kết nghiên cứu chương công bố cơng trình số 1, phần “Danh mục cơng trình tác giả” 3.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tƣợng 3.2.1 Cơng thức gia tăng tính khoảng cách mờ bổ sung tập đối tượng Mệnh đề 3.2 Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Giả sử tập đối tượng gồm s phần tử U  xn1, xn2 , , xn s  bổ sung vào U, mà s2 Với   MU U RC  mij  , MU U  RD   d ij   n  s n  s  n s  n s  C D Khi đó, cơng thức       n       FPD  Φ  R  , Φ  R   x n  s   n  s ma trận tương đương mờ tương ứng gia tăng khoảng cách mờ sau: FPDU U Φ RC , Φ RC  D s U C D C i 1     xn i C   xn i D  i    C n i  mà i   j i  mni,n j 1   mni,n j 1 , dni,n j 1   s 1 3.2.2 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn sau bổ sung tập đối tượng Mệnh đề 3.3 Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, B  C tập rút gọn dựa khoảng cách mờ Giả sử tập đối tượng gồm s phần tử U  xn1, xn2 , , xn s  bổ sung vào U Khi ta có: 1) Nếu D  xni   d với i  1, 2,, s thì:       n   FPD  Φ  R  , Φ  R       x  ns  n  s FPDU U Φ RC , Φ RC  D s U 2) C C D Nếu xni B  xni D với     FPDU U Φ RB ,Φ RBD i  1, 2, , s i 1 C n i    FPDU U Φ  RC  ,Φ  RC D    xn i C   xn i D  13 Algorithm IFW_FDAR_AdObj Đầu vào: Bảng định DS  U , C  D  với U  x1 , x2 , , xn  , quan hệ tương đương mờ R , tập rút gọn B  C Các ma trận tương đương mờ       MU RB  bij  , MU RC  cij  , MU RD  dij  nn nn nn Tập đối tượng bổ sung U  xn1 , xn , , xn s  Đầu ra: Tập rút gọn xấp xỉ Bbest DS   U  U , C  D  với độ xác phân loại cao Bước 1: Khởi tạo T : ; // T chứa ứng viên tập rút gọn tốt Tính ma trận tương đương mờ tập đối tượng U  U ; MU U  RB   bij  , MU U  RD    dij  n s  n s ns  ns       Bước 2: Kiểm tra tập đối tượng thêm vào Đặt X : U ; For i  to s If xni B  xni D then X : X  xni  ; If X   then Return B0 ; // Tập xấp xỉ không thay đổi Đặt U : X ; s : U ; //Gán lại tập đối tượng Bước 3: Tìm tập rút gọn tốt Tính khoảng cách mờ ban đầu FPDU Φ  RB  ,Φ  RBD  ; FPDU Φ  RC  ,Φ  RC D  ;   Tính khoảng cách mờ công thức gia tăng:          FPDU U Φ RB ,Φ RB D ; FPDU U Φ RC ,Φ RC  D    // Giai đoạn fifter: tìm ứng viên cho tập rút gọn 10 While FPDU U Φ  RB  ,Φ  RBD   FPDU U Φ  RC  ,Φ  RC D      11 12 13 14 Begin For each a  C  B Begin Tính FPDU U Φ RBa ,Φ RBaD 15 Tính SIGB  a   FPDU U 16 17 End; Select a  C  B satisfying SIGB  am   Max SIGB  a  ;     công thức gia tăng;  Φ  R  , Φ  R   FPD Φ  R    , Φ  R B BD U U B a B a D  ; aC  B 18 B : B  am  ; 19 B0 : B0  am  ; 20 T : T  B0 ; 21 End; //Giai đoạn Wrapper: tìm tập rút gọn với độ xác phân loại cao 22 Đặt t : T //t số phần tử T, T  B0  a1 , B0  a1 , a2  , , B0 a1 , a2 , , at  ; 23 Đặt T1 : B0  a1;T2 : B0  a1 , a2 ; ; Tt : B0  a1, a2 , , at  ; 24 For j:= to t 25 Tính độ xác phân lớp T j phân lớp sử dụng phương pháp 10-fold; 26 Bbest : T jo với T jo có độ xác phân lớp cao nhất; Return Bbest ; 14 Độ phức tạp thuật toán IFW_FDAR_AdObj là:  max  O B * U *  U  U   , O  C  B  * U *  U  U    O  C  B  *T  Dựa kết thấy thuật toán IFW_FDAR_AdObj giảm thiểu đáng kể thời gian thực hiện, đặc biệt trường hợp tập đối tượng U lớn tập điều kiện C lớn B nhỏ 3.2.3 Thực nghiệm thuật toán 3.2.3.1 Mục tiêu thực nghiệm 1) Đánh giá thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với hai thuật toán hai thuật toán gia tăng theo tiếp cận filter tập thô mờ IV-FS-FRS-2 [54], IARM [18]) hai thuật tốn filter tập thơ (ASS-IAR [40], IFSA [36])) Đặc biệt, thuật toán IV-FS-FRS-2 thuật toán filter dựa ma trận phân biệt mờ, IARM thuật toán filter dựa quan hệ phân biệt ASS-IAR thuật toán filter dựa lựa chọn mẫu hoạt động, IFSA thuật toán filter dựa chức phụ thuộc 2) Đánh giá tính hiệu độ xác phân lớp số lượng thuộc tính tập rút gọn thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj so với bốn thuật toán filter nêu 3.2.3.2 Dữ liệu thực nghiệm Bảng 3.1 Bộ liệu thử nghiệm thêm tập đối tượng Số thuộc tính điều Số kiện Số Số đối đối Bộ Số đối lớp Giá Stt Mô tả tƣợng tƣợng Giá liệu tƣợng Tổng trị ban đầu gia trị định số định tăng thực danh (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Libras Libra 360 180 180 90 90 15 movement Wisconsin WDBC diagnostic 569 284 285 30 30 breast cancer Horse Horse colic 368 183 185 22 15 Heart Statlog (heart) 270 135 135 13 Credit Credit approval 690 345 345 15 German credit German 1000 500 500 20 13 data Contraceptive Cmc 1473 733 740 Method Choice Wave Waveform 5000 2500 2500 21 21 15 3.2.3.3 Kết so sánh thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA Hình 3.1 Thời gian thực thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM, ASS-IAR IFSA liệu mẫu Libra (tính giây) 3.2.2.4 Kết so sánh độ xác phân lớp số lượng thuộc tính tập rút gọn thuật tốn gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA Độ xác phân lớp 0.65 0.6 IFW-FDAR-AdObj IV-FS-FRS-2 0.55 IARM 0.5 ASS-IAR IFSA 0.45 U0 U1 U2 U3 U4 Các tập đối tượng liệu Libra U5 Hình 3.2 Độ xác phân lớp thuật tốn IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR IFSA Hình 3.3 Số lượng thuộc tính tập rút gọn thuật tốn IFW_FDAR_AdObj, IV-FSFRS-2, IARM, ASS-IAR IFSA 16 3.3 Thuật toán gia tăng fifter-wrapper tìm tập rút gọn loại bỏ tập đối tƣợng 3.3.1 Cập nhật khoảng cách mờ loại bỏ tập đối tượng Mệnh đề 3.5 Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  R quan hệ tương đương mờ Giả sử tập đối tượng gồm s phần tử U  xk , xk 1, , xk  s 1 bị loại khỏi U, s  n Ma trận tương đương mờ ma trận tương đương C D tương ứng xác định MU U  RC   mij  ns  ns , MU U  RD   dij  ns  ns Khi đó, cơng thức cập nhật       khoảng cách mờ sau:       n     n 2s   x  FPD  Φ  R  , Φ  R  ns    FPDU U Φ RC , Φ RC  D s 1 U Với  i  C D C  m i j 0 k i , k  j   mk i,k  j , dk i,k  j i 0 C   xk i C   xk i D   i k i   (3.8)  3.3.2 Thuật toán fifter-wrapper để cập nhật tập rút gọn loại bỏ tập đối tượng Mệnh đề 3.6 Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện B  C tập rút gọn dựa khoảng cách mờ Giả sử tập đối tượng gồm s phần tử U  xk , xk 1, , xk  s 1 bị loại khỏi U , s  n Khi ta có: 1) Nếu D  x k i   d với i  0, ,s 1       n       FPD  Φ  R  , Φ  R   x n  s   n  s FPDU U Φ RC , Φ RC  D s 1 U 2) Nếu C D C xk i B   xk i D     FPDU U Φ RB ,Φ RB D i 0 C k i    xk i C   xk i D  với i  0, , s    FPDU U Φ  RC  ,Φ  RC D  Algorithm IFW_FDAR_DelObj Input: Đầu vào Bảng định DS  U , C  D  với U  x1 , x2 , , xn  , quan hệ tương đương mờ R , tập rút gọn B  C ; Ma trận tương đương mờ MU  RB   mijB  , MU  RC   mijC  , MU  RD   dij  nn nn Output: nn Tập đối tượng gồm s phần tử bị loại bỏ U  xk 1 , xk 2 , , xk  s 1 , s  n Tập rút gọn xấp xỉ Bbest DS   U  U , C  D  có độ xác phân lớp cao T :  ; Đặt X : U ; For i  to s  If xk i B  xk i D then X : X  xk i ; If X   then Return B0 ; Đặt U : X ; s  U ; Tính FPDs ban đầu: FPDU  Φ  RB  ,Φ  RBD   ; FPDU  Φ  RC  ,Φ  RC D   Tính khoảng cách mờ Mệnh đề 3.6 loại tập đối tượng U :           FPDU U Φ RB ,Φ RB D ; FPDU U Φ RC ,Φ RC D ; 17 // Giai đoạn Fifter, tìm ứng viên cho tập rút gọn While FPDU U  Φ  RB  ,Φ  RBD    FPDU U  Φ  RC  ,Φ  RC D   U 10 11 12 13 Begin For each a  B Begin Tính FPDU U Φ  RB a  , Φ  RB aD  Mệnh đề 3.6 loại bỏ tập đối tượng ; 14 Tính 15 16      SIGB a  a  : FPDU U Φ RB a , Φ RB aD End; Chọn am  B cho    FPD U U  Φ  R  , Φ  R  ; B BD ; SIGB  am   Min SIGB a  a  aB 17 B : B  am  ; 18 B0 : B0  am  ; 19 T : T  B0 ; 20 End; // Giai đoạn Wrapper tìm tập rút gọn có độ xác phân lớp cao 21 Đặt t : T // T  B0  a1 , B0  a1 , a2  , , B0  a1 , a2 , , at  ; * + * + * +; 22 Đặt 23 For j:= to t T 24 Tính độ xác phân lớp j phân lớp sử dụng phương pháp 10-fold; Bbest : T jo với T jo có độ xác phân lớp cao nhất; 25 Return; (| | ) Độ phức tạp thuật toán IFW_FDAR_DelObj là: (| | | | | |) 3.3.3 Thực nghiệm thuật toán 3.3.3.1 Mục tiêu thử nghiệm Trong phần cài đặt thử nghiệm để đánh giá độ xác phân loại thuật toán IFW_FDAR_DelObj so với thuật toán gia tăng dựa tập thô theo tiếp cận fifter IFSD [36] IFSD thuật toán gia tăng rút gọn thuộc tính dựa hàm phụ thuộc loại bỏ tập đối tượng 3.3.3.2 Dữ liệu thử nghiệm Bảng 3.2 Mô tả liệu loại bỏ tập đối tượng Stt Bộ liệu Số đối tƣợng Số thuộc tính điều kiện Số lớp định Audiology Dermatology Arrhythmia Mfeat-factor Chess-kr-vs-kp Satimage Mushroom Letter 226 366 452 2000 3196 6435 8124 20000 69 34 279 216 36 36 22 16 24 16 10 26 18 Thời gian thực Để đánh giá hiệu thời gian thực độ xác thuật tốn, chúng tơi chọn xóa ngẫu nhiên 10%, 20%, 30%, 40% đối tượng liệu xóa tập đối tượng ký hiệu tương ứng U1, U2, U3, U4 Dữ liệu ban đầu ký hiệu U 3.3.3.3 Kết so sánh thời gian thực thuật toán IFW_FDAR_DelObj với thuật toán IFSD IFW_FDAR_DelObj IFSD U1 U2 U3 Tập đối tượng bị loại Bộ liệu Audiology U4 Hình 3.4 Thời gian thực thuật toán IFW_FDAR_DelObj IFSD 3.3.3.4 Kết so sánh độ xác phân lớp số lượng thuộc tính tập rút gọn thu thuật tốn IFW_FDAR_DelObj thuật tốn IFSD Hình 3.5 Độ xác phân lớp thuật toán IFW_FDAR_DelObj thuật toán IFSD Hình 3.6 Số lượng thuộc tính tập rút gọn IFW_FDAR_DelObj IFSD CHƢƠNG THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH 4.1 Mở đầu Trong chương này, trước hết luận án trình bày cơng thức gia tăng cập nhật khoảng cách mờ bổ sung, loại bỏ tập thuộc tính Dựa cơng thức tính tốn gia tăng khoảng cách mờ xây dựng, luận án trình bày 02 thuật tốn: 1) Thuật tốn gia tăng filter-wrapper IFW_FDAR_AA tìm tập rút gọn bổ sung tập thuộc tính 19 2) Thuật tốn gia tăng filter-wrapper IFW_FDAR_DA tìm tập rút gọn loại bỏ tập thuộc tính Hai thuật tốn đề xuất theo tiếp cận kết hợp filter-wrapper, giai đoạn filter tìm ứng viên cho tập rút gọn (là tập thuộc tính bảo tồn độ đo sử dụng), giai đoạn wrapper tìm tập rút gọn có độ xác phân lớp cao Hai thuật toán đề xuất nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp Kết nghiên cứu chương công bố công trình số 4, phần “Danh mục cơng trình tác giả” 4.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập thuộc tính 4.2.1 Cơng thức gia tăng cập nhật khoảng cách bổ sung tập thuộc tính Mệnh đề 4.1 Cho bảng định DS  U , C  D  với U  u1 , u2 , , un  Giả sử tập thuộc tính điều kiện B bổ sung vào C với B  C   Giả sử M ( RB )  bij  nn , M ( RC )  cij  nn , M ( RD )   dij  nn ma trận tương đương mờ quan hệ tương đương mờ B, C, D tương ứng Khi ta có: 1) Nếu cij  dij với  i, j  n 2) Nếu bij  cij với  i, j  n FPD  C  B, C  B  D   FPD  C , C  D   3) Nếu bij  cij FPD  C  B, C  B  D    c ij  cij , dij    b ij  bij , dij   n n2 RB , RC , RD n i 1 j 1 với  i, j  n FPD  C  B, C  B  D   FPD  B, B  D   n2 n n i 1 j 1 4.2.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập thuộc tính Từ cơng thức gia tăng tính khoảng cách mờ Mệnh đề 4.1 ta có Mệnh đề 4.2 sau đây: Mệnh đề 4.2 Cho bảng định DS  U , C  D  với U  u1, u2 , , un  R  C tập rút gọn dựa khoảng cách mờ Giá sử tập thuộc tính điều kiện B bổ sung vào C với B  C   Đặt M ( RB )  bij  nn , M ( RC )  cij  nn , M ( RD )  dij  nn ma trận tương đương mờ quan hệ tương đương mờ 1) Nếu bij  cij 2) Nếu bij  cij RB , RC , RD B, C, D tương ứng Khi ta có: với  i  n,1  j  n R tập rút gọn DS1  U , C  B  D  với  i  n,1  j  n B chứa tập rút gọn DS1  U , C  B  D Thuật toán IFW_FDAR_AA (Incremental Filter-Wrapper Fuzzy Distance-based Attribute Reduction Algorithm when Adding Attributes) Đầu vào: 1) Bảng định DS  U , C  D  với U  u1 , u2 , , un  , tập rút gọn R  C , ma trận tương đương mờ M ( RC )  cij  nn , M ( RD )  dij  nn quan hệ tương đương mờ RC , RD , khoảng cách mờ FPD C, C  D  ; 2) Tập thuộc tính bổ sung B với B  C   ; Đầu ra: Tập rút gọn R1 DS1  U , C  B  D  Bước 1: Khởi tạo kiểm tra tập thuộc tính bổ sung T :  // Chứa ứng viên tập rút gọn; 20 Tính ma trận quan hệ tương đương mờ M ( R B )  bij  nn ; If bij  cij với  i  n,1  j  n then Return R ; If bij  cij với  i  n,1  j  n then R   ; //Tìm tập rút gọn tập B Bước 2: Thực thuật tốn tìm tập rút gọn // Giai đoạn filter, tìm ứng viên cho tập rút gọn xuất phát từ tập R While FPD  R, R  D   FPD C  B, C  B  D  Begin For each a  B tính SIGR  a   FPD  R, R  D   FPD  R  a , R  a  D  với FPD  R a , R a  D  tính cơng thức Mệnh đề 3.7 Chọn am  B cho SIGR  am   Max SIGR  a  ; aB R : R  am  ; 10 T : T  R ; 11 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 12 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa T  R  ai  , R  ai ,  , , R  ai , , ,  ; 13 Đặt    t   T1 : R  ai1 ; T2 : R  ai1 , ai2 ; ; Tt : R  ai1 , ai2 , , ait  14 For j = to t tính độ xác phân lớp T j phân lớp; 15 R1 : T jo với T jo có độ xác phân lớp cao Return R1 ;   Độ phức tạp thuật toán IFW_FDAR_AA là: O B U  O  B * T  4.2.3 Thực nghiệm đánh giá thuật toán 4.2.3.1 Mục tiêu thực nghiệm Nhằm đánh giá tính hiệu thuật tốn gia tăng filter-wrapper đề xuất IFW_FDAR_AA với thuật toán gia tăng filter FRSA-IFS-HIS(AA) cơng trình [58] số lượng thuộc tính tập rút gọn độ xác mơ hình phân lớp FRSA-IFS-HIS(AA) thuật tốn gia tăng filter tìm tập rút gọn sử dụng độ phụ thuộc mờ tập thô mờ trường hợp bổ sung tập thuộc tính 4.2.3.2 Dữ liệu thực nghiệm Bảng 4.1 Bộ liệu thử nghiệm Số thuộc Số thuộc Số thuộc Số lớp Số đối STT Tập liệu tính điều tính ban tính gia tƣợng kiện đầu tăng định (1) (2) (3) (4) (5) (6) (7) Libras movement 360 90 45 45 15 (Libra) Wisconsin diagnostic breast 569 30 15 15 cancer (WDBC) Horse colic 368 22 12 10 (Horse) Credit approval 690 15 10 (Credit) 21 German credit data (German) Waveform (Wave) 1000 20 10 10 5000 21 11 10 4.2.3.3 Kết so sánh số lượng thuộc tính tập rút gọn độ xác phân lớp hai thuật tốn IFW_FDAR_AA thuật tốn FRSA-IFS-HIS(AA) Hình 4.1 trình bày kết so sánh độ xác phân lớp Hình 4.2 trình bày số lượng thuộc tính tập rút gọn hai thuật toán IFW_FDAR_AA FRSA-IFS-HIS(AA) Kết hình cho thấy, với bước lặp bổ sung tập thuộc tính gia tăng tồn thuộc tính, độ xác phân lớp IFW_FDAR_AA cao FRSA-IFSHIS(AA) chút tất tập liệu Hơn nữa, số thuộc tính tập rút gọn IFW_FDAR_AA nhỏ nhiều FRSA-IFS-HIS(AA), đặc biệt tập rút gọn có số thuộc tính lớn Libra Do đó, thời gian thực tính khái qt hóa tập luật phân lớp tập rút gọn IFW_FDAR_AA hiệu so với FRSA-IFS-HIS(AA) Hình 4.1 Độ xác phân lớp IFW_FDAR_AA FRSA-IFS-HIS(AA) Hình 4.2 Số lượng thuộc tính tập rút gọn IFW_FDAR_AA FRSA-IFS-HIS(AA) 4.2.3.3 Kết so sánh thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AA thuật tốn FRSA-IFS-HIS(AA) Hình 4.3 trình bày kết so sánh thời gian thực hai thuật toán IFW_FDAR_AA FRSA-IFS-HIS(AA) (tính giây s) Kết Hình 4.3 cho thấy, thời gian thực IFW_FDAR_AA cao FRSA-IFS-HIS(AA) tất tập liệu, nguyên nhân IFW_FDAR_AA thêm chi phí thời gian thực phân lớp giai đoạn wrapper, nhược điểm chung thuật toán theo tiếp cận filter-wrapper Tuy 22 nhiên, với mục tiêu giảm thiểu độ phức tạp tăng độ xác tập luật phân lớp chi phí thời gian tìm tập rút gọn thuật tốn đề xuất chấp nhận Hình 4.2 Thời gian thực IFW_FDAR_AA FRSA-IFS-HIS(AA) (Tính s) 4.3 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn loại bỏ tập thuộc tính 4.3.1 Cơng thức cập nhật khoảng cách loại bỏ tập thuộc tính Mệnh đề 4.3 Cho bảng định DS  U , C  D  tính điều kiện B loại bỏ khỏi C với M ( RB )  bij  nn , M ( RC )  cij  nn , BC M ( RA )   aij  nn , với ACB M ( RD )   dij  đương mờ quan hệ tương đương mờ FPD  A, A  d   FPD  C , C  d   n2 n n  a ij i 1 j 1 U  u1 , u2 , , un   tập thuộc tính cịn lại Đặt nn tương ứng ma trận tương RB , RC , RA , RD  Giá sử tập thuộc  Khi ta có:   cij  cij , dij  aij , dij   4.3.2 Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn loại bỏ tập thuộc tính Thuật tốn IFW_FDAR_DA (Incremental Filter-Wrapper Fuzzy Distance-based Attribute Reduction Algorithm when Deleting Attributes) Đầu vào: Bảng định 1) trận tương đương mờ 2) DS  U , C  D  M ( RC )  cij  nn , với M ( RD )   dij  Tập thuộc tính B loại bỏ khỏi C với Đầu ra: Tập rút gọn R1 U  u1 , u2 , , un  , nn tập rút gọn R  C , ma , khoảng cách mờ FPD  C, C  D  ; BC ; DS1  U ,  C  B   D  ; 1) Trường hợp 1: If 2) Trường hợp 2: If BCR RB then Retturn (R); then thực thuật tốn khơng gia tăng filter- wrapper tìm tập rút gọn sử dụng khoảng cách FW_FDBAR mục 2.4 Chƣơng 23 Trường hợp 3: If 3) RB   then thực bước thuật tốn tìm tập rút gọn Bước 1: Khởi tạo Đặt T :  ; A : C  B ; // Chứa ứng viên tập rút gọn 2.Tính ma trận tương đương mờ R : R  B 3.Đặt M ( RB )  bij  nn , M ( RA )   aij  nn //Xét thuộc tính tập rút gọn Bước 2: Thực thuật tốn tìm tập rút gọn // Giai đoạn filter, tìm ứng viên cho tập rút gọn xuất phát từ tập R While FPD  R, R  D   FPD  A, A  D  Begin For each a  R tính  FPD R  a , R  a  D am  R Chọn R : R  am  ;   SIGR  a   D R  a , R  a  D  D  R, R  D  với  tính cơng thức Mệnh đề 3.9; cho SIGR  am   Min SIGR  a  ; aR T : T  R ; 10 End; // Giai đoạn Wrapper, tìm tập rút gọn có độ xác phân lớp cao 11 Đặt //t số phần tử T, T chứa chuỗi thuộc tính chọn, t : T        ; nghĩa T  R  ai1 , R  ai1 , ai2 , , R  ai1 , , ait 12 Đặt T1  R  ai1 , T2  R  ai1 , ai2 , , Tt  R  ai1 , , ait       13 For j = to t tính độ xác phân lớp R1 : T jo với T jo 14 T j phân lớp; có độ xác phân lớp lớn 15 Return R1 ; Trường hợp tốt nhất, thuật toán rơi vào Trƣờng hợp 1, nghĩa tập rút gọn không thay đổi Trường hợp xấu nhất, thuật toán rơi vào Trƣờng hợp 2, thực lại thuật tốn FW_FDAR tìm tập rút gọn bảng định sau xóa tập thuộc tính B với độ phức tạp là:  O CB *U Trƣờng  O RB *U 2   O  C  B *T  hợp 3:   O  R  B *T  độ phức tạp thuật toán IFW_FDAR_DA 24 KẾT LUẬN Các kết đạt đƣợc Luận án Luận án nghiên cứu hướng tiếp cận kết hợp filter-wrapper tìm tập rút gọn bảng định nhằm giảm thiểu số lượng thuộc tính tập rút gọn, từ giảm thiểu độ phức tạp mơ hình phân lớp nâng cao độ xác mơ hình phân lớp Kết luận án bao gồm: (1) Đề xuất thuật tốn filter-wrapper tìm tập rút gọn bảng định sử dụng độ đo khoảng cách mờ Đóng góp trình bày Chương (2) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập đối tượng Đóng góp trình bày Chương (3) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi trường hợp bổ sung, loại bỏ tập thuộc tính Đóng góp trình bày Chương Định hƣớng phát triển (1) Triển khai thuật toán đề xuất vào việc giải lớp toán thực tiễn, đặc biệt tốn có liệu với số thuộc tính lớn (high dimention data) lĩnh vực khác liệu gen tin sinh học… (2) Tiếp tục nghiên cứu, đề xuất thuật toán gia tăng filter-wrapper hiệu nhằm giảm thiểu thời gian thực dựa mơ hình tập thơ mở rộng khác phù hợp với lớp toán thực tiễn DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ STT TÊN BÀI BÁO Nguyen Long Giang, Le Hoang Son, Tran Thi Ngan, Tran Manh Tuan, Ho Thi Phuong, Mohamed Abdel-Basset, Antônio Roberto L de Macêdo, VictorHugo C de Albuquerque, “Novel Incremental Algorithms for Attribute Reduction from DynamicDecision Tables using Hybrid Filter–Wrapper with Fuzzy Partition Distance”, IEEE Transactions on Fuzzy Systems, Volume 28, Issue 5, pp 858-873, 2020 (SCIE, Q1, IF = 9.518) Hồ Thị Phượng, Cao Chính Nghĩa, Nguyễn Long Giang, Nguyễn Ngọc Cương, “Về thuật toán filter-wrapper tìm tập rút gọn bảng định sử dụng khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc CNTT TT, Thái Bình, 2829/6/2019, Tr 333-339 Hồ Thị Phượng, Cao Chính Nghĩa, Nguyễn Long Giang, “Về thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định sử dụng khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc CNTT TT, Quảng Ninh, 5-6/11/2020, Tr 483-490 Ho Thi Phuong, Nguyen Long Giang, “fuzzy distance-based filterwrapper incremental algorithms for attribute reduction when adding or deleting attribute set”, Vietnam Journal of Science and Technology Vietnam Academy of Science and Technology Accepted (06/01/2021) ... nhiều phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ đề xuất, điển hình phương pháp sử dụng hàm thuộc mờ [2, 3, 4], phương pháp sử dụng miền dương mờ [5, 6], phương pháp sử dụng entropy mờ. .. ta cần giải tốn rút gọn thuộc tính bảng định kích thước lớn thay đổi Các phương pháp rút gọn thuộc tính theo tiếp cận truyền thống bảng định gặp hai thách thức Thứ nhất, với bảng định có kích thước... hợp bổ sung, loại bỏ tập thuộc tính Đóng góp trình bày Chương luận án CHƢƠNG TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP THƠ MỜ 1.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính tốn quan trọng

Ngày đăng: 08/06/2021, 07:24

Tài liệu cùng người dùng

Tài liệu liên quan