Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ (tt)

27 152 0
Một số phương pháp lai ghép trong rút gọn thuộc tính theo tiếp cận tập thô mờ (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - NGUYỄN VĂN THIỆN MỘT SỐ PHƯƠNG PHÁP LAI GHÉP TRONG RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THƠ MỜ Chun ngành: Hệ thống thông tin Mã số: 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CƠNG NGHỆ THƠNG TIN Hà Nội - 2018 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS Nguyễn Long Giang Người hướng dẫn khoa học 2: TS Nguyễn Như Sơn Phản biện 1: PGS.TS Lê Hoàng Sơn Phản biện 2: PGS.TS Nguyễn Hà Nam Phản biện 3: PGS.TS Đỗ Văn Thành Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam Danh mục cơng trình tác giả Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Về phương pháp rút gọn thuộc tính bảng định với miền trị thuộc tính nhận giá trị số theo tiếp cận tập thô mờ”, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng CNTT&TT, Tạp chí thông tin khoa học công nghệ Bộ thông tin và Truyền thông, Tập V-2, số 16 (36), 12-2016, Tr 40-49 Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang, Nguyen Nhu Son, “A Method to Construct an Extension of Fuzzy Information Granularity Based on Fuzzy Distance”, Serdica Journal of Computing 10 (2016), Sofia, Bulgarian Academy of Sciences, No 1, 2016, pp 13-30 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phương pháp rút gọn thuộc tính bảng định có miền giá trị liên tục theo tiếp cận tập thô mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc Công nghệ thông tin và truyền thông-TP HCM,05-06/11/2015 Nguyễn Văn Thiện, Nguyễn Như Sơn, Nguyễn Long Giang, Cao Chính Nghĩa, “Về phương pháp xây dựng độ phân hạt mờ mở rộng dựa khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX - Một số vấn đề chọn lọc CNTT và TT, Hà Nội, 01-02/10/2016, Tr 371-376 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phương pháp rút gọn thuộc tính trực tiếp bảng định sử dụng khoảng cách mờ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu và ứng dụng CNTT (FAIR’9), Cần Thơ, 04-05/08/2016, Tr 825-835 Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS'2018: International Joint Conference on Rough Sets 2018, Quy Nhon, Viet Nam, August 20-24, 2018 (Accepted) Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Phương pháp gia tăng rút gọn thuộc tính bảng định sử dụng khoảng cách phân hoạch mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr 296- 302 MỞ ĐẦU Lý thuyết tập thô mờ (Fuzzy rough set) Dubois cộng [22, 23] đề xuất kết hợp lý thuyết tập thô lý thuyết tập mờ nhằm xấp xỉ tập mờ dựa quan hệ tương đương mờ (fuzzy equivalent relation) xác định miền giá trị thuộc tính Từ xuất hiện, lý thuyết tập thơ mờ cơng cụ hiệu để giải tốn rút gọn thuộc tính trực tiếp bảng định gốc (bảng định khơng qua bước rời rạc hóa liệu) nhằm nâng cao độ xác hình phân lớp Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ sôi động năm gần đây, bao gồm phương pháp phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, số nhà nghiên cứu đề xuất phương pháp mở rộng dựa độ đo khác định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Tuy nhiên, giống phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ phương pháp filter, nghĩa độ xác hình phân lớp đánh giá sau tìm tập rút gọn Tập rút gọn thu thỏa mãn điều kiện bảo tồn độ đo mà khơng bảo đảm có độ xác phân lớp cao Do đó, tập rút gọn phương pháp filter chưa tối ưu số lượng thuộc tính độ xác phân lớp Với mục tiêu tối ưu số lượng thuộc tính tập rút gọn nâng cao độ xác phân lớp so với phương pháp filter công bố, luận án nghiên cứu hướng tiếp cận lai ghép filter-wrapper Ngày nay, bảng định thường có kích thước lớn thay đổi, cập nhật Việc áp dụng thuật tốn tìm tập rút gọn theo tiếp cận tập thơ truyền thống hình tập thơ mở rộng gặp nhiều thách thức Trường hợp bảng định bị thay đổi, thuật tốn tính lại tập rút gọn toàn bảng định sau thay đổi phí thời gian tính tốn tăng lên đáng kể Trường hợp bảng định có kích có thước lớn, việc thực thuật tốn tồn bảng định gặp khó khăn thời gian thực Vì vậy, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn Các thuật tốn gia tăng có khả giảm thiểu thời gian thực có khả thực bảng định kích thước lớn giải pháp chia nhỏ bảng định thành phần Theo tiếp cận tập thô truyền thống tập thô dung sai, nghiên cứu liên quan đến thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi sôi động tập trung vào trường hợp: bổ sung loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, tác giả [24, 65] xây dựng cơng thức gia tăng tính tốn khoảng cách, sở xây dựng thuật tốn gia tăng tìm tập rút gọn trường hợp bổ sung, loại bỏ tập đối tượng bổ sung, loại bỏ tập thuộc tính Trong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tập rút gọn bảng định theo tiếp cận tập thô mờ trường hợp: bổ sung loại bỏ tập thuộc tính [15, 16], bổ sung tập đối tượng [97, 98, 99] Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thơ mờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật tốn nêu theo hướng tiếp cận filter truyền thống Do theo tiếp cận tập thơ mờ, luận án nghiên cứu thuật tốn gia tăng filter-wrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính tập rút gọn nâng cao độ xác hình phân lớp Mục tiêu luận án tập trung nghiên cứu hai nội dung Thứ đề xuất thuật tốn lai ghép filter-wrapper tìm tập rút gọn bảng định sử dụng độ đo khoảng cách mờ cải tiến độ đo khác theo tiếp cận tập thô mờ nhằm giảm thiểu số lượng thuộc tính tập rút gọn nâng cao độ xác hình phân lớp Thứ hai đề xuất thuật toán gia tăng filter-wrapper tìm tập rút gọn bảng định thay đổi sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ nhằm giảm thiểu thời gian thực nâng cao độ xác so với thuật toán gia tăng khác Với mục tiêu đặt ra, luận án đạt hai kết sau: 1) Đề xuất hai thuật tốn filter-wrapper tìm tập rút gọn bảng định theo tiếp cận tập thô mờ: Thuật toán sử dụng hàm thuộc mờ thuật toán sử dụng khoảng cách mờ Độ đo khoảng cách mờ xây dựng mở rộng độ đo khoảng cách cơng trình [48] Các đóng góp trình bày chương luận án cơng bố cơng trình 1, 2, 4, 5, 2) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tập rút gọn bảng định trường hợp bổ sung tập đối tượng loại bỏ tập đối tượng sử dụng độ đo khoảng cách mờ xây dựng Các đóng góp trình bày chương luận án công bố công trình Bố cục luận án gồm phần mở đầu ba chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tập thơ truyền thống, hình tập thơ mờ tổng quan tiếp cận filter-wrapper rút gọn thuộc tính Chương trình bày nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thơ mờ, nghiên cứu liên quan đến phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thơ mờ năm gần Trêm sở đó, luận án phân tích vấn đề tồn nêu rõ mục tiêu nghiên cứu với tóm tắt kết đạt Chương trình bày hai kết nghiên cứu: thứ đề xuất thuật tốn filter-wrapper tìm tập rút gọn sử dụng hàm thuộc mờ; thứ hai xây dựng độ đo khoảng cách mờ đề xuất thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ xây dựng Cả hai đề xuất nhằm mục tiêu tối thiểu hóa số thuộc tính tập rút gọn nâng cao độ xác hình phân lớp so với phương pháp filter trước Chương đề xuất hai thuật toán gia tăng filter-wrapper; thuật tốn gia tăng filter-wrapper thứ tìm tập rút gọn bảng định trường hợp bổ sung tập thuộc tính; thuật tốn gia tăng filter-wrapper thứ hai tìm tập rút gọn bảng định trường hợp loại bỏ tập thuộc tính Cả hai thuật tốn đề xuất sử dụng độ đo khoảng cách mờ đề xuất chương có mục tiêu giảm thiểu thời gian thực so với thuật toán khơng gia tăng nâng cao độ xác phân lớp so với thuật toán gia tăng khác cơng bố Cuối cùng, phần kết luận nêu đóng góp luận án, hướng phát triển vấn đề quan tâm tác giả Chƣơng TỔNG QUAN 1.1 Một số khái niệm lý thuyết tập thô mờ 1.1.1 Quan hệ tương đương mờ Định nghĩa 1.1 [32, 71] Cho bảng định DS  U , C  D  , quan hệ R xác định miền giá trị thuộc tính gọi quan hệ tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive): R  x, x   ; 2) Tính đối xứng (symetric): R  x, y   R  y, x  ; 3)Tính bắc cầu max-min (max-min transitive): R  x, z   R  x, y  , R  y, z  ; với R  x, y  giá trị quan hệ hai đối tương x y Mệnh đề 1.1 [72] Cho bảng định DS  U , C  D  quan hệ tương đương mờ R Ký hiệu R P , R Q tương ứng quan hệ R xác định tập thuộc tính P, Q Khi đó, với x, y U ta có: 1) R P  RQ  R P  x, y   RQ  x, y    R  x, y   R  2) R PQ  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y  3) R PQ  R P  RQ P  x, y  , RQ  x, y  4) R P  RQ  R P  x, y   RQ  x, y  1.1.2 Ma trận tương đương mờ Định nghĩa 1.2 Cho bảng định DS  U , C  D  với U  x1 , x2 , , xn  R P quan hệ tương đương mờ xác định tập thuộc tính P  C Khi đó, ma trận tương đương mờ biểu diễn R P , ký hiệu M  R P    pij nn , định nghĩa sau:  p11 p M ( R P )   21    pn1 p12 p22 pn p1n  p2 n     pnn  với pij  R P  xi , x j  giá trị quan hệ hai đối tượng xi x j tập thuộc tính P, pij  0,1 , xi , x j U ,1  i, j  n Như vậy, giá trị phần tử ma trận tương đương mờ M  R P  phụ thuộc vào quan hệ tương đương mờ R P chọn 1.1.3 Phân hoạch mờ Định nghĩa 1.3 Cho bảng định DS  U , C  D  với P  C , U  x1 , x2 , , xn  quan hệ tương đương mờ P Khi phân hoạch mờ U sinh RP , RP ký hiệu   R P  , xác định sau    R P  U / R P   xi P i 1   x1 P , ,  xn P  n (1.8) với  xi P  pi1 / x1  pi / x2   pin / xn tập mờ đóng vai trò lớp tương đương mờ (fuzzy equivalent class) đối tượng xi U Với lớp tương đương mờ  xi P , hàm thuộc của đối tượng x j U xác định  xi   x j   RP  xi , x j   R P  xi , x j   pij lực lượng lớp đương đương mờ  xi P P n tính  xi P   pij j 1 1.1.4 Các tập xấp xỉ mờ miền dương mờ Định nghĩa 1.4 [66, 70, 85, 87] Cho X tập mờ U R P quan hệ tương đương mờ tập thuộc tính P  C Khi đó, tập xấp xỉ mờ R P X tập xấp xỉ mờ R P X X tập mờ hàm thuộc đối tượng x U xác định sau: R PX  x    sup F  x  ,inf max 1  F  y  ,  X  y  FU / R P yU (1.9)   sup  F  x  ,sup F  y  ,  X  y  (1.10) P yU FU / R P   với ký hiệu inf, sup tương ứng cận cận tập hợp X; F lớp tương đương mờ phân hoạch mờ U / R P Với tập xấp xỉ mờ xấp xỉ mờ xác định Định nghĩa 1.6, R  x  X gọi tập thô mờ RP X , RP X Định nghĩa 1.5 [66] Cho bảng định DS  U , C  D  R P , RQ tương ứng hai quan hệ tương đương mờ xác định P, Q  C Khi đó, miền dương mờ R Q R P , ký hiệu POSR  RQ  , tập mờ mà hàm thuộc x U xác định sau: P POS  R   x   sup R X U / R RP Q Q PX  x (1.11) 1.2 Rút gọn tính 1.2.1 Tổng quan rút gọn thuộc tính Rút gọn thuộc tính tốn quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộc tính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật tốn khai phá liệu: Gia tăng tốc độ, cải thiện chất lượng tính dễ hiểu kết thu Các kỹ thuật rút gọn thuộc tính thường phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) biến đổi thuộc tính (Attribute transformation) Trong luận án này, nghiên cứu hướng tiếp cận lựa chọn thuộc tính, gọi chung rút gọn thuộc tính 1.2.2 Tiếp cận filter, wrapper rút gọn thuộc tính Hiện có hai cách tiếp cận tốn rút gọn thuộc tính [43, 44]: filter (lọc) wrapper (đóng gói) Cách tiếp cận filter thực việc rút gọn thuộc tính độc lập với thuật khai phá liệu sử dụng sau Cho đến nay, phần lớn phương pháp rút gọn thuộc tính dựa lý thuyết tập thô mở rộng theo hướng tiếp cận Cách tiếp cận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tập thuộc tính Cách tiếp cận filter có ưu điểm thời gian tính tốn nhanh, nhược điểm khơng sử dụng sử dụng thông tin nhãn lớp liệu nên độ xác khơng cao Hình 1.2 Cách tiếp cận filter wrapper rút gọn thuộc tính Nhằm kết hợp ưu điểm hai cách tiếp cận filter wrapper, số cách tiếp cận tác giả đề xuất, chẳng hạn cách tiếp cận lai ghép filter-wrapper [67, 91] 1.3 Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ 1.3.1 Các nghiên cứu liên quan Cho đến nay, nghiên cứu liên quan đến rút gọn thuộc tính trực tiếp bảng định gốc theo tiếp cận tập thô mờ tập trung vào phương pháp như: phương pháp sử dụng miền dương mờ [2, 72, 80, 92], phương pháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phương pháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phương pháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, số nhà nghiên cứu đề xuất phương pháp mở rộng dựa độ đo khác định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Kết thử nghiệm số liệu mẫu cho thấy, phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ có độ xác phân lớp cao phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống 1.3.2 Các vấn đề tồn Giống phương pháp rút gọn thuộc tính theo tiếp cận tập thơ, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ công bố phương pháp heuristic theo tiếp cận filter Nghĩa là, độ xác phân lớp đánh giá sau tìm tập rút gọn 1) Tập rút gọn phương pháp theo hướng tiếp cận filter nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp 1.4 Các nghiên cứu liên quan đến phƣơng pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ 1.4.1 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô truyền thống tập thô dung sai Theo tiếp cận tập thô truyền thống tập thô dung sai, nghiên cứu liên quan đến thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi sôi động tập trung vào trường hợp: bổ sung loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung loại bỏ thuộc tính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, tác giả [24, 65] xây dựng cơng thức gia tăng tính tốn khoảng cách, sở xây dựng thuật tốn gia tăng tìm tập rút gọn trường hợp bổ sung, loại bỏ tập đối tượng bổ sung, loại bỏ tập thuộc tính 1.4.2 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ Trong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi theo tiếp cận tập thô mờ Zeng cộng [15] xây dựng thuật toán gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ trường hợp bổ sung loại bỏ thuộc tính (tương ứng FRSA-IFS-HIS-AA FRSA-IFS-HIS-AD) Với trường hợp bổ sung tập đối tượng, Yang cộng [98] xây dựng thuật tốn gia tăng IARM tìm tập rút gọn sử dụng quan hệ phân biệt Yang cộng [99] đề xuất hai phiên thuật tốn gia tăng tìm tập rút gọn trường hợp bổ sung tập đối tượng: thuật toán V-FS-FRS-1 V-FS-FRS-2 Liu cộng [97] xây dựng công thức tính gia tăng hàm thuộc mờ trường hợp bổ sung tập đối tượng, sở xây dựng thuật tốn gia tăng tìm tập rút gọn sử dụng hàm thuộc mờ FIAR 1.4.3 Các vấn đề tồn 1) Các thuật tốn gia tăng tìm tập rút gọn theo tiếp cận tập thô mờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếp cận lọc truyền thống (filter) Vì vậy, tập rút gọn tìm thuật toán nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp 2) Các nghiên cứu liên quan đến phương pháp gia tăng trình bày mục 1.4.3.2 giải tốn rút gọn thuộc tính trường hợp bổ sung tập đối tượng, bổ sung loại bỏ tập thuộc tính, cập nhật tập thuộc tính, chưa giải tốn xóa bỏ tập đối tượng Chƣơng RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG HÀM THUỘC MỜ VÀ KHOẢNG CÁCH MỜ 2.1 Mở đầu Trong chương này, luận án đề xuất hai thuật tốn theo hướng tiếp cận lai ghép filterwrapper tìm tập rút gọn xấp xỉ nhằm giảm thiểu số thuộc tính tập rút gọn nâng cao độ xác hình phân lớp Giai đoạn filter tìm ứng viên cho tập rút gọn dựa vào độ đo (còn gọi tập rút gọn xấp xỉ), giai đoạn wrapper tính tốn độ xác phân lớp ứng viên lựa chọn tập rút gọn xấp xỉ có độ xác phân lớp cao (1) Thuật tốn filter-wrapper tìm tập rút gọn sử dụng hàm thuộc mờ tập thơ mờ (2) Thuật tốn filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ Khoảng cách mờ xây dựng mở rộng khoảng cách phân hoạch cơng trình [48] khác độ đo khoảng cách mờ cơng trình [3, 8, 18] Các kết chương công bố cơng trình 1, 2, 4, 5, 2.2 Rút gọn thuộc tính sử dụng hàm thuộc mờ 2.2.1 Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter 1) Hàm thuộc mờ tập thô mờ Cho bảng định DS  U , C  D  với U  u1 , , un , C  c1, , cm  Với P  C , giả sử R P quan hệ tương đương mờ xác định miền giá trị thuộc tính P Hàm thuộc mờ P dựa quan hệ R P định nghĩa tập thô mờ sau [77, 78]  R  D  POS RP D  x   xU POS  RP D  x U U 2) Thuật toán heuristic tìm tập rút gọn sử dụng độ phụ thuộc mờ thuộc tính theo tiếp cận filter Thuật tốn F_FRSAR (Filter_Fuzzy Rough Set based Attribute Reduction) Đầu vào: Bảng định DS  U , C  D  , quan hệ tương đương mờ R xác định miền giá trị thuộc tính điều kiện Đầu ra: Tập rút gọn B DS B :  ;    D  : ; P   Tính ma trận tương đương mờ M RC ; Tính hàm thuộc mờ  RC  D  ; // Thêm dần vào B thuộc tính có độ quan trọng lớn While  RB  D    RC  D  Begin Với a  C  B tính SIGB  a    R B a  D   R  D ; B Chọn am  C  B cho SIGB  am   Max SIGB  a  ; B  B  am  ; Tính  R B  D  ; aC  B 10 End; // Loại bỏ thuộc tính dư thừa B có 11 Với a  B 12 Begin 13 Tính  R B a  D  ; If  R 14 B a  D    R  D  then C B : B  a ; 15 End; 16 Return B; 2 Độ phức tạp thuật toán F_FRSAR O C U   2.2.2 Rút gọn thuộc tính sử dụng hàm thuộc mờ theo tiếp cận filter-wrapper Xét bảng định DS  U , C  D  với C  a1, a2 , , am  R quan hệ tương đương mờ xác định miền giá trị thuộc tính Đặt    R  D  Theo thuật toán F_FRSAR, giả sử thuộc tính , , thêm vào tập rỗng theo giá trị lớn độ quan trọng thuộc C tính tồn t 1,2, m cho  R , , , t   D    Kết thúc thuật toán filter F_FRSAR, ta thu tập rút gọn B  ai , , ,  độ xác phân lớp tập liệu t tính B Mặt khác, theo định nghĩa miền dương mờ lý thuyết tập thô mờ [76, 77, 78, 79] ta có  R   D    R   D     R   D    Với ngưỡng    cho trước, đặt Bk  ai , ,  thỏa mãn  R , Bk , ,ai t  D     R  Bk  k 1   D    Khi đó, k Bk gọi tập rút gọn xấp xỉ ngưỡng  Nếu Bk Bk  ai , ,  sử dụng để xây dựng phân lớp, cơng bố [91] cho thấy, độ k 1 t xác phân lớp Bk  ai , ,  chưa tốt Bk Giả sử Bk có độ k 1 t xác phân lớp tốt Bk  ai , ,  Khi đó, chọn Bk kết thuật tốn Bk có k 1 t độ xác phân lớp cao hơn, có số lượng thuộc tính nên khả khái quát hóa hiệu thực thuật toán phân lớp cao Điều dẫn đến hướng tiếp cận lai ghép tìm tập rút gọn xấp xỉ, kết hợp filter (lọc) wrapper (gói) Phương pháp filter tìm tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ xác phân lớp tập rút gọn xấp xỉ để chọn tập rút gọn có độ xác cao Với hướng tiếp cận này, độ xác phân lớp tập rút gọn tìm cao so với phương pháp lọc truyền thống Tuy nhiên, thời gian thực lớn phải thực phân lớp Thuật tốn filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ sau: Thuật toán FW_FRSAR (Filter-Wrapper Fuzzy Rough Set based Attribute Reduction): Thuật tốn filter-wrapper tìm tập rút gọn xấp xỉ sử dụng hàm thuộc mờ Đầu vào: Bảng định DS  U , C  D  , với C  a1, a2 , , an , quan hệ tương đương mờ R xác định miền giá trị thuộc tính điều kiện Đầu ra: Tập rút gọn xấp xỉ S x có độ xác phân lớp tốt // Khởi tạo B :  ;    D   ; S :  ; Bảng 2.6 Thời gian thực FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS Thuật toán FW_FRSAR STT Bộ liệu Ecoli Ionosphere Wdbc Wpbc Wine Glass Magic04 Pageblocks Thuật toán Thuật toán Thủ tục Filer Thủ tục Tổng Wrapper cộng F_FRSAR GAIN_RATIO _AS_FRS [45] 34 30 33 13 10 2.38 12.64 22.15 8.56 0.58 0.82 894.26 1.24 6.92 8.74 6.28 1.22 0.66 124.49 3.62 19.56 30.89 14.84 1.80 1.48 1018.75 2.86 14.87 24.12 9.12 0.62 0.88 914.86 2.95 15.04 26.08 9.88 0.74 1.02 948.16 10 98.64 22.16 120.80 112.76 126.28 U C 336 351 569 198 178 214 19020 5473 Bảng 2.6 cho thấy, thời gian thực thuật toán FW_FRSAR cao hai thuật toán filter F_FRSAR GAIN_RATIO_AS_FRS phải thực phân lớp giai đoạn wrapper 2.3 Rút gọn thuộc tính sử dụng khoảng cách mờ Trong năm gần đây, nhóm nghiên cứu Nguyễn Long Giang cộng sử dụng độ đo khoảng cách để giải tốn rút gọn thuộc tính bảng định theo tiếp cận tập thô truyền thống [9, 24, 57, 65] bảng định không đầy đủ theo tiếp cận tập thô dung sai [9, 10, 12, 25, 58] Theo tiếp cận tập thơ mờ, nhóm nghiên cứu mở rộng độ đo khoảng cách đề xuất thành độ đo khoảng cách mờsố kết việc sử dụng độ đo khoảng cách mờ để giải toán rút gọn thuộc tính bảng định có miền giá trị số [3, 8, 18] Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm độ đo khoảng cách hiệu (có cơng thức tính tốn đơn giản) giải tốn rút gọn thuộc tính, phần xây dựng độ đo khoảng cách mờ (sau gọi khoảng cách mờ) dựa độ đo khoảng cách phân hoạch cơng trình [48] Sử dụng khoảng cách mờ xây dựng, đề xuất phương pháp filter-wrapper rút gọn thuộc tính bảng định nhằm nâng cao độ xác phân lớp giảm thiểu số lượng thuộc tính tập rút gọn 2.3.1 Xây dựng khoảng cách mờ hai tập mờ   Mệnh đề 2.1 Cho hai tập mờ A, B tập đối tượng U Khi d A, B  A  B  A  B khoảng cách mờ A B 2.3.2 Xây dựng khoảng cách mờ hai phân hoạch mờ     Mệnh đề 2.2 Cho bảng định DS  U ,C  D  với U  x1, x2 , , xn   R P ,  RQ hai phân hoạch mờ sinh hai quan hệ tương đương mờ R P , RQ P, Q  C Khi đó:      D  R P ,  RQ   n   xi P   xi Q   xi P   xi Q n i 1      khoảng cách mờ  R P  RQ , gọi khoảng cách phân hoạch mờ Mệnh đề 2.3 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, khoảng cách mờ hai tập thuộc tính C C  D xác định sau:     D  RC ,  RC D    n   xi C   xi C   xi D n i 1 10    D   R  ,     D   R  ,    Mệnh đề 2.4 Cho  R P  P phân hoạch mờ , ta có: P Mệnh đề 2.5 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  , B  C R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Khi D  R B ,  R BD  D  R C ,  R C D           2.3.3 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter Định nghĩa 2.1 Cho bảng định DS  U , C  D  với B  C R quan hệ tương đương mờ xác định miền giá trị thuộc tính điều kiện Nếu 1) D  R B ,  R BD  D  RC ,  RC D           2) b  B, D   R    ,   R     D   R  ,  R  B b B  b D CD C B tập rút gọn C dựa khoảng cách mờ Định nghĩa 2.2 Cho bảng định DS  U , C  D  với B  C b  C  B Độ quan trọng thuộc tính b B định nghĩa SIGB  b   D   R B  ,   R BD   D   R Bb  ,   R BbD      Độ quan trọng SIGB  b  đặc trưng cho chất lượng phân lớp thuộc tính b thuộc tính định D sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật tốn filter F_FDAR tìm tập rút gọn Thuật tốn F_FDAR (Filter - Fuzzy Distance based Attribute Reduction): Thuật tốn filter tìm tập rút gọn sử dụng khoảng cách mờ Đầu vào: Bảng định DS  U , C  D  , quan hệ tương đương mờ R xác định tập thuộc tính điều kiện Đầu ra: Một tập rút gọn B B   ; D  R B ,  R BD  ;           Tính khoảng cách phân hoạch mờ D  RC ,  RC D ; // Thêm dần vào B thuộc tính có độ quan trọng lớn While D  R B ,  R BD  D  RC ,  RC D          Begin Với a  C  B tính     SIGB  a   D  R B ,  R BD    D   R Ba  ,  R Chọn am  C  B cho SIGB  am   Max SIGB  a  ;  aC  B B  B  am ; End; //Loại bỏ thuộc tính dư thừa B có Với a  B 10 Begin 11 Tính D  R Ba ,  RBaD ;   12 BaD    If D   R    ,  R     D   R  ,  R  then B  B  a ; B a B  a D C 13 End; 11 C D Return B ; 2 Độ phức tạp thời gian thuật toán F_FDAR O C U   2.3.4 Rút gọn thuộc tính sử dụng khoảng cách mờ theo tiếp cận filter-wrapper Xét bảng định DS  U , C  D  với C  a1, a2 , , am  R quan hệ tương đương      mờ xác định miền giá trị thuộc tính điều kiện Đặt   D  RC ,  RC D Theo thuật toán F_FDAR, giả sử thuộc tính , , thêm vào tập rỗng theo giá trị lớn độ quan trọng   thuộc tính  cho      D  Rai1 ,ai2 , ,ait  ,  Rai1 ,ai2 , ,ait D  đến tồn t 1,2, m cho Kết thúc thuật toán, ta thu tập rút gọn B  ai1 , ai2 , , ait , độ xác phân lớp tập liệu tính độ xác phân lớp B Mặt khác, theo D  Ra  ,  Ra D  D  Ra ,a  ,  Ra    i1 ngưỡng  i1     i1 i2   i1 ,ai2 D ai1 , ,ait   đề    D   R Bk  ai1 , , aik cho trước, đặt   Mệnh  2.6  D   R  ,   R       , Rai1 , ,ait D thỏa mãn ta   Với Bk D Bk có D  R Bk aik 1  ,  R Bk aik 1 D   Khi đó, Bk gọi tập rút gọn xấp xỉ ngưỡng  Nếu Bk Bk  ai , ,  sử dụng để xây dựng phân lớp, công bố [91] cho thấy, độ k 1 t xác phân lớp Bk  ai , ,  chưa tốt Bk Giả sử Bk có độ xác k 1 t phân lớp tốt Bk  ai , ,  Khi đó, chọn Bk kết thuật tốn Bk có độ k 1 t xác phân lớp cao hơn, có số lượng thuộc tính nên khả khái quát hóa hiệu thực thuật toán phân lớp cao Điều dẫn đến hướng tiếp cận lai ghép tìm tập rút gọn xấp xỉ, kết hợp filter (lọc) wrapper (gói) Phương pháp filter tìm tập rút gọn xấp xỉ, phương pháp wrapper kiểm tra độ xác phân lớp tập rút gọn xấp xỉ để chọn tập rút gọn có độ xác cao Với hướng tiếp cận này, độ xác phân lớp tập rút gọn tìm cao so với phương pháp filter truyền thống Tuy nhiên, thời gian thực lớn phải thực phân lớp Thuật tốn filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ sau: Thuật toán FW_FDAR (Filter-Wrapper Fuzzy Distance based Attribute Reduction): Thuật tốn filter-wrapper tìm tập rút gọn xấp xỉ sử dụng khoảng cách mờ Đầu vào: Bảng định DS  U , C  D  với C  a1, a2 , , an , quan hệ tương đương mờ R miền giá trị thuộc tính điều kiện Đầu ra: Tập rút gọn xấp xỉ S x có độ xác phân lớp tốt // Khởi tạo B   ; S :  ; D  R B ,  R BD       ; Tính khoảng cách mờ D   R  ,   R  ; C D C // Giai đoạn filter, tìm ứng viên cho tập rút gọn // Thêm dần vào B thuộc tính có độ quan trọng lớn While D  R B ,  R BD  D  RC ,  RC D          Begin Với a  C  B tính     SIGB  a   D  R B ,  R BD   D   R 12  Ba  ,  R BaD  ; Chọn am  C  B cho SIGB  am   Max SIGB  a  ; aC  B B  B  am ; S : S  B ; End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao Đặt t  S // t số phần tử S, S chứa chuỗi thuộc tính chọn   bước lặp vòng lặp While, nghĩa S  ai ,ai , , ,ai , , ,  ; 10 Đặt S1  ai , S2  ai , , , St  ai , , ,  1 2 1 2 t t 11 For j = to t 12 Begin 13 Tính độ xác phân lớp S j phân lớp sử dụng phương pháp 10-fold; 14 End 15 S x  S jo với S jo có độ xác phân lớp lớn Return S x ;   Độ phức tạp thời gian thuật toán FW_FDAR O C * U  O  C * T  với O T  độ 2 phức tạp phân lớp 2.3.5 Thực nghiệm thuật toán 1) Mục tiêu thực nghiệm 1) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter FPDAR [18] thời gian thực độ xác phân lớp 2) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter-wrapper FEBAR [91] thời gian thực độ xác phân lớp 2) Số liệu thực nghiệm Bảng 2.8 Bộ liệu thử nghiệm thuật toán FW_FDAR STT Bộ liệu tả Lympho Wine Libra WDBC Horse Heart Credit German Lymphography Wine Libras movement Wisconsin diagnostic breast cancer Horse colic Statlog (heart) Credit approval German credit data Số thuộc tính điều kiện Tất Thuộc Thuộc Số đối tính định tính thực tƣợng danh (Real(nominal) valued) 148 18 18 178 13 13 360 90 90 569 30 30 368 270 690 1000 22 13 15 20 15 13 6 Số lớp định 15 2 2 3) Kết so sánh độ xác phân lớp Độ xác phân lớp biểu diễn v   v giá trị độ xác trung bình (mean)  sai số chuẩn (standard error) Sử dụng phân lớp CART (cây phân lớp, hồ quy) để tính độ xác phân lớp giai đoạn wrapper với phương pháp kiểm tra chéo 10-fold 13 Bảng 2.9 Độ xác phân lớp FW_FDAR, FEBAR, FPDAR STT Bộ liệu Lympho Wine Libra WDBC Horse Heart Credit German Độ xác ban đầu Độ C xác 18 0.776± 0.008 13 0.910 ± 0.066 90 0.566 ± 0.137 30 0.924 ± 0.037 22 0.829 ± 0.085 13 0.744 ± 0.072 15 0.826 ± 0.052 20 0.692 ± 0.030 Thuật tốn FW_FDAR Độ B xác 0.768 ± 0.085 0.893 ± 0.072 0.658 ± 0.077 0.968 ± 0.058 0.816 ± 0.052 0.803 ± 0.074 0.865 ± 0.028 0.716 ± 0.029 Thuật tốn FEBAR [91] Độ B xác 0.768 ± 0.085 0.893 ± 0.072 0.605 ± 0.103 0.952 ± 0.027 0.802 ± 0.066 0.803 ± 0.074 0.846 ± 0.048 0.702 ± 0.043 Thuật tốn FPDAR [18] B Độ xác 0.722 ± 0.062 0.886 ± 0.058 26 0.556 ± 0.205 0.925 ± 0.644 12 0.798 ± 0.058 12 0.752 ± 0.055 14 0.820 ± 0.078 11 0.684 ± 0.024 Kết Bảng 2.9 cho thấy, số thuộc tính tập rút gọn thuật tốn đề xuất FW_FDAR nhỏ nhiều so với thuật toán filter FPDAR Độ xác FW_FDAR cao FPDAR tất liệu Với thuật toán filter-wrapper FEBAR [91] sử dụng -entropy mờ, số lượng thuộc tính tập rút gọn FW_FDAR xấp xỉ FEBAR, độ xác phân lớp FW_FDAR xấp xỉ FEBAR 3) Kết so sánh thời gian thực Bảng 2.10 Thời gian thực FW_FDAR, FEBAR, FPDAR STT Bộ liệu Lympho Wine Libra WDBC Horse Heart Credit German Thủ tục Tổng Wrapper cộng Thuật toán FPDAR [18] 0.52 1.18 88.26 8.22 2.65 1.78 3.98 8.28 0.34 0.48 48.48 22.32 4.98 1.26 18.02 54.65 Thuật toán FW_FDAR Thuật toán FEBAR [91] Thủ tục Filer 0.32 0.46 46.28 20.15 4.85 1.22 16.58 52.48 Thủ tục Filer 0.38 0.51 55.12 26.38 5.26 1.45 19.26 71.22 Thủ tục Tổng Wrapper cộng 0.50 1.21 86.18 8.74 2.68 1.52 3.42 8.64 0.82 1.67 132,46 28.89 7.53 2.74 20.00 61.12 0.90 1.69 143.38 34.60 7.91 3.23 23.24 79.50 Bảng 2.10 cho thấy, thuật tốn FW_FDAR có thời gian thực nhỏ đáng kể thuật toán FEBAR [91], chủ yếu thủ tục filter tìm tập rút gọn Nguyên nhân thuật tốn FEBAR phải tính miền dương mờ để xác định hệ số , thuật toán FEBAR phải tính tốn cơng thức logarit phức tạp cơng thức entropy Shannon Tuy nhiên, thuật tốn theo tiếp cận filter-wrapper FW_FDAR FEBAR [91] có thời gian thực lớn thuật toán theo tiếp cận filter FPDAR [18] phải thực phân lớp để tính độ xác tập rút gọn xấp xỉ giai đoạn wrapper 14 Chƣơng PHƢƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH MỜ 3.1 Mở đầu Với tăng trưởng không ngừng dung lượng liệu, bảng định ngày có kích thước lớn thay đổi, cập nhật Việc áp dụng thuật tốn tìm tập rút gọn theo tiếp cận truyền thống gặp nhiều thách thức Do đó, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn nhằm giảm thiểu thời gian thực có khả thực bảng định kích thước lớn Trong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tập rút gọn bảng định thay đổi theo tiếp cận tập thô mờ [15, 16, 97, 99] Các thuật toán gia tăng tìm tập rút gọn theo tiếp cận tập thơ mờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếp cận lọc truyền thống (filter) Vì vậy, tập rút gọn tìm thuật tốn nêu chưa tối ưu số lượng thuộc tính độ xác phân lớp Trong chương này, luận án trình bày cơng thức tính tốn gia tăng khoảng cách mờ (được đề xuất mục 2.3 chương 2) trường hợp bổ sung loại bỏ tập đối tượng Dựa cơng thức tính tốn gia tăng xây dựng, luận án trình bày thuật tốn gia tăng filter-wrapper tìm tập rút gọn trường hợp bổ sung, loại bỏ tập đối tượng Kết nghiên cứu chương cơng bố cơng trình số 3.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn xấp xỉ bổ sung tập đối tượng 3.2.1 Công thức gia tăng tính khoảng cách mờ bổ sung tập đối tượng Mệnh đề 3.1 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Giá sử đối tượng x bổ sung vào U Khi đó, cơng thức tính gia tăng khoảng cách phân hoạch mờ là:     DU x  RC ,  RC D       n    DU  RC ,  RC D  n 1    n 21   x C   x C   x D  Mệnh đề 3.2 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Giả sử tập đối tượng gồm U  xn1, xn2 , , xn s  U, s phần tử bổ sung vào với MU U ( RC )   pij   n  s  n  s  , MU U ( RD )  d ij   n  s  n  s  tương ứng trận tương đương mờ ma trận tương đương C D Khi đó, cơng thức tính gia tăng khoảng cách phân hoạch mờ sau:    DU U  RC ,  RCD s 1         pn i ,n  j 1   pn i ,n  j 1 , d n i ,n  j 1  j i  s  n   D  R ,  R  C C  D  U  ns  n  s  i1  15   x  n i C     xni C   xni D   với 3.2.2 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng Mệnh đề 3.3 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, B  C tập rút gọn dựa khoảng cách phân hoạch mờ Giả sử tập đối tượng gồm s phần tử U  xn1, xn2 , , xns  bổ sung vào U Khi ta có: 1) Nếu D  xni   d với i  s          với i  s D   R  ,  R   D   R  ,  R  DU U  RC ,  RC D  xni B  xni D  s  n   x   xn i C   xn i D  DU  RC ,  RC D    n i C ns  n  s  i1 U U B D B U U C  2) Nếu C D Dựa Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tập rút gọn sử dụng khoảng cách phân hoạch mờ bổ sung tập đối tượng U thực sau: Thuật toán IFW_FDAR_AdObj (Incremental Filter-Wrapper Algorithm for Fuzzy Distance based Attribute Reduction When Add Objects) Đầu vào: 1) 2) Bảng định DS  U , C  D  với U  x1, x2 , , xn  , quan hệ tương đương mờ R , tập rút gọn B  C , tập rút gọn xấp xỉ B0  C có độ xác phân lớp tốt Các ma trận tương đương mờ MU ( R B )   pijB  3) nn , MU ( RC )   pijC  nn , MU ( R D )  dij  nn Tập đối tượng bổ sung U  xn1, xn2 , , xns  Đầu ra: Tập rút gọn xấp xỉ Bbest DS '  U  U , C  D  Bước 1: Khởi tạo T :  // Chứa ứng viên tập rút gọn tốt Tính ma trận tương đương mờ tập đối tượng U  U MU U ( R B )   pijB   n  s  n  s  , MU U ( R D )  dij   n  s  n  s  Bước 2: Kiểm tra tập đối tượng bổ sung Đặt X : U For i  to s If  xni B  xni D then X : X  xni  If X   then Return B0 Đặt U : X ; s : U ; // Tập rút gọn xấp xỉ không thay đổi //Gán lại tập đối tượng Bước 3: Thực thuật tốn tìm tập rút gọn Tính khoảng cách phân hoạch mờ ban đầu          DU  R B ,  R BD ; DU  RC ,  RC D 16  Tính khoảng cách phân hoạch mờ cơng thức gia tăng;           DU U  R B ,  R BD ; DU U  RC ,  RC D ; // Giai đoạn filter, tìm ứng viên cho tập rút gọn     10 While DU U  R B ,  R BD   D U U   R  ,  R  C D C 11 Begin 12 For each a  C  B 13 Begin      cơng thức gia tăng; 14 Tính DU U  R Ba ,  R BaD 15 Tính SIGB  a   DU U  R B , R BD  DU U  R Ba , R BaD         16 End; 17 Chọn a  C  B cho SIGB  am   Max SIGB  a  ; 18 B : B  am  ; 19 B0 : B0  am  20 T : T  B0 ;  aC  B 21 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao hất 22 Đặt t : T  //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa  ; 23 Đặt T : B  a ; T : B  a , a ; ; T : B  a , a     T  B0  ai1 , B0  ai1 , ai2 , , B0  ai1 , ai2 , , ait i1 i1 i2 t i1 i2 , , ait  24 For j = to t 25 Begin 26 Tính độ xác phân lớp T j phân lớp sử dụng 10-fold; phương pháp 27 End 28 Bbest : T jo với T jo có độ xác phân lớp lớn Return Bbest ; Độ  phức tạp   thời gian  thuật  max O B * U *  U  U  , O  C  B  * U *  U  U   O  C  B  * T tốn  IFW_FDAR_AdObj Do đó, thuật toán gia tăng IFW_FDAR_AdObj giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trường hợp U lớn C lớn B nhỏ 17 3.2.3 Thực nghiệm thuật toán 1) Mục tiêu thực nghiệm (1) Đánh giá tính hiệu thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với hai thuật tốn khơng gia tăng FW_FDAR FEBAR [91] FEBAR thuật tốn filter-wrapper tìm tập rút gọn sử dụng -entropy mờ [91] FW_FDAR thuật tốn filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ trình bày chương (2) Đánh giá tính hiệu độ xác phân lớp thuật tốn gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán gia tăng filter IV-FS-FRS-2 [99] thuật toán gia tăng filter IARM [98] IV-FS-FRS-2 IARM thuật tốn gia tăng tìm tập rút gọn bổ sung tập đối tượng sử dụng quan hệ phân biệt tập thô mờ theo tiếp cận filter 2) Dữ liệu thử nghiệm Bảng 3.1 Bộ liệu thử nghiệm thuật tốn IFW_FDAR_AdObj Bộ STT tả liệu Số Số đối đối tƣợng tƣợng ban đầu (1) (4) 178 360 (5) 88 180 Số thuộc tính điều kiện Số Tất Thuộc Thuộc đối tính định tính tƣợng danh thực gia (nominal) (Realtăng valued) (6) (7) (8) (9) 90 13 13 180 90 90 569 284 285 30 30 368 270 183 135 185 135 22 13 15 7 2 690 345 345 15 1000 500 5000 20 13 1473 733 740 1484 744 740 8 10 5000 2500 2500 21 21 3 10 (2) Wine Libra (3) Wine Libras movement WDBC Wisconsin diagnostic breast cancer Horse Horse colic Heart Statlog (heart) Credit Credit approval German German credit data Cmc Contraceptive Method Choice Yeast Protein Localization Sites Wave Waveform Số lớp định (10) 15 3) So sánh thuật tốn gia tăng IFW_FDAR_AdObj hai thuật tốn khơng gia tăng: FW_FDAR, FEBAR Để đánh giá tính hiệu thời gian thực thuật toán gia tăng, sử dụng tỷ lệ giảm thiểu thời gian, ký hiệu TTR, tính sau: TTR  18 TM *100 Ti với TM thời gian thực thuật toán gia tăng IFW_FDAR_AdObj, Ti thời gian thực thuật toán FW_FDAR, FEBAR Bảng 3.2 Thời gian thực IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) STT 10 Tập liệu Wine Libra WDBC Horse Heart Credit German Cmc Yeast Wave Trung bình IFW_FDAR _AdObj FW_FDAR Thời gian Thời gian TTR% Thời gian TTR% 0,22 6,78 4.08 1,08 0.26 1,86 4.26 3.22 5.68 274.48 30,19 1,67 132,46 28,89 7,53 2,76 20,00 61,12 84,42 134,84 19.058,26 1953,19 13,17 5,11 14,12 14,34 9,42 9,3 6,96 3,81 4,21 1,44 8,19 1,70 143.38 34.60 7.91 3.28 23.26 65.50 92,42 145,68 19.822,46 2034,01 12,94 4,72 11,79 13,65 7,92 7,99 6,50 3,48 3,89 1,38 7,43 FEBAR [91] Bảng 3.2 cho thấy, với hai thuật toán filter-wrapper, thời gian thực thuật toán FW_FDAR nhỏ so với thuật toán FEBAR tất tập liệu Thời gian thực thuật toán gia tăng giảm thiểu đáng kể so với hai thuật tốn khơng gia tăng Tính trung bình 10 tập liệu, thời gian thực IFW_FDAR_AdObj 8,19% thuật toán FW_FDAR 7,43 thuật toán FEBAR Với số liệu lớn Wave, thời gian thực IFW_FDAR_AdObj 1,44% so với FW_FDAR 1,38% so với FEBAR Do đó, thuật tốn gia tăng đặc biệt hiệu tập liệu kích thước lớn Thay tìm tập rút gọn tồn tập liệu, chia nhỏ tập liệu thành nhiều phần, sau thực thuật tốn gia tăng bổ sung phần Bảng 3.3 cho thấy, độ xác phân lớp ba thuật tốn theo tiếp cận filter-wrapper xấp xỉ Số lượng thuộc tính tập rút gọn ba thuật toán xấp xỉ Do đó, thuật tốn gia tăng khơng cải thiện độ xác phân lớp so với thuật tốn khơng gia tăng Bảng 3.3 Độ xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR Độ xác ban đầu Bộ STT Độ C liệu xác Wine 13 0.910 ± 0.066 Libra 90 0.566 ± 0.137 WDBC 30 0.924 ± 0.037 Horse 22 0.829 ± 0.085 Heart 13 0.744 ± 0.072 Thuật toán Thuật tốn IFW_FDAR_AdObj FW_FDAR Độ B Độ B xác xác 0.926 ± 0.902 ± 0.072 0.072 10 0.582 ± 0.605 ± 0.077 0.103 0.932 ± 0.915 ± 0.058 0.027 0.806 ± 0.788 ± 0.052 0.066 0.812 ± 0.803 ± 0.074 0.074 19 Thuật tốn FEBAR [91] B Độ xác 0.908 0.058 0.556 0.205 0.925 0.644 0.836 0.058 0.782 0.055 ± ± ± ± ± Credit 15 German 20 Cmc 9 Yeast 10 Wave 21 0.826 ± 0.052 0.692 ± 0.030 0.426 ± 0.024 0.522 ± 0.045 0.796 ± 0.058 4 0.865 ± 0.028 0.716 ± 0.029 0.658 ± 0.072 0.506 ± 0.016 0.812 ± 0.022 0.846 ± 0.048 0.702 ± 0.043 0.672 ± 0.002 0.508 ± 0.012 0.818 ± 0.048 0.820 ± 0.078 0.725 ± 0.024 0.686 ± 0.012 0.508 ± 0.014 0.806 ± 0.018 4) So sánh thuật toán gia tăng IFW_FDAR_AdObj với thuật toán gia tăng IV-FS-FRS-2, IARM Bảng 3.4 Thời gian thực IFW_FDAR_AdObj, IV-FS-FRS-2, IARM STT Tập liệu 10 Wine Libra WDBC Horse Heart Credit German Cmc Yeast Wave Trung bình Thời gian IFW_FDAR_A dObj 0,22 6,78 4.08 1,08 0.26 1,86 4.26 3.22 5.68 274.48 30,19 Thời gian IV-FS-FRS-2 [99] 0,18 5,76 3,35 0.82 0,22 1,18 3,84 2,72 4,68 238,64 26,13 Thời gian IARM [98] 0,16 5,08 3,12 0,86 0,22 1,15 3,46 2,96 4,22 226,26 24,749 Kết Bảng 3.4 cho thấy, thời gian thực thuật toán IFW_FDAR_AdObj cao hai thuật toán IV-FS-FRS-2, IARM, đặc biệt liệu kích thước lớn Wave Bảng 3.5 Độ xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM Độ xác Thuật tốn Thuật tốn ban đầu IFW_FDAR_AdObj IV-FS-FRS-2 [57] Bộ STT liệu Độ Độ Độ B B C xác xác xác Wine 13 0.910 ± 0.926 ± 0.906 0.066 0.072 ± 0.016 Libra 90 0.566 ± 10 0.582 ± 51 0.502± 0.137 0.077 0.020 WDBC 30 0.924 ± 0.932 ± 24 0.895± 0.037 0.058 0.012 Horse 22 0.829 ± 0.806 ± 12 0.788± 0.085 0.052 0.048 Heart 13 0.744 ± 0.812 ± 10 0.766± 0.072 0.074 0.058 Credit 15 0.826 ± 0.865 ± 13 0.828± 0.052 0.028 0.014 German 20 0.692 ± 0.716 ± 12 0.688± 0.030 0.029 0.032 Cmc 0.426 ± 0.658 ± 0.489± 20 Thuật toán IARM [56] B 48 16 12 11 14 11 Độ xác 0.902 ± 0.056 0.517± 0.014 0.892± 0.014 0.764± 0.023 0.772± 0.014 0.826± 0.014 0.690± 0.015 0.482± Yeast 10 Wave 21 0.024 0.522 ± 0.045 0.796 ± 0.058 0.072 0.506 ± 0.016 0.812 ± 0.022 0.042 0.502± 0.012 0.784± 0.016 17 0.012 0.502± 0.012 0.702± 0.024 21 Bảng 3.5 trình bày kết so sánh độ xác phân lớp số lượng thuộc tính tập rút gọn ba thuật toán Từ Bảng 3.5 ta thấy, thuật tốn filter-wrapper IFW_FDAR_AdObj có độ xác phân lớp cao đáng kể so với hai thuật toán filter IV-FS-FRS-2, IARM hầu hết tập liệu, thuật tốn IFW_FDAR_AdObj ln chọn tập rút gọn có độ xác phân lớp tốt Hơn nữa, số thuộc tính tập rút gọn thuật tốn IFW_FDAR_AdObj nhỏ nhiều hai thuật tốn IV-FS-FRS-2 IARM Do đó, thời gian thực tính khái qt hóa tập luật phân lớp tập rút gọn thuật toán IFW_FDAR_AdObj tốt so với hai thuật toán IV-FS-FRS-2 IARM 3.3 Thuật tốn gia tăng filter-wrapper tìm tập rút gọn xấp xỉ loại bỏ tập đối tượng 3.3.1 Cập nhật khoảng cách mờ loại bỏ tập đối tượng Mệnh đề 3.4 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Giá sử đối tượng xk U bị loại bỏ khỏi U Khi đó, cơng thức tính khoảng cách phân hoạch mờ sau:    DU xk   RC ,  RC D           n    DU  RC ,  RC D   n 1  n  1      với DU  RC ,  RCD , DU x   RC ,  RC D k   x  k C   xk C   xk D  (4) tương ứng khoảng cách phân hoạch mờ tập đối tượng U , U  x Mệnh đề 3.5 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Giả sử tập đối tượng gồm U  xk , xk 1, , xk s1 U, s  n, s phần tử bị loại khỏi với MU U ( RC )   pij   n  s  n  s  , MU U ( RD )  d ij   n  s  n  s  tương ứng trận tương đương mờ ma trận tương đương C D Khi đó, cơng thức cập nhật khoảng cách phân hoạch mờ sau:      DU U  RC ,  RCD       s1  n   D  R ,  R  x   xk i C   xk i D   C C  D  U   k i C ns  n  s  i 0   (5)  với    pk i ,k  j   pk i ,k  j , d k i ,k  j  i j 0 3.3.2 Thuật tốn filter-wrapper tìm tập rút gọn loại bỏ tập đối tượng Mệnh đề 3.6 Cho bảng định DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, B  C tập rút gọn dựa khoảng cách phân hoạch mờ Giả sử tập đối tượng gồm s phần tử U  xk , xk 1, , xk s1 bị loại khỏi U , s  n , Khi ta có: 1) Nếu D  xk i   d với i  s  21          với i  s D   R  ,  R   D   R  ,  R  DU U  RC ,  RCD  xk i B  xk i D  2 s1  n   D  R ,  R  x   xk i C   xk i D C C  D  U   k i C ns  n  s  i 0 B D B U U C U U  2) Nếu C D Dựa Mệnh đề 3.6, thuật toán filter-wrapper cập nhật tập rút gọn xấp xỉ có độ xác phân lớp tốt sử dụng khoảng cách phân hoạch mờ loại bỏ tập đối tượng U thực sau: Thuật toán UFW_FDAR_DelObj (Updated Filter-Wrapper Algorithm for Fuzzy Distance based Attribute Reduction when Delete Objects) Đầu vào: 1) 2) Bảng định DS  U , C  D  với U  x1, x2 , , xn  , quan hệ tương đương mờ R , tập rút gọn B  C , tập rút gọn xấp xỉ B0  C có độ xác phân lớp tốt Các ma trận tương đương mờ MU ( R B )   pijB  3) nn , MU ( RC )   pijC  nn , MU ( R D )  dij  nn Tập đối tượng loại bỏ U  xk 1, xk 2 , , xk s1 gồm s đối tượng với s  n Đầu ra: Một tập rút gọn xấp xỉ Bbest DS '  U  U , C  D  có độ xác phân lớp tốt T :  // Chứa ứng viên tập rút gọn xấp xỉ Đặt X : U For i  to s  If  xk i B  xk i D then X : X  xk i  If X   then Return B0 Đặt U : X ; s  U ; // Tập rút gọn không thay đổi //Gán lại tập đối tượng Tính khoảng cách phân hoạch mờ ban đầu:          DU  R B ,  R BD ; DU  RC ,  RC D  Tính khoảng cách phân hoạch mờ Mệnh đề loại U :          DU U  R B ,  R BD ; DU U  RC ,  RC D  ; // Giai đoạn filter, tìm ứng viên cho tập rút gọn     While DU U  R B ,  R BD   D U U   R  ,  R  C C D 10 Begin 11 For each a  B 12 Begin 13     Tính DU U  R Ba ,  R BaD 22  công thức gia tăng;          Tính SIGBa  a  : DU U  R Ba , R BaD  DU U  R B , R BD 14 15 End; 16 Chọn am  B cho SIGB  am   Min SIGBa  a  ; 17 B : B  am  ; 18 B0 : B0  am  19 T : T  B0 ; aB   20 End; // Giai đoạn Wrapper,tìm tập rút gọn có độ xác phân lớp cao 21 Đặt t : T //t số phần tử T, T chứa chuỗi thuộc tính chọn, nghĩa        ;  a , a ; ; T : B  a , a T  B0  ai1 , B0  ai1 , ai2 , , B0  ai1 , ai2 , , ait 22 Đặt T1 : B0  ai ; T2 : B0 i1 i2 t i1 i2 , , ait  23 For j = to t 24 Begin Tính độ xác phân lớp T j phân lớp sử dụng pháp 10-fold; 25 26 End 27 Bbest : T jo với T jo có độ xác phân lớp cao Return Bbest ;   Độ phức tạp thuật toán UFW_FDAR_DelObj O B * U * U  O  B * T  23 phương KẾT LUẬN 1) Những kết luận án: Luận án nghiên cứu hướng tiếp cận filter-wrapper tìm tập rút gọn bảng định nhằm giảm thiểu số lượng thuộc tính tập rút gọn nâng cao độ xác hình phân lớp Kết luận án bao gồm: 1) Đề xuất hai thuật tốn filter-wrapper tìm tập rút gọn bảng định theo tiếp cận tập thô mờ: Thuật toán FW_FRSAR sử dụng hàm hàm thuộc mờ Thuật toán FW_FDAR sử dụng khoảng cách mờ Khoảng cách mờ đề xuất mở rộng khoảng cách cơng trình [48] Kết thử nghiệm số liệu mẫu từ kho liệu UCI [103] cho thấy, hai thuật toán đề xuất giảm thiểu số lượng thuộc tính tập rút gọn nâng cao độ xác phân lớp so với thuật tốn filter cơng bố Với thuật tốn filter-wrapper FEBAR [91] cơng bố gần đây, thuật tốn đề xuất FW_FDAR hiệu FEBAR thời gian thực 2) Đề xuất hai thuật toán gia tăng filter-wrapper: Thuật toán IFW_FDAR_AdObj tìm tập rút gọn trường hợp bổ sung tập đối tượng Thuật tốn UFW_FDAR_DelObj tìm tập rút gọn trường hợp loại bỏ tập đối tượng Cả hai thuật toán sử dụng khoảng cách mờ đề xuất Kết thử nghiệm số liệu mẫu từ kho liệu UCI [103] cho thấy, thuật tốn đề xuất IFW_FDAR_AdObj giảm thiểu số lượng thuộc tính tập rút gọn nâng cao độ xác phân lớp so với thuật tốn gia tăng cơng bố 2) Hƣớng phát triển luận án: (1) Tiếp tục nghiên cứu, đề xuất thuật toán gia tăng filter-wrapper tìm tập rút gọn theo tiếp cận tập thơ mờ trường hợp bổ sung, loại bỏ tập thuộc tính (2) Tiếp tục nghiên cứu, đề xuất thuật tốn gia tăng filter-wrapper tìm tập rút gọn theo tiếp cận tập thô mờ trường hợp cập nhật tập đối tượng, cập nhật tập thuộc tính 24 ... vấn đề tồn Giống phương pháp rút gọn thuộc tính theo tiếp cận tập thô, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ cơng bố phương pháp heuristic theo tiếp cận filter Nghĩa... 90, 100] Tuy nhiên, giống phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ phương pháp filter, nghĩa độ xác mơ... theo tiếp cận tập thô mờ 1.4.1 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô truyền thống tập thô dung sai Theo tiếp cận tập thô truyền thống tập thô

Ngày đăng: 07/08/2018, 10:15

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan