Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
0,91 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ - NGUYỄN VĂN THIỆN MỘTSỐPHƯƠNGPHÁPLAIGHÉPTRONGRÚTGỌNTHUỘCTÍNHTHEOTIẾPCẬNTẬPTHƠMỜ Chun ngành: Hệ thống thông tin Mã số: 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SĨ MÁY TÍNH VÀ CƠNG NGHỆ THƠNG TIN Hà Nội - 2018 Cơng trình hồn thành tại: Học viện Khoa học Cơng nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: PGS.TS Nguyễn Long Giang Người hướng dẫn khoa học 2: TS Nguyễn Như Sơn Phản biện 1: PGS.TS Lê Hoàng Sơn Phản biện 2: PGS.TS Nguyễn Hà Nam Phản biện 3: PGS.TS Đỗ Văn Thành Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 201… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam Danh mục cơng trình tác giả Nguyễn Văn Thiện, Nguyễn Long Giang, Nguyễn Như Sơn, “Về phươngpháprútgọnthuộctính bảng định với miền trị thuộctính nhận giá trị sốtheotiếpcậntậpthô mờ”, Chuyên san Các công trình nghiên cứu, phát triển và ứng dụng CNTT&TT, Tạp chí thông tin khoa học công nghệ Bộ thông tin và Truyền thông, Tập V-2, số 16 (36), 12-2016, Tr 40-49 Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang, Nguyen Nhu Son, “A Method to Construct an Extension of Fuzzy Information Granularity Based on Fuzzy Distance”, Serdica Journal of Computing 10 (2016), Sofia, Bulgarian Academy of Sciences, No 1, 2016, pp 13-30 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phươngpháprútgọnthuộctính bảng định có miền giá trị liên tục theotiếpcậntậpthô mờ”, Kỷ yếu Hội thảo quốc gia lần thứ XVIII: Một số vấn đề chọn lọc Công nghệ thông tin và truyền thông-TP HCM,05-06/11/2015 Nguyễn Văn Thiện, Nguyễn Như Sơn, Nguyễn Long Giang, Cao Chính Nghĩa, “Về phươngpháp xây dựng độ phân hạt mờmở rộng dựa khoảng cách mờ”, Kỷ yếu Hội thảo Quốc gia lần thứ XIX - Một số vấn đề chọn lọc CNTT và TT, Hà Nội, 01-02/10/2016, Tr 371-376 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa, “Về phươngpháprútgọnthuộctính trực tiếp bảng định sử dụng khoảng cách mờ”, Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu và ứng dụng CNTT (FAIR’9), Cần Thơ, 04-05/08/2016, Tr 825-835 Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Fuzzy Partition Distance based Attribute Reduction in Decision Tables”, IJCRS'2018: International Joint Conference on Rough Sets 2018, Quy Nhon, Viet Nam, August 20-24, 2018 (Accepted) Nguyen Van Thien, Nguyen Long Giang, Nguyen Nhu Son, “Phương pháp gia tăng rútgọnthuộctính bảng định sử dụng khoảng cách phân hoạch mờ”, Hội thảo Quốc gia lần thứ XXI - Một số vấn đề chọn lọc CNTT và TT, Thanh Hóa, 27-28/07/2018, Tr 296- 302 MỞ ĐẦU Lý thuyết tậpthômờ (Fuzzy rough set) Dubois cộng [22, 23] đề xuất kết hợp lý thuyết tậpthô lý thuyết tậpmờ nhằm xấp xỉ tậpmờ dựa quan hệ tương đương mờ (fuzzy equivalent relation) xác định miền giá trị thuộctính Từ xuất hiện, lý thuyết tậpthơmờ cơng cụ hiệu để giải tốn rútgọnthuộctính trực tiếp bảng định gốc (bảng định khơng qua bước rời rạc hóa liệu) nhằm nâng cao độ xác mơ hình phân lớp Các nghiên cứu liên quan đến rútgọnthuộctínhtheotiếpcậntậpthơmờ sôi động năm gần đây, bao gồm phươngphápphươngpháp sử dụng miền dương mờ [2, 72, 80, 92], phươngpháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phươngpháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phươngpháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, số nhà nghiên cứu đề xuất phươngphápmở rộng dựa độ đo khác định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Tuy nhiên, giống phươngpháprútgọnthuộctínhtheotiếpcậntậpthơ truyền thống, hầu hết phươngpháprútgọnthuộctínhtheotiếpcậntậpthômờphươngpháp filter, nghĩa độ xác mơ hình phân lớp đánh giá sau tìm tậprútgọnTậprútgọn thu thỏa mãn điều kiện bảo tồn độ đo mà khơng bảo đảm có độ xác phân lớp cao Do đó, tậprútgọnphươngpháp filter chưa tối ưu số lượng thuộctính độ xác phân lớp Với mục tiêu tối ưu số lượng thuộctínhtậprútgọn nâng cao độ xác phân lớp so với phươngpháp filter công bố, luận án nghiên cứu hướng tiếpcậnlaighép filter-wrapper Ngày nay, bảng định thường có kích thước lớn thay đổi, cập nhật Việc áp dụng thuật tốn tìm tậprútgọntheotiếpcậntậpthơ truyền thống mơ hình tậpthơmở rộng gặp nhiều thách thức Trường hợp bảng định bị thay đổi, thuật tốn tínhlạitậprútgọn toàn bảng định sau thay đổi phí thời gian tính tốn tăng lên đáng kể Trường hợp bảng định có kích có thước lớn, việc thực thuật tốn tồn bảng định gặp khó khăn thời gian thực Vì vậy, nhà nghiên cứu đề xuất hướng tiếpcậntính tốn gia tăng tìm tậprútgọn Các thuật tốn gia tăng có khả giảm thiểu thời gian thực có khả thực bảng định kích thước lớn giải pháp chia nhỏ bảng định thành phần Theotiếpcậntậpthô truyền thống tậpthô dung sai, nghiên cứu liên quan đến thuật tốn gia tăng tìm tậprútgọn bảng định thay đổi sôi động tập trung vào trường hợp: bổ sung loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung loại bỏ thuộctính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, tác giả [24, 65] xây dựng cơng thức gia tăng tính tốn khoảng cách, sở xây dựng thuật tốn gia tăng tìm tậprútgọn trường hợp bổ sung, loại bỏ tập đối tượng bổ sung, loại bỏ tậpthuộctínhTrong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tậprútgọn bảng định theotiếpcậntậpthômờ trường hợp: bổ sung loại bỏ tậpthuộctính [15, 16], bổ sung tập đối tượng [97, 98, 99] Các thuật tốn gia tăng tìm tậprútgọntheotiếpcậntậpthơmờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật tốn nêu theo hướng tiếpcận filter truyền thống Do theotiếpcậntậpthơ mờ, luận án nghiên cứu thuật tốn gia tăng filter-wrapper tìm tậprútgọn xấp xỉ nhằm giảm thiểu sốthuộctínhtậprútgọn nâng cao độ xác mơ hình phân lớp Mục tiêu luận án tập trung nghiên cứu hai nội dung Thứ đề xuất thuật tốn laighép filter-wrapper tìm tậprútgọn bảng định sử dụng độ đo khoảng cách mờ cải tiến độ đo khác theotiếpcậntậpthômờ nhằm giảm thiểu số lượng thuộctínhtậprútgọn nâng cao độ xác mơ hình phân lớp Thứ hai đề xuất thuật toán gia tăng filter-wrapper tìm tậprútgọn bảng định thay đổi sử dụng độ đo khoảng cách mờtheotiếpcậntậpthômờ nhằm giảm thiểu thời gian thực nâng cao độ xác so với thuật toán gia tăng khác Với mục tiêu đặt ra, luận án đạt hai kết sau: 1) Đề xuất hai thuật tốn filter-wrapper tìm tậprútgọn bảng định theotiếpcậntậpthô mờ: Thuật toán sử dụng hàm thuộcmờ thuật toán sử dụng khoảng cách mờ Độ đo khoảng cách mờ xây dựng mở rộng độ đo khoảng cách cơng trình [48] Các đóng góp trình bày chương luận án cơng bố cơng trình 1, 2, 4, 5, 2) Đề xuất hai thuật tốn gia tăng filter-wrapper tìm tậprútgọn bảng định trường hợp bổ sung tập đối tượng loại bỏ tập đối tượng sử dụng độ đo khoảng cách mờ xây dựng Các đóng góp trình bày chương luận án công bố công trình Bố cục luận án gồm phần mở đầu ba chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày khái niệm lý thuyết tậpthơ truyền thống, mơ hình tậpthơmờ tổng quan tiếpcận filter-wrapper rútgọnthuộctính Chương trình bày nghiên cứu liên quan đến rútgọnthuộctínhtheotiếpcậntậpthơ mờ, nghiên cứu liên quan đến phươngpháp gia tăng rútgọnthuộctínhtheotiếpcậntậpthơmờ năm gần Trêm sở đó, luận án phân tích vấn đề tồn nêu rõ mục tiêu nghiên cứu với tóm tắt kết đạt Chương trình bày hai kết nghiên cứu: thứ đề xuất thuật tốn filter-wrapper tìm tậprútgọn sử dụng hàm thuộc mờ; thứ hai xây dựng độ đo khoảng cách mờ đề xuất thuật toán filter-wrapper tìm tậprútgọn sử dụng khoảng cách mờ xây dựng Cả hai đề xuất nhằm mục tiêu tối thiểu hóa sốthuộctínhtậprútgọn nâng cao độ xác mơ hình phân lớp so với phươngpháp filter trước Chương đề xuất hai thuật toán gia tăng filter-wrapper; thuật tốn gia tăng filter-wrapper thứ tìm tậprútgọn bảng định trường hợp bổ sung tậpthuộc tính; thuật tốn gia tăng filter-wrapper thứ hai tìm tậprútgọn bảng định trường hợp loại bỏ tậpthuộctính Cả hai thuật tốn đề xuất sử dụng độ đo khoảng cách mờ đề xuất chương có mục tiêu giảm thiểu thời gian thực so với thuật toán khơng gia tăng nâng cao độ xác phân lớp so với thuật toán gia tăng khác cơng bố Cuối cùng, phần kết luận nêu đóng góp luận án, hướng phát triển vấn đề quan tâm tác giả Chƣơng TỔNG QUAN 1.1 Mộtsố khái niệm lý thuyết tậpthômờ 1.1.1 Quan hệ tương đương mờ Định nghĩa 1.1 [32, 71] Cho bảng định DS U , C D , quan hệ R xác định miền giá trị thuộctính gọi quan hệ tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive): R x, x ; 2) Tính đối xứng (symetric): R x, y R y, x ; 3)Tính bắc cầu max-min (max-min transitive): R x, z R x, y , R y, z ; với R x, y giá trị quan hệ hai đối tương x y Mệnh đề 1.1 [72] Cho bảng định DS U , C D quan hệ tương đương mờ R Ký hiệu R P , R Q tương ứng quan hệ R xác định tậpthuộctính P, Q Khi đó, với x, y U ta có: 1) R P RQ R P x, y RQ x, y R x, y R 2) R PQ R P RQ R x, y max R P x, y , RQ x, y 3) R PQ R P RQ P x, y , RQ x, y 4) R P RQ R P x, y RQ x, y 1.1.2 Ma trận tương đương mờ Định nghĩa 1.2 Cho bảng định DS U , C D với U x1 , x2 , , xn R P quan hệ tương đương mờ xác định tậpthuộctính P C Khi đó, ma trận tương đương mờ biểu diễn R P , ký hiệu M R P pij nn , định nghĩa sau: p11 p M ( R P ) 21 pn1 p12 p22 pn p1n p2 n pnn với pij R P xi , x j giá trị quan hệ hai đối tượng xi x j tậpthuộctính P, pij 0,1 , xi , x j U ,1 i, j n Như vậy, giá trị phần tử ma trận tương đương mờ M R P phụ thuộc vào quan hệ tương đương mờ R P chọn 1.1.3 Phân hoạch mờ Định nghĩa 1.3 Cho bảng định DS U , C D với P C , U x1 , x2 , , xn quan hệ tương đương mờ P Khi phân hoạch mờ U sinh RP , RP ký hiệu R P , xác định sau R P U / R P xi P i 1 x1 P , , xn P n (1.8) với xi P pi1 / x1 pi / x2 pin / xn tậpmờ đóng vai trò lớp tương đương mờ (fuzzy equivalent class) đối tượng xi U Với lớp tương đương mờ xi P , hàm thuộc của đối tượng x j U xác định xi x j RP xi , x j R P xi , x j pij lực lượng lớp đương đương mờ xi P P n tính xi P pij j 1 1.1.4 Các tập xấp xỉ mờ miền dương mờ Định nghĩa 1.4 [66, 70, 85, 87] Cho X tậpmờ U R P quan hệ tương đương mờtậpthuộctính P C Khi đó, tập xấp xỉ mờ R P X tập xấp xỉ mờ R P X X tậpmờ hàm thuộc đối tượng x U xác định sau: R PX x sup F x ,inf max 1 F y , X y FU / R P yU (1.9) sup F x ,sup F y , X y (1.10) P yU FU / R P với ký hiệu inf, sup tương ứng cậncậntập hợp X; F lớp tương đương mờ phân hoạch mờ U / R P Với tập xấp xỉ mờ xấp xỉ mờ xác định Định nghĩa 1.6, R x X gọi tậpthômờ RP X , RP X Định nghĩa 1.5 [66] Cho bảng định DS U , C D R P , RQ tương ứng hai quan hệ tương đương mờ xác định P, Q C Khi đó, miền dương mờ R Q R P , ký hiệu POSR RQ , tậpmờ mà hàm thuộc x U xác định sau: P POS R x sup R X U / R RP Q Q PX x (1.11) 1.2 Rútgọntính 1.2.1 Tổng quan rútgọnthuộctínhRútgọnthuộctính tốn quan trọng bước tiền xử lý liệu với mục tiêu loại bỏ thuộctính dư thừa, khơng liên quan nhằm tăng tính hiệu thuật tốn khai phá liệu: Gia tăng tốc độ, cải thiện chất lượng tính dễ hiểu kết thu Các kỹ thuật rútgọnthuộctính thường phân thành hai loại: Lựa chọn thuộctính (Attribute selection) biến đổi thuộctính (Attribute transformation) Trong luận án này, nghiên cứu hướng tiếpcận lựa chọn thuộc tính, gọi chung rútgọnthuộctính 1.2.2 Tiếpcận filter, wrapper rútgọnthuộctính Hiện có hai cách tiếpcận tốn rútgọnthuộctính [43, 44]: filter (lọc) wrapper (đóng gói) Cách tiếpcận filter thực việc rútgọnthuộctính độc lập với thuật khai phá liệu sử dụng sau Cho đến nay, phần lớn phươngpháprútgọnthuộctính dựa lý thuyết tậpthômở rộng theo hướng tiếpcận Cách tiếpcận wrapper tiến hành việc lựa chọn cách áp dụng thuật khai phá, độ xác kết lấy làm tiêu chuẩn để lựa chọn tậpthuộctính Cách tiếpcận filter có ưu điểm thời gian tính tốn nhanh, nhược điểm khơng sử dụng sử dụng thông tin nhãn lớp liệu nên độ xác khơng cao Hình 1.2 Cách tiếpcận filter wrapper rútgọnthuộctính Nhằm kết hợp ưu điểm hai cách tiếpcận filter wrapper, số cách tiếpcận tác giả đề xuất, chẳng hạn cách tiếpcậnlaighép filter-wrapper [67, 91] 1.3 Các nghiên cứu liên quan đến rútgọnthuộctínhtheotiếpcậntậpthômờ 1.3.1 Các nghiên cứu liên quan Cho đến nay, nghiên cứu liên quan đến rútgọnthuộctính trực tiếp bảng định gốc theotiếpcậntậpthômờtập trung vào phươngpháp như: phươngpháp sử dụng miền dương mờ [2, 72, 80, 92], phươngpháp sử dụng ma trận phân biệt mờ [34, 42, 29, 30, 69], phươngpháp sử dụng entropy mờ [45, 70, 71, 74, 91, 75, 33, 55], phươngpháp sử dụng khoảng cách mờ [3, 8, 18] Gần đây, số nhà nghiên cứu đề xuất phươngphápmở rộng dựa độ đo khác định nghĩa [14, 19, 21, 30, 33, 35, 46, 47, 59, 68, 85, 90, 100] Kết thử nghiệm số liệu mẫu cho thấy, phươngpháprútgọnthuộctínhtheotiếpcậntậpthơmờ có độ xác phân lớp cao phươngpháprútgọnthuộctínhtheotiếpcậntậpthơ truyền thống 1.3.2 Các vấn đề tồn Giống phươngpháprútgọnthuộctínhtheotiếpcậntập thơ, hầu hết phươngpháprútgọnthuộctínhtheotiếpcậntậpthômờ công bố phươngpháp heuristic theotiếpcận filter Nghĩa là, độ xác phân lớp đánh giá sau tìm tậprútgọn 1) Tậprútgọnphươngpháptheo hướng tiếpcận filter nêu chưa tối ưu số lượng thuộctính độ xác phân lớp 1.4 Các nghiên cứu liên quan đến phƣơng pháp gia tăng tìm tậprútgọntheotiếpcậntậpthômờ 1.4.1 Các nghiên cứu liên quan đến phươngpháp gia tăng tìm tậprútgọntheotiếpcậntậpthô truyền thống tậpthô dung sai Theotiếpcậntậpthô truyền thống tậpthô dung sai, nghiên cứu liên quan đến thuật tốn gia tăng tìm tậprútgọn bảng định thay đổi sôi động tập trung vào trường hợp: bổ sung loại bỏ đối tượng [20, 36, 37, 38, 49, 56, 66, 86, 95, 96, 102], bổ sung loại bỏ thuộctính [31, 38, 49, 54, 86, 87, 88, 89] Sử dụng độ đo khoảng cách, tác giả [24, 65] xây dựng cơng thức gia tăng tính tốn khoảng cách, sở xây dựng thuật tốn gia tăng tìm tậprútgọn trường hợp bổ sung, loại bỏ tập đối tượng bổ sung, loại bỏ tậpthuộctính 1.4.2 Các nghiên cứu liên quan đến phươngpháp gia tăng tìm tậprútgọntheotiếpcậntậpthômờTrong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tậprútgọn bảng định thay đổi theotiếpcậntậpthômờ Zeng cộng [15] xây dựng thuật toán gia tăng tìm tậprútgọn sử dụng hàm thuộcmờ trường hợp bổ sung loại bỏ thuộctính (tương ứng FRSA-IFS-HIS-AA FRSA-IFS-HIS-AD) Với trường hợp bổ sung tập đối tượng, Yang cộng [98] xây dựng thuật tốn gia tăng IARM tìm tậprútgọn sử dụng quan hệ phân biệt Yang cộng [99] đề xuất hai phiên thuật tốn gia tăng tìm tậprútgọn trường hợp bổ sung tập đối tượng: thuật toán V-FS-FRS-1 V-FS-FRS-2 Liu cộng [97] xây dựng công thức tính gia tăng hàm thuộcmờ trường hợp bổ sung tập đối tượng, sở xây dựng thuật tốn gia tăng tìm tậprútgọn sử dụng hàm thuộcmờ FIAR 1.4.3 Các vấn đề tồn 1) Các thuật tốn gia tăng tìm tậprútgọntheotiếpcậntậpthômờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếpcận lọc truyền thống (filter) Vì vậy, tậprútgọn tìm thuật toán nêu chưa tối ưu số lượng thuộctính độ xác phân lớp 2) Các nghiên cứu liên quan đến phươngpháp gia tăng trình bày mục 1.4.3.2 giải tốn rútgọnthuộctính trường hợp bổ sung tập đối tượng, bổ sung loại bỏ tậpthuộc tính, cập nhật tậpthuộc tính, chưa giải tốn xóa bỏ tập đối tượng Chƣơng RÚTGỌNTHUỘCTÍNHTRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG HÀM THUỘCMỜ VÀ KHOẢNG CÁCH MỜ 2.1 Mở đầu Trong chương này, luận án đề xuất hai thuật tốn theo hướng tiếpcậnlaighép filterwrapper tìm tậprútgọn xấp xỉ nhằm giảm thiểu sốthuộctínhtậprútgọn nâng cao độ xác mơ hình phân lớp Giai đoạn filter tìm ứng viên cho tậprútgọn dựa vào độ đo (còn gọi tậprútgọn xấp xỉ), giai đoạn wrapper tính tốn độ xác phân lớp ứng viên lựa chọn tậprútgọn xấp xỉ có độ xác phân lớp cao (1) Thuật tốn filter-wrapper tìm tậprútgọn sử dụng hàm thuộcmờtậpthơmờ (2) Thuật tốn filter-wrapper tìm tậprútgọn sử dụng khoảng cách mờ Khoảng cách mờ xây dựng mở rộng khoảng cách phân hoạch cơng trình [48] khác độ đo khoảng cách mờ cơng trình [3, 8, 18] Các kết chương công bố cơng trình 1, 2, 4, 5, 2.2 Rútgọnthuộctính sử dụng hàm thuộcmờ 2.2.1 Rútgọnthuộctính sử dụng hàm thuộcmờtheotiếpcận filter 1) Hàm thuộcmờtậpthômờ Cho bảng định DS U , C D với U u1 , , un , C c1, , cm Với P C , giả sử R P quan hệ tương đương mờ xác định miền giá trị thuộctính P Hàm thuộcmờ P dựa quan hệ R P định nghĩa tậpthômờ sau [77, 78] R D POS RP D x xU POS RP D x U U 2) Thuật toán heuristic tìm tậprútgọn sử dụng độ phụ thuộcmờthuộctínhtheotiếpcận filter Thuật tốn F_FRSAR (Filter_Fuzzy Rough Set based Attribute Reduction) Đầu vào: Bảng định DS U , C D , quan hệ tương đương mờ R xác định miền giá trị thuộctính điều kiện Đầu ra: Tậprútgọn B DS B : ; D : ; P Tính ma trận tương đương mờ M RC ; Tính hàm thuộcmờ RC D ; // Thêm dần vào B thuộctính có độ quan trọng lớn While RB D RC D Begin Với a C B tính SIGB a R B a D R D ; B Chọn am C B cho SIGB am Max SIGB a ; B B am ; Tính R B D ; aC B 10 End; // Loại bỏ thuộctính dư thừa B có 11 Với a B 12 Begin 13 Tính R B a D ; If R 14 B a D R D then C B : B a ; 15 End; 16 Return B; 2 Độ phức tạp thuật toán F_FRSAR O C U 2.2.2 Rútgọnthuộctính sử dụng hàm thuộcmờtheotiếpcận filter-wrapper Xét bảng định DS U , C D với C a1, a2 , , am R quan hệ tương đương mờ xác định miền giá trị thuộctính Đặt R D Theo thuật toán F_FRSAR, giả sử thuộctính , , thêm vào tập rỗng theo giá trị lớn độ quan trọngthuộc C tính tồn t 1,2, m cho R , , , t D Kết thúc thuật toán filter F_FRSAR, ta thu tậprútgọn B ai , , , độ xác phân lớp tập liệu t tính B Mặt khác, theo định nghĩa miền dương mờ lý thuyết tậpthômờ [76, 77, 78, 79] ta có R D R D R D Với ngưỡng cho trước, đặt Bk ai , , thỏa mãn R , Bk , ,ai t D R Bk k 1 D Khi đó, k Bk gọi tậprútgọn xấp xỉ ngưỡng Nếu Bk Bk ai , , sử dụng để xây dựng phân lớp, cơng bố [91] cho thấy, độ k 1 t xác phân lớp Bk ai , , chưa tốt Bk Giả sử Bk có độ k 1 t xác phân lớp tốt Bk ai , , Khi đó, chọn Bk kết thuật tốn Bk có k 1 t độ xác phân lớp cao hơn, có số lượng thuộctính nên khả khái quát hóa hiệu thực thuật toán phân lớp cao Điều dẫn đến hướng tiếpcậnlaighép tìm tậprútgọn xấp xỉ, kết hợp filter (lọc) wrapper (gói) Phươngpháp filter tìm tậprútgọn xấp xỉ, phươngpháp wrapper kiểm tra độ xác phân lớp tậprútgọn xấp xỉ để chọn tậprútgọn có độ xác cao Với hướng tiếpcận này, độ xác phân lớp tậprútgọn tìm cao so với phươngpháp lọc truyền thống Tuy nhiên, thời gian thực lớn phải thực phân lớp Thuật tốn filter-wrapper tìm tậprútgọn xấp xỉ sử dụng hàm thuộcmờ sau: Thuật toán FW_FRSAR (Filter-Wrapper Fuzzy Rough Set based Attribute Reduction): Thuật tốn filter-wrapper tìm tậprútgọn xấp xỉ sử dụng hàm thuộcmờ Đầu vào: Bảng định DS U , C D , với C a1, a2 , , an , quan hệ tương đương mờ R xác định miền giá trị thuộctính điều kiện Đầu ra: Tậprútgọn xấp xỉ S x có độ xác phân lớp tốt // Khởi tạo B : ; D ; S : ; Bảng 2.6 Thời gian thực FW_FRSAR, F_FRSAR, GAIN_RATIO_AS_FRS Thuật toán FW_FRSAR STT Bộ liệu Ecoli Ionosphere Wdbc Wpbc Wine Glass Magic04 Pageblocks Thuật toán Thuật toán Thủ tục Filer Thủ tục Tổng Wrapper cộng F_FRSAR GAIN_RATIO _AS_FRS [45] 34 30 33 13 10 2.38 12.64 22.15 8.56 0.58 0.82 894.26 1.24 6.92 8.74 6.28 1.22 0.66 124.49 3.62 19.56 30.89 14.84 1.80 1.48 1018.75 2.86 14.87 24.12 9.12 0.62 0.88 914.86 2.95 15.04 26.08 9.88 0.74 1.02 948.16 10 98.64 22.16 120.80 112.76 126.28 U C 336 351 569 198 178 214 19020 5473 Bảng 2.6 cho thấy, thời gian thực thuật toán FW_FRSAR cao hai thuật toán filter F_FRSAR GAIN_RATIO_AS_FRS phải thực phân lớp giai đoạn wrapper 2.3 Rútgọnthuộctính sử dụng khoảng cách mờTrong năm gần đây, nhóm nghiên cứu Nguyễn Long Giang cộng sử dụng độ đo khoảng cách để giải tốn rútgọnthuộctính bảng định theotiếpcậntậpthô truyền thống [9, 24, 57, 65] bảng định không đầy đủ theotiếpcậntậpthô dung sai [9, 10, 12, 25, 58] Theotiếpcậntậpthơ mờ, nhóm nghiên cứu mở rộng độ đo khoảng cách đề xuất thành độ đo khoảng cách mờ có số kết việc sử dụng độ đo khoảng cách mờ để giải toán rútgọnthuộctính bảng định có miền giá trị số [3, 8, 18] Tiếp tục hướng nghiên cứu này, với mục tiêu tìm kiếm độ đo khoảng cách hiệu (có cơng thức tính tốn đơn giản) giải tốn rútgọnthuộc tính, phần xây dựng độ đo khoảng cách mờ (sau gọi khoảng cách mờ) dựa độ đo khoảng cách phân hoạch cơng trình [48] Sử dụng khoảng cách mờ xây dựng, đề xuất phươngpháp filter-wrapper rútgọnthuộctính bảng định nhằm nâng cao độ xác phân lớp giảm thiểu số lượng thuộctínhtậprútgọn 2.3.1 Xây dựng khoảng cách mờ hai tậpmờ Mệnh đề 2.1 Cho hai tậpmờ A, B tập đối tượng U Khi d A, B A B A B khoảng cách mờ A B 2.3.2 Xây dựng khoảng cách mờ hai phân hoạch mờ Mệnh đề 2.2 Cho bảng định DS U ,C D với U x1, x2 , , xn R P , RQ hai phân hoạch mờ sinh hai quan hệ tương đương mờ R P , RQ P, Q C Khi đó: D R P , RQ n xi P xi Q xi P xi Q n i 1 khoảng cách mờ R P RQ , gọi khoảng cách phân hoạch mờ Mệnh đề 2.3 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện, khoảng cách mờ hai tậpthuộctính C C D xác định sau: D RC , RC D n xi C xi C xi D n i 1 10 D R , D R , Mệnh đề 2.4 Cho R P P phân hoạch mờ , ta có: P Mệnh đề 2.5 Cho bảng định DS U , C D với U x1, x2 , , xn , B C R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện Khi D R B , R BD D R C , R C D 2.3.3 Rútgọnthuộctính sử dụng khoảng cách mờtheotiếpcận filter Định nghĩa 2.1 Cho bảng định DS U , C D với B C R quan hệ tương đương mờ xác định miền giá trị thuộctính điều kiện Nếu 1) D R B , R BD D RC , RC D 2) b B, D R , R D R , R B b B b D CD C B tậprútgọn C dựa khoảng cách mờ Định nghĩa 2.2 Cho bảng định DS U , C D với B C b C B Độ quan trọngthuộctính b B định nghĩa SIGB b D R B , R BD D R Bb , R BbD Độ quan trọng SIGB b đặc trưng cho chất lượng phân lớp thuộctính b thuộctính định D sử dụng làm tiêu chuẩn lựa chọn thuộctính cho thuật tốn filter F_FDAR tìm tậprútgọn Thuật tốn F_FDAR (Filter - Fuzzy Distance based Attribute Reduction): Thuật tốn filter tìm tậprútgọn sử dụng khoảng cách mờ Đầu vào: Bảng định DS U , C D , quan hệ tương đương mờ R xác định tậpthuộctính điều kiện Đầu ra: Mộttậprútgọn B B ; D R B , R BD ; Tính khoảng cách phân hoạch mờ D RC , RC D ; // Thêm dần vào B thuộctính có độ quan trọng lớn While D R B , R BD D RC , RC D Begin Với a C B tính SIGB a D R B , R BD D R Ba , R Chọn am C B cho SIGB am Max SIGB a ; aC B B B am ; End; //Loại bỏ thuộctính dư thừa B có Với a B 10 Begin 11 Tính D R Ba , RBaD ; 12 BaD If D R , R D R , R then B B a ; B a B a D C 13 End; 11 C D Return B ; 2 Độ phức tạp thời gian thuật toán F_FDAR O C U 2.3.4 Rútgọnthuộctính sử dụng khoảng cách mờtheotiếpcận filter-wrapper Xét bảng định DS U , C D với C a1, a2 , , am R quan hệ tương đương mờ xác định miền giá trị thuộctính điều kiện Đặt D RC , RC D Theo thuật toán F_FDAR, giả sử thuộctính , , thêm vào tập rỗng theo giá trị lớn độ quan trọng thuộctính cho D Rai1 ,ai2 , ,ait , Rai1 ,ai2 , ,ait D đến tồn t 1,2, m cho Kết thúc thuật toán, ta thu tậprútgọn B ai1 , ai2 , , ait , độ xác phân lớp tập liệu tính độ xác phân lớp B Mặt khác, theo D Ra , Ra D D Ra ,a , Ra i1 ngưỡng i1 i1 i2 i1 ,ai2 D ai1 , ,ait đề D R Bk ai1 , , aik cho trước, đặt Mệnh 2.6 D R , R , Rai1 , ,ait D thỏa mãn ta Với Bk D Bk có D R Bk aik 1 , R Bk aik 1 D Khi đó, Bk gọi tậprútgọn xấp xỉ ngưỡng Nếu Bk Bk ai , , sử dụng để xây dựng phân lớp, công bố [91] cho thấy, độ k 1 t xác phân lớp Bk ai , , chưa tốt Bk Giả sử Bk có độ xác k 1 t phân lớp tốt Bk ai , , Khi đó, chọn Bk kết thuật tốn Bk có độ k 1 t xác phân lớp cao hơn, có số lượng thuộctính nên khả khái quát hóa hiệu thực thuật toán phân lớp cao Điều dẫn đến hướng tiếpcậnlaighép tìm tậprútgọn xấp xỉ, kết hợp filter (lọc) wrapper (gói) Phươngpháp filter tìm tậprútgọn xấp xỉ, phươngpháp wrapper kiểm tra độ xác phân lớp tậprútgọn xấp xỉ để chọn tậprútgọn có độ xác cao Với hướng tiếpcận này, độ xác phân lớp tậprútgọn tìm cao so với phươngpháp filter truyền thống Tuy nhiên, thời gian thực lớn phải thực phân lớp Thuật tốn filter-wrapper tìm tậprútgọn xấp xỉ sử dụng khoảng cách mờ sau: Thuật toán FW_FDAR (Filter-Wrapper Fuzzy Distance based Attribute Reduction): Thuật tốn filter-wrapper tìm tậprútgọn xấp xỉ sử dụng khoảng cách mờ Đầu vào: Bảng định DS U , C D với C a1, a2 , , an , quan hệ tương đương mờ R miền giá trị thuộctính điều kiện Đầu ra: Tậprútgọn xấp xỉ S x có độ xác phân lớp tốt // Khởi tạo B ; S : ; D R B , R BD ; Tính khoảng cách mờ D R , R ; C D C // Giai đoạn filter, tìm ứng viên cho tậprútgọn // Thêm dần vào B thuộctính có độ quan trọng lớn While D R B , R BD D RC , RC D Begin Với a C B tính SIGB a D R B , R BD D R 12 Ba , R BaD ; Chọn am C B cho SIGB am Max SIGB a ; aC B B B am ; S : S B ; End; // Giai đoạn Wrapper,tìm tậprútgọn có độ xác phân lớp cao Đặt t S // t số phần tử S, S chứa chuỗi thuộctính chọn bước lặp vòng lặp While, nghĩa S ai ,ai , , ,ai , , , ; 10 Đặt S1 ai , S2 ai , , , St ai , , , 1 2 1 2 t t 11 For j = to t 12 Begin 13 Tính độ xác phân lớp S j phân lớp sử dụng phươngpháp 10-fold; 14 End 15 S x S jo với S jo có độ xác phân lớp lớn Return S x ; Độ phức tạp thời gian thuật toán FW_FDAR O C * U O C * T với O T độ 2 phức tạp phân lớp 2.3.5 Thực nghiệm thuật toán 1) Mục tiêu thực nghiệm 1) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter FPDAR [18] thời gian thực độ xác phân lớp 2) So sánh thuật toán filter-wrapper đề xuất FW_FDAR với thuật toán filter-wrapper FEBAR [91] thời gian thực độ xác phân lớp 2) Số liệu thực nghiệm Bảng 2.8 Bộ liệu thử nghiệm thuật toán FW_FDAR STT Bộ liệu Mô tả Lympho Wine Libra WDBC Horse Heart Credit German Lymphography Wine Libras movement Wisconsin diagnostic breast cancer Horse colic Statlog (heart) Credit approval German credit data Sốthuộctính điều kiện Tất ThuộcThuộcSố đối tính định tính thực tƣợng danh (Real(nominal) valued) 148 18 18 178 13 13 360 90 90 569 30 30 368 270 690 1000 22 13 15 20 15 13 6 Số lớp định 15 2 2 3) Kết so sánh độ xác phân lớp Độ xác phân lớp biểu diễn v v giá trị độ xác trung bình (mean) sai số chuẩn (standard error) Sử dụng phân lớp CART (cây phân lớp, hồ quy) để tính độ xác phân lớp giai đoạn wrapper với phươngpháp kiểm tra chéo 10-fold 13 Bảng 2.9 Độ xác phân lớp FW_FDAR, FEBAR, FPDAR STT Bộ liệu Lympho Wine Libra WDBC Horse Heart Credit German Độ xác ban đầu Độ C xác 18 0.776± 0.008 13 0.910 ± 0.066 90 0.566 ± 0.137 30 0.924 ± 0.037 22 0.829 ± 0.085 13 0.744 ± 0.072 15 0.826 ± 0.052 20 0.692 ± 0.030 Thuật tốn FW_FDAR Độ B xác 0.768 ± 0.085 0.893 ± 0.072 0.658 ± 0.077 0.968 ± 0.058 0.816 ± 0.052 0.803 ± 0.074 0.865 ± 0.028 0.716 ± 0.029 Thuật tốn FEBAR [91] Độ B xác 0.768 ± 0.085 0.893 ± 0.072 0.605 ± 0.103 0.952 ± 0.027 0.802 ± 0.066 0.803 ± 0.074 0.846 ± 0.048 0.702 ± 0.043 Thuật tốn FPDAR [18] B Độ xác 0.722 ± 0.062 0.886 ± 0.058 26 0.556 ± 0.205 0.925 ± 0.644 12 0.798 ± 0.058 12 0.752 ± 0.055 14 0.820 ± 0.078 11 0.684 ± 0.024 Kết Bảng 2.9 cho thấy, sốthuộctínhtậprútgọn thuật tốn đề xuất FW_FDAR nhỏ nhiều so với thuật toán filter FPDAR Độ xác FW_FDAR cao FPDAR tất liệu Với thuật toán filter-wrapper FEBAR [91] sử dụng -entropy mờ, số lượng thuộctínhtậprútgọn FW_FDAR xấp xỉ FEBAR, độ xác phân lớp FW_FDAR xấp xỉ FEBAR 3) Kết so sánh thời gian thực Bảng 2.10 Thời gian thực FW_FDAR, FEBAR, FPDAR STT Bộ liệu Lympho Wine Libra WDBC Horse Heart Credit German Thủ tục Tổng Wrapper cộng Thuật toán FPDAR [18] 0.52 1.18 88.26 8.22 2.65 1.78 3.98 8.28 0.34 0.48 48.48 22.32 4.98 1.26 18.02 54.65 Thuật toán FW_FDAR Thuật toán FEBAR [91] Thủ tục Filer 0.32 0.46 46.28 20.15 4.85 1.22 16.58 52.48 Thủ tục Filer 0.38 0.51 55.12 26.38 5.26 1.45 19.26 71.22 Thủ tục Tổng Wrapper cộng 0.50 1.21 86.18 8.74 2.68 1.52 3.42 8.64 0.82 1.67 132,46 28.89 7.53 2.74 20.00 61.12 0.90 1.69 143.38 34.60 7.91 3.23 23.24 79.50 Bảng 2.10 cho thấy, thuật tốn FW_FDAR có thời gian thực nhỏ đáng kể thuật toán FEBAR [91], chủ yếu thủ tục filter tìm tậprútgọn Nguyên nhân thuật tốn FEBAR phải tính miền dương mờ để xác định hệ số , thuật toán FEBAR phải tính tốn cơng thức logarit phức tạp cơng thức entropy Shannon Tuy nhiên, thuật tốn theotiếpcận filter-wrapper FW_FDAR FEBAR [91] có thời gian thực lớn thuật toán theotiếpcận filter FPDAR [18] phải thực phân lớp để tính độ xác tậprútgọn xấp xỉ giai đoạn wrapper 14 Chƣơng PHƢƠNG PHÁP GIA TĂNG RÚTGỌNTHUỘCTÍNHTRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI SỬ DỤNG KHOẢNG CÁCH MỜ 3.1 Mở đầu Với tăng trưởng không ngừng dung lượng liệu, bảng định ngày có kích thước lớn thay đổi, cập nhật Việc áp dụng thuật tốn tìm tậprútgọntheotiếpcận truyền thống gặp nhiều thách thức Do đó, nhà nghiên cứu đề xuất hướng tiếpcậntính tốn gia tăng tìm tậprútgọn nhằm giảm thiểu thời gian thực có khả thực bảng định kích thước lớn Trong năm gần đây, số nhóm nghiên cứu đề xuất thuật tốn gia tăng tìm tậprútgọn bảng định thay đổi theotiếpcậntậpthômờ [15, 16, 97, 99] Các thuật toán gia tăng tìm tậprútgọntheotiếpcậntậpthơmờ nêu có thời gian thực nhỏ đáng kể thuật tốn khơng gia tăng thực thi bảng liệu kích thước lớn Tuy nhiên, thuật toán nêu theo hướng tiếpcận lọc truyền thống (filter) Vì vậy, tậprútgọn tìm thuật tốn nêu chưa tối ưu số lượng thuộctính độ xác phân lớp Trong chương này, luận án trình bày cơng thức tính tốn gia tăng khoảng cách mờ (được đề xuất mục 2.3 chương 2) trường hợp bổ sung loại bỏ tập đối tượng Dựa cơng thức tính tốn gia tăng xây dựng, luận án trình bày thuật tốn gia tăng filter-wrapper tìm tậprútgọn trường hợp bổ sung, loại bỏ tập đối tượng Kết nghiên cứu chương cơng bố cơng trình số 3.2 Thuật tốn gia tăng filter-wrapper tìm tậprútgọn xấp xỉ bổ sung tập đối tượng 3.2.1 Công thức gia tăng tính khoảng cách mờ bổ sung tập đối tượng Mệnh đề 3.1 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện Giá sử đối tượng x bổ sung vào U Khi đó, cơng thức tính gia tăng khoảng cách phân hoạch mờ là: DU x RC , RC D n DU RC , RC D n 1 n 21 x C x C x D Mệnh đề 3.2 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện Giả sử tập đối tượng gồm U xn1, xn2 , , xn s U, s phần tử bổ sung vào với MU U ( RC ) pij n s n s , MU U ( RD ) d ij n s n s tương ứng trận tương đương mờ ma trận tương đương C D Khi đó, cơng thức tính gia tăng khoảng cách phân hoạch mờ sau: DU U RC , RCD s 1 pn i ,n j 1 pn i ,n j 1 , d n i ,n j 1 j i s n D R , R C C D U ns n s i1 15 x n i C xni C xni D với 3.2.2 Thuật tốn gia tăng filter-wrapper tìm tậprútgọn bổ sung tập đối tượng Mệnh đề 3.3 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện, B C tậprútgọn dựa khoảng cách phân hoạch mờ Giả sử tập đối tượng gồm s phần tử U xn1, xn2 , , xns bổ sung vào U Khi ta có: 1) Nếu D xni d với i s với i s D R , R D R , R DU U RC , RC D xni B xni D s n x xn i C xn i D DU RC , RC D n i C ns n s i1 U U B D B U U C 2) Nếu C D Dựa Mệnh đề 3.3, thuật toán gia tăng filter-wrapper tìm tậprútgọn sử dụng khoảng cách phân hoạch mờ bổ sung tập đối tượng U thực sau: Thuật toán IFW_FDAR_AdObj (Incremental Filter-Wrapper Algorithm for Fuzzy Distance based Attribute Reduction When Add Objects) Đầu vào: 1) 2) Bảng định DS U , C D với U x1, x2 , , xn , quan hệ tương đương mờ R , tậprútgọn B C , tậprútgọn xấp xỉ B0 C có độ xác phân lớp tốt Các ma trận tương đương mờ MU ( R B ) pijB 3) nn , MU ( RC ) pijC nn , MU ( R D ) dij nn Tập đối tượng bổ sung U xn1, xn2 , , xns Đầu ra: Tậprútgọn xấp xỉ Bbest DS ' U U , C D Bước 1: Khởi tạo T : // Chứa ứng viên tậprútgọn tốt Tính ma trận tương đương mờtập đối tượng U U MU U ( R B ) pijB n s n s , MU U ( R D ) dij n s n s Bước 2: Kiểm tra tập đối tượng bổ sung Đặt X : U For i to s If xni B xni D then X : X xni If X then Return B0 Đặt U : X ; s : U ; // Tậprútgọn xấp xỉ không thay đổi //Gán lạitập đối tượng Bước 3: Thực thuật tốn tìm tậprútgọnTính khoảng cách phân hoạch mờ ban đầu DU R B , R BD ; DU RC , RC D 16 Tính khoảng cách phân hoạch mờ cơng thức gia tăng; DU U R B , R BD ; DU U RC , RC D ; // Giai đoạn filter, tìm ứng viên cho tậprútgọn 10 While DU U R B , R BD D U U R , R C D C 11 Begin 12 For each a C B 13 Begin cơng thức gia tăng; 14 Tính DU U R Ba , R BaD 15 Tính SIGB a DU U R B , R BD DU U R Ba , R BaD 16 End; 17 Chọn a C B cho SIGB am Max SIGB a ; 18 B : B am ; 19 B0 : B0 am 20 T : T B0 ; aC B 21 End; // Giai đoạn Wrapper,tìm tậprútgọn có độ xác phân lớp cao hất 22 Đặt t : T //t số phần tử T, T chứa chuỗi thuộctính chọn, nghĩa ; 23 Đặt T : B a ; T : B a , a ; ; T : B a , a T B0 ai1 , B0 ai1 , ai2 , , B0 ai1 , ai2 , , ait i1 i1 i2 t i1 i2 , , ait 24 For j = to t 25 Begin 26 Tính độ xác phân lớp T j phân lớp sử dụng 10-fold; phươngpháp 27 End 28 Bbest : T jo với T jo có độ xác phân lớp lớn Return Bbest ; Độ phức tạp thời gian thuật max O B * U * U U , O C B * U * U U O C B * T tốn IFW_FDAR_AdObj Do đó, thuật toán gia tăng IFW_FDAR_AdObj giảm thiểu đáng kể độ phức tạp thời gian thực hiện, đặc biệt trường hợp U lớn C lớn B nhỏ 17 3.2.3 Thực nghiệm thuật toán 1) Mục tiêu thực nghiệm (1) Đánh giá tính hiệu thời gian thực thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với hai thuật tốn khơng gia tăng FW_FDAR FEBAR [91] FEBAR thuật tốn filter-wrapper tìm tậprútgọn sử dụng -entropy mờ [91] FW_FDAR thuật tốn filter-wrapper tìm tậprútgọn sử dụng khoảng cách mờ trình bày chương (2) Đánh giá tính hiệu độ xác phân lớp thuật tốn gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán gia tăng filter IV-FS-FRS-2 [99] thuật toán gia tăng filter IARM [98] IV-FS-FRS-2 IARM thuật tốn gia tăng tìm tậprútgọn bổ sung tập đối tượng sử dụng quan hệ phân biệt tậpthômờtheotiếpcận filter 2) Dữ liệu thử nghiệm Bảng 3.1 Bộ liệu thử nghiệm thuật tốn IFW_FDAR_AdObj Bộ STT Mơ tả liệu SốSố đối đối tƣợng tƣợng ban đầu (1) (4) 178 360 (5) 88 180 Sốthuộctính điều kiện Số Tất ThuộcThuộc đối tính định tính tƣợng danh thực gia (nominal) (Realtăng valued) (6) (7) (8) (9) 90 13 13 180 90 90 569 284 285 30 30 368 270 183 135 185 135 22 13 15 7 2 690 345 345 15 1000 500 5000 20 13 1473 733 740 1484 744 740 8 10 5000 2500 2500 21 21 3 10 (2) Wine Libra (3) Wine Libras movement WDBC Wisconsin diagnostic breast cancer Horse Horse colic Heart Statlog (heart) Credit Credit approval German German credit data Cmc Contraceptive Method Choice Yeast Protein Localization Sites Wave Waveform Số lớp định (10) 15 3) So sánh thuật tốn gia tăng IFW_FDAR_AdObj hai thuật tốn khơng gia tăng: FW_FDAR, FEBAR Để đánh giá tính hiệu thời gian thực thuật toán gia tăng, sử dụng tỷ lệ giảm thiểu thời gian, ký hiệu TTR, tính sau: TTR 18 TM *100 Ti với TM thời gian thực thuật toán gia tăng IFW_FDAR_AdObj, Ti thời gian thực thuật toán FW_FDAR, FEBAR Bảng 3.2 Thời gian thực IFW_FDAR_AdObj, FW_FDAR, FEBAR (s) STT 10 Tập liệu Wine Libra WDBC Horse Heart Credit German Cmc Yeast Wave Trung bình IFW_FDAR _AdObj FW_FDAR Thời gian Thời gian TTR% Thời gian TTR% 0,22 6,78 4.08 1,08 0.26 1,86 4.26 3.22 5.68 274.48 30,19 1,67 132,46 28,89 7,53 2,76 20,00 61,12 84,42 134,84 19.058,26 1953,19 13,17 5,11 14,12 14,34 9,42 9,3 6,96 3,81 4,21 1,44 8,19 1,70 143.38 34.60 7.91 3.28 23.26 65.50 92,42 145,68 19.822,46 2034,01 12,94 4,72 11,79 13,65 7,92 7,99 6,50 3,48 3,89 1,38 7,43 FEBAR [91] Bảng 3.2 cho thấy, với hai thuật toán filter-wrapper, thời gian thực thuật toán FW_FDAR nhỏ so với thuật toán FEBAR tất tập liệu Thời gian thực thuật toán gia tăng giảm thiểu đáng kể so với hai thuật tốn khơng gia tăng Tính trung bình 10 tập liệu, thời gian thực IFW_FDAR_AdObj 8,19% thuật toán FW_FDAR 7,43 thuật toán FEBAR Với số liệu lớn Wave, thời gian thực IFW_FDAR_AdObj 1,44% so với FW_FDAR 1,38% so với FEBAR Do đó, thuật tốn gia tăng đặc biệt hiệu tập liệu kích thước lớn Thay tìm tậprútgọn tồn tập liệu, chia nhỏ tập liệu thành nhiều phần, sau thực thuật tốn gia tăng bổ sung phần Bảng 3.3 cho thấy, độ xác phân lớp ba thuật tốn theotiếpcận filter-wrapper xấp xỉ Số lượng thuộctínhtậprútgọn ba thuật toán xấp xỉ Do đó, thuật tốn gia tăng khơng cải thiện độ xác phân lớp so với thuật tốn khơng gia tăng Bảng 3.3 Độ xác phân lớp IFW_FDAR_AdObj, FW_FDAR, FEBAR Độ xác ban đầu Bộ STT Độ C liệu xác Wine 13 0.910 ± 0.066 Libra 90 0.566 ± 0.137 WDBC 30 0.924 ± 0.037 Horse 22 0.829 ± 0.085 Heart 13 0.744 ± 0.072 Thuật toán Thuật tốn IFW_FDAR_AdObj FW_FDAR Độ B Độ B xác xác 0.926 ± 0.902 ± 0.072 0.072 10 0.582 ± 0.605 ± 0.077 0.103 0.932 ± 0.915 ± 0.058 0.027 0.806 ± 0.788 ± 0.052 0.066 0.812 ± 0.803 ± 0.074 0.074 19 Thuật tốn FEBAR [91] B Độ xác 0.908 0.058 0.556 0.205 0.925 0.644 0.836 0.058 0.782 0.055 ± ± ± ± ± Credit 15 German 20 Cmc 9 Yeast 10 Wave 21 0.826 ± 0.052 0.692 ± 0.030 0.426 ± 0.024 0.522 ± 0.045 0.796 ± 0.058 4 0.865 ± 0.028 0.716 ± 0.029 0.658 ± 0.072 0.506 ± 0.016 0.812 ± 0.022 0.846 ± 0.048 0.702 ± 0.043 0.672 ± 0.002 0.508 ± 0.012 0.818 ± 0.048 0.820 ± 0.078 0.725 ± 0.024 0.686 ± 0.012 0.508 ± 0.014 0.806 ± 0.018 4) So sánh thuật toán gia tăng IFW_FDAR_AdObj với thuật toán gia tăng IV-FS-FRS-2, IARM Bảng 3.4 Thời gian thực IFW_FDAR_AdObj, IV-FS-FRS-2, IARM STT Tập liệu 10 Wine Libra WDBC Horse Heart Credit German Cmc Yeast Wave Trung bình Thời gian IFW_FDAR_A dObj 0,22 6,78 4.08 1,08 0.26 1,86 4.26 3.22 5.68 274.48 30,19 Thời gian IV-FS-FRS-2 [99] 0,18 5,76 3,35 0.82 0,22 1,18 3,84 2,72 4,68 238,64 26,13 Thời gian IARM [98] 0,16 5,08 3,12 0,86 0,22 1,15 3,46 2,96 4,22 226,26 24,749 Kết Bảng 3.4 cho thấy, thời gian thực thuật toán IFW_FDAR_AdObj cao hai thuật toán IV-FS-FRS-2, IARM, đặc biệt liệu kích thước lớn Wave Bảng 3.5 Độ xác phân lớp IFW_FDAR_AdObj, IV-FS-FRS-2, IARM Độ xác Thuật tốn Thuật tốn ban đầu IFW_FDAR_AdObj IV-FS-FRS-2 [57] Bộ STT liệu Độ Độ Độ B B C xác xác xác Wine 13 0.910 ± 0.926 ± 0.906 0.066 0.072 ± 0.016 Libra 90 0.566 ± 10 0.582 ± 51 0.502± 0.137 0.077 0.020 WDBC 30 0.924 ± 0.932 ± 24 0.895± 0.037 0.058 0.012 Horse 22 0.829 ± 0.806 ± 12 0.788± 0.085 0.052 0.048 Heart 13 0.744 ± 0.812 ± 10 0.766± 0.072 0.074 0.058 Credit 15 0.826 ± 0.865 ± 13 0.828± 0.052 0.028 0.014 German 20 0.692 ± 0.716 ± 12 0.688± 0.030 0.029 0.032 Cmc 0.426 ± 0.658 ± 0.489± 20 Thuật toán IARM [56] B 48 16 12 11 14 11 Độ xác 0.902 ± 0.056 0.517± 0.014 0.892± 0.014 0.764± 0.023 0.772± 0.014 0.826± 0.014 0.690± 0.015 0.482± Yeast 10 Wave 21 0.024 0.522 ± 0.045 0.796 ± 0.058 0.072 0.506 ± 0.016 0.812 ± 0.022 0.042 0.502± 0.012 0.784± 0.016 17 0.012 0.502± 0.012 0.702± 0.024 21 Bảng 3.5 trình bày kết so sánh độ xác phân lớp số lượng thuộctínhtậprútgọn ba thuật toán Từ Bảng 3.5 ta thấy, thuật tốn filter-wrapper IFW_FDAR_AdObj có độ xác phân lớp cao đáng kể so với hai thuật toán filter IV-FS-FRS-2, IARM hầu hết tập liệu, thuật tốn IFW_FDAR_AdObj ln chọn tậprútgọn có độ xác phân lớp tốt Hơn nữa, sốthuộctínhtậprútgọn thuật tốn IFW_FDAR_AdObj nhỏ nhiều hai thuật tốn IV-FS-FRS-2 IARM Do đó, thời gian thực tính khái qt hóa tập luật phân lớp tậprútgọn thuật toán IFW_FDAR_AdObj tốt so với hai thuật toán IV-FS-FRS-2 IARM 3.3 Thuật tốn gia tăng filter-wrapper tìm tậprútgọn xấp xỉ loại bỏ tập đối tượng 3.3.1 Cập nhật khoảng cách mờ loại bỏ tập đối tượng Mệnh đề 3.4 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện Giá sử đối tượng xk U bị loại bỏ khỏi U Khi đó, cơng thức tính khoảng cách phân hoạch mờ sau: DU xk RC , RC D n DU RC , RC D n 1 n 1 với DU RC , RCD , DU x RC , RC D k x k C xk C xk D (4) tương ứng khoảng cách phân hoạch mờtập đối tượng U , U x Mệnh đề 3.5 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện Giả sử tập đối tượng gồm U xk , xk 1, , xk s1 U, s n, s phần tử bị loại khỏi với MU U ( RC ) pij n s n s , MU U ( RD ) d ij n s n s tương ứng trận tương đương mờ ma trận tương đương C D Khi đó, cơng thức cập nhật khoảng cách phân hoạch mờ sau: DU U RC , RCD s1 n D R , R x xk i C xk i D C C D U k i C ns n s i 0 (5) với pk i ,k j pk i ,k j , d k i ,k j i j 0 3.3.2 Thuật tốn filter-wrapper tìm tậprútgọn loại bỏ tập đối tượng Mệnh đề 3.6 Cho bảng định DS U , C D với U x1, x2 , , xn R quan hệ tương đương mờ xác định miền giá trị tậpthuộctính điều kiện, B C tậprútgọn dựa khoảng cách phân hoạch mờ Giả sử tập đối tượng gồm s phần tử U xk , xk 1, , xk s1 bị loại khỏi U , s n , Khi ta có: 1) Nếu D xk i d với i s 21 với i s D R , R D R , R DU U RC , RCD xk i B xk i D 2 s1 n D R , R x xk i C xk i D C C D U k i C ns n s i 0 B D B U U C U U 2) Nếu C D Dựa Mệnh đề 3.6, thuật toán filter-wrapper cập nhật tậprútgọn xấp xỉ có độ xác phân lớp tốt sử dụng khoảng cách phân hoạch mờ loại bỏ tập đối tượng U thực sau: Thuật toán UFW_FDAR_DelObj (Updated Filter-Wrapper Algorithm for Fuzzy Distance based Attribute Reduction when Delete Objects) Đầu vào: 1) 2) Bảng định DS U , C D với U x1, x2 , , xn , quan hệ tương đương mờ R , tậprútgọn B C , tậprútgọn xấp xỉ B0 C có độ xác phân lớp tốt Các ma trận tương đương mờ MU ( R B ) pijB 3) nn , MU ( RC ) pijC nn , MU ( R D ) dij nn Tập đối tượng loại bỏ U xk 1, xk 2 , , xk s1 gồm s đối tượng với s n Đầu ra: Mộttậprútgọn xấp xỉ Bbest DS ' U U , C D có độ xác phân lớp tốt T : // Chứa ứng viên tậprútgọn xấp xỉ Đặt X : U For i to s If xk i B xk i D then X : X xk i If X then Return B0 Đặt U : X ; s U ; // Tậprútgọn không thay đổi //Gán lạitập đối tượng Tính khoảng cách phân hoạch mờ ban đầu: DU R B , R BD ; DU RC , RC D Tính khoảng cách phân hoạch mờ Mệnh đề loại U : DU U R B , R BD ; DU U RC , RC D ; // Giai đoạn filter, tìm ứng viên cho tậprútgọn While DU U R B , R BD D U U R , R C C D 10 Begin 11 For each a B 12 Begin 13 Tính DU U R Ba , R BaD 22 công thức gia tăng; Tính SIGBa a : DU U R Ba , R BaD DU U R B , R BD 14 15 End; 16 Chọn am B cho SIGB am Min SIGBa a ; 17 B : B am ; 18 B0 : B0 am 19 T : T B0 ; aB 20 End; // Giai đoạn Wrapper,tìm tậprútgọn có độ xác phân lớp cao 21 Đặt t : T //t số phần tử T, T chứa chuỗi thuộctính chọn, nghĩa ; a , a ; ; T : B a , a T B0 ai1 , B0 ai1 , ai2 , , B0 ai1 , ai2 , , ait 22 Đặt T1 : B0 ai ; T2 : B0 i1 i2 t i1 i2 , , ait 23 For j = to t 24 Begin Tính độ xác phân lớp T j phân lớp sử dụng pháp 10-fold; 25 26 End 27 Bbest : T jo với T jo có độ xác phân lớp cao Return Bbest ; Độ phức tạp thuật toán UFW_FDAR_DelObj O B * U * U O B * T 23 phương KẾT LUẬN 1) Những kết luận án: Luận án nghiên cứu hướng tiếpcận filter-wrapper tìm tậprútgọn bảng định nhằm giảm thiểu số lượng thuộctínhtậprútgọn nâng cao độ xác mơ hình phân lớp Kết luận án bao gồm: 1) Đề xuất hai thuật tốn filter-wrapper tìm tậprútgọn bảng định theotiếpcậntậpthô mờ: Thuật toán FW_FRSAR sử dụng hàm hàm thuộcmờ Thuật toán FW_FDAR sử dụng khoảng cách mờ Khoảng cách mờ đề xuất mở rộng khoảng cách cơng trình [48] Kết thử nghiệm số liệu mẫu từ kho liệu UCI [103] cho thấy, hai thuật toán đề xuất giảm thiểu số lượng thuộctínhtậprútgọn nâng cao độ xác phân lớp so với thuật tốn filter cơng bố Với thuật tốn filter-wrapper FEBAR [91] cơng bố gần đây, thuật tốn đề xuất FW_FDAR hiệu FEBAR thời gian thực 2) Đề xuất hai thuật toán gia tăng filter-wrapper: Thuật toán IFW_FDAR_AdObj tìm tậprútgọn trường hợp bổ sung tập đối tượng Thuật tốn UFW_FDAR_DelObj tìm tậprútgọn trường hợp loại bỏ tập đối tượng Cả hai thuật toán sử dụng khoảng cách mờ đề xuất Kết thử nghiệm số liệu mẫu từ kho liệu UCI [103] cho thấy, thuật tốn đề xuất IFW_FDAR_AdObj giảm thiểu số lượng thuộctínhtậprútgọn nâng cao độ xác phân lớp so với thuật tốn gia tăng cơng bố 2) Hƣớng phát triển luận án: (1) Tiếp tục nghiên cứu, đề xuất thuật toán gia tăng filter-wrapper tìm tậprútgọntheotiếpcậntậpthơmờ trường hợp bổ sung, loại bỏ tậpthuộctính (2) Tiếp tục nghiên cứu, đề xuất thuật tốn gia tăng filter-wrapper tìm tậprútgọntheotiếpcậntậpthômờ trường hợp cập nhật tập đối tượng, cập nhật tậpthuộctính 24 ... vấn đề tồn Giống phương pháp rút gọn thuộc tính theo tiếp cận tập thô, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ cơng bố phương pháp heuristic theo tiếp cận filter Nghĩa... 90, 100] Tuy nhiên, giống phương pháp rút gọn thuộc tính theo tiếp cận tập thơ truyền thống, hầu hết phương pháp rút gọn thuộc tính theo tiếp cận tập thô mờ phương pháp filter, nghĩa độ xác mơ... theo tiếp cận tập thô mờ 1.4.1 Các nghiên cứu liên quan đến phương pháp gia tăng tìm tập rút gọn theo tiếp cận tập thô truyền thống tập thô dung sai Theo tiếp cận tập thô truyền thống tập thô