Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
734,38 KB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG CAO CHÍNH NGHĨA NGHIÊNCỨUCÁCPHƯƠNGPHÁPRÚTGỌNTHUỘCTÍNHVÀSINHLUẬTQUYẾTĐỊNHTHEOTIẾPCẬNTẬPTHÔMỜ Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thông Người hướng dẫn khoa học: GS TS Vũ Đức Thi TS Tân Hạnh Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Học viện Cơng nghệ Bưu Viễn thơng chấm luận án tiến sĩ họp vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết luận án Rútgọnthuộctínhsinhluậtđịnh hai toán quan trọng trình khám phá tri thức từ liệu Rútgọnthuộctính bảng định trình lựa chọn tập nhỏ tậpthuộctính điều kiện, loại bỏ thuộctính dư thừa mà bảo tồn thơng tin phân lớp bảng định, gọi tậprútgọn (reduct) Kết rútgọnthuộctính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Sinhluậtđịnh bước rútgọnthuộctính khai phá liệu nhằm đánh giá chất lượng phân lớp liệu thông qua độ hỗ trợ tậpluậtđịnh Lý thuyết tậpthômờ (Fuzzy rough set) Dubois, D., Prade, H., đề xuất kết hợp lý thuyết tậpthô lý thuyết tậpmờ nhằm xấp xỉ tậpmờ dựa quan hệ tương đương mờ (fuzzy equivalent relation) xác định miền giá trị thuộctínhTheo lý thuyết tậpthô mờ, độ tương đương mờ hai đối tượng giá trị nằm đoạn [0,1] cho thấy tính gần nhau, hay khả phân biệt hai đối tượng Do đó, quan hệ tương đương mờ bảo toàn khác đối tượng phươngpháprútgọnthuộctínhtheotiếpcậntậpthơmờ có tiềm việc bảo tồn độ xác phân lớp sau thực phươngpháprútgọnthuộctính Chủ đề nghiêncứurútgọnthuộctínhsinhluậtđịnhtheotiếpcậntậpthômờ thu hút quan tâm nhà nghiêncứu năm gần Luận án tập trung nghiêncứu trọng tâm vào hai toán: 1) Bài toán thứ rútgọnthuộctính bảng định miền giá trị thực bước tiền xử lý số liệu 2) Bài toán thứ hai rútgọnthuộctínhsinhluậtđịnh bảng địnhmờ Đối tượng nghiêncứu luận án bảng định có miền giá trị thực bảng địnhmờCác kết đạt luận án 1) Đề xuất phươngpháprútgọnthuộctính trực tiếp bảng định miền giá trị thực theotiếpcậntậpthô mờ, bao gồm: - Phươngpháprútgọnthuộctính sử dụng miền dương mờ nhằm nhằm khắc phục số hạn chế cơng bố trước để tìm tậprútgọn khơng dư thừa thuộctính bảo tồn miền dương mờ Kết cơng bố cơng trình [CCN1], [CCN2] - Phươngpháprútgọnthuộctính sử dụng khoảng cách Jaccard mờ khoảng cách phân hoạch mờ Thực nghiệm số liệu lấy từ kho liệu UCI chứng minh hai phươngpháp sử dụng khoảng cách mờ hiệu phươngpháp công bố hai tiêu chí: Độ xác phân lớp thời gian thực số liệu thực nghiệm Các kết cơng bố cơng trình [CCN3], [CCN4] 2) Đề xuất phươngpháprútgọnthuộctínhsinhluật bảng địnhmờtheotiếpcậntậpthơmờPhươngpháprútgọnthuộctính sử dụng miền dương mờ cơng bố cơng trình [CCN2], phươngphápsinh hệ luậtmờ bảng địnhmờ sử dụng khoảng cách Jaccard mờ công bố [CCN5] Bằng lý thuyết thực nghiệm chứng minh phươngpháp đề xuất tương đương với phươngpháp khác tiêu chí độ xác phân lớp liệu Bố cục luận án gồm phần mở đầu bốn chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày số khái niệm lý thuyết tậpthơ tổng quan tốn rútgọnthuộctính mà luận án tập trung nghiêncứu Chương trình bày kết nghiêncứuphươngpháprútgọnthuộctính bảng định miền giá trị thực sử dụng miền dương mờ khoảng cách Jaccard mờ Chương trình bày kết nghiêncứuphươngpháprútgọnthuộctính bảng định miền giá trị thực sử dụng khoảng cách phân hoạch mờ Chương trình bày phươngpháprútgọnthuộctínhsinhluậtđịnh bảng địnhmờ CHƯƠNG CÁC KIẾN THỨC CƠ SỞ 1.1 Một số khái niệm tậpthô Hệ thông tin cặp IS U , A U tập hữu hạn khác rỗng đối tượng gọi tập vũ trụ; A tập hữu hạn khác rỗng thuộctính Cho hệ thông tin IS U , A tập đối tượng X U Với tậpthuộctính P A cho trước, xác định lớp tương đương phân hoạch U / P Có hai cách xấp xỉ tập đối tượng X thơng qua tậpthuộctính P, gọi P-xấp xỉ P-xấp xỉ X, ký hiệu PX PX , xác định sau: PX u U u X , PX u U u X P P Tập PX bao gồm tất phần tử U chắn thuộc vào X, tập PX bao gồm phần tử U có khả thuộc vào X dựa vào tậpthuộctính P Xét hệ thông tin IS U , A với P, Q A , ta gọi POS P (Q ) P-miền dương Q, tập đối tượng U phân lớp vào lớp U / Q sử dụng tậpthuộctính P Nói cách hình thức, POSP (Q) u U uP uQ Bảng định DT U , C D dạng đặc biệt hệ thơng tin, tậpthuộctính A bao gồm hai tập tách biệt nhau: Tậpthuộctính điều kiện C tậpthuộctínhđịnh D với C D Nếu miền giá trị thuộctính c C giá trị số thực bảng định DT gọi bảng định miền giá trị thực 1.2 Một số khái niệm tậpthômờ xác định bảng định miền giá trị thực Cho bảng định miền giá trị thực DT U , C D , xác định miền giá trị thuộctính gọi quan hệ quan hệ R tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive): x, x ; R 2) Tính đối xứng (symetric): R x , y R y , x ; 3) Tính bắc cầu max-min (max-min x, z R x, y , R y, z ; R transitive): Cho bảng định miền giá trị thực DT U , C D với U x1 , x2 , , xn P quan hệ tương đương mờ xác định R P biểu diễn ma trận tậpthuộctính P C Quan hệ R tương đương mờ P p M R ij nn với pij R P xi , x j giá trị quan hệ hai đối tượng xi x j tậpthuộctính P, pij 0,1 , xi , x j U , i , j n P xác định phân hoạch mờ Quan hệ tương đương mờ R P R P U / R P x n x , , x với P U / R i R P R P n R P i 1 xi R P pi1 / x1 pi2 / x2 pin / xn tậpmờ đóng vai trò lớp tương đương mờ (fuzzy equivalent class) đối tượng xi Hàm thuộc đối tượng xác định bởi: xi R P x j R xi , x j R P xi , x j pij P với x j U Khi đó, lực lượng lớp đương đương mờ xi R P n xi R P p ij j 1 P quan hệ tương Cho X tậpmờ U R đương mờtậpthuộctính P C Khi đó, tập xấp xỉ R P X tập xấp xỉ R P X X tậpmờ hàm thuộc đối tương x U xác định R PX RP x sup F x , inf max 1 F y , X y y U F U / R P x X sup F x , sup F y , X y P yU FU / R X,R P X tậpthômờ Bộ R P Với hai quan hệ tương đương mờ R P , R Q xác định hai tập Q tập mờ, thuộctính P , Q C , miền dương mờ POS R P R hàm thuộc đối tượng x U xác định POS RP x R Q x X sup Q RP X U /R 1.3 Một số khái niệm tậpthômờ xác định bảng địnhmờ Bảng địnhmờ bảng định mà thuộctính D , tậpmờ (fuzzy set) Cho bảng địnhmờ DT U , C C xác định phân hoạch mờsinhtậpthuộctính P a P : U / a U/P X Y : , X A, Y B X Y với A B X tậpmờ Xấp xỉ mờ xấp xỉ mờtập hàm thuộc đối tượng xác định sau: P X x sup F x , inf max 1 F y , X y yU F U / P x sup F x ,sup F y , X y PX yU FU / P Khi đó, miền dương mờtậpmờ với hàm thuộc là: POS P x Q x Xsup PX U / Q Lực lượng miền dương mờtínhtheo cơng thức POS P Q x xU POS P Q x 1.4 Rútgọnthuộctính bảng địnhCác kỹ thuật rútgọnthuộctính phân thành hai loại: Lựa chọn thuộctính (Attribute selection) biến đổi thuộctính (Attribute transformation) Lựa chọn thuộctính chọn tập tốt (theo nghĩa đó) từ tập liệu ban đầu Biến đổi thuộctính thực việc biến đổi thuộctính ban đầu thành tậpthuộctính với số lượng cho bảo tồn thơng tin nhiều Các cơng trình nghiêncứurútTậpthuộctính ban đầu gọnthuộctính thường tập trung vào nghiêncứu kỹ thuật lựa chọn thuộctính Nhìn chung, thuật Định nghĩa tậprútgọn tốn lựa chọn thuộctính thường bao gồm bốn khâu bản: Tạo lập tập Đánh giá tập Kiểm tra điều kiện dừng Kiểm chứng kết Định nghĩa độ quan trọng thuộctính Xây dựng thuật tốn heuristic tìm tậprútgọnPhươngpháprútgọnthuộctính heuristic mơ hình hóa hình Tậprútgọn vẽ 1.5 Kết luận chương Chương trình bày số khái niệm lý thuyết tập thô; số khái niệm tậpthơmờ nhằm giải tốn rútgọnthuộctính bảng định miền giá trị thực; giải tốn rútgọnthuộctínhsinhluậtđịnh bảng địnhmờCác khái niệm trình bày Chương kiến thức tảng sử dụng chương sau luận án CHƯƠNG RÚTGỌNTHUỘCTÍNH TRONG BẢNG QUYẾTĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜVÀ KHOẢNG CÁCH JACCARD MỜ 2.1 Đặt vấn đề Các kết chương cơng bố cơng trình [CCN1], [CCN2], [CCN3] 2.2 Rútgọnthuộctính sử dụng miền dương mờTheo hướng tiếpcận này, Hu, Q., cộng đề xuất thuật tốn FAR-VPFRS tìm tậprútgọn sử dụng độ phụ thuộcthuộctính dựa miền dương mờ Dựa phươngpháp Hu, Q., phần đề xuất phươngpháprútgọnthuộctính dựa miền dương mờ sử dụng quan hệ tương đương mờ, để tìm tậprútgọn khơng dư thừa bảo toàn miền dương mờ 2.2.1 Phươngpháprútgọnthuộctính sử dụng miền dương mờĐịnh nghĩa 2.1 Cho bảng định có miền giá trị thực tậpthuộctính DT U , C D , quan hệ tương đương mờ R P C Nếu 1) POS D x POS D x RP RC 2) p P, POS R( P { p }) D x POS R C D x P tậprútgọn C dựa miền dương mờĐịnh nghĩa 2.2 Cho bảng định có miền giá trị thực DT U , C D xác định miền quan hệ tương đương mờ R giá trị thuộctính Với P C , độ quan trọng thuộctính b C P định nghĩa: tậpthuộctính P dựa quan hệ R SIGR P b POS R ( P {b}) ( D ) ( x) POS RP (D) ( x) Thuật tốn F_RSAR2: Thuật tốn tìm tậprútgọn không dư u2 0.8 0.2 0.6 0.2 0.8 u3 0.6 0.4 0.8 0.2 0.6 0.4 u4 0.4 0.6 0.4 1 u5 0.6 0.6 0.4 1 u6 0.6 1 Một quan hệ tương đương mờđịnh nghĩa miền giá trị thuộctính với p xi giá trị thuộctính p đối tượng xi , pmax , pmin tương ứng giá trị lớn nhất, nhỏ thuộctính p p xi p x j 1 * pij p max p 0, otherwise , if p xi p x j p max p 0.25 Áp dụng F_RSAR2 tìm tậprútgọn P c , c1 Thuật tốn F_RSAR2 có độ phức tạptính tốn ma trận tương đương mờthuộctính O( U ) với U số lượng đối tượng, C số lượng thuộctính điều kiện; độ phức tạptính tốn C ) M (R O( C U ) Độ phức tạp F_RSAR2 O( C U ) 2.2.2 Thử nghiệm đánh giá kết Luận án chọn sáu liệu lấy từ kho liệu UCI có miền giá trị số thực cho Bảng 2.2 để tiến hành thử nghiệm Môi trường thử nghiệm máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, GB nhớ RAM, hệ điều hành Windows 10 Bảng 2.2 Bộ liệu thử nghiệm TT Bộ liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 Số thuộctính điều kiện 35 10 60 24 10 Số đối tượng 47 150 214 208 5456 Số lớp EEG_Eye_State 14 14980 Cài đặt thuật tốn F_RSAR2, FAR-VPFRS ngơn ngữ C#, thuật toán sử dụng quan hệ tương đương mờ Ví dụ 2.1 Sử dụng thuật tốn C4.5 cơng cụ J48 WEKA để đánh giá độ xác phân lớp hai thuật toán cách chọn 2/3 số đối tượng làm tập huấn luyện (training set), 1/3 số đối tượng lại làm tập kiểm tra (testing set) Bảng 2.3 Bảng 2.4 kết thử nghiệm sáu số liệu chọn với U số đối tượng, C số thuộctính điều kiện, R số thuộctínhtậprútgọn với thuật toán, t thời gian thực (đơn vị giây) Bảng 2.3 Kết thực nghiệm F_RSAR2, FAR-VPFRS TT C Bộ số liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 35 10 60 24 14 FA_RSAR2 R t 19 12 15 0.216 0.003 0.40 2.975 2.634 4.969 FAR_VPFRS R t 21 12 15 0.209 0.003 0.040 2.889 2.465 4.356 Bảng 2.4 Độ xác phân lớp C4.5 F_RSAR2, FAR-VPFRS T T Bộ số liệu U C F_RSAR2 Độ xác phân R lớp C4.5 (%) Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 47 150 214 208 5456 14980 35 10 60 24 14 19 12 15 11 78.72 94.67 81.56 70.60 95.12 81.25 FAR-VPFRS Độ xác phân R lớp C4.5 (%) 21 12 15 76.59 94.00 81.56 70.60 95.12 81.25 2.3 Rútgọnthuộctính sử dụng khoảng cách Jaccard mờ 2.3.1 Khoảng cách Jaccard mờtính chất Định nghĩa 2.3 Cho U tập hữu hạn đối tượng A, B U Khoảng cách Jaccard hai tập hợp hữu hạn, định nghĩa DJ ( A, B) A B A B ,C ba tậpmờ U Khi Định lý 2.1 Cho A, B , B ) 1 DFJ ( A A B A B khoảng cách Jaccard mờ hai tậpmờ A, B Định nghĩa 2.4 Cho bảng địnhmờ DT U , C D , giả sử C R D xác định hai tậpthuộc hai quan hệ tương đương mờ R C tính C D tương ứng Gọi rij phần tử ma trận tương C r D phần tử ma trận tương đương đương mờ M R ij D mờ M R với i, j n Khoảng cách Jaccard mờ hai tậpthuộctính C C D dựa ma trận quan hệ tương đương mờ xây dựng sau: n d FJ C, C D U U i 1 r C D ij , rij j 1 n C ij r j 1 Định nghĩa 2.5 Cho bảng định có miền giá trị thực DT U , C D tậpthuộctính P C Nếu 1) d FJ P , P D d FJ C , C D 2) p P, dFJ (P p , P p D) d FJ (C, C D) P tậprútgọn C dựa khoảng cách Jaccard mờ 12 Định nghĩa 2.6 Cho bảng định DT U , C D , P C b P định b C P Độ quan trọng thuộctính nghĩa SIGP b dFJ P, P D dFJ P b , P b D 2.3.2 Phươngpháprútgọnthuộctính sử dụng khoảng cách Jaccard mờ Thuật toán FJ_DBAR xây dựng theophươngpháp heuristic (phần 1.4) để tìm tậprút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tậprútgọn xác địnhtheođịnh nghĩa 2.5, độ quan trọng thuộctính xác địnhtheođịnh nghĩa 2.6 Áp dụng FJ_DBAR cho Ví dụ 2.1 thu P c , c1 2.3.3 Thử nghiệm đánh giá kết Luận án lựa chọn thuật tốn heuristic tìm tậprútgọn dựa lượng thông tin tăng thêm GAIN_RATIO_AS_FRS (gọi GRAF, sử dụng entropy mờ) thêm thuộctính vào tậprútgọn để so sánh với thuật toán FJ_DBAR, kịch thử nghiệm (phần 2.2.2) Kết thử nghiệm cho Bảng 2.5 Bảng 2.6 Bảng 2.5 Kết thực nghiệm FJ_DBAR GRAF FJ_DBAR T T Tập liệu |U| |C| GRAF |R| t |R| T Fisher_Order 47 35 18 0.095 21 0.107 Iris 150 0.002 0.003 Glass 214 10 0.46 0.48 Sonar 208 60 26 2.053 23 1.980 Sensor_Readings_24 5456 24 14 2.095 12 1.986 EEG_Eye_State 14980 14 2.580 2.790 13 Bảng 2.6 Độ xác phân lớp C4.5 FJ_DBAR GRAF FJ_DBAR T T Tập liệu |U| Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 47 150 214 208 5456 14980 |C| 35 10 60 24 14 GRAF |R| Độ xác phân lớp (%) |R| Độ xác phân lớp (%) 18 26 14 78.72 94.00 80.15 71.63 94.84 81.25 21 23 12 76.59 94.00 81.70 70.67 91.25 81.25 2.4 Kết luận chương Chương luận án cải tiến phươngpháprútgọnthuộctính bảng định miền giá trị thực công trình Hu, Q., để tìm tậprútgọn khơng dư thừa thuộc tính, bảo tồn miền dương mờ Đóng góp Chương đề xuất phươngpháprútgọnthuộctính bảng định miền giá trị thực sử dụng khoảng cách Jaccard mờ Thử nghiệm số liệu mẫu từ kho liệu UCI cho thấy độ xác phân lớp phươngpháp sử dụng khoảng cách Jaccard mờ tốt phươngpháp sử dụng entropy mờ số liệu, thời gian thực nhanh đa số liệu thử nghiệm CHƯƠNG RÚTGỌNTHUỘCTÍNH TRONG BẢNG QUYẾTĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ 3.1 Đặt vấn đề Chương luận án đề xuất độ đo khoảng cách hai phân hoạch mờ ứng dụng rútgọnthuộctính bảng định miền giá trị thực Các kết chương cơng bố cơng trình [CCN4] 14 3.2 Khoảng cách phân hoạch mờtính chất Mệnh đề 3.1 Cho hai tậpmờ A, B tập đối tượng U Khi , B A B A B d NF A độ đo khoảng cách A B Định lý 3.1 U x1 , x2 , , xn Xét bảng định DT U , C D với P , R Q hai phân hoạch mờsinh R P , R Q P, Q C Khi đó: hai quan hệ tương đương mờ R x x x x i R P i R Q i R P i R Q DNF n i 1 P R Q khoảng cách phân hoạch mờ R P , R Q R n n 3.3 Phươngpháprútgọnthuộctính sử dụng khoảng cách phân hoạch mờĐịnh nghĩa 3.1 Cho bảng định miền giá trị thực P , R Q hai phân hoạch mờsinh DT U , C D với R P , R Q P, Q C Khi đó, hai quan hệ tương đương mờ R khoảng cách phân hoạch mờ hai tậpthuộctính P Q , ký hiệu d NF P , Q , định nghĩa khoảng cách phân hoạch mờ hai phân hoạch mờ P R Q , R nghĩa P , R Q d NF P, Q DNF R Mệnh đề 3.4 Cho bảng định miền giá trị thực DT U , C D quan hệ tương đương mờ xác định với U x1 , x2 , , xn R miền giá trị tậpthuộctính điều kiện, khoảng cách phân hoạch mờ hai tậpthuộctính C C D dựa ma trận tương đương mờ xác định sau: d NF C, C D n x x x i R C i R C i D n i 1 n 15 Định nghĩa 3.2 Cho bảng định miền giá trị thực DT U , C D quan hệ tương đương mờ xác với B C R định miền giá trị tậpthuộctính điều kiện Nếu: 1) d NF B , B D d NF C , C D 2) b B, d NF ( B b , B b D)) d NF (C, C D) B tậprútgọn C theo khoảng cách phân hoạch mờĐịnh nghĩa 3.3 Cho bảng định miền giá trị thực DT U , C D với B C b C B Độ quan trọng thuộctính b B định nghĩa SIGB b d NF B, B D d NF B b , B b D Thuật toán NF_DBAR xây dựng theophươngpháp heuristic (phần 1.4) để tìm tậprút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tậprútgọn xác địnhtheođịnh nghĩa 3.2, độ quan trọng thuộctính xác địnhtheođịnh nghĩa 3.3 Áp dụng NF_DBAR cho Ví dụ 2.1 thu P c , c1 3.4 Thử nghiệm đánh giá kết Luận án chọn thuật tốn FA_FPR (tìm tậprútgọn dựa miền dương mờ) thuật tốn FA_FSCE (tìm tậprútgọn dựa entropy mờ) để so sánh với NF_DBAR, kịch thử nghiệm phần 2.2.2 Kết thử nghiệm cho Bảng 3.2 Bảng 3.3 Bảng 3.2 Kết thực nghiệm FA_FSCE, FA_FPR, NF_DBAR T T Bộ số liệu C FA_ FSCE FA_FPR NF_DBAR R t R t R t Fisher_Order 35 22 0.198 21 0.193 18 0.079 Iris 0.002 0.003 0.002 Glass 10 0.029 0.036 0.024 Sonar 60 2.012 12 2.889 13 2.433 Sensor_Readings_24 24 12 1.963 15 2.465 14 2.005 EEG_Eye_State 14 3.659 4.069 3.046 16 Bảng 3.3 Độ xác phân lớp C4.5 FA_FSCE, FA_FPR, NF_DBAR FA_ FSCE T T Bộ số liệu Fisher_Order Iris Glass Sonar Sensor_Readings24 EEG_Eye_State U 47 150 214 208 5456 14980 C 35 10 60 24 14 R 22 12 Độ xác phân lớp C4.5 (%) 79.87 94.00 80.15 75.40 91.25 81.25 FA_FPR R 21 12 15 Độ xác phân lớp C4.5 (%) 76.59 94.00 81.56 70.60 95.12 81.25 NF_DBAR Độ R xác phân 18 13 14 lớp C4.5 (%) 78.72 94.67 81.56 76.25 94.84 81.25 3.5 Kết luận chương Chương luận án đề xuất khoảng cách hai phân hoạch mờ, ứng dụng xây dựng phươngpháprútgọnthuộctính bảng định có miền giá trị thực Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy phươngpháp đề xuất hiệu phươngpháp sử dụng entropy thông tin mờ miền dương mờ số liệu thử nghiệm theo tiêu chí đánh giá: Thời gian thực độ xác phân lớp liệu CHƯƠNG RÚTGỌNTHUỘCTÍNHVÀSINHLUẬT TRÊN BẢNG QUYẾTĐỊNHMỜ 4.1 Đặt vấn đề Bài toán rútgọnthuộctính trực tiếp bảng địnhmờ giới thiệu lần đầu cơng trình Jensen, R., Shen, Q., với thuật toán FUZZY-QUICKREDUCT Sinhluậtđịnh thường thực tậprútgọn với mục tiêu rúttậpluật đơn giản nâng cao chất lượng phân lớp liệu học theoluật 4.2 Phươngpháprútgọnthuộctính bảng địnhmờ Trong phần này, luận án trình bày phươngpháp heuristic rútgọnthuộctính trực tiếp bảng địnhmờ dựa miền dương mờ, sử dụng thuật tốn F_RSAR1 cơng bố cơng 17 trình [CCN2] Thuật tốn F_RSAR1 cải tiến thuật tốn FUZZY-QUICKREDUCT để tìm tậprútgọn khơng dư thừa thuộctính bảo tồn miền dương mờ ) tậpthuộctínhĐịnh nghĩa 4.1 Cho bảng định DT (U , C D C Nếu P 1) POS P ) (D ( x ) POS ( D ) ( x ) C , 2) p P ( x ) POS ( D ) ( x ) POSP {p} (D) C tậprútgọn C dựa miền dương mờ P C ), P Định nghĩa 4.2 Cho bảng định DT (U,C D P Độ quan trọng thuộctính b tậpthuộctính P b C định nghĩa SIGP b POS P{b} ( D ) ( x) POS ( D ) ( x ) P Thuật toán F_RSAR1 xây dựng theophươngpháp heuristic (phần 1.4) để tìm tậprút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tậprútgọn xác địnhtheođịnh nghĩa 4.1, độ quan trọng thuộctính xác địnhtheođịnh nghĩa 4.2 ) sau: Ví dụ 4.1 Cho bảng địnhmờ D T (U , C D Bảng 4.1 Bảng địnhmờ chơi thể thao c1 C c c4 C c c3 c6 c7 c8 d1 d2 d3 u1 0.3 0.7 0.2 0.7 0.1 0.3 0.7 0.1 0.9 u2 0 0 0.7 0.3 0.8 0.2 u3 0.3 0.7 0.7 0.3 0.6 0.4 0.2 0.8 u4 0.8 0.2 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1 u5 0.5 0.5 0 0.6 0.8 u6 0.2 0.8 0 0.7 0.3 TT C 18 D u7 0 0.7 0.3 0.2 0.8 0.7 0.4 u8 0.1 0.8 0.1 0.9 0.1 0.7 0.3 0 u9 0.3 0.7 0.9 0.1 0 Áp dụng F_RSAR1 tìm tậprútgọn P {C1 ,C3 } 4.3 Phươngphápsinhluậtđịnh bảng địnhmờ Trong phần này, luận án trình bày phươngphápsinhluậtđịnh từ bảng địnhmờrútgọnthuộctính sử dụng khoảng cách Jaccard mờtính trực tiếp hai tậpmờ Kết phần cơng bố cơng trình [CCN5] Cho U tập hữu hạn đối tượng tậpmờ A, B U Theo chương 2, khoảng cách Jaccard mờtính trực tiếp hai tậpmờ xác định sau: , B ) 1 DFJ ( A A B A B 1 min( max( A (u ), B (u )) A (u ), B (u )) uU uU D Mỗi phần tử u U Cho bảng địnhmờ DT U , C theoluậtđịnhmờ có dạng phân vào lớp dj D is IF ( C i Ti11 is AND …AND ( C k k T ik )) THEN ( D is dj ) Phươngphápsinhluậtđịnh từ bảng địnhmờ bao gồm bước: - Phân nhóm đối tượng bảng địnhmờtheo giá trị cao biến ngơn ngữ thuộctínhđịnh - Tính khoảng cách Jaccard mờ biến ngơn ngữ thuộctínhđịnh với biến ngơn ngữ thuộctính điều kiện theo phân nhóm 19 - Đưa tham số ngưỡng [ , ] [0,1] phù hợp để sinhluậtđịnh Những luậtcần dùng thêm tham số xác định sau: is d Rule k: IF MF (Rule i) < And …MF (Rule j) < Then D k với MF (Rule i) = MF (Condition Part of Rule i) giá trị hàm thuộc phần điều kiện luật i Khả phân lớp liệu bảng địnhtheotậpluậtđịnh cho đối tượng D ( d i ) = MF(Rule i) Thuật tốn FJ_RBAR: Thuật tốn tìm tậpluậtđịnh bảng địnhmờrútgọnthuộctính {C , , C } bảng địnhmờ Đầu vào: Tậprútgọn P p rútgọnthuộctính tham số ngưỡng , Đầu ra: Tậpluậtđịnh Rules k , , T k } ; {d , , d} ; T (Ck ) {T Rule ; k=0; D i s For each u U Do phân nhóm d j D ; Do For each d D k k j Begin For each ci C Do Begin Tính DFJ (dj , ci ) ; If End; 10 // Sinhluậtđịnhmờ For each c W (c ) Do Rule j c d ; DFJ ( dj , ci ) AND ci min{T (Ci )} i i 11 End; 12 For each k C W Do Tính Rule k ; 13 Return Rules; 20 i Then j W (ci ) {ci } ; Độ phức tạptính tốn FJ_RBAR O ( C D U ) , với |C| số biến ngơn ngữ tất thuộctính điều kiện bảng định, |D| số biến ngôn ngữ thuộctính định, |U| số đối tượng bảng liệu Ví dụ 4.2 Cho bảng định mờ, phân nhóm Bảng 4.2, tìm tậpluậtđịnh phân lớp thực sau: Bảng 4.2 Bảng địnhmờ chơi thể thao rútgọnthuộctính c1 C c c3 c7 c8 d1 d2 d3 u2 0 0.7 0.3 0.8 0.2 u7 0 0.2 0.8 0.7 0.4 u4 0.8 0.2 0.2 0.8 0.6 0.3 0.1 u1 0.3 0.7 0.3 0.7 0.1 0.9 u5 0.5 0.5 0 0.6 0.8 u6 0.2 0.8 0.7 0.3 u8 0.1 0.8 0.1 0.7 0.3 0 u9 0.3 0.7 0 u3 0.3 0.7 0.6 0.4 0.2 0.8 TT Phân nhóm Phân nhóm Phân nhóm - C D Trong phân nhóm, tính khoảng cách Jaccard mờ biến ngôn ngữ thuộctính Bảng 4.3 Bảng 4.3 Khoảng cách Jaccard mờ biến ngôn ngữ Bảng 4.2 C C Quyếtđịnh c1 c2 c3 c7 c8 d1 d 0.25 0.904762 0.47619 0.333333 0.666667 0.416667 0.72 0.875 0.241379 d3 0.857143 0.357143 0.714286 0.178571 0.75 Tậpluậtđịnhsinh từ tham số ngưỡng (α=0.245; β=0.9) sau: 21 is “ d ” - Rule 1: IF MF (Rule 2) < AND MF (Rule 3) < THEN D is d is c THEN D - Rule 2: IF C is d is NOT c AND C is c THEN D - Rule 3: IF C 1 Thử nghiệm đánh giá độ xác phân lớp liệu theotậpluậtđịnhsinh từ thuật toán MRBFA, MRBBA FJ_RBAR, thuật toán FJ_RBAR sử dụng liệu đầu vào tậptậprútgọn thu từ F_RSAR1, đầu vào thuật toán liệu phần 2.2.2 sau mờ hóa thể Bảng 4.4 Bảng 4.4 Kết thực nghiệm MRBFA, MRBBA FJ_RBAR T T Tập liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State MRBFA MRBBA FJ_RBAR Độ xác phân lớp Độ xác phân lớp Độ xác phân lớp Tham số ngưỡng 0.7842 ± 0.0482 0.7725 ± 0.0411 0.7512 ± 0.0512 (α=0.28; β=0.91) 0.8607 ± 0.0275 0.5432 ± 0.0696 0.8108 ± 0.0268 0.5353 ± 0.0787 0.9174 ± 0.0231 0.8232 ± 0.0895 0.8532 ± 0.0521 0.9168 ± 0.0249 0.8203 ± 0.0723 0.8412 ± 0.0542 0.9071 ± 0.0326 0.4658 ± 0.0884 0.9182 ± 0.0255 0.9152 ± 0.0912 0.7932 ± 0.0512 (α=0.23; β=0.82) (α=0.15; β=0.85) (α=0.3; β=0.75) (α=0.18; β=0.9) (α=0.25; β=0.75) 4.4 Kết luận chương Chương giới thiệu phươngpháprútgọnthuộctínhsinhluậtđịnh bảng địnhmờPhươngphápsinhluậtđịnh thực bảng địnhmờ sau rútgọnthuộctính nên tậpluật thu đơn giản số phươngpháp khác Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy độ hỗ trợ phân lớp liệu tậpluật thu phươngpháp đề xuất tương đương với số phươngpháp khác KẾT LUẬN 1) Những kết qủa luận án: (1) Với tốn tìm tậprútgọn bảng định miền giá trị thực, luận án đạt kết sau: 22 - Cải tiến phươngpháp sử dụng miền dương mờ để tìm tậprútgọn khơng dư thừa thuộctính bảo tồn miền dương mờ - Xây dựng khoảng cách Jaccard mờ ứng dụng rútgọnthuộctính bảng định - Đề xuất khoảng cách hai phân hoạch mờ ứng dụng xây dựng phươngpháprútgọnthuộctính bảng định Thử nghiệm số liệu lấy từ kho liệu UCI cho thấy phươngpháp sử dụng khoảng cách mờ tỏ có ưu thời gian thực độ xác phân lớp liệu so với phươngpháp sử dụng miền dương mờ entropy mờ (2) Với tốn rútgọnthuộctínhsinhluậtđịnh bảng định mờ, luận án đạt kết sau: - Cải tiến phươngpháprútgọnthuộctính dựa miền dương mờ để tìm tậprútgọn khơng dư thừa bảo tồn miền dương mờ - Đề xuất phươngphápsinhluậtđịnh bảng địnhmờ sử dụng khoảng cách Jaccard mờ trực tiếp biến ngôn ngữ thuộctính điều kiện định Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy phươngpháp đề xuất cho độ xác phân lớp liệu tương đương với số phươngpháp khác công bố 2) Hướng phát triển luận án: (1) Đối với bảng định có miền giá trị thực, tiếp tục nghiêncứu mối liên hệ tậprútgọn Từ đó, hồn thiện việc phân loại so sánh phươngrútgọnthuộctính bảng định có miền giá trị thực theotiếpcậntậpthômờ (2) Đối với bảng định mờ, nghiêncứuphươngpháp hiệu để rútgọnthuộctínhsinhluậtđịnh Xây dựng 23 độ đo đánh giá hiệu tậpluậtđịnh bảng địnhmờ DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ TẠP CHÍ KHOA HỌC [CCN1] Cao Chính Nghĩa, Vũ Đức Thi, Nguyễn Long Giang (2016), “Rút gọn trực tiếpthuộctính bảng địnhtheotiếpcậntậpthô mờ”, Tạp chí Khoa học cơng nghệ qn sự, số 43, Tr 110-118 [CCN2] Cao Chính Nghĩa, Vũ Đức Thi, Tân Hạnh, Nguyễn Long Giang (2016), “Rút gọnthuộctính bảng định sử dụng miền dương mờ”, Tạp chí Khoa học Công nghệ thông tin Truyền thông, Học viện Cơng nghệ Bưu viễn thơng, số 2, Tr 3-10 [CCN3] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh (2016), “Fuzzy distance based attribute reduction in decision tables”, Chun san Các cơng trình nghiên cứu, phát triển ứng dụng CNTT&TT số 16 (36), Bộ Thông tin truyền thông, Tr 104-112 [CCN4] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi (2016), “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Scopus index, Vol 16, No 4, pp 13-28 HỘI NGHỊ KHOA HỌC [CCN5] Nguyễn Quang Huy, Nguyễn Long Giang, Cao Chính Nghĩa, Tân Hạnh, Phạm Văn Dũng (2016), Một phươngphápsinhluậtđịnh bảng địnhmờ sử dụng khoảng cách mờ, Hội thảo quốc gia lần thứ IXX, Một số vấn đề chọn lọc công nghệ thông tin truyền thông, tr 276281 24