Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

26 276 0
Nghiên cứu các phương pháp rút gọn thuộc tính và sinh luật quyết định theo tiếp cận tập thô mờ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ THÔNG TIN TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG CAO CHÍNH NGHĨA NGHIÊN CỨU CÁC PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH SINH LUẬT QUYẾT ĐỊNH THEO TIẾP CẬN TẬP THÔ MỜ Chuyên ngành: Hệ thống thơng tin Mã số: 62.48.01.04 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Hà Nội - 2017 Cơng trình hồn thành tại: Học viện Cơng nghệ Bưu Viễn thông Người hướng dẫn khoa học: GS TS Vũ Đức Thi TS Tân Hạnh Phản biện: Phản biện: Phản biện: Luận án bảo vệ trước Hội đồng cấp Học viện Cơng nghệ Bưu Viễn thơng chấm luận án tiến sĩ họp vào hồi ngày tháng năm Có thể tìm hiểu luận án tại: - Thư viện Quốc gia Việt Nam - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết luận án Rút gọn thuộc tính sinh luật định hai toán quan trọng trình khám phá tri thức từ liệu Rút gọn thuộc tính bảng định trình lựa chọn tập nhỏ tập thuộc tính điều kiện, loại bỏ thuộc tính dư thừa mà bảo tồn thơng tin phân lớp bảng định, gọi tập rút gọn (reduct) Kết rút gọn thuộc tính ảnh hưởng trực tiếp đến hiệu thực nhiệm vụ khai phá: Gia tăng tốc độ, cải thiện chất lượng, tính dễ hiểu kết thu Sinh luật định bước rút gọn thuộc tính khai phá liệu nhằm đánh giá chất lượng phân lớp liệu thông qua độ hỗ trợ tập luật định Lý thuyết tập thô mờ (Fuzzy rough set) Dubois, D., Prade, H., đề xuất kết hợp lý thuyết tập thô lý thuyết tập mờ nhằm xấp xỉ tập mờ dựa quan hệ tương đương mờ (fuzzy equivalent relation) xác định miền giá trị thuộc tính Theo lý thuyết tập thô mờ, độ tương đương mờ hai đối tượng giá trị nằm đoạn [0,1] cho thấy tính gần nhau, hay khả phân biệt hai đối tượng Do đó, quan hệ tương đương mờ bảo toàn khác đối tượng phương pháp rút gọn thuộc tính theo tiếp cận tập thơ mờ có tiềm việc bảo tồn độ xác phân lớp sau thực phương pháp rút gọn thuộc tính Chủ đề nghiên cứu rút gọn thuộc tính sinh luật định theo tiếp cận tập thô mờ thu hút quan tâm nhà nghiên cứu năm gần Luận án tập trung nghiên cứu trọng tâm vào hai toán: 1) Bài toán thứ rút gọn thuộc tính bảng định miền giá trị thực bước tiền xử lý số liệu 2) Bài toán thứ hai rút gọn thuộc tính sinh luật định bảng định mờ Đối tượng nghiên cứu luận án bảng định có miền giá trị thực bảng định mờ Các kết đạt luận án 1) Đề xuất phương pháp rút gọn thuộc tính trực tiếp bảng định miền giá trị thực theo tiếp cận tập thô mờ, bao gồm: - Phương pháp rút gọn thuộc tính sử dụng miền dương mờ nhằm nhằm khắc phục số hạn chế cơng bố trước để tìm tập rút gọn khơng dư thừa thuộc tính bảo tồn miền dương mờ Kết cơng bố cơng trình [CCN1], [CCN2] - Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ khoảng cách phân hoạch mờ Thực nghiệm số liệu lấy từ kho liệu UCI chứng minh hai phương pháp sử dụng khoảng cách mờ hiệu phương pháp công bố hai tiêu chí: Độ xác phân lớp thời gian thực số liệu thực nghiệm Các kết cơng bố cơng trình [CCN3], [CCN4] 2) Đề xuất phương pháp rút gọn thuộc tính sinh luật bảng định mờ theo tiếp cận tập thơ mờ Phương pháp rút gọn thuộc tính sử dụng miền dương mờ cơng bố cơng trình [CCN2], phương pháp sinh hệ luật mờ bảng định mờ sử dụng khoảng cách Jaccard mờ công bố [CCN5] Bằng lý thuyết thực nghiệm chứng minh phương pháp đề xuất tương đương với phương pháp khác tiêu chí độ xác phân lớp liệu Bố cục luận án gồm phần mở đầu bốn chương nội dung, phần kết luận danh mục tài liệu tham khảo Chương trình bày số khái niệm lý thuyết tập thơ tổng quan tốn rút gọn thuộc tính mà luận án tập trung nghiên cứu Chương trình bày kết nghiên cứu phương pháp rút gọn thuộc tính bảng định miền giá trị thực sử dụng miền dương mờ khoảng cách Jaccard mờ Chương trình bày kết nghiên cứu phương pháp rút gọn thuộc tính bảng định miền giá trị thực sử dụng khoảng cách phân hoạch mờ Chương trình bày phương pháp rút gọn thuộc tính sinh luật định bảng định mờ CHƯƠNG CÁC KIẾN THỨC CƠ SỞ 1.1 Một số khái niệm tập thô Hệ thông tin cặp IS  U , A  U tập hữu hạn khác rỗng đối tượng gọi tập vũ trụ; A tập hữu hạn khác rỗng thuộc tính Cho hệ thông tin IS  U , A  tập đối tượng X  U Với tập thuộc tính P  A cho trước, xác định lớp tương đương phân hoạch U / P Có hai cách xấp xỉ tập đối tượng X thơng qua tập thuộc tính P, gọi P-xấp xỉ P-xấp xỉ X, ký hiệu PX PX , xác định sau:     PX  u  U  u   X , PX  u U u   X   P P Tập PX bao gồm tất phần tử U chắn thuộc vào X, tập PX bao gồm phần tử U có khả thuộc vào X dựa vào tập thuộc tính P Xét hệ thông tin IS  U , A  với P, Q  A , ta gọi POS P (Q ) P-miền dương Q, tập đối tượng U phân lớp vào lớp U / Q sử dụng tập thuộc tính P Nói cách hình thức, POSP (Q)  u U uP  uQ Bảng định DT  U , C  D  dạng đặc biệt hệ thơng tin, tập thuộc tính A bao gồm hai tập tách biệt nhau: Tập thuộc tính điều kiện C tập thuộc tính định D với C  D   Nếu miền giá trị thuộc tính c  C giá trị số thực bảng định DT gọi bảng định miền giá trị thực 1.2 Một số khái niệm tập thô mờ xác định bảng định miền giá trị thực Cho bảng định miền giá trị thực DT  U , C  D  ,  xác định miền giá trị thuộc tính gọi quan hệ quan hệ R tương đương mờ thỏa mãn điều kiện sau với x, y, z U 1) Tính phản xạ (reflexive):   x, x   ; R 2) Tính đối xứng (symetric): R  x , y   R  y , x  ; 3) Tính bắc cầu max-min (max-min   x, z    R   x, y  , R   y, z  ; R transitive): Cho bảng định miền giá trị thực DT  U , C  D  với U   x1 , x2 , , xn   P quan hệ tương đương mờ xác định R  P biểu diễn ma trận tập thuộc tính P  C Quan hệ R tương đương mờ P  p  M R  ij  nn   với pij  R P  xi , x j  giá trị quan hệ hai đối tượng xi x j tập thuộc tính P, pij  0,1 , xi , x j  U ,  i , j  n  P xác định phân hoạch mờ Quan hệ tương đương mờ R  P  R P  U / R P   x  n   x  , ,  x  với   P  U / R    i  R P    R P  n  R P  i 1 xi R P  pi1 / x1  pi2 / x2   pin / xn tập mờ đóng vai trò lớp tương đương mờ (fuzzy equivalent class) đối tượng xi Hàm thuộc đối tượng xác định bởi: xi   R P  x j    R  xi , x j   R P  xi , x j   pij P với x j  U Khi đó, lực lượng lớp đương đương mờ xi R P n  xi R P  p ij j 1  P quan hệ tương Cho X tập mờ U R đương mờ tập thuộc tính P  C Khi đó, tập xấp xỉ R P X tập xấp xỉ R P X X tập mờ hàm thuộc đối tương x U xác định  R PX  RP  x    sup   F  x  , inf max 1   F  y  ,  X  y   y  U    F U / R P  x  X   sup   F  x  , sup  F  y  ,  X  y   P yU FU / R    X,R  P X tập thô mờ Bộ R P Với hai quan hệ tương đương mờ R P , R Q xác định hai tập  Q tập mờ, thuộc tính P , Q  C , miền dương mờ POS R P R   hàm thuộc đối tượng x U xác định  POS  RP   x  R Q   x   X sup Q RP X U /R 1.3 Một số khái niệm tập thô mờ xác định bảng định mờ Bảng định mờ bảng địnhthuộc tính  D  , tập mờ (fuzzy set) Cho bảng định mờ DT  U , C   C  xác định phân hoạch mờ sinh tập thuộc tính P    a  P  : U / a U/P      X   Y :   ,  X  A, Y  B X  Y   với A  B   X tập mờ Xấp xỉ mờ xấp xỉ mờ tập  hàm thuộc đối tượng xác định sau:    P X  x   sup   F  x  , inf max 1   F  y  ,  X  y   yU    F U / P       x   sup   F  x  ,sup  F  y  ,  X  y   PX  yU FU / P     Khi đó, miền dương mờ tập mờ với hàm thuộc là:  POS  P    x Q   x   Xsup  PX U / Q Lực lượng miền dương mờ tính theo cơng thức POS  P Q   x    xU  POS P Q   x  1.4 Rút gọn thuộc tính bảng định Các kỹ thuật rút gọn thuộc tính phân thành hai loại: Lựa chọn thuộc tính (Attribute selection) biến đổi thuộc tính (Attribute transformation) Lựa chọn thuộc tính chọn tập tốt (theo nghĩa đó) từ tập liệu ban đầu Biến đổi thuộc tính thực việc biến đổi thuộc tính ban đầu thành tập thuộc tính với số lượng cho bảo tồn thơng tin nhiều Các cơng trình nghiên cứu rút Tập thuộc tính ban đầu gọn thuộc tính thường tập trung vào nghiên cứu kỹ thuật lựa chọn thuộc tính Nhìn chung, thuật Định nghĩa tập rút gọn tốn lựa chọn thuộc tính thường bao gồm bốn khâu bản:  Tạo lập tập  Đánh giá tập  Kiểm tra điều kiện dừng  Kiểm chứng kết Định nghĩa độ quan trọng thuộc tính Xây dựng thuật tốn heuristic tìm tập rút gọn Phương pháp rút gọn thuộc tính heuristic hình hóa hình Tập rút gọn vẽ 1.5 Kết luận chương Chương trình bày số khái niệm lý thuyết tập thô; số khái niệm tập thơ mờ nhằm giải tốn rút gọn thuộc tính bảng định miền giá trị thực; giải tốn rút gọn thuộc tính sinh luật định bảng định mờ Các khái niệm trình bày Chương kiến thức tảng sử dụng chương sau luận án CHƯƠNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG MIỀN DƯƠNG MỜ KHOẢNG CÁCH JACCARD MỜ 2.1 Đặt vấn đề Các kết chương cơng bố cơng trình [CCN1], [CCN2], [CCN3] 2.2 Rút gọn thuộc tính sử dụng miền dương mờ Theo hướng tiếp cận này, Hu, Q., cộng đề xuất thuật tốn FAR-VPFRS tìm tập rút gọn sử dụng độ phụ thuộc thuộc tính dựa miền dương mờ Dựa phương pháp Hu, Q., phần đề xuất phương pháp rút gọn thuộc tính dựa miền dương mờ sử dụng quan hệ tương đương mờ, để tìm tập rút gọn khơng dư thừa bảo toàn miền dương mờ 2.2.1 Phương pháp rút gọn thuộc tính sử dụng miền dương mờ Định nghĩa 2.1 Cho bảng định có miền giá trị thực  tập thuộc tính DT  U , C  D  , quan hệ tương đương mờ R P  C Nếu 1)  POS  D   x    POS   D   x  RP RC 2) p  P,  POS  R( P { p })  D   x    POS R C  D   x  P tập rút gọn C dựa miền dương mờ Định nghĩa 2.2 Cho bảng định có miền giá trị thực DT  U , C  D   xác định miền quan hệ tương đương mờ R giá trị thuộc tính Với P  C , độ quan trọng thuộc tính b  C  P  định nghĩa: tập thuộc tính P dựa quan hệ R SIGR P  b    POS R ( P {b}) ( D ) ( x)   POS RP (D) ( x) Thuật tốn F_RSAR2: Thuật tốn tìm tập rút gọn không dư u2 0.8 0.2 0.6 0.2 0.8 u3 0.6 0.4 0.8 0.2 0.6 0.4 u4 0.4 0.6 0.4 1 u5 0.6 0.6 0.4 1 u6 0.6 1 Một quan hệ tương đương mờ định nghĩa miền giá trị thuộc tính với p  xi  giá trị thuộc tính p đối tượng xi , pmax , pmin tương ứng giá trị lớn nhất, nhỏ thuộc tính p    p  xi   p x j 1  * pij   p max  p   0, otherwise , if   p  xi   p x j p max  p  0.25 Áp dụng F_RSAR2 tìm tập rút gọn P  c , c1  Thuật tốn F_RSAR2 có độ phức tạp tính tốn ma trận tương đương mờ thuộc tính O( U ) với U số lượng đối tượng, C số lượng thuộc tính điều kiện; độ phức tạp tính tốn C ) M (R O( C U ) Độ phức tạp F_RSAR2 O( C U ) 2.2.2 Thử nghiệm đánh giá kết Luận án chọn sáu liệu lấy từ kho liệu UCI có miền giá trị số thực cho Bảng 2.2 để tiến hành thử nghiệm Môi trường thử nghiệm máy tính PC với cấu hình Pentium core i3 2.4 GHz CPU, GB nhớ RAM, hệ điều hành Windows 10 Bảng 2.2 Bộ liệu thử nghiệm TT Bộ liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 Số thuộc tính điều kiện 35 10 60 24 10 Số đối tượng 47 150 214 208 5456 Số lớp EEG_Eye_State 14 14980 Cài đặt thuật tốn F_RSAR2, FAR-VPFRS ngơn ngữ C#, thuật toán sử dụng quan hệ tương đương mờ Ví dụ 2.1 Sử dụng thuật tốn C4.5 cơng cụ J48 WEKA để đánh giá độ xác phân lớp hai thuật toán cách chọn 2/3 số đối tượng làm tập huấn luyện (training set), 1/3 số đối tượng lại làm tập kiểm tra (testing set) Bảng 2.3 Bảng 2.4 kết thử nghiệm sáu số liệu chọn với U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn với thuật toán, t thời gian thực (đơn vị giây) Bảng 2.3 Kết thực nghiệm F_RSAR2, FAR-VPFRS TT C Bộ số liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 35 10 60 24 14 FA_RSAR2 R t 19 12 15 0.216 0.003 0.40 2.975 2.634 4.969 FAR_VPFRS R t 21 12 15 0.209 0.003 0.040 2.889 2.465 4.356 Bảng 2.4 Độ xác phân lớp C4.5 F_RSAR2, FAR-VPFRS T T Bộ số liệu U C F_RSAR2 Độ xác phân R lớp C4.5 (%) Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 47 150 214 208 5456 14980 35 10 60 24 14 19 12 15 11 78.72 94.67 81.56 70.60 95.12 81.25 FAR-VPFRS Độ xác phân R lớp C4.5 (%) 21 12 15 76.59 94.00 81.56 70.60 95.12 81.25 2.3 Rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ 2.3.1 Khoảng cách Jaccard mờ tính chất Định nghĩa 2.3 Cho U tập hữu hạn đối tượng A, B  U Khoảng cách Jaccard hai tập hợp hữu hạn, định nghĩa DJ ( A, B)   A B A B ,C  ba tập mờ U Khi Định lý 2.1 Cho A, B , B )  1 DFJ ( A   A B   A B khoảng cách Jaccard mờ hai tập mờ A, B Định nghĩa 2.4 Cho bảng định mờ DT  U , C  D  , giả sử  C R  D xác định hai tập thuộc hai quan hệ tương đương mờ R C tính C D tương ứng Gọi rij phần tử ma trận tương  C r D phần tử ma trận tương đương đương mờ M R ij   D mờ M R   với  i, j  n Khoảng cách Jaccard mờ hai tập thuộc tính C C  D dựa ma trận quan hệ tương đương mờ xây dựng sau: n d FJ C, C  D    U U  i 1  r C D ij , rij  j 1 n C ij r j 1 Định nghĩa 2.5 Cho bảng định có miền giá trị thực DT  U , C  D  tập thuộc tính P  C Nếu 1) d FJ  P , P  D   d FJ  C , C  D  2) p  P, dFJ (P   p ,  P   p   D)  d FJ (C, C  D) P tập rút gọn C dựa khoảng cách Jaccard mờ 12 Định nghĩa 2.6 Cho bảng định DT  U , C  D  , P  C b P định b  C  P Độ quan trọng thuộc tính nghĩa SIGP  b   dFJ  P, P  D  dFJ  P b , P b  D 2.3.2 Phương pháp rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ Thuật toán FJ_DBAR xây dựng theo phương pháp heuristic (phần 1.4) để tìm tập rút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tập rút gọn xác định theo định nghĩa 2.5, độ quan trọng thuộc tính xác định theo định nghĩa 2.6 Áp dụng FJ_DBAR cho Ví dụ 2.1 thu P  c , c1  2.3.3 Thử nghiệm đánh giá kết Luận án lựa chọn thuật tốn heuristic tìm tập rút gọn dựa lượng thông tin tăng thêm GAIN_RATIO_AS_FRS (gọi GRAF, sử dụng entropy mờ) thêm thuộc tính vào tập rút gọn để so sánh với thuật toán FJ_DBAR, kịch thử nghiệm (phần 2.2.2) Kết thử nghiệm cho Bảng 2.5 Bảng 2.6 Bảng 2.5 Kết thực nghiệm FJ_DBAR GRAF FJ_DBAR T T Tập liệu |U| |C| GRAF |R| t |R| T Fisher_Order 47 35 18 0.095 21 0.107 Iris 150 0.002 0.003 Glass 214 10 0.46 0.48 Sonar 208 60 26 2.053 23 1.980 Sensor_Readings_24 5456 24 14 2.095 12 1.986 EEG_Eye_State 14980 14 2.580 2.790 13 Bảng 2.6 Độ xác phân lớp C4.5 FJ_DBAR GRAF FJ_DBAR T T Tập liệu |U| Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State 47 150 214 208 5456 14980 |C| 35 10 60 24 14 GRAF |R| Độ xác phân lớp (%) |R| Độ xác phân lớp (%) 18 26 14 78.72 94.00 80.15 71.63 94.84 81.25 21 23 12 76.59 94.00 81.70 70.67 91.25 81.25 2.4 Kết luận chương Chương luận án cải tiến phương pháp rút gọn thuộc tính bảng định miền giá trị thực công trình Hu, Q., để tìm tập rút gọn khơng dư thừa thuộc tính, bảo tồn miền dương mờ Đóng góp Chương đề xuất phương pháp rút gọn thuộc tính bảng định miền giá trị thực sử dụng khoảng cách Jaccard mờ Thử nghiệm số liệu mẫu từ kho liệu UCI cho thấy độ xác phân lớp phương pháp sử dụng khoảng cách Jaccard mờ tốt phương pháp sử dụng entropy mờ số liệu, thời gian thực nhanh đa số liệu thử nghiệm CHƯƠNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC SỬ DỤNG KHOẢNG CÁCH PHÂN HOẠCH MỜ 3.1 Đặt vấn đề Chương luận án đề xuất độ đo khoảng cách hai phân hoạch mờ ứng dụng rút gọn thuộc tính bảng định miền giá trị thực Các kết chương cơng bố cơng trình [CCN4] 14 3.2 Khoảng cách phân hoạch mờ tính chất Mệnh đề 3.1 Cho hai tập mờ A, B tập đối tượng U Khi , B   A  B   A  B  d NF A  độ đo khoảng cách A B  Định lý 3.1 U   x1 , x2 , , xn  Xét  bảng định DT  U , C  D  với P ,  R  Q hai phân hoạch mờ sinh  R     P , R  Q P, Q  C Khi đó: hai quan hệ tương đương mờ R  x   x   x   x   i R P  i R Q   i R P  i R Q DNF  n i 1    P  R Q khoảng cách phân hoạch mờ  R  P , R Q  R  n n                3.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch mờ Định nghĩa 3.1 Cho bảng định miền giá trị thực P ,  R  Q hai phân hoạch mờ sinh DT  U , C  D  với  R     P , R  Q P, Q  C Khi đó, hai quan hệ tương đương mờ R khoảng cách phân hoạch mờ hai tập thuộc tính P Q , ký hiệu d NF  P , Q  , định nghĩa khoảng cách phân hoạch mờ hai phân hoạch mờ P  R   Q ,  R   nghĩa  P , R Q d NF  P, Q   DNF  R      Mệnh đề 3.4 Cho bảng định miền giá trị thực DT  U , C  D   quan hệ tương đương mờ xác định với U   x1 , x2 , , xn  R miền giá trị tập thuộc tính điều kiện, khoảng cách phân hoạch mờ hai tập thuộc tính C C  D dựa ma trận tương đương mờ xác định sau: d NF  C, C D   n  x    x    x    i R C  i R C  i D  n i 1   n  15     Định nghĩa 3.2 Cho bảng định miền giá trị thực DT  U , C  D   quan hệ tương đương mờ xác với B  C R định miền giá trị tập thuộc tính điều kiện Nếu: 1) d NF  B , B  D   d NF  C , C  D  2) b  B, d NF ( B  b , B  b  D))  d NF (C, C  D) B tập rút gọn C theo khoảng cách phân hoạch mờ Định nghĩa 3.3 Cho bảng định miền giá trị thực DT  U , C  D  với B  C b  C  B Độ quan trọng thuộc tính b B định nghĩa SIGB  b  d NF  B, B  D   d NF  B  b , B  b  D Thuật toán NF_DBAR xây dựng theo phương pháp heuristic (phần 1.4) để tìm tập rút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tập rút gọn xác định theo định nghĩa 3.2, độ quan trọng thuộc tính xác định theo định nghĩa 3.3 Áp dụng NF_DBAR cho Ví dụ 2.1 thu P  c , c1  3.4 Thử nghiệm đánh giá kết Luận án chọn thuật tốn FA_FPR (tìm tập rút gọn dựa miền dương mờ) thuật tốn FA_FSCE (tìm tập rút gọn dựa entropy mờ) để so sánh với NF_DBAR, kịch thử nghiệm phần 2.2.2 Kết thử nghiệm cho Bảng 3.2 Bảng 3.3 Bảng 3.2 Kết thực nghiệm FA_FSCE, FA_FPR, NF_DBAR T T Bộ số liệu C FA_ FSCE FA_FPR NF_DBAR R t R t R t Fisher_Order 35 22 0.198 21 0.193 18 0.079 Iris 0.002 0.003 0.002 Glass 10 0.029 0.036 0.024 Sonar 60 2.012 12 2.889 13 2.433 Sensor_Readings_24 24 12 1.963 15 2.465 14 2.005 EEG_Eye_State 14 3.659 4.069 3.046 16 Bảng 3.3 Độ xác phân lớp C4.5 FA_FSCE, FA_FPR, NF_DBAR FA_ FSCE T T Bộ số liệu Fisher_Order Iris Glass Sonar Sensor_Readings24 EEG_Eye_State U 47 150 214 208 5456 14980 C 35 10 60 24 14 R 22 12 Độ xác phân lớp C4.5 (%) 79.87 94.00 80.15 75.40 91.25 81.25 FA_FPR R 21 12 15 Độ xác phân lớp C4.5 (%) 76.59 94.00 81.56 70.60 95.12 81.25 NF_DBAR Độ R xác phân 18 13 14 lớp C4.5 (%) 78.72 94.67 81.56 76.25 94.84 81.25 3.5 Kết luận chương Chương luận án đề xuất khoảng cách hai phân hoạch mờ, ứng dụng xây dựng phương pháp rút gọn thuộc tính bảng định có miền giá trị thực Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy phương pháp đề xuất hiệu phương pháp sử dụng entropy thông tin mờ miền dương mờ số liệu thử nghiệm theo tiêu chí đánh giá: Thời gian thực độ xác phân lớp liệu CHƯƠNG RÚT GỌN THUỘC TÍNH SINH LUẬT TRÊN BẢNG QUYẾT ĐỊNH MỜ 4.1 Đặt vấn đề Bài toán rút gọn thuộc tính trực tiếp bảng định mờ giới thiệu lần đầu cơng trình Jensen, R., Shen, Q., với thuật toán FUZZY-QUICKREDUCT Sinh luật định thường thực tập rút gọn với mục tiêu rút tập luật đơn giản nâng cao chất lượng phân lớp liệu học theo luật 4.2 Phương pháp rút gọn thuộc tính bảng định mờ Trong phần này, luận án trình bày phương pháp heuristic rút gọn thuộc tính trực tiếp bảng định mờ dựa miền dương mờ, sử dụng thuật tốn F_RSAR1 cơng bố cơng 17 trình [CCN2] Thuật tốn F_RSAR1 cải tiến thuật tốn FUZZY-QUICKREDUCT để tìm tập rút gọn khơng dư thừa thuộc tính bảo tồn miền dương mờ  ) tập thuộc tính Định nghĩa 4.1 Cho bảng định DT (U , C  D  C  Nếu P 1) POS  P ) (D ( x )   POS  ( D ) ( x ) C ,  2)  p  P ( x )  POS ( D ) ( x ) POSP {p}  (D) C  tập rút gọn C  dựa miền dương mờ P  C  ), P Định nghĩa 4.2 Cho bảng định DT  (U,C  D  P  Độ quan trọng thuộc tính b tập thuộc tính P b  C định nghĩa SIGP b  POS   P{b} ( D ) ( x)  POS ( D ) ( x ) P Thuật toán F_RSAR1 xây dựng theo phương pháp heuristic (phần 1.4) để tìm tập rút gọn, cách thức xây dựng giống thuật toán F_RSAR2 phần 2.2 với tập rút gọn xác định theo định nghĩa 4.1, độ quan trọng thuộc tính xác định theo định nghĩa 4.2  ) sau: Ví dụ 4.1 Cho bảng định mờ D T  (U , C  D Bảng 4.1 Bảng định mờ chơi thể thao c1  C  c c4  C  c c3 c6 c7 c8 d1 d2 d3 u1 0.3 0.7 0.2 0.7 0.1 0.3 0.7 0.1 0.9 u2 0 0 0.7 0.3 0.8 0.2 u3 0.3 0.7 0.7 0.3 0.6 0.4 0.2 0.8 u4 0.8 0.2 0 0.7 0.3 0.2 0.8 0.6 0.3 0.1 u5 0.5 0.5 0 0.6 0.8 u6 0.2 0.8 0 0.7 0.3 TT  C 18  D u7 0 0.7 0.3 0.2 0.8 0.7 0.4 u8 0.1 0.8 0.1 0.9 0.1 0.7 0.3 0 u9 0.3 0.7 0.9 0.1 0 Áp dụng F_RSAR1 tìm tập rút gọn P  {C1 ,C3 } 4.3 Phương pháp sinh luật định bảng định mờ Trong phần này, luận án trình bày phương pháp sinh luật định từ bảng định mờ rút gọn thuộc tính sử dụng khoảng cách Jaccard mờ tính trực tiếp hai tập mờ Kết phần cơng bố cơng trình [CCN5] Cho U tập hữu hạn đối tượng tập mờ A, B  U Theo chương 2, khoảng cách Jaccard mờ tính trực tiếp hai tập mờ xác định sau: , B )  1 DFJ ( A A  B  A  B   1  min(   max(  A (u ),  B (u ))  A (u ),  B (u )) uU uU  D  Mỗi phần tử u U Cho bảng định mờ DT  U , C    theo luật định mờ có dạng phân vào lớp dj  D  is IF ( C i Ti11  is AND …AND ( C k k  T ik )) THEN ( D is dj ) Phương pháp sinh luật định từ bảng định mờ bao gồm bước: - Phân nhóm đối tượng bảng định mờ theo giá trị cao biến ngơn ngữ thuộc tính định - Tính khoảng cách Jaccard mờ biến ngơn ngữ thuộc tính định với biến ngơn ngữ thuộc tính điều kiện theo phân nhóm 19 - Đưa tham số ngưỡng [ ,  ] [0,1] phù hợp để sinh luật định Những luật cần dùng thêm tham số  xác định sau:  is d Rule k: IF MF (Rule i) <  And …MF (Rule j) <  Then D k với MF (Rule i) = MF (Condition Part of Rule i) giá trị hàm thuộc phần điều kiện luật i Khả phân lớp liệu bảng định theo tập luật định cho đối tượng  D ( d i ) = MF(Rule i) Thuật tốn FJ_RBAR: Thuật tốn tìm tập luật định bảng định mờ rút gọn thuộc tính   {C  , , C  } bảng định mờ Đầu vào: Tập rút gọn P p rút gọn thuộc tính tham số ngưỡng  ,  Đầu ra: Tập luật định Rules k , , T k } ;   {d , , d} ; T (Ck )  {T Rule  ; k=0; D i s   For each u U Do phân nhóm d j  D ;  Do For each d  D k k j Begin For each ci  C Do Begin Tính DFJ (dj , ci ) ; If End; 10 // Sinh luật định mờ For each c  W (c ) Do Rule j  c   d ; DFJ ( dj , ci )   AND ci  min{T (Ci )} i i 11 End; 12 For each k  C  W Do Tính Rule k ; 13 Return Rules; 20 i Then j W (ci )  {ci } ; Độ phức tạp tính tốn FJ_RBAR O ( C D U ) , với |C| số biến ngơn ngữ tất thuộc tính điều kiện bảng định, |D| số biến ngôn ngữ thuộc tính định, |U| số đối tượng bảng liệu Ví dụ 4.2 Cho bảng định mờ, phân nhóm Bảng 4.2, tìm tập luật định phân lớp thực sau: Bảng 4.2 Bảng định mờ chơi thể thao rút gọn thuộc tính c1  C c c3 c7 c8 d1 d2 d3 u2 0 0.7 0.3 0.8 0.2 u7 0 0.2 0.8 0.7 0.4 u4 0.8 0.2 0.2 0.8 0.6 0.3 0.1 u1 0.3 0.7 0.3 0.7 0.1 0.9 u5 0.5 0.5 0 0.6 0.8 u6 0.2 0.8 0.7 0.3 u8 0.1 0.8 0.1 0.7 0.3 0 u9 0.3 0.7 0 u3 0.3 0.7 0.6 0.4 0.2 0.8 TT Phân nhóm Phân nhóm Phân nhóm -  C  D Trong phân nhóm, tính khoảng cách Jaccard mờ biến ngôn ngữ thuộc tính Bảng 4.3 Bảng 4.3 Khoảng cách Jaccard mờ biến ngôn ngữ Bảng 4.2   C C Quyết định c1 c2 c3 c7 c8 d1 d 0.25 0.904762 0.47619 0.333333 0.666667 0.416667 0.72 0.875 0.241379 d3 0.857143 0.357143 0.714286 0.178571 0.75 Tập luật định sinh từ tham số ngưỡng (α=0.245; β=0.9) sau: 21  is “ d ” - Rule 1: IF MF (Rule 2) <  AND MF (Rule 3) <  THEN D  is d  is c THEN D - Rule 2: IF C  is d  is NOT c AND C  is c THEN D - Rule 3: IF C 1 Thử nghiệm đánh giá độ xác phân lớp liệu theo tập luật định sinh từ thuật toán MRBFA, MRBBA FJ_RBAR, thuật toán FJ_RBAR sử dụng liệu đầu vào tập tập rút gọn thu từ F_RSAR1, đầu vào thuật toán liệu phần 2.2.2 sau mờ hóa thể Bảng 4.4 Bảng 4.4 Kết thực nghiệm MRBFA, MRBBA FJ_RBAR T T Tập liệu Fisher_Order Iris Glass Sonar Sensor_Readings_24 EEG_Eye_State MRBFA MRBBA FJ_RBAR Độ xác phân lớp Độ xác phân lớp Độ xác phân lớp Tham số ngưỡng 0.7842 ± 0.0482 0.7725 ± 0.0411 0.7512 ± 0.0512 (α=0.28; β=0.91) 0.8607 ± 0.0275 0.5432 ± 0.0696 0.8108 ± 0.0268 0.5353 ± 0.0787 0.9174 ± 0.0231 0.8232 ± 0.0895 0.8532 ± 0.0521 0.9168 ± 0.0249 0.8203 ± 0.0723 0.8412 ± 0.0542 0.9071 ± 0.0326 0.4658 ± 0.0884 0.9182 ± 0.0255 0.9152 ± 0.0912 0.7932 ± 0.0512 (α=0.23; β=0.82) (α=0.15; β=0.85) (α=0.3; β=0.75) (α=0.18; β=0.9) (α=0.25; β=0.75) 4.4 Kết luận chương Chương giới thiệu phương pháp rút gọn thuộc tính sinh luật định bảng định mờ Phương pháp sinh luật định thực bảng định mờ sau rút gọn thuộc tính nên tập luật thu đơn giản số phương pháp khác Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy độ hỗ trợ phân lớp liệu tập luật thu phương pháp đề xuất tương đương với số phương pháp khác KẾT LUẬN 1) Những kết qủa luận án: (1) Với tốn tìm tập rút gọn bảng định miền giá trị thực, luận án đạt kết sau: 22 - Cải tiến phương pháp sử dụng miền dương mờ để tìm tập rút gọn khơng dư thừa thuộc tính bảo tồn miền dương mờ - Xây dựng khoảng cách Jaccard mờ ứng dụng rút gọn thuộc tính bảng định - Đề xuất khoảng cách hai phân hoạch mờ ứng dụng xây dựng phương pháp rút gọn thuộc tính bảng định Thử nghiệm số liệu lấy từ kho liệu UCI cho thấy phương pháp sử dụng khoảng cách mờ tỏ có ưu thời gian thực độ xác phân lớp liệu so với phương pháp sử dụng miền dương mờ entropy mờ (2) Với tốn rút gọn thuộc tính sinh luật định bảng định mờ, luận án đạt kết sau: - Cải tiến phương pháp rút gọn thuộc tính dựa miền dương mờ để tìm tập rút gọn khơng dư thừa bảo tồn miền dương mờ - Đề xuất phương pháp sinh luật định bảng định mờ sử dụng khoảng cách Jaccard mờ trực tiếp biến ngôn ngữ thuộc tính điều kiện định Thực nghiệm số liệu lấy từ kho liệu UCI cho thấy phương pháp đề xuất cho độ xác phân lớp liệu tương đương với số phương pháp khác công bố 2) Hướng phát triển luận án: (1) Đối với bảng định có miền giá trị thực, tiếp tục nghiên cứu mối liên hệ tập rút gọn Từ đó, hồn thiện việc phân loại so sánh phương rút gọn thuộc tính bảng định có miền giá trị thực theo tiếp cận tập thô mờ (2) Đối với bảng định mờ, nghiên cứu phương pháp hiệu để rút gọn thuộc tính sinh luật định Xây dựng 23 độ đo đánh giá hiệu tập luật định bảng định mờ DANH MỤC CÁC CƠNG TRÌNH CỦA TÁC GIẢ TẠP CHÍ KHOA HỌC [CCN1] Cao Chính Nghĩa, Vũ Đức Thi, Nguyễn Long Giang (2016), “Rút gọn trực tiếp thuộc tính bảng định theo tiếp cận tập thô mờ”, Tạp chí Khoa học cơng nghệ qn sự, số 43, Tr 110-118 [CCN2] Cao Chính Nghĩa, Vũ Đức Thi, Tân Hạnh, Nguyễn Long Giang (2016), “Rút gọn thuộc tính bảng định sử dụng miền dương mờ”, Tạp chí Khoa học Công nghệ thông tin Truyền thông, Học viện Cơng nghệ Bưu viễn thơng, số 2, Tr 3-10 [CCN3] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh (2016), “Fuzzy distance based attribute reduction in decision tables”, Chun san Các cơng trình nghiên cứu, phát triển ứng dụng CNTT&TT số 16 (36), Bộ Thông tin truyền thông, Tr 104-112 [CCN4] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi (2016), “About a fuzzy distance between two fuzzy partitions and attribute reduction problem”, Cybernetics and Information Technologies, Scopus index, Vol 16, No 4, pp 13-28 HỘI NGHỊ KHOA HỌC [CCN5] Nguyễn Quang Huy, Nguyễn Long Giang, Cao Chính Nghĩa, Tân Hạnh, Phạm Văn Dũng (2016), Một phương pháp sinh luật định bảng định mờ sử dụng khoảng cách mờ, Hội thảo quốc gia lần thứ IXX, Một số vấn đề chọn lọc công nghệ thông tin truyền thông, tr 276281 24

Ngày đăng: 07/11/2017, 16:15

Tài liệu cùng người dùng