1. Trang chủ
  2. » Công Nghệ Thông Tin

Về phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định sử dụng khoảng cách mờ

11 21 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 11
Dung lượng 721,76 KB

Nội dung

Bài viết đề xuất phương pháp rút gọn thuộc tính trực tiếp trên bảng quyết định có miền giá trị thực, liên tục sử dụng độ đo khoảng cách mờ. Kết quả thực nghiệm cho thấy, độ chính xác phân lớp của phương pháp đề xuất hiệu quả hơn một số phương pháp sử dụng miền dương mờ và entropy mờ.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.000101 VỀ PHƯƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ Nguyễn Long Giang1, Nguyễn Văn Thiện2, Cao Chính Nghĩa3 Viện Cơng nghệ thông tin, Viện Hàn lâm Khoa học Công nghệ Việt Nam Trƣờng Đại học Công nghiệp Hà Nội Học viện Cảnh sát nhân dân, Bộ Công an nlgiang@ioit.ac.vn, nguyenthien@haui.edu.vn, ccnghia@gmail.com TÓM TẮT — Các phương pháp rút gọn thuộc tính theo tiếp cận lý thuyết tập thơ truyền thống thực bảng định có miền giá trị rời rạc, bảng định thu sau thực phương pháp rời rạc hóa liệu Để giải tốn rút gọn thuộc tính trực tiếp bảng định có miền giá trị thực, liên tục, năm gần nhà nghiên cứu đề xuất số phương pháp theo tiếp cận lý thuyết tập thô mờ Trong báo này, đề xuất phương pháp rút gọn thuộc tính trực tiếp bảng định có miền giá trị thực, liên tục sử dụng độ đo khoảng cách mờ Kết thực nghiệm cho thấy, độ xác phân lớp phương pháp đề xuất hiệu số phương pháp sử dụng miền dương mờ entropy mờ Từ khóa — Tập thô mờ, quan hệ tương đương mờ, khoảng cách mờ, bảng định, rút gọn thuộc tính, tập rút gọn I MỞ ĐẦU R t gọn thuộc t nh ài to n quan trọng c a ƣ c tiền xử l s liệu qu tr nh hai ph liệu, ph t tri thức Mục tiêu c a r t gọn thuộc t nh loại ỏ c c thuộc t nh ƣ thừa nhằm nâng cao t nh hiệu c a c c thuật toán khai phá liệu L thuyết tập thô o Pawla đề xuất [12, 13] công cụ hiệu giải ài to n r t gọn thuộc t nh ảng định đƣợc cộng đồng nghiên cứu tập thô thực lâu C c phƣơng ph p r t gọn thuộc t nh theo tiếp cận l thuyết tập thô thực c c ảng định có miền gi trị rời rạc Trong thực tế, miền gi trị thuộc t nh c a c c ảng định thƣờng chứa gi trị thực, liên tục V ụ, thuộc t nh trọng lƣợng thể huyết p ảng liệu ệnh nhân thƣờng c c gi trị thực, liên tục Để thực c c phƣơng ph p r t gọn thuộc t nh theo tiếp cận tập thô, miền gi trị thuộc t nh liên tục cần đƣợc rời rạc hóa Tuy nhiên, c c phƣơng ph p rời rạc hóa hơng ảo toàn h c an đầu gi a c c đ i tƣợng liệu g c o có làm giảm độ ch nh x c phân l p sau hi r t gọn thuộc t nh Để giải ài to n r t gọn thuộc t nh trực tiếp c c ảng định có miền gi trị thực, liên tục, năm gần c c nhà nghiên cứu đề xuất hƣ ng tiếp cận m i sử ụng l thuyết tập thô mờ L thuyết tập thô mờ (Fuzzy Rough Set) o D Du ois c c cộng [1] đề xuất ết hợp c a l thuyết tập thô l thuyết tập mờ nhằm xấp xỉ c c tập mờ ựa quan hệ tƣơng đƣơng mờ (fuzzy equivalent relation) đƣợc x c định miền gi trị thuộc t nh L thuyết tập thô truyền th ng ựa quan hệ tƣơng đƣơng để xấp xỉ tập hợp, độ tƣơng tự c a hai đ i tƣợng ch ng tƣơng đƣơng, ngƣợc lại ch ng hông tƣơng đƣơng L thuyết tập thô mờ sử ụng quan hệ tƣơng đƣơng mờ thay quan hệ tƣơng đƣơng, độ tƣơng tự c a hai đ i tƣợng gi trị nằm hoảng [0, 1] cho thấy t nh gần nhau, hay phân iệt gi a hai đ i tƣợng Do đó, quan hệ tƣơng đƣơng mờ ảo toàn h c nhau, hay độ tƣơng tự, gi a c c đ i tƣợng c c phƣơng ph p r t gọn thuộc t nh theo tiếp cận tập thô mờ có tiềm việc ảo tồn độ ch nh x c phân l p sau hi thực c c phƣơng ph p r t gọn thuộc t nh Ch đề nghiên cứu r t gọn thuộc t nh theo tiếp cận tập thô mờ thu h t quan tâm c a c c nhà nghiên cứu năm gần [2, 3, 4, 5, 6, 7, 8, 9, 10, 11] V i ài to n r t gọn thuộc t nh trực tiếp ảng định theo tiếp cận tập thô mờ, c c nghiên cứu liên quan tập trung vào hai hƣ ng tiếp cận ch nh: hƣ ng tiếp cận miền ƣơng mờ hƣ ng tiếp cận entropy mờ Theo hƣ ng tiếp cận miền ƣơng mờ, Hu c c cộng [5] đề xuất thuật to n FARVPFRS t m tập r t gọn miền ƣơng mờ sử ụng hàm thuộc mờ Thực nghiệm s ộ s liệu mẫu cho thấy, độ ch nh x c phân l p c a thuật to n FAR-VPFRS cao độ ch nh x c phân l p c a thuật to n sử ụng hàm thuộc theo tiếp cận l thuyết tập thô truyền th ng Qian c c cộng [11] đề xuất thuật to n FA_FPR, cải tiến c a thuật to n FAR-VPFRS [5] thời gian thực Theo hƣ ng tiếp cận entropy mờ, Hu c c cộng [4] đề xuất entropy mờ ựa entropy Shannon xây ựng thuật to n FSCE t m tập r t gọn sử ụng entropy mờ Dai c c cộng [3] xây ựng độ đo lƣợng thông tin tăng thêm mờ (fuzzy gain ratio) ựa entropy mờ xây ựng thuật to n GAIN_RATION_AS_FRS t m tập r t gọn sử ụng lƣợng thông tin tăng thêm mờ Thực nghiệm s ộ s liệu mẫu cho thấy, độ ch nh x c phân l p c a c c thuật to n FSCE, GAIN_RATION_AS_FRS cao độ ch nh xác phân l p c a c c thuật to n sử ụng entropy, lƣợng thông tin tăng thêm (gain ratio) theo tiếp cận tập thô truyền th ng Qian c c cộng [11] đề xuất thuật to n FA_FSCE, cải tiến c a thuật to n FSCE [4] thời gian thực Trong hai hƣ ng tiếp cận, c c t c giả [11] chƣa đ nh gi độ ch nh x c c a mô h nh phân l p sau hi thực c c thuật to n cải tiến FA_FPR, FA_FSCE V i ài to n r t gọn thuộc t nh trực tiếp ảng định miền gi trị thực theo tiếp cận tập thô mờ, mục tiêu c a ài o đề xuất thuật to n m i nhằm nâng cao độ ch nh x c c a mô h nh phân l p so v i c c thuật to n cơng VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 826 Trong ài o này, ch ng đề xuất thuật to n r t gọn thuộc t nh ảng định miền gi trị thực sử ụng hoảng c ch mờ Khoảng c ch mờ gi a hai tập thuộc t nh đƣợc xây ựng ựa hoảng c ch mờ gi a hai tập mờ Kết thực nghiệm s ộ s liệu mẫu cho thấy, thuật to n đề xuất cải thiện độ ch nh x c c a mô h nh phân l p so v i c c thuật to n FA_FSCE FA_FSCE [11] Cấu tr c ài o nhƣ sau Phần II tr nh ày s h i niệm ản l thuyết tập thô mờ Phần III tr nh ày phƣơng ph p xây ựng hoảng c ch mờ gi a hai tập thuộc t nh Phần IV tr nh ày phƣơng ph p r t gọn thuộc t nh sử ụng độ đo hoảng c ch mờ Phần V tr nh ày ết thử nghiệm Cu i ết luận hƣ ng ph t triển II MỘT SỐ KHÁI NIỆM CƠ BẢN Trong phần này, ch ng tr nh ày s vấn đề l thuyết tập thô, tập thô mờ s quan đến hông gian phân hoạch mờ h i niệm liên Bảng định cặp DS  U , C  D  U tập h u hạn, h c rỗng c c đ i tƣợng; C tập thuộc t nh điều iện, D tập thuộc t nh định v i C  D   DS đƣợc gọi ảng định miền gi trị thực v i c  C , miền gi trị c a c s thực Lý thuyết tập thô truyền th ng c a Pawlak [12] sử dụng quan hệ tƣơng đƣơng để xấp xỉ tập hợp Mỗi tập thuộc P  C x c định quan hệ tƣơng đƣơng miền gi trị thuộc t nh, tính  hiệu IND  P   IND  P    u, v  U U a  P, a u   a  v  K hiệu a  v  gi trị thuộc t nh a đ i tƣợng v Quan hệ IND  P  x c định phân hoạch U, ký hiệu U / IND  P  l p tƣơng đƣơng c a đ i tƣợng u  hiệu u P Tập xấp xỉ ƣ i xấp xỉ c a X  U đ i v i P  C đƣợc định nghĩa PX  u U u P  X  PX  u U u P  X  L thuyết tập thô mờ o D Du ois c c cộng [1] đề xuất sử ụng quan hệ tƣơng đƣơng mờ để xấp xỉ c c tập mờ Xét ảng định miền gi trị thực DS  U , C  D  , quan hệ R x c định miền gi trị thuộc t nh đƣợc gọi quan hệ tƣơng đƣơng mờ thỏa mãn c c điều iện: 1) T nh phản xạ (reflexive): R  x, x   ; 2) T nh đ i xứng (symetric): R  x, y   R  y , x  ; 3) T nh ắc cầu max-min (max-min transitive):   R  x, z   R  x, y  , R  y, z  ) v i x, y, z U Cho hai quan hệ tƣơng đƣơng mờ R P R Q x c định tập thuộc t nh P Q, hi v i x, y U ta có [11]: 1) R P  RQ  R P  x , y   R Q  x , y  2) R  R P  RQ  R  x, y   max R P  x, y  , RQ  x, y  3) R  R P  RQ 4) R P  RQ  R P  x , y   R Q  x , y    R  x, y   R P  x, y  , R Q Quan hệ R P đƣợc iểu iễn ởi ma trận tƣơng đƣơng mờ  p11 p M ( R P )   21    pn1 v i p12 p22   x, y    M R P   pij  nhƣ sau: nn pn p1n  p2 n     pnn  pij  R P  xi , x j  gi trị c a quan hệ gi a hai đ i tƣợng xi x j tập thuộc t nh P , pij  0,1 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Ch nh Nghĩa 827 Cho ảng định miền gi trị thực DS  U , C  D  P, Q  C Theo [11] ta có R P  aP R a R PQ  R P  RQ , nghĩa v i   R PQ  x, y   R P  x, y  , RQ  x, y  Giả sử x, y  U ,   M R P   pij  M ( RQ )   qij  ma trận quan hệ c a R P , R Q , hi ma trận quan hệ tập thuộc nn nn tính S  P  Q là:   M ( R S )  M R PQ   sij  v i sij   pij , qij  nn V i P  C , U  x1 , x2 , , xn  , quan hệ tƣơng đƣơng mờ R P x c định phân hoạch mờ   P   U / R P U    R P  U / R P   xi R  n P i 1   x  RP , ,  xn R P  v i  xi R  pi1 / x1  pi / x2   pin / xn tập mờ đóng vai trị l p tƣơng đƣơng mờ c a đ i tƣợng P Hàm thuộc c a c c đ i tƣợng x c định ởi lực lƣợng c a l p đƣơng đƣơng mờ  xi R P  x  i RP x    x , x   R x , x   p j i RP P j i j ij xi x j U Khi đó, v i đƣợc t nh ởi [11]:  xi R n P   pij j 1 Gọi tập tất c c phân hoạch mờ U x c định ởi c c quan hệ tƣơng tự mờ c c tập thuộc t nh, hi đƣợc gọi hông gian phân hoạch mờ U Nhƣ vậy, hông gian phân hoạch mờ đƣợc x c định ởi quan hệ tƣơng đƣơng mờ đƣợc chọn miền gi trị thuộc t nh Xét phân hoạch mờ v i  xi R  pi1 / x1   pin / xn Trƣờng hợp đặc iệt, P hoạch mờ    RP đƣợc gọi mịn nhất,  xi    j1ij / x j , i, j  n, ij  Nếu n hoạch mờ    RP hiệu hiệu P P  pij  v i i, j  n  xi R P  hi phân           Khi     x1  , ,  xn   v i  xi R  U v i i  n hi phân pij  v i i, j  n đƣợc gọi thơ nhất,    R P   x1 R , ,  xn R P Khi       x1  , ,  xn   v i  xi    j1ij / x j , i, j  n, ij  n hông gian phân hoạch mờ U , v i Cho      R P ,  RQ  ta định nghĩa quan hệ thứ     R    x    x  , i  n  p  q , i, j  n , viết tắt R R Dấu đẳng R R   R     R    x    x  , i  n  p  q , i, j  n , thức viết tắt R   R    R     R    R    R     R  , viết tắt R Ví dụ Cho U  x , x  ,   R    x  ,  x   ,   R    x  ,  x   ,   R    x  ,  x   v i  x   0.1/ x  0.2 / x ,  x   0.2 / x  0.3 / x , tự ộ phận  RP : P P Q Q i RP Q P S  x1 R  x2 R Q S i RP RS ij i RQ Q i RQ ij P P RS RP P ij P ij P Q Q RP RP Q Q RQ 2 RP RQ  0.2 / x1  0.3 / x2 ,  x2 RQ  0.3 / x1  0.4 / x2 ,  x1 RS  0.3/ x1  0.4 / x2 ,  0.4 / x1  0.6 / x2 Khi ta có: Q VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 828  x1 R P  x2 R Q  0.1  0.2  0.3 ,  x2 R  0.3  0.4  0.7 ,  x1 R  x2 R P  0.2  0.3  0.5 ,  x1 RQ  0.2  0.3  0.5 , S  0.3  0.4  0.7 ,  x2 RS  0.4  0.6  ,  x1 R P   x1 RQ  0.3 ,  x1 R P   x1 RS  0.3 ,  x2 R P   x2 RS  0.5 P   x2 RQ  0.5 ,  x1 RQ   x1 RS  0.5 ,  x2 RQ   x2 RS  0.7 , III KHOẢNG CÁCH MỜ GIỮA HAI PHÂN HOẠCH MỜ VÀ CÁC TÍNH CHẤT 3.1 Khoảng cách mờ hai tập mờ Trƣ c hết, mục ch ng xây ựng độ đo hoảng c ch gi a hai tập mờ, gọi hoảng c ch mờ Bổ đề Cho ba số thực a, b, m với a  b Khi ta có Chứng minh Dễ thấy a  b   a, m    b, m  a  b   a, m    b, m  thỏa mãn v i m  a, b  m  a, m  b Vậy Bổ đề đƣợc chứng minh Bổ đề Cho ba tập mờ A, B, C tập đối tượng U Khi ta có: 1) Nếu A B B  B C  A  AC 2) Nếu A B C  CA  C  CB 3) A  A B  C  C  A  C  C  B Chứng minh A B,v 1) Vì i xi U ta có B  xi    A  xi  Áp dụng Bổ đề ta có: B  xi    A  xi    B  xi  , C  xi      A  xi  , C  xi   U U U U i 1 i 1 i 1 i 1  B  xi     A  xi     B  xi  , C  xi      A  xi  , C  xi   B  A  B C  AC  B  B C  A  AC A B,v 2) Vì i xi U ta có B  xi    A  xi    B  xi  , C  xi      A  xi  , C  xi   C  xi     A  xi  , C  xi   C  xi    B  xi  , C  xi   U U U U i 1 i 1 i 1 i 1   C  xi      A  xi  , C  xi     C  xi     B  xi  , C  xi    C  CA  C  CB 3) Từ A  C  A , áp dụng tính chất 1) ta có A  A  B  A  C  A  C  B Mặt khác, từ A  B  B , áp dụng tính chất 2) ta có C  C  A  B  C  C  B Từ (*) (**) ta có: A  A B  C  C  A  AC  AC  B  C  C  A   C  A B C  C  C  B (*) (**) a trƣờng hợp: Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Ch nh Nghĩa Mệnh đề Cho hai tập mờ A, B 829 tập đối tượng U Khi   d A, B  A  B  A  B độ đo khoảng cách A B Chứng minh Rõ ràng       A  A  B B  A  B nên d A, B  Hơn n a, d A, B  d B, A Tiếp theo, ta cần chứng minh bất đẳng thức tam giác Khơng tính chất tổng qt ta chứng minh       d A, B  d A, C  d B, C Theo Bổ đề (phần 3) ta có: A  A  B  C  C  A  C  C  B (***) A  A  C  B  B  A  B  B  C (****) Cộng (***) v i (****), vế v i vế ta đƣợc:   A  B  A B    A  C  AC   B  C  B C , hay      Từ đó, d  A, B  khoảng cách gi a hai tập mờ A B , gọi khoảng cách mờ Dựa khoảng cách mờ d A, B  d A, C  d B, C này, mục xây dựng khoảng cách gi a hai phân hoạch mờ 3.2 Khoảng cách mờ hai phân hoạch mờ tính chất Định lý Xét bảng định DS  U , C  D  với mờ sinh hai quan hệ tương đương mờ R P ,      D  R P ,  RQ     U  x1, x2 , , xn   R P ,  RQ hai phân hoạch RQ P, Q  C Khi đó:   n   xi R P   xi RQ   xi R P   xi RQ  n i 1  n      (1)     R  Chứng minh Rõ ràng D   R  ,   R   D   R  ,   R   D   R  ,   R  Ta cần chứng minh ất đẳng thức tam gi c Không t nh chất tổng qu t, v i   R  ,   R  ,   R   ta chứng minh D   R  ,   R   D   R  ,   R   D   R  ,   R  Từ Mệnh đề 1, v i x U ta có: d  x  ,  x    d  x  ,  x    d  x  ,  x   Từ đó: D   R  ,   R   D   R  ,   R  khoảng cách mờ  RP Q P Q P Q Q P P i RP Q P i RQ P i RP S i RS Q Q i RQ P Q S P S i i RS S   n   xi R P   xi RQ   xi R P   xi RQ  n i 1  n   n d  xi R P ,  xi RQ n d  xi R P ,  xi RS n d  xi RQ ,  xi RS    D  RQ ,  R S    n i 1 n n i 1 n n i 1 n     n  x    xi R S   xi R P   xi R S    i RP   n i 1  n               VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 830 Dễ thấy rằng, D        R  ,  R  P đạt giá trị nhỏ Q       R      (hoặc  R P   RQ       R        R      Do đó,  D   R  ,   R   Mệnh đề Cho   R   phân hoạch mờ , ta có: D   R  ,     D   R  ,     D  R P ,  RQ  RP    đạt giá trị l n P Q P Q P P Chứng minh Giả sử      D  RP , K   Q    R P   x1 R ,  x2 R , ,  xn R P  P  P  Khi D   R  ,    n1   x  n P P i 1 i RP ,            n  n  x i RP Từ ta có D  R P ,   D  R P ,   n i 1 Ví dụ Tiếp tục V ụ 1, theo Định l ta có D   R  ,  R   0.1 , D   R  ,  R   0.125 , P Q Q S       0.225 Do đó: D   R  ,   R   D   R  ,   R   D   R  ,   R  D   R  ,   R   D   R  ,   R   D   R  ,   R  D   R  ,   R   D   R  ,   R   D   R  ,   R  D  R P , RS P P Q Q Q S P P S Q Q S P S S S P Q IV RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH MIỀN GIÁ TRỊ THỰC DỰA TRÊN KHOẢNG CÁCH MỜ Trong phần này, ch ng tr nh ày phƣơng ph p r t gọn thuộc t nh trực tiếp ảng định miền gi trị thực sử ụng hoảng c ch mờ định nghĩa gi a hai phân hoạch mờ đƣợc tr nh ày phần DS  U , C  D  v i U  x1, x2 , , xn  Trên tập thuộc t nh điều iện ch ng sử ụng quan hệ tƣơng đƣơng mờ x c định miền gi trị thuộc t nh V i p  C , quan hệ tƣơng Cho ảng định miền gi trị thực đƣơng mờ   R p thƣờng đƣợc sử ụng v i ma trận quan hệ M R p   pij  nn đƣợc x c định nhƣ sau [3]:  p  xi   p  x j  1  * , pij   pmax  pmin  0, otherwise v i p  xi   p  x j  pmax  pmin  0.25 (2) p  xi  gi trị c a thuộc t nh p đ i tƣợng xi , pmax , pmin tƣơng ứng gi trị l n nhất, nhỏ c a thuộc tính p Trên tập thuộc t nh định ch ng sử ụng quan hệ tƣơng đƣơng IND  D  v i ma trận tƣơng đƣơng M  IND  D    d ij   xi D nn , d ij  x j   xi D dij  x j   xi D Nói c ch h c, l p tƣơng đƣơng xem l p đƣơng đƣơng mờ,  x   x j   x j   xi D Khi đó, i D hiệu  xi D , v hiệu phân hoạch mờ i hàm thuộc    x   x j   x j   xi D i D  D   xi D i 1   x1 D , ,  xn D  n Dựa c c quan hệ đƣợc x c định, ch ng xây ựng hoảng c ch mờ gi a tập thuộc t nh điều iện tập thuộc t nh định Nhƣ tr nh ày phần 3, tập thuộc t nh P  C x c định phân hoạch mờ    RP Do đó, để đơn giản ch ng sử ụng h i niệm hoảng c ch mờ gi a hai tập thuộc t nh thay cho h i niệm hoảng c ch mờ gi a hai phân hoạch mờ ởi Định nghĩa sau Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Ch nh Nghĩa 831 Định nghĩa Cho ảng định miền gi trị thực     DS  U , C  D  v i  R P ,  RQ hai phân hoạch RQ P, Q  C Khi đó, hoảng c ch mờ gi a hai tập thuộc t nh P mờ sinh hai quan hệ tƣơng đƣơng mờ R P , Q , ký hiệu F  P, Q  , đƣợc định nghĩa hoảng cách mờ gi a hai phân hoạch mờ     R  , nghĩa  RP      Q F  P, Q   D  R P ,  RQ U  x1, x2 , , xn  R quan hệ Mệnh đề Cho bảng định miền giá trị thực DS  U , C  D  với tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, khoảng cách mờ hai tập thuộc tính C C  D xác định sau: F  C,C D   n   xi RC   xi RC   xi D  n i 1  n      (3) Chứng minh Từ Định nghĩa Định l ta có:   xi    xi    xi RC   xi RC  D  RC RC  D  n  i 1     xi R D   xi RC   xi R D  n   xi RC   xi RC   xi R D    n  n i 1  n     xi D         F  C,C D   D  RC ,  RC D n   xi RC   xi RC  n i 1   n   xi RC   xi RC   n i 1  n   Dễ thấy F C, C  D      n1   n  F C, C  D        hệ tương đương mờ F  B, B  D   F C, C  D  Chứng minh: Từ  xi R C F C, C  D       D  RC  RC     xi D  xi  v i  i  n n Mệnh đề Cho bảng định miền giá trị thực quan n     xác định DS  U , C  D  với U  x1, x2 , , xn  , B  C R miền giá trị tập thuộc     R  , nghĩa  x  B  C , theo [11] ta có  RC B i RC tính điều kiện Khi   xi R B v i  i  n , suy   xi R B v i  i  n Xét đ i tƣợng xi U ta có:  xi R RC  x     RB  x j     xi  n C   xi RC   xi D    xi  j 1 n  xi RB   xi RB   xi D    xi  j 1 (1) V i x j   xi D ta có (2) V i  xi R B x j   xi D j j 1 B  x  ,    x  RB  x  ,    x  xi R  n j 1 j xi j xi D D j j  x   x j   , o  xi RC   xi RC   xi D    xi RB   xi RB   xi D i D ta có  x   x j   , o i D   xi RB   xi D Từ (1), (2) ta có:  xi R C n   xi RB   xi D   xi RC   xi RC   xi D  xi R C   xi RC   xi D   xi RC   xi RB  VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 832 n   xi R B   xi R B   xi D  n   xi RC   xi RC   xi D      n i 1  n i 1  n n     F  B, B  D   F C, C  D       Dễ thấy ấu đẳng thức F  B, B  D   F C , C  D  xảy hi hi  xi R B   xi RC v i xi U Tiếp theo, ch ng tr nh ày phƣơng ph p r t gọn thuộc t nh sử ụng hoảng c ch mờ Mệnh đề 3, ao gồm c c ƣ c: định nghĩa tập r t gọn, định nghĩa độ quan trọng c a thuộc t nh ựa hoảng c ch mờ xây ựng thuật to n heuristic t m tập r t gọn ựa độ quan trọng c a thuộc t nh Định nghĩa Cho bảng định miền gi trị thực DS  U , C  D  v i B  C R quan hệ tƣơng đƣơng mờ x c định miền gi trị tập thuộc t nh điều iện Nếu 1) F  B, B  D   F C , C  D  2) b  B, F (B  b,B  b  D))  F (C, C  D) B tập r t gọn c a C ựa hoảng c ch mờ Định nghĩa Cho ảng định miền gi trị thực DS  U , C  D  v i B  C b  C  B Độ quan trọng c a thuộc t nh b đ i v i B đƣợc định nghĩa ởi SIGB  b   F  B, B  D   F  B  b, B  b  D  Từ Mệnh đề ta có SIGB  b   Độ quan trọng SIGB  b  đặc trƣng cho chất lƣợng phân l p c a thuộc tính b vào thuộc t nh định D đƣợc sử ụng làm tiêu chuẩn lựa chọn thuộc t nh cho thuật to n heuristic t m tập r t gọn sau Thuật toán NF_DBAR (New Fuzzy Distance based Attribute Reduction): Thuật to n heuristic t m tập r t gọn sử ụng hoảng c ch mờ Đầu vào: Bảng định miền gi trị thực Đầu ra: Một tập r t gọn DS  U , C  D  , quan hệ tƣơng đƣơng mờ R B B   ; M ( R B )  1nn ; T nh ma trận tƣơng đƣơng mờ M ( RC ) , ma trận tƣơng đƣơng M ( IND  D ) , hoảng c ch mờ F C, C  D  ; // Thêm dần vào B thuộc tính có độ quan trọng lớn While F  B, B  D   F C , C  D  Begin For each a  C  B tính Chọn B  B  am ; am  C  B SIGB  a   F  B, B  D   F  B  a, B  a  D  cho SIGB  am   Max SIGB  a  ; aC  B End; //Loại bỏ thuộc tính dư thừa B có For each a  B 10 Begin 11 Tính     F K ( B  a ), K ( B  a  D) ; Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Ch nh Nghĩa 12 13 Return B ; If  833      F K ( B  a ), K ( B  a  D  F K (C , C  D) then B  B  a ; End; Ví dụ Xét ảng định miền gi trị thực DS  U , C  d  cho Bảng v i U  u1 , u2 , u3 , u4  , C  c1 , c2 , c3 , c4  , D  {d} , quan hệ tƣơng đƣơng mờ R cho công thức (7) Bảng Bảng định miền gi trị thực c1 c2 c3 c4 d u1 2.5045 5.4072 1.4741 5.9308 u2 1.9559 4.0554 7.6407 9.4846 u3 4.3517 9.5647 3.4221 4.7597 u4 2.7831 9.2830 4.8055 9.8475 Áp ụng c c ƣ c c a thuật to n NF_DBAR t m tập r t gọn ta có: F  ,   {d }  0.375 ; t nh c c ma trận tƣơng đƣơng mờ Khởi tạo B   ; M ( R B )  1nn ; M ( Rc1 ), M ( Rc2 ), M ( Rc3 ), M ( R c4 ), M ( RC ) , ma trận tƣơng đƣơng M ( IND d ) : 0.0841 0.5349   0.0185 0    0.0841   0 0   , M ( R c )  0.0185 M ( R c1 )      0 0.7955     0  0.7955  0.5349  1 0 M ( R c3 )   0  0  0.0793     0 0.7147 ,  , M ( Rc )   0 0.1026 0.0793     0.1026  0.7147   1 0 M ( RC )   0  0 0 0 1 0 0  , M ( IND d )   0 0   0 1 0 0 Từ ta có: F C, C  d   , F c1,c1  {d })   0.0774 , F c2 ,c2   d   0.0023 , F c3,c3  {d })   , SIGB  c3   0.375 , 0 0 1 1  1 1  1 1 F c4 ,c4   {d }  0.0099 ; SIGB  c4   0.3651 Thuộc t nh SIGB  c1   0.2976 , c3  đƣợc SIGB  c2   0.3727 , chọn; iểm tra F C, C  {d })   F c3,c3  {d })   , o thuật to n ừng B  c3 tập r t gọn t m đƣợc c a thuật to n V THỬ NGHIỆM Ch ng chọn ộ liệu mẫu từ lấy từ ho liệu UCI [14] có miền gi trị thực cho Bảng để tiến hành thử nghiệm Môi trƣờng thử nghiệm m y t nh PC v i cấu h nh Pentium ual core 2.13GHz CPU, 2GB ộ nh RAM, sử ụng hệ điều hành Win ows VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 834 Bảng Bộ STT liệu thử nghiệm Bộ liệu Ecoli Ionosphere Wdbc (Breast Cancer Wisconsin) Wpbc (Breast Cancer Wisconsin) Wine Glass Sonar (Connectionist Bench) Heart Số thuộc tính điều kiện 34 30 32 13 60 13 Số đối tượng 336 351 569 198 178 214 208 270 Ch ng chọn thuật to n FA_FPR (t m tập r t gọn ựa miền ƣơng mờ) thuật to n FA_FSCE (t m tập r t gọn ựa entropy mờ) công tr nh [11] để so s nh v i thuật to n đề xuất NF_DBAR độ ch nh x c phân l p sau hi r t gọn thuộc t nh Thuật to n FA_FPR cải tiến c a thuật to n FAR-VPFRS [5] thời gian thực hiện, thuật to n FA_FSCE cải tiến c a thuật to n FSCE [4] thời gian thực Theo hƣ ng tiếp cận tập thô mờ, độ ch nh x c phân l p sau hi thực c c thuật to n FAR-VPFRS [5], FSCE [4] cao so v i hƣ ng tiếp cận tập thô truyền th ng sau hi rời rạc hóa liệu Tuy nhiên, cơng tr nh [11] t c giả chƣa đ nh gi độ ch nh x c phân l p đ i v i c c thuật to n cải tiến FA_FPR FA_FSCE Để tiến hành thử nghiệm, ch ng thực c c công việc sau: 1) Cài đặt c c thuật to n FA_FPR, FA_FSCE NF_DBAR ằng ngôn ng Java, c c thuật to n sử ụng quan hệ tƣơng đƣơng mờ công thức (2) 2) Thực 03 thuật to n ộ liệu mẫu v i môi trƣờng thử nghiệm đƣợc chọn 3) Sử ụng thuật to n C4.5 WEKA [15] để đ nh gi độ ch nh x c phân l p c a 03 thuật to n ằng c ch chọn 2/3 đ i tƣợng để làm tập huấn luyện (training set), 1/3 đ i tƣợng lại làm tập iểm tra (testing set) Bảng ết thử nghiệm ộ s liệu đƣợc chọn v i U s đ i tƣợng, C s thuộc t nh điều iện, R s thuộc t nh c a tập r t gọn v i thuật to n Bảng Kết thử nghiệm 03 thuật to n FA_FSCE, FA_FPR, NF_DBAR Thuật toán FA_ FSCE STT Bộ số liệu U C R Ecoli 336 Ionosphere 351 34 Wdbc 569 30 Wpbc 198 32 Wine 178 13 Glass 214 Sonar 208 60 Heart 270 13 Độ xác phân lớp trung bình C4.5 100 90 80 70 60 50 40 30 20 10 11 16 16 8 Độ xác phân lớp C4.5 (%) 81.50 88.72 95.2 65.32 88.72 80.15 75.40 74.62 81.2 Thuật toán FA_FPR Thuật toán NF_DBAR Độ xác phân lớp C4.5 (%) R 13 17 17 12 82.45 91.52 90.46 73.60 91.57 81.56 70.60 76.95 82.33 FA_FSCE FA_FPR F_DBAR Hình Độ ch nh x c phân l p C4.5 c a FA_FSCE, FA_FPR NF_DBAR Độ xác phân lớp C4.5 (%) R 15 19 18 10 13 10 82.45 94.25 92.84 74.60 89.25 81.56 76.25 78.65 83.73 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Ch nh Nghĩa 835 Kết thử nghiệm Bảng H nh cho thấy, ộ liệu thử nghiệm, độ ch nh x c phân l p trung nh c a NF_DBAR (sử ụng hoảng c ch mờ) l n nhất, đến FA_FPR (sử ụng miền ƣơng mờ) thấp FA_FSCE (sử ụngh entropy mờ) Trên ộ liệu cụ thể, độ ch nh x c phân l p c a 03 thuật to n h c nhau, nhiên ản thuật to n NF_DBAR có độ ch nh x c phân l p t t 03 thuật to n VI KẾT LUẬN Một nh ng mục tiêu c a r t gọn thuộc t nh ảng định nâng cao độ ch nh x c c a mô h nh phân l p Trên l p ài to n r t gọn thuộc t nh ảng định miền gi trị thực, c c nghiên cứu liên quan cho thấy c c phƣơng ph p r t gọn thuộc t nh theo tiếp cận tập thơ mờ có độ ch nh x c phân l p cao phƣơng ph p r t gọn thuộc t nh theo tiếp cận tập thô truyền th ng Trong ài o này, ch ng xây ựng phƣơng ph p r t gọn thuộc t nh trực tiếp ảng định miền gi trị thực sử ụng hoảng c ch mờ theo tiếp cận tập thô mờ Nghiên cứu c a ch ng ao gồm c c nội ung: xây ựng hoảng c ch mờ gi a hai phân hoạch mờ, định nghĩa tập r t gọn độ quan trọng c a thuộc t nh ựa hoảng c ch mờ xây ựng thuật to n heuristic t m tập r t gọn Kết thử nghiệm s ộ liệu mẫu cho thấy, độ ch nh x c phân l p c a phƣơng ph p hoảng c ch mờ t t độ ch nh x c phân l p c a c c phƣơng ph p sử ụng miền ƣơng mờ entropy mờ Định hƣ ng nghiên cứu nghiên cứu m i liên hệ gi a c c tập r t gọn c a c c phƣơng ph p để phân nhóm đ nh gi tổng thể c c phƣơng ph p theo tiếp cận tập thô mờ LỜI CẢM ƠN Kết nghiên cứu đƣợc tài trợ ởi Đề tài nghiên cứu mã s VAST01.08/16-17, cấp Viện Hàn lâm Khoa học Công nghệ Việt Nam TÀI LIỆU THAM KHẢO [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] D Dübois, H Prade, Rough fuzzy sets and fuzzy rough sets, International Journal of General Systems, 17 (1990) 191-209 E.C.C Tsang, D.G Chen, D.S Yeung, X.Z Wang, J.W.T Lee, Attributes reduction using fuzzy rough sets, IEEETrans Fuzzy Syst 16 (2008) 1130–1141 J Dai, Q Xu, Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification, Applied Soft Computing 13 (2013) 211–221, 2013 Q Hu, D.R Yu, Z.X Xie, Information-preserving hybrid data reduction based on fuzzy-rough techniques, Pattern Recognit Lett 27(5) (2006) 414–423 Q Hu, Z.X Xie, D.R Yu, Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation, Pattern Recognit 40 (2007) 3509–3521 R Jensen, Q Shen, Semantics-preserving dimensionality reduction: rough and fuzzy-rough-based approaches, IEEE Trans Knowl Data Eng 16(12) (2004) 1457–1471 R Jensen, Q Shen, Fuzzy-rough attribute reduction with application to web categorization, Fuzzy Sets Syst 141 (2004) 469485 R Jensen, Q Shen, Fuzzy-rough sets assisted attribute reduction, IEEE Trans Fuzzy Syst 15(1) (2007) 73–89 R Jensen, Q Shen, New approaches to fuzzy-rough feature selection, IEEE Trans Fuzzy Syst 17(4) (2009) 824–838 R.B Bhatt, M Gopal, On fuzzy-rough sets approach to feature selection, Pattern Recognit Lett 26 (2005) 965–975 Y.H Qian, Q Wang, H.H Cheng, J.Y Liang, C.Y Dang, Fuzzy-rough feature selection accelerator, Fuzzy Sets and Systems 258 (2015) 61–78 Z Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer Academic Publisher, London, 1991 Z Pawlak, J.W Grzymala-Busse, R Slowiski, W Ziako, Rough sets, Commun ACM 38(11) (1995) 89-95 The UCI machine learning repository, http://archive.ics.uci.edu/ml/datasets.html https://sourceforge.net/projects/weka/ FUZZY DISTANCE BASED ATTRIBUTE REDUCTION IN DECISION TABLES Nguyen Long Giang, Nguyen Van Thien, Cao Chinh Nghia ABSTRACT — Traditional rough set based attribute reduction methods has performed on the decision tables with discretized value attribute domain In recent years, many researchers has proposed some attribute reduction methods on the decision table with real attribute value domain based on fuzzy rough set In this paper, we propose an attribute reduction method which performs directly on the decision table with real value domain using fuzzy distance The experiment from UCI data sets showed that the accuracy classification of the proposed method is more efficient than the ones based on fuzzy positive region and fuzzy entropy Keywords— Fuzzy rough set, fuzzy equivalence relation, fuzzy distance, fuzzy decision table, attribute reduction, reduct ...VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 826 Trong ài o này, ch ng đề xuất thuật to n r t gọn thuộc t nh ảng định miền gi trị thực sử ụng... 0.3/ x1  0.4 / x2 ,  0.4 / x1  0.6 / x2 Khi ta có: Q VỀ PHƢƠNG PHÁP RÚT GỌN THUỘC TÍNH TRỰC TIẾP TRÊN BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ 828  x1 R P  x2 R Q  0.1  0.2  0.3 ,  x2 R...  khoảng cách gi a hai tập mờ A B , gọi khoảng cách mờ Dựa khoảng cách mờ d A, B  d A, C  d B, C này, mục xây dựng khoảng cách gi a hai phân hoạch mờ 3.2 Khoảng cách mờ hai phân hoạch mờ tính

Ngày đăng: 26/11/2020, 00:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w