1. Trang chủ
  2. » Luận Văn - Báo Cáo

THUẬT TOÁN GIA TĂNG lọc ĐÓNG gói tìm tập rút gọn TRONG BẢNG QUYẾT ĐỊNH KHÔNG đầy đủ KHI tập đối TƯỢNG và tập THUỘC TÍNH THAY đổi GIÁ TRỊ

9 8 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 9
Dung lượng 484,96 KB

Nội dung

Trong xu thế phát triển của dữ liệu lớn, các bảng quyết định thường không đầy đủ, ngày càng có kích thước lớn và luôn thay đổi, cập nhật. Việc xây dựng các thuật toán gia tăng hiệu quả theo phương pháp tiếp cận lọc - đóng gói nhằm giảm thiểu số thuộc tính tập rút gọn, từ đó nâng cao hiệu quả các mô hình phân lớp, học máy là vấn đề nghiên cứu rất cần thiết. Trong bài báo này, chúng tôi đề xuất hai thuật toán gia tăng lọc - đóng gói tìm tập rút gọn của bảng quyết định không đầy đủ thay đổi sử dụng khoảng cách: thuật toán IFWA_U_Obj trong trường hợp tập đối tượng thay đổi giá trị và thuật toán IFWA_U_Attr trong trường hợp tập thuộc tính thay đổi giá trị. Kết quả thực nghiệm trên các tập dữ liệu mẫu cho thấy, các thuật toán gia tăng lọc - đóng gói đề xuất hiệu quả hơn về số lượng thuộc tính tập rút gọn và độ chính xác phân lớp so với các thuật toán lọc đã công bố.

TNU Journal of Science and Technology 226(11): 234 - 242 FILTER-WRAPPER INCREMENTAL ALGORITHM FOR ATTRIBUTE REDUCTION IN INCOMPLETE DECISION TABLES WHEN OBJECT SET AND ATTRIBUTE SET CHANGE VALUE Nguyen Anh Tuan1*, Nguyen Long Giang2, Vu Duc Thi3 1Vinh Phuc College, 2Institute of Information Technology - VAST of Information Technology - VNU 3Institute ARTICLE INFO ABSTRACT Received: 22/6/2021 In the development trend of big data, decision tables are often incomplete, increasingly large in size and always changing and updating The construction of incremental algorithms efficiency according to the filter - wrapper approach to minimize the number attribute of reduct, thereby improving the efficiency of classification and machine learning models is a very important research issue In this paper, we propose two distance based filter-wrapper incremental algorithms: the IFWA_U_Obj algorithm in case the object set change value and the IFWA_U_Attr algorithm in case attribute set change value Experimental results show that proposed filter - wrapper incremental algorithm decreases significantly the number of attributes in the reduct and improves classification accuracy compared to filter incremental algorithms reported Revised: 12/8/2021 Published: 18/8/2021 KEYWORDS Tolerance Rough Set Incomplete Decision Tables Attribute Reduction Reduct Incremental Algorithm Filter-Wrapper THUẬT TỐN GIA TĂNG LỌC - ĐĨNG GĨI TÌM TẬP RÚT GỌN TRONG BẢNG QUYẾT ĐỊNH KHÔNG ĐẦY ĐỦ KHI TẬP ĐỐI TƯỢNG VÀ TẬP THUỘC TÍNH THAY ĐỔI GIÁ TRỊ Nguyễn Anh Tuấn1*, Nguyễn Long Giang2, Vũ Đức Thi3 1Trường 3Viện Cao đẳng Vĩnh Phúc, 2Viện Công nghệ thông tin - Viện Hàn lâm Khoa học Công nghệ Việt Nam Công nghệ thông tin - Đại học Quốc gia Hà Nội THÔNG TIN BÀI BÁO Ngày nhận bài: 22/6/2021 Ngày hoàn thiện: 12/8/2021 Ngày đăng: 18/8/2021 TỪ KHĨA Lý thuyết tập thơ Bảng định khơng đầy đủ Rút gọn thuộc tính Tập rút gọn Thuật tốn gia tăng Lọc - Đóng gói TĨM TẮT Trong xu phát triển liệu lớn, bảng định thường khơng đầy đủ, ngày có kích thước lớn thay đổi, cập nhật Việc xây dựng thuật toán gia tăng hiệu theo phương pháp tiếp cận lọc - đóng gói nhằm giảm thiểu số thuộc tính tập rút gọn, từ nâng cao hiệu mơ hình phân lớp, học máy vấn đề nghiên cứu cần thiết Trong báo này, chúng tơi đề xuất hai thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn bảng định không đầy đủ thay đổi sử dụng khoảng cách: thuật toán IFWA_U_Obj trường hợp tập đối tượng thay đổi giá trị thuật toán IFWA_U_Attr trường hợp tập thuộc tính thay đổi giá trị Kết thực nghiệm tập liệu mẫu cho thấy, thuật tốn gia tăng lọc - đóng gói đề xuất hiệu số lượng thuộc tính tập rút gọn độ xác phân lớp so với thuật tốn lọc cơng bố DOI: https://doi.org/10.34238/tnu-jst.4684 * Corresponding author Email: tuanna573@gmail.com http://jst.tnu.edu.vn 234 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 Giới thiệu Bài tốn tìm tập rút gọn bảng định không đầy đủ thay đổi ngày trở nên quan trọng, nhà nghiên cứu đề xuất nhiều thuật toán gia tăng để giảm thời gian thực thi Chẳng hạn lý thuyết tập thô Pawlak [1] đề xuất xem công cụ hiệu giải tốn rút gọn thuộc tính bảng định đầy đủ, thu hút quan tâm nhà nghiên cứu suốt bốn thập kỷ qua Trong thực tế, bảng định thường thiếu giá trị miền giá trị tập thuộc tính, gọi bảng định không đầy đủ Để giải tốn khơng qua bước tiền xử lý giá trị thiếu, Kryszkiewicz [2] mở rộng quan hệ tương đương lý thuyết tập thô truyền thống thành quan hệ dung sai xây dựng mơ hình tập thơ dung sai Với liệu cố định, tác giả [3] xây dựng cơng thức tính khoảng cách, từ đề xuất thuật tốn IDS_F_DAR tìm tập rút gọn sử dụng khoảng cách Thuật toán theo tiếp cận lọc truyền thống, tập rút gọn chưa tối ưu Để khắc phục nhược điểm này, tác giả [4] đề xuất thuật toán IDS_FW_DAR theo hướng tiếp cận lai ghép lọc - đóng gói Trường hợp bảng định thay đổi có kích thước lớn, việc thực thuật tốn tồn bảng định gặp khó khăn thời gian thực Do đó, nhà nghiên cứu đề xuất hướng tiếp cận tính tốn gia tăng tìm tập rút gọn Các thuật tốn gia tăng có khả giảm thiểu thời gian thực có khả thực bảng định khơng đầy đủ kích thước lớn giải pháp chia nhỏ bảng định Trong năm gần đây, số thuật tốn gia tăng tìm tập rút gọn bảng định không đầy đủ đề xuất nhóm nghiên cứu với trường hợp: bổ sung loại bỏ tập đối tượng [5]-[9], bổ sung loại bỏ tập thuộc tính [10], tập đối tượng tập thuộc tính thay đổi giá trị [11], [12] Các tác giả [11] xây dựng công thức cập nhật miền dương trường hợp tập đối tượng thay đổi giá trị, sở đề xuất thuật toán gia tăng FSMV cập nhật tập rút gọn Các tác giả [12] xây dựng công thức cập nhật độ đo không quán trường hợp tập đối tượng, tập thuộc tính thay đổi giá trị, sở đề xuất hai thuật tốn: thuật toán Object-R cập nhật tập rút gọn trường hợp tập đối tượng thay đổi giá trị Attribute-R trường hợp tập thuộc tính thay đổi giá trị Tuy nhiên, thuật toán đề xuất nêu theo hướng tiếp cận lọc truyền thống Do đó, báo nghiên cứu, đề xuất thuật toán gia tăng tìm tập rút gọn theo hướng tiếp cận lọc - đóng gói sử dụng khoảng cách trường hợp tập đối tượng, tập thuộc tính thay đổi giá trị nhằm giảm thiểu số lượng thuộc tính tập rút gọn, từ nâng cao hiệu mơ hình phân lớp Kết thực nghiệm tập liệu mẫu cho thấy, thuật tốn gia tăng lọc đóng gói đề xuất hiệu số lượng thuộc tính tập rút gọn độ xác phân lớp so với thuật tốn lọc cơng bố Cấu trúc báo sau: Phần 1: Giới thiệu; Phần 2: Phương pháp nghiên cứu; Phần 3: Kết bàn luận; Phần 4: Kết luận Phương pháp nghiên cứu 2.1 Khái niệm Bảng định cặp ( DS = U , C  d  ) U  tập hữu hạn đối tượng; C  tập hữu hạn thuộc tính điều kiện; d thuộc tính định Mỗi thuộc tính a  C xác định ánh xạ: a : U → Va với Va tập giá trị thuộc tính a  C Nếu Va chứa giá trị thiếu DS gọi bảng định không đầy đủ, biểu diễn IDS = (U , C  d ) với '*' Vd , giá trị thiếu biểu diễn ‘*’ Xét IDS = (U , C  d ) , với tập thuộc tính PC , ta định nghĩa quan hệ nhị phân U sau: http://jst.tnu.edu.vn 235 Email: jst@tnu.edu.vn TNU Journal of Science and Technology  226(11): 234 - 242  với a (u ) SIM ( P) = (u, v ) U U a  P, a (u ) = a (v )  a (u ) = '*'  a (v ) = '*' SIM ( P ) giá trị thuộc tính a đối tượng u gọi quan hệ dung sai (tolerance relation) U chúng có tính phản xạ, đối xứng khơng có tính bắc cầu Dễ thấy, (a) Với SIM ( P ) = aP SIM u U   SP (u ) = v U (u, v )  SIM ( P ) , gọi lớp dung sai đối tượng u SP ( u ) tập đối tượng không phân biệt với u quan hệ dung sai SIM ( P ) Định nghĩa: Cho IDS = (U , C  D ) với U = u1, u2 , , un P  C Khi đó, ma trận dung sai SIM ( P ) , ký hiệu M ( P ) =  pij  quan hệ  nn , định nghĩa:  p11  p M ( P) =  21    pn1 p12 p22 pn p1n   p2n    pnn  (1) Trong đó, pij  0,1 pij = u j  S P ( ui ) pij = u j  S P ( ui ) với i, j = n Với việc biểu diễn quan hệ dung sai SIM ( P ) ma trận dung sai M ( P ) , ta có   SP (ui ) = j=1 pij SP ( ui ) = u j U pij = n , M (Q) = qij  M ( P ) =  pij   nn nn hai ma trận dung sai tập thuộc tính S = P  Q là: với M (S ) = M ( P  Q) = sij   nn P, Q  C, u U , Với ta có S P Q ( u ) = S P ( u )  SQ ( u ) SIM ( P ) , SIM ( Q ) u iU , Giả sử , ma trận dung sai sij = pij qij 2.2 Phương pháp gia tăng rút gọn thuộc tính tập đối tượng, tập thuộc tính thay đổi giá trị Trong phần này, xây dựng cơng thức gia tăng tính khoảng cách đề xuất hai thuật tốn hiệu tìm tập rút gọn trường hợp tập đối tượng tập thuộc tính thay đổi giá trị 2.2.1 Thuật toán gia tăng lọc - đóng gói tìm tập rút gọn tập đối tượng thay đổi giá trị ( IDS = U , C  d  Mệnh đề 1[3] Cho ) với U = u1, u2 , , un  M (C ) = cij   nn , M (d) = dij nn tương ứng ma trận dung sai C d Khi đó, khoảng cách hai tập thuộc tính xác định sau: Mệnh đề Cho ( D C, C  d ( IDS = U , C  d   U = uk' , uk' +1, , uk' +1−s  Với M ( DU ' C , C  d  ) với ( ) ci,k , , ci, k +1− s và C  d  (2) với MU C ) U = u1, u2 , , un  U C = cij nn C {d}, phần tử Giả sử ( U = uk , uk +1, , uk + s −1 tượng gồm s phần tử ' ) n n =   cij − cij dij n2 i =1 j =1 Khơng tính tổng qt, giả sử tập đối  k  n, s  bị thay đổi giá trị thành (d) = dij nn tương ứng ma trận dung sai bị thay đổi giá trị thành ci' , k , , ci' , k +1− s ) khoảng cách sau cập nhật tập đối tượng U với ( i = k (k + s −1) DU C , C  d  ) công thức khoảng cách trước cập nhật Khi đó, cơng thức tính gia tăng khoảng cách sau: ( ) ( ) DU ' C, C  d  = DU C, C  d  + k + s −1 n   n2 i =k j =1 Từ mệnh đề 2, xây dựng mệnh đề sau: Mệnh đề Cho IDS = (U , C  d ) với U = u1 ,u2 , ,un  (c ' i, j )( − ci, j − di, j RC ) (3) tập rút gọn dựa khoảng cách Giả sử tập đối tượng gồm s phần tử U = uk ,uk +1 , ,uk +s−1 với  k  n, s  bị thay đổi giá trị thành U ' = u'k ,u'k +1 , ,u'k +1−s  U' tập đối tượng sau thay đổi giá trị Với MU ( C ) = cij  MU (d) = dij  nn nn http://jst.tnu.edu.vn 236 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 tương ứng ma trận dung sai C, giả sử phần tử ci,k , ,ci,k+1−s bị thay đổi giá trị thành c'i,k , ,c'i,k +1−s với i = k ( k + s − ) Khi ta có: Nếu dij = c' = cij với k  i  k + s − ,  j  n R tập rút gọn IDS' = (U ' ,C  d) ij Trong mục này, báo đề xuất thuật tốn gia tăng tìm tập rút gọn theo tiếp cận lọc - đóng gói Thuật tốn bao gồm hai giai đoạn: Giai đoạn lọc: Tìm ứng viên cho tập rút gọn Giai đoạn đóng gói: Tìm tập rút gọn có độ xác phân lớp lớn Thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn tập đối tượng thay đổi giá trị mơ tả sau: Thuật tốn FWIA_U_Obj (Filter-Wrapper Incremental Algorithm for Attribute Reduction in Incomplete Decision Tables when Update Objects) Đầu vào: Cho IDS = (U ,C  { d }) với U = u1 ,u2 , ,un  - Tập rút gọn R  C - Ma trận dung sai MU ( R ) , MU (C ) MU ({ d }) - Tập đối tượng gồm s phần tử U = uk ,uk +1 , ,uk +s−1 với  k  n, s  bị thay đổi giá trị thành ' U = u'k ,u'k +1 , ,u'k +1−s  U’ tập đối tượng sau thay đổi giá trị ( Đầu ra: Tìm tập rút gọn Rbest IDS' = U ' ,C  { d } ); Bước 1: Khởi tạo kiểm tra T :=  ; //T chứa ứng viên tập rút gọn Tính ma trận MU ( R ) , MU (C ) , MU ({ d }) If dij = or c' = cij for any k  i  k + s − ,  j  n then Return R; Bước 2: Tìm tập rút gọn Tính độ đo khoảng cách DU ( R,R  d) ,DU (C,C  d ) Tính độ đo khoảng cách DU ( R,R  d) ,DU (C,C  d) sử dụng công thức gia tăng mệnh đề 2; //Loại bỏ thuộc tính dư thừa R For each a  R If DU ( R − a ,( R − a)  d ) = DU (C,C  d ) then R := R − a ; ' ' ' ij ' ' ' ' //Giai đoạn lọc // Bổ sung thuộc tính cịn lại vào R Repeat For each r  C − R 10 Tính SIGR ( r ) ; 11 Chọn rm C − R cho SIGR ( rm ) = rmax SIGR ( r ) ; A− R 12 R := R  { rm } ; T := T  R ; 13 14 Until DU ( R,R  d) = DU (C,C  d ) // Giai đoạn đóng gói 15 Đặt t :=|T | ;// T = { R  { ri },R  { ri ,ri }, ,R  { ri ,ri , ,ri }} 16 Đặt T1 = { R  { ri },T2 = R  { ri ,ri }, ,Tt = R  { ri ,ri , ,ri }} ' ' 1 1 2 t t 17 For i = to t 18 Tính độ xác phân lớp Ti phân lớp sử dụng phương pháp kiểm tra chéo 10-fold; 19 Rbest = Ti với Ti có độ xác phân lớp cao 20 Return Rbest http://jst.tnu.edu.vn 237 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 2.2.2 Thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn tập thuộc tính thay đổi giá trị Phần xây dựng công thức gia tăng tính khoảng cách trường hợp tập thuộc tính thay đổi giá trị mệnh đề Mệnh đề Cho IDS = (U , C  d ) với U = u1 ,u2 , ,un  Giả sử tập s thuộc tính C = ck ,ck+1 , ,ck+s−1 với  k  n, s  bị thay đổi giá trị Giả sử sai tập thuộc tính C M old ( C ) =  cijold    nn , M new ( C ) = cijnew    nn trước sau thay đổi giá trị tương ứng ma trận dung M ( A ) =  aij  nn , M (d) = dij  nn tương ứng ma trận dung sai ma trận dung sai tập thuộc tính cịn lại khơng thay đổi giá trị A = C − C {d} Giả sử D ( C,C  d ) , D' ( C,C  d ) tương ứng khoảng cách trước sau tập thuộc tính C thay đổi giá trị Khi đó, cơng thức tính gia tăng khoảng cách sau: ( ) ( ) D' C,C  d  = D C,C  d  + n2 ( )   aij cijnew − cijold (1 − dij ) n n i =1 j =1 Thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn tập thuộc tính thay đổi giá trị mơ tả sau: Thuật tốn FWIA_U_Attr (Filter-Wrapper Incremental Algorithm for Attribute Reduction in Incomplete Decision Tables when Update Attributes) Đầu vào: 1) Cho IDS = (U , C  d ) với U = u1 ,u2 , ,un  , tập rút gọn R  C ma trận dung sai , khoảng cách D (C,C  d) ; 2) Tập thuộc tính C bị thay đổi giá trị, với C  C ; Đầu ra: Tập rút gọn R' IDS' = (U ,C  d) sau C bị thay đổi giá trị Bước 1: Khởi tạo T :=  ;// Chứa ứng viên tập rút gọn Đặt A := C − C ; Tính ma trận dung sai M ( A ) = aij  nn , M new ( C ) = cijnew  nn M old ( C ) = cijold  nn ; M ( C ) = cij  nn ,M ( d  ) = dij  nn Tính khoảng cách D' ( R,R  d) , D' (C,C  d) công thức gia tăng mệnh đề 4; // Loại bỏ thuộc tính dư thừa R; For each a  R If D' ( R − a ,( R − a)  d ) = D' (C,C  d ) then R := R − a ; Bước 2: Thực thuật tốn tìm tập rút gọn // Giai đoạn lọc, tìm ứng viên cho tập rút gọn xuất phát từ tập R While D' ( R,R  d)  D' (C,C  d) Begin For each a  C − R tính SIGR ( a ) = D' ( R,R  d) − D' ( R  a ,R  a  d ) Với D' ( R  a ,R  a  d) tính cơng thức gia tăng mệnh đề 4; 10 Chọn am C − R cho SIGR ( am ) = amax SIGR ( a ) ; C − R 11 R := R  am ; 12 T := T  R ; 13 End; // Giai đoạn đóng gói 14 Đặt t :=|T | ;// T = { R  { ri },R  { ri ,ri }, ,R  { ri ,ri , ,ri }} 15 Đặt T1 = { R  { ri },T2 = R  { ri ,ri }, ,Tt = R  { ri ,ri , ,ri }} 1 1 2 t t 16 For i = to t 17 Tính độ xác phân lớp Ti phân lớp sử dụng phương pháp kiểm tra chéo 10-fold; http://jst.tnu.edu.vn 238 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 18 Rbest = Ti với Ti có độ xác phân lớp cao 19 Return Rbest 0 Kết bàn luận Trong phần này, tiến hành thực nghiệm để đánh giá hiệu thuật toán FWIA_U_Obj 3.1 Mục tiêu thực nghiệm Đánh giá tính hiệu thuật tốn gia tăng lọc - đóng gói FWIA_U_Obj tìm tập rút gọn tập đối tượng thay đổi giá trị dựa tiêu chí: số lượng thuộc tính tập rút gọn, độ xác phân lớp thời gian thực Thuật toán FWIA_U_Obj so sánh với hai thuật toán FSMV [11] Object-R [12] FSMV thuật tốn gia tăng tìm tập rút gọn theo tiếp cận lọc trường hợp tập đối tượng thay đổi giá trị sử dụng miền dương Trong đó, Object-R thuật tốn gia tăng tìm tập rút gọn theo tiếp cận lọc trường hợp tập đối tượng thay đổi giá trị sử dụng độ đo không quán 3.2 Số liệu môi trường thực nghiệm Chúng tơi tiến hành cài đặt thuật tốn: FWIA_U_Obj, FSMV Object-R Sau chạy thuật tốn mơi trường thực nghiệm máy tính cá nhân PC: Bộ xử lý Intel, CoreTM i7-3770, 3,40 GHz, Windows sử dụng Matlab Dữ liệu thực nghiệm là: 06 liệu lấy kho liệu UCI ) Dữ liệu thực nghiệm mô tả bảng Mỗi tập liệu chia ngẫu nhiên thành hai phần xấp xỉ nhau: Tập liệu không thay đổi ký hiệu Oori tập liệu bị thay đổi ký hiệu Ochan Tiếp theo, tập liệu bị thay đổi Ochan chia thành năm phần ký hiệu O1, O2, O3, O4, O5 Với tập liệu Ochan , thực cập nhật ngẫu nhiên giá trị thuộc tính đối tượng bị thay đổi, bảo đảm nguyên tắc giá trị bị thay đổi thuộc miền giá trị thuộc tính ban đầu Trong bảng 1, cột |O|, |Oori|, |Ochan|, |A|, |k| ký hiệu tương ứng là: Số đối tượng; Số đối tượng Oori; Số đối tượng Ochan; Số thuộc tính điều kiện; Số lớp định Bảng Các liệu sử dụng thực nghiệm tập đối tượng thay đổi giá trị TT Tập liệu Audiolgy Soybean-laarge house-votes-84 Arrhythmia Anneal Ad |O| 226 307 435 452 798 3279 |Oori| 116 157 220 222 393 1644 |Ochan| 110 150 215 230 405 1635 |A| 69 35 16 279 38 1558 |k| 24 2 16 3.3 Kịch thực nghiệm Trước hết, chúng tơi thực thuật tốn IDT_FW_DAR [4] để tìm tập rút gọn tập đối tượng ban đầu, làm đầu vào cho thuật toán gia tăng Tiếp theo, thực cài đặt chạy 03 thuật toán FWIA_U_Obj, FSMV Object-R đưa vào tập đối tượng thay đổi giá trị O1, O2 O3, O4, O5 Sau đó, giá trị số lượng thuộc tính tập rút gọn, độ xác phân lớp thời gian thực ghi lại 3.4 Đánh giá thuật toán FWIA_U_Obj hai tiêu chí: số lượng thuộc tính tập rút gọn độ xác phân lớp Bảng trình bày kết số thuộc tính tập rút gọn độ xác phân lớp thuật tốn FWIA_U_Obj, FSMV Object-R Trong đó, cột |R| Acc số thuộc tính tập http://jst.tnu.edu.vn 239 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 rút gọn độ xác phân lớp Dựa kết bảng ta thấy rằng, độ xác phân lớp thuật tốn gia tăng lai ghép lọc - đóng gói FWIA_U_Obj cao chút so với FSMV Object-R tất tập liệu tất bước lặp đưa tập đối tượng thay đổi giá trị O1, O2 O3, O4, O5 Hơn nữa, số lượng thuộc tính tập rút gọn thu FWIA_U_Obj nhỏ nhiều so với FSMV Object-R, đặc biệt tập liệu có nhiều thuộc tính Ad.data Do đó, mơ hình phân lớp dựa tập rút gọn thuật toán FWIA_U_Obj hiệu mơ hình phân lớp thuật tốn FSMV thuật toán Object-R chất lượng phân lớp độ phức tạp mơ hình Có thể thấy rằng, thuật toán Object-R hiệu chút so với thuật tốn FSMV độ xác phân lớp số lượng thuộc tính tập rút gọn Bảng Số lượng thuộc tính tập rút gọn độ xác phân lớp ba thuật tốn FWIA_U_Obj, FSMV Object-R STT Tập liệu Audiology Soybean-large house-votes-84 Arrhythmia Anneal Ad Tập liệu thay đổi giá trị O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 FWIA_U_Obj |R| Acc 11 78,12 12 79,24 75,46 14 81,28 13 80,74 91,12 92,54 88,56 11 89,23 10 90,78 92,36 93,84 94,15 92,87 91,72 22 72,18 24 73,45 18 71,26 15 69,18 21 74,82 92,08 93,16 13 91,85 89,28 11 93,18 25 90,18 32 91,23 24 86,72 36 92,55 37 92,94 |R| 18 23 12 26 19 14 16 15 22 18 10 12 12 11 41 45 51 34 46 14 18 25 17 23 54 61 65 54 58 FSMV Acc 78,06 78,84 72,46 80,72 79,25 90,23 91,17 87,48 89,24 89,72 92,05 92,18 93,46 92,14 90,58 71,24 72,92 71,02 68,72 73,86 90,46 92,95 91,05 88,48 92,45 89,15 90,68 85,18 91,45 91,16 Object-R |R| Acc 17 77,92 22 78,16 13 73,45 24 80,27 18 79,92 13 90,46 16 91,17 15 87,48 21 90,15 19 90,26 91,84 11 92,82 12 93,46 11 92,14 10 91,05 38 71,69 42 72,28 46 70,89 31 68,06 43 74,15 13 91,15 18 92,54 24 91,24 17 88,95 22 92,84 52 89,82 55 90,23 59 86,04 51 91,11 53 91,84 3.5 Đánh giá thời gian thực thuật toán FWIA_U_Obj Thời gian thực thuật tốn FWIA_U_Obj, FSMV Object-R (tính theo giây) trình bày bảng Trên tất tập liệu bảng 3, thuật toán FWIA_U_Obj có thời gian thực cao thuật tốn FSMV thuật tốn Object-R thuật tốn FWIA_U_Obj cần nhiều thời gian để chạy phân lớp giai đoạn đóng gói Trong đó, thời gian thực thuật toán http://jst.tnu.edu.vn 240 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 Object-R cao chút thuật tốn FSMV thời gian tính độ khơng qn ObjectR cao thời gian tính miền dương FSMV Bảng Thời gian thực ba thuật tốn FWIA_U_Obj, FSMV Object-R (tính giây) STT Tập liệu Audiology Soybeanlarge house-votes84 Arrhythmia Anneal Ad Tập liệu thay đổi giá trị O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 O1 O2 O3 O4 O5 FWIA_U_Obj Tổng Thời Thời gian gian thực thực hiện 1,25 1,25 1,38 2,63 1,24 3,87 1,64 5,51 1,34 6,85 0,86 0,86 0,94 1,80 1,06 2,86 1,12 3,98 0,85 4,83 0,84 0,84 0,63 1,47 0,72 2,19 0,68 2,87 0,59 3,46 3,24 3,24 3,65 6,89 3,12 10,01 2,96 12,97 2,85 15,82 0,98 0,98 0,75 1,73 0,86 2,59 0,72 3,31 0,78 4,09 7,35 7,35 6,48 13,83 7,84 21,67 6,28 27,95 5,72 33,22 FSMV Tổng Thời Thời gian gian thực thực hiện 0,86 0,86 0,92 1,78 1,05 2,83 1,16 3,99 0,92 4,91 0,54 0,54 0,68 1,22 0,75 1,97 0,84 2,81 0,68 3,49 0,72 0,72 0,52 1,24 0,58 1,82 0,49 2,31 0,42 2,73 2,86 2,86 2,95 5,81 2,74 8,55 2,25 10,80 2,16 12,96 0,65 0,65 0,52 1,17 0,68 1,85 0,54 2,39 0,57 2,96 5,46 5,46 5,11 10,57 6,08 16,65 5,12 21,77 4,86 26,63 Object-R Tổng Thời Thời gian gian thực thực hiện 0,95 0,95 1,02 1,97 1,16 3,13 1,25 4,38 1,06 5,44 0,59 0,59 0,72 1,31 0,82 2,13 0,89 3,02 0,75 3,77 0,78 0,78 0,59 1,37 0,65 2,02 0,52 2,54 0,56 3,10 2,92 2,92 3,05 5,97 2,82 8,79 2,34 11,13 2,28 13,41 0,72 0,72 0,58 1,30 0,76 2,06 0,62 2,68 0,65 3,33 5,82 5,82 5,95 11,77 6,24 18,01 5,89 23,90 5,17 29,07 Kết luận Trong báo này, nghiên cứu đề xuất thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn bảng định không đầy đủ thay đổi, sử dụng độ đo khoảng cách tình tập đối tượng tập thuộc tính thay đổi giá trị Kết thực nghiệm cho thấy, thuật toán đề xuất theo tiếp cận lọc - đóng gói giảm thiểu số lượng thuộc tính tập rút gọn cải thiện độ xác mơ hình phân lớp so với thuật toán gia tăng khác theo tiếp cận lọc cơng bố Tuy nhiên, thuật tốn đề xuất có thời gian thực cao hơn, hạn chế cách tiếp cận Trong thời gian tới, tiếp tục nghiên cứu, cải tiến thuật tốn gia tăng lọc đóng gói cơng bố nhằm phù hợp với lớp toán khác thực tế, giảm thiểu thời gian thực giải pháp không chạy lặp lại phân lớp http://jst.tnu.edu.vn 241 Email: jst@tnu.edu.vn TNU Journal of Science and Technology 226(11): 234 - 242 TÀI LIỆU THAM KHẢO/ REFERENCES [1] Z Pawlak, “Rough sets,” International Journal of Computer and Information Sciences, vol 11, no 5, pp 341-356, 1982 [2] M Kryszkiewicz, “Rough set approach to incomplete information systems,” Information Science, vol 112, pp 39-49, 1998 [3] L G Nguyen and H S Nguyen, “Metric based attribute reduction in incomplete decision tables,” International Workshop on Rough Sets, Fuzzy Sets, Data Mining, and Granular-Soft Computing Springer, 2013, pp 99-110 [4] A T Nguyen and L G Nguyen, “About a Distance Measure and Application for Finding Reduct in Incomplete Decision Tables,” International Journal of Engineering and Advanced Technology (IJEAT), vol 9, no 1, pp 6294-6298, 2019 [5] D Liu, T Li, and J Zhang, “A rough set-based incremental approach for learning knowledge in dynamic incomplete information systems,” International Journal of Approximate Reasoning, vol 55, no 8, pp 1764-1786, 2014 [6] W H Shu and W B Qian, “An incremental approach to attribute reduction from dynamic incomplete decision systems in rough set theory,” Data and Knowledge Engineering, vol 100, pp 116-132, 2015 [7] J Yu, L Sang, and H Dong, “Based on attribute order for dynamic attribute reduction in the incomplete information system,” 2018 2nd IEEE Advanced Information Management, Communicates, Electronic and Automation Control Conference (IMCEC), IEEE, 2018, pp 2475-2478, doi: https://doi.org/10.1007/s13042-020-01089-4 [8] C Zhang, J Dai, and J Chen, “Knowledge granularity based incremental attribute reduction for incomplete decision systems”, International Journal of Machine Learning and Cybernetics, vol 11, pp 1141-1157, 2020 https://doi.org/10.1007/s13042-020-01089-4 [9] D Zhang, R Li, X Tang, and Y Zhao, “An incremental reduct algorithm based on generalized decision for incomplete decision tables,” 2008 3rd International Conference on Intelligent System and Knowledge Engineering, IEEE, vol 1, pp 340-344, 2008 [10] W H Shu and H Shen, “Updating attribute reduction in incomplete decision systems with the variation of attribute set,” International Journal of Approximate Reasoning, vol 55, no 3, pp 867884, 2014 [11] W H Shu and H Shen, “Incremental feature selection based on rough set in dynamic incomplete data,” Pattern Recognition, vol 47, pp 3890-3906, 2014 [12] X Xie and X Qin, “A novel incremental attribute reduction approach for dynamic incomplete decision systems,” International Journal of Approximate Reasoning, vol 93, pp 443-462, 2018 http://jst.tnu.edu.vn 242 Email: jst@tnu.edu.vn ... 242 2.2.2 Thuật toán gia tăng lọc - đóng gói tìm tập rút gọn tập thuộc tính thay đổi giá trị Phần xây dựng cơng thức gia tăng tính khoảng cách trường hợp tập thuộc tính thay đổi giá trị mệnh đề... hiệu tìm tập rút gọn trường hợp tập đối tượng tập thuộc tính thay đổi giá trị 2.2.1 Thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn tập đối tượng thay đổi giá trị ( IDS = U , C  d  Mệnh đề... Trong báo này, nghiên cứu đề xuất thuật tốn gia tăng lọc - đóng gói tìm tập rút gọn bảng định khơng đầy đủ thay đổi, sử dụng độ đo khoảng cách tình tập đối tượng tập thuộc tính thay đổi giá trị

Ngày đăng: 09/09/2021, 12:19

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w