“Phương pháp phân tích liệu ứng dụng phân tích thu nộp thuế doanh nghiệp phục vụ tra

78 14 0
“Phương pháp phân tích liệu ứng dụng phân tích thu nộp thuế doanh nghiệp phục vụ tra

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM VIỆN CÔNG NGHỆ THÔNG TIN BÁO CÁO THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU Tên đề tài: “Phương pháp phân tích liệu ứng dụng phân tích thu nộp thuế doanh nghiệp phục vụ tra” Mã số: VAST 01.08/16-17 Hướng KHCN ưu tiên: Công nghệ thơng tin, Điện tử, Tự động hóa Cơng nghệ vũ trụ (VAST01) Đơn vị chủ trì: Viện Cơng nghệ thông tin Chủ nhiệm đề tài: PGS.TS Nguyễn Long Giang Thời gian thực hiện: 24 tháng (01/2016 – 12/2017) Hà Nội, 2018 i MỤC LỤC MỤC LỤC .i DANH MỤC CÁC BẢNG iii DANH MỤC CÁC HÌNH iv MỞ ĐẦU Chương TỔNG QUAN VỀ THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU 3.1 Mở đầu 3.2 Khái quát liệu 3.2.1 Một số độ đo liệu 3.2.2 Hiển thị tóm tắt liệu 3.3 Các kỹ thuật tiền xử lý liệu 3.4 Làm liệu 3.4.1 Xử lý giá trị thiếu .9 3.4.2 Xử lý liệu nhiễu 10 3.4.3 Xử lý liệu bất thường 12 3.5 Tích hợp liệu 12 3.5.1 Nhận diện thực thể 13 3.5.2 Phân tích độ tương quan 13 3.5.3 Phát xung đột liệu .16 3.6 Chuyển đổi liệu 16 3.6.1 Các chiến lược chuyển đổi liệu 16 3.6.2 Rời rạc hóa liệu 17 3.6.3 Chuẩn hóa liệu 19 3.7 Rút gọn thuộc tính rút gọn liệu 20 3.7.1 Rút gọn thuộc tính 21 3.7.2 Rút gọn liệu 22 3.8 Kết luận chương 25 Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THÔ 26 2.1 Tổng quan rút gọn thuộc tính 26 2.1.1 Bài tốn rút gọn thuộc tính 27 ii 2.1.2 Đặc điểm chung thuật tốn rút gọn thuộc tính 29 2.2 Rút gọn thuộc tính bảng định đầy đủ theo tiếp cận tập thô 31 2.2.1 Một số khái niệm lý thuyết tập thô 31 2.2.2 Tổng quan rút gọn thuộc tính theo tiếp cận tập thơ 33 2.2.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách 36 2.3 Rút gọn thuộc tính bảng định khơng đầy đủ theo tiếp cận tập thô dung sai 43 2.3.1 Một số khái niệm tập thô dung sai 43 2.3.2 Tổng quan rút gọn thuộc tính theo tiếp cận tập thơ dung sai .45 2.3.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách phân hoạch .48 2.4 Kết luận 53 Chương RÚT GỌN THUỘC TÍNH THEO TIẾP CẬN TẬP THƠ MỜ 54 3.1 Mở đầu 54 3.2 Một số khái niệm 55 3.3 Phương pháp rút gọn thuộc tính sử dụng khoảng cách mờ 58 3.3.1 Khoảng cách mờ hai tập mờ 58 3.3.2 Khoảng cách mờ hai phân hoạch mờ tính chất 60 3.3.3 Rút gọn thuộc tính bảng định sử dụng khoảng cách mờ 61 3.4 Thử nghiệm đánh giá kết 66 3.5 Kết luận chương 68 KẾT LUẬN .69 CÁC CƠNG TRÌNH CƠNG BỐ CỦA ĐỀ TÀI .70 TÀI LIỆU THAM KHẢO 71 iii DANH MỤC CÁC BẢNG Bảng 1.1 Phương pháp làm mịn liệu Binning 11 Bảng 1.2 Dữ liệu điều tra sở thích đọc truyện 14 Bảng 1.3 Giá trị mức xác suất X2 15 Bảng 2.1 Các phương pháp rút gọn thuộc tính theo tiếp cận tập thô truyền thống 34 Bảng 2.2 Bảng định minh họa thuật toán DBAR 41 Bảng 2.3 Các phương pháp rút gọn thuộc tính bảng định khơng đầy đủ 46 Bảng 2.4 Bảng định không đầy đủ xe 51 Bảng 3.1 Bảng định miền giá trị thực 65 Bảng 3.2 Bộ liệu thử nghiệm 66 Bảng 3.3 Kết thử nghiệm 03 thuật toán FA_FSCE, FA_FPR, FA_DBAR 67 iv DANH MỤC CÁC HÌNH Hình 1.1 Vị trí giá trị mean, median mode Hình 1.2 Đồ thị quantile plot cho thuộc tính giá (price) Hình 1.3 Đồ thị scatter plot cho thuộc tính giá Hình 1.4 Các kỹ thuật tiền xử lý liệu Hình 1.5 Dữ liệu năm tổng hợp từ liệu quý 23 Hình 1.6 Các nhóm sau chia theo biểu đồ tần suất 24 Hình 2.1 Quy trình lựa chọn thuộc tính 28 Hình 2.2 Các cách tiếp cận filter wrapper 28 Hình 2.3 Mối liên hệ tập rút gọn bảng định đầy đủ 36 Hình 3.1 Độ xác phân lớp C4.5 FA_FSCE, FA_FPR F_DBAR 68 MỞ ĐẦU Khai phá liệu phát tri thức (Data Mining and Knowledge Discovery) hướng nghiên cứu quan trọng khoa học máy tính có nhiều ứng dụng thực tiễn Đây mảng nghiên cứu liên quan đến nhiều chuyên ngành khác khoa học máy tính sở liệu, học máy, trí tuệ nhân tạo…nhằm trích lọc tri thức tiền ẩn liệu phục vụ công tác dự báo, định… Thu thập tiền xử lý liệu bước quan trọng trình khai phá liệu với mục tiêu chuẩn hóa, loại bỏ dư thừa liệu nhằm tăng tính hiệu thuật toán khai phá liệu Trong bối cảnh nay, với phát triển công nghệ thông tin truyền thông tăng trưởng kho liệu kích thước độ phức tạp, tính dư thừa nhiễu Khi đó, thuật tốn khai phá liệu gặp nhiều khó khăn Do đó, việc nghiên cứu phương pháp tiền xử lý liệu nhằm chuẩn hóa loại bỏ dư thừa liệu nhằm tăng tính hiệu thuật toán khai phá liệu kho liệu lớn, đa dạng, phức tạp vấn đề cấp thiết thu hút quan tâm nhà nghiên cứu giới Việt Nam Báo cáo thu thập tiền xử lý liệu trình bày tổng quan bước thu thập tiền xử lý liệu như: khái quát (hiểu) liệu, biểu diễn phân bố liệu, làm liệu, tích hợp liệu, chuyển đổi rời rạc hóa liệu, rút gọn liệu, rút gọn thuộc tính Trên sở đó, báo cáo trình bày chi tiết kết nghiên cứu nhóm thực đề tài rút gọn thuộc tính, bước quan trọng tiền xử lý liệu, nhằm giảm thiểu số chiều liệu tăng tính hiệu thuật tốn khai phá liệu, đặc biệt thuật toán khai phá liệu liệu nhiều chiều (high dimention data), số thuộc tính lên tới hàng chục nghìn đến hàng trăm nghìn thuộc tính, ví dụ liệu lĩnh vực tin sinh học… Các kết nghiên cứu nhóm tác giả rút gọn thuộc tính tập trung vào hai nội dung: 1) Rút gọn thuộc tính bảng định theo tiếp cận tập thô, tập thô dung sai Phần tổng hợp lại kết nghiên cứu công bố nhóm thực đề tài năm trước 2) Rút gọn thuộc tính bảng định theo tiếp cận tập thô mờ Với kết nghiên cứu này, nhóm thực đề tài cơng bố 01 báo Chuyên san CNTT-TT, 01 báo tạp chí SCOPUS (CIT Journal) Viện Hàn lâm Khoa học Bulrari, 01 báo Kỷ yếu Hội thảo FAIR Chương TỔNG QUAN VỀ THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU 3.1 Mở đầu Trong thực tế, liệu thu thập thường bị nhiễu, không đầy đủ, không quán Dữ liệu không đầy đủ có nhiều lý khách quan lỗi thiết bị thu nhận, truyền dẫn lý chủ quan lỗi nhập liệu Dữ liệu không quán phát sinh từ việc khơng sử dụng chung chuẩn quy ước nhập liệu, định dạng liệu khác Vì vậy, tiền xử lý liệu bước trình khai phá liệu nhằm nâng cao hiệu thuật toán khai phá liệu Trong chương trình bày kỹ thuật tiền xử lý liệu, bao gồm: làm liệu, tích hợp liệu, chuyển đổi liệu rút gọn liệu, rút gọn thuộc tính Các kết trình bày chương tham khảo tài liệu [7, 8, 9] 3.2 Khái quát liệu Để khai phá liệu thành công, trước thực phương pháp khai phá ta cần phải có nhìn khái quát liệu, sở ta phát đặc tính liệu Từ đó, ta tìm phương pháp tiền xử lý khai phá liệu phù hợp với tập liệu ta xét Một tính chất liệu ta cần quan tâm xu hướng tập trung phân tán liệu Độ tập trung liệu đo độ đo: trung bình (mean), trung vị (median), mode midrange Độ phân tán liệu đo thơng qua độ đo quartile, interquartile range variance Những độ đo gọi thơng tin tóm tắt liệu 3.2.1 Một số độ đo liệu 3.2.1.1 Độ đo trung bình Đây độ đo phổ biến nhất, đại diện cho trọng tâm liệu Gọi x1, x2 , , xN N phần tử liệu cho thuộc tính đó, giá trị trung bình tập liệu là: N x x i 1 N i  x1  x2   xN N Trong số trường hợp phần tử liệu có trọng số cơng thức tương ứng cho giá trị trung bình sau: wi khác nhau, ta có N x w x i 1 N i i w i 1  w1 x1  w1 x2   wN x N w1  w2   wN i Khi liệu có nhiều giá trị bất thường, chẳng hạn có vài phần tử có giá trị cao vượt lên giá trị trung bình bị ảnh hưỏng Để khắc phục điều này, giải pháp đơn giản sử dụng độ đo trung bình có cắt xén (trimmed mean) Cụ thể ta xếp liệu theo chiều tăng, sau loại bỏ số giá trị cao thấp (ví dụ loại bỏ 2%) Giá trị lại dùng để tính giá trị trung bình 3.2.1.2 Độ đo trung vị Khi liệu có phân bố lệch độ đo trung bình khơng phù hợp, ta sử dụng độ đo trung vị Giả sử ta có N giá trị khác xếp theo thứ tự tăng dần, trung vị tập liệu phần tử (nếu N lẻ), trung bình phần tử (nếu N chẵn) Trong trường hợp tổng qt cách tính khơng nữa, ta tính xấp xỉ trung vị sau Ta nhóm liệu vào nhóm tương ứng với khoảng liệu Ví dụ ta nhóm trường giá (price) ỏ vào khoảng 10000 - 20000, 20000-30000, Gọi freqmedian số lượng (tần suất) phần tử liệu nằm nhóm chứa trung vị tính theo cơng thức ỏ trên; L1 cận giá trị liệu; width độ lớn nhóm chứa trung vị; (freq)l tổng số phần tử liệu nhóm có giá trị nhỏ nhóm chưa trung vị; N tổng số lượng phần tử liệu, cơng thức tính trung vị cho tập liệu là:  N /    freq  l  median  L1    width   freqmedian   3.2.1.3 Mode Mode đo độ tập trung liệu Trong trường hợp tổng quát, tồn nhiều tập liệu xuất với tần suất cao nhất, ta nói liệu multimodal Trường hợp liệu có 1, hay tên tương ứng với unimodal, bimodal, trimodal Nếu tập liệu có phần tử liệu có giá trị hoàn toàn khác (tần suất xuất phần tử liệu 1) khơng tồn mode Trong trường hợp liệu có mode, ta có cơng thức tính đơn giản sau: mean-mode=3(mean-median) Nếu liệu có phân bối đối xứng giá trị mean, median mode trùng nhau, trường hợp liệu có phân bố khơng đơi xứng chúng có giá trị khác minh họa hình 3.1 Hình 1.1 Vị trí giá trị mean, median mode 3.2.1.4 Midrange Độ đo dùng để đánh giá độ tập trung liệu, giá trị trung bình giá trị lớn (hàm max() SQL) thấp (hàm min() SQL) tập liệu 3.2.1.5 Độ đo phân tán liệu Gọi x1, x2 , , xN N tập quan sát cho thuộc tính xếp theo thứ tự tăng dần Miền giá trị (range) tập liệu [Min, Max], Min giá trị nhỏ nhất, Max giá trị lớn Phần tử thứ k% phần tử xi cho xi có giá trị lớn phần tử nằm phần k% tính từ đầu dãy Như trung vị (median) phần phần tử 50% Phần tử hay dùng trung vị phần phần tứ (quartile), phần tứ thứ ký hiệu Q1 phần tử 25%, phần tứ thứ (Q2) phần tử 50%, phần tứ thứ (Q3) phần tử 75% Các giá trị thể trung tâm, độ bao phủ hình dạng phân bơ liệu Khoảng cách từ phần tứ thứ đến phần tứ thứ độ đo đơn giản thể bao phủ liệu, hay miền giá trị phần nửa liệu Khoảng cách gọi interquartile range (IQR): IQR = Q3 - Q1 Giá trị hữu ích để phân tích liệu có phân bố lệch Ngồi dùng để phát phần tử ngoại lai, phần tử ngoại lai phần tử có giá trị nhỏ 1.5xIQR giá trị phần tứ thứ nhất, lớn 1.5xIQR giá trị phần tứ thứ Vì phần tứ thứ chưa chứa thơng tin liệu nằm ỏ cuôi dãy nên 59 B  xi    A  xi    B  xi  , C  xi      A  xi  , C  xi   U U U U i 1 i 1 i 1 i 1  B  xi     A  xi     B  xi  , C  xi       A  xi  , C  xi   B  A  B C  AC  B  B C  A  AC 2) Vì A  B , với xi U ta có B  xi    A  xi    B  xi  , C  xi      A  xi  , C  xi   C  xi     A  xi  , C  xi   C  xi    B  xi  , C  xi   U U U U i 1 i 1 i 1 i 1   C  xi      A  xi  , C  xi     C  xi     B  xi  , C  xi    C  CA  C  CB 3) Từ A  C  A , áp dụng tính chất 1) ta có A  A  B  A  C  A  C  B (*) Mặt khác, từ A  B  A , áp dụng tính chất 2) ta có C  C  A  B  C  C  A (**) Từ (*) (**) ta có: A  A B  C  C  A  AC  AC  B  C  C  A  C  A B C  C  C  A Mệnh đề 3.1 Cho hai tập mờ A, B tập đối tượng U Khi   d A, B  A  B  A  B độ đo khoảng cách A B Chứng minh Rõ ràng A  A  B      B  A  B nên d A, B  Hơn nữa,  d A, B  d B, A Tiếp theo, ta cần chứng minh bất đẳng thức tam giác Không       tính chất tổng quát ta chứng minh d A, B  d A, C  d B, C Theo Bổ đề 3.2 (phần 3) ta có: A  A  B  C  C  A  C  C  B (***) A  A  C  B  B  A  B  B  C (****) Cộng (***) với (****), vế với vế ta được:  A  B  A  B    A  C  A  C   B  C  B  C , hay d  A, B  d  A, C   d  B, C    Từ đó, d A, B khoảng cách hai tập mờ A B , gọi khoảng cách mờ Dựa khoảng cách mờ này, mục xây dựng khoảng cách hai phân hoạch mờ 60 3.3.2 Khoảng cách mờ hai phân hoạch mờ tính chất   Mệnh đề 3.2 Xét bảng định DS  U , C  D  với U  x1, x2 , , xn   R P ,    RQ hai phân hoạch mờ sinh hai quan hệ tương đương mờ R P , R Q P, Q  C Khi đó:      D  R P ,  RQ  n   xi R P   xi RQ   xi R P   xi RQ   n i 1  n          (3.1) khoảng cách mờ  R P  RQ Chứng Rõ minh       D  R P ,  RQ ràng       D   R  ,  R  Ta cần chứng minh bất đẳng thức tam giác D  R P ,  RQ Q P       ta chứng minh D   R  ,   R   D   R  ,   R   D   R  ,   R  Từ Mệnh đề 3.1, với x U ta có: d  x  ,  x    d  x  ,  x    d  x  ,  x   Từ đó: D   R  ,   R   D   R  ,   R  Khơng tính chất tổng quát, với  R P ,  RQ ,  R S  P Q i P i RP P S i RQ Q i RP Q P i RS   i RQ i RS S  n   xi R P   xi RQ   xi R P   xi RQ   n i 1  n   S    n  x    xi R S   xi R P   xi R S    i RP   n i 1  n     n d  xi R P ,  xi RQ n d  xi R P ,  xi RS n d  xi RQ ,  xi RS      D  RQ ,  R S  n i 1 n n i 1 n n i 1 n           đạt giá trị nhỏ D   R  ,   R  đạt giá trị lớn Dễ thấy rằng, D  R P ,  RQ       R        R      (hoặc   R        R      Do  D   R  ,   R   Mệnh đề 3.3 Cho   R   phân hoạch mờ , ta D   R  ,     D   R  ,     R P   RQ P P Q P P Q khi đó, Q P P Q P     có: 61 Chứng minh Giả    R P   x1 R ,  x2 R , ,  xn R sử P           D   R  ,     D   R  ,    D  R P ,   n   xi RP , D  R P , K  n i 1 P  P  P n  n  x i RP n i 1   Từ ta có Khi P       0.1 , Ví dụ 3.2 Tiếp tục Ví dụ 3.1, theo Mệnh đề 3.2 ta có D  R P ,  RQ       0.125 , D   R  ,  R   0.225 Do đó: D   R  ,   R   D   R  ,   R   D   R  ,   R  D   R  ,   R   D   R  ,   R   D   R  ,   R  D   R  ,   R   D   R  ,   R   D   R  ,   R  D  RQ ,  R S P P Q P Q Q S Q P P S S P S S S Q S P Q 3.3.3 Rút gọn thuộc tính bảng định sử dụng khoảng cách mờ Trong mục này, chúng tơi trình bày phương pháp rút gọn thuộc tính trực tiếp bảng định miền giá trị thực sử dụng khoảng cách mờ định nghĩa hai phân hoạch mờ trình bày mục 3.3.2 Cho bảng định miền giá trị thực DS  U , C  D  với U  x1, x2 , , xn  Trên tập thuộc tính điều kiện chúng tơi sử dụng quan hệ tương đương mờ xác định miền giá trị thuộc tính Với p  C , quan hệ tương đương mờ R p thường   sử dụng với ma trận quan hệ M R p   pij nn xác định sau [10]:  p  xi   p  x j  1  * , pij   pmax  pmin  0, otherwise p  xi   p  x j  pmax  pmin  0.25 với p  xi  giá trị thuộc tính p đối tượng xi , pmax , pmin (3.2) tương ứng giá trị lớn nhất, nhỏ thuộc tính p Trên tập thuộc tính định sử dụng quan hệ tương đương IND  D  với ma trận tương đương M  IND  D    d ij  nn , d ij  x j   xi D d ij  x j   xi D Nói cách khác, lớp tương đương  xi D xem lớp đương đương mờ, ký hiệu  xi D , với hàm thuộc  x   x j   x j   xi D i D 62  x   x j   i D   x j   xi D Khi đó, ký hiệu phân hoạch mờ  D   xi D i 1   x1 D , ,  xn D  n Dựa quan hệ xác định, xây dựng khoảng cách mờ tập thuộc tính điều kiện tập thuộc tính định Như trình bày mục 3.3.2,   tập thuộc tính P  C xác định phân hoạch mờ  R P Do đó, để đơn giản chúng tơi sử dụng khái niệm khoảng cách mờ hai tập thuộc tính thay cho khái niệm khoảng cách mờ hai phân hoạch mờ Định nghĩa 3.1 sau Định nghĩa 3.1 Cho bảng định miền giá trị thực DS  U , C  D  với      R P ,  RQ hai phân hoạch mờ sinh hai quan hệ tương đương mờ R P , R Q P, Q  C Khi đó, khoảng cách mờ hai tập thuộc tính P Q , ký hiệu   F  P, Q  , định nghĩa khoảng cách mờ hai phân hoạch mờ  R P         RQ , nghĩa F  P, Q   D  R P ,  RQ Mệnh đề 3.4 Cho bảng định miền giá trị thực DS  U , C  D  với U  x1, x2 , , xn  R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện, khoảng cách mờ hai tập thuộc tính C C  D xác định sau: F  C,C D   n   xi RC   xi RC   xi D  n i 1  n      (3.3) Chứng minh Từ Định nghĩa 3.1 Mệnh đề 3.2 ta có:     F  C,C D   D  RC ,  RC D   n   xi RC   xi RC  D   xi RC   xi RC  D  n i 1  n      n   xi RC   xi RC   xi R D   xi RC   xi R D  n   xi RC   xi RC   xi R D       n i 1  n  n i 1  n      n   xi RC   xi RC   xi D     n i 1  n    Dễ thấy  F  C , C  D    F C, C  D    RC  D n F  C , C  D     RC     xi D  xi  với  i  n n          63 Mệnh đề 3.5 Cho bảng định miền giá trị thực DS  U , C  D  với U  x1, x2 , , xn  , B  C R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Khi F  B, B  D   F C, C  D      R  , nghĩa  x  Chứng minh: Từ B  C , theo [25] ta có  RC B i RC   xi R B với  i  n , suy  xi RC   xi R B với  i  n Xét đối tượng xi U ta có: j 1  xi R RB  x     n n   xi R B   xi D    xi  B j 1  RC  x j     xi  n  xi RC   xi RC   xi D    xi  j 1 RC n j j 1 xi R B  x  ,    x  j xi j D  x  ,    x  j xi j D (1) Với x j   xi D ta có  x   x j   , i D  xi R C   xi RC   xi D    xi RB   xi RB   xi D (2) Với x j   xi D ta có  x   x j   ,  xi R   xi R   xi D   xi R   xi R  C i D  xi R B C C B   xi RB   xi D Từ (1), (2) ta có:  xi R  B   xi R B   xi D   xi RC   xi RC   xi D n   xi R B   xi R B   xi D  n i 1  n   n   xi    xi    xi  RC RC D     n i 1  n        F  B, B  D   F C, C  D  Dễ thấy dấu đẳng thức F  B, B  D   F C, C  D  xảy  xi R B   xi RC với xi U Tiếp theo, chúng tơi trình bày phương pháp rút gọn thuộc tính sử dụng khoảng cách mờ Mệnh đề 3.4, bao gồm bước: định nghĩa tập rút gọn, độ quan trọng thuộc tính dựa khoảng cách mờ xây dựng thuật tốn heuristic tìm tập rút gọn dựa độ quan trọng thuộc tính Định nghĩa 3.2 Cho bảng định miền giá trị thực DS  U , C  D  với B  C R quan hệ tương đương mờ xác định miền giá trị tập thuộc tính điều kiện Nếu 1) F  B, B  D   F C, C  D  2) b  B, F (B  b,B  b  D))  F (C, C  D) 64 B tập rút gọn C dựa khoảng cách mờ Định nghĩa 3.3 Cho bảng định miền giá trị thực DS  U ,C  D  với B  C b  C  B Độ quan trọng thuộc tính b B định nghĩa SIGB  b   F  B, B  D   F  B  b, B  b  D  Từ Mệnh đề 3.5 ta có SIGB  b   Độ quan trọng SIGB  b  đặc trưng cho chất lượng phân lớp thuộc tính b vào thuộc tính định D sử dụng làm tiêu chuẩn lựa chọn thuộc tính cho thuật tốn heuristic tìm tập rút gọn sau Thuật tốn FDBAR (Fuzzy Distance based Attribute Reduction): Thuật tốn heuristic tìm tập rút gọn sử dụng khoảng cách mờ Đầu vào: Bảng định miền giá trị thực DS  U , C  D  , quan hệ tương đương mờ R Đầu ra: Một tập rút gọn B B   ; M ( R B )  1nn Tính ma trận tương đương mờ M ( RC ) , ma trận tương đương M ( IND  D ) , khoảng cách mờ F  C, C  D  ; // Thêm dần vào B thuộc tính có độ quan trọng lớn While F  B, B  D   F C, C  D  Begin For each a  C  B tính SIGB  a   F  B, B  D   F  B  a, B  a  D  Chọn am  C  B cho SIGB  am   Max SIGB  a  ; B  B  am ; aC  B End; //Loại bỏ thuộc tính dư thừa B có For each a  P 10 Begin        11 Tính d F K ( P  a ), K ( P  a  D) ; 12 If d F K ( P  a ), K ( P  a  D  d F K (C , C  D) then P  P  a ; 13 End; Return P ;    65 Ví dụ 3.3 Xét bảng định miền giá trị thực DS  U , C  d  cho Bảng 3.1 với U  u1 , u2 , u3 , u4  , C  c1 , c2 , c3 , c4  , D  {d} , quan hệ tương đương mờ R cho công thức (3.2) Bảng 3.1 Bảng định miền giá trị thực c1 c2 c3 c4 d u1 2.5045 5.4072 1.4741 5.9308 u2 1.9559 4.0554 7.6407 9.4846 u3 4.3517 9.5647 3.4221 4.7597 u4 2.7831 9.2830 4.8055 9.8475 Áp dụng bước thuật tốn FDBAR tìm tập rút gọn ta có: Khởi tạo B   ; M ( R B )  1nn ; F  ,   {d }  ; tính ma trận tương đương mờ M ( cR1 ) , M c2( R )M M) trận , R ( tương ) đương ma c4 , R ,( C )M , c3 R( M ( IND d ) : 0.0841 0.5349   0.0185 0    0.0841   0 0   , M ( R c )  0.0185 M ( R c1 )      0 0.7955     0  0.7955  0.5349  1 0 M ( R c3 )   0  0 0  0   0.1026  0.1026  1 0 M ( RC )   0  0 0 Từ 0 ta , 0 1  0  , M ( IND d )   0 0   1 0 có: 0.0793    0.7147  M ( R c4 )  0.0793    0.7147   0 1 F  C, C  d   , 0 1  1  1 1 , F c1,c1  {d })   0.0774 , F c2 ,c2   d   0.0023 , F c3,c3  {d })   , F c4 ,c4   {d }  0.0099 ; SIGB  c1   0.0774 , SIGB  c2   0.0023 , SIGB  c3   , SIGB  c4   0.0099 Thuộc tính c3  chọn; kiểm tra F C, C  {d })   F c3,c3  {d })   , thuật tốn dừng B  c3 tập rút gọn tìm thuật toán 66 3.4 Thử nghiệm đánh giá kết Chúng chọn liệu mẫu từ lấy từ kho liệu UCI [27] có miền giá trị thực cho Bảng 3.2 để tiến hành thử nghiệm Mơi trường thử nghiệm máy tính PC với cấu hình Pentium dual core 2.13 GHz CPU, 1GB nhớ RAM, sử dụng hệ điều hành Windows Bảng 3.2 Bộ liệu thử nghiệm STT Bộ liệu Ecoli Ionosphere Wdbc (Breast Cancer Wisconsin) Wpbc (Breast Cancer Wisconsin) Wine Glass Sonar (Connectionist Bench) Heart Số thuộc tính điều kiện 34 30 32 13 60 13 Số đối tượng 336 351 569 198 178 214 208 270 Chúng chọn thuật tốn FA_FPR (tìm tập rút gọn dựa miền dương mờ) thuật tốn FA_FSCE (tìm tập rút gọn dựa entropy mờ) cơng trình [25] để so sánh với thuật toán đề xuất F_DBAR độ xác phân lớp sau rút gọn thuộc tính Thuật toán FA_FPR cải tiến thuật toán FAR-VPFRS [18] thời gian thực hiện, thuật tốn FA_FSCE cải tiến thuật toán FSCE [17] thời gian thực Theo hướng tiếp cận tập thơ mờ, độ xác phân lớp sau thực thuật toán FAR-VPFRS [18], FSCE [17] cao so với hướng tiếp cận tập thô truyền thống sau rời rạc hóa liệu Tuy nhiên, cơng trình [25] tác giả chưa đánh giá độ xác phân lớp thuật toán cải tiến FA_FPR FA_FSCE Để tiến hành thử nghiệm, thực công việc sau: 1) Cài đặt thuật tốn FA_FPR, FA_FSCE F_DBAR ngơn ngữ Java, thuật toán sử dụng quan hệ tương đương mờ công thức (7) 2) Thực 03 thuật tốn liệu mẫu với mơi trường thử nghiệm chọn 3) Sử dụng thuật toán C4.5 WEKA [28] để đánh giá độ xác phân lớp 03 thuật toán cách chọn 2/3 đối tượng để làm tập 67 huấn luyện (training set), 1/3 đối tượng lại làm tập kiểm tra (testing set) Bảng kết thử nghiệm số liệu chọn với U số đối tượng, C số thuộc tính điều kiện, R số thuộc tính tập rút gọn với thuật toán Bảng 3.3 Kết thử nghiệm 03 thuật toán FA_FSCE, FA_FPR, FA_DBAR Thuật toán FA_ FSCE R Độ S C U T Bộ số liệu xác T phân lớp C4.5 (%) Ecoli 336 81.50 Ionosphere 351 34 11 88.72 Wdbc 569 30 16 95.2 Wpbc 198 32 16 65.32 Wine 178 13 88.72 Glass 214 80.15 Sonar 208 60 75.40 Heart 270 13 74.62 Độ xác phân lớp trung 81.2 bình C4.5 Thuật tốn FA_FPR Độ R xác phân lớp C4.5 (%) 82.45 13 91.52 17 90.46 17 73.60 91.57 81.56 12 70.60 76.95 82.33 Thuật tốn F_DBAR Độ R xác phân lớp C4.5 (%) 15 19 18 10 13 10 82.45 94.25 92.84 74.60 89.25 81.56 76.25 78.65 83.73 68 Hình 3.1 Độ xác phân lớp C4.5 FA_FSCE, FA_FPR F_DBAR Kết thử nghiệm Bảng 3.3 Hình 3.1 cho thấy, liệu thử nghiệm, độ xác phân lớp trung bình F_DBAR (sử dụng khoảng cách mờ) lớn nhất, đến FA_FPR (sử dụng miền dương mờ) thấp FA_FSCE (sử dụngh entropy mờ) Trên liệu cụ thể, độ xác phân lớp 03 thuật toán khác nhau, nhiên thuật tốn F_DBAR có độ xác phân lớp tốt 03 thuật toán 3.5 Kết luận chương Các phương pháp rút gọn thuộc tính bảng định theo tiếp cận mơ hình tập thơ truyền thống tập thơ dung sai trình bày Chương thực bảng định sau thực phương pháp rời rạc hóa liệu Tuy nhiên, phương pháp rời rạc hóa liệu khơng bảo toàn khác hay khả phân biệt liệu gốc, chúng làm giảm độ xác phân lớp liệu Trong chương 3, chúng tơi trình bày phương pháp rút gọn thuộc tinh trực tiếp liệu gốc (có miền giá trị liên tục) sử dụng độ đo khoảng cách mờ theo tiếp cận tập thô mờ Thực nghiệm chứng minh phương pháp sử dụng khoảng cách mờ có độ xác phân lớp cao số phương pháp khác sử dụng entropy mờ phương pháp theo tiếp cận lý thuyết tập thô truyền thống 69 KẾT LUẬN Thu thập tiền xử lý liệu bước trình khai phá liệu khám phá tri thức với mục tiêu chuẩn hóa, loại bỏ dư thừa liệu Trong bối cảnh nay, kho liệu ngày lớn, ngày đa dạng, phức tạp, việc nghiên cứu phương pháp tiền xử lý liệu đóng vai trò định cho thành công áp dụng phương pháp, kỹ thuật khai phá liệu vào toán thực tế Báo cáo nghiên cứu phương pháp thu thập tiền xử lý liệu trình bày tổng quan phương pháp thu thập, tiền xử lý liệu hiểu liệu, biểu diễn phân bố liệu, làm liệu, tích hợp liệu, chuyển đổi rời rạc hóa liệu, rút gọn liệu, rút gọn thuộc tính Trên sở đó, báo cáo trình bày chi tiết số kết nghiên cứu nhóm thực đề tài việc giải tốn rút gọn thuộc tính theo tiếp cận tập thô, tập thô dung sai tập thơ mờ, tốn quan trọng bước tiền xử lý liệu Các kết nghiên cứu nhóm thực đề tài rút gọn thuộc tính có ý nghĩa khoa học thực tiễn Ý nghĩa khoa học báo cáo tổng quan chi tiết lĩnh vực nghiên cứu tiền xử lý liệu rút gọn thuộc tính, tài liệu tham khảo hữu ích cho học viên cao học, nghiên cứu sinh khai phá liệu học máy Ý nghĩa thực tiễn phương pháp rút gọn thuộc tính áp dụng để giải toán thực tế, đặc biệt sở liệu lớn, nhiều chiều (high dimention data) 70 CÁC CƠNG TRÌNH CƠNG BỐ CỦA ĐỀ TÀI [1] [2] [3] C.C Nghia, J Demetrovics, N.L Giang, V.D Thi, ABOUT A FUZZY DISTANCE BETWEEN TWO FUZZY PARTITIONS AND APPLICATION IN ATTRIBUTE REDUCTION PROBLEM (2016), Cybernetics and Information Technologies (CIT), SCOPUS, Sofia, Bulgarian Academy of Sciences, Vol 16, No 4, pp 13-28 Nguyen Van Thien, Janos Demetrovics, Vu Duc Thi, Nguyen Long Giang, Nguyen Nhu Son (2016), A Method to Construct an Extension of Fuzzy Information Granularity Based on Fuzzy Distance, Serdica Journal of Computing 10, Bulgarian Academy of Sciences, Institute of Mathematics and Informatics, pp 13-30 Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh, “Fuzzy distance based attribute reduction in decision tables”, Chun san Các cơng [4] trình nghiên cứu, phát triển ứng dụng CNTT&TT, Tạp chí thơng tin khoa học công nghệ Bộ thông tin Truyền thông, Tập V-2, số 16 (36), 122016, Tr 104-111 Nguyễn Long Giang, Nguyễn Văn Thiện, Cao Chính Nghĩa (2016), Về phương pháp rút gọn thuộc tính trực tiếp bảng định sử dụng khoảng cách mờ, Kỷ yếu Hội nghị Khoa học Công nghệ Quốc gia lần thứ IX - Nghiên cứu ứng dụng CNTT – FAIR9, Cần Thơ, 04-05/08/2016, Tr 825-835 71 TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt [1] Nguyễn Long Giang, “Khai phá liệu theo tiếp cận lý thuyết tập thô”, Luận án Tiến sĩ Tốn học, Viện Cơng Nghệ Thơng Tin, 2012 [2] Nguyễn Long Giang, Phạm Hoàng Tuyên, Nghiên cứu thay đổi giá trị độ đo đánh giá hiệu tập luật định tập rút gọn, Kỷ yếu Hội thảo Quốc gia lần thứ XV “Một số vấn đề chọn lọc Công nghệ thông tin truyền thông”, Hà Nội 11/2012, 2013, Tr 295-301 [3] Vũ Văn Định, Vũ Đức Thi, Nguyễn Long Giang, “Phương pháp rút gọn thuộc tính bảng định khơng đầy đủ sử dụng khoảng cách phân hoạch”, Chuyên san cơng trình nghiên cứu, phát triển ứng dụng CNTT-TT, Tạp chí thơng tinm khoa học cơng nghệ thông tin &Truyền thông Kỳ 3, Tập V-2, số 14(34), 2015 Tài liệu tiếng Anh [4] Deza M M and Deza E., “Encyclopedia of Distances”, Springer, 2009 [5] D Dübois, H Prade, Rough fuzzy sets and fuzzy rough sets, International Journal of General Systems, 17 (1990) 191-209 [6] E.C.C Tsang, D.G Chen, D.S Yeung, X.Z Wang, J.W.T Lee, Attributes reduction using fuzzy rough sets, IEEETrans Fuzzy Syst 16 (2008) 1130– 1141 [7] Fayyad, Piatetsky-Shapiro, Smyth (1996) From Data Mining to Knowledge Discovery: An Overview In Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy, Advances in Knowledge Discovery and Data Mining, AAAI Press/ The MIT Press, Menlo Park, CA, 1996, 1-34 [8] H Jiawei, M.Kamber, and P.Jian, Data Mining: Concepts and Techniques, edition, Morgan Kaufmann, 2011 [9] J Han and M Kamber, Data Mining-Concepts and Techniques, Morgan 72 Kaufmann, 2006 [10] J Dai, Q Xu, Attribute selection based on information gain ratio in fuzzy rough set theory with application to tumor classification, Applied Soft Computing 13 (2013) 211–221, 2013 [11] Kryszkiewicz M (1998), “Rough set approach to incomplete information systems”, Information Science, Vol 112, pp 39-49 [12] Liang J.Y, Chin K.S., Dang C.Y and Richard C.M.YAM, “New method for measuring uncertainty and fuzziness in rough set theory”, International Journal of General Systems 31, 2002, pp 331-342 [13] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in Incomplete Decision Tables”, Proceedings of 14th International Conference, Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC 2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink, Vol 8170, 2013, pp 99-110 [14] Nguyen Long Giang, Vu Van Dinh (2013), “Relationships Among the Concepts of Reduct in Incomplete Decision Tables”, Frontiers in Artificial Intelligence and Applications, Volume 252: Advanced Methods and Technologies for Agent and Multi-Agent Systems, IOS Press, pp 417-426 [15] Pawlak Z (1982), “Rough sets”, International Journal of Computer and Information Sciences, 11(5): 341-356 [16] Pawlak Z., Rough sets: Theoretical Aspects of Reasoning About Data, Kluwer Aca-demic Publishers, 1991 [17] Q Hu, D.R Yu, Z.X Xie, Information-preserving hybrid data reduction based on fuzzy-rough techniques, Pattern Recognit Lett 27(5) (2006) 414– 423 [18] Q Hu, Z.X Xie, D.R Yu, Hybrid attribute reduction based on a novel fuzzy-rough model and information granulation, Pattern Recognit 40 (2007) 3509–3521 [19] Richard Jensen (2011) Fuzzy-rough data mining (A tutorial), Thirteenth 73 International Conference on Rough Sets, Fuzzy Sets, Data Mining and Granular Computing (RSFDGrC-2011), Higher School of Economics, Moscow, Russia, June 25 - June 27, 2011 [20] R Jensen, Q Shen, Semantics-preserving dimensionality reduction: rough and fuzzy-rough-based approaches, IEEE Trans Knowl Data Eng 16(12) (2004) 1457–1471 [21] R Jensen, Q Shen, Fuzzy-rough attribute reduction with application to web categorization, Fuzzy Sets Syst 141 (2004) 469-485 [22] R Jensen, Q Shen, Fuzzy-rough sets assisted attribute reduction, IEEE Trans Fuzzy Syst 15(1) (2007) 73–89 [23] R Jensen, Q Shen, New approaches to fuzzy-rough feature selection, IEEE Trans Fuzzy Syst 17(4) (2009) 824–838 [24] R.B Bhatt, M Gopal, On fuzzy-rough sets approach to feature selection, Pattern Recognit Lett 26 (2005) 965–975 [25] Y.H Qian, Q Wang, H.H Cheng, J.Y Liang, C.Y Dang, Fuzzy-rough feature selection accelerator, Fuzzy Sets and Systems 258 (2015) 61–78 [26] Wang F., Liang J Y, Qian Y H., “Attribute reduction: A dimension incremental strategy”, Knowledge-Based Systems, Volume 39, 2013, pp 95– 108 [27] The UCI machine http://archive.ics.uci.edu/ml/datasets.html [28] https://sourceforge.net/projects/weka/ learning repository, ... gọn liệu Phương pháp rút gọn thu c tính rút gọn liệu áp dụng nhằm giảm lượng liệu nhiều mà giữ tính tồn vẹn liệu gốc Nghĩa là, phương pháp phân tích liệu thực hiệu liệu thu gọn mà trả lại kết phân. .. hóa phổ biến Các phương pháp phân cụm sử dụng đề rời rạc hóa thu c tính số cách phân nhỏ giá trị thu c tính A vào cụm nhóm Phương pháp phân cụm cho phép phân tích phân bổ thu c tính A, từ trả lại... chia giá trị thu c tính thành nhóm khơng giao c) Phương pháp phân cụm, định phân tích tương quan Phân cụm, định phân tích tương quan thương sử dụng để rời rạc hóa liệu Phân cụm phương pháp rời rạc

Ngày đăng: 14/06/2020, 23:23

Tài liệu cùng người dùng

Tài liệu liên quan