Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,58 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƯƠNG ỨNGDỤNGPHƯƠNGPHÁPPHÂNCỤMMỜCHOBÀI TỐN PHÂNTÍCHTHƠNGTINRỦIROQUẢNLÝTHUẾDOANHNGHIỆP Ngành: Công nghệ thôngtin Chuyên ngành: Quảnlý Hệ thốngthôngtin Mã số: TÓM TẮT LUẬN VĂN THẠC SĨ QUẢNLÝ HỆ THỐNGTHÔNGTIN Hà Nội – 2017 MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật toánphâncụmmờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuếdoanhnghiệp DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Q trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phâncụm liệu Hình 1.4 Ví dụ phâncụm ngơi nhà dựa khoảng cách Hình 1.5 Ví dụ phâncụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phươngphápphâncụmphân cấp Hình 1.7 Ví dụ phâncụm theo mật độ (1) Hình 1.8 Ví dụ phâncụm theo mật độ (2) Hình 1.9 Cấu trúc phâncụm dựa lưới Hình 1.10 Ví dụ phâncụm dựa mơ hình Hình 2.1 Phâncụm tập liệu với số lượng cụm khác Hình 2.2 Minh họa chophươngpháp xác định số cụm dựa phươngpháp truyền thống Hình 2.3 Ví dụ minh họa cách xác định số cụmphươngpháp Elbow Hình 2.4 Mơ tả phươngpháp Holdout Hình 2.5 Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 3.1 Kết phâncụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phâncụm liệu với tập liệu data.csv Hình 3.3 Ứngdụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanhnghiệp có rủiro vi phạm thuế cao Hình 3.4 Mơ tập liệu Xjk(1) Hình 3.5 Mơ tập liệu Xjk(2) Hình 3.6 Mơ tập liệu Xjk(3) Bảng 3.1 Mô tả thôngtin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phâncụmdoanhnghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phâncụm liệu data.csv với thôngtinrủiro vi phạm thuếMỞ ĐẦU Mục tiêu đề tài ứngdụng thuật tốn phâncụmmờphântíchthơngtinrủiroquảnlýthuếdoanhnghiệp Một sở liệu mẫu thôngtin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủiro 644 doanhnghiệp sử dụng để làm đầu vào cho hệ thốngphântíchrủiro sử dụngphươngphápphâncụmmờ Hệ thốngphântích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chương 1: Tổng quanphâncụm liệu Chương giới thiệu tổng quan khai phá liệu, giai đoạn khai phá liệu, tổng quanphâncụm liệu, mục tiêu, số yêu cầu phâncụm liệu số kỹ thuật tiếp cận phâncụm liệu Chương 2: Giới thiệu toánphâncụmmờphươngpháp xác định số cụm gom cụm liệu Chương đề cập đến thuật toánphâncụmmờ Fuzzy C-Mean (FCM) phươngpháp xác định số cụm gom cụm liệu Chương 3: Ứngdụngphươngphápphâncụmmờcho tốn phântíchthơngtinquảnlýrủirothuếdoanhnghiệp Chương đề cập đến toánphâncụmdoanhnghiệp dựa tập liệu mẫu thôngtin tờ khai thuế, báo cáo tài doanhnghiệp 644 doanhnghiệp Và đưa kết khoanh vùng, lựa chọn nhóm doanh nghiệp, mức rủiroquảnlýthuế CHƯƠNG 1: TỔNG QUAN VỀ PHÂNCỤM DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu q trình khám phá tri thức có ích từ lượng liệu lớn [25] Chúng ta coi khai phá liệu cốt lõi trình phát tri thức Quá trình phát tri thức gồm bước [14]: Bước 1: Trích chọn liệu Bước 2: Tiền xử lý liệu Bước 3: Chuyển đổi liệu Bước 4: Khai phá liệu Bước 5: Mơ hình biểu diễn tri thức đánh giá Hình 1.1 Quá trình phát tri thức [27] 1.1.2 Các giai đoạn trình khai phá liệu Quá trình khai phá liệu thể mơ hình sau: Hình 1.2 Quá trình khai phá liệu [15] - Xác định nhiệm vụ - Xác định liệu liên quan - Thu thập tiền xử lý liệu - Giải thuật khai phá liệu 1.2 Tổng quanphâncụm liệu 1.2.1 Khái niệm phâncụm liệu Phâncụm liệu phân chia sở liệu lớn ban đầu thành nhóm liệu đối tượng nhóm tương tự Hình 1.3 Ví dụ phâncụm liệu [22] 1.2.2 Các mục tiêu phâncụm liệu Mục tiêu phâncụm liệu chia nhỏ đối tượng vào cụmcho đối tượng cụm tương đồng với Hình 1.4 Ví dụ phâncụm ngơi nhà dựa khoảng cách [12] Hình 1.5 Ví dụ phâncụm ngơi nhà dựa kích cỡ [12] 1.2.3 Một số ứngdụngphâncụm liệu Phâncụm liệu cơng cụ ứngdụng nhiều lĩnh vực khác như: - Thương mại - Sinh học - Thư viện - Y học - Tài thị trường chứng khoán - Khai thác liệu web - Trong công nghiệp viễn thông 1.2.4 Các yêu cầu phâncụm liệu Theo Hoàng Thị Giao Lan Trần Tuấn Tài [15], thuật toánphâncụm liệu cần phải: - Có khả mở rộng - Có khả thích nghi với kiểu liệu khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác định tham số đầu vào - Ít nhạy cảm với thứ tự liệu vào - Khả thích nghi với liệu nhiễu cao - Khả thích nghi với liệu đa chiều - Dễ hiều, dễ cài đặt sử dụng 1.3 Một số kỹ thuật tiếp cận phâncụm liệu 1.3.1 Phươngphápphâncụmphân hoạch Với tập liệu gồm n phần tử k (k ≤ n) số cụm tạo thành Một thuật toánphân hoạch tổ chức phần tử liệu vào k phân vùng, phân vùng thể cụm liệu thỏa mãn: cụm phải chứa phần tử liệu phần tử liệu thuộc vào cụm 1.3.2 Phươngphápphâncụmphân cấp Quá trình thực phâncụm theo phươngphápmô tả đồ thị có cấu trúc Trong đó, tập liệu xếp thành cấu trúc có dạng hình gọi phâncụm [2] Có hai cách tiếp cận phổ biến kỹ thuật là: hòa nhập nhóm (hay trộn cụm), thường gọi tiếp cận lên phân chia nhóm (hay phân tách cụm), thường gọi tiếp cận xuống Ví dụ phươngphápphâncụmphân cấp xem hình 1.6 Hình 1.6 Ví dụ phươngphápphâncụmphân cấp - Phươngpháp “dưới lên”: cách tiếp cận sử dụng chiến lược ăn tham trình phâncụm - Phươngpháp “trên xuống”: cách tiếp cận sử dụng chiến lược chia để trị trình phâncụm 10 Phươngpháp xuống thực theo quy trình ngược với phươngpháp lên 1.3.3 Phươngpháp tiếp cận dựa mật độ Kỹ thuật nhóm đối tượng liệu dựa hàm mật độ xác định, mật độ số đối tượng lân cận đối tượng liệu theo nghĩa Trong cách tiếp cận này, liệu xác định tiếp tục phát triển thêm đối tượng liệu miễn số đối tượng lân cận phải lớn ngưỡng xác định trước 16 2.2 Các phươngpháp xác định số cụm gom cụm liệu Bao nhiêu cụm cụm? cụm? cụm? Hình 2.1 Phâncụm tập liệu với số lượng cụm khác [2] 2.2.1 Xác định số cụm dựa phươngpháp truyền thống Xác định số cụm k dựa phươngpháp truyền thống với liệu có n đối tượng Phươngpháp thực nhanh chóng độ xác khơng cao Hình 2.2 Minh họa chophươngpháp xác định số cụm dựa phươngpháp truyền thống 2.2.2 Xác định số cụmphươngpháp Eblow Phươngpháp thực việc xác định số cụm dựa độ xác việc thử giá trị K khác 17 Hình 2.3 Ví dụ minh họa cách xác định số cụmphươngpháp Elbow 2.2.3 Xác định số cụm dựa phươngpháp phê duyệt chéo Phươngpháp phê duyệt chéo (cross validation) chia liệu thành m phần Sử dụng m-1 phầnchomơ hình gom cụm Sử dụngphần lại cho việc kiểm tra chất lượng mơ hình gom cụm Kiểm tra với K>0, lặp lại m lần tìm giá trị K phù hợp với liệu Có ba phươngpháp phê duyệt chéo phổ biến: - Từ bỏ phần (Holdout) Tập liệu ban đầu Tập huấn luyện Chia tập liệu Tập kiểm thử Huấn luyện Kiểm thử Tỷ lệ tính lỗi Hình 2.4 Mơ tả phươngpháp từ bỏ phần - Phê duyệt chéo K-nếp gấp 18 - Phê duyệt chéo phần tử (Leave-one-out cross validation) 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu Hình 2.5: Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu [2] Trong đó, cmin cmax thường chọn cmin = chọn cmax ≤ Theo Nguyễn Trung Đức [2], đặt F hiệu hai thuộc tính độ nén độ chồng cụm tốn trở thành tốn tìm giá trị số cụm c mà hàm F đạt giá trị cực đại: F = Compactness (c, U) – Overlap (c,U) Trong đó: o Compactness (c, U) độ nén đối tượng liệu cụm, số sử dụng hàm đo độ nén xác định [2]: Compactness (c, U) = , uM = o Overlap (c,U) độ chồng toànphân hoạch mờ, xác định tổng giá trị độ chồng cặp cụm [2]: Overlap (c,U) = Trong đó: Oab(c,U) độ chồng hai cụm C a Cb tính tốn từ mức độ chồng Oabj(c,U) đối tượng liệu xj mà liên thuộc đủ mạnh tới hai cụmmờ Ca Cb [2] Oab(c,U) = , a,b = 1, ,c; a≠b Oabj(c,U)= (Giá trị �0 nhỏ cho phép số hiệu lực trường hợp cụm chồng nhau) 19 CHƯƠNG 3: ỨNGDỤNGPHƯƠNGPHÁPPHÂNCỤMMỜCHOBÀI TỐN PHÂNTÍCHTHÔNGTINRỦIROQUẢNLÝTHUẾDOANHNGHIỆP 3.1 Mơ tả tốn Trong phạm vi luận văn này, luận văn đề xuất cách tiếp cận phâncụm liệu để đưa phương án khoanh vùng, lựa chọn nhóm đối tượng, doanhnghiệp có rủiro vi phạm thuế mà không sử dụng số liệu từ kinh nghiệm chuyên gia Dựa vào liệu tờ khai thuế, báo cáo tài doanh nghiệp, sử dụng thuật toánphâncụm để phân loại, khoanh vùng đối tượng, từ giúp tăng cường tính hiệu việc lựa chọn trường hợp tra, kiểm tra 3.2 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ liệu mẫu thôngtin tờ khai khấu trừ thuế GTGT, báo cáo tài doanhnghiệp lưu trữ tệp data.csv Cấu trúc liệu tệp data.csv bao gồm: - 13 cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT giá trị tiêu thuộc báo cáo tài doanhnghiệp Cụ thể mô tả bảng 3.1 sau: Bảng 3.1 Mô tả thôngtin tiêu cột liệu thuộc tập liệu data.csv STT Mã tiêu Tên tiêu Kiểu liệu Ghi Các cột chứa giá trị tiêu thuộc tờ khai thuế GTGT #34 Tổng doanh thu hàng hoá dịch vụ bán kỳ Kiểu số #23 Doanh số hàng hoá dịch vụ mua vào kỳ Kiểu số #35 Tổng số thuế hàng hóa, dịch vụ bán kỳ Kiểu số #24 Số thuế GTGT hàng hóa, dịch vụ mua vào Kiểu số #29 Doanh số hàng hóa, dịch vụ bán chịu thuế suất % Kiểu số #25 Tổng số thuế GTGT khấu trừ kỳ Kiểu số #43 Thuế GTGT khấu trừ chuyển kỳ sau Kiểu số Lấy giá trị tờ khai khấu trừ thuế GTGT kỳ kiểm tra kỳ liền trước Lấy giá trị tờ khai GTGT kỳ kiểm tra Cột chứa giá trị tiêu thuộc báo cáo tài doanhnghiệp #411 Vốn đầu tư chủ sở hữu Kiểu số Lấy giá trị số cuối kỳ 20 3.3 Lựa chọn công cụ, mơi trường thực nghiệm Với tốn phâncụmdoanhnghiệprủiroquảnlýthuế theo tập liệu đặt mục 3.2, ngôn ngữ sử dụng chương trình ngơn ngữ Matlab 3.4 Phươngphápphâncụm lựa chọn số cụm 3.4.1 Xác định phươngphápphâncụm Luận văn lựa chọn phươngphápphâncụmmờ để ứngdụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 - Lựa chọn số cụm Thực lặp thuật toánphâncụmmờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: Hình 3.1 Kết phâncụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm 21 - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn tính độ chồng đối tượng x j với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: 22 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) 1,337962 Overlap (c,U) 0,266365 F 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Môi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử lý CPU 2.30 GHz 3.5.1 3.5.1.1 Kết phân loại doanhnghiệp Kết phâncụm tập liệu data.csv Kết phâncụmdoanhnghiệprủiro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phâncụmdoanhnghiệp tập liệu data_cum.csv ST T Thứ tự cụm Số doanhnghiệp thuộc cụm 1 568 2 26 3 50 23 Hình 3.2 Kết phâncụm liệu với tập liệu data.csv 3.5.1.2 So sánh kết phâncụmdoanhnghiệp với mức rủiro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanhnghiệprủiro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thôngtinrủiro vi phạm thuế 644 doanhnghiệp thuộc tập liệu data.csv (thông tinrủiro vi phạm tính tốn dựa kinh nghiệm chun gia nghiệp vụ thuế) tiến hành so sánh với kết phâncụmdoanhnghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.4 So sánh kết phâncụm liệu data.csv với thôngtinrủiro vi phạm thuế STT Thứ tự cụm Số doanhnghiệp thuộc cụm Tỷ lệ liệu so với mức rủiro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% 24 Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủiro vi phạm thuế, đại đa số doanhnghiệpcụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanhnghiệp thuộc mức rủiro - Cụm 2: 80.77% doanhnghiệp thuộc mức rủiro - Cụm 3: 80% doanhnghiệp thuộc mức rủiro 3.5.2 Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phâncụm luận văn phù hợp với mục tiêu tốn đặt phântíchthơngtinrủiroquảnlýthuế Trong công tác quảnlýrủiro vi phạm thuế nên có giá trị mức rủiro Các chuyên gia nghiệp vụ thuế xác định mức rủiro vi phạm thuếdoanhnghiệp là: - Mức 0: rủiro vi phạm thấp – không rủiro - Mức 1: rủiro vi phạm vừa - Mức 2: rủiro vi phạm cao Dựa vào kết phâncụmdoanh nghiệm tập liệu data.csv, ta thấy: doanhnghiệp có rủiro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanhnghiệpphâncụm xa gốc tọa độ mức rủiro vi phạm giảm (xem chi tiết kết phâncụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanhnghiệp theo mức độ rủiro vi phạm giúp tăng tính hiệu việc lựa chọn, phântíchthôngtinrủiroquảnlýthuếdoanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanhnghiệpquanthuế giám sát việc tuân thủ nghĩa vụ thuế 3.6 Ứngdụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanhnghiệp có khả rủiro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanhnghiệp có rủiro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy Luận văn đề xuất phương án khoanh vùng doanhnghiệp có khả rủiro vi phạm thuế cao tập liệu hình 3.5 sau Trong đó: - Tập doanhnghiệp có khả rủiro vi phạm thuế cao thuộc tập liệu X jk - Tập liệu đầu vào thu thập từ giá trị tiêu thuộc tờ khai thuế GTGT báo cáo tài doanhnghiệp 25 Hình 3.3 Ứngdụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanhnghiệp có rủiro vi phạm thuế cao Chú giải: - (1): Xnk tập liệu ban đầu gồm n hàng tương ứng với số doanhnghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT báo cáo tài doanhnghiệp Ví dụ mục 3.2: Ma trận X tập liệu có n = 644 k = 13 - (2): Áp dụng thuật toán FCM với tập liệu đầu vào X nk tham số phù hợp Chọn số cụm c chocụm sai khác cụm nhỏ (độ nén lớn) phân tách rõcụm (độ chồng nhỏ) Với tốn khoanh vùng doanhnghiệp có khả rủiro vi phạm thuế cao, luận văn gợi ý số cụm c = - (3): vi tâm cụm thứ i di khoảng cách từ tâm cụm thứ i đến gốc tọa độ Oxy - (4): Xjk = X(ci): ma trận liệu cụm thứ i, có khoảng cách tâm cụm gốc tọa độ nhỏ (di nhỏ nhất) Ma trận Xjk gồm j hàng tương ứng với số doanhnghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai GTGT báo cáo tài doanhnghiệp - (5): j số xác định trước Ví dụ cán thuế muốn lựa chọn tra, kiểm tra doanhnghiệprủiro vi phạm cao nằm khoảng 500 doanh nghiệp, lựa chọn j nằm khoảng gợi ý từ 600 đến 800 Áp dụng sơ đồ (hình 3.3) với liệu đầu vào sau: - (1): Xnk tập liệu data.csv (tập liệu data.csv mô tả mục 3.2) 26 Chọn j = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanhnghiệprủiro vi phạm X jk với j = [100, 200] số doanhnghiệprủiro vi phạm cao chiếm ≥ 70% tập liệu X jk Kết thực nghiệm: - Áp dụng quy trình hình 3.3 lần 1: Xjk(1) chứa 568 doanhnghiệpmơ hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.4 Mơ tập liệu Xjk(1) - Áp dụng quy trình hình 3.3 lần (X nk = Xjk(1)): Xjk(2) chứa 425 doanhnghiệpmô hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) 27 Hình 3.5 Mơ tập liệu Xjk(2) - Áp dụng quy trình hình 3.3 lần (X nk = Xjk(2)): Xjk(3) chứa 255 doanhnghiệpmơ hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 Mô tập liệu Xjk(2) - Tương tự, áp dụng quy trình hình 3.3 lần (X nk = Xjk(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X 257 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: Xjk(4) chứa 148 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanhnghiệprủiro vi phạm cao tập liệu nhận cách map tương ứng MST doanhnghiệp với tập liệu data.csv ban đầu để lấy mức rủiro Ta kết sau: Tập Xjk(4) có chứa: 70.27% (104/148) doanhnghiệprủiro vi phạm cao 29.737 % (44/148) doanhnghiệprủiro vi phạm vừa Thỏa mãn kết mong muốn 28 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu lĩnh vực thời ngành công nghệ thôngtin giới nói chung Việt Nam nói riêng Khai phá liệu ứngdụng rộng rãi nhiều lĩnh vực đời sống Một toánquan trọng lĩnh vực khai phá liệu toánphâncụm liệu Phâncụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phâncụm liệu, kỹ thuật phâncụm liệu theo hướng tiếp cận mờ lĩnh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụngphươngphápphâncụmmờcho tốn phântíchthơngtinrủiroquảnlý thuế” , luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phâncụm liệu - Phântích số phươngphápphâncụm liệu như: phươngphápphâncụmphân hoạch, phươngphápphâncụmphân cấp, phươngpháp tiếp cận dựa mật độ, phươngphápphâncụm dựa lưới phươngphápphâncụm dựa mơ hình - Tìm hiểu số phươngpháp xác định số cụm gom cụm liệu dựa phươngpháp truyền thống, phươngpháp Eblow, phươngpháp phê duyệt chéo phươngpháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật tốn phâncụmmờ FCM, cài đặt thuật tốn mơi trường Matlab thử nghiệm phâncụmdoanhnghiệprủiro vi phạm thuộc liệu mẫu thôngtin tờ khai thuế, báo cáo tài doanhnghiệp 644 doanhnghiệp - Phân loại, khoanh vùng đối tượng doanhnghiệp theo mức độ rủiro vi phạm giúp tăng tính hiệu việc lựa chọn, phântíchthôngtinrủiroquảnlýthuếdoanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanhnghiệpquanthuế giám sát việc tuân thủ nghĩa vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử nghiệm dừng thuật tốn phân cụm, liệu đầu vào nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ quý thầy cô, anh chị bạn HƯỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phâncụm đặc biệt phâncụmmờứngdụng vào số toán thực tế 29 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phươngphápphâncụmmờứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờphâncụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), Tìm hiểu khái niệm quảnlýquảnlý thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phâncụm – ĐH Công nghệ thôngtin Truyền thông Phạm Thị Thu (2007), Thuật toánphâncụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phươngphápphâncụmứng dụng, luận văn thạc sĩ Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toánphâncụm Data mining Trần Thị Yến (2012), Phâncụm liệu trừ mờứng dụng, luận văn thạc sĩ Công nghệ thôngtin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phâncụm liệu, luận văn thạc sĩ chuyên ngành Truyền liệu mạng máy tính 10 Vũ Minh Đơng (2010), Một số phươngphápphâncụm liệu, Đại học dân lập Hải Phòng 11 Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12 Nguyễn Thế Đạt (2017), Nghiên cứu mơ hình phâncụm có thứ bậc đồ thị liệu, Đại học Công nghệ thôngtin Truyền thông 13 Hoàng Thị Minh Châu (2010), Các giải pháp cải tiến thuật toán FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc sĩ 14 Hồng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân cụm, luận văn thạc sĩ khoa học 15 Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứngdụngphâncụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16 Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 30 17 Ruspini E.H (1969), A new approach to clustering, Information and Control 18 Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting compact Well-Separated clusters, Journal of Cybernetics 19 Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20 W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21 K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22 Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23 D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24 http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoi-nop-thue-mau-choto-con-nguoi-148789.html 25 http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-tra-thue-la-gi2016040811092612.htm 26 http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ 27 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html 28 https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieu-process-of-datamining/ 29 http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghia-cua-bctc/ 30 http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang-30.html ... phân cụm mờ cho tốn phân tích thông tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp. .. thông tin rủi ro vi phạm thuế MỞ ĐẦU Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh. .. CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƯƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 2.1 Bài toán phân cụm mờ 2.1.1 Giới thiệu phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mở rộng