Mục tiêu của đề tài là ứng dụng thuật toán phân cụm mờ trong phân tích thông tin rủi ro quản lý thuế doanh nghiệp. Một cơ sở dữ liệu mẫu về thông tin tờ khai thuế, báo cáo tài chính doanh nghiệp, mức độ rủi ro của 644 doanh nghiệp được sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ. Hệ thống phân tích sẽ được triển khai xây dựng và thử nghiệm kiểm chứng.
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƯƠNG ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: TÓM TẮT LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN Hà Nội – 2017 MỤC LỤC LỜI CAM ĐOAN Error! Bookmark not defined LỜI CẢM ƠN Error! Bookmark not defined MỤC LỤC DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Các giai đoạn trình khai phá liệu 1.2 Tổng quan phân cụm liệu 1.2.1 Khái niệm phân cụm liệu 1.2.2 Các mục tiêu phân cụm liệu 1.2.3 Một số ứng dụng phân cụm liệu 1.2.4 Các yêu cầu phân cụm liệu 1.3 Một số kỹ thuật tiếp cận phân cụm liệu 1.3.1 Phương pháp phân cụm phân hoạch 1.3.2 Phương pháp phân cụm phân cấp 1.3.3 Phương pháp tiếp cận dựa mật độ 10 1.3.4 Phương pháp phân cụm dựa lưới 11 1.3.5 Phương pháp phân cụm dựa mơ hình 11 CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƯƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 12 2.1 Bài toán phân cụm mờ 12 2.1.1 Giới thiệu phân cụm mờ 12 2.1.2 Thuật toán Fuzzy C-Mean (FCM) 12 2.1.2.1 Hàm mục tiêu 12 2.1.2.2 Thuật toán FCM 13 2.1.2.3 Đánh giá 14 2.2 Các phương pháp xác định số cụm gom cụm liệu 15 2.2.1 Xác định số cụm dựa phương pháp truyền thống 15 2.2.2 Xác định số cụm phương pháp Eblow 15 2.2.3 Xác định số cụm dựa phương pháp phê duyệt chéo 16 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu 17 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TOÁN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP 18 3.1 Mơ tả tốn 18 3.2 Dữ liệu đầu vào 18 3.3 Lựa chọn công cụ, môi trường thực nghiệm 18 3.4 Phương pháp phân cụm lựa chọn số cụm 19 3.4.1 Xác định phương pháp phân cụm 19 3.4.2 Lựa chọn số cụm 19 3.5 Kết thực nghiệm 20 3.5.1 Kết phân loại doanh nghiệp 20 3.5.1.1 Kết phân cụm tập liệu data.csv 20 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia 21 3.5.2 Kết luận 22 3.6 Ứng dụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao 22 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 26 TÀI LIỆU THAM KHẢO 27 DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật tốn phân cụm mờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng Mã số thuế Mã số thuế doanh nghiệp MST DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Quá trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phân cụm liệu Hình 1.4 Ví dụ phân cụm nhà dựa khoảng cách Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phương pháp phân cụm phân cấp Hình 1.7 Ví dụ phân cụm theo mật độ (1) Hình 1.8 Ví dụ phân cụm theo mật độ (2) Hình 1.9 Cấu trúc phân cụm dựa lưới Hình 1.10 Ví dụ phân cụm dựa mơ hình Hình 2.1 Phân cụm tập liệu với số lượng cụm khác Hình 2.2 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống Hình 2.3 Ví dụ minh họa cách xác định số cụm phương pháp Elbow Hình 2.4 Mơ tả phương pháp Holdout Hình 2.5 Q trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phân cụm liệu với tập liệu data.csv Hình 3.3 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệp có rủi ro vi phạm thuế cao Hình 3.4 Mơ tập liệu Xjk(1) Hình 3.5 Mơ tập liệu Xjk(2) Hình 3.6 Mơ tập liệu Xjk(3) Bảng 3.1 Mô tả thông tin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế MỞ ĐẦU Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thơng tin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủi ro 644 doanh nghiệp sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ Hệ thống phân tích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chương 1: Tổng quan phân cụm liệu Chương giới thiệu tổng quan khai phá liệu, giai đoạn khai phá liệu, tổng quan phân cụm liệu, mục tiêu, số yêu cầu phân cụm liệu số kỹ thuật tiếp cận phân cụm liệu Chương 2: Giới thiệu toán phân cụm mờ phương pháp xác định số cụm gom cụm liệu Chương đề cập đến thuật toán phân cụm mờ Fuzzy C-Mean (FCM) phương pháp xác định số cụm gom cụm liệu Chương 3: Ứng dụng phương pháp phân cụm mờ cho toán phân tích thơng tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp Và đưa kết khoanh vùng, lựa chọn nhóm doanh nghiệp, mức rủi ro quản lý thuế CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 1.1 Giới thiệu khai phá liệu 1.1.1 Khai phá liệu gì? Khai phá liệu trình khám phá tri thức có ích từ lượng liệu lớn [25] Chúng ta coi khai phá liệu cốt lõi trình phát tri thức Quá trình phát tri thức gồm bước [14]: Bước 1: Trích chọn liệu Bước 2: Tiền xử lý liệu Bước 3: Chuyển đổi liệu Bước 4: Khai phá liệu Bước 5: Mơ hình biểu diễn tri thức đánh giá u di ễn nh biể iá Mơ hì đánh g c ứ tri th xử lý T iền liệu chọn Trích liệu phá Khai liệu ển Chuy liệu đổi thức Các tri chọn D ữ liệu Dữ liệu liệu Kho D ữ liệu i đổ chuyển Hình 1.1 Quá trình phát tri thức [27] 1.1.2 Các giai đoạn trình khai phá liệu Quá trình khai phá liệu thể mơ hình sau: Hình 1.2 Quá trình khai phá liệu [15] - Xác định nhiệm vụ - Xác định liệu liên quan - Thu thập tiền xử lý liệu Các mẫu - Giải thuật khai phá liệu 1.2 Tổng quan phân cụm liệu 1.2.1 Khái niệm phân cụm liệu Phân cụm liệu phân chia sở liệu lớn ban đầu thành nhóm liệu đối tượng nhóm tương tự Hình 1.3 Ví dụ phân cụm liệu [22] 1.2.2 Các mục tiêu phân cụm liệu Mục tiêu phân cụm liệu chia nhỏ đối tượng vào cụm cho đối tượng cụm tương đồng với Hình 1.4 Ví dụ phân cụm ngơi nhà dựa khoảng cách [12] Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ [12] 1.2.3 Một số ứng dụng phân cụm liệu Phân cụm liệu công cụ ứng dụng nhiều lĩnh vực khác như: - Thương mại - Sinh học - Thư viện - Y học - Tài thị trường chứng khoán - Khai thác liệu web - Trong công nghiệp viễn thông 1.2.4 Các yêu cầu phân cụm liệu Theo Hoàng Thị Giao Lan Trần Tuấn Tài [15], thuật toán phân cụm liệu cần phải: - Có khả mở rộng - Có khả thích nghi với kiểu liệu khác - Khám phá cụm với hình dạng - Tối thiểu lượng tri thức cần cho xác định tham số đầu vào - Ít nhạy cảm với thứ tự liệu vào - Khả thích nghi với liệu nhiễu cao - Khả thích nghi với liệu đa chiều - Dễ hiều, dễ cài đặt sử dụng 1.3 Một số kỹ thuật tiếp cận phân cụm liệu 1.3.1 Phương pháp phân cụm phân hoạch Với tập liệu gồm n phần tử k (k n) số cụm tạo thành Một thuật toán phân hoạch tổ chức phần tử liệu vào k phân vùng, phân vùng thể cụm liệu thỏa mãn: cụm phải chứa phần tử liệu phần tử liệu thuộc vào cụm 1.3.2 Phương pháp phân cụm phân cấp Quá trình thực phân cụm theo phương pháp mơ tả đồ thị có cấu trúc Trong đó, tập liệu xếp thành cấu trúc có dạng hình gọi phân cụm [2] Có hai cách tiếp cận phổ biến kỹ thuật là: hịa nhập nhóm (hay trộn cụm), thường gọi tiếp cận lên phân chia nhóm (hay phân tách cụm), thường gọi tiếp cận xuống Ví dụ phương pháp phân cụm phân cấp xem hình 1.6 10 Bước Bước Bước Bước Bước Bước Dưới lên a a, b b a, b, c c a, b, c, d, e, f d d, e e d, e, f f Trên xuống Bước Bước Bước Bước Bước Bước Hình 1.6 Ví dụ phương pháp phân cụm phân cấp - Phương pháp “dưới lên”: cách tiếp cận sử dụng chiến lược ăn tham trình phân cụm - Phương pháp “trên xuống”: cách tiếp cận sử dụng chiến lược chia để trị trình phân cụm Phương pháp xuống thực theo quy trình ngược với phương pháp lên 1.3.3 Phương pháp tiếp cận dựa mật độ Kỹ thuật nhóm đối tượng liệu dựa hàm mật độ xác định, mật độ số đối tượng lân cận đối tượng liệu theo nghĩa Trong cách tiếp cận này, liệu xác định tiếp tục phát triển thêm đối tượng liệu miễn số đối tượng lân cận phải lớn ngưỡng xác định trước Hình 1.7 Ví dụ phân cụm theo mật độ (1) [19] 14 THUẬT TỐN FCM Trong ‖*‖F chuẩn Frobenious định nghĩa sau: ‖U‖ = u tham số cho trước Việc chọn tham số cụm ảnh hưởng đến kết phân cụm Đối với m 1+ thuật toán FCM trở thành thuật toán rõ Đối với m thuật tốn FCM trở thành thuật tốn phân cụm mờ với: u = Chưa có quy tắc nhằm lựa chọn tham số m đảm bảo cho việc phân cụm hiệu quả, thông thường chọn m = 2.1.2.3.Đánh giá Thuật toán FCM áp dụng thành công giải số lớn toàn phân cụm liệu nhận dạng mẫu, xử lý ảnh, y học, … Phân cụm mờ mở rộng phân cụm liệu cách thêm vào yếu tố quan hệ 15 phần tử cụm liệu thông qua trọng số ma trận U Bằng cách này, khám phá cụm liệu phức tạp theo cách mềm dẻo từ cụm liệu cho Thuật toán phân cụm mờ cách thức mở rộng cho thuật toán phân cụm rõ nhằm khám phá cụm liệu chồng lên 2.2 Các phương pháp xác định số cụm gom cụm liệu Bao nhiêu cụm cụm? cụm? cụm? Hình 2.1 Phân cụm tập liệu với số lượng cụm khác [2] 2.2.1 Xác định số cụm dựa phương pháp truyền thống Xác định số cụm k dựa phương pháp truyền thống với liệu có n đối tượng Phương pháp thực nhanh chóng độ xác khơng cao Hình 2.2 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống 2.2.2 Xác định số cụm phương pháp Eblow Phương pháp thực việc xác định số cụm dựa độ xác việc thử giá trị K khác 16 Hình 2.3 Ví dụ minh họa cách xác định số cụm phương pháp Elbow 2.2.3 Xác định số cụm dựa phương pháp phê duyệt chéo Phương pháp phê duyệt chéo (cross validation) chia liệu thành m phần Sử dụng m-1 phần cho mơ hình gom cụm Sử dụng phần cịn lại cho việc kiểm tra chất lượng mơ hình gom cụm Kiểm tra với K>0, lặp lại m lần tìm giá trị K phù hợp với liệu Có ba phương pháp phê duyệt chéo phổ biến: - Từ bỏ phần (Holdout) Tập liệu ban đầu Tập huấn luyện Chia tập liệu Tập kiểm thử Huấn luyện Kiểm thử Tỷ lệ tính lỗi Hình 2.4 Mô tả phương pháp từ bỏ phần - Phê duyệt chéo K-nếp gấp 17 - Phê duyệt chéo phần tử (Leave-one-out cross validation) 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu Hình 2.5: Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu [2] Trong đó, cmin cmax thường chọn cmin = chọn cmax ≤ √ Theo Nguyễn Trung Đức [2], đặt F hiệu hai thuộc tính độ nén độ chồng cụm tốn trở thành tốn tìm giá trị số cụm c mà hàm F đạt giá trị cực đại: F = Compactness (c, U) – Overlap (c,U) Trong đó: o Compactness (c, U) độ nén đối tượng liệu cụm, số sử dụng hàm đo độ nén xác định [2]: Compactness (c, U) = ∑ {∑ uM = o ∑ / , } Overlap (c,U) độ chồng toàn phân hoạch mờ, xác định tổng giá trị độ chồng cặp cụm [2]: Overlap (c,U) = ∑ ∑ ( , ) Trong đó: Oab(c,U) độ chồng hai cụm Ca Cb tính tốn từ mức độ chồng Oabj(c,U) đối tượng liệu xj mà liên thuộc đủ mạnh tới hai cụm mờ Ca Cb [2] Oab(c,U) = ∑ nhau) ( , ), a,b = 1, ,c; a≠b Oabj(c,U)= 1− − − ≥ T và a ≠ b ngược lại (Giá trị nhỏ cho phép số hiệu lực trường hợp cụm chồng 18 CHƯƠNG 3: ỨNG DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP 3.1 Mơ tả tốn Trong phạm vi luận văn này, luận văn đề xuất cách tiếp cận phân cụm liệu để đưa phương án khoanh vùng, lựa chọn nhóm đối tượng, doanh nghiệp có rủi ro vi phạm thuế mà khơng sử dụng số liệu từ kinh nghiệm chuyên gia Dựa vào liệu tờ khai thuế, báo cáo tài doanh nghiệp, sử dụng thuật toán phân cụm để phân loại, khoanh vùng đối tượng, từ giúp tăng cường tính hiệu việc lựa chọn trường hợp tra, kiểm tra 3.2 Dữ liệu đầu vào Dữ liệu đầu vào thu thập từ liệu mẫu thông tin tờ khai khấu trừ thuế GTGT, báo cáo tài doanh nghiệp lưu trữ tệp data.csv Cấu trúc liệu tệp data.csv bao gồm: - 13 cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT giá trị tiêu thuộc báo cáo tài doanh nghiệp Cụ thể mô tả bảng 3.1 sau: Bảng 3.1 Mô tả thông tin tiêu cột liệu thuộc tập liệu data.csv STT Mã tiêu Tên tiêu Kiểu liệu Ghi Các cột chứa giá trị tiêu thuộc tờ khai thuế GTGT #34 Tổng doanh thu hàng hoá dịch vụ Kiểu số bán kỳ #23 Doanh số hàng hoá dịch vụ mua vào Kiểu số kỳ #35 Tổng số thuế hàng hóa, dịch vụ bán Kiểu số kỳ #24 Số thuế GTGT hàng hóa, dịch vụ Kiểu số mua vào #29 Doanh số hàng hóa, dịch vụ bán Kiểu số chịu thuế suất % #25 Tổng số thuế GTGT khấu trừ kỳ Kiểu số #43 Thuế GTGT khấu trừ Kiểu số chuyển kỳ sau Lấy giá trị tờ khai khấu trừ thuế GTGT kỳ kiểm tra kỳ liền trước Lấy giá trị tờ khai GTGT kỳ kiểm tra Cột chứa giá trị tiêu thuộc báo cáo tài doanh nghiệp #411 Vốn đầu tư chủ sở hữu Kiểu số Lấy giá trị số cuối kỳ 3.3 Lựa chọn công cụ, môi trường thực nghiệm Với toán phân cụm doanh nghiệp rủi ro quản lý thuế theo tập liệu đặt mục 19 3.2, ngôn ngữ sử dụng chương trình ngơn ngữ Matlab 3.4 Phương pháp phân cụm lựa chọn số cụm 3.4.1 Xác định phương pháp phân cụm Luận văn lựa chọn phương pháp phân cụm mờ để ứng dụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 - Lựa chọn số cụm Thực lặp thuật toán phân cụm mờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm - Áp dụng công thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn tính độ chồng đối tượng xj với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: 20 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) Overlap (c,U) F 1,337962 0,266365 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Mơi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử lý CPU 2.30 GHz 3.5.1 Kết phân loại doanh nghiệp 3.5.1.1 Kết phân cụm tập liệu data.csv Kết phân cụm doanh nghiệp rủi ro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv STT Thứ tự cụm Số doanh nghiệp thuộc cụm 1 568 2 26 3 50 21 Hình 3.2 Kết phân cụm liệu với tập liệu data.csv 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanh nghiệp rủi ro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thông tin rủi ro vi phạm thuế 644 doanh nghiệp thuộc tập liệu data.csv (thông tin rủi ro vi phạm tính tốn dựa kinh nghiệm chuyên gia nghiệp vụ thuế) tiến hành so sánh với kết phân cụm doanh nghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế STT Thứ tự cụm Số doanh nghiệp thuộc cụm Tỷ lệ liệu so với mức rủi ro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% 22 Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủi ro vi phạm thuế, đại đa số doanh nghiệp cụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanh nghiệp thuộc mức rủi ro - Cụm 2: 80.77% doanh nghiệp thuộc mức rủi ro - Cụm 3: 80% doanh nghiệp thuộc mức rủi ro 3.5.2.Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phân cụm luận văn phù hợp với mục tiêu tốn đặt phân tích thơng tin rủi ro quản lý thuế Trong công tác quản lý rủi ro vi phạm thuế nên có giá trị mức rủi ro Các chuyên gia nghiệp vụ thuế xác định mức rủi ro vi phạm thuế doanh nghiệp là: - Mức 0: rủi ro vi phạm thấp – không rủi ro - Mức 1: rủi ro vi phạm vừa - Mức 2: rủi ro vi phạm cao Dựa vào kết phân cụm doanh nghiệm tập liệu data.csv, ta thấy: doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanh nghiệp phân cụm xa gốc tọa độ mức rủi ro vi phạm giảm (xem chi tiết kết phân cụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế 3.6 Ứng dụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy Luận văn đề xuất phương án khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao tập liệu hình 3.5 sau Trong đó: - Tập doanh nghiệp có khả rủi ro vi phạm thuế cao thuộc tập liệu Xjk - Tập liệu đầu vào thu thập từ giá trị tiêu thuộc tờ khai thuế GTGT báo cáo tài doanh nghiệp 23 Hình 3.3 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệp có rủi ro vi phạm thuế cao Chú giải: - (1): Xnk tập liệu ban đầu gồm n hàng tương ứng với số doanh nghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai khấu trừ thuế GTGT báo cáo tài doanh nghiệp Ví dụ mục 3.2: Ma trận X tập liệu có n = 644 k = 13 - (2): Áp dụng thuật toán FCM với tập liệu đầu vào Xnk tham số phù hợp Chọn số cụm c cho cụm sai khác cụm nhỏ (độ nén lớn) phân tách rõ cụm (độ chồng nhỏ) Với tốn khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao, luận văn gợi ý số cụm c = - (3): vi tâm cụm thứ i di khoảng cách từ tâm cụm thứ i đến gốc tọa độ Oxy - (4): Xjk = X(ci): ma trận liệu cụm thứ i, có khoảng cách tâm cụm gốc tọa độ nhỏ (di nhỏ nhất) Ma trận Xjk gồm j hàng tương ứng với số doanh nghiệp k cột tương ứng với giá trị tiêu thuộc tờ khai GTGT báo cáo tài doanh nghiệp - (5): j số xác định trước Ví dụ cán thuế muốn lựa chọn tra, kiểm tra doanh nghiệp rủi ro vi phạm cao nằm khoảng 500 doanh nghiệp, lựa chọn j nằm khoảng gợi ý từ 600 đến 800 Áp dụng sơ đồ (hình 3.3) với liệu đầu vào sau: - (1): Xnk tập liệu data.csv (tập liệu data.csv mô tả mục 3.2) 24 Chọn j = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanh nghiệp rủi ro vi phạm Xjk với j = [100, 200] số doanh nghiệp rủi ro vi phạm cao chiếm ≥ 70% tập liệu Xjk Kết thực nghiệm: - Áp dụng quy trình hình 3.3 lần 1: Xjk(1) chứa 568 doanh nghiệp mơ hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.4 Mô tập liệu Xjk(1) - Áp dụng quy trình hình 3.3 lần (Xnk = Xjk(1)): Xjk(2) chứa 425 doanh nghiệp mơ hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) 25 Hình 3.5 Mơ tập liệu Xjk(2) - Áp dụng quy trình hình 3.3 lần (Xnk = Xjk(2)): Xjk(3) chứa 255 doanh nghiệp mô hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 Mơ tập liệu Xjk(2) - Tương tự, áp dụng quy trình hình 3.3 lần (Xnk = Xjk(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X 257 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: Xjk(4) chứa 148 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanh nghiệp rủi ro vi phạm cao tập liệu nhận cách map tương ứng MST doanh nghiệp với tập liệu data.csv ban đầu để lấy mức rủi ro Ta kết sau: Tập Xjk(4) có chứa: 70.27% (104/148) doanh nghiệp rủi ro vi phạm cao 29.737 % (44/148) doanh nghiệp rủi ro vi phạm vừa Thỏa mãn kết mong muốn 26 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu lĩnh vực thời ngành cơng nghệ thơng tin giới nói chung Việt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều lĩnh vực đời sống Một toán quan trọng lĩnh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu theo hướng tiếp cận mờ lĩnh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thơng tin rủi ro quản lý thuế”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phân cụm liệu - Phân tích số phương pháp phân cụm liệu như: phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp tiếp cận dựa mật độ, phương pháp phân cụm dựa lưới phương pháp phân cụm dựa mơ hình - Tìm hiểu số phương pháp xác định số cụm gom cụm liệu dựa phương pháp truyền thống, phương pháp Eblow, phương pháp phê duyệt chéo phương pháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật toán phân cụm mờ FCM, cài đặt thuật toán môi trường Matlab thử nghiệm phân cụm doanh nghiệp rủi ro vi phạm thuộc liệu mẫu thơng tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp - Phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử nghiệm dừng thuật tốn phân cụm, liệu đầu vào cịn nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ q thầy cơ, anh chị bạn HƯỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phân cụm đặc biệt phân cụm mờ ứng dụng vào số toán thực tế 27 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phương pháp phân cụm mờ ứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), Tìm hiểu khái niệm quản lý quản lý thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – ĐH Công nghệ thông tin Truyền thông Phạm Thị Thu (2007), Thuật toán phân cụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phương pháp phân cụm ứng dụng, luận văn thạc sĩ Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toán phân cụm Data mining Trần Thị Yến (2012), Phân cụm liệu trừ mờ ứng dụng, luận văn thạc sĩ Công nghệ thông tin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phân cụm liệu, luận văn thạc sĩ chuyên ngành Truyền liệu mạng máy tính 10 Vũ Minh Đơng (2010), Một số phương pháp phân cụm liệu, Đại học dân lập Hải Phịng 11 Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12 Nguyễn Thế Đạt (2017), Nghiên cứu mơ hình phân cụm có thứ bậc đồ thị liệu, Đại học Công nghệ thông tin Truyền thơng 13 Hồng Thị Minh Châu (2010), Các giải pháp cải tiến thuật toán FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc sĩ 14 Hoàng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân cụm, luận văn thạc sĩ khoa học 15 Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứng dụng phân cụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16 Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 17 Ruspini E.H (1969), A new approach to clustering, Information and Control 18 Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting 28 compact Well-Separated clusters, Journal of Cybernetics 19 Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20 W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21 K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22 Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23 D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24 http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoi-nop-thue-mau-choto-con-nguoi-148789.html 25 http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-tra-thue-la-gi2016040811092612.htm 26 http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ 27 http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html 28 https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieu-process-of-datamining/ 29 http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghia-cua-bctc/ 30 http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang-30.html ... Chương 3: Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thơng tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo... DỤNG PHƯƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TOÁN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP 3.1 Mơ tả tốn Trong phạm vi luận văn này, luận văn đề xuất cách tiếp cận phân cụm liệu để đưa phương. .. CHƯƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƯƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 2.1 Bài toán phân cụm mờ 2.1.1 Giới thiệu phân cụm mờ Phân cụm mờ phương pháp phân cụm liệu mở rộng