(LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths công nghệ thông tin 604802

55 8 0
(LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN Hà Nội – 2017 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Đình Hóa Hà Nội – 2017 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tơi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung lý thuyết trong luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa công bố cơng trình khác Hà Nội, tháng 10 năm 2017 Học viên thực Vũ Thị Thu Hƣơng TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Nguyễn Đình Hóa, TS Lê Hồng Sơn người tạo điều kiện thuận lợi, tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội, thầy cô khoa Công nghệ thông tin truyền đạt kiến thức giúp đỡ em suốt trình học Và cuối em xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè, người ủng hộ, động viên tạo điều kiện giúp đỡ để em có kết ngày hôm Hà Nội, tháng 10 năm 2017 Học viên Vũ Thị Thu Hƣơng TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 11 1.1 Giới thiệu khai phá liệu 11 1.1.1 Khai phá liệu gì? 11 1.1.2 Các giai đoạn trình khai phá liệu 12 1.2 Tổng quan phân cụm liệu 12 1.2.1 Khái niệm phân cụm liệu 13 1.2.2 Các mục tiêu phân cụm liệu 13 1.2.3 Một số ứng dụng phân cụm liệu 15 1.2.4 Các yêu cầu phân cụm liệu 15 1.3 Một số kỹ thuật tiếp cận phân cụm liệu 16 1.3.1 Phương pháp phân cụm phân hoạch 16 1.3.2 Phương pháp phân cụm phân cấp 17 1.3.3 Phương pháp tiếp cận dựa mật độ 19 1.3.4 Phương pháp phân cụm dựa lưới 20 1.3.5 Phương pháp phân cụm dựa mô hình 20 CHƢƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƢƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 22 2.1 Bài toán phân cụm mờ 22 2.1.1 Giới thiệu phân cụm mờ 22 2.1.2 Thuật toán Fuzzy C-Mean (FCM) 22 2.1.2.1 Hàm mục tiêu 22 2.1.2.2 Thuật toán FCM 25 2.1.2.3 Đánh giá 27 2.2 Các phƣơng pháp xác định số cụm gom cụm liệu 27 2.2.1 Xác định số cụm dựa phương pháp truyền thống 28 2.2.2 Xác định số cụm phương pháp Eblow 29 TIEU LUAN MOI download : skknchat@gmail.com 2.2.3 Xác định số cụm dựa phương pháp phê duyệt chéo 30 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu 32 2.3 Đề xuất phƣơng án áp dụng thuật toán FCM phƣơng pháp xác định số cụm vào tốn lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao 34 CHƢƠNG 3: ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP 36 3.1 Mơ tả tốn 36 3.2 Dữ liệu đầu vào 37 3.3 Lựa chọn công cụ, môi trƣờng thực nghiệm 39 3.4 Phƣơng pháp phân cụm lựa chọn số cụm 40 3.4.1 Xác định phương pháp phân cụm 40 3.4.2 Lựa chọn số cụm 40 3.5 Kết thực nghiệm 43 3.5.1 Kết phân loại doanh nghiệp 43 3.5.1.1 Kết phân cụm tập liệu data.csv 43 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia 44 3.5.1.3 Xác định doanh nghiệp thuộc cụm 45 3.5.2 Kết luận 46 3.6 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 50 TÀI LIỆU THAM KHẢO 52 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật tốn phân cụm mờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng Mã số thuế Mã số thuế doanh nghiệp MST TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Q trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phân cụm liệu Hình 1.4 Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phương pháp phân cụm phân cấp Hình 1.7 Ví dụ phân cụm theo mật độ (1) Hình 1.8 Ví dụ phân cụm theo mật độ (2) Hình 1.9 Cấu trúc phân cụm dựa lưới Hình 1.10 Ví dụ phân cụm dựa mơ hình Hình 2.1 Thuật tốn FCM Hình 2.2 Phân cụm tập liệu với số lượng cụm khác Hình 2.3 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống Hình 2.4 Ví dụ minh họa cách xác định số cụm phương pháp Elbow Hình 2.5 Mơ tả phương pháp Holdout Hình 2.6 Q trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 2.7 Đề xuất phương án lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phân cụm liệu với tập liệu data.csv Hình 3.3 Xác định doanh nghiệp thuộc cụm Hình 3.4 Mơ tập liệu X’(1) Hình 3.5 Mơ tập liệu X’(2) Hình 3.6 Mơ tập liệu X’(3) TIEU LUAN MOI download : skknchat@gmail.com Bảng 3.1 Mô tả thông tin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế TIEU LUAN MOI download : skknchat@gmail.com MỞ ĐẦU Công tác thanh, kiểm tra thuế nhiệm vụ trọng tâm nhằm ngăn ngừa, phát xử lý kịp thời vi phạm thuế Thực tốt cơng tác thanh, kiểm tra thuế góp phần tăng nguồn thu cho ngân sách, tạo bình đ ng công xã hội ngh a vụ thuế đối tượng nộp thuế Hiện nhu cầu tin học hóa quy trình nghiệp vụ ngành Thuế nói chung đại hố cơng tác thanh, kiểm tra thuế nói riêng, góp phần nâng cao hiệu công tác quản lý thuế ngày cao Với tính chất đa dạng phức tạp liệu kho liệu Người nộp thuế, cần thiết phải có hướng nghiên cứu cách tổ chức kho liệu để trích xuất thơng tin phù hợp Khai phá liệu hướng nghiên cứu phổ biến nay, phân cụm công cụ hữu hiệu toán khai phá liệu, phân tích thơng tin [3] Mục tiêu phân cụm chia nhỏ đối tượng vào cụm cho đối tượng cụm tương đồng với Phân cụm có nhiều ứng dụng thương mại, giúp nhà cung cấp biết nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu sở liệu khách hàng Phân cụm mờ phương pháp phân cụm liệu mở rộng điểm liệu thuộc hai hay nhiều cụm với giá trị hàm thuộc tương ứng Năm 1969, Ruspini [17] giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm mờ Năm 1973, Dunn [18] mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ Ý tưởng thuật toán xây dựng phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Sau đó, Bezdek [16] cải tiến tổng quát hóa hàm mục tiêu mờ cách thêm trọng số mũ Cho đến nay, có nhiều biến thể phân cụm mờ ứng dụng toán khác [16] Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủi ro 644 doanh nghiệp sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ Hệ thống phân tích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chƣơng 1: Tổng quan phân cụm liệu TIEU LUAN MOI download : skknchat@gmail.com 40 tận dụng thư viện sẵn có nhằm hỗ trợ q trình xây dựng thuật toán 3.4 Phƣơng pháp phân cụm lựa chọn số cụm 3.4.1 Xác định phương pháp phân cụm - Dữ liệu doanh nghiệp tương đồng, phân cụm rủi ro vi phạm cho doanh nghiệp ranh giới rõ ràng để kh ng định doanh nghiệp rủi ro vi phạm cao hay không Ranh giới mờ Ta nói doanh nghiệp rủi ro cao mức độ phần trăm Do phân cụm doanh nghiệp, có nhiều đối tượng nằm ranh giới cụm, đối tượng thuộc vào nhiều cụm - Khái niệm “rủi ro” chất mờ, vì: o Có nhiều mức độ rủi ro khác nhau: Rủi ro cao, rủi ro vừa, rủi ro thấp, hay khơng rủi ro o Có yếu tố bất định, ngẫu nhiên o Mức độ rủi ro xác định tùy theo quan điểm người đánh giá Do với tốn phân tích thơng tin rủi ro quản lý thuế doanh nghiệp nên biểu diễn tập mờ, cho kết tốt hơn, luận văn lựa chọn phương pháp phân cụm mờ để ứng dụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 Lựa chọn số cụm Quá trình phân cụm liệu nhằm xác định nhóm đối tượng liệu tương tự, từ khảo sát cụm giúp khái quát, nhanh chóng rút đặc điểm khối liệu lớn Tuy nhiên, hầu hết thuật toán phân cụm, tham số số cụm trước thuật toán thường yêu cầu người dùng phải xác định trước số lượng cụm, ứng với số lượng cụm khác cho kết phân cụm khác [2] Khi áp dụng thuật toán phân cụm cho toán cụ thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phân cụm Một phân cụm tốt có sai khác cụm nhỏ (độ nén lớn) phân tách rõ cụm (độ chồng nhỏ) Do vậy, phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, luận văn lựa chọn việc xác định số cụm dựa độ TIEU LUAN MOI download : skknchat@gmail.com 41 chồng độ nén liệu (phương pháp trình bày mục 2.2.4) Cụ thể sau: - Thực lặp thuật toán phân cụm mờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: H nh Kết phân cụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn TIEU LUAN MOI download : skknchat@gmail.com 42 tính độ chồng đối tượng xj với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: TIEU LUAN MOI download : skknchat@gmail.com 43 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) Overlap (c,U) F 1,337962 0,266365 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Môi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử lý CPU 2.30 GHz 3.5.1 Kết phân loại doanh nghiệp Kết phân cụm tập liệu data csv 3.5.1.1 Kết phân cụm doanh nghiệp rủi ro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv STT Thứ tự cụm Số doanh nghiệp thuộc cụm 1 568 2 26 3 50 TIEU LUAN MOI download : skknchat@gmail.com 44 H nh Kết phân cụm liệu với tập liệu data csv 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanh nghiệp rủi ro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thông tin rủi ro vi phạm thuế 644 doanh nghiệp thuộc tập liệu data.csv (thơng tin rủi ro vi phạm tính tốn dựa kinh nghiệm chuyên gia nghiệp vụ thuế) tiến hành so sánh với kết phân cụm doanh nghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.3 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế TIEU LUAN MOI download : skknchat@gmail.com 45 STT Thứ tự cụm Số doanh nghiệp thuộc cụm Tỷ lệ liệu so với mức rủi ro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủi ro vi phạm thuế, đại đa số doanh nghiệp cụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanh nghiệp thuộc mức rủi ro - Cụm 2: 80.77% doanh nghiệp thuộc mức rủi ro - Cụm 3: 80% doanh nghiệp thuộc mức rủi ro 3.5.1.3 Xác định doanh nghiệp thuộc cụm Tập liệu ban đầu doanh nghiệp có chứa thơng tin chi tiết doanh nghiệp (bao gồm MST, tên doanh nghiệp, địa chỉ, ), trích xuất thông tin vào tập data.csv để thực nghiệm sử dụng thông tin giá trị tiêu tờ khai khấu trừ thuế GTGT báo cáo tài doanh nghiệp Do sau có kết phân cụm cho tập liệu data.csv, luận văn tiến hành ánh xạ thông tin phân cụm tập data.csv với thông tin chi tiết ban đầu để xác định doanh nghiệp thuộc cụm TIEU LUAN MOI download : skknchat@gmail.com 46 Hình 3.3 Xác định doanh nghiệp thuộc cụm Lưu ý: Thông tin chi tiết doanh nghiệp hình 3.3 mang tính chất tham khảo 3.5.2 Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phân cụm luận văn phù hợp với mục tiêu toán đặt phân tích thơng tin rủi ro quản lý thuế Trong công tác quản lý rủi ro vi phạm thuế nên có giá trị mức rủi ro Các chuyên gia nghiệp vụ thuế xác định mức rủi ro vi phạm thuế doanh nghiệp là: - Mức 0: rủi ro vi phạm thấp – không rủi ro - Mức 1: rủi ro vi phạm vừa - Mức 2: rủi ro vi phạm cao Dựa vào kết phân cụm doanh nghiệm tập liệu data.csv, ta thấy: doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanh nghiệp phân cụm xa gốc tọa độ mức rủi ro vi phạm giảm (xem chi tiết kết phân cụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ ngh a vụ thuế TIEU LUAN MOI download : skknchat@gmail.com 47 3.6 Ứng dụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy, áp dụng phương án khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao tập liệu đề xuất hình 2.7 (mục 2.3) luận văn với liệu đầu vào sau: - (1): X0 tập liệu data.csv (tập liệu data.csv mô tả mục 3.2) Chọn n = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanh nghiệp rủi ro vi phạm X’ với n = [100, 200] số doanh nghiệp rủi ro vi phạm cao chiếm ≥ 70% tập liệu X’  Kết thực nghiệm: - Áp dụng quy trình hình 2.7 lần 1: X’(1) chứa 568 doanh nghiệp mơ hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) TIEU LUAN MOI download : skknchat@gmail.com 48 Hình 3.4 Mơ tập liệu X’(1) - Áp dụng quy trình hình 2.7 lần (X1 = X’(1)): X’(2) chứa 425 doanh nghiệp mơ hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.5 Mơ tập liệu X’(2) TIEU LUAN MOI download : skknchat@gmail.com 49 - Áp dụng quy trình hình 2.7 lần (X’ = X’(2)): X’(3) chứa 255 doanh nghiệp mơ hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 Mơ tập liệu X’(3) - Tương tự, áp dụng quy trình hình 2.7 lần (X1 = X’(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X1 255 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: X’(4) chứa 146 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanh nghiệp rủi ro vi phạm cao tập liệu nhận cách ánh xạ tương ứng MST doanh nghiệp với tập liệu data.csv ban đầu để lấy mức rủi ro Ta kết sau: Tập X’(4) có chứa: 71.233% (104/146) doanh nghiệp rủi ro vi phạm cao 28.767 % (42/146) doanh nghiệp rủi ro vi phạm vừa Thỏa mãn kết mong muốn TIEU LUAN MOI download : skknchat@gmail.com 50 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu l nh vực thời ngành cơng nghệ thơng tin giới nói chung Việt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều l nh vực đời sống Một toán quan trọng l nh vực khai phá liệu tốn phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu theo hướng tiếp cận mờ l nh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thông tin rủi ro quản lý thuế”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phân cụm liệu - Phân tích số phương pháp phân cụm liệu như: phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp tiếp cận dựa mật độ, phương pháp phân cụm dựa lưới phương pháp phân cụm dựa mơ hình - Tìm hiểu số phương pháp xác định số cụm gom cụm liệu dựa phương pháp truyền thống, phương pháp Eblow, phương pháp phê duyệt chéo phương pháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật toán phân cụm mờ FCM, cài đặt thuật tốn mơi trường Matlab thử nghiệm phân cụm doanh nghiệp rủi ro vi phạm thuộc liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp - Phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ ngh a vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn cịn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử TIEU LUAN MOI download : skknchat@gmail.com 51 nghiệm dừng thuật tốn phân cụm, liệu đầu vào cịn nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ q thầy cơ, anh chị bạn HƢỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phân cụm đặc biệt phân cụm mờ ứng dụng vào số toán thực tế TIEU LUAN MOI download : skknchat@gmail.com 52 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phương pháp phân cụm mờ ứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), T m hiểu khái niệm quản lý quản lý thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – ĐH Công nghệ thông tin Truyền thông Phạm Thị Thu (2007), Thuật toán phân cụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phương pháp phân cụm ứng dụng, luận văn thạc s Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toán phân cụm Data mining Trần Thị Yến (2012), Phân cụm liệu trừ mờ ứng dụng, luận văn thạc s Công nghệ thông tin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phân cụm liệu, luận văn thạc s chuyên ngành Truyền liệu mạng máy tính 10.Vũ Minh Đơng (2010), Một số phương pháp phân cụm liệu, Đại học dân lập Hải Phòng 11.Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12.Nguyễn Thế Đạt (2017), Nghiên cứu mô h nh phân cụm có thứ bậc đồ thị liệu, Đại học Cơng nghệ thơng tin Truyền thơng 13.Hồng Thị Minh Châu (2010), Các giải pháp cải tiến thuật tốn FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc s 14.Hoàng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân TIEU LUAN MOI download : skknchat@gmail.com 53 cụm, luận văn thạc s khoa học 15.Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứng dụng phân cụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16.Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 17.Ruspini E.H (1969), A new approach to clustering, Information and Control 18.Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting compact Well-Separated clusters, Journal of Cybernetics 19.Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20.W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21.K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22.Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23.D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24.http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoinop-thue-mau-chot-o-con-nguoi-148789.html 25.http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-trathue-la-gi-2016040811092612.htm 26.http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ TIEU LUAN MOI download : skknchat@gmail.com 54 27.http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.htm l 28.https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieuprocess-of-data-mining/ 29.http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghiacua-bctc/ 30.http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang30.html TIEU LUAN MOI download : skknchat@gmail.com ... HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin. .. phương pháp xác định số cụm gom cụm liệu Chƣơng 3: Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thông tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa... tiêu mờ cách thêm trọng số mũ Cho đến nay, có nhiều biến thể phân cụm mờ ứng dụng toán khác [16] Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp

Ngày đăng: 27/06/2022, 15:43

Hình ảnh liên quan

5. Mô hình biểu diễn tri thức và đánh g - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

5..

Mô hình biểu diễn tri thức và đánh g Xem tại trang 13 của tài liệu.
Hình 1.3. Ví dụ về phân cụm dữ liệu [22] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 1.3..

Ví dụ về phân cụm dữ liệu [22] Xem tại trang 14 của tài liệu.
Hình 1.4. Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách [12] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 1.4..

Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách [12] Xem tại trang 15 của tài liệu.
Hình 1.5. Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ [12] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 1.5..

Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ [12] Xem tại trang 15 của tài liệu.
Ví dụ về phương pháp phân cụm phân cấp xem tại hình 1.6 dưới đây. - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

d.

ụ về phương pháp phân cụm phân cấp xem tại hình 1.6 dưới đây Xem tại trang 18 của tài liệu.
Hình 1.9. Cấu trúc phân cụm dựa trên lưới [19] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 1.9..

Cấu trúc phân cụm dựa trên lưới [19] Xem tại trang 21 của tài liệu.
Hình 1.8. Ví dụ về phân cụm theo mật độ (2) [19] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 1.8..

Ví dụ về phân cụm theo mật độ (2) [19] Xem tại trang 21 của tài liệu.
Phương pháp phân cụm dựa trên mô hình cố gắng để tối ưu hóa sự phù hợp giữa dữ liệu cho trước và  một số  mô hình toán học - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

h.

ương pháp phân cụm dựa trên mô hình cố gắng để tối ưu hóa sự phù hợp giữa dữ liệu cho trước và một số mô hình toán học Xem tại trang 22 của tài liệu.
Hình 2.2. Phân cụm tập dữ liệu với số lượng cụm khác nhau [2] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 2.2..

Phân cụm tập dữ liệu với số lượng cụm khác nhau [2] Xem tại trang 29 của tài liệu.
Hình 2.3. Minh họa cho phương pháp xác định số cụm dựa trên phương pháp truyền thống  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 2.3..

Minh họa cho phương pháp xác định số cụm dựa trên phương pháp truyền thống Xem tại trang 30 của tài liệu.
Hình 2.4 Ví dụ minh họa cách xác định số cụm bằng phương pháp Elbow - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 2.4.

Ví dụ minh họa cách xác định số cụm bằng phương pháp Elbow Xem tại trang 31 của tài liệu.
 Tập kiểm thử - để kiểm tra chất lượng mô hình gom cụm  Thường  lựa  chọn  tập  huấn  luyện  chiến  2/3  toàn  bộ  tập  dữ  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

p.

kiểm thử - để kiểm tra chất lượng mô hình gom cụm  Thường lựa chọn tập huấn luyện chiến 2/3 toàn bộ tập dữ Xem tại trang 32 của tài liệu.
Hình 2.6: Quá tr nh ước lượng số cụm tối ưu dựa trên độ chồng và độ nén của dữ liệu [2]  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 2.6.

Quá tr nh ước lượng số cụm tối ưu dựa trên độ chồng và độ nén của dữ liệu [2] Xem tại trang 34 của tài liệu.
Bảng 3.1. Mô tả thông tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu data.csv - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Bảng 3.1..

Mô tả thông tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu data.csv Xem tại trang 39 của tài liệu.
Bảng 3.2. Kết quả tính F với số cụm c=[3,7] - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Bảng 3.2..

Kết quả tính F với số cụm c=[3,7] Xem tại trang 44 của tài liệu.
Bảng 3.3. So sánh kết quả phân cụm dữ liệu data.csv với thông tin rủi ro vi phạm thuế  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Bảng 3.3..

So sánh kết quả phân cụm dữ liệu data.csv với thông tin rủi ro vi phạm thuế Xem tại trang 45 của tài liệu.
Dựa vào bảng 3.3, nhận thấy các đối tượng trong cùng một nhóm có độ tương đồng nhau tương đối cao về mức rủi ro vi phạm thuế, đại đa số các doanh  nghiệp trong cùng một cụm có cùng giá trị mức rủi ro, cụ thể:  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

a.

vào bảng 3.3, nhận thấy các đối tượng trong cùng một nhóm có độ tương đồng nhau tương đối cao về mức rủi ro vi phạm thuế, đại đa số các doanh nghiệp trong cùng một cụm có cùng giá trị mức rủi ro, cụ thể: Xem tại trang 46 của tài liệu.
Hình 3.3. Xác định doanh nghiệp thuộc cụm - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 3.3..

Xác định doanh nghiệp thuộc cụm Xem tại trang 47 của tài liệu.
- Áp dụng quy trình hình 2.7 lần 2(X 1= X’(1)): X’(2) chứa 425 doanh nghiệp và được mô phỏng trong hình 3.5 (các đối tượng thuộc tệp có dạng  chấm màu xanh dương)  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

p.

dụng quy trình hình 2.7 lần 2(X 1= X’(1)): X’(2) chứa 425 doanh nghiệp và được mô phỏng trong hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Xem tại trang 49 của tài liệu.
Hình 3.4 Mô phỏng tập dữ liệu X’(1) - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

Hình 3.4.

Mô phỏng tập dữ liệu X’(1) Xem tại trang 49 của tài liệu.
- Áp dụng quy trình hình 2.7 lần 3 (X’ = X’(2)): X’(3) chứa 255 doanh nghiệp và được mô phỏng trong hình 3.6 (các đối tượng thuộc tệp có dạng  chấm màu xanh lá)  - (LUẬN văn THẠC sĩ) ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp luận văn ths  công nghệ thông tin 604802

p.

dụng quy trình hình 2.7 lần 3 (X’ = X’(2)): X’(3) chứa 255 doanh nghiệp và được mô phỏng trong hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Xem tại trang 50 của tài liệu.

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan