1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng kỹ thuật khai phá dữ liệu tong phát hiện gian lận thuế

95 15 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 95
Dung lượng 2,54 MB

Nội dung

NGUYỄN MINH THỂ BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN MINH THỂ ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN THUẾ ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN THUẾ LUẬN VĂN THẠC SĨ: CÔNG NGHỆ THƠNG TIN KHĨA K24 VĨNH LONG, 2018 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN MINH THỂ ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN THUẾ Chuyên ngành: Công nghệ thông tin Mã số: 8.48.02.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Người hướng dẫn khoa học: TS Phan Anh Phong VĨNH LONG, 2018 LỜI CẢM ƠN Để thực đề tài nghiên cứu khoa học này, nhận giúp đỡ, quan tâm động viên Thầy cô, bạn bè đồng nghiệp Luận văn hoàn thành dựa tham khảo, học tập kinh nghiệm từ kết nghiên cứu liên quan, sách, báo chuyên ngành nhiều tác giả trường Đại học, tổ chức nghiên cứu… Đặc biệt hướng dẫn cán giáo viên trường Đại học Vinh, Đại học Sư phạm Kỹ thuật Vĩnh Long Trước hết, xin gửi lời cảm ơn sâu sắc đến TS Phan Anh Phong – người trực tiếp hướng dẫn khoa học dành nhiều thời gian, công sức hướng dẫn suốt q trình thực nghiên cứu hồn thành luận văn Tôi xin trân trọng cám ơn Ban giám hiệu trường Đại học Vinh, trường Đại học Sư phạm Kỹ thuật Vĩnh Long, toàn thể thầy giáo trường tận tình truyền đạt kiến thức quý báu giúp đỡ q trình học tập nghiên cứu Tuy có nhiều cố gắng, luận văn không tránh khỏi thiếu sót Kính mong q Thầy Cơ, người quan tâm đến đề tài, đồng nghiệp, gia đình bạn bè tiếp tục có ý kiến đóng góp, giúp đỡ để luận văn hồn thiện Một lần xin chân thành cám ơn! MỤC LỤC LỜI CẢM ƠN MỤC LỤC DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Mục tiêu nhiệm vụ nghiên cứu 10 Đối tượng phạm vi nghiên cứu 10 Nội dung nghiên cứu 11 Cấu trúc luận văn 12 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 13 CHƯƠNG 2: MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU 29 CHƯƠNG 3: DỮ LIỆU NGÀNH THUẾ VÀ BỘ TIÊU CHÍ PHÂN TÍCH RỦI RO THUẾ 52 CHƯƠNG 4: THỬ NGHIỆM MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐỂ PHÁT HIỆN GIAN LẬN THUẾ 66 KẾT LUẬN 82 TÀI LIỆU THAM KHẢO 84 PHỤ LỤC 86 DANH MỤC CÁC TỪ VIẾT TẮT Ký hiệu, chữ viết tắt Ý nghĩa Association Rules Các luật kết hợp BCTC Báo cáo tài Classification Phân lớp Clustering Phân nhóm Confidence Độ chắn luật kết hợp = support(X Y)/support(X) phản ánh khả giao dịch hỗ trợ X hỗ trợ Y CSDL Cơ sở liệu Data mining Khai phá liệu DW Kho liệu KTĐT Khai thuế điện tử NNT Người nộp thuế, tới cá nhân tổ chức nộp thuế Patterns Các mẫu QLRR Quản lý rủi ro Regression Hồi quy Testing data Dữ liệu kiểm thử Training data Dữ liệu huấn luyên TPR Phần mềm phân tích rủi ro thuế WEKA Phần mềm khai phá liệu DANH MỤC CÁC BẢNG Bảng 2.1-Tập liệu ví dụ cho chơi Tennis 36 Bảng 3.1- Bộ tiêu chí rủi ro ngành thuế 60 Bảng 3.2-Điểm số theo ngưỡng giá trị 62 Bảng 3.3-Các thuộc tính BCTC dùng để phân tích rủi ro 63 Bảng 3.4-Các thuộc tính dùng để làm liệu đầu vào WEKA 65 Bảng 4.1-Các thuộc tính đầu vào thuật toán KMeans 69 - 73 Bảng 4.3-Kết thử thử nghiệm thuật toán J48 77 Bảng 4.4-Kết thử nghiệm thuật toan Naive Bayes 79 Bảng 4.5-Thử nghiệm tốt chọn 80 DANH MỤC CÁC HÌNH Hình 1.1-Quá trình khám phá tri thức 14 Hình 1.2-Khn dạng đơn ghi đa ghi 16 Hình 1.3-Cây định đơn giản với tests thuộc tính X Y 23 Hình 1.4-Sự phân lớp mẫu dựa mơ hình định 24 Hình 1.5-Hồi qui tuyến tính 27 Hình 2.1-Cây định ban đầu tập với CSDL T 44 Hình 2.2-Cây định cuối cho CSDL T 46 Hình 2.3-Cây định dạng giả code cho CSDL T 46 Hình 3.1-Sơ đồ chiến lược quản lý rủi ro Thụy Điển 57 Hình 3.2-Các mức rủi ro theo giá trị trung bình ngành 61 Hình 4.1-Cây định 81 MỞ ĐẦU Sự cần thiết vấn đề nghiên cứu Trong năm vừa qua, tội phạm lĩnh vực thuế diễn đa dạng, tăng mạnh, xảy tỉnh, thành phố, quan, doanh nghiệp, lĩnh vực với phương thức, thủ đoạn ngày tinh vi, gây hậu xấu đến tình hình kinh tế, trị đời sống xã hội, ảnh hưởng nghiêm trọng đến trình hội nhập kinh tế quốc tế Nhằm ngăn chặn tình trạng gian lận thuế, điều quan trọng hàng đầu cần nhận diện rõ hành vi gian lận đối tượng nộp thuế để đẩy nhanh trình điều tra, xử lý thu hồi tiền thuế vi phạm Theo nghiên cứu, gian lận thuế hành vi vi phạm pháp luật tồn song hành với hoạt động thu thuế nhà nước Có thể nói, nhà nước cịn đánh thuế cịn tồn hành vi gian lận thuế động gian lận thuế tồn tại, mong muốn giảm nghĩa vụ thuế NNT Tuy nhiên, điều khơng có nghĩa chấp nhận hành vi gian lận thuế Có thể nhận thấy, gian lận thuế xảy tất khâu quy trình thuế từ đăng ký, khai, nộp, khấu trừ đến hoàn thuế Gian lận thuế xảy với sắc thuế như: thuế thu nhập doanh nghiệp; thuế thu nhập cá nhân; thuế giá trị gia tăng Trước tình trạng gian lận thuế ngày gia tăng, với nhiều thủ đoạn tinh vi, Bộ Tài chính, Tổng cục Thuế tiến hành nhiều biện pháp để công tác đấu tranh phòng, chống vi phạm tội phạm lĩnh vực thuế đạt nhiều hiệu Trong tập trung vào giải pháp hồn thiện sách pháp luật, tun truyền giáo dục, cải cách thủ tục hành thuế, nâng cao lực cán Bên cạnh đó, cơng tác tra, kiểm tra ngày trọng Tuy nhiên, cần phải nhìn nhận, cơng tác tra, kiểm tra cịn vấp phải nhiều khó khăn như: Việc lựa chọn trường hợp tra, kiểm tra chủ yếu dựa kinh nghiệm cán bộ; thiếu chế đánh giá có hiệu để lựa chọn người nộp thuế có rủi ro thuế đưa vào kế hoạch tra, kiểm tra; khả phân tích thơng tin, sử dụng ứng dụng tin học cán tra, kiểm tra hạn chế Bên cạnh đó, năm qua, số doanh nghiệp thành lập liên tục tăng Cán thuế nói chung cán làm công tác tra, kiểm tra nói riêng lại tăng Mặt khác, trình tự thủ tục hoạt động tra, kiểm tra theo quy định Luật tra, Luật quản lý thuế chặt chẽ, dẫn đến nguồn nhân lực ngành Thuế chưa đáp ứng yêu cầu để tiến hành tra, kiểm tra đảm bảo số lượng chất lượng Kinh nghiệm quản lý thuế số nước Hà Lan, Italia, Trung Quốc, việc xây dựng hệ thống văn pháp luật hoàn chỉnh, tuyền truyền nâng cao nhận thức cho người dân, tuyển chọn cơng chức có trình độ, thường xun đào tạo nghiệp vụ cho cơng chức thuế, ứng dụng cơng nghệ thơng tin việc phân tích đánh giá mức độ rủi ro để phát gian lận thuế quan tâm Đây xu giai đoạn Trong luận văn này, tập trung nghiên cứu số giải thuật khai phá liệu việc phát gian lận thuế để cải thiện hiệu công tác tra kiểm tra nhằm tăng thu ngân sách nhà nước Cục Thuế Tỉnh Vĩnh Long Đó lý chọn đề tài: “ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN THUẾ” Mục tiêu nhiệm vụ nghiên cứu 2.1 Mục tiêu Nghiên cứu việc áp dụng số kỹ thuật khai phá liệu tiêu biểu với sở liệu ngành thuế để tạo mơ hình tiên đốn xác định hành vi tn thủ khơng tn thủ người nộp thuế nhằm mục đích thu thuế hiệu Cục Thuế Tỉnh Vĩnh Long 2.2 Mục tiêu cụ thể Đề tài tập trung vào mục tiêu sau: (i) Nghiên cứu tài liệu liên quan đến phân tích rủi ro thuế để hiểu cách thức gian lận thuế Từ kết xuất xác thuộc tính liên quan cở sở liệu ngành thuế (ii) Lựa chọn số thuật toán khai phá liệu phù hợp để phát dấu hiệu tuân thủ không tuân thủ người nộp thuế (iii) Thực thử nghiệm liệu ngành thuế để tìm mơ hình tối ưu mối liên hệ thuộc tính (iv) Lập đề xuất dựa kết nghiên cứu Đối tượng phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu (a) Nghiên cứu lý thuyết - Nghiên cứu tài liệu phân tích rủi ro ngành thuế cơng bố ngồi nước; kết khảo sát có tính chất đánh giá nghiên cứu trước - Nghiên cứu tài liệu liên quan đến số thuật toán tiêu biểu phân cụm phân lớp như: Kmeans, J48, Naive Bayes (b) Nghiên cứu thực nghiệm 10 4.3.5 Bộ quy tắc (rule) trính xuất từ định Từ định phát triển thử nghiệm trên, tìm quy tắc (rule) đơn giản cách duyệt qua định Sau số quy tắc xác định có khả gian lận thuế trích từ định Hình 4.1-Cây định 81 KẾT LUẬN Việc ứng dụng công nghệ khai phá liệu ngày trở nên phổ biến có liên quan đến nhiều lĩnh vực thuế, bảo hiểm, hàng không, viễn thông, ngân hàng y tế Đặc biệt công nghệ khai phá liệu số quốc gia giới áp dụng để phát gian lận thuế mang lại kết khả quan Với nội dung nghiên cứu: “ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN LẬN THUẾ”, luận văn bước khởi đầu tìm hiểu tốn khai phá liệu, tìm hiểu vấn đề cần quan tâm khai phá liệu để từ đưa vào áp dụng thực tế Mặc dù kết khai phá phục vụ việc học tập chưa mang nhiều ý nghĩa thực tế đem lại ý nghĩa ban đầu việc áp dụng kỹ thuật khai phá để phát tri thức từ CSDL Kết nghiên cứu cho thấy công nghệ khai phá liệu đặc biệt phân cụm KMeans kỹ thuật phân loại định J48 áp dụng tốt nỗ lực phát gian lận thuế  Những kết mà luận văn đạt Do điều kiện thời gian chưa cho phép sâu nghiên cứu kỹ tất kỹ thuật khai phá liệu nên luận văn tập trung tìm hiểu thuật tốn KMeans, J48, Naive Bayes Qua hiểu ý nghĩa cơng dụng thuật toán, so sánh hiệu thuật toán, vấn đề quan tâm cải tiến thuật toán Áp dụng thử nghiệm số thuật toán khai phá liệu CSDL ngành Thuế Qua có rút số kinh nghiệm khai phá tri thức liệu thực: a) Công việc chuẩn bị liệu công việc quan trọng nhiều thời gian Thường liệu thực ln có vấn đề phải xử lý 82 liệu thiếu, chí CSDL thiểu hẳn thơng tin quan trọng cần cho khai phá b) Việc kết hợp với chuyên gia phân tích quan trọng để xác định thuộc tính dự báo đưa yêu cầu cần thiết thuộc tính đích xác định ngưỡng giá trị quan trọng  Hướng nghiên cứu Các nghiên cứu, thử nghiệm phạm vi luân văn mang tính học thuật nên chưa thể đưa vào áp dụng thực tế Nếu muốn áp dụng cơng tác quản lý thuế cần phải đầu tư nghiêm túc người kinh phí Trong đó, tập trung vào vấn đề sau: - Tiến hành nghiên cứu đánh giá kỹ thuật toán khai phá liệu CSDL lớn, phạm vi khai phá liệu rộng hơn, nhiều ngành nghề Dữ liệu lớn quy tắc xác định gian lận thuế hiệu Tuy nhiên, thực khai phá liệu phải chọn liệu có mức độ tương đồng với nhau, ví dụ như: ngành nghề, quy mơ,… - Trong trọng so sánh kết thử nghiệm phân tích rủi ro thuật toán khai phá liệu với thực tế kiểm tra, tra để bước cải tiến thuật tốn Tìm hiểu, nghiên cứu tri thức khai phá liệu để vận dụng vào thực tiễn xác - Cơng cụ WEKA hữu ích nghiên cứu học thuật Muốn áp dụng thuật tốn hiệu cơng tác quản lý thuế phải tự xây dựng thuật tốn để chủ động điều chỉnh thông số - Thuyết phục khởi đầu dự án xây dựng hệ thống phân tích thơng tin dựa công nghệ khai phá liệu phục vụ quản lý thuế, đôn đốc nợ tra kiểm tra Trong dự án có phối hợp chặt chẽ với chuyên gia phân tích nghiệp vụ bước chuẩn bị khai phá liệu đánh giá kết 83 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Thu Trà (2006), Nghiên cứu áp dụng số kỹ thuật khai phá liệu với sở liệu ngành thuế Việt Nam, Luận văn thạc sĩ ngành Công nghệ Thông tin, Trường Đại học Bách khoa Hà Nội Nguyễn Nhật Quang, Khai phá liệu, Trường Đại học Bách khoa Hà Nội Nguyễn Đặng Thế Vinh (2014), Khai phá liệu chọn ngành nghề cho học sinh THPT, Luận văn thạc sĩ ngành Khoa học máy tính, Trường Đại học Quốc tế Hồng Bàng Tiến sĩ Nguyễn Thị Thùy Dương, Kinh nghiệm quản lý rủi ro thuế số nước, Tạp chí Tài ngày 05/08/2017 Quyết định số 48/2006/QĐ-BTC ngày 14/09/2006 “Về việc ban hành Chế độ Kế tốn Doanh nghiệp nhỏ vừa” Thơng tư 200/2014/TT-BTC “Hướng dẫn chế độ kế toán doanh nghiệp” Quyết định số 2176/QĐ-TCT ngày 10/11/2015 “về việc quan thuế cấp áp dụng quản lý rủi ro công tác lập kế hoạch tra thuế, kiểm tra thuế trụ sở người nộp thuế” Tiếng Anh Amanpreet Chauhan, Gaurav Mishra, Gulshan Kumar,” Survey on Data Mining Techniques in Intrusion Detection”, International Journal of Scientific & Engineering Research Volume 2, Issue 7, July-2011 Farid Ameur, Mohamed Tkiouat, “Taxpayers Fraudulent Behavior Modeling the Use of Datamining in Fiscal Fraud Detecting 84 Moroccan Case”, Applied Mathematics Vol.3 No.10(2012), Article ID:23374,7 pages 10 Information System Science Master’s Thesis Jani Martikainen (2012), ”Data mining in Tax Administratotion – Using Analytics to Enhance Tax compliance” 11 Memorie Mwanza1 and Jackson Phiri , “Fraud Detection on Bulk Tax Data Using Business Intelligence Data Mining Tool: A Case of Zambia Revenue Authority”, International Journal of Advanced Research in Computer and Communication Engineering Vol 5, Issue 3, March 2016 12 Roung-ShiunnWu, C.S.Ou, Hui-yingLin, She-Ichang, David C.Yen, “Using data mining technique to enhance tax evasion detection performance”, Expert Systems with Applications, Volume 39, Issue 10, August 2012, Pages 8769-8777 13 Badr HSSINA, Abdelkarim MERBOUHA, Hanane EZZIKOURI, Mohammed ERRITALI, “A comparative study of decision tree ID3 and C4.5”, Faculty of sciences and techniques Sultan Moulay Slimane University 85 PHỤ LỤC Phụ lục 1- Bảng liệu huấn luyện thuật toán Kmeans Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 3.93 0.04 0.28 0.83 0.02 0.07 0.73 7.24 class0 3.62 0.04 0.23 0.83 0.02 0.09 0.67 6.02 class2 2.78 0.04 0.21 0.84 0.02 0.14 0.7 5.34 class2 -35.57 -0.36 1.28 0.07 16.46 class2 -8.28 -0.08 1.02 0.06 32.19 class2 -32.35 -0.32 1.16 0.17 47.6 class2 -15.92 -0.16 -0.65 0.88 0.27 0.01 0.77 4.1 class2 -5.28 -0.05 -0.54 0.86 0.19 0.39 0.89 10.18 class2 0 0 0 0.24 class2 19.17 0.43 0.01 0.4 0.17 2.16 0.51 0.03 class2 3.5 0.26 0.01 0.72 0.02 0.36 0.49 0.2 class2 0.21 0.02 0.07 0.95 0.05 0.42 0.73 5.19 class2 6.29 0.07 0.25 0.9 0.04 0.33 0.75 3.9 class2 -0.18 0.01 0.02 0.98 0.03 0.12 0.78 8.71 class2 -3.98 0.01 0.14 0.95 0.02 0.1 0.83 19.35 class2 -10.48 -0.13 -0.14 0.96 0.18 0.02 0.23 1.06 class2 -20.37 -0.13 -0.08 0.93 0.37 0.05 0.18 0.6 class2 -14.37 -0.01 -0.01 0.98 0.2 0.08 0.86 0.64 class2 18.72 0.19 0.34 0.63 0.18 0.02 0.47 1.79 class1 19.98 0.19 0.21 0.63 0.17 0.01 0.36 1.1 class2 13.54 0.13 0.26 0.69 0.18 0.2 1.98 class2 -35.35 -0.23 0.97 0.24 0.02 1.02 class2 -227.94 -0.94 1.57 0.09 1.33 class0 -448.3 -1.75 2.75 1.69 class2 -45.06 -0.23 0.96 0.26 0.22 1.49 class2 -49.19 -0.12 0.96 0.09 0.21 2.07 class1 -41.13 -0.05 0.83 0.28 0.37 2.24 class2 3.21 0.04 0.09 0.79 0.11 0.29 0.35 2.3 class2 … 86 Class Phụ lục 2- tốt Kmeans === Run information === Scheme: weka.clusterers.SimpleKMeans -init -max-candidates 100 -periodic-pruning 10000 -min-density 2.0 -t1 -1.25 -t2 -1.0 -N -A "weka.core.EuclideanDistance -R first-last" -I 500 -num-slots -S 150 Relation: TrainData_clusterweka.filters.unsupervised.attribute.Remove-R1-2 Instances: 290 Attributes: Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 Ignored: Class Test mode: Classes to clusters evaluation on training data === Clustering model (full training set) === kMeans ====== Number of iterations: Within cluster sum of squared errors: 11.738942450726224 Initial starting points (random): Cluster 0: -1.8,0,-0.05,0.94,0.06,0.19,0.75,17.66 Cluster 1: -20.37,-0.13,-0.08,0.93,0.37,0.05,0.18,0.6 Cluster 2: -0.02,0,0,0.95,0.04,0.04,0.27,1.91 Missing values globally replaced with mean/mode Final cluster centroids: Cluster# Full Data (290.0) (8.0) (12.0) (270.0) ======================================================= Tieuchi5 -16.9696 -57.5525 -285.7592 -3.8209 Tieuchi6 -0.1184 -0.4963 -2.3392 -0.0086 Tieuchi8 -2.6578 -99.7725 -0.0208 0.1025 Tieuchi9 0.7025 1.2275 1.4142 0.6553 Tieuchi11 0.264 0.2575 3.0325 0.1412 Tieuchi14 1.9006 0.59 36.0208 0.423 Tieuchi15 1.3844 19.2775 1.0292 0.87 Tieuchi16 5.2373 71.4038 0.025 3.5084 Attribute 87 Time taken to build model (full training data) : seconds === Model and evaluation on training set === Clustered Instances ( 3%) 12 ( 4%) 270 ( 93%) Class attribute: Class Classes to Clusters: 1 < assigned to cluster 17 | class0 219 | class2 34 | class1 Cluster < class0 Cluster < class1 Cluster < class2 Incorrectly clustered instances : 66.0 88 22.7586 % Phụ lục 3-Bảng liệu huấn luyện cho thuật toán phân lớp Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 Cluster 3.93 0.04 0.28 0.83 0.02 0.07 0.73 7.24 cluster2 3.62 0.04 0.23 0.83 0.02 0.09 0.67 6.02 cluster2 2.78 0.04 0.21 0.84 0.02 0.14 0.7 5.34 cluster2 0 0 0 0 cluster2 0 0 0 0.18 cluster2 0 0 0 0.18 cluster2 -35.57 -0.36 1.28 0.07 16.46 cluster2 -8.28 -0.08 1.02 0.06 32.19 cluster2 -32.35 -0.32 1.16 0.17 47.6 cluster0 -15.92 -0.16 -0.65 0.88 0.27 0.01 0.77 4.1 cluster2 -5.28 -0.05 -0.54 0.86 0.19 0.39 0.89 10.18 cluster2 0 0 0 0.24 cluster2 19.17 0.43 0.01 0.4 0.17 2.16 0.51 0.03 cluster2 3.5 0.26 0.01 0.72 0.02 0.36 0.49 0.2 cluster2 0.21 0.02 0.07 0.95 0.05 0.42 0.73 5.19 cluster2 6.29 0.07 0.25 0.9 0.04 0.33 0.75 3.9 cluster2 -0.18 0.01 0.02 0.98 0.03 0.12 0.78 8.71 cluster2 -3.98 0.01 0.14 0.95 0.02 0.1 0.83 19.35 cluster2 -10.48 -0.13 -0.14 0.96 0.18 0.02 0.23 1.06 cluster2 -20.37 -0.13 -0.08 0.93 0.37 0.05 0.18 0.6 cluster2 -14.37 -0.01 -0.01 0.98 0.2 0.08 0.86 0.64 cluster2 18.72 0.19 0.34 0.63 0.18 0.02 0.47 1.79 cluster2 19.98 0.19 0.21 0.63 0.17 0.01 0.36 1.1 cluster2 13.54 0.13 0.26 0.69 0.18 0.2 1.98 cluster2 -35.35 -0.23 0.97 0.24 0.02 1.02 cluster2 -227.94 -0.94 1.57 0.09 1.33 cluster1 -448.3 -1.75 2.75 1.69 cluster1 -45.06 -0.23 0.96 0.26 0.22 1.49 cluster2 … … … … … … … … … 89 Phụ lục 4-Bảng liệu kiểm thử cho thuật toán phân lớp Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 Cluster -4.1 -0.01 0.88 0.14 0.7 1.06 cluster1 4.99 0.05 0.18 0.79 0.17 0.61 3.48 cluster1 2.98 0.03 0.09 0.95 0.02 0.12 0.43 3.29 cluster1 -505.05 -3.99 -0.08 5.88 0.42 0.05 0.02 cluster1 5.99 0.07 0.17 0.82 0.12 0.06 0.58 2.62 cluster1 1.07 0.03 0.07 0.9 0.05 0.09 0.75 6.25 cluster1 -38.18 -0.24 1.18 0.06 0.06 1.08 cluster1 15.92 0.22 0.19 0.6 0.2 1.28 0.39 0.86 cluster1 0 0 0 0.53 cluster1 25.83 0.26 0.17 0.7 0.05 0.12 0.08 0.67 cluster1 0 -0.27 0 0.89 cluster1 4.52 0.07 0.13 0.91 0.02 0.23 0.73 2.87 cluster1 0.73 0.02 0.03 0.95 0.02 0.14 0.44 3.3 cluster1 3.43 0.07 0.02 0.81 0.13 0.15 0.48 cluster1 0.14 0.01 0.02 0.96 0.01 0.04 0.63 18.73 cluster1 20.06 0.2 0.51 0.5 0.3 0.04 0.55 2.52 cluster1 -36.79 -0.38 -27.96 0.74 0.57 0.93 62.8 cluster1 -0.21 0.06 -0.01 0.71 0.19 0.2 0.74 2.99 cluster1 -227.94 -0.94 1.57 0.09 1.33 cluster0 8.52 0.09 0.31 0.9 0.02 0.34 3.63 cluster0 -492.2 -4.92 4.25 1.67 6.46 1.27 cluster1 -0.33 0.01 0.3 0.95 0.01 0.02 0.39 26.22 cluster1 15.1 0.16 0.17 0.67 0.06 0.26 0.22 1.13 cluster0 0.83 0.01 0 10.95 0.84 0.01 cluster1 -49.19 -0.12 0.96 0.09 0.21 2.07 cluster1 7.77 0.08 0.16 0.9 0.01 0.1 0.12 2.02 cluster0 16.43 0.17 0.63 0.73 0.1 0.02 0.6 3.82 cluster0 -18.62 -0.15 -0.04 0.72 0.56 0.01 0.04 0.27 cluster1 3.25 0.03 0.03 0.15 0.59 0.03 0.01 1.1 cluster0 … … … … … … … … … 90 Phụ lục 5-Kết phân lớp tốt J48 === Run information === Scheme: Relation: Instances: Attributes: Test mode: weka.classifiers.trees.J48 -C 0.25 -M Traindata_Class 290 Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 Cluster evaluate on training data === Classifier model (full training set) === J48 pruned tree -Tieuchi11 1.05 | Tieuchi16 0.03: cluster2 (4.0/1.0) Number of Leaves Size of the tree : : 13 Time taken to build model: seconds === Evaluation on training set === Time taken to test model on training data: seconds === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error 288 0.9446 0.0077 0.0621 91 99.3103 % 0.6897 % Relative absolute error Root relative squared error Total Number of Instances 8.5002 % 29.7545 % 290 === Detailed Accuracy By Class === TP Rate PRC Area Class 1.000 0.945 0.998 1.000 1.000 1.000 1.000 1.000 0.833 0.910 0.997 0.935 Weighted Avg 0.993 0.945 0.998 0.997 FP Rate Precision Recall F-Measure 1.000 0.996 1.000 1.000 0.833 0.909 0.993 0.993 MCC ROC Area 0.100 0.993 cluster2 0.000 1.000 cluster0 0.000 1.000 cluster1 0.093 0.993 === Confusion Matrix === a b c < classified as 270 0 | a = cluster2 | b = cluster0 10 | c = cluster1 === Re-evaluation on test set === User supplied test set Relation: Testdata_class Instances: unknown (yet) Reading incrementally Attributes: === Summary === Correctly Classified Instances Incorrectly Classified Instances 54 Kappa statistic 0.012 Mean absolute error 0.6162 Root mean squared error 0.7826 Total Number of Instances 58 === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall ROC Area PRC Area Class ? 0.897 0.000 ? ? ? cluster2 0.053 0.026 0.500 0.053 0.069 0.513 0.337 cluster0 0.077 0.053 0.750 0.077 0.045 0.549 0.691 cluster1 Weighted Avg 0.069 0.044 0.668 0.069 0.053 0.537 0.575 === Confusion Matrix === a b c < classified as 0 | a = cluster2 17 1 | b = cluster0 35 | c = cluster1 92 6.8966 % 93.1034 % F-Measure MCC ? ? 0.095 0.140 0.125 Phụ lục 6-Kết phân lớp tốt Naive Bayes === Run information === Scheme: Relation: Instances: Attributes: Test mode: weka.classifiers.bayes.NaiveBayes Traindata_Class 290 Tieuchi5 Tieuchi6 Tieuchi8 Tieuchi9 Tieuchi11 Tieuchi14 Tieuchi15 Tieuchi16 Cluster split 70.0% train, remainder test === Classifier model (full training set) === Naive Bayes Classifier Class cluster2 cluster0 cluster1 (0.92) (0.03) (0.04) ========================================== Tieuchi5 mean -3.9111 -57.7078-285.8857 std dev 26.679 123.4091 196.5097 weight sum 270 12 precision 2.6532 2.6532 2.6532 Attribute Tieuchi6 mean std dev weight sum precision -0.0112 0.2697 270 0.0861 -0.4952 1.027 0.0861 -2.3326 1.9486 12 0.0861 Tieuchi8 mean std dev weight sum precision 0-100.3933 1.5748 255.0706 270 9.4488 9.4488 1.5748 12 9.4488 Tieuchi9 mean std dev weight sum precision 0.6544 0.3767 270 0.0668 1.2265 0.7304 0.0668 1.4184 1.5897 12 0.0668 Tieuchi11 mean std dev 0.1304 0.2547 0.2527 0.3262 3.0463 2.7838 93 weight sum precision 270 0.1685 0.1685 12 0.1685 Tieuchi14 mean std dev weight sum precision 0.3303 2.358 270 2.2293 0.5573 0.9653 2.2293 36.0401 55.983 12 2.2293 Tieuchi15 mean std dev weight sum precision 0.8831 2.582 270 0.8546 19.228 34.4703 0.8546 0.997 0.5873 12 0.8546 Tieuchi16 mean std dev weight sum precision 3.494 6.234 270 1.0995 71.3308 62.1015 1.0995 0.1833 12 1.0995 Time taken to build model: seconds === Evaluation on test split === Time taken to test model on test split: seconds === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Relative absolute error Root relative squared error Total Number of Instances 84 0.6506 0.024 0.1477 29.4828 % 95.2948 % 87 96.5517 % 3.4483 % === Detailed Accuracy By Class === TP Rate FP Rate Precision PRC Area Class 0.964 0.000 1.000 0.694 0.996 1.000 cluster2 ? 0.000 ? ? ? cluster0 1.000 0.036 0.500 0.694 1.000 1.000 cluster1 Weighted Avg 0.966 0.001 0.983 0.694 0.996 1.000 Recall F-Measure 0.964 0.982 ? ? 1.000 0.667 0.966 0.971 MCC ROC Area === Confusion Matrix === 94 ? a 81 0 b 0 c < classified as | a = cluster2 | b = cluster0 | c = cluster1 === Re-evaluation on test set === User supplied test set Relation: Testdata_class Instances: unknown (yet) Reading incrementally Attributes: === Summary === Correctly Classified Instances Incorrectly Classified Instances Kappa statistic Mean absolute error Root mean squared error Total Number of Instances 52 0.0246 0.5977 0.7731 58 10.3448 % 89.6552 % === Detailed Accuracy By Class === TP Rate FP Rate Precision PRC Area Class ? 0.862 0.000 ? ? cluster2 0.053 0.026 0.500 0.069 0.546 0.384 cluster0 0.128 0.053 0.833 0.116 0.559 0.762 cluster1 Weighted Avg 0.103 0.044 0.724 0.101 0.555 0.638 Recall F-Measure MCC ? ? ? 0.053 0.095 0.128 0.222 0.103 0.181 ROC Area === Confusion Matrix === a 17 33 b 1 c < classified as | a = cluster2 | b = cluster0 | c = cluster1 95 ... sử dụng phương pháp Nguồn lực đáp ứng Việc phát gian lận thuế thực công cụ khai phá liệu để phân tích, dự đốn thống kê máy vi tính Các kỹ thuật khai phá liệu sử dụng chủ yếu để phát gian lận. .. THUẾ CHƯƠNG 4: THỬ NGHIỆM MỘT SỐ THUẬT TOÁN KHAI PHÁ DỮ LIỆU ĐỂ PHÁT HIỆN GIAN LẬN THUẾ KẾT LUẬN TÀI LIỆU THAM KHẢO PHỤ LỤC 12 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Quá trình khai phá liệu. .. việc phát gian lận thuế để cải thiện hiệu công tác tra kiểm tra nhằm tăng thu ngân sách nhà nước Cục Thuế Tỉnh Vĩnh Long Đó lý chọn đề tài: ? ?ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG PHÁT HIỆN GIAN

Ngày đăng: 01/08/2021, 11:42

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Thu Trà (2006), Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam, Luận văn thạc sĩ ngành Công nghệ Thông tin, Trường Đại học Bách khoa Hà Nội Sách, tạp chí
Tiêu đề: Nguyễn Thu Trà (2006), "Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sở dữ liệu ngành thuế Việt Nam
Tác giả: Nguyễn Thu Trà
Năm: 2006
4. Tiến sĩ Nguyễn Thị Thùy Dương, Kinh nghiệm quản lý rủi ro về thuế của một số nước, Tạp chí Tài chính ngày 05/08/2017 Sách, tạp chí
Tiêu đề: Tiến sĩ Nguyễn Thị Thùy Dương, "Kinh nghiệm quản lý rủi ro về thuế của một số nước
5. Quyết định số 48/2006/QĐ-BTC ngày 14/09/2006 “Về việc ban hành Chế độ Kế toán Doanh nghiệp nhỏ và vừa” Sách, tạp chí
Tiêu đề: Quyết định số 48/2006/QĐ-BTC ngày 14/09/2006 “"Về việc ban hành Chế độ Kế toán Doanh nghiệp nhỏ và vừa
7. Quyết định số 2176/QĐ-TCT ngày 10/11/2015 “về việc cơ quan thuế các cấp áp dụng quản lý rủi ro trong công tác lập kế hoạch thanh tra thuế, kiểm tra thuế tại trụ sở người nộp thuế”.Tiếng Anh Sách, tạp chí
Tiêu đề: “về việc cơ quan thuế các cấp áp dụng quản lý rủi ro trong công tác lập kế hoạch thanh tra thuế, kiểm tra thuế tại trụ sở người nộp thuế”
8. Amanpreet Chauhan, Gaurav Mishra, Gulshan Kumar,” Survey on Data Mining Techniques in Intrusion Detection”, International Journal of Scientific &amp; Engineering Research Volume 2, Issue 7, July-2011 Sách, tạp chí
Tiêu đề: ” Survey on Data Mining Techniques in Intrusion Detection”
10. Information System Science Master’s Thesis Jani Martikainen (2012), ”Data mining in Tax Administratotion – Using Analytics to Enhance Tax compliance” Sách, tạp chí
Tiêu đề: ”Data mining in Tax Administratotion – Using Analytics to Enhance Tax compliance
Tác giả: Information System Science Master’s Thesis Jani Martikainen
Năm: 2012
11. Memorie Mwanza1 and Jackson Phiri , “Fraud Detection on Bulk Tax Data Using Business Intelligence Data Mining Tool: A Case of Zambia Revenue Authority”, International Journal of Advanced Research in Computer and Communication Engineering Vol. 5, Issue 3, March 2016 Sách, tạp chí
Tiêu đề: “Fraud Detection on Bulk Tax Data Using Business Intelligence Data Mining Tool: A Case of Zambia Revenue Authority”
12. Roung-ShiunnWu, C.S.Ou, Hui-yingLin, She-Ichang, David C.Yen, “Using data mining technique to enhance tax evasion detection performance”, Expert Systems with Applications, Volume 39, Issue 10, August 2012, Pages 8769-8777 Sách, tạp chí
Tiêu đề: “Using data mining technique to enhance tax evasion detection performance”
13. Badr HSSINA, Abdelkarim MERBOUHA, Hanane EZZIKOURI, Mohammed ERRITALI, “A comparative study of decision tree ID3 and C4.5”, Faculty of sciences and techniques Sultan Moulay Slimane University Sách, tạp chí
Tiêu đề: A comparative study of decision tree ID3 and C4.5
3. Nguyễn Đặng Thế Vinh (2014), Khai phá dữ liệu chọn ngành nghề cho học sinh THPT, Luận văn thạc sĩ ngành Khoa học máy tính, Trường Đại học Quốc tế Hồng Bàng Khác
9. Farid Ameur, Mohamed Tkiouat, “Taxpayers Fraudulent Behavior Modeling the Use of Datamining in Fiscal Fraud Detecting Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w