1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu một số phương pháp phân cụm mờ và ứng dụng vào phân tích thông tin rủi ro trong quản lý thuế doanh nghiệp

74 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

BO GIAO DUC VA DAO TAO ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYÊN TRUNG HIẾU TÌM HIỂU MỘT SỐ PHƯƠNG PHÁP PHAN CUM MO VA UNG DUNG VAO PHAN TICH THONG TIN RUI RO TRONG QUAN LY THUE DOANH NGHIEP CHUYEN NGANH: KHOA HOC MAY TINH MA SO: 8.48.01.01 LUAN VAN THAC SI KHOA HOC DINH HUGNG UNG DUNG NGƯỜI HƯỚNG DAN KHOA HOC TS NGUYEN CONG HAO Thừa Thiên Huế, 2020 Lkhix €A As (x) = (1.1) khix €A Mic da Aa va A la hai déi tuong toan hoc hoan toan khac nhau, nhung chung biểu diễn khái niệm tập hop: x € A va chi Aa (x) = 1, hay x thuộc vào tập A với “độ thuộc vào” 1, vi vay ham Aa duoc gọi hàm đặc trưng tập A Như tập hợp A co thể biểu thị mot ham ma gia tri độ thuộc hay đơn giản độ thuộc phần tử X vào tập hợp A: Néu Aa (x) = x € A với độ thuộc hay 100% thudc vao A, néu Aa (x) = thi x £ A với độ thuộc hay không thuộc vao A 1.1.1 Khái niệm tập mờ Định nghĩa 1.1 Cho tập vũ trụ X Tập hợp A~ xác định đẳng thức: A“={z(u)/u:u€X,/-(u) €[0, I]} gọi tập hợp mờ tập X Biến z lẫy giá trị X gọi biển sở tập X cịn gọi tập tham chiếu hay miễn sở Hàm ¿4~ : X [0 1] gọi hàm thuộc (membership function) giá tri a-{0) u gọi độ thuộc phan tử u, thuộc tap hop mo A” Néu không gây nhằm lẫn, hàm thuộc a- ký hiệu A“() biến sở không biểu thị hay A*(u) biến u xuất Lưu ý phải định nghĩa A~ tập kinh điển định nghĩa hoàn chỉnh họ tất tập mờ miễn sởX ký hiệu FX), F(X)= {wa XD [0, 1] } = [0, IP} Có nhiều cách biểu diễn hình thức tập mờ trường hợp X tập hữu hạn đếm hay vô hạn liên tục tập mờ A“ biểu diễn biểu thức sau: Trong trường hợp X hữu hạn, X = {u¡ :1= l1,2, }, ta viết: A~=„-(0ï)//u0ị Ð/A-(02)/02 + +//4-(0n)/ Ủn (cực đại toàn phần), ký hiệu giá trị khử 4“ theo phương pháp cực đại trung bình DAvemax(A^) Khi DAvemax(4”) định nghĩa sau: Davemax (41) = umin + umax Ý tưởng phương pháp quan tâm đến giá trị X mà phù hợp hay tương thích với ngữ nghĩa tập mờ 4” độ thuộc cực đại tồn phân, giá trị khác X mà độ thuộc nhỏ bị bỏ qua Vì vậy, khả lựa chọn giá trị khử mờ giá trị trung bình giá trị nhỏ giá trị lớn độ thuộc vào tập mờ lớn lý người ta gọi phương pháp khử mờ phương pháp cực đại trung bình b) Phương pháp cực đại trung bình có trọng số Ý tưởng phương pháp tìm đoạn hàm thuộc /4 đạt cực đại địa phương, nghĩa giá trị miễn sở mà độ thuộc chúng đạt cực đại địa phương Nói khác giá trị u thuộc tập mờ 4“ với độ tin cậy có độ trội nhất, giá trị cần tham gia “đóng góp” vào việc xác định giá trị khử mờ tập 4F với trọng số đóng góp độ thuộc chúng vào tập 4” Chúng ta chọn cách đóng góp phương pháp lấy trung bình có trọng số (weighted average maxima method) cách tính giá trị khử mờ tập mờ 4” sau: Xác định giá trị u mả hàm thuộc /4~ đạt giá trị cực đại địa phương ký hiệu zmin; mai giá trị nhỏ lớn giá trị X ma tai ham thuộc đạt cực đại địa phương, giá trị trung bình cộng ¡wim¡ umaxi ký hiệu „avemaxi số giá trị tương ứng với giá trị cực đại địa phương thứ Giả sử hàm thuộc #4 có m giá trị cực đại địa phương, ? = 1, 2, , Khi giá trị khử mờ tập mờ 4ˆ tính theo cơng thức trung bình cộng có trọng số sau: Dự w-AveMax = m dig diy 14 -(uavemax) uavemax XZ, u(wavemax) Điều kiện dừng: trọng tâm cụm khơng thay đổi - Đánh giá thuật tốn: Độ phức tạp tính tốn O((3»kđ) liệu, z 7°) Trong đó, ø số đối tượng số cụm liệu, đ số chiều, số vòng lặp, thời gian dé thực phép tính sở phép tính nhân, chia - Ưu điểm: K-means phân tích phân cụm đơn giản nên có thê áp đụng tập liệu lớn - Nhược điểm: K-means không khắc phục nhiễu giá trị & phải cho người đùng thích hợp áp dụng với liệu có thuộc tính số khám phá cụm có dạng hình cầu b) Thuật toán K_MEDOIDS (PAM) Giải thuật K-means nhạy với phần tử ngoại lai, đối tượng giá trị cực lớn làm thay đổi tâm cụm bóp méo phân bồ liệu ban đầu Tâm cụm khơng có phần tử ngoại lai Tâm cụm có phản tử ngoại lai Hình 2.4: Sự thay đơi tâm cụm K-means có phân tử ngoại lai Ý tưởng K-medoids thay lấy giá trị trung bình đối tượng cụm điểm tham khảo, K-medoids lay đối tượng đại diện cụm, gọi međọd điểm đại diện định vị trung tâm cụm Do vậy, phương pháp phân chia thực dựa nguyên tắc tối thiểu hố tổng độ khơng tương đồng đối tượng với điểm tham khảo tương ứng điểm thiết lập nên sở phương phap K-mediods 24 DANH MUC BANG BIEU Trang Bang 3.1: Mô tả thông tin tiêu cột liệu thuộc tập liệu J1 HỤE2019:5]SXeserssgeicniciotittibtÐEttlefÐttflGGEIESIGENISIIGHSNISUSMSINEAIGuB3x0ninai 53 Bang 3.2: Kết tính F với số cụm e = [3,Š] -©22222222222221211222122112112 xe 57 Bang 3.3: Kết phân cụm doanh nghiệp tập liệu THUE2019.xlsx 57 Bang 3.4: So sánh kết phân cụm liệu THUE2019.xlsx với thông tin rủi ro vi phạm thuế 22: 2s 221221122112111211111211111121121121121222222 re 58 Bang 3.5: Xác định doanh nghiệp thuộc cum 2.0 ccc eececeeeeeeeeeeneeneeseeeeeens 59 iv DANH MỤC HÌNH Trang Hinh 1.1: Biểu diễn hàm số Âa . -22222 22122212211221211211211222222 e6 Hinh 1.2: l1] Hinh 2.1: Ví dụ phân cụm liệu - S2: Seo Hinh 2.2: Ví dụ phân cụm nhà dựa khoảng cách 18 Hinh 2.3: Vi dụ phân cụm ngơi nhà dựa kích cở .ccccccsccsc°: 18 Hinh 2.4: Sự thay đổi tâm cụm K-means có phần tử ngoại lai 24 Hinh 2.5: Phân cụm phân cấp Top-down Bottom-up 2ss22szs2szszsccz 26 Hinh 2.6: Hinh 2.7: Liên kết đơn 5c 222221 t2 HH re Ø7 kể KÔNHÏinunnunsgnsnrntnottiDnfingotDERHGHEJ004000DB0/080000010000000005700:008.701N00910000n80 27 Hinh 2.8: Khái quát thuật toan CHAMELEON Hinh 2.9: Cấu trúc phân cụm dựa lưới - ¿+ sc St ‡sEsrstxsreerrerrrrsres -daaii.A 11 16 Hinh 2.10: Vi dụ phân cụm dựa mơ hình [Š] -c5: 5S ‡sxsvsrxsrrersrrsres 33 Hinh 2.11: Quá trình ước lượng số cụm tối ưu dựa độ chồng độ nén dỮ THẾ 20106600115 SLTDEBSEGNBEEEEHEUEEIEHEEETEEGSIEERSBEHEEISDSNSERSHBIPSEplleell 46 Hinh 2.12: Đề xuất phương án lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao 49 Hinh 3.1: Kết phân cụm liệu với sé cum c= [3.5] - c. -c° 56 Hinh 3.2: Kết phân cụm liệu với tập liệu THUE⁄2019.xIsx 58 Hinh 3.3: Mô tập liệu B”(1), Cụm Hinh 3.4: Mô tập liệu B”(2), Cụm .c2: 2S nhirrrerre 62 Hinh 3.5: Mô tập liệu B”(2), Cụm c2: se neiherereere 62 Hinh 3.6: Mô tập liệu B, chia làm Cụm -:- -: 63 l .-òcc Series 61 DANH MUC CAC KY HIEU VA CAC TU VIET TAT TIENG VIET Viết tắt Thuật ngữ Tiếng Việt Giải thích GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng MST Mã số thuế Mã số thuế doanh nghiệp HTM Hàm mục tiêu DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TAT TIENG ANH Viết tắt Thuật ngữ Tiếng Anh Giải thích FCM Fuzzy C-Means Một thuật toán phân cụm mờ EM Epsilon Giá trị mục tiêu tối thiểu CURE | KFCM | Clustering Using Representatives | Phan cum liệu sử dụng đại diện Kernel Fuzzy Clustering Means Phương tiện phân cụm mờ PAM Partitioning Around Methoids Phân vùng xung quanh Methoids STING STatistical Information Grip aquproadl pak Phuong phap tiép can thong tin ee Compactness oe Overlap VI MO DAU Nộp thuế vừa trách nhiệm vừa nghĩa vụ công dân để góp phần xây dựng đất nước Đề tránh xảy vi phạm nghĩa vụ đối tượng nộp thuế gây thất thoát nguồn thu cho ngân sách, tạo bình đẳng cơng xã hội nghĩa vụ nộp thuế cơng tác thanh, kiểm tra thuế cần tăng cường nhằm ngăn ngừa, phát xử lý kịp thời vi phạm vẻ thuế Việc thanh, kiểm tra cần đại hóa từ khâu quản lý thuế, đặc biệt thời kỳ 4.0 hành vi trốn tránh nghĩa vụ nộp thuế ngày tỉnh vi Với tính chất đa dạng phức tạp liệu kho liệu người nộp thuế, cần thiết phải có hướng nghiên cứu cách tổ chức kho liệu để trích xuất thơng tin phù hợp Phân cụm phương pháp nghiên cứu phô biến nay, phân cụm mờ công cụ hữu hiệu tốn phân tích thơng tin Mục tiêu phân cụm chia nhỏ đối tượng vào cụm cho đối tượng cụm tương đồng với Phân cụm có nhiều ứng dụng thương mại, giúp nhà cung cấp biết nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu sở liệu khách hàng Phân cụm mờ phương pháp phân cụm đữ liệu mở rộng điểm liệu thuộc hai hay nhiều cụm với gia tri ham thuộc tương ứng Năm 1969, Ruspini[9] giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụm mờ, đến năm 1973, Dunn[10] mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ, ý tưởng thuật toán xây đựng phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Sau đó, Bezdek[8] cải tiến tổng quát hóa hàm mục tiêu mờ cách thêm trọng số mũ, có nhiều biến thể phân cụm mờ ứng dụng toán khác Mục tiêu đề tài ứng dụng thuật toán phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở đữ liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủi ro 300 doanh nghiệp sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ hệ thống phân tích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chương 1: Tổng quan lý thuyết tập mờ Chương giới thiệu cách khái quát lý thuyết tập mờ, giai đoạn tập mờ liệu, biến ngơn ngữ phép tốn tập mờ Chương 2: Một số phương pháp phân cụm mờ Chương giới thiệu phân cụm liệu, mục tiêu, số yêu cầu phân cụm liệu số kỹ thuật tiếp cận phân cụm liệu Đồng thời, đề cập đến thuật toán phân cụm mờ có thuật tốn Fuzzy Clustering Means (FCM) phương pháp xác định số cụm gom cụm liệu Chương 3: Ứng dụng vào phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Chương để cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thơng tin tờ khai thuế, báo cáo tài doanh nghiệp 300 doanh nghiệp Cuối đưa kết khoanh vùng lựa chọn nhóm doanh nghiệp mức rủi ro quản lý thuế Chuong 1: TONG QUAN LY THUYET TAP MO Người ta hay nhằm lẫn mức độ với xác suất, nhiên hai khái niệm khác han nhau, độ đẫn logic mo biểu diễn độ liên thuộc với tập định nghĩa không rõ ràng khả xảy biến cố hay điều kiện Logie mờ cho phép độ liên thuộc có giá trị khoảng đóng 1, hình thức ngơn từ, khái niệm khơng xác "hơi hơi", "oan như", "khá là" "rất", cu thể cho phép quan hệ thành viên khơng đầy đủ thành viên tập hợp Tính chất có liên quan đến tập mờ lý thuyết xác suất, logic mo đưa lần vào năm 1965 GS Lotfi Zadeh Đại học California, Berkeley Mặc dù chấp nhận rộng rãi có nhiều ứng dụng thành cơng, logie mờ bị phê phán số cộng đồng nghiên cứu 1.1 TAP MO VA THONG TIN KHONG CHAC CHAN L Zadeh người sáng lập lý thuyết tập mờ với hàng loạt báo mở đường cho phát triển ứng dụng lý thuyết này, khởi đầu bai bao “Fuzzy Sets” Tạp chí Information and Control, 8, 1965 Y tuong bật khái niệm tập mờ Zadeh từ khái niệm trừu tượng ngữ nghĩa thông tin mờ, không chăn trẻ, nhanh, cao-thấp, xinh đẹp , ông tìm cách biểu diễn khái niệm toán học, gọi tập mờ, khái quát trực tiếp khái niệm tập hợp kinh điển (tập cô điển) [1] Đề dễ hiểu nhớ lại cách nhìn khái niệm tập hợp kinh điển khái niệm hàm số Cho tập vũ trụ X tập tất tập X ký hiệu P(A) trở thành đại số i(a)=l | aT tập hợp với phép tính hợp U , giao 1, hiéu \ lấy phan bu -, (P(X), U,0, \, -) Bây tap hop A € P(X) hàm số 4A : X > c6 thể xem {0, 1} xác định sau: () Hình 1.1 Biéu dién ham sé As + Có cột tương ứng với giá trị vốn đầu tư chủ sở hữu (số cuối kỳ) báo cáo tài doanh nghiệp -300 hàng tương ứng với liệu tờ khai khấu trừ thuế GTGT báo cáo tài 300 doanh nghiệp Chỉ tiết tiêu thuộc tờ khai thuế khấu trừ GTGT va báo cáo tài doanh nghiệp tập liệu thể bảng 3.1 sau: Bang 3.1: M6 ta thong tin tiêu cột đữ liệu thuộc tập đữ liệu 1HUE2019.xilsx STT Mà CHỈ Ặ ^ TIỂU a KIEU DU TEN CHI TIEU l LIEU GHI CHỦ Các cột chứa giá trị tiêu thuộc tờ khai thuế GTGT #34 N93 Tổng doanh - thu hàng hóa dịch vụ bán kỳ hinh sô hàng ne dich vu my Kiêu sô Khẩu mua vào kỳ #35 #24 #29 #25 #43 Tổng số - thuế tờ hàng hóa, dịch vụ bán kỳ Số thuế GTGT hàng - hóa, dịch vụ mua vào Doanh số hàng hóa, dịch vụ a bán chịu thuê suât % Tổng Lấy giá trị số thuế GTGT ns Sous khâu trừ kỳ Thuế GTGT khấu trừ chuyên kỳ sau kB Kiêu sô Kiêu sô khai khâu trừ thuế GTGT cà kỳ kiêm tra va kỳ % ign trước "= Kiêu sô - Kiểu số Si Kiêu sô Ấy giá trị trê | LÂY 8i tị tờ khai GTGT LẢ thuê kỳ kiêm tra Cột chứa giá trị tiêu thuộc báo cáo tài doanh nghiệp #411 ei Von dau tư chủ sở hữu ek Kiêu sô Lay giá trị số cuối kỳ (6/2019) Luận văn lựa chọn lay giá trị số tiêu tờ khai khấu trừ thuế GTGT kỳ liền trước đó, giá trị tờ khai khấu trừ thuế GTGT kỳ kiểm tra, 53 vốn đầu từ chủ sở hữu tiêu có ý nghĩa quan trọng việc đánh giá doanh nghiệp: + Đánh giá biến động việc kê khai doanh thu thuế GTGT hàng hóa, dịch vụ mua vào, bán + Đánh giá theo dõi biến động thuế GTGT hàng hoá bán kỳ nhằm phát bắt thường xảy + Đánh giá theo đõi biến động thuế GTGT hàng hoá mua vào kỳ nhằm phát bất thường xảy + Đánh giá theo dõi biến động doanh thu hoạt động xuất khâu, xây lắp cơng trình cho doanh nghiệp chế xuất, vận tải quốc tế kỳ nhằm phát bắt thường xảy + Đánh giá theo dõi biến động kê khai thuế GTGT đầu hàng tồn kho + Đánh giá mức độ tuân thủ kê khai thuế GTGT hàng hóa dịch vụ bán khơng chịu thuế GTGT phát sinh doanh thu việc phân bổ thuế GTGT đầu vào khấu trừ tng + Đánh giá tỷ lệ tăng doanh thu so với vốn chủ sở hữu đơn vị + Đánh giá mức độ tuân thủ việc kê khai thuế GTGT đầu doanh nghiệp 3.3 LỰA CHỌN CÔNG CỤ, MÔI TRƯỜNG THỰC NGHIỆM (MATLAB) Với toán phân cụm doanh nghiệp rủi ro quản lý thuế theo tập liệu đặt mục 3.2, ngôn ngữ sử dụng chương trình ngơn ngữ Matlab(version 2019a) Ngơn ngữ lập trình hỗ trợ tốt trình nghiên cứu đề tài ứng dụng cụ thê như: -_ Xây dựng chương trình giải tốn tốn học -_ Xây dựng chương trình mơ phỏng, thống kê 54 -_ Đặc biệt ngôn ngữ lập trinh Matlab hỗ trợ hệ logie mờ, cung cấp thư viện hàm liệu logic mo Vì vậy, việc lựa chọn ngơn ngữ lập trình Matlab phần ứng dụng tận dụng thư viện sẵn có nhằm hỗ trợ q trình xây dựng thuật toán 3.4 PHƯƠNG PHÁP PHÂN CUM VÀ LỰA CHỌN SO CUM 3.4.1 Xác định phương pháp phân cụm phạm Dữ liệu doanh nghiệp tương đồng, phân cụm rủi ro vi cho doanh nghiệp khơng có ranh giới rõ ràng để khăng định doanh nghiệp rủi ro vi phạm cao hay khơng ranh giới mờ, ta nói doanh nghiệp rủi ro cao mức độ phần trăm Do phân cụm doanh nghiệp, có nhiều đối tượng nằm ranh giới cụm, đối tượng thuộc vào nhiều cụm -_ Khái niệm “rủi ro” chất mờ, vì: + Có nhiều mức độ rủi ro khác nhau: Rủi ro cao, rủi ro cao, rủi ro thấp, hay không rủi ro + Có yếu tổ bất định, ngẫu nhiên + Mức độ rủi ro xác định tùy theo quan điểm người đánh giá Do với tốn phân tích thơng tin rủi ro quản lý thuế doanh nghiệp nên biểu diễn tập mờ, cho kết tốt hơn, luận văn lựa chọn phương pháp phân cụm mờ đề ứng dụng vào bai toan đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 Phương pháp Lựa chọn số cụm Quá trình phân cụm liệu nhằm xác định nhóm đối tượng liệu tương tự, từ khảo sát cụm giúp khái quát, nhanh chóng rút đặc điểm khối di liệu lớn Tuy nhiên, hâầu hết thuật toán phân cụm, tham số số cụm trước thuật toán thường yêu cầu người dùng phải xác định trước số lượng cụm, ứng với môi sô lượng cụm khác cho kết phân cụm khác 55 Khi ap dung thuat toan phan cum cho tung bai toan cu thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phân cụm Một phân cụm tốt có sai khác cụm nhỏ (độ nén lớn) phân tách rõ cụm (độ chồng nhỏ) Do vậy, phạm vi toán nêu mục 3.1 tập liệu mẫu THUE2019.xlsx đặt mục 3.2, luận văn lựa chọn việc xác định số cụm dựa độ chồng độ nén đữ liệu (phương pháp trình bày mục 2.3.4.4) Cụ thể sau: - Thực lặp thuật toán phân cụm mờ tập liệu THUE2019.xlsx với số cụm c nằm khoảng [2,5] Hình 3.1 kết thu nhận được: b a ° 09} oer bo đa o ° `” ° @ So 2% KS o7}| 06 ho ost oO” 03 21a go @ ° Yo gO ec ao gost ® so © oP o o% 08o °° sa ° e g ° ° 0.2 oo 0.4 2, ° x es, Se “0,0 Wo §Š n 000 ọ % Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm 56 a ae ae Qe ° e se 08 ° S% ex ° Oo £ ;õ 6È ` ae ° 6O18 ° ® ® ° ø ° 0.6 230 Be, @% 00 s96 Š S Hình 3.1: Kế: phân cụm liệu với SỐ cụm e —= [2,5] (a) w9 9© Ra é S @©° #ø ° So ° 2, Y 8900, TT © 04 So Sána o ° of Y T - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.3.4.2), luận văn tính độ chồng đối tượng xị với To = 0.1, tính hàm F tương ứng với số cụm c={3.5] kết bảng 3.2 sau: Bang 3.2: Két tính F với số cụm e = [3,5] Cc Compactness (c, U) Overlap (c,U) F 0,8324 0,2375 0,5949 0,7519 0,2256 0,5263 0,6980 0,2242 0,4738 Số cụm c tối ưu hàm E đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu THUE2019.xlsx đặt mục 3.2, số cụm tối ưu c = 3.5 KET QUA THUC NGHIEM Trong phan thực nghiệm, luận văn áp dụng thuật toán FCM với tham SỐ: tham số mờ m =2, sai số £= 0.01, số lần lặp tối đa 100, số cụm c =3 Môi trường lập trình Matlab (version 2019a), với cầu hình máy tính: CPU Core ï7 (6700HQ), Ram 8GB, tốc độ xử lý CPU (~2.60 GHz, 8CPU) 3.5.1 Kết phân loại doanh nghiệp Kết phân cụm doanh nghiệp rủi ro vi phạm với tập liệu THUE2019.xlsx với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3: Kết phân cụm doanh nghiệp tập liệu THUE2019.xlsx Thứ tự cụm Số doanh nghiệp thuộc cụm 89 104 108 57 0.2 Hinh 3.2: Két qua phan cum dit liéu voi tap dit ligu THUE2019.xIsx 3.5.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệm chuyên gia Theo chuyên gia nghiệp vụ thuế, doanh nghiệp rủi ro vi phạm thuế chia làm mức: mức 0, mức ] mức Luận văn tiến hành thu thập thông tin rủi ro vi phạm thuế 300 đoanh nghiệp thuộc tập liệu THUE2019.xlsx (thông tin rủi ro vị phạm tính tốn dựa kinh nghiệm chuyên gia nghiệp vụ thuế) tiến hành so sánh với kết phân cụm doanh nghiệp (bảng 3.2 mục 3.5 I) kết bảng 3.3 cụ thể sau: Bảng 3.4: So sánh kết phân cụm dữ: liệu THUE2019.xIsx với thông tin rủi ro vi phạm thuế STT Thứ tự | Số doanh nghiệp cụm thuộc cụm Tỷ lệ liệu so với mức rủi ro vỉ phạm - Mức0: 1 89 16,9% - Mức I: 21,34% - Mức 2: 61,76 % - Mức0: 2 104 18,27 % - Mức I: 28,85% - Mức 2: 52,88% - Mức 0: 90,48% 3 108 - Mức I: 7,41% - Mức 2: 2,11% 58 Dua vao bang 3.3, nhan thay đối tượng nhóm có độ tương đồng tương đối cao mức rủi ro vi phạm thuế, đại đa số doanh nghiệp cụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 61,76 % doanh nghiệp thuộc rủi ro mức có 21,34% mức Ì - Cụm 2: 52,88% doanh nghiệp thuộc rủi ro mức có 28,85% mức | - Cụm 3: 2,11% doanh nghiệp thuộc rủi ro mức có 7,41% mức ] 3.5.3 Xác định doanh nghiệp thuộc cụm Tập liệu ban đầu đoanh nghiệp có chứa thơng tin chi tiết doanh nghiệp (bao gồm MST, tên doanh nghiệp, địa chỉ, ), trích xuất thơng tin vào tập THUE2019.xlsx để thực nghiệm sử dụng thông tin giá trị tiêu tờ khai khấu trừ thuế GTGT báo cáo tài đoanh nghiệp Do sau có kết phân cụm cho tập liệu THUE2019.xlsx, luận văn tiến hành ánh xạ thông tin phân cụm tập THUE2019.xlsx với thông tin tiết ban đầu để xác định doanh nghiệp thuộc cụm Bảng 3.5: Xác định doanh nghiệp thuộc cụm Ma so thuê Kết ^ _ TEN DOANH NGHIEP 1600374584 | Uỷ Ban Nhân Dân xã Phú Vĩnh Dia chi Doanh nghiép phan nhom | Kết phan nhom theo FCM thuc té : 3 TO 17, Khém Long Thi A, phwong Long 5 Hưng, thị xã Tân Châu, An Giang Số 38 Trần Hưng Đạo, K.Long Thạnh A, i i : ấp Phú An A, xã Phú Vĩnh, thị xã Tân Châu, An Giang 1600107557 | CÔNG TY TNHH MỘT THÀNH VIEN XAY DUNG LONG CANG 1600152831 | Doanh Nghiép TN Minh Phát Số 228 Trần Phú, phường Long Hưng, thị xã Tan Chau, An Giang Tĩnh lộ 953, âp Phú Hữu 1, xã Phú Vĩnh, thị xa Tan Chau, An Giang 1600767546 | DOANH NGHIEP TN TƯ PHƯỚC 1600150369 | Công Ty TNHH Nam Sơn phường Long Thạnh, TX Tân Châu, An Giang 1600150545 | Doanh Nghiệp TN Bảo Trọng Số 145 Nguyễn Tri Phương, khóm Long Thạnh D, phuong Long Thanh, TX Tan Chau, An Giang 1600151475 | Công Ty TNHH Một Thành Viên Phuc Lộc Số 10 Trần Hưng Đạo, Khóm Long Thạnh A, phường Long Hung, TX Tan Chau, An Giang 59 1600148948 | Doanh Nghiệp TN Cơng Thanh TO 13, Khóm Long Châu, phường Long Châu, š Tổ 10 Khóm Tỉnh Lộ 953 Long Qưới B, 5 phường Long Phú, TX Tân Châu, An Giang thị xã Tân Châu, An Giang 1600153715 | HTX Nông Nghiệp Long Quới B Long Phú - Tân Chau 1600153747 | Xi Nghiép câp Nước Tân Châu Duong 30/4, phường Long Hung, TX Tan Chau, An Giang 1600148680 | CONG TY TNHH NONG SAN LUONG THUC NGUYEN PHAT 1600161057 | QTD Nhan dan Long Son Ap Long Thanh, x4 Long An, TX Tan Chau, 1 An Giang S6 05 ap Long Thạnh, xã Long Sơn, TX Tân Chau, An Giang 1600151210 | Céng Ty TNHH Thanh Phat “ Số 54 Tơn Đức Thắng, Khóm Long Thạnh A, 5 phường Long Hung, TX Tan Chau, An Giang 1600149187 | Doanh Nghiép TN Van Lang I Số 148, Ấp Hòa Long 1 1600154405 | Ban Điều hành bến xe tàu Đường Trần Phú, Long Thạnh B 1 1600152366 | Doanh Nghiệp TN Mai Đạt Khóm Long Hưng 2: 1600152408 | Doanh Nghiệp TN Lê Hiếu Trân Ấp Long Hiệp ? Lưu ý: Thông tin chi tiết doanh nghiệp hình 3.3 mang tính chất tham khảo 3.5.4 Đánh giá kết thực nghiệm Dựa vào kết thực nghiệm, liệu đầu vào, nhận thay cach chon cac tiêu chí, thuộc tính liệu đầu vào cách phân cụm luận văn phù hợp với mục tiêu toán đặt phân tích thơng tin rủi ro quản lý thuế Trong công tác quản lý rủi ro vi phạm thuế nên có giá trị mức rủi ro Các chuyên gia nghiệp vụ thuế xác định mức rủi ro vi phạm thuế doanh nghiệp là: - Mức 0: rủi ro vi phạm thấp - không rủi ro - Mức I: rủi ro vi phạm vừa - Mức 2: rủi ro vi phạm cao Dựa vào kết phân cụm doanh nghiệm tập liệu THUE2019.xlsx, ta thấy: doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ, doanh nghiệp phân cụm xa gốc tọa độ mức rủi ro vi phạm cảng giảm (xem tiết kết phân cụm hình 3.2 bảng 3.3) 60 Kết phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chon, phân tích thơng tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế Dựa vào kết thực nghiệm (mục 3.5.2): doanh nghiệp có rủi ro vi phạm cao thường tập trung cụm đữ liệu nằm gần gốc tọa độ, áp dụng phương án khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao tập liệu đề xuất hình 2.12 (mục 2.3.3) luận văn với liệu đầu vào sau: (1D): Bo tập liệu THUE2019.xIsx (tập liệu THUE2019.xlsx mô tả mục 3.2) Chọn n = [100, 300] (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số £ = 0.001, số lần lặp tối đa 100, số cụm c = Kết mong muốn: Tập liệu doanh nghiệp rủi ro vi phạm B' với n = [100, 300] số doanh nghiệp rủi ro vi phạm cao chiếm 80% thuộc tập liệu B' Kết thực nghiệm: - Áp dụng quy trình hình lần I: B(1) chứa 89 doanh nghiệp mơ hình 3.3 (các đối tượng thuộc tệp có dạng chấm màu xanh) 0.9 0.8 0.7 0.6 0.5 04 0.3 0.2} 0.1 0E 0.2 0.4 0.6 08 Hình 3.3: A⁄ơ tập đữ liệu B (1), Cụm 61 - Ap dung quy trinh hinh 2.12 lan (B’ = B’(1)): B’() chira 104 doanh nghiệp mơ hình 3.4 (các đối tượng thuộc cụm có dang cham màu vàng) Hình 3.4: A⁄ơ tập liệu B '(2), Cụm - Áp đụng quy trình hình 2.12 lần (B' = B'\2)): B'@) chứa 108 doanh nghiệp mơ hình 3.5 (các đối tượng thuộc cụm có đạng chấm mau xanh cây) Hình 3.5: 1⁄ô tập liệu B '(2), Cụm - Tương tự, áp dụng quy trình hình 2.12 lần (B¡ = B’(3)), ap dung thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập B' nghiệp, nên luận văn lựa chọn chia làm cụm) 62 153 doanh Hinh 3.6: M6 phong tap dit liéu B’, duoc chia lam Cum Kết thu được: B’(4) chtra 147 nghiép, théa m4nj = [100, 300] - Tính tỷ lệ doanh nghiệp rủi ro vị phạm cách ánh xạ tương ứng MST cao tập liệu nhận doanh nghiệp với tập liệu THUE2019.xlsx ban dau dé lay mức rủi ro Ta kết sau: Tập B'có chứa: 57,33% (172/300) doanh nghiệp rủi ro vị phạm cao 20.67% (62/300) doanh nghiệp rủi ro vi phạm vừa số doanh nghiệp vi phạm thuế thấp đạt 63,33% (190/300) Thỏa mãn kết mong muốn (tuy nhiên so với việc chia làm c=3 cụm xác xuất sai số cao việc đánh giá tổng số doanh nghiệp vi phạm mức mức cao, mức vừa) 3.6 TIEU KET CHUONG Như kết thực nghiệm chứng minh việc kiểm tra thông qua thuật toán phân cụm mờ giúp cho ta đánh giá rõ thông tin rủi ro quản lý thuế doanh nghiệp với tỷ lệ xác đạt khoảng 80% đến 90% so với thực tế đánh giá chuyên gia (qua khảo sát 300 doanh nghiệp) Tuy nhiên, trình khảo sát thực tế chủ yếu thơng qua báo cáo Chi cục thuế địa phương doanh nghiệp thơng số cụ thể xác nên việc đánh giá cịn gặp nhiều khó khăn khơng tránh khỏi có sai số định 63 KET LUAN VA KIEN NGHI Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu theo hướng tiếp cận mờ lĩnh vực nghiên cứu rộng lớn đầy triển vọng Với để tài “ Tìm hiểu số phương pháp phân cụm mờ Ứng dụng vào phân tích thơng tin rủi ro quản lý thuế doanh nghiệp", luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phân cụm liệu - Phân tích số phương pháp phân cụm liệu như: phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp tiếp cận dựa mật độ, phương pháp phân cụm dựa lưới phương pháp phân cụm dựa mơ hình - Tìm hiểu số phương pháp xác định số cụm gom cụm liệu dựa phương pháp truyền thống, phương pháp Eblow, phương pháp phê duyệt chéo phương pháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật tốn phân cụm mờ (Fuzzy Clustering Means - FCM), cài đặt, mô phóng thuật tốn mơi trường Matlab thử nghiệm phân cụm doanh nghiệp rủi ro vị phạm thuộc liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 300 đoanh nghiệp đóng địa bàn (kết chủ yếu dựa mơ liệu có sẵn thu vién Web matlab) - Phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thông tin rủi ro quản lý thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ nghĩa vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử nghiệm dừng thuật tốn phân cụm mờ, liệu đầu vào nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ quý thầy cô 64 HUONG PHAT TRIEN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phân cụm đặc biệt phân cụm mờ ứng dụng vào số toán thực tế 65 TAI LIEU THAM KHAO A Tiéng Viét [1] Nguyễn Công Hao (2016), Gido trinh Logic mo va Ung dung, NXB Dai Hoc Hué [2] Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ đữ liệu theo phân cụm — Đại học Công nghệ thông tin Truyền thông [3] Nguyễn Thị Mai Trâm (2014), Ứng dụng Kỹ thuật logic mo xếp hang tin nhiệm đoanh nghiệp, Khoa Kinh Tế - ĐH Sư Phạm Kỹ Thuật TP.HCM [4] Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứng dụng phân cụm đữ liệu việc phân tích, đánh giá kết học tập học sinh [5] V6 Thi Ngoc Chau (2011-2012), Giáo trình Khoa Học Máy Tính Giáo trình Điện tử, Chương Gom Cụm Dữ Liệu B Tiếng anh [6] Tsuen-Ho Hsu (1999), An Application of Fuzzy Clustering Analysis, |-Shou University, Kaohsiung, Taiwan, R.O.C, [7] in Group-Positioning pp.157-167 Junhong Nie & Derek Linkens (1995), Fuzzy-Neural Control, Principles, Algorithms and Applications 1st Edition [8] Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 [9] [10] Ruspini E.H (1969), A new approach to clustering, Information and Control Hellendoorn, H and C Thomas (1993), Defiuzzification in Fuzzy Controller, Intelligent and Fuzzy Systems, Vol.1, pp 109-123 C Một số website có liên quan [11] http:/Aapchitaichinh.vn/nghien-cuu trao-doi/trao-doi-binh-luan/quan-ly-rui-ro-trong- quan-ly-thue-va-kinh-nghiem-cho-viet-nam-102198.html (ngay truy cap 10/11/2015) [12] http://dailythuetoancau.com/bo-tieu-chi-danh-gia-nguoi-nop-thue-co-dau-hieu-rui- ro.htm (ngày truy cập [13] 26/12/2017) http:/apchitaichinh.vn/nghien-cuu-trao-doi/nghien-cuu-dieu-tra/quan-ly-rui-ro- trong-thanh-tra-kiem-tra-thue-o-mot-so-nuoc-va-bai-hoc-cho-viet-nam-89320.html truy cap 03/10/2014) 66 (ngay [14] | http://ncmupeda.edu.vn/bao-cao-tai-chinh-la-gi/ (ngay truy cap 19/01/2018) [15] http:/Awww.misa.com.vn/tin-tuc/chi-tiet/newsid/52496/Thue-GTGT-la-gi-Cac-noi- dung-bat-buoc-trong-hoa-don-thue-GTGT(ngay truy cap 13/09/2016) [16] http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.html [17] http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html 67

Ngày đăng: 11/01/2024, 22:45

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN