Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp

55 167 0
Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN THUẾ DOANH NGHIỆP LUẬN VĂN THẠC SĨ QUẢN HỆ THỐNG THÔNG TIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản Hệ thống thông tin Mã số: LUẬN VĂN THẠC SĨ QUẢN HỆ THỐNG THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Đình Hóa Hà Nội – 2017 LỜI CAM ĐOAN Tơi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dung thuyết trong luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Hà Nội, tháng 10 năm 2017 Học viên thực Vũ Thị Thu Hƣơng LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Nguyễn Đình Hóa, TS Lê Hồng Sơn người tạo điều kiện thuận lợi, tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội, thầy cô khoa Công nghệ thông tin truyền đạt kiến thức giúp đỡ em suốt trình học Và cuối em xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè, người ủng hộ, động viên tạo điều kiện giúp đỡ để em có kết ngày hôm Hà Nội, tháng 10 năm 2017 Học viên Vũ Thị Thu Hƣơng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 11 1.1 Giới thiệu khai phá liệu 11 1.1.1 Khai phá liệu gì? 11 1.1.2 Các giai đoạn trình khai phá liệu 12 1.2 Tổng quan phân cụm liệu 12 1.2.1 Khái niệm phân cụm liệu 13 1.2.2 Các mục tiêu phân cụm liệu 13 1.2.3 Một số ứng dụng phân cụm liệu 15 1.2.4 Các yêu cầu phân cụm liệu 15 1.3 Một số kỹ thuật tiếp cận phân cụm liệu 16 1.3.1 Phương pháp phân cụm phân hoạch 16 1.3.2 Phương pháp phân cụm phân cấp 17 1.3.3 Phương pháp tiếp cận dựa mật độ 19 1.3.4 Phương pháp phân cụm dựa lưới 20 1.3.5 Phương pháp phân cụm dựa hình 20 CHƢƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƢƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 22 2.1 Bài toán phân cụm mờ 22 2.1.1 Giới thiệu phân cụm mờ 22 2.1.2 Thuật toán Fuzzy C-Mean (FCM) 22 2.1.2.1 Hàm mục tiêu 22 2.1.2.2 Thuật toán FCM 25 2.1.2.3 Đánh giá 27 2.2 Các phƣơng pháp xác định số cụm gom cụm liệu 27 2.2.1 Xác định số cụm dựa phương pháp truyền thống 28 2.2.2 Xác định số cụm phương pháp Eblow 29 2.2.3 Xác định số cụm dựa phương pháp phê duyệt chéo 30 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu 32 2.3 Đề xuất phƣơng án áp dụng thuật toán FCM phƣơng pháp xác định số cụm vào tốn lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao 34 CHƢƠNG 3: ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN THUẾ DOANH NGHIỆP 36 3.1 tả tốn 36 3.2 Dữ liệu đầu vào 37 3.3 Lựa chọn công cụ, môi trƣờng thực nghiệm 39 3.4 Phƣơng pháp phân cụm lựa chọn số cụm 40 3.4.1 Xác định phương pháp phân cụm 40 3.4.2 Lựa chọn số cụm 40 3.5 Kết thực nghiệm 43 3.5.1 Kết phân loại doanh nghiệp 43 3.5.1.1 Kết phân cụm tập liệu data.csv 43 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia 44 3.5.1.3 Xác định doanh nghiệp thuộc cụm 45 3.5.2 Kết luận 46 3.6 Ứng dụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 50 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật toán phân cụm mờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng Mã số thuế Mã số thuế doanh nghiệp MST DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Quá trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phân cụm liệu Hình 1.4 Ví dụ phân cụm ngơi nhà dựa khoảng cách Hình 1.5 Ví dụ phân cụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phương pháp phân cụm phân cấp Hình 1.7 Ví dụ phân cụm theo mật độ (1) Hình 1.8 Ví dụ phân cụm theo mật độ (2) Hình 1.9 Cấu trúc phân cụm dựa lưới Hình 1.10 Ví dụ phân cụm dựa hình Hình 2.1 Thuật tốn FCM Hình 2.2 Phân cụm tập liệu với số lượng cụm khác Hình 2.3 Minh họa cho phương pháp xác định số cụm dựa phương pháp truyền thống Hình 2.4 Ví dụ minh họa cách xác định số cụm phương pháp Elbow Hình 2.5 tả phương pháp Holdout Hình 2.6 Q trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 2.7 Đề xuất phương án lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao Hình 3.1 Kết phân cụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phân cụm liệu với tập liệu data.csv Hình 3.3 Xác định doanh nghiệp thuộc cụm Hình 3.4 tập liệu X’(1) Hình 3.5 tập liệu X’(2) Hình 3.6 tập liệu X’(3) Bảng 3.1 tả thông tin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế MỞ ĐẦU Công tác thanh, kiểm tra thuế nhiệm vụ trọng tâm nhằm ngăn ngừa, phát xử kịp thời vi phạm thuế Thực tốt công tác thanh, kiểm tra thuế góp phần tăng nguồn thu cho ngân sách, tạo bình đ ng cơng xã hội ngh a vụ thuế đối tượng nộp thuế Hiện nhu cầu tin học hóa quy trình nghiệp vụ ngành Thuế nói chung đại hố cơng tác thanh, kiểm tra thuế nói riêng, góp phần nâng cao hiệu cơng tác quản thuế ngày cao Với tính chất đa dạng phức tạp liệu kho liệu Người nộp thuế, cần thiết phải có hướng nghiên cứu cách tổ chức kho liệu để trích xuất thơng tin phù hợp Khai phá liệu hướng nghiên cứu phổ biến nay, phân cụm công cụ hữu hiệu tốn khai phá liệu, phân tích thơng tin [3] Mục tiêu phân cụm chia nhỏ đối tượng vào cụm cho đối tượng cụm tương đồng với Phân cụm có nhiều ứng dụng thương mại, giúp nhà cung cấp biết nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu sở liệu khách hàng Phân cụm mờ phương pháp phân cụm liệu mở rộng điểm liệu thuộc hai hay nhiều cụm với giá trị hàm thuộc tương ứng Năm 1969, Ruspini [17] giới thiệu khái niệm phân hoạch mờ để tả cấu trúc cụm mờ Năm 1973, Dunn [18] mở rộng phương pháp phân cụm phát triển thuật toán phân cụm mờ Ý tưởng thuật toán xây dựng phương pháp phân cụm mờ dựa tối thiểu hóa hàm mục tiêu Sau đó, Bezdek [16] cải tiến tổng quát hóa hàm mục tiêu mờ cách thêm trọng số mũ Cho đến nay, có nhiều biến thể phân cụm mờ ứng dụng toán khác [16] Mục tiêu đề tài ứng dụng thuật tốn phân cụm mờ phân tích thơng tin rủi ro quản thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủi ro 644 doanh nghiệp sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng phương pháp phân cụm mờ Hệ thống phân tích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chƣơng 1: Tổng quan phân cụm liệu 40 tận dụng thư viện sẵn có nhằm hỗ trợ q trình xây dựng thuật toán 3.4 Phƣơng pháp phân cụm lựa chọn số cụm 3.4.1 Xác định phương pháp phân cụm - Dữ liệu doanh nghiệp tương đồng, phân cụm rủi ro vi phạm cho doanh nghiệp ranh giới ràng để kh ng định doanh nghiệp rủi ro vi phạm cao hay không Ranh giới mờ Ta nói doanh nghiệp rủi ro cao mức độ phần trăm Do phân cụm doanh nghiệp, có nhiều đối tượng nằm ranh giới cụm, đối tượng thuộc vào nhiều cụm - Khái niệm “rủi ro” chất mờ, vì: o Có nhiều mức độ rủi ro khác nhau: Rủi ro cao, rủi ro vừa, rủi ro thấp, hay khơng rủi ro o Có yếu tố bất định, ngẫu nhiên o Mức độ rủi ro xác định tùy theo quan điểm người đánh giá Do với tốn phân tích thơng tin rủi ro quản thuế doanh nghiệp nên biểu diễn tập mờ, cho kết tốt hơn, luận văn lựa chọn phương pháp phân cụm mờ để ứng dụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 Lựa chọn số cụm Quá trình phân cụm liệu nhằm xác định nhóm đối tượng liệu tương tự, từ khảo sát cụm giúp khái quát, nhanh chóng rút đặc điểm khối liệu lớn Tuy nhiên, hầu hết thuật toán phân cụm, tham số số cụm trước thuật toán thường yêu cầu người dùng phải xác định trước số lượng cụm, ứng với số lượng cụm khác cho kết phân cụm khác [2] Khi áp dụng thuật toán phân cụm cho toán cụ thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phân cụm Một phân cụm tốt có sai khác cụm nhỏ (độ nén lớn) phân tách cụm (độ chồng nhỏ) Do vậy, phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, luận văn lựa chọn việc xác định số cụm dựa độ 41 chồng độ nén liệu (phương pháp trình bày mục 2.2.4) Cụ thể sau: - Thực lặp thuật toán phân cụm mờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: H nh Kết phân cụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn 42 tính độ chồng đối tượng xj với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: 43 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) Overlap (c,U) F 1,337962 0,266365 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Mơi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử CPU 2.30 GHz 3.5.1 Kết phân loại doanh nghiệp Kết phân cụm tập liệu data csv 3.5.1.1 Kết phân cụm doanh nghiệp rủi ro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phân cụm doanh nghiệp tập liệu data_cum.csv STT Thứ tự cụm Số doanh nghiệp thuộc cụm 1 568 2 26 3 50 44 H nh Kết phân cụm liệu với tập liệu data csv 3.5.1.2 So sánh kết phân cụm doanh nghiệp với mức rủi ro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanh nghiệp rủi ro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thông tin rủi ro vi phạm thuế 644 doanh nghiệp thuộc tập liệu data.csv (thông tin rủi ro vi phạm tính tốn dựa kinh nghiệm chuyên gia nghiệp vụ thuế) tiến hành so sánh với kết phân cụm doanh nghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.3 So sánh kết phân cụm liệu data.csv với thông tin rủi ro vi phạm thuế 45 STT Thứ tự cụm Số doanh nghiệp thuộc cụm Tỷ lệ liệu so với mức rủi ro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủi ro vi phạm thuế, đại đa số doanh nghiệp cụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanh nghiệp thuộc mức rủi ro - Cụm 2: 80.77% doanh nghiệp thuộc mức rủi ro - Cụm 3: 80% doanh nghiệp thuộc mức rủi ro 3.5.1.3 Xác định doanh nghiệp thuộc cụm Tập liệu ban đầu doanh nghiệp có chứa thơng tin chi tiết doanh nghiệp (bao gồm MST, tên doanh nghiệp, địa chỉ, ), trích xuất thông tin vào tập data.csv để thực nghiệm sử dụng thông tin giá trị tiêu tờ khai khấu trừ thuế GTGT báo cáo tài doanh nghiệp Do sau có kết phân cụm cho tập liệu data.csv, luận văn tiến hành ánh xạ thông tin phân cụm tập data.csv với thông tin chi tiết ban đầu để xác định doanh nghiệp thuộc cụm 46 Hình 3.3 Xác định doanh nghiệp thuộc cụm Lưu ý: Thông tin chi tiết doanh nghiệp hình 3.3 mang tính chất tham khảo 3.5.2 Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phân cụm luận văn phù hợp với mục tiêu tốn đặt phân tích thơng tin rủi ro quản thuế Trong công tác quản rủi ro vi phạm thuế nên có giá trị mức rủi ro Các chuyên gia nghiệp vụ thuế xác định mức rủi ro vi phạm thuế doanh nghiệp là: - Mức 0: rủi ro vi phạm thấp – không rủi ro - Mức 1: rủi ro vi phạm vừa - Mức 2: rủi ro vi phạm cao Dựa vào kết phân cụm doanh nghiệm tập liệu data.csv, ta thấy: doanh nghiệprủi ro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanh nghiệp phân cụm xa gốc tọa độ mức rủi ro vi phạm giảm (xem chi tiết kết phân cụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ ngh a vụ thuế 47 3.6 Ứng dụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanh nghiệp có khả rủi ro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanh nghiệprủi ro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy, áp dụng phương án khoanh vùng doanh nghiệp có khả rủi ro vi phạm thuế cao tập liệu đề xuất hình 2.7 (mục 2.3) luận văn với liệu đầu vào sau: - (1): X0 tập liệu data.csv (tập liệu data.csv tả mục 3.2) Chọn n = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanh nghiệp rủi ro vi phạm X’ với n = [100, 200] số doanh nghiệp rủi ro vi phạm cao chiếm ≥ 70% tập liệu X’  Kết thực nghiệm: - Áp dụng quy trình hình 2.7 lần 1: X’(1) chứa 568 doanh nghiệp hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) 48 Hình 3.4 tập liệu X’(1) - Áp dụng quy trình hình 2.7 lần (X1 = X’(1)): X’(2) chứa 425 doanh nghiệp hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.5 tập liệu X’(2) 49 - Áp dụng quy trình hình 2.7 lần (X’ = X’(2)): X’(3) chứa 255 doanh nghiệp hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 tập liệu X’(3) - Tương tự, áp dụng quy trình hình 2.7 lần (X1 = X’(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X1 255 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: X’(4) chứa 146 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanh nghiệp rủi ro vi phạm cao tập liệu nhận cách ánh xạ tương ứng MST doanh nghiệp với tập liệu data.csv ban đầu để lấy mức rủi ro Ta kết sau: Tập X’(4) có chứa: 71.233% (104/146) doanh nghiệp rủi ro vi phạm cao 28.767 % (42/146) doanh nghiệp rủi ro vi phạm vừa Thỏa mãn kết mong muốn 50 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu l nh vực thời ngành công nghệ thông tin giới nói chung Việt Nam nói riêng Khai phá liệu ứng dụng rộng rãi nhiều l nh vực đời sống Một toán quan trọng l nh vực khai phá liệu toán phân cụm liệu Phân cụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phân cụm liệu, kỹ thuật phân cụm liệu theo hướng tiếp cận mờ l nh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụng phương pháp phân cụm mờ cho tốn phân tích thơng tin rủi ro quản thuế”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phân cụm liệu - Phân tích số phương pháp phân cụm liệu như: phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp tiếp cận dựa mật độ, phương pháp phân cụm dựa lưới phương pháp phân cụm dựa hình - Tìm hiểu số phương pháp xác định số cụm gom cụm liệu dựa phương pháp truyền thống, phương pháp Eblow, phương pháp phê duyệt chéo phương pháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật tốn phân cụm mờ FCM, cài đặt thuật tốn mơi trường Matlab thử nghiệm phân cụm doanh nghiệp rủi ro vi phạm thuộc liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp - Phân loại, khoanh vùng đối tượng doanh nghiệp theo mức độ rủi ro vi phạm giúp tăng tính hiệu việc lựa chọn, phân tích thơng tin rủi ro quản thuế doanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanh nghiệp quan thuế giám sát việc tuân thủ ngh a vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử 51 nghiệm dừng thuật tốn phân cụm, liệu đầu vào nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ quý thầy cô, anh chị bạn HƢỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phân cụm đặc biệt phân cụm mờ ứng dụng vào số toán thực tế 52 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phương pháp phân cụm mờ ứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờ phân cụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), T m hiểu khái niệm quản quản thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phân cụm – ĐH Công nghệ thông tin Truyền thông Phạm Thị Thu (2007), Thuật toán phân cụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phương pháp phân cụm ứng dụng, luận văn thạc s Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toán phân cụm Data mining Trần Thị Yến (2012), Phân cụm liệu trừ mờ ứng dụng, luận văn thạc s Công nghệ thông tin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phân cụm liệu, luận văn thạc s chuyên ngành Truyền liệu mạng máy tính 10.Vũ Minh Đơng (2010), Một số phương pháp phân cụm liệu, Đại học dân lập Hải Phòng 11.Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12.Nguyễn Thế Đạt (2017), Nghiên cứu h nh phân cụm có thứ bậc đồ thị liệu, Đại học Công nghệ thông tin Truyền thông 13.Hoàng Thị Minh Châu (2010), Các giải pháp cải tiến thuật toán FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc s 14.Hồng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân 53 cụm, luận văn thạc s khoa học 15.Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứng dụng phân cụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16.Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 17.Ruspini E.H (1969), A new approach to clustering, Information and Control 18.Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting compact Well-Separated clusters, Journal of Cybernetics 19.Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20.W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21.K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22.Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23.D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24.http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoinop-thue-mau-chot-o-con-nguoi-148789.html 25.http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-trathue-la-gi-2016040811092612.htm 26.http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ 54 27.http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.htm l 28.https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieuprocess-of-data-mining/ 29.http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghiacua-bctc/ 30.http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang30.html ... ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: LUẬN VĂN THẠC SĨ QUẢN... thể phân cụm mờ ứng dụng toán khác [16] Mục tiêu đề tài ứng dụng thuật tốn phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh. .. phân cụm mờ cho tốn phân tích thơng tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp

Ngày đăng: 18/01/2018, 10:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan