Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 55 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
55
Dung lượng
1,48 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNGDỤNG PHƢƠNG PHÁPPHÂNCỤMMỜCHOBÀI TỐN PHÂNTÍCHTHƠNGTINRỦIROQUẢNLÝTHUẾDOANHNGHIỆP LUẬN VĂN THẠC SĨ QUẢNLÝ HỆ THỐNGTHÔNGTIN Hà Nội – 2017 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ VŨ THỊ THU HƢƠNG ỨNGDỤNG PHƢƠNG PHÁPPHÂNCỤMMỜCHOBÀI TỐN PHÂNTÍCHTHƠNGTINRỦIROQUẢNLÝTHUẾDOANHNGHIỆP Ngành: Công nghệ thôngtin Chuyên ngành: Quảnlý Hệ thốngthôngtin Mã số: LUẬN VĂN THẠC SĨ QUẢNLÝ HỆ THỐNGTHÔNGTIN NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS TS Nguyễn Đình Hóa Hà Nội – 2017 LỜI CAM ĐOAN Tơi xin cam đoan luận văn cơng trình nghiên cứu riêng cá nhân tôi, không chép tự nghiên cứu, đọc, dịch tài liệu, tổng hợp thực Nội dunglý thuyết trong luận văn tơi có sử dụng số tài liệu tham khảo trình bày phần tài liệu tham khảo Các số liệu, chương trình phần mềm kết luận văn trung thực chưa cơng bố cơng trình khác Hà Nội, tháng 10 năm 2017 Học viên thực Vũ Thị Thu Hƣơng LỜI CẢM ƠN Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS Nguyễn Đình Hóa, TS Lê Hồng Sơn người tạo điều kiện thuận lợi, tận tình hướng dẫn, bảo, giúp đỡ em suốt trình làm luận văn Em xin gửi lời cảm ơn đến thầy cô giáo trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội, thầy cô khoa Công nghệ thôngtin truyền đạt kiến thức giúp đỡ em suốt trình học Và cuối em xin gửi lời cảm ơn tới đồng nghiệp, gia đình bạn bè, người ủng hộ, động viên tạo điều kiện giúp đỡ để em có kết ngày hôm Hà Nội, tháng 10 năm 2017 Học viên Vũ Thị Thu Hƣơng MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU MỞ ĐẦU CHƢƠNG 1: TỔNG QUAN VỀ PHÂNCỤM DỮ LIỆU 11 1.1 Giới thiệu khai phá liệu 11 1.1.1 Khai phá liệu gì? 11 1.1.2 Các giai đoạn trình khai phá liệu 12 1.2 Tổng quanphâncụm liệu 12 1.2.1 Khái niệm phâncụm liệu 13 1.2.2 Các mục tiêu phâncụm liệu 13 1.2.3 Một số ứngdụngphâncụm liệu 15 1.2.4 Các yêu cầu phâncụm liệu 15 1.3 Một số kỹ thuật tiếp cận phâncụm liệu 16 1.3.1 Phươngphápphâncụmphân hoạch 16 1.3.2 Phươngphápphâncụmphân cấp 17 1.3.3 Phươngpháp tiếp cận dựa mật độ 19 1.3.4 Phươngphápphâncụm dựa lưới 20 1.3.5 Phươngphápphâncụm dựa mơ hình 20 CHƢƠNG 2: GIỚI THIỆU BÀITOÁNPHÂNCỤMMỜ VÀ CÁC PHƢƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU 22 2.1 Bàitoánphâncụmmờ 22 2.1.1 Giới thiệu phâncụmmờ 22 2.1.2 Thuật toán Fuzzy C-Mean (FCM) 22 2.1.2.1 Hàm mục tiêu 22 2.1.2.2 Thuật toán FCM 25 2.1.2.3 Đánh giá 27 2.2 Các phƣơng pháp xác định số cụm gom cụm liệu 27 2.2.1 Xác định số cụm dựa phươngpháp truyền thống 28 2.2.2 Xác định số cụmphươngpháp Eblow 29 2.2.3 Xác định số cụm dựa phươngpháp phê duyệt chéo 30 2.2.4 Xác định số cụm dựa độ chồng độ nén liệu 32 2.3 Đề xuất phƣơng án áp dụng thuật toán FCM phƣơng pháp xác định số cụm vào tốn lựa chọn nhóm doanhnghiệprủiro vi phạm thuế cao 34 CHƢƠNG 3: ỨNGDỤNG PHƢƠNG PHÁPPHÂNCỤMMỜCHOBÀI TỐN PHÂNTÍCHTHƠNGTINRỦIROQUẢNLÝTHUẾDOANHNGHIỆP 36 3.1 Mơ tả tốn 36 3.2 Dữ liệu đầu vào 37 3.3 Lựa chọn công cụ, môi trƣờng thực nghiệm 39 3.4 Phƣơng phápphâncụm lựa chọn số cụm 40 3.4.1 Xác định phươngphápphâncụm 40 3.4.2 Lựa chọn số cụm 40 3.5 Kết thực nghiệm 43 3.5.1 Kết phân loại doanhnghiệp 43 3.5.1.1 Kết phâncụm tập liệu data.csv 43 3.5.1.2 So sánh kết phâncụmdoanhnghiệp với mức rủiro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia 44 3.5.1.3 Xác định doanhnghiệp thuộc cụm 45 3.5.2 Kết luận 46 3.6 Ứngdụng kết thực nghiệm vào toán khoanh vùng, lựa chọn nhóm doanhnghiệp có khả rủiro vi phạm thuế cao 47 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 50 TÀI LIỆU THAM KHẢO 52 DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT Viết tắt Thuật ngữ Giải thích (Anh/Việt) FCM Fuzzy C-Mean Một thuật toánphâncụmmờ GTGT Giá trị gia tăng Tờ khai thuế giá trị gia tăng Mã số thuế Mã số thuếdoanhnghiệp MST DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU Hình 1.1 Quá trình phát tri thức Hình 1.2 Quá trình khai há liệu Hình 1.3 Ví dụ Phâncụm liệu Hình 1.4 Ví dụ phâncụm ngơi nhà dựa khoảng cách Hình 1.5 Ví dụ phâncụm ngơi nhà dựa kích cỡ Hình 1.6 Ví dụ phươngphápphâncụmphân cấp Hình 1.7 Ví dụ phâncụm theo mật độ (1) Hình 1.8 Ví dụ phâncụm theo mật độ (2) Hình 1.9 Cấu trúc phâncụm dựa lưới Hình 1.10 Ví dụ phâncụm dựa mơ hình Hình 2.1 Thuật tốn FCM Hình 2.2 Phâncụm tập liệu với số lượng cụm khác Hình 2.3 Minh họa chophươngpháp xác định số cụm dựa phươngpháp truyền thống Hình 2.4 Ví dụ minh họa cách xác định số cụmphươngpháp Elbow Hình 2.5 Mơ tả phươngpháp Holdout Hình 2.6 Q trình ước lượng số cụm tối ưu dựa độ chồng độ nén liệu Hình 2.7 Đề xuất phương án lựa chọn nhóm doanhnghiệprủiro vi phạm thuế cao Hình 3.1 Kết phâncụm liệu với số cụm c = [3, 7] Hình 3.2 Kết phâncụm liệu với tập liệu data.csv Hình 3.3 Xác định doanhnghiệp thuộc cụm Hình 3.4 Mơ tập liệu X’(1) Hình 3.5 Mơ tập liệu X’(2) Hình 3.6 Mơ tập liệu X’(3) Bảng 3.1 Mô tả thôngtin tiêu cột liệu thuộc tập liệu data.csv Bảng 3.2 Kết tính F với số cụm c=[3,7] Bảng 3.3 Kết phâncụmdoanhnghiệp tập liệu data_cum.csv Bảng 3.4 So sánh kết phâncụm liệu data.csv với thôngtinrủiro vi phạm thuếMỞ ĐẦU Công tác thanh, kiểm tra thuế nhiệm vụ trọng tâm nhằm ngăn ngừa, phát xử lý kịp thời vi phạm thuế Thực tốt công tác thanh, kiểm tra thuế góp phần tăng nguồn thu cho ngân sách, tạo bình đ ng cơng xã hội ngh a vụ thuế đối tượng nộp thuế Hiện nhu cầu tin học hóa quy trình nghiệp vụ ngành Thuế nói chung đại hố cơng tác thanh, kiểm tra thuế nói riêng, góp phần nâng cao hiệu cơng tác quảnlýthuế ngày cao Với tính chất đa dạng phức tạp liệu kho liệu Người nộp thuế, cần thiết phải có hướng nghiên cứu cách tổ chức kho liệu để trích xuất thơngtin phù hợp Khai phá liệu hướng nghiên cứu phổ biến nay, phâncụm công cụ hữu hiệu tốn khai phá liệu, phântíchthơngtin [3] Mục tiêu phâncụm chia nhỏ đối tượng vào cụmcho đối tượng cụm tương đồng với Phâncụm có nhiều ứngdụng thương mại, giúp nhà cung cấp biết nhóm khách hàng quan trọng có đặc trưng tương đồng đặc tả họ từ mẫu sở liệu khách hàng Phâncụmmờphươngphápphâncụm liệu mở rộng điểm liệu thuộc hai hay nhiều cụm với giá trị hàm thuộc tương ứng Năm 1969, Ruspini [17] giới thiệu khái niệm phân hoạch mờ để mô tả cấu trúc cụmmờ Năm 1973, Dunn [18] mở rộng phươngphápphâncụm phát triển thuật toánphâncụmmờ Ý tưởng thuật toán xây dựngphươngphápphâncụmmờ dựa tối thiểu hóa hàm mục tiêu Sau đó, Bezdek [16] cải tiến tổng quát hóa hàm mục tiêu mờ cách thêm trọng số mũ Cho đến nay, có nhiều biến thể phâncụmmờứngdụngtoán khác [16] Mục tiêu đề tài ứngdụng thuật tốn phâncụmmờphântíchthơngtinrủiroquảnlýthuếdoanhnghiệp Một sở liệu mẫu thôngtin tờ khai thuế, báo cáo tài doanh nghiệp, mức độ rủiro 644 doanhnghiệp sử dụng để làm đầu vào cho hệ thốngphântíchrủiro sử dụngphươngphápphâncụmmờ Hệ thốngphântích triển khai xây dựng thử nghiệm kiểm chứng Các phần luận văn: Chƣơng 1: Tổng quanphâncụm liệu 40 tận dụng thư viện sẵn có nhằm hỗ trợ q trình xây dựng thuật toán 3.4 Phƣơng phápphâncụm lựa chọn số cụm 3.4.1 Xác định phươngphápphâncụm - Dữ liệu doanhnghiệp tương đồng, phâncụmrủiro vi phạm chodoanhnghiệp ranh giới rõ ràng để kh ng định doanhnghiệprủiro vi phạm cao hay không Ranh giới mờ Ta nói doanhnghiệprủiro cao mức độ phần trăm Do phâncụmdoanh nghiệp, có nhiều đối tượng nằm ranh giới cụm, đối tượng thuộc vào nhiều cụm - Khái niệm “rủi ro” chất mờ, vì: o Có nhiều mức độ rủiro khác nhau: Rủiro cao, rủiro vừa, rủiro thấp, hay khơng rủiro o Có yếu tố bất định, ngẫu nhiên o Mức độ rủiro xác định tùy theo quan điểm người đánh giá Do với tốn phântíchthơngtinrủiroquảnlýthuếdoanhnghiệp nên biểu diễn tập mờ, cho kết tốt hơn, luận văn lựa chọn phươngphápphâncụmmờ để ứngdụng vào toán đặt mục 3.1 tập liệu đầu vào đưa mục 3.2 3.4.2 Lựa chọn số cụm Quá trình phâncụm liệu nhằm xác định nhóm đối tượng liệu tương tự, từ khảo sát cụm giúp khái quát, nhanh chóng rút đặc điểm khối liệu lớn Tuy nhiên, hầu hết thuật toánphân cụm, tham số số cụm trước thuật toán thường yêu cầu người dùng phải xác định trước số lượng cụm, ứng với số lượng cụm khác cho kết phâncụm khác [2] Khi áp dụng thuật toánphâncụmchotoán cụ thể, việc ước lượng số cụm ảnh hưởng lớn đến chất lượng phâncụm Một phâncụm tốt có sai khác cụm nhỏ (độ nén lớn) phân tách rõcụm (độ chồng nhỏ) Do vậy, phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, luận văn lựa chọn việc xác định số cụm dựa độ 41 chồng độ nén liệu (phương pháp trình bày mục 2.2.4) Cụ thể sau: - Thực lặp thuật toánphâncụmmờ tập liệu data.csv với số cụm c nằm khoảng [3, 7] Hình 3.1 kết thu nhận được: H nh Kết phâncụm liệu với số cụm c = [3, 7] (a) Tập liệu gồm cụm (b) Tập liệu gồm cụm (c) Tập liệu gồm cụm (d) Tập liệu gồm cụm - Áp dụng cơng thức tính độ tương đồng đối tượng cụm, độ chồng cụm F hiệu hai thuộc tính độ nén độ chồng cụm (công thức nêu mục 2.2.4), luận văn 42 tính độ chồng đối tượng xj với T0 = 0.1, tính hàm F tương ứng với số cụm c=[3,7], kết bảng 3.2 sau: 43 Bảng 3.2 Kết tính F với số cụm c=[3,7] c Compactness (c, U) Overlap (c,U) F 1,337962 0,266365 1,071597 2,000024 1,151229 0,848795 2,178677 1,768209 0,410468 2,644531 3,049731 -0,4052 2,845703 3,949323 -1,10362 Số cụm c tối ưu hàm F đạt giá trị cực đại Dựa vào kết bảng 3.2, nhận thấy: phạm vi toán nêu mục 3.1 tập liệu mẫu data.csv đặt mục 3.2, số cụm tối ưu c = 3.5 Kết thực nghiệm Trong phần thực nghiệm, luận văn áp dụng thuật toán FCM với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = Mơi trường lập trình Matlab, với cấu hình máy tính: Ram 4GB, tốc độ xử lý CPU 2.30 GHz 3.5.1 Kết phân loại doanhnghiệp Kết phâncụm tập liệu data csv 3.5.1.1 Kết phâncụmdoanhnghiệprủiro vi phạm với tập liệu data.scv với số cụm c = thể bảng 3.2 hình 3.2 đây: Bảng 3.3 Kết phâncụmdoanhnghiệp tập liệu data_cum.csv STT Thứ tự cụm Số doanhnghiệp thuộc cụm 1 568 2 26 3 50 44 H nh Kết phâncụm liệu với tập liệu data csv 3.5.1.2 So sánh kết phâncụmdoanhnghiệp với mức rủiro vi phạm thuế tương ứng đánh giá từ kinh nghiệp chuyên gia Theo chuyên gia nghiệp vụ thuế, doanhnghiệprủiro vi phạm thuế chia làm mức: mức 0, mức mức Luận văn tiến hành thu thập thôngtinrủiro vi phạm thuế 644 doanhnghiệp thuộc tập liệu data.csv (thông tinrủiro vi phạm tính tốn dựa kinh nghiệm chuyên gia nghiệp vụ thuế) tiến hành so sánh với kết phâncụmdoanhnghiệp (bảng 3.2 mục 3.5.1.1) kết bảng 3.3 sau: Bảng 3.3 So sánh kết phâncụm liệu data.csv với thôngtinrủiro vi phạm thuế 45 STT Thứ tự cụm Số doanhnghiệp thuộc cụm Tỷ lệ liệu so với mức rủiro vi phạm - Mức 0: 0% 1 568 - Mức 1: 37.68% - Mức 2: 62.32% - Mức 0: 80.77% 2 26 - Mức 1: 19.23% - Mức 2: 0% - Mức 0: 4% 3 50 - Mức 1: 80% - Mức 2: 16% Dựa vào bảng 3.3, nhận thấy đối tượng nhóm có độ tương đồng tương đối cao mức rủiro vi phạm thuế, đại đa số doanhnghiệpcụm có giá trị mức rủi ro, cụ thể: - Cụm 1: 62.32% doanhnghiệp thuộc mức rủiro - Cụm 2: 80.77% doanhnghiệp thuộc mức rủiro - Cụm 3: 80% doanhnghiệp thuộc mức rủiro 3.5.1.3 Xác định doanhnghiệp thuộc cụm Tập liệu ban đầu doanhnghiệp có chứa thơngtin chi tiết doanhnghiệp (bao gồm MST, tên doanh nghiệp, địa chỉ, ), trích xuất thôngtin vào tập data.csv để thực nghiệm sử dụngthôngtin giá trị tiêu tờ khai khấu trừ thuế GTGT báo cáo tài doanhnghiệp Do sau có kết phâncụmcho tập liệu data.csv, luận văn tiến hành ánh xạ thôngtinphâncụm tập data.csv với thôngtin chi tiết ban đầu để xác định doanhnghiệp thuộc cụm 46 Hình 3.3 Xác định doanhnghiệp thuộc cụm Lưu ý: Thôngtin chi tiết doanhnghiệp hình 3.3 mang tính chất tham khảo 3.5.2 Kết luận Dựa vào kết thực nghiệp, liệu đầu vào, nhận thấy cách chọn tiêu chí, thuộc tính liệu đầu vào cách phâncụm luận văn phù hợp với mục tiêu tốn đặt phântíchthơngtinrủiroquảnlýthuế Trong công tác quảnlýrủiro vi phạm thuế nên có giá trị mức rủiro Các chuyên gia nghiệp vụ thuế xác định mức rủiro vi phạm thuếdoanhnghiệp là: - Mức 0: rủiro vi phạm thấp – không rủiro - Mức 1: rủiro vi phạm vừa - Mức 2: rủiro vi phạm cao Dựa vào kết phâncụmdoanh nghiệm tập liệu data.csv, ta thấy: doanhnghiệp có rủiro vi phạm cao thường tập trung cụm nằm gần gốc tọa độ Oxy, doanhnghiệpphâncụm xa gốc tọa độ mức rủiro vi phạm giảm (xem chi tiết kết phâncụm hình 3.2 bảng 3.3) Kết phân loại, khoanh vùng đối tượng doanhnghiệp theo mức độ rủiro vi phạm giúp tăng tính hiệu việc lựa chọn, phântíchthơngtinrủiroquảnlýthuếdoanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanhnghiệpquanthuế giám sát việc tuân thủ ngh a vụ thuế 47 3.6 Ứngdụng kết thực nghiệm vào tốn khoanh vùng, lựa chọn nhóm doanhnghiệp có khả rủiro vi phạm thuế cao Dựa vào kết thực nghiệm (mục 3.5.2): doanhnghiệp có rủiro vi phạm cao thường tập trung cụm liệu nằm gần gốc tọa độ Oxy, áp dụngphương án khoanh vùng doanhnghiệp có khả rủiro vi phạm thuế cao tập liệu đề xuất hình 2.7 (mục 2.3) luận văn với liệu đầu vào sau: - (1): X0 tập liệu data.csv (tập liệu data.csv mô tả mục 3.2) Chọn n = [100, 200] - (2): Áp dụng thuật tốn FCM mơi trường Matlab với tham số: tham số mờ m = 2, sai số = 0.01, số lần lặp tối đa 1000, số cụm c = - Kết mong muốn: Tập liệu doanhnghiệprủiro vi phạm X’ với n = [100, 200] số doanhnghiệprủiro vi phạm cao chiếm ≥ 70% tập liệu X’ Kết thực nghiệm: - Áp dụng quy trình hình 2.7 lần 1: X’(1) chứa 568 doanhnghiệpmơ hình 3.4 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) 48 Hình 3.4 Mô tập liệu X’(1) - Áp dụng quy trình hình 2.7 lần (X1 = X’(1)): X’(2) chứa 425 doanhnghiệpmơ hình 3.5 (các đối tượng thuộc tệp có dạng chấm màu xanh dương) Hình 3.5 Mơ tập liệu X’(2) 49 - Áp dụng quy trình hình 2.7 lần (X’ = X’(2)): X’(3) chứa 255 doanhnghiệpmô hình 3.6 (các đối tượng thuộc tệp có dạng chấm màu xanh lá) Hình 3.6 Mơ tập liệu X’(3) - Tương tự, áp dụng quy trình hình 2.7 lần (X1 = X’(3)), áp dụng thuật toán FCM với số cụm c =2 (do lúc số liệu thuộc tập X1 255 doanh nghiệp, nên luận văn lựa chọn chia làm cụm) Kết thu được: X’(4) chứa 146 nghiệp, thỏa mãn j = [100, 200] - Tính tỷ lệ doanhnghiệprủiro vi phạm cao tập liệu nhận cách ánh xạ tương ứng MST doanhnghiệp với tập liệu data.csv ban đầu để lấy mức rủiro Ta kết sau: Tập X’(4) có chứa: 71.233% (104/146) doanhnghiệprủiro vi phạm cao 28.767 % (42/146) doanhnghiệprủiro vi phạm vừa Thỏa mãn kết mong muốn 50 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN KẾT LUẬN Ngày nay, khai phá liệu l nh vực thời ngành công nghệ thôngtin giới nói chung Việt Nam nói riêng Khai phá liệu ứngdụng rộng rãi nhiều l nh vực đời sống Một toánquan trọng l nh vực khai phá liệu toánphâncụm liệu Phâncụm liệu, nói cách khái quát việc tự động sinh cụm dựa vào tương tự đối tượng liệu Trong kỹ thuật phâncụm liệu, kỹ thuật phâncụm liệu theo hướng tiếp cận mờ l nh vực nghiên cứu rộng lớn đầy triển vọng Với đề tài “Ứng dụngphươngphápphâncụmmờcho tốn phântíchthơngtinrủiroquảnlý thuế”, luận văn tập trung tìm hiểu, nghiên cứu đạt số kết sau đây: - Nắm bắt khái niệm liên quan đến khai phá liệu, phâncụm liệu - Phântích số phươngphápphâncụm liệu như: phươngphápphâncụmphân hoạch, phươngphápphâncụmphân cấp, phươngpháp tiếp cận dựa mật độ, phươngphápphâncụm dựa lưới phươngphápphâncụm dựa mơ hình - Tìm hiểu số phươngpháp xác định số cụm gom cụm liệu dựa phươngpháp truyền thống, phươngpháp Eblow, phươngpháp phê duyệt chéo phươngpháp xác định số cụm dựa độ chồng, độ nén liệu - Tìm hiểu thuật tốn phâncụmmờ FCM, cài đặt thuật tốn mơi trường Matlab thử nghiệm phâncụmdoanhnghiệprủiro vi phạm thuộc liệu mẫu thôngtin tờ khai thuế, báo cáo tài doanhnghiệp 644 doanhnghiệp - Phân loại, khoanh vùng đối tượng doanhnghiệp theo mức độ rủiro vi phạm giúp tăng tính hiệu việc lựa chọn, phântíchthơngtinrủiroquảnlýthuếdoanh nghiệp, tăng tính hiệu hoạt động tra kiểm tra, mở rộng số lượng, trường hợp doanhnghiệpquanthuế giám sát việc tuân thủ ngh a vụ thuế Tuy nhiên bên cạnh kết đạt em tự thấy luận văn nhiều hạn chế mặt trình bày vấn đề hiểu, chương trình thử 51 nghiệm dừng thuật tốn phân cụm, liệu đầu vào nhiều hạn chế Thời gian nghiên cứu trình độ thân có hạn nên khơng thể tránh hỏi thiếu sót, mong nhận ý kiến đóng góp từ quý thầy cô, anh chị bạn HƢỚNG PHÁT TRIỂN Trên sở nghiên cứu tìm hiểu luận văn, thời gian tới em định hướng tiếp tục nghiên cứu, mở rộng đề tài cách nghiên cứu kỹ thuật khai phá liệu khác Nghiên cứu thêm số kỹ thuật phâncụm đặc biệt phâncụmmờứngdụng vào số toán thực tế 52 TÀI LIỆU THAM KHẢO Tiếng Việt An Hồng Sơn (2008), Nghiên cứu số phươngphápphâncụmmờứng dụng, Đại học Thái Nguyên Nguyễn Trung Đức (2013), Tiếp cận mờphâncụm liệu, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Đặng Tiến Dũng (2003), T m hiểu khái niệm quảnlýquảnlý thuế, Tạp chí thuế nhà nước Lê Tuấn Tú (2011), Nghiên cứu xây dựng luật mờ từ liệu theo phâncụm – ĐH Công nghệ thôngtin Truyền thông Phạm Thị Thu (2007), Thuật toánphâncụm liệu mờ, Trường Đại học dân lập Hải Phòng Nguyễn Trung Sơn (2009), Phươngphápphâncụmứng dụng, luận văn thạc s Khoa học máy tính Trần Nguyên Hương (2009), Một số thuật toánphâncụm Data mining Trần Thị Yến (2012), Phâncụm liệu trừ mờứng dụng, luận văn thạc s Công nghệ thôngtin Vũ Hải Thuyết (2012), Nghiên cứu số giải thuật phâncụm liệu, luận văn thạc s chuyên ngành Truyền liệu mạng máy tính 10.Vũ Minh Đơng (2010), Một số phươngphápphâncụm liệu, Đại học dân lập Hải Phòng 11.Nguyễn Hồng Tú Anh (2009), Giáo trình Khai thác liệu ứng dụng, Đại học KHTN Tp Hồ Chí Minh 12.Nguyễn Thế Đạt (2017), Nghiên cứu mơ h nh phâncụm có thứ bậc đồ thị liệu, Đại học Công nghệ thôngtin Truyền thông 13.Hoàng Thị Minh Châu (2010), Các giải pháp cải tiến thuật toán FCM CFCM nhằm tăng tốc độ tính tốn, luận văn thạc s 14.Hồng Văn Dũng (2007), Khai phá liệu web kỹ thuật phân 53 cụm, luận văn thạc s khoa học 15.Hoàng Thị Lan Giao, Trần Tuấn Tài (2011), Ứngdụngphâncụm liệu việc phân tích, đánh giá kết học tập học sinh Tiếng Anh 16.Bezdek, J C., Ehrlich, R., & Full, W (1984), FCM: The fuzzy c-means clustering algorithm, Computers & Geosciences, 10(2-3), 191-203 17.Ruspini E.H (1969), A new approach to clustering, Information and Control 18.Dunn J.C (1973), A fuzzy relative of the ISODATA process and its use in detecting compact Well-Separated clusters, Journal of Cybernetics 19.Jiawei Han and Micheline Kamber (2007), Data Mining Concepts and Techniques, Chapter & Chapter (Intelligent Database Systems Research Lab School of Computing Science Simon Fraser University, Canada) 20.W Wang, Y Zhang (2007), On fuzzy cluster validity indices, ScienceDirect, vol 158, pp 2095-2117 21.K.R Zalik (2010), Cluster validity index for estimation of fuzzy clusters of different sizes and densities, Pattern Recognition 43, pp 3374-3390 22.Q Zhao (2012), Cluster validity in clustering methods, Publications of the University of Eastern Finland 23.D.W Kim, K.H Lee, D Lee (2004), On cluster validity index for estimation of the optimal number of fuzzy clusters, Pattern Recognition 37, pp 2009–2025 Một số trang web 24.http://www.taichinhdientu.vn/tap-chi-efinance/phan-tich-rui-ro-nguoinop-thue-mau-chot-o-con-nguoi-148789.html 25.http://vneconomy.vn/tai-chinh/quan-ly-rui-ro-trong-kiem-tra-thanh-trathue-la-gi-2016040811092612.htm 26.http://gizteam.com/tong-quan-ve-khai-pha-du-lieu/ 54 27.http://home.deib.polimi.it/matteucc/Clustering/tutorial_html/index.htm l 28.https://bienuit.wordpress.com/2013/09/07/quy-trinh-khai-pha-du-lieuprocess-of-data-mining/ 29.http://ketoanthue24h.com/bao-cao-tai-chinh-la-gi-khai-niem-y-nghiacua-bctc/ 30.http://www.tuvanluatvietnam.vn/vn/service/thue-gia-tri-gia-tang30.html ... ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI TỐN PHÂN TÍCH THƠNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP Ngành: Công nghệ thông tin Chuyên ngành: Quản lý Hệ thống thông tin Mã số: LUẬN VĂN THẠC SĨ QUẢN... thể phân cụm mờ ứng dụng toán khác [16] Mục tiêu đề tài ứng dụng thuật tốn phân cụm mờ phân tích thơng tin rủi ro quản lý thuế doanh nghiệp Một sở liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh. .. phân cụm mờ cho tốn phân tích thơng tin quản lý rủi ro thuế doanh nghiệp Chương đề cập đến toán phân cụm doanh nghiệp dựa tập liệu mẫu thông tin tờ khai thuế, báo cáo tài doanh nghiệp 644 doanh nghiệp