Untitled ĐẠI HỌC UEH TRƯỜNG KINH DOANH ĐỒ ÁN NHÓM BỘ MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI DỰ ĐOÁN CÁC CÔNG TY GIAN LẬN TRÊN CỞ SỞ CÁC YẾU TỐ RỦI RO HIỆN TẠI VÀ LỊCH SỬ lOMoARcPSD|18034504 https //www studocu c[.]
lOMoARcPSD|18034504 ĐẠI HỌC UEH TRƯỜNG KINH DOANH ĐỒ ÁN NHÓM BỘ MƠN KHOA HỌC DỮ LIỆU ĐỀ TÀI: DỰ ĐỐN CÁC CÔNG TY GIAN LẬN TRÊN CỞ SỞ CÁC YẾU TỐ RỦI RO HIỆN TẠI VÀ LỊCH SỬ lOMoARcPSD|18034504 TP Hồ Chí Minh, ngày 28 tháng 09 năm 2022 Giảng viên: Ths Nguyễn Mạnh Tuấn Sinh viên thực hiện: Phạm Thùy Linh – 31211020075 Phạm Hoàng Tuấn – 31211024863 Nguyễn Thị Hồng Huệ - 31211025691 Nguyễn Trí Hải – 31211024849 Nguyễn Thị Chúc – 31211021729 lOMoARcPSD|18034504 CHƯƠNG I: TỔNG QUAN 1.1 Lý chọn đề án Trong việc chọn đề tài báo cáo nhóm gặp nhiều khó khăn phải tìm đề tài liên quan đến chuyên nghành nhóm, chun nghành Kế tốn Những sau q trình tìm tịi, tham khảo nhận giúp đỡ giảng viên thầy Nguyễn Mạnh Tuấn nhóm chọn đề tài “Dự đốn cơng ty gian lận cở sở yếu tố rủi ro lịch sử ” Tuy đề tài không thật chuyên nghành đề tài liên quan đến chuyên nghành Kiểm toán thuộc lĩnh vực Kế tốn tài chính, làm việc số liệu từ nhiều đối tượng cung cấp, sau tổng hợp lại thành báo cáo tài để thuyết trình với người u cầu báo cáo Ngồi ra, việc tìm tập liệu để giúp kiểm toán viên xây dựng mơ hình phân loại dự đốn cơng ty gian lận sở yếu tố rủi ro lịch sử cung cấp công khai phi thương mại trang tìm kiếm liệu: https://www.kaggle.com/datasets Cơng trình nghiên cứu nghiên cứu điển hình cơng ty kiểm tốn bên ngồi phủ kiểm tốn viên bên ngồi cơng ty phủ Ấn Độ Trong q trình lập kế hoạch kiểm tốn, kiểm tốn viên kiểm tra hoạt động kinh doanh văn phịng phủ khác mục tiêu đến thăm văn phòng với khả xảy sai sót cao có ý nghĩa nghiêm trọng Điều tính tốn cách đánh giá rủi ro liên quan đến mục tiêu báo cáo tài (Houston, Peters Pratt 1999) Ba mục tiêu nghiên cứu sau: Để hiểu quy trình phân tích rủi ro kiểm tốn cơng ty cách vấn sâu với nhân viên kiểm toán đề xuất khuôn khổ định để đánh giá rủi ro doanh nghiệp trình lập kế hoạch kiểm toán Để kiểm tra yếu tố rủi ro lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp lOMoARcPSD|18034504 hạng yếu tố rủi ro kiểm tra đánh giá Phân loại kiểm toán rủi ro (Gian lận Không gian lận) các công ty Để kiểm tra yếu tố rủi ro lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp hạng yếu tố rủi ro kiểm tra đánh giá Phân loại kiểm toán rủi ro (Gian lận Không gian lận) các công ty Từ lý trên, nhóm em lựa chọn đề tài “Dự đốn cơng ty gian lận cở sở yếu tố rủi ro lịch sử ” làm báo cáo kết thúc môn học 1.1.1 Mục tiêu nghiên cứu (làm sau) 1.1.2 Đối tượng nghiên cứu Sử dụng liệu Audit data trang web liệu miễn phí https://www.kaggle.com/datasets 1.1.3 Mơ tả tốn (làm sau) 1.3 Mơ tả phương pháp 1.3.1 Phương pháp phân lớp (Classification) Phương pháp phân lớp trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mô hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước (thuộc lớp nào) Q trình gán nhãn (thuộc lớp nào) cho đối tượng liệu trình phân lớp liệu Quá trình phân lớp liệu gồm bước chính: Hình Mơ hình phân lớp lOMoARcPSD|18034504 Bước 1: Xây dựng mơ hình (hay cịn gọi giai đoạn “học” “huấn luyện”) - Dữ liệu đầu vào: liệu mẫu gán nhãn tiền xửa lý - Các thuật toán phân lớp: định, hàm số toán học, tập luật - Kết bước mơ hình phân lớp huấn luyện (trình phận lớp) Hình Xây dựng mơ hình Bước 2: Sử dụng mơ hình chia thành bước nhỏ Bước 2.1: Đánh giá mơ hình (kiểm tra tính đắn mơ hình) - Đầu liệu vào: tập liệu mẫu khác gán nhẫn tiền xử lý Tuy nhiên, lúc đưa vào mơ hình phân lớp, ta “lơ” thuộc tính gán nhãn - Tính đắn mơ hình đucojw xác định cách so sánh thuộc tính gán nhãn liệu đầu vào kết Hình Đánh giá mơ hình phân lớp mơ hình Bước 2.2: Phân lớp liệu - Dữ liệu đầu vào: liệu “khun” thuộc tính cần dự đốn lớp (nhãn) Hình Phân lớp liệu lOMoARcPSD|18034504 - Mơ hình tự động phân lớp (gán nhãn) cho đối tượng liệu dựa vào huấn luyện bước Phân loại toán phân lớp: Nhiệm vụ tốn phân lớp phân đói tượng liệu vào n lớp cho trước Nếu: - n = 2: Phân lớp nhị phân - n > 2: Phân lớp đa lớp - Mỗi đói tượng liệu thuộc vào lớp nhất: Phân lớp đơn nhãn - Một đối tượng liệu thuộc nhiều lớp khác nhau: Phân lớp đa nhãn Cần thêm phần phương pháp phân lớp sử dụng tập 1.3.2 Phương pháp phân cụm (Clustering) Phân cụm liệu q trình gom cụm/nhóm đối tượng/dữ liệu có đặc điểm tương đồng vào cụm/nhóm tương ứng Trong đó: Các đối tượng cụm có tính chất tương tự Các đối tượng thuộc cụm/nhóm khác có tính chất khác Lưu ý: Dữ liệu toán phân cụm liệu chưa gán nhãn Đây liệu tự nhiên thường thấy thực tế Mơ hình q trình phân cụm liệu: Downloaded by vu ga (vuchinhhp2@gmail.com) Hình Phân cụm liệu lOMoARcPSD|18034504 Hình Mơ hình q trình phân cụm liệu Đặc điểm: Nhiệm vụ tìm đo đạc khác biệt đối tượng liệu Phân cụm thuộc nhóm phương pháp học khơng giám sát (unsupervised learning) khơng biết trước số nhóm (khác với tốn phân lớp) Một phương pháp phân cụm tốt phương pháp tạo cụm có chất lượng cao: • Độ tương đồng bên cụm cao • Độ tương tự cụm thấp (khác biệt cao) Các ứng dụng điển hình: • Cơng cụ phân cụm liệu độc lập • Là giai đoạn tiền xử lý cho thuật toán khác Độ đo phân cụm: sử dụng làm tiêu chí nhằm tính tốn tương đồng/sai biệt đối tượng liệu nhằm phục vụ cho trình gom cụm Một số độ đo phân cụm: • Euclid • Cosin • Minkowski Phân loại mốt số phương pháp phân cụm: Loại Đặc điểm Các phương pháp điển hình Dựa phân cấp Phân cấp đối tượng dựa Diana, Agnes, BIRCH, (Hỉearchical approach) mốt số tiêu chí Dựa phân hạch Xây dựng phân hạch K-means, k-medoids, fuzzy (Partitioning approach) khác đánh giá C means chúng Downloaded by vu ga (vuchinhhp2@gmail.com) CAMELEON lOMoARcPSD|18034504 Sau đó, tìm cách tối thiểu hóa tổng bình thường độ lỗi Dựa mật đố Dựa kết nối DBSCAN, OPTICS, (Density-based approach) đối tượng hàm mật DenClue độ Dựa lưới Dựa cấu trúc độ chi tiết STING, WaveCluster, (Grid-based approach) nhiều cấp Dựa mơ hình Giả định cụm có EM, SOM, COBWEB (Model-based) mơ hình tìm cách fit mơ CLIQUE hình vào cụm (Thêm pp phân cụm sd bt) 1.4 Mô tả liệu (làm sau) CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 2.1 Phân tích liệu tiền sử lý 2.1.1 Phân tích liệu Phân tích liệu đặc trưng có tính phân loại: - Mỗi hàng đại diện cho doanh nghiệp từ 46 thành phố khác tiểu bang kiểm toán viên liệt kê, cột chứa thuộc tính đối tượng - Dữ liệu thô 777 hàng (đối tượng) 27 cột (đặc trưng) (còn thiếu liệu sử dụng excel) Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 2.1.2 Tiền xử lý liệu Xử lý liệu: • Báo cáo sử dụng liệu lấy từ trang https://www.kaggle.com/datasets, xác inh xử lý nên khơng có liệu thiếu Downloaded by vu ga (vuchinhhp2@gmail.com) lOMoARcPSD|18034504 CHƯƠNG III: KẾT LUẬN Downloaded by vu ga (vuchinhhp2@gmail.com) ... thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp lOMoARcPSD|18034504 hạng yếu tố rủi ro kiểm tra đánh giá Phân loại kiểm tốn rủi ro (Gian lận Khơng gian lận) các công ty Để kiểm tra yếu tố rủi ro lịch sử. .. Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật tốn Tối ưu hóa bầy đàn (PSO) để xếp hạng yếu tố rủi ro kiểm tra đánh giá Phân loại kiểm toán rủi ro (Gian lận Không gian lận) các. .. viên kiểm toán đề xuất khuôn khổ định để đánh giá rủi ro doanh nghiệp trình lập kế hoạch kiểm toán Để kiểm tra yếu tố rủi ro lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu,