Đồ án nhómbộ môn khoa học dữ liệu đề tài dự đoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử

24 0 0
Đồ án nhómbộ môn khoa học dữ liệu đề tài dự đoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Tuy đề tài không thật sự đúng chuyên nghành những đề tài này liên quan đến chuyên nghành Kiểm toán cũng thuộc lĩnh vực về Kế toán tài chính đều làm việc trên, những con số và dữ liệu từ

Trang 1

ĐẠI HỌC UEHTRƯỜNG KINH DOANH

ĐỒ ÁN NHÓMBỘ MÔN KHOA HỌC DỮ LIỆU

ĐỀ TÀI: DỰ ĐOÁN CÁC CÔNG TY GIAN LẬN TRÊN CỞ SỞ CÁCYẾU TỐ RỦI RO HIỆN TẠI VÀ LỊCH SỬ

TP Hồ Chí Minh, ngày 28 tháng 09 năm 2022

Trang 2

Giảng viên: Ths Nguyễn Mạnh TuấnSinh viên thực hiện:

Trang 3

Bảng 2 Kết quả Test & Score ( 1 ) -15

Bảng 3 Kết quả Confusion Matrix ( 1 ) -17

Bảng 4 Kết quả Test & Score ( 2 ) -21

Bảng 5 Kết quả Confusion Matrix ( 2 ) -21

Bảng 7 Kết quả k-Means -18

MỤC LỤCCHƯƠNG I: TỔNG QUAN1.1 LÝ DO CHỌN ĐỀ TÀI -5

Trang 4

1.Mục tiêu nghiên cứu -6

2.Đối tượng nghiên cứu -6

1.2 MÔ TẢ BÀI TOÁN -6

1.3 MÔ TẢ PHƯƠNG PHÁP -7

1.Phương pháp phân lớp (Classification) -7

2.Phương pháp phân cụm (Clustering) -9

1.4 MÔ TẢ DỮ LIỆU -12

Chương II QUY TRÌNH THỰC HIỆN & KẾT QUẢ -14

2.1 PHÂN TÍCH VÀ TIỀN XỬ LÍ DỮ LIỆU -14

1 Phân tích dữ liệu -14

2 Tiền xử lý dữ liệu -14

2.2 BÀI TOÁN 1: DỰ ĐOÁN CÁC YẾU TỔ RỦI RO ( GIAN LẬN HOẶC KHÔNG GIAN LẬN ) ẢNH HƯỞNG TỚI CÔNG TY. -14

1 Quy trình thực hiện -15

2 Đánh giá và kết quả -15

2.3 BÀI TOÁN 2: BÀI TOÁN PHÂN CỤM CÔNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TOÁN (PHÂN CỤM DỮ LIÊsU) -17

1 Quy trình thực hiện -17

2 Đánh giá và kết quả -18

2.4 BÀI TOÁN 3 : BÀI TOÁN PHÁT HIỆN CÁC CÔNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CÔNG CỤ THỐNG KÊ -19

1 Quy trình thực hiện -20

2 Đánh giá và kết quả -21

TÀI LIỆU THAM KHẢO -22

Trang 5

CHƯƠNG III KẾT LUẬN -22

CHƯƠNG I: TỔNG QUAN1.1Lý do chọn đề án

Trong việc chọn đề tài của bài báo cáo nhóm đã gặp nhiều khó khăn khi phải tìm đề tài liên quan đến chuyên nghành của nhóm, chuyên nghành Kế toán Những sau quá trình tìm tòi, tham khảo và nhận sự giúp đỡ của giảng viên là thầy Nguyễn Mạnh Tuấn thì nhóm cũng đã chọn được đề tài của mình là “Dự đoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ” Tuy đề tài không thật sự đúng chuyên nghành những đề tài này liên quan đến chuyên nghành Kiểm toán cũng thuộc lĩnh vực về Kế toán tài chính đều làm việc trên, những con số và dữ liệu từ nhiều đối tượng cung cấp, và sau đó tổng hợp lại thành một báo cáo tài chính để thuyết trình với người yêu cầu báo cáo.

Ngoài ra, việc tìm tập dữ liệu để giúp kiểm toán viên xây dựng mô hình phân loại có thể dự đoán công ty gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử được cung cấp công khai và phi thương mại trên trang tìm kiếm dữ liệu: https://www.kaggle.com/datasets Công trình nghiên cứu này là một nghiên cứu điển hình về một công ty kiểm toán bên ngoài của chính phủ cũng là kiểm toán viên bên ngoài của các công ty chính phủ của Ấn Độ Trong quá trình lập kế hoạch kiểm toán, kiểm toán viên kiểm tra hoạt động kinh doanh của các văn phòng chính phủ khác nhau nhưng mục tiêu là đến thăm các văn phòng với khả năng xảy ra sai sót rất cao và có ý nghĩa nghiêm trọng Điều này được tính toán bằng cách đánh giá rủi ro liên quan đến các mục tiêu báo cáo tài chính (Houston, Peters và Pratt 1999) Ba mục tiêu chính của nghiên cứu như sau:

Để hiểu quy trình phân tích rủi ro kiểm toán của công ty bằng cách phỏng vấn sâu với các nhân viên kiểm toán và đề xuất khuôn khổ ra quyết định để đánh giá rủi ro của doanh nghiệp trong quá trình lập kế hoạch kiểm toán.

Trang 6

Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật toán Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toán rủi ro (Gian lận và Không gian lận) của các các công ty.

Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giá rủi ro cho 777 công ty mục tiêu, triển khai thuật toán Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toán rủi ro (Gian lận và Không gian lận) của các các công ty.

Từ những lý do trên, nhóm em lựa chọn đề tài “Dự đoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ” làm báo cáo kết thúc môn học.

1 Mục tiêu nghiên cứu

- Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty.- Giúp kiểm toán viên xây dựng mô hình phân loại có thể dự đoán công ty gian lận

trên cơ sở các yếu tố rủi ro hiện tại và lịch sử

- Kiểm tra và đánh giá, phân loại kiểm toán rủi ro (Gian lận và Không gian lận)

của các các công ty.

2 Đối tượng nghiên cứu

Sử dụng bộ dữ liệu Audit data trên trang web dữ liệu miễn phí https://www.kaggle.com/datasets.

1.2MÔ TẢ BÀI TOÁN

Sử dụng phần mềm Orange và excel để xử lý dữ liệu và giải quyết các bài toán sau:

Bài toán 1: Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty (phân lớp dữ liệu).

Trang 7

Bài toán 2 : Bài toán phân cụm công ty gian lận, dựa trên rủi ro kiểm toán (phân cụm dữ liê qu)

Bài toán 3: Bài toán phát hiện các công ty gian lận dựa vào lược đồ hay công cụ thống kê

1.3MÔ TẢ PHƯƠNG PHÁP 1 Phương pháp phân lớp (Classification)

“Phương pháp phân lớp là quá trình phân một đối tượng dữ liệu vào một hay

nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu.”

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)- “Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xửa lý

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật

- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phận lớp)”

Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.

Bước 2.1: Đánh giá mô hình

Hình 1 Mô hình phân lớp

Hình 2 Xây dựng mô hình

Trang 8

Đầu dữ liệu vào: là một tập dữ liệu mẫu khác được gán nhẫn và tiền xử lý Tuy nhiên, lúc đưa vào mô hình phân lớp, ta “lơ” đi thuộc tính đã được gán nhãn.

- Tính đúng đắn của mô hình sẽ đucojw xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình.

Bước 2.2: Phân lớp dữ liệu mới

- Dữ liệu đầu vào: là dữ liệu “khuyên” thuộc tính cần dự đoán lớp (nhãn)

- “Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.

Phân loại bài toán phân lớp:

cho trước Nếu:

- n = 2: Phân lớp nhị phân- n > 2: Phân lớp đa lớp

- Mỗi đói tượng dữ liệu chỉ thuộc vào một lớp duy nhất: Phân lớp đơn nhãn- Một đối tượng dữ liệu có thể cùng thuộc về nhiều lớp khác nhau: Phân lớp đa

- Các phương pháp phân lớp sử dụng trong bài:

1.Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nằm hỗ trợ quá trình ra quyết

Hình 3 Đánh giá mô hình

Hình 4 Phân lớp dữ liệu mới

Trang 9

định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”

Hình 5: Vd về sơ đồ cây quyết định

“SVM (Support Vector Machine): là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể SVM có nhiều biến phù hợp với các bài toán phân loại khác nhau.”

2 Phương pháp phân cụm (Clustering)

“Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ

liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong

Trang 10

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế.”

Mô hình quá trình phân cụm dữ liệu:

“Đặc điểm:

Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp)

Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

• Độ tương đồng bên trong cụm cao

• Độ tương tự giữa các cụm thấp (khác biệt cao) Các ứng dụng điển hình:

• Công cụ phân cụm dữ liệu độc lập.

• Là giai đoạn tiền xử lý cho các thuật toán khác

Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/sai biệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm

Một số độ đo phân cụm: • Euclid

Hình 6 Mô hình quá trình phân cụm dữ liệu

Hình 5 Phân cụm dữ liệu

Trang 11

• Cosin • Minkowski”

Phân loại mốt số phương pháp phân cụm:

Dựa trên cấu trúc độ chi tiết nhiều

“Thuật toán k-Means

- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch - Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)”

Trang 12

1.4 MÔ TẢ DỮ LIỆU

Bộ dữ liệu được tổng hợp từ các nguồn dữ liệu:

Trang 13

CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ2.1 Phân tích dữ liệu và tiền sử lý

1 Phân tích dữ liệu

Phân tích dữ liệu của các đặc trưng có tính phân loại:

- Mỗi hàng đại diện cho một doanh nghiệp từ 46 thành phố khác nhau của tiểu

bang được kiểm toán viên liệt kê, mỗi cột chứa các thuộc tính của đối tượng.

- Dữ liệu thô chứ 777 hàng (đối tượng) và 27 cột (đặc trưng)2 Tiền xử lý dữ liệu

Trang 14

Xử lý dữ liệu:

• Báo cáo sử dụng dữ liệu được lấy từ trang https://www.kaggle.com/datasets, đã được xác inh và xử lý nên không có dữ liệu thiếu.

• Dữ liệu được lấy từ https://www.kaggle.com/datasets/sid321axn/audit-data đã hoàn chỉnh và không có dữ liệu thiếu sót nên việc tiền xử lý dữ liệu không có.

2.2 Bài toán 1: Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty.

1.Quy trình thực hiện:

Bước 1: Chọn dữ liệu từ File Audit_Data.csv và đặt cột “Risk” làm Target Bước 2: Dùng 3 phương pháp: Neural Network, SVM, Logistic Regression để đánh giá hiệu quả của các phương pháp.

Bước 3: Dựa vào Ma trận nhầm lần được tạo từ 3 phương pháp và AUC của các phương pháp để chọn ra phương pháp tốt nhất để dự báo.

Bước 4: Dùng phương pháp đó để dự báo cho File “Dự báo”.

Mô hình bài toán:

Trang 15

2.Đánh giá & Kết quả thực hiện Kết quả thực hiện Test & Score

Ma trận nhầm lẫn

Trang 17

Kết quả dự báo

Đánh giá mô hình dựa trên kết quả Confusion Matrix Theo ma trận nhầm lẫn :

Sai lầm loại 2 : Dự báo rủi ro là 0 nhưng thực tế rủi ro là 1 Sai lầm loại 2 của phương pháp Logistic Regression =5 là nhỏ nhất • Kết luận : Sử dụng phương pháp Logistic Regression để dự báo.

Trang 18

2.3 BÀI TOÁN 2: BÀI TOÁN PHÂN CỤM CÔNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TOÁN (PHÂN CỤM DỮ LIÊsU)

1 Quy trình thực hiê sn:

B1: Chọn dữ liê qu file audit_data.xlsx , không chọn Target B2: Dùng phương pháp k-Means phân cụm dữ liê qu

B3: Minh họa các cụm đối tượng các công ty gian lận bằng Sihouette Plot và Scatter Plot

Mô hình bài toán

2.Đánh giá và kết quả

Kết quả chạy bằng K-Means : Chạy k-Means từ 2 đến 8 cụm,chọn phân cụm 2 tương ứng với đỉm Sihouette Plot cao nhất là 0.948

Trang 19

- Kết quả & đánh giá

Kết quả K-Means

Minh họa kết quả phân cụm: Minh họa Sihouette Plot

Trang 20

2.4 BÀI TOÁN 3 : BÀI TOÁN PHÁT HIỆN CÁC CÔNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CÔNG CỤ THỐNG KÊ

1.Quy trình thực hiện:

B1: Chọn dữ liê qu file audit data.xlsx , chọn cột “Risk” làm Target

B2: Dùng phương pháp Logistic Regresstion để lọc các dữ liệu thành các nhóm B3: Dùng PivotTable để nhận sự khác biệt giữa 2 nhóm dữ liệu này

2.Kết quả và đánh giá

Trang 21

Kết quả đánh giá phương pháp của Test & Score

Đánh giá mô hình dựa trên kết quả Confusion Matrix:

• Tỷ lệ sai lầm loại 1 và loại 2 của PP cây quyết định nhỏ nhất Các sai lầm đều dưới 10%.

• Kết luận: Chọn “Logistic Regression” là phương pháp được dùng để phân loại

file audit_data.xlsx

Trang 22

Sự khác nhau giữa các rủi ro của các kiểm toán và rủi ro bị phát hiện

Trang 23

CHƯƠNG III: KẾT LUẬN

Trong thời đại thông tin ngày ngày nay việc kiểm tra cũng như quản lí về những chỉ số của doanh nghiệp như doanh thu, chi phí, hàng tồn kho, là một vấn đề vô cùng to lớn Để có thể dự đoán công ty, doanh nghiệp đó có hoạt động tốt hay không thì người ta dựa trên những chứng từ, bút toán ghi nhận để phân loại rủi ro của doanh nghiệp, xem xét về mức độ trung thực không gian lận trong doanh nghiệp.

Nghiên cứu này để giúp kiểm toán viên xây dựng mô hình phân loại có thể dự đoán công ty gian lận trên cơ sở các yếu tố rủi ro hiện tại và lịch sử được cung cấp công khai và phi thương mại Nghiên cứu này giúp ta hiểu quy trình phân tích rủi ro kiểm toán của công ty bằng cách nào và đề xuất khuôn khổ ra quyết định để đánh giá rủi ro của doanh nghiệp Từ đó giúp doanh nghiệp có thể triển khai thuật toán Tối ưu hóa bầy đàn (PSO) để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá và Phân loại kiểm toán rủi ro của các các công ty.

TÀI LIỆU THAM KHẢO

Slide đào tạo môn Khoa học dữ liệu_UEH

Ngày đăng: 08/04/2024, 08:02