1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đồ án nhómbộ môn khoa học dữ liệu đề tài dự đoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử

24 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự Đoán Các Công Ty Gian Lận Trên Cơ Sở Các Yếu Tố Rủi Ro Hiện Tại Và Lịch Sử
Tác giả Phạm Thùy Linh, Phạm Hoàng Tuấn, Nguyễn Thị Hồng Huệ, Nguyễn Trí Hải, Nguyễn Thị Chúc
Người hướng dẫn Ths. Nguyễn Mạnh Tuấn
Trường học Đại Học Ueh
Thể loại đồ án nhóm
Năm xuất bản 2022
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 24
Dung lượng 2,16 MB

Nội dung

Tuy đề tài không thật sự đúng chuyên nghành những đề tài này liên quan đến chuyên nghành Kiểm toán cũng thuộc lĩnh vực về Kế toán tài chính đều làm việc trên, những con số và dữ liệu từ

Trang 1

ĐẠI HỌC UEH TRƯỜNG KINH DOANH

ĐỒ ÁN NHÓM

BỘ MÔN KHOA HỌC DỮ LIỆU

ĐỀ TÀI: DỰ ĐOÁN CÁC CÔNG TY GIAN LẬN TRÊN CỞ SỞ CÁC

YẾU TỐ RỦI RO HIỆN TẠI VÀ LỊCH SỬ

TP Hồ Chí Minh, ngày 28 tháng 09 năm 2022

Trang 2

Giảng viên: Ths Nguyễn Mạnh Tuấn Sinh viên thực hiện:

Phạm Thùy Linh – 31211020075Phạm Hoàng Tuấn – 31211024863Nguyễn Thị Hồng Huệ - 31211025691Nguyễn Trí Hải – 31211024849Nguyễn Thị Chúc – 31211021729

Trang 3

Danh mục biểu đồ Biểu đồ 1 Minh họa Sihouette Plot

-15 Biểu đồ 2 Minh họa Scatter Plot (Price/Avalibility_365)

-18 Danh mục hình ảnh Hình 1 Mô hình phân lớp -7

Hình 2 Xây dựng mô hình -7

Hình 3 Đánh giá mô hình -8

Hình 4 Phân lớp dữ liệu mới -8

Hình 5 Phân cụm dữ liệu -9

Hình 6 Mô hình quá trình phân cụm dữ liệu -10

Danh mục bảng Bảng 1 Mô tả biến -11

Bảng 2 Kết quả Test & Score ( 1 ) -15

Bảng 3 Kết quả Confusion Matrix ( 1 ) -17

Bảng 4 Kết quả Test & Score ( 2 ) -21

Bảng 5 Kết quả Confusion Matrix ( 2 ) -21

Bảng 7 Kết quả k-Means -18

MỤC LỤC CHƯƠNG I: TỔNG QUAN 1.1 LÝ DO CHỌN ĐỀ TÀI -5

Trang 4

1.Mục tiêu nghiên cứu -6

2.Đối tượng nghiên cứu -6

1.2 MÔ TẢ BÀI TOÁN -6

1.3 MÔ TẢ PHƯƠNG PHÁP -7

1.Phương pháp phân lớp (Classification) -7

2.Phương pháp phân cụm (Clustering) -9

1.4 MÔ TẢ DỮ LIỆU -12

Chương II QUY TRÌNH THỰC HIỆN & KẾT QUẢ -14

2.1 PHÂN TÍCH VÀ TIỀN XỬ LÍ DỮ LIỆU -14

1 Phân tích dữ liệu -14

2 Tiền xử lý dữ liệu -14

2.2 BÀI TOÁN 1: DỰ ĐOÁN CÁC YẾU TỔ RỦI RO ( GIAN LẬN HOẶC KHÔNG GIAN LẬN ) ẢNH HƯỞNG TỚI CÔNG TY. -14

1 Quy trình thực hiện -15

2 Đánh giá và kết quả -15

2.3 BÀI TOÁN 2: BÀI TOÁN PHÂN CỤM CÔNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TOÁN (PHÂN CỤM DỮ LIÊsU) -17

1 Quy trình thực hiện -17

2 Đánh giá và kết quả -18

2.4 BÀI TOÁN 3 : BÀI TOÁN PHÁT HIỆN CÁC CÔNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CÔNG CỤ THỐNG KÊ -19

1 Quy trình thực hiện -20

2 Đánh giá và kết quả -21

TÀI LIỆU THAM KHẢO -22

Trang 5

CHƯƠNG III KẾT LUẬN -22

CHƯƠNG I: TỔNG QUAN 1.1 Lý do chọn đề án

Trong việc chọn đề tài của bài báo cáo nhóm đã gặp nhiều khó khăn khiphải tìm đề tài liên quan đến chuyên nghành của nhóm, chuyên nghành Kế toán.Những sau quá trình tìm tòi, tham khảo và nhận sự giúp đỡ của giảng viên làthầy Nguyễn Mạnh Tuấn thì nhóm cũng đã chọn được đề tài của mình là “Dựđoán các công ty gian lận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ” Tuy

đề tài không thật sự đúng chuyên nghành những đề tài này liên quan đến chuyênnghành Kiểm toán cũng thuộc lĩnh vực về Kế toán tài chính đều làm việc trên, những con số và dữ liệu từ nhiều đối tượng cung cấp, và sau đó tổng hợp lạithành một báo cáo tài chính để thuyết trình với người yêu cầu báo cáo

Ngoài ra, việc tìm tập dữ liệu để giúp kiểm toán viên xây dựng mô hìnhphân loại có thể dự đoán công ty gian lận trên cơ sở các yếu tố rủi ro hiện tại vàlịch sử được cung cấp công khai và phi thương mại trên trang tìm kiếm dữ liệu:https://www.kaggle.com/datasets Công trình nghiên cứu này là một nghiên cứuđiển hình về một công ty kiểm toán bên ngoài của chính phủ cũng là kiểm toánviên bên ngoài của các công ty chính phủ của Ấn Độ Trong quá trình lập kếhoạch kiểm toán, kiểm toán viên kiểm tra hoạt động kinh doanh của các vănphòng chính phủ khác nhau nhưng mục tiêu là đến thăm các văn phòng với khảnăng xảy ra sai sót rất cao và có ý nghĩa nghiêm trọng Điều này được tính toánbằng cách đánh giá rủi ro liên quan đến các mục tiêu báo cáo tài chính (Houston,Peters và Pratt 1999) Ba mục tiêu chính của nghiên cứu như sau:

Để hiểu quy trình phân tích rủi ro kiểm toán của công ty bằng cách phỏngvấn sâu với các nhân viên kiểm toán và đề xuất khuôn khổ ra quyết định để đánhgiá rủi ro của doanh nghiệp trong quá trình lập kế hoạch kiểm toán

Trang 6

Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giárủi ro cho 777 công ty mục tiêu, triển khai thuật toán Tối ưu hóa bầy đàn (PSO)

để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toánrủi ro (Gian lận và Không gian lận) của các các công ty

Để kiểm tra các yếu tố rủi ro hiện tại và lịch sử để xác định Điểm đánh giárủi ro cho 777 công ty mục tiêu, triển khai thuật toán Tối ưu hóa bầy đàn (PSO)

để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá Phân loại kiểm toánrủi ro (Gian lận và Không gian lận) của các các công ty

Từ những lý do trên, nhóm em lựa chọn đề tài “Dự đoán các công ty gianlận trên cở sở các yếu tố rủi ro hiện tại và lịch sử ” làm báo cáo kết thúc mônhọc

1 Mục tiêu nghiên cứu

- Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởng tới công ty.

- Giúp kiểm toán viên xây dựng mô hình phân loại có thể dự đoán công ty gian lận

trên cơ sở các yếu tố rủi ro hiện tại và lịch sử

- Kiểm tra và đánh giá, phân loại kiểm toán rủi ro (Gian lận và Không gian lận)

của các các công ty

2 Đối tượng nghiên cứu

Sử dụng bộ dữ liệu Audit data trên trang web dữ liệu miễn phíhttps://www.kaggle.com/datasets

1.2 MÔ TẢ BÀI TOÁN

Sử dụng phần mềm Orange và excel để xử lý dữ liệu và giải quyết các bài toánsau:

Bài toán 1: Dự đoán các yếu tổ rủi ro ( gian lận hoặc không gian lận ) ảnh hưởngtới công ty (phân lớp dữ liệu)

Trang 7

Bài toán 2 : Bài toán phân cụm công ty gian lận, dựa trên rủi ro kiểm toán (phâncụm dữ liê qu)

Bài toán 3: Bài toán phát hiện các công ty gian lận dựa vào lược đồ hay công cụthống kê

1.3 MÔ TẢ PHƯƠNG PHÁP

1 Phương pháp phân lớp (Classification)

“Phương pháp phân lớp là quá trình phân một đối tượng dữ liệu vào một hay

nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xâydựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào).Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phânlớp dữ liệu.”

Quá trình phân lớp dữ liệu gồm 2 bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

- “Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xửa lý

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật

- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phận lớp)”

Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.

Bước 2.1: Đánh giá mô hình

Hình 1 Mô hình phân lớp

Hình 2 Xây dựng mô hình

Trang 8

Đầu dữ liệu vào: là một tập dữ liệu mẫu khác được gán nhẫn và tiền xử lý Tuynhiên, lúc đưa vào mô hình phân lớp, ta “lơ” đi thuộc tính đã được gán nhãn.

- Tính đúng đắn của mô hình sẽ đucojw xác định bằng cách so sánh thuộc tính gánnhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

Bước 2.2: Phân lớp dữ liệu mới

- Dữ liệu đầu vào: là dữ liệu “khuyên” thuộc tính cần dự đoán lớp (nhãn)

- “Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vàonhững gì được huấn luyện ở bước 1

Phân loại bài toán phân lớp:

cho trước Nếu:

- n = 2: Phân lớp nhị phân

- n > 2: Phân lớp đa lớp

- Mỗi đói tượng dữ liệu chỉ thuộc vào một lớp duy nhất: Phân lớp đơn nhãn

- Một đối tượng dữ liệu có thể cùng thuộc về nhiều lớp khác nhau: Phân lớp đa

nhãn

- Các phương pháp phân lớp sử dụng trong bài:

1.Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồthị các quyết định cùng các kết quả khả dĩ đi kèm nằm hỗ trợ quá trình ra quyết

Hình 3 Đánh giá mô hình

Hình 4 Phân lớp dữ liệu mới

Trang 9

định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô

tả, phân loại và tổng quát hóa tập dữ liệu cho trước.”

Hình 5: Vd về sơ đồ cây quyết định

“SVM (Support Vector Machine): là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp

xa nhất có thể SVM có nhiều biến phù hợp với các bài toán phân loại khác nhau.”

2 Phương pháp phân cụm (Clustering)

“Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ

liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong

Trang 10

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữliệu tự nhiên thường thấy trong thực tế.”

Mô hình quá trình phân cụm dữ liệu:

“Đặc điểm:

Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu

Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervisedlearning) vì không biết trước được số nhóm (khác với bài toán phân lớp)

Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượngcao:

• Độ tương đồng bên trong cụm cao

• Độ tương tự giữa các cụm thấp (khác biệt cao)

Các ứng dụng điển hình:

• Công cụ phân cụm dữ liệu độc lập

• Là giai đoạn tiền xử lý cho các thuật toán khác

Độ đo phân cụm: được sử dụng làm tiêu chí nhằm tính toán sự tương đồng/saibiệt giữa các đối tượng dữ liệu nhằm phục vụ cho quá trình gom cụm

Một số độ đo phân cụm:

• Euclid

Hình 6 Mô hình quá trình phân cụm dữ liệu

Hình 5 Phân cụm dữ liệu

Trang 11

• Cosin

• Minkowski”

Phân loại mốt số phương pháp phân cụm:

pháp điển hình Dựa trên phân

cấp

(Hirearchical

approach)

Phân cấp đốitượng dựa trênmốt số tiêu chí

Diana, Agnes, BIRCH, CAMELEON

Dựa trên phân

hạch

(Partitioning

approach)

Xây dựng cácphân hạch khácnhau và đánh giáchúng

Sau đó, tìm cáchtối thiểu hóa tổngbình thường độlỗi

K-means, medoids, fuzzy C means

k-Dựa trên mật đố

(Density-based

approach)

Dựa trên các kếtnối giữa các đốitượng và hàm mậtđộ

DBSCAN, OPTICS, DenClue

Dựa trên lưới

(Grid-based

approach)

Dựa trên cấu trúc

độ chi tiết nhiềucấp

STING, WaveCluster, CLIQUE

Dựa trên mô

EM, SOM, COBWEB

“Thuật toán k-Means

- Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch

- Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trongkhông gian d chiều (với d là số lượng thuộc tính của đối tượng)”

Trang 12

1.4 MÔ TẢ DỮ LIỆU

Bộ dữ liệu được tổng hợp từ các nguồn dữ liệu:

Trang 13

Phân tích dữ liệu của các đặc trưng có tính phân loại:

- Mỗi hàng đại diện cho một doanh nghiệp từ 46 thành phố khác nhau của tiểu

bang được kiểm toán viên liệt kê, mỗi cột chứa các thuộc tính của đối tượng

- Dữ liệu thô chứ 777 hàng (đối tượng) và 27 cột (đặc trưng)

2 Tiền xử lý dữ liệu

Trang 14

Bước 3: Dựa vào Ma trận nhầm lần được tạo từ 3 phương pháp và AUC của các phương pháp để chọn ra phương pháp tốt nhất để dự báo.

Bước 4: Dùng phương pháp đó để dự báo cho File “Dự báo”

Mô hình bài toán:

Trang 15

2.Đánh giá & Kết quả thực hiện Kết quả thực hiện Test & Score

Ma trận nhầm lẫn

Trang 18

2.3 BÀI TOÁN 2: BÀI TOÁN PHÂN CỤM CÔNG TY GIAN LẬN, DỰA TRÊN RỦI RO KIrM TOÁN (PHÂN CỤM DỮ LIÊsU)

1 Quy trình thực hiê s n:

B1: Chọn dữ liê qu file audit_data.xlsx , không chọn Target

B2: Dùng phương pháp k-Means phân cụm dữ liê qu

B3: Minh họa các cụm đối tượng các công ty gian lận bằng Sihouette Plot và Scatter Plot

Mô hình bài toán

2.Đánh giá và kết quả

Kết quả chạy bằng K-Means : Chạy k-Means từ 2 đến 8 cụm,chọn phân cụm 2 tương ứng với đỉm Sihouette Plot cao nhất là 0.948

Trang 19

- Kết quả & đánh giá

Kết quả K-Means

Minh họa kết quả phân cụm: Minh họa Sihouette Plot

Trang 20

2.4 BÀI TOÁN 3 : BÀI TOÁN PHÁT HIỆN CÁC CÔNG TY GIAN LẬN DỰA VÀO LƯỢC ĐỒ HAY CÔNG CỤ THỐNG KÊ

1.Quy trình thực hiện:

B1: Chọn dữ liê qu file audit data.xlsx , chọn cột “Risk” làm Target

B2: Dùng phương pháp Logistic Regresstion để lọc các dữ liệu thành các nhómB3: Dùng PivotTable để nhận sự khác biệt giữa 2 nhóm dữ liệu này

2.Kết quả và đánh giá

Trang 21

Kết quả đánh giá phương pháp của Test & Score

Đánh giá mô hình dựa trên kết quả Confusion Matrix:

• Tỷ lệ sai lầm loại 1 và loại 2 của PP cây quyết định nhỏ nhất Các sai lầmđều dưới 10%

• Kết luận: Chọn “Logistic Regression” là phương pháp được dùng để phân loại

file audit_data.xlsx

Trang 22

Sự khác nhau giữa các rủi ro của các kiểm toán và rủi ro bị phát hiện

Trang 23

CHƯƠNG III: KẾT LUẬN

Trong thời đại thông tin ngày ngày nay việc kiểm tra cũng như quản lí về những chỉ số của doanh nghiệp như doanh thu, chi phí, hàng tồn kho, là một vấn

đề vô cùng to lớn Để có thể dự đoán công ty, doanh nghiệp đó có hoạt động tốt hay không thì người ta dựa trên những chứng từ, bút toán ghi nhận để phân loại rủi ro của doanh nghiệp, xem xét về mức độ trung thực không gian lận trong doanh

để xếp hạng các yếu tố rủi ro đã được kiểm tra và đánh giá và Phân loại kiểm toán rủi ro của các các công ty

TÀI LIỆU THAM KHẢO

Slide đào tạo môn Khoa học dữ liệu_UEH

Ngày đăng: 08/04/2024, 08:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w