1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Phát hiện các gian lận kế toán bằng phương pháp máy học tổng hợp

99 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát Hiện Các Gian Lận Kế Toán Bằng Phương Pháp Máy Học Tổng Hợp
Tác giả Huỳnh Thị Tố Ngọc
Người hướng dẫn TS. Nguyễn Tân Cầm
Trường học Đại Học Quốc Gia TP HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 99
Dung lượng 38,4 MB

Cấu trúc

  • Chương 1 GIỚI THIỆU.........................- -- 2 S2 EEE£+E£+EE#EE£2EE+EEEEEE2EEEEEEEEEEEEEEEEEEEEEEEEErrrrrkerg 12 1.1. Báo cáo tài chính - Gian lận kế toán..................-. ¿+ tk t+E+EEEE+E+EEEESEeEEzEeEeEkrkererxererx 12 1.1.1. Báo cáo tài chính.....................- - - - ---- + 11111325111 111112211 118119231 1111110111 11g 1 ng vn 12 1.1.2. Gian lận kế toán .........................---- 5 ©5£©2++2E£+EE2ExEEESEEE21271121121E21111111 11111. crxcrree 14 1.2. Dấu hiệu của gian lận kế toán trong BCTC.........................--¿---¿¿2++22++2z+++z++zx+erseees 14 1.2.1. Động cơ thực hiện gian lận BC TC ..........................- -- -- 5c S222 + £+sEEeeseerreeseereere 14 1.2.2. Dấu hiệu gian lận trên BCTC........................---- 2 2 £+S£E£+EE+EE+EE+EE+EE£EE+EE+ErErrerreee l6 1.2.3. Một số hình thức gian lận thường gặp trên BCTC......................------2¿©¿<¿ 5+2 19 .2.4. Ảnh hưởng của gian lận trên BCTC đến các đối tượng sử dụng (13)
    • 1.3. Trách nhiệm ngăn ngừa và phát hiện gian lận trong BCTC (22)
      • 1.3.1. Trách nhiệm của những nhà quan TỊ ...........................-- --- 6 + + £+x£+vEeEeeeeeeeereereers 21 1.3.2. Trách nhiệm của những kiểm toán viên .......................----- 2-2 2 2+£+E++£++£zzEzzzeez 21 1.3.3. Trách nhiệm của những cơ quan Nha nƯỚC......................... .-- --- + 5xx +*vEseeseesersers 22 (22)
    • 1.5. Phát biểu bài toán cần giải quyết ....................---:--¿- + +++++E++EEt+EEEEEeEEvrxrrkrrreerkrree 23 1.6. Kết luận chương....................---- 2: ¿5E SE2E2EE£EE2EEEE1E21122171121127171121111711 11111... cre. 24 Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN...................----- 2-2252 25 2.1. Các công trình nghiên cứu liên Qu41......................... - -- G5 c1 131112311 911 E93 k9 key 25 2.2. Các vấn đề tỒn tại..................---:-2¿- 5+ t2 221221 2112212712112111112112111112111111111 111cc. 27 2.2.1. Nhiều thông tin có giá trị trong dữ liệu tài chính thô chưa được khai thác (24)
      • 3.2.2. Rút trích đặc frưng.........................- - --- -- -- +11. 1. ng TH HH HH ng 33 3.2.3. Tap tin 952... .. ii (0)
      • 3.2.4. Huan luyện mô hình........................ -- -- ¿ E+E£EE£EE£EE#EE£EEEEEEEEEEEEEEEEEEEEEEEEEEEEkrrrrrreg 42 (0)
    • 3.3. Kết luận chương......................---:-:- + sSE+SE9Ex9EE9E19E1911211221221211111121111211 11111111110, 67 Chương 4 DANH GIÁ THU’ NGHIEM ..0....cccsccsscessesssessessesssessessssssessessssssessesssessessessseesees 69 (68)
      • 4.1.1. Hiệu suất................ AA ck ct ............À (71)
      • 4.1.2. Thời gian............ 2. Mrrsrvscvssrsscsssssssss prsssseeesssaffeccsssssseseesssessesesssseseesesens 72 4.2. Thực nghiỆm 2 .......................... --- 612 1131112111311 11 1109111111190 TH HH HH 72 4.2.1. Hiệu suất......... đế... SE .x.~ (73)
      • 4.2.2. Thời gian... -....... no. IỆ:Go....2--0.00 00L. n neo 74 (75)
      • 4.3.1. Hiệu suất......................- --5- 22 2122112112211221221211211211211211111 211.1111.111. cere 76 4.3.2. 00 (77)
    • A. Thue 2 2v (0)
      • 4.5. Kết luận chương wo..cesceccescescssescessessesscscssesscssessessessessessessessessessessessessessesssssesseasesseaees 80 Chương 5 KET LUẬN VA HƯỚNG PHAT TRIEN.......csscsscssesssssesessesessesesessesesessens 82 SL. Kt LUA 7a. ....4 (81)

Nội dung

Trong luận văn nay, chúng tôi đã tiến hành trích xuất đặc trưng từ các giá trị dit liệuthô trong các BCTC va áp dụng phương pháp máy học tong hợp với thuật toán RUSBoost,AdaBoost, Baggin

GIỚI THIỆU .- 2 S2 EEE£+E£+EE#EE£2EE+EEEEEE2EEEEEEEEEEEEEEEEEEEEEEEEErrrrrkerg 12 1.1 Báo cáo tài chính - Gian lận kế toán - ¿+ tk t+E+EEEE+E+EEEESEeEEzEeEeEkrkererxererx 12 1.1.1 Báo cáo tài chính - - - - + 11111325111 111112211 118119231 1111110111 11g 1 ng vn 12 1.1.2 Gian lận kế toán 5 ©5£©2++2E£+EE2ExEEESEEE21271121121E21111111 11111 crxcrree 14 1.2 Dấu hiệu của gian lận kế toán trong BCTC . ¿ -¿¿2++22++2z+++z++zx+erseees 14 1.2.1 Động cơ thực hiện gian lận BC TC - 5c S222 + £+sEEeeseerreeseereere 14 1.2.2 Dấu hiệu gian lận trên BCTC 2 2 £+S£E£+EE+EE+EE+EE+EE£EE+EE+ErErrerreee l6 1.2.3 Một số hình thức gian lận thường gặp trên BCTC 2¿©¿<¿ 5+2 19 2.4 Ảnh hưởng của gian lận trên BCTC đến các đối tượng sử dụng

Trách nhiệm ngăn ngừa và phát hiện gian lận trong BCTC

1.3.1 Trách nhiệm của những nhà quản trị

Lãnh đạo doanh nghiệp đóng vai trò quan trọng trong việc ngăn chặn và phát hiện gian lận trong báo cáo tài chính (BCTC) Để thực hiện trách nhiệm này, họ cần cam kết xây dựng văn hóa tổ chức trung thực và đạo đức, đồng thời tăng cường giám sát trong hoạt động sản xuất và kinh doanh Ban giám đốc và ban quản lý cần đánh giá khả năng xảy ra các thiếu sót trong kiểm soát nội bộ và các hành động có thể ảnh hưởng tiêu cực đến quá trình lập và trình bày BCTC.

1.3.2 Trách nhiệm của những kiểm toán viên

Kiểm toán viên (KTV) có trách nhiệm đảm bảo tính chính xác của báo cáo tài chính (BCTC), bao gồm việc phát hiện sai sót do gian lận hoặc nhầm lẫn Sai sót trọng yếu do gian lận có ảnh hưởng nghiêm trọng hơn so với sai sót do nhầm lẫn, vì chúng thường được thực hiện tinh vi và khó phát hiện Để đảm bảo BCTC hợp lý, KTV cần duy trì thái độ hoài nghi và xem xét khả năng kiểm soát của lãnh đạo doanh nghiệp Các phương pháp kiểm toán truyền thống có thể không còn hiệu quả trước những hình thức gian lận ngày càng tinh vi Những quy định này nhằm nâng cao hiệu quả kiểm toán, đánh giá rủi ro sai sót do gian lận và cải tiến quy trình phát hiện gian lận trong BCTC.

1.3.3 Trách nhiệm của những cơ quan Nhà nước

Bên cạnh Ban Giám đốc và nhà quản trị doanh nghiệp, cơ quan quản lý nhà nước (CQQLNN) đóng vai trò quan trọng trong việc phát hiện gian lận trên báo cáo tài chính (BCTC), với trách nhiệm của Ủy ban Chứng khoán và cơ quan quản lý thuế Các CQQLNN có thẩm quyền cần ban hành văn bản quy phạm pháp luật (VBQPPL) quy định rõ hình thức xử phạt đối với hành vi gian lận trên BCTC, bao gồm cả xử phạt hành chính và hình sự Để hạn chế việc doanh nghiệp lợi dụng kẽ hở pháp luật, các VBQPPL cần đảm bảo tính chặt chẽ và rõ ràng.

Trong thời đại công nghệ phát triển nhanh chóng, quy mô kinh doanh mở rộng đã dẫn đến nguy cơ gian lận kế toán trở thành thách thức lớn đối với doanh nghiệp và hệ thống tài chính toàn cầu Gian lận kế toán không chỉ là vấn đề riêng của các doanh nghiệp mà còn ảnh hưởng nghiêm trọng đến tính minh bạch và công bằng trong quản lý tài chính Hậu quả chính của gian lận kế toán là sự suy giảm uy tín của doanh nghiệp, điều này được nhấn mạnh trong báo cáo về gian lận toàn cầu và khảo sát thanh toán của Cybersource, Merchant Risk Council (MRC) và Verifi.

Năm 2022, mức độ ảnh hưởng của gian lận tài chính (GLTC) đã tăng so với năm trước, nhưng nhiều doanh nghiệp và hộ kinh doanh vẫn chưa đầu tư đầy đủ để giảm thiểu rủi ro, vẫn tin tưởng vào các phương pháp quản lý thủ công Báo cáo khảo sát 1.060 doanh nghiệp trên bốn khu vực: Châu Á - Thái Bình Dương (APAC), Bắc Mỹ, Châu Âu và các quốc gia thuộc Châu Mỹ Latinh (LATAM) Kết quả cho thấy, gian lận tài chính đã làm giảm doanh thu trung bình của các doanh nghiệp và hộ kinh doanh xuống 3,71% trong năm 2022, tăng so với mức 3,28% của năm 2021.

Khi thông tin tài chính không chính xác hoặc bị gian lận, doanh thu của doanh nghiệp sẽ bị ảnh hưởng nghiêm trọng, dẫn đến sự mất lòng tin từ cổ đông, nhà đầu tư và đối tác kinh doanh Gian lận kế toán không chỉ tác động tiêu cực đến doanh nghiệp mà còn gây ra rủi ro và biến động trong thị trường tài chính toàn cầu Sự thiếu minh bạch trong thông tin tài chính có thể làm giảm niềm tin vào thị trường, ảnh hưởng đến sự ổn định và độ tin cậy của hệ thống tài chính toàn cầu.

Để đối phó với 22 thách thức hiện nay, doanh nghiệp cần thiết lập các biện pháp kiểm soát hoạt động kinh doanh nội bộ hiệu quả, đồng thời áp dụng công nghệ để theo dõi và báo cáo thông tin tài chính một cách minh bạch và chính xác Bên cạnh đó, việc nâng cao giáo dục và nhận thức về đạo đức kinh doanh trong tổ chức là yếu tố quan trọng nhằm ngăn chặn và giảm thiểu nguy cơ gian lận kế toán.

Thay vì áp dụng các phương pháp thủ công để xử lý và quản lý số liệu, hiện nay, các thuật toán máy học được sử dụng để phát triển các mô hình dự đoán gian lận tài chính Việc này giúp nâng cao hiệu quả trong phân tích và đánh giá các hành vi gian lận, mang lại sự chính xác và nhanh chóng hơn so với các phương pháp truyền thống.

Qua việc nghiên cứu các tài liệu khoa học trước đây, chúng tôi đã có cái nhìn tổng quan về Giải thích Kết quả Tài chính (GLKT) trong Báo cáo Tài chính (BCTC), cùng với các nghiên cứu và Mô hình Hóa Dữ liệu (MHDĐ) liên quan Hầu hết các nghiên cứu hiện tại chủ yếu tập trung vào các tỷ số tài chính (TSTC) cụ thể và áp dụng các mô hình riêng lẻ, dẫn đến hiệu suất chưa đạt yêu cầu.

Các thuật toán được đa số các nhà nghiên cứu lựa chọn là Cây quyết định (Decision Tree),

Chúng tôi đã nghiên cứu và xây dựng một mô hình phát hiện và phân loại gian lận trong kế toán bằng cách sử dụng các thuật toán như Rung Ngẫu Nhiên (RNN), Naive Bayes, SVM và mạng nơ-ron Quá trình này bao gồm việc trích xuất giá trị từ 28 dữ liệu thô trong báo cáo tài chính (BCTC) và lưu trữ chúng vào tập tin CSV Phương pháp máy học tổng hợp được áp dụng để dự đoán liệu BCTC có gian lận hay không.

Dữ liệu tài chính thô là thành phần cơ bản trong hệ thống thông tin kế toán Bài viết này tập trung vào việc áp dụng phương pháp máy học tổng hợp để trích xuất thông tin hữu ích từ dữ liệu tài chính thô Phương pháp này không chỉ nâng cao độ chính xác mà còn khắc phục hiện tượng quá khớp của các mô hình máy học riêng lẻ trước đây.

Phát biểu bài toán cần giải quyết -: ¿- + +++++E++EEt+EEEEEeEEvrxrrkrrreerkrree 23 1.6 Kết luận chương 2: ¿5E SE2E2EE£EE2EEEE1E21122171121127171121111711 11111 cre 24 Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN - 2-2252 25 2.1 Các công trình nghiên cứu liên Qu41 - G5 c1 131112311 911 E93 k9 key 25 2.2 Các vấn đề tỒn tại -:-2¿- 5+ t2 221221 2112212712112111112112111112111111111 111cc 27 2.2.1 Nhiều thông tin có giá trị trong dữ liệu tài chính thô chưa được khai thác

Chúng tôi đã nghiên cứu và xây dựng mô hình phát hiện gian lận kế toán (GLKT) trong báo cáo tài chính (BCTC) bằng phương pháp máy học tổng hợp Mô hình này sử dụng các BCTC làm đầu vào và đưa ra kết quả dự đoán (KQDĐ) về khả năng gian lận của BCTC, nhằm hỗ trợ người sử dụng trong việc hạn chế những ảnh hưởng nghiêm trọng từ gian lận kế toán.

23 thuật toán máy học tông hợp được đề xuất nhằm tự động hóa quy trình phát hiện GLKT, giúp giảm thiểu sự phụ thuộc vào sự can thiệp của con người.

Gian lận kế toán và gian lận trên báo cáo tài chính (BCTC) thường diễn ra âm thầm, và khi được phát hiện, hậu quả nghiêm trọng đã xảy ra, ảnh hưởng đến các bên liên quan Do đó, việc xây dựng mô hình phát hiện gian lận kế toán là rất cần thiết, mang lại giá trị lớn cho doanh nghiệp và hệ thống tài chính, đồng thời giảm thiểu rủi ro khi đưa ra quyết định sai lầm cho nhà đầu tư và ban quản lý doanh nghiệp.

Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

Trong chương này, chúng tôi trình bày các nghiên cứu liên quan nhằm đánh giá và lựa chọn các MHMH (Mô hình Hệ thống Mô phỏng) phù hợp để xây dựng các MHDĐ (Mô hình Dự đoán) nhằm phát hiện gian lận kế toán.

2.1 Các công trình nghiên cứu liên quan

Trên thế giới, đã có rất nhiều nghiên cứu về gian lận kế toán (GLTC) và việc ứng dụng các thuật toán máy học trong việc phát hiện các gian lận kế toán này.

Imane Sadgali và các cộng sự (2019) đã tiến hành nghiên cứu về hiệu suất của các kỹ thuật học máy trong việc phát hiện gian lận tài chính (GLTC) Nghiên cứu tập trung vào việc đánh giá và so sánh các phương pháp học máy như Cây quyết định, RNN, Naive Bayes, Máy véc tơ hỗ trợ và Mạng Nơ-ron Các thuật toán này được áp dụng để xây dựng các mô hình phát hiện gian lận từ các tập dữ liệu tài chính Kết quả cho thấy các phương pháp học máy có khả năng phát hiện GLTC với độ chính xác cao, trong đó các mô hình dựa trên SVM và mạng Nơ-ron đạt hiệu suất tốt nhất.

Nghiên cứu của Yang Bao và cộng sự (2020) đã chỉ ra rằng việc áp dụng phương pháp học máy để phát hiện gian lận kế toán (GLKT) trong các công ty niêm yết tại Hoa Kỳ là hiệu quả Bài báo tập trung vào việc phát triển một mô hình học máy tổng hợp nhằm xác định các dấu hiệu GLKT từ dữ liệu tài chính Các tác giả đã sử dụng mô hình RUSBoost, SVM và hồi quy Logistic để xây dựng mô hình phát hiện gian lận Họ đã trích xuất các đặc trưng từ dữ liệu tài chính thô và thông tin công ty để phân loại các công ty có khả năng bị GLKT Kết quả nghiên cứu cho thấy rằng các phương pháp máy học tổng hợp có khả năng phát hiện GLKT tốt hơn so với hai mô hình chuẩn.

Matin N.Ashtiani và cộng sự (2022) đã nghiên cứu ứng dụng máy học và kỹ thuật khai phá dữ liệu để phát hiện gian lận trong báo cáo tài chính, nhằm cải thiện quy trình kiểm tra và xác minh tính chính xác của thông tin tài chính Các tác giả tổng hợp các nghiên cứu trước đây về việc sử dụng máy học và khai phá dữ liệu trong phát hiện gian lận, đánh giá các phương pháp và kỹ thuật đã được áp dụng, đồng thời xác định ưu - nhược điểm của các phương pháp hiện tại và đề xuất hướng phát triển nghiên cứu trong lĩnh vực này.

Byungdae An và cộng sự (2020) đã giới thiệu phương pháp RNN sửa đổi (Modified Random Forest - MRF) nhằm phát hiện gian lận trong báo cáo tài chính (BCTC) MRF là phiên bản cải tiến của thuật toán RNN, được tối ưu hóa để nâng cao khả năng nhận diện gian lận Phương pháp này xây dựng quy tắc quyết định từ MRF, giúp xác định các đặc điểm và mẫu gian lận trong BCTC, từ đó phân loại các báo cáo tài chính thành "gian lận" hoặc không.

Phương pháp MRF đã được đánh giá hiệu suất thông qua việc so sánh với các phương pháp khác, cho thấy độ chính xác đạt 80,58%, vượt trội hơn so với một số mô hình chuẩn khác.

Yang Liu và cộng sự (2021) đã nghiên cứu vấn đề mất cân bằng dữ liệu trong phát hiện gian lận thông qua phương pháp học không cân bằng dựa trên mạng nơ-ron đồ thị (GNN) GNN, một mô hình học sâu chuyên biệt cho dữ liệu có cấu trúc đồ thị, được áp dụng cùng với phương pháp "lựa chọn kỹ lưỡng" để tạo ra tập dữ liệu cân bằng hơn cho huấn luyện mô hình Quá trình này nâng cao khả năng phát hiện gian lận bằng cách tập trung vào các mẫu quan trọng Kết quả cho thấy phương pháp mới sử dụng GNN cải thiện hiệu suất phát hiện gian lận trong các hệ thống tài chính và quản lý rủi ro Ở Việt Nam, mặc dù có sự quan tâm đến gian lận trong báo cáo tài chính, nhưng nghiên cứu về mô hình đánh giá và phân loại gian lận vẫn còn hạn chế.

Trong tạp chí nghiên cứu khoa học năm 2022 tác giả Đặng Ngọc Hùng và cộng sự

Nghiên cứu đã chỉ ra rằng việc áp dụng thuật toán RNN trong phát hiện gian lận báo cáo tài chính mang lại hiệu quả cao RNN, một thuật toán học máy kết hợp nhiều cây quyết định, cho phép dự đoán chính xác lên đến 91% Kết quả nghiên cứu cũng xác định các yếu tố quan trọng ảnh hưởng đến gian lận báo cáo tài chính và khả năng dự đoán chính xác của mô hình.

Năm 2022, tác giả Bùi Thu Hiền và cộng sự đã nghiên cứu ảnh hưởng của các chỉ số tài chính trên báo cáo tài chính (BCTC) đến giá trị cổ phiếu của 97 công ty xây dựng niêm yết trên thị trường chứng khoán, với BCTC đã được kiểm toán Sử dụng phương pháp định lượng phù hợp với dữ liệu bảng, nghiên cứu chỉ ra mối tương quan chặt chẽ giữa các chỉ số tài sản sinh lời như GP/TA, NP/TA và SALES/TA Kết quả cho thấy giá cổ phiếu của các doanh nghiệp xây dựng bị ảnh hưởng nghiêm trọng bởi nhóm các tỷ số sinh lời này.

2.2 Các vấn đề tồn tại

2.2.1 Nhiều thông tin có giá trị trong dữ liệu tài chính thô chưa được khai thác

Dữ liệu tài chính thô là thông tin chưa qua xử lý, được trích xuất trực tiếp từ các tài liệu tài chính như báo cáo tài chính, báo cáo kết quả kinh doanh và báo cáo lỗ lãi Nó được thu thập từ hồ sơ của doanh nghiệp hoặc các cơ quan quản lý tài chính và kiểm toán Dữ liệu này đóng vai trò quan trọng trong việc cung cấp cơ sở cho các phân tích và xử lý tiếp theo, từ đó giúp đưa ra thông tin và dự đoán về hiệu suất tài chính của doanh nghiệp.

Dữ liệu tài chính thô là thông tin chưa qua xử lý, thường được thu thập từ nhiều nguồn khác nhau như cơ quan quản lý và cơ quan kiểm toán Tuy nhiên, loại dữ liệu này thường gặp phải nhiều vấn đề như độ chính xác và tính nhất quán, điều này có thể ảnh hưởng đến quá trình phân tích và ra quyết định.

Kết luận chương -:-:- + sSE+SE9Ex9EE9E19E1911211221221211111121111211 11111111110, 67 Chương 4 DANH GIÁ THU’ NGHIEM 0 cccsccsscessesssessessesssessessssssessessssssessesssessessessseesees 69

Xây dựng hệ thống MHMH để phát hiện gian lận kế toán mang lại giá trị lớn cho các tổ chức Trong chương này, chúng tôi đã đề xuất một mô hình dự đoán gian lận kế toán dựa trên 28 danh mục dữ liệu thô từ báo cáo tài chính (BCTC) Nghiên cứu này nhằm nâng cao khả năng phát hiện gian lận trong lĩnh vực kế toán.

Chúng tôi đã quyết định lựa chọn phương pháp máy học tổng hợp (ensemble learning) để thực nghiệm, vì đây là một kỹ thuật kết hợp nhiều mô hình học máy để tạo ra dự đoán cuối cùng chính xác hơn Ý tưởng cốt lõi của máy học tổng hợp là tận dụng sự đa dạng giữa các mô hình nhằm tạo ra dự đoán tổng quát tốt hơn so với việc sử dụng một mô hình đơn lẻ Các thuật toán như RUSBoost, AdaBoost và Bagging được áp dụng trong việc xử lý mất cân bằng dữ liệu và đa dạng hóa không gian đặc trưng Mặc dù độ phức tạp của các thuật toán này cao hơn so với SVM và hồi quy Logistic, nhưng hiệu suất của chúng trong việc xử lý mất cân bằng dữ liệu rất ấn tượng Do đó, trong chương tiếp theo, chúng tôi sẽ sử dụng các thuật toán RUSBoost, AdaBoost, Bagging, hồi quy Logistic và SVM để xây dựng mô hình phát hiện gian lận kế toán.

Chương 4 ĐÁNH GIÁ THU NGHIỆM

Chương này tóm tắt nội dung về việc thực hiện các thí nghiệm mô hình, đánh giá thuật toán và các chỉ số đo lường, cũng như kết quả thực nghiệm liên quan đến việc phân loại và phát hiện gian lận kế toán trong báo cáo tài chính.

Chúng tôi tiến hành thực nghiệm trên bộ dữ liệu từ năm 1990 đến 2014, với 80% dữ liệu được sử dụng để huấn luyện và 20% còn lại dành cho kiểm thử.

Dữ liệu nghiên cứu từ năm 1990 đến 2014 bao gồm 146,045 báo cáo tài chính (BCTC), trong đó 80% được sử dụng cho tập dữ liệu huấn luyện, tương đương 118,349 BCTC, với 117,465 BCTC không gian lận và 883 BCTC gian lận Tập dữ liệu kiểm thử chiếm 20%, bao gồm 27,698 BCTC, trong đó có 27,616 BCTC không gian lận và 81 BCTC gian lận Mỗi tập dữ liệu đã được trích xuất đặc trưng và lưu trữ vào các tệp tin CSV riêng biệt, với cấu trúc chi tiết đã được mô tả ở mục 3.2.3 Hình 4.1 và hình 4.2 minh họa nội dung của hai tệp tin CSV thực tế được sử dụng trong nghiên cứu.

The provided content appears to be a sequence of letters and abbreviations rather than a coherent article To create a meaningful paragraph while adhering to SEO principles, I would need more context or content Please provide a clearer text or specific topics you would like to cover.

Hình 4.1: Tập tin csv chứa dữ liệu huấn luyện

69 fyear paaer misstateact ap at ceq che cogs csho dC ditis_ dt dp ib ít Wao Mẹ$t kt t ni ppegt psk re rect sale ssk bp ĐŒ xin prcc_

Hình 4.2: Tập tin csv chứa dữ liệu kiểm thir

Chúng tôi đã áp dụng năm mô hình học máy, bao gồm RUSBoost, AdaBoost, Bagging, hồi quy Logistic và SVM, để huấn luyện và phân loại báo cáo tài chính gian lận và không gian lận Qua quá trình thực nghiệm, chúng tôi đã thu thập dữ liệu về các chỉ số AUC, NDCG@k, độ nhạy và độ chính xác cho cả năm mô hình Chúng tôi cũng tiến hành phân tích hiệu suất và thời gian xử lý, với k được chọn là 277 dữ liệu, tương đương 1% của tập dữ liệu kiểm thử Chi tiết thông tin số liệu được trình bày trong bảng 2 và bảng 3.

Mục đích của thực nghiệm này là đánh giá hiệu suất của các mô hình máy học, bao gồm Hồi quy Logistic, SVM và các mô hình tổng hợp như RUSBoost, AdaBoost, Bagging, với dữ liệu có độ mất cân bằng cao Chúng tôi muốn xác định mô hình nào hoạt động tốt hơn trong trường hợp dữ liệu mất cân bằng nghiêm trọng, nhằm tìm ra phương pháp phù hợp nhất cho việc phát hiện gian lận trong báo cáo tài chính.

Bảng 2: Kết quả chạy thực nghiệm 1

#RUSBoost mAdaBoost Bagging # Hồi quy Logistic mSVM

` a 8 Sa o ẹ N x Š so ° 3s N ° oO A st ằ ằ Ä og Š nš à E S sS 8 GA 9 8ỉ ư Ye 2 8 x o =) œ œ ma Oo S d J1 œ m na a | | —

Hình 4.3: Sơ đồ so sánh kết qua chạy thực nghiệm 1

Sơ đồ so sánh kết quả hiệu suất từ thực nghiệm 1 cho thấy giá trị AUC của các mô hình RUSBoost, AdaBoost, Bagging, hồi quy Logistic và SVM lần lượt là 0.8097, 0.6942, 0.8047, 0.6833, và 0.6687, tất cả đều vượt qua ngưỡng dự đoán ngẫu nhiên (AUC = 0.5), cho thấy khả năng phân loại hợp lý của các mô hình Trong đó, RUSBoost nổi bật với AUC cao nhất là 0.8097, trong khi SVM có AUC thấp nhất là 0.6687 Về các chỉ số NDCG@k, độ nhạy và độ chuẩn xác, mô hình Bagging đạt kết quả cao nhất với NDCG@k là 0.2274, độ nhạy 19.75% và độ chuẩn xác 5.78% So với nghiên cứu của Yang Bao và cộng sự, mô hình Bagging trong nghiên cứu này có AUC cao hơn 0.0037, NDCG@k cao hơn 0.0694 và độ nhạy cao hơn 6.19% Điều này chứng tỏ rằng các mô hình máy học tổng hợp có hiệu suất tốt hơn so với các mô hình máy học riêng biệt trong bài toán mất cân bằng dữ liệu.

Bảng 3: Kết quả thời gian xử lý của thực nghiệm

Chúng tôi thực hiện 10 lần chạy cho mỗi thuật toán, ghi nhận thời gian trung bình cho quá trình huấn luyện và dữ liệu kiểm thử Kết quả thời gian trung bình được trình bày trong bảng dưới đây.

Chúng tôi đánh giá rằng mô hình hồi quy Logistic có thời gian xử lý tốt nhất, trong khi mô hình SVM có thời gian xử lý chậm nhất Nhìn chung, các mô hình máy học tổng hợp đều có thời gian xử lý ổn định và hiệu suất tốt, với mô hình phân loại báo cáo tài chính bằng máy học tổng hợp vẫn giữ vị thế ưu thế.

Chúng tôi đã tiến hành thực nghiệm trên bộ dữ liệu từ năm 1990 đến 2014, trong đó 80% dữ liệu được sử dụng cho huấn luyện và 20% cho kiểm thử Khác với thực nghiệm 1, ở thực nghiệm 2, chúng tôi đã giảm thiểu sự mất cân bằng giữa dữ liệu BCTC gian lận và không gian lận bằng cách loại bỏ bớt dữ liệu BCTC không gian lận, đảm bảo tỉ lệ BCTC gian lận và BCTC không gian lận là 1:1 trong cả tập huấn luyện và tập kiểm thử.

Dữ liệu từ năm 1990 đến 2014 cho thấy có 964 báo cáo tài chính (BCTC) gian lận Để nghiên cứu, chúng tôi đã lựa chọn 1,928 báo cáo tài chính, bao gồm 964 báo cáo gian lận và 964 báo cáo không gian lận, đảm bảo tỉ lệ 100%.

Tập dữ liệu huấn luyện chiếm 80% tổng số dữ liệu với 1542 báo cáo tài chính (BCTC), trong đó có 771 BCTC không gian lận và 771 BCTC gian lận Tập dữ liệu kiểm thử chiếm 20% tổng số dữ liệu, bao gồm 386 BCTC, trong đó có 193 BCTC không gian lận.

Trong nghiên cứu về 193 BCTC gian lận, chúng tôi đã thực hiện việc trích xuất đặc trưng từ mỗi tập dữ liệu và ghi nhận số liệu vào các tập tin CSV dành cho huấn luyện và kiểm thử Cấu trúc chi tiết của các tập tin CSV này đã được trình bày rõ ràng trong mục 3.2.3 Đối với thực nghiệm thứ hai, do tập dữ liệu kiểm thử chỉ còn 386 dữ liệu, việc chọn 1% như trong thực nghiệm đầu tiên đã dẫn đến một số hạn chế trong quá trình đánh giá.

Thue 2 2v

Các mô hình máy học tổng hợp như RUSBoost, AdaBoost và Bagging cho thấy khả năng phân loại vượt trội hơn so với hồi quy Logistic và SVM Trong bài toán phân loại BCTC, RUSBoost đã thể hiện ưu thế rõ rệt với tất cả các chỉ số đánh giá, bao gồm AUC, độ nhạy và độ chính xác, đều đạt mức cao nhất Tuy nhiên, mô hình Bagging lại đứng đầu về chỉ số NDCG@k với giá trị 0.1202 Nhìn chung, các mô hình máy học tổng hợp vẫn thể hiện hiệu suất tốt hơn so với các mô hình máy học riêng lẻ trong các thử nghiệm này.

Bảng 9: Kết quả thời gian xử lý của thực nghiệm 4

Chúng tôi thực hiện 10 lần chạy cho mỗi thuật toán, ghi lại thời gian huấn luyện trung bình và dữ liệu kiểm thử Kết quả thời gian trung bình được trình bày trong bảng dưới đây.

Thời gian xử lý của mô hình máy học hồi quy Logistic được đánh giá là tốt nhất, trong khi mô hình RUSBoost đứng thứ hai Mặc dù thời gian xử lý của RUSBoost lớn hơn hồi quy Logistic, nhưng nó vẫn nhanh và kết hợp với hiệu suất cực kỳ tốt Vì vậy, cho bài toán phân loại BCTC gian lận theo các giai đoạn, mô hình RUSBoost là lựa chọn tối ưu.

Trong chương này, chúng tôi đã thực hiện thí nghiệm với phương pháp máy học tổng hợp, sử dụng bộ dữ liệu từ tệp CSV chứa 28 mục dữ liệu thô của báo cáo tài chính Kết quả thí nghiệm cho thấy chúng tôi đã ghi nhận các chỉ số quan trọng như AUC, NDCG@k, độ nhạy và độ chính xác Những kết quả này cho phép chúng tôi đánh giá hiệu quả của phương pháp đã áp dụng.

Các mô hình máy học tổng hợp như RUSBoost, Bagging và AdaBoost cho kết quả vượt trội so với các mô hình hồi quy Logistic và SVM Những kết quả này cung cấp cơ sở vững chắc để đánh giá hiệu quả của phương pháp máy học tổng hợp trong việc phát hiện gian lận trong báo cáo tài chính ở chương tiếp theo.

Chương 5 KET LUẬN VÀ HƯỚNG PHÁT TRIEN

Nội dung tóm tắt trong phần này trình bày các kết quả đạt được so với đề cương, những nghiên cứu đã thực hiện, cùng với các thách thức và hạn chế trong quá trình nghiên cứu Bên cạnh đó, bài viết cũng nêu rõ những khó khăn gặp phải và định hướng phát triển trong tương lai.

5.1.1 Kết quả sau khi thực nghiệm

Trong nghiên cứu này, chúng tôi đề xuất xây dựng một mô hình phân loại gian lận kế toán bằng cách áp dụng thuật toán học máy tổng hợp (Ensemble learning) để phân tích.

28 mục dữ liệu thô của BCTC, từ đó xác định BCTC đó có phải là GLKT hay không GLKT.

Mục tiêu của nghiên cứu là phân loại gian lận trong báo cáo tài chính (BCTC) bằng cách áp dụng học máy và các kỹ thuật khác nhau nhằm nâng cao khả năng dự đoán của hệ thống phát hiện gian lận Chúng tôi đề xuất giải pháp tự động hóa quy trình phát hiện gian lận kế toán, giảm thiểu sự phụ thuộc vào can thiệp của con người, tối ưu hóa hiệu suất thời gian, nâng cao độ chính xác và giảm thiểu sai sót Nghiên cứu tập trung vào hai vấn đề chính: đầu tiên, chúng tôi đã đóng góp dữ liệu cho nghiên cứu gian lận kế toán từ BCTC, mô tả cách tạo ra các tập dữ liệu phong phú để phân tích và dự báo gian lận Thứ hai, kết quả từ mô hình thực nghiệm cho thấy mô hình máy học tổng hợp cho kết quả tốt hơn so với các mô hình riêng biệt trong quy trình phát hiện gian lận.

Luận văn này có thể được sử dụng làm tài liệu tham khảo cho các nghiên cứu khoa học sau này, đặc biệt trong lĩnh vực phát hiện gian lận kinh tế tài chính bằng học máy Các thực nghiệm cho thấy mô hình máy học tổng hợp đạt hiệu quả cao hơn so với các mô hình riêng lẻ, với mô hình Bagging là tốt nhất trong số đó.

Kết quả thực tiễn của luận văn cho thấy có khả năng phát triển thêm để tối ưu hóa thời gian xử lý, nâng cao độ chính xác và giảm thiểu sai sót do yếu tố con người trong giám sát Nghiên cứu này có thể áp dụng vào quy trình kiểm tra báo cáo tài chính (BCTC) trong các hệ thống kiểm toán của các công ty tài chính, đầu tư và chứng khoán Hiện tại, kết quả của luận văn chỉ dừng lại ở mức độ định hướng và đưa ra cảnh báo cũng như dự đoán về gian lận trong BCTC cho các hệ thống.

5.1.2 Thách thức, hạn chế gặp phải

Dữ liệu BCTC rất lớn, đa dạng và phức tạp, vì vậy quá trình xử lý và trích xuất thuộc tính cần được thực hiện một cách hiệu quả và chính xác để đảm bảo tính chính xác và độ tin cậy của thông tin.

Dữ liệu từ 28 mục dữ liệu thô có thể không chính xác và đáng tin cậy, điều này ảnh hưởng đến khả năng phân loại chính xác của mô hình dự đoán.

Quá trình gian lận trong các báo cáo tài chính (BCTC) ngày càng trở nên phức tạp và tinh vi, đòi hỏi một lượng lớn mẫu cùng với các kỹ thuật phân loại linh hoạt để đảm bảo hiệu quả của mô hình phát hiện Việc cập nhật và nắm bắt các quy định, chính sách trong lĩnh vực tài chính là cần thiết để hiểu và phân tích các số liệu BCTC một cách chính xác, từ đó đánh giá liệu có gian lận hay không.

Gian lận trong báo cáo tài chính (BCTC) thường diễn ra một cách bí mật, khiến cho các hình thức xử phạt không được công khai và khó phát hiện Do đó, việc tìm kiếm và phân tích các BCTC gian lận gặp nhiều hạn chế về dữ liệu.

Tỷ lệ giữa báo cáo phát hiện gian lận và báo cáo không phát hiện gian lận trong dữ liệu không cân bằng có sự chênh lệch rất lớn Điều này đòi hỏi cần cân nhắc và áp dụng các phương pháp cân bằng dữ liệu để đảm bảo hiệu suất phân loại tốt hơn.

Ngày đăng: 08/12/2024, 15:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN