Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
186,23 KB
Nội dung
Bô GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG DẠI HỌC sư PHẠM THÀNH PHĨ HÕ CHÍ MINH Nguyễn Hồng Minh XÁC ĐỊNH G1AN LẬN TRONG BÁO CÁO TÀI CHÍNH BẢNG MƠ HÌNH MÁY HỌC Chun Ngành: Khoa Học Máy Tính Mà số: KHMT-19-004 LUẬN VÀN THẠC sĩ KHOA HỌC MẢY TÍNH NGƯỜI HƯỚNG DÀN KHOA HỌC: TS NGUYỀN HỒNG TĨ LOAN Thành phố Hồ Chí Minh - 2022 Lịi Cam Đoan Tôi xin cam đoan đề tài "Phát gian lận báo cáo tài bảng mơ hình máy học” dể tài chinh nghiên cửu dộc lập hướng dần cùa giàng vicn hướng dẫn TS Nguyễn Hoàng Tổ Loan Các số liệu báo cáo luận văn trung thực đă nồ lực nghiên cứu, ngồi khơng có chép cua người khác mà khơng ghi rị nguồn Neu phát có chép mà khơng ghi rị nguồn, tơi hỗn tồn xin chịu trách nhiệm TP Hồ Chí Minh, Ngày IX tháng nàm 2022 Học viên thực Nguyền Hồng Minh Lịi Cảm ơn Đầu tiên, xin chân thành gửi lời cảm ơn đen giàng viên hướng dần cùa tơi TS Nguyền Hồng Tố Loan dã khuyến khích, giúp dỡ tạo điều kiện thuận lợi đe tơi có the hồn thành luận văn cao học Tôi xin chân thành cám ơn ban Giám Hiệu Phòng sau đại học Trường Đại học Sư Phạm TP Hồ Chi Minh nlnr thầy cô đà nhiệt tinh tham gia giáng dạy lớp cao học Khoa hục Máy tinh, hướng dần xuyên suốt khóa học tạo điều kiện thuận lợi trình xây dựng thực luận vãn Bẽn cạnh tịi xin cám ơn tới tác giá tài liệu nghiên cứu mà đă tham kháo, nhờ cơng trình nghiên cứu tơi có thê hồn thành luận văn cua Ngồi ra, tơi xin cam ơn gia đinh, bạn bẻ đà quan tâm, giúp đờ, động vicn đe tơi có kết q ngày hơm Có lẽ kiến thức vơ hạn mà tiếp nhận kiến thức cùa bàn thân mồi người tồn số hạn chế định Do đỏ luận văn khơng thê tránh khỏi nhừng thiếu sót Rất mong nhận đóng góp cùa quý thầy cị đe luận vãn hồn thiện TP Hồ Chi Minh, Ngày 18 tháng năm 2022 Học viên thực hiên Nguyền Hồng Minh Mục Lục Lịi Cam Đoan Lời Cảm ơn Mục Lục Danh Mục Hình Ánh Danh Mục Bảng Danh mục thuật ngừ viết tắt Danh Mục Hình Ánh 2.1 Đồ thị biểu điền đường cong ROC phẩn diện tích Danh Mục Bảng 3.1 3.2 4.1 Kết quà dánh giá cùa mơ hình dề xuầt so với mơ hình khác 3.3khi bo qua gian Lận hàng loạt giai doạn từ năm 2003-2008 32 4.2 Kết quà đánh giá cua mơ hình đề xuẩt so với mơ hình trước 3.4đây thuộc tính tài chinh thơ nhùng giai đoạn 3.5 .2003-2005, 2003-2011,2003-2014 36 3.6 3.7 ■A •Xw Danh mục (huật ngũ' viet tăt 3.8 Ý Nghĩa 3.9 viết tắt 3.11 A 3.10 3.12 Accounting and Auditing Enforcement Release Association of Certified Fraud Examiners 3.14 Area Under the Curve CFE 3.16 Balanced Accuracy UC 3.18 Center for Financial Reporting and Management 3.20 Central Processing Unit AC FRM 3.22 3.24 Discounted Cumulative Gain at position k fraud-XG Boost 3.26 False Negative 3.28 False Positive 3.30 Graphics Processing Unit 3.32 3.34 Normalized Discounted Cumulative Gain at position k Receiver Operator Characteristic 3.36 U.S Securities and Exchange Commission 3.38 True Positive 3.40 Extreme Gradient Boosting T AER 3.13 A 3.15 A 3.17 B 3.19 C 3.21 C PU 3.23 DCG@k 3.25 fXGBoost 3.27 FN 3.29 FP 3.31 G PU 3.33 N DCG@k3.35 R OC EC 3.37 S 3.39 3.41TP X GBoost 3.42 3.43 MÓ ĐÀU rinh cap thiet cua đe tai 3.44 I lảng năm doanh nghiệp phái thống kê cung cấp thông tin liên quan đến hoạt động cua chinh công ty hay doanh nghiệp, việc thống kè thông tin nham đê giúp doanh nghiệp dưa định hướng cho việc xây dựng phát triền kinh tc VC sau Bên cạnh chi muốn chạy theo lợi ích trước mà số cơng ty đà có số hành vi gian lận báo cáo tài Để kiểm tra tính minh bạch cùa báo cáo tài chinh cùa cơng ty nhân vicn kiểm tốn, hay cịn gọi kiếm toán vicn tiến hành thu thập đánh giá bang chứng nhùng thông tin kiểm tra nhằm xác định vã báo cáo mực độ phù hợp giừa thơng tin với tiêu chn đà thiết lập Việc kiêm tra cần phái thực bới kiểm toán viên đũ lực độc lập 3.45 Với việc thu thập đánh giá thông tin dể kiểm định báo cáo tài cần nhiều thời gian chi phi gian lận khó đê phát phát trề phai trá giá đắt bang thiệt hại kinh tố cua quốc gia có thè khiến cho cơng ty phá sán [1] Hon nừa, nhừng năm gàn đây, số lượng trường hợp gian lận báo cáo tài ngày nhiều, điển vụ gian lận báo cáo tài lớn lịch sừ cơng ty Enron vào năm 2001 WorldCom vào năm 2003 Lucent vào năm 2004 [2] gây thiệt hại lớn cho nhà đầu tư vào công ty thị trường tài chinh Mỳ Từ vi dụ cho thấy, việc phát gian lận sớm rẩt quan trọng cấp bách thời diem 3.46 Trong thịi đại nay, khoa học vã cơng nghệ ngàyđó nhiều thuật phát tốn, triển, giài kèm thuật theo máy học giúp sân sinh kiềm tốn viên xác phát Vì đề gian tài lận sẻ tiếp cách cận nhanh với chóng mơ hình máy học báo phát cáo tài gian cua lận doanh với đàu nghiệp vào dựa thông vào tin thông tin doanh nghiệp sè đánh giá báo cáo tài chinh cua cịng ty hay 3.47 có gian lận hay khơng Diều giúp kiêm tốn viên có thề đánh giá đira nghi ngờ cịng ty gian lận cách nhanh chóng 3.48 Do đó, bâi luận vân thực đề tài “Xác Định Gian I.ận Trong Báo Cáo Tài Chính Bằng Mơ Hình Máy Học" vận dụng lợi cùa mơ hình máy học dể xác định gian lận báo cáo tài chinh tốt tiết kiệm thời gian chi phí cho kiểm tốn vicn 3.49 Mục tiêu 3.50 Mục tiêu cùa luận văn xây dựng mô hình máy học có thề phân loại báo cáo tài chinh hầng năm mà cơng ty cung cấp có phái gian lận sai sót hay khơng Mõ hình có thê đánh giá gian lận sai sót báo cáo tài nằm ngồi tập dừ liệu huấn luyện (Out- of-Samplc) Mơ hình đề xuất huấn luyện tập liệu có sần từ nghiền cứu trước với mong muốn có thồ tạo dược mơ hình chi phí thấp, dể dàng đánh giá độ xác cùa mơ hình so với mơ hình trước đày 3.51 Nhiệm vụ 3.52 De đạt mục tiêu trên, luận vàn đe xuất mị hình máy học dược huấn luyện tập dừ liệu báo cáo tâi lịch sư, sau đưa dự đốn cho tương lai 3.53 Đối tượng phạm vi nghiên cứu 3.54 Do kct q cũa đề tài mơ hình máy học có the xác định gian lận báo cáo tâi chính, nên dối tượng dược nghiên cửu là: • Các khái niệm bàn báo cáo tài chinh • Các gian lận báo cáo tài chinh 3.55 Các mơ hĩnh máy học 10 • Các phương pháp đánh giá mơ hình máy học 3.56 • Phạm vi nghiên cửu bao gồm: Không gian: Bài viết nghiên cửu xây dựng mơ hình phát gian lận báo cáo tài cùa cơng ty Hoa Kỳ cơng khai • Thịi gian: Bài viết nghicn cứu báo cáo tải từ 1991-2014 3.57 Phương pháp nghiên cứu 3.58 lý thuyết 3.59 Thực khào sát cơng trình nghiên cứu liên quan nhẩm đánh giá ưu khuyết điểm, từ dó dưa tiến hay lựa chọn mị hình máy học phù hợp với đổi tượng cần nghicn cứu 3.60 Thiết kế mơ hình, đồng thời chứng minh tính thi dựa độ xác cùa mơ binh 3.61 thực nghiệm 3.62 Đe chứng minh tinh đần cua mơ hĩnh đề xuất, tiểu luận có xây dựng ứng dụng cụ the đe ghi lại số liệu, thống ke, đồ thị Trong nghiên cứu sau thu kết quà thực nghiệm tác giã tiến hành đánh giá so sánh với cơng trình nghiên cứu trước dây làm sờ dưa dịnh hưởng phát triền 3.63 Đóng góp luận văn 3.64 Lưận văn dưa mồ hình máy học hổ trợ kiếm toán viên xác định báo cáo tài cỏ dấu hiệu gian lận hay khơng với độ chinh xác cao 3.65 BỐ cục luận văn 3.66 Đe hoàn thảnh mục tiêu trên, luận vân trình bày với nội dũng cùa mó hình RƯSBoost Cụ thể thực nghiệm mơ hình f-XGBoost dự dốn dúng 24 báo cáo tài gian lận giai đoạn từ 2003-2008, mơ hình cua Bao củng cộng [ 11 ] chi dự đốn 18 báo cáo tài gian lận Ngun nhân cho kết q Sensitivity cùa mơ hình f-XGBoost thắp cua mơ hình RUS Boost tịng số lượng báo cáo tài gian lận bj mơ hình bị sót cịn cao so với mơ hình cùa Bao cộng [11] 4.3 Kết họp thuộc tính tài 3.334 Tiếp theo, luận văn thực nghiệm kiếm tra hiệu suất cua mơ hình huấn luyện dự đốn thuộc tính tý lệ cua báo cáo tài giai đoạn từ 2003-2008, so sánh với huấn luyện dự đoán thuộc tính thơ cua báo cáo tài 3.335 Tử bàng 4,2 ta thấy ràng giá trị cùa phương pháp đánh giá đà giâm cho mô hình học dự đốn với 14 thuộc tính tỳ lệ so với mơ hình học dự đốn với 28 thuộc tinh thô nguyên nhân gây vấn dề có số thuộc tinh tỷ lệ cua số báo cáo tài bị thơng tin q trinh thu thập dừ liệu, làm anh hương đen q trình học cua mơ hình Tuy nhiên, so sánh với mơ hình cùa RUSBoost cho huấn luyện dự đoán 14 thuộc tinh tý lệ mơ hình f-XGBoost lại có phần vượt trội Chi tiết mơ hình dề xuất dã dự dốn xác 26 báo cáo tài chinh gian lận tồng số 376 gian lận xác định thực tế mơ hình RUSBoost cùa Bao cộng [11] chi dự đốn xác báo cáo tài gian lận 3.336 Ngoài ra, thực nghiệm bang cách kết hợp thuộc tính thơ thuộc tính tỳ lệ, kềt q dự đốn cùa mơ hình f-XGBoost mơ hình cùa Bao cùngcộng [ 11 ] không cao so với thực nghiệm thuộc tính thơ 3.337 Báng 4.2 Kêt q đánh giá cũa mơ hình đê xuất so với mơ hình khác kết họp thuộc tính tỷ lệ tài thuộc tính thơ giai đoạn 2003-2008 3.338 Các thuộc tính đầu vào 3.347 28 thuộc 3.353 tinh thô 3.359 14 thuộc 3.365 tính ty lệ 3.371 Tất cà thuộc3.377 3.383 tinh 3.339 Mị hình 3.340 Phương pháp đánh giá 3.343 3.344 NDC 3.345 Sensit 3.346 G@k ivity Pr ecision 3.349 0.615 3.355 3.350 0.04 3.356 0.05 -XGBoost 3.360 R 0.695 3.361 3.352 3.70% 3.358 4.22% 3.364 USBoost 3.366 0.573 3.367 3.362 0.02 3.351 5.35% 3.357 5.00% 3.363 1.08% 3.369 3.26% 3.375 5.56% 3.381 3.10% 0.84% 3.370 AƯC 3.348 USBoost 3.354 -XGBoost 3.372 USBoost 3.378 -XGBoost R f f R f 0.607 3.373 0.572 3.379 0.672 3.368 0.03 3.374 0.04 3.380 0.03 2.27% 3.376 3.95% 3.382 3.08% 3.384 3.385 3.386 Hình 4.2 Trực quan hóa kết q thực nghiệm trcn 14 thuộc tính tỳ lệ tài 3.3883.387 3.389 Hình 4.3 Trực quan hóa kết q thực nghiệm tất cá thuộc tinh tý lệ tài 4.4 Bỏ qua gian lận hàng loạt 3.390 Như đà đề cập mục 3.5 gian lận hàng loạt anh hường đến hiệu suất cùa mơ hình Ensemble Learning tính mạnh mẽ linh hoạt cùa chúng Đố minh chứng diều luận văn tiến hành thực nghiệm trcn báo cáo tài giai đoạn từ năm 2003-2008 mà không đôi nhân cua báo cáo tài chinh gian lận tập dừ liệu huấn luyện 3.391 Báng 4.3 so sánh kết thực nghiệm cùa mô hĩnh đề xuát với mô binh Bao cộng 111 ] Khi so sánh với bàng bâng 3.1 ta thấy rang mỏ hình hoạt dộng tốt không bo qua gian lận hàng loạt Chi tiết bo qua gian lận hàng loạt, mơ hình f-XGBoost dự đốn 115 báo cáo tài gian lận mơ hình RƯSBoost chi dự đốn chinh xác 36 báo cáo tài gian lận bo qua top 1% Tuy nhiên, số lượng báo cáo tài khơng gian lận bị mơ hình đe xuất dự đoán thành gian lận cao so với mơ hình cùa Bao cộng 1111 3.392 Báng 4.3 Ket q đánh giá cua mơ hình đề xuất so vó'i mơ hình khác bó qua gian lận hàng loạt giai đoạn từ năm 2003 2008 3.393 3.395 Top 1% 3.394 AU C 3.402 RƯSB oost 3.407 f-XG 3.412 Boost 3.403 0.67 3.4085 0.77 3.398 ỈSĐCG( 3.399 Sensitivi âjk ty 3.404 0.092 3.409 0.075 3.405 9.09% 3.410 7.33% 3.401 recision 3.406 52% 3.411 94% P 3.4143.413 3.415 Hình 4.4 Trực quan hóa kết thực nghiệm bó qua gian lận hàng loạt 4.5 Các giai đoạn khác 3.416 Như đe cập mục 3.2, Bao cộng [ 11 ] cho rang tần suất xuầt gian lận háo cáo tài đà bị giám giai đoạn sau năm 2008, thề luận vãn chi giới họn năm 2003-2008 Ngoài luận vãn muốn kiềm chứng hiệu suất cua mơ hình giai doạn khác 3.417 Từ bàng bang 4.4 cho thay hiệu suất cùa mơ hình dự đốn báo cáo tài bang thuộc tinh tài chinh thơ nhùng giai đoạn 2003-2005, 2003 2011, 2003 2014 Ta thấy rang, với giai đoạn ngắn giai đoạn 2003 2005 mơ hình cho kết qua ấn tượng, với kết quà cùa phương pháp dánh giá NDCG@k 0.079, Sensitivity 6.58 Precision 6.71, tốt nhiều so với mơ hình huấn luyện giai đoạn 2003-2008 trình bày báng 4.1 3.4193.418 3.420 3.421 Hình 4.5 Trực quan hóa kêt thực nghiệm dự đoán giai đoạn 2003-2005 3.422 Khi cho mơ hĩnh dự đốn giai doạn dài hiệu suất cùa mô hĩnh thấp dần đicn huấn luyện mơ hình đề xuất giai đoạn 2003-2011 3.4243.423 3.425 Hình 4.6 Trực quan hóa kết q thực nghiệm dự đốn giai đoạn 2003-2011 3.4273.426 3.428 Hình 4.7 Trực quan hóa kết thực nghiệm dụ đoán giai đoạn 2003-2014 giá trị cua phương pháp đánh giá AUC, NDCG@k Sensitivity Precision lã 0.667, 0.039, 3.69%, 3.02% Khi dự đoán 2003-2014, giá trị cùa phương pháp đo giam 0.678, 0.033, 3.21% 2.14% 3.429 Với kết quà nêu trên, với Rakoíĩ |23| cho lảng SEC đà cẳt giâm bớt nhàn lực cho việc diều tra gian Lận báo cáo tài chinh năm sau giai đoạn 2008 ta có gia thuyết dược dật xuất nhiều gian lận báo cáo tài thực tế vần chưa phát 3.430 Băng 4.4 Kct quà đánh giá mơ hình đề xuất so với mơ hình trước trcn thuộc tính tài thơ giai đoạn 20032005 2003-2011.2003-2014 3.431 (a) Kết qua đánh giá cùa mơ hình để xuất so với mơ hình trước thuộc tính tài thơ giai đoạn 2003-2005 3.433 3.438 RƯSB oost 3.443 f- 3.432 Top 1% 3.434 AU 3.435 NDCG@ 3.436 Sensitivi 3.437 C 3.439 0.57 3.4446 0.6 k ty 3.440 0.048 3.445 0.079 3.441 5.01% 3.446 6.58% recision 3.442 51%3.447 P XGBoost 71% 3.448 (h) Kết quã dánh91giá cùa mô hình dề xuất so vói mơ hình trước dây thuộc tính 3.449 tài thơ nhũng giai 3.453 3.458 3.463 RUS Boost 3.468 f-XG 3.454 3.450 đoạn 2003- 3.451 2011 3.455 3.456 Top 1% 3.459 AU 3.460 NDCG@ 3.461 Sensitivi C 3.464 0.61 3.4693 0.6 k ty 3.465 0.055 3.470 0.039 3.466 5.67% 3.471 3.69% 3.452 3.457 3.462 recision 3.467 49%3.472 02% P 3 Boost(c) Kết đảnh67 3.473 giá mô hĩnh đề xuất so với mơ hình trước thuộc tinh tài thơ giai đoạn 2003-2014 3.474 3.476 lop 1% 3.475 AU C 3.483 RƯSB oost 3.488 f-XG 3.484 0.62 3.4899 0.67 3.479 NDCG 3.480 Sensitivi @k ty 3.485 0.048 3.490 0.033 3.486 6.33% 3.491 3.21% 3.482 recision 3.487 77%3.492 41% P 2 3.493 3.494 3.495 Chưong KẾT LUẬN VÀ KIẾN NGHỊ Chương trình bây kết dạt dược cùa luận ván dề xuất hướng phát triền tương lai 5.1 Kết đạt 5.1.1 lý thuyết 3.496 • mặt lý thuyết, luận văn đà đạt mục tiêu sau: Trình bảy khái niệm bàn ỷ nghĩa cua báo cáo tài gian lận báo cáo tài chinh, bơn cạnh nêu lèn anh hường tiêu cực công ty cố tinh thay đôi số liệu dần đến báo cáo tài khơng trung thực • Tim hiểu cơng trình nghiên cứu liên quan trước dây từ dó nêu lèn ưu nhược điếm cua nghiên cứu đè xây dựng mơ hình có the khảc phục nhược diêm • Tim hicu cách hoạt động cua mơ hình cụ thê mơ hình XG- Boost, áp dụng xây dựng f-XGBoost đề phát gian lận báo cáo tài chính, phương pháp đánh giá độ chinh xác cua mơ hình 5.1.2 thực nghiệm 3.497 Luận vãn sử dụng tập liệu báo cáo tài chinh cũa công ty Hoa Kỳ dược công khai tài khoản Github cùa Bao cộng [ 11 ] Tập liệu bao gồm 145 081 báo tài khơng gian lận 964 báo cáo tài gian lận giai đoạn từ năm 1990-2014 Các số liệu báo cáo tài chinh lấy từ sờ dừ liệu COMPUSTAT nhàn cùa báo cáo tài gian lận gãn dựa sớ dừ liệu CFRM, Bao cộng [ 11 ] thu thập thèm báo cáo tài gian lận trang web cùa SEC 3.498 Luận vân nghiên cứu đề xuẩt mơ hình f-XG Boost để dự đoán gian lận báo cáo tài chinh giai đoạn từ 2003 2008 Thực nghiệm cho thấy mơ hình f-XGBoost mang Lại kết q tốt mơ hình RUSBoost cùa Bao cộng [II] 5.2 Kiến nghị 3.499 Trong tương lai luận văn tiếp tục nghiên cứu thêm số hướng sau: • Đa dạng hố tập dừ liệu bang cách thu thập thêm báo cáo tài năm • Áp dụng mơ hình học sâu đề tổi tru hóa kết q tãng tỷ lệ xác cũa mơ hình • Nghiên cứu áp dụng tập liệu báo cáo tài chinh Việt Nam giúp kicm toán viên người sư dụng báo cáo tài chinh nhà đâu tư dài hạn có thê phát sớm gian lận báo cáo tài chinh 3.500 DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ [1] N H Minh, N H T Loan, and N V Hưng, “A Model for Detecting Accounting Frauds by using Machine Learning," Hawaii International Conference on System Sciences (HICSS), 2021, ISBN: 978-0-9981331- 5-7 DOI: 10.24251/HICSS.2022.193 3.501 TÀI LIỆU THAM KHÁO [1] A Dyck, A Morse, and L Zingalcs “Who blows the whistle on corporate fraud?" The Journal of Finance, vol 65 no pp 2213-2253 2010 DOE 10.1111/j.l 540-6261.2010.01614.x [2] D Yue, X Wu Y Wang, Y Li, and C.-H Chu, “A review of data mining-based financial fraud detection research,” in 2007International Conference on Wireless Communications, Networking and Mobile Computing, 2007 pp 55195522 DOi: 10.1109/WICOM.2007.1352 [3] s B Borad “Types of financial statements.” (May 28.2022) [Online] Available: https ://efinancemanagcment com/financial-accounting/ types-offinancial-statement (visited on 06/12/2022) [4] w Kenton “ 10-K.” (Mar 16,2020), [Online] Available: https://www invcstopedia.com/tcrms/l/10-k.asp (visited on 11/07/2021) [5] Trường Đọi học Kinh tể TP HCM ‘‘Trách nhiệm nghề nghiệp cùa kiểm toán viên.” in Toán 7th ed Trường Đại học Kinh tế TP HCM ch 7, pp 282-283 [6] D Liberto “Restatement.” (Jul 21,2021), [Online] Available: https:// www.investopedia.com/terms/r/rcstatcment.asp (visited on 04/09/2022) [7] Association of Certified Fraud Examiners “Report to the nations: 2020 global study on occupational fraud and abuse.” (2020), I Online] Available: https://legacy.acfe.com/report-to-the-nations/2020/ (visited on 06/10/2022) [8] The European Business Review “What is accounting fraud? a guide for safe accounting & compliance.” (Mar 4, 2021), [Online] Available: https://www.curopcanbusincssrcvicw.com/what-is-accounting-fraud- a-guidefor-safe-accounting-compliance/ (visited on 04/10/2022) [9] M Cecchini, H Aytug, G J Koehler, and p Pathak "Detecting management fraud in public companies,” Management Science, vol 56, no 7, pp 11461160, 2010 DOI: 10.1287/mnsc.l 100.1174 3.502 110Ị p M Dechow, w Ge c R Larson, and R G Sloan "Predicting material accounting misstatements." Cớrttempơra/y/lccỡNrtríHg Research vol 28 no I pp 17-82.2011 DOI: 10.1111/j 1911 -3846.2010.01041 X [11] Y Bao, B Ke, B Li, Y Yu, and J Zhang, “Detecting accounting fraud in publicly traded U.S firms using a machine learning approach,” Jour- nal of Accounting Research, vol 58, Nov 2019 DOI: 10.1111/1475- 679X 12292 [12] J Bertomeu E Cheynel E Floyd, and w Pan “Using machine learning to detect misstatements,” Review of Accounting Studies, vol 26, no 2, pp 468519, Jan 1,2021, ISSN: 1573-7136 DOI: 10.1007/s 11142- 020-09563-8 3.503 113] T Chen and c Guestrin “XGBoost: A scalable tree boosting system,” in Proceedings of the 22nd ACM SỈGKDD international Conference on Knowledge Discovery and Data Mining, ser KDD ’16 San Francisco, California USA: Association for Computing Machinery 2016, pp 785-794, ISBN: 9781450342322 DOI: 10.1145/2939672.2939785 [14] s Shrivastava “Cross validation in time series.” (Jan 15, 2020), [On- line! Available: https: //medium com / @soumyachess 1496 / cross validation-in-timc-scrics-566ac498lcc4 (visited on 06/10/2022) [15] T Fawcett “An introduction to roc analysis,” Pattern Recognition Let- ters, vol 27, no pp 861-874 Dec 19 2005 DOi: 10.1016/j.patrec 2005.10.010 [16] s Narkhede “Understanding AUC - ROC curve.” (Jun 26, 2018), I Online Ị Available: https: // towardsdatascience com / understanding - auc-roccurvc-68b2303cc9c5 (visited on 04/10/2022) [17] K JSrvelin and J Kekãlãinen, “Cumulated gain-based evaluation of 1R techniques,” vol 20, no 4, pp 422-446, Oct 2002, ISSN: 1046-8188 DOI: 10.1145/582415.582418 3.504 118] Y Wang L Wang Y Li D He, and T.-Y Liu, “A theoretical analysis of NDCG type ranking measures,” in Conference on learning theory' PMLR, 2013, pp 25-54 3.505 [19] V H Tiệp “Bài 3: C'ác phương pháp đánh giá hệ thống phân lớp.” (Jan 3, 2018), [Online] Available: https://machinelcamingcoban.com/ 2017/08/31 /evaluation/ (visited on 10/09/2021) 3.506 120] p s Atkins and B J Bondi, “Evaluating the mission: A critical review of the history and evolution of the sec enforcement program.” Fordham J Corp, and Fin L., vol 13 no 367, 2008 3.507 [21 ] M s Beasley, J V Carcello, and D R lermanson, “Fraudulent financial reporting: 1987-1997: An analysis of us public companies,” Sponsored by the Committee of Sponsoring Organizations of the Treadway Commission, 1999 [22] M s Beasley, D R Hermanson, J V Carccllo, andT L Neal, “Fraud- ulent financial reporting: 1998-2007: An analysis of US public companies,” Sponsored by the Committee of Sponsoring Organizations of the Treadway Commission, 2010 [23] J s Rakoff, “The financial crisis: Why have no high-level executives been prosecuted?” In Enforcement of Corporate and Securities Law: China and the World R H Huang and N c Howson, Eds Cambridge University Press 2017 pp 3-13 DOi: 10.1017/9781316691397.002 [24] R Kliuzami “Testimony concerning the sec’s failure to identify the Bernard L Madoff ponzi scheme and how to improve SEC performance.” (Sep 10, 2009), [Online] Available: https://www.scc.gov/ news/testimony/2009/ts091009rk-jw.htm (visited on 04/18/2022) [25] J M Karpoff, A Koester, D s Lee and G s Martin, “Proxies and databases in financial misconduct research,” The Accounting Review, vol 92 no 6, pp 129-163, Nov 2017 DOI: 10.2308/accr-51766 [26] M D Beneish, “The detection of earnings manipulation.” Financial Analysts Journal, vol 55, no 5, pp 24-36, 1999 DO1: 10.2469/faj v55.n5.2296 [27] s L Summers and T Sweeney, “Fraudulently misstated financial statements and insider trading: An empirical analysis," Accounting Review, pp 131-146, 1998 [28] G Lemaitre F Nogueira, and c K Aridas, “Imbalanced-Ieam: A python toolbox to tackle the curse of imbalanced datasets in machine learning,” Journal of Machine Learning Research, vol 18, no 17, pp 5, 2017 (Online] Available: http://jmlr.org/papers/vl8/16-365 [29] Hệ Thống Chuẩn Mực Ke Toán Việt Nam “Chuẩn mực số 29 - thay đồi chinh sách kế toán, ước tinh kế toán.” (Feb 15, 2005) [Online] Available: https://vcsvietnam.com/chitietvanban?Id=500 (visited on 04/18/2022) [30] p T I uân “Quy định việc nộp báo cáo tài cua doanh nghiệp.” (Dec 10,2018), (Online] Available: https://dangkykinhdoanh.gov.vn/ vn/tintuc/599/4888/quy-dinh-ve-viec-nop-bao-cao-tai-chinh-cua- doanh-nghicp-.aspx (visited on 11/04/2021) 3.508 |31 Ị F Pedregosa, G Varoquaux, A Gramfort, e/a/.,“Scikit-leam: Machine learning in Python,” Jớw?7ífl/ of Machine Learning Research, vol 12 pp 2825-2830 2011 132] SEC “Beginners’ guide to financial statement.” (Feb 2007), [Online] Available: https://www.sec.gov/reportspubs/investor-publications/ invcstorpubsbcgfinstmtguidchtm.html (visited on 11/28/2021) 133] T Segal “Enron scandal: The fall of a wall street darling.” (Nov 26 2021) [Online] Available: https://www.investopedia.com/updates/ cnronscandal-summary/(visited on 04/10/2022) ... vân thực đề tài ? ?Xác Định Gian I.ận Trong Báo Cáo Tài Chính Bằng Mơ Hình Máy Học" vận dụng lợi cùa mơ hình máy học dể xác định gian lận báo cáo tài chinh tốt tiết kiệm thời gian chi phí cho kiểm... quan phát gian lận báo cáo tài trình bày khái niệm báo cáo tài chinh gian lận báo cáo tài chinh, bên cạnh dô luận văn ncu len hậu qua cùa gian lận công ty người sư dụng gian lận báo cáo tài chinh,... luyện 3.128 Dầu cùa mô hĩnh cho dự đoán báo cáo tài chinh xác suẩt gian lận cua báo cáo tài chinh Các báo cáo tài dự đốn có xác suất từ 0.5 trờ lên xem báo cáo tài chinh gian lận 2.2 Các phương