CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH Báo cáo tài chính là bức chân dung toàn cảnh về tình hình tài chính của mộtdoanh nghiệp, không chỉ kiểm toán viên mà kế toán và chuyên viên phân t
Trang 1B GIÁO D C VÀ ĐÀO T O Ộ Ụ Ạ
Đ I H C KINH T TP.HCM Ạ Ọ Ế KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
-🙞🙞🙞🙞🙞 -
TIỂU LUẬN KẾT THÚC HỌC PHẦN
MÔN HỌC: KHOA HỌC DỮ LIỆU
ĐỀ TÀI:
ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÁT HIỆN RỦI
RO GIAN LẬN BÁO CÁO TÀI CHÍNHGiảng viên hướng dẫn: THS.Nguyễn Mạnh Tuấn
Mã học phần: 23C1INF50905975 (Lớp Sáng T6/ B2-104)
Nhóm sinh viên thực hiện: Nhóm 7
Trần Thiên Bảo – 31221025210Nguyễn Ngọc Bích Châu – 31221022499Nguyễn Ngọc Thùy Dương – 31221021095
Hồ Thái Thanh - 31221020659
***
TP H Chí Minh, ngày 5 tháng 10 năm 2023 ồ
Trang 2
-🙞🙞🙞🙞🙞 -LỜI CẢM ƠN
Trước khi bước vào nội dung chính của dự án, nhóm 7 xin dành một lời cảm
ơn sâu sắc đến giảng viên phụ trách giảng dạy chúng em môn Khoa học dữ liệu
- thầy Nguyễn Mạnh Tuấn, vì những kiến thức hay, bổ ích mà thầy đã truyềnđạt trong suốt 6 buổi học của học phần này Đối với chúng em, môn Khoa học
dữ liệu là một môn khá khó và khô khan, lại bao hàm nhiều kiến thức, đòi hỏirất nhiều sự chăm chỉ, khả năng tiếp thu và nhạy bén đối với những dữ liệu.Tuy nhiên, qua cách giảng dạy của thầy, môn học này dần trở nên gần gũi vàthú vị hơn Quan trọng hơn hết, chúng em hiểu rõ được tính thực tiễn của mônhọc Nhờ những điều đó, nhóm mới có thể tiến hành thực hiện dự án cũng như
có thêm nhiều kỹ năng để hỗ trợ chúng em trong suốt quá trình học tập và côngviệc sau này.
Bài tiểu luận được thực hiện bằng cả tâm huyết, tinh thần học hỏi, tìm tòi vàvận dụng bài học trên lớp của các thành viên trong nhóm Dù vậy, nhóm cũngbiết rằng bài vẫn sẽ còn nhiều thiếu sót do sự thiếu kinh nghiệm và kiến thứcchuyên môn về lĩnh vực Khoa học dữ liệu Thế nên, nhóm chúng em cũngmong sẽ nhận được lời góp ý quý báu từ thầy để mỗi thành viên có thêm kinhnghiệm thực hiện các dự án khác trong tương lai
Lời cuối, nhóm 7 xin chúc thầy Nguyễn Mạnh Tuấn thật nhiều sức khỏe vàgặt hái được nhiều thành công trong công việc giảng dạy Chúng em rất biết ơn
sự đồng hành của thầy trong suốt học phần vừa qua
BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA CỦA CÁC THÀNH VIÊN
Trang 3CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH
Báo cáo tài chính là bức chân dung toàn cảnh về tình hình tài chính của mộtdoanh nghiệp, không chỉ kiểm toán viên mà kế toán và chuyên viên phân tích tàichính cũng rất coi trọng và được xem là mối quan tâm hàng đầu của họ Vậy nên,
dù không thuộc chuyên ngành Kiểm toán, nhưng chúng em – các sinh viên ngànhTài chính và Kế toán doanh nghiệp, luôn cập nhật, theo dõi các thông tin liênquan đến vấn đề gian lận trong Báo cáo tài chính Nhóm quyết định chọn đề tài
“Ứng dụng khoa học dữ liệu vào phát hiện rủi ro gian lận báo cáo tài chính”, với
mong muốn tiếp cận vấn đề này theo góc độ Kiểm toán kết hợp với kiến thứcchuyên ngành và những kiến thức được học trong môn Khoa học dữ liệu Với góc
độ này, việc phát hiện rủi ro gian lận trong Báo cáo tài chính sẽ được phân tích rõràng và hợp lý hơn
- Bài toán 1 - Liên quan: Thực hiện dự báo về khả năng doanh nghiệp sẽ lợi
dụng các khoản thanh toán của khách hàng để che giấu công nợ nhằm gian lận trên báo cáo tài chính (bài toán phân lớp) Chuyên ngành Kế toán doanh
nghiệp đòi hỏi tính khách quan, trung thực trong việc trích lập các khoản dự
phòng vì mọi nghiệp vụ phải có cơ sở kèm theo hóa đơn, chứng từ Ở bài toánnày, nhóm đã vận dụng các nguyên tắc kế toán cũng như Khoản phải thukhách hàng (TK131) và Dự phòng phải thu khó đòi (TK2293) cùng với cáckiến thức tìm hiểu thêm về kiểm toán, làm cơ sở để thực hiện dự báo rủi rogian lận của các doanh nghiệp Từ đó, bộ phận kế toán có thể vận dụng để đềphòng sự sai lệch và chủ động ngăn chặn gian lận đối với việc ghi nhận thôngtin tài sản trong báo cáo tài chính của doanh nghiệp
- Bài toán 2 - Liên quan gần: Phát hiện công ty gian lận trong nhóm các công
ty cùng tính chất (bài toán phân cụm) Bài toán này liên quan nhiều hơn đối
với chuyên ngành Kiểm toán, vì ngành Kế toán thường làm việc với một hay
rất ít công ty khác nhau nhằm đảm bảo chất lượng công việc Đối với chuyênngành Tài chính, việc phân dữ liệu của các công ty thành các cụm khác nhau
từ những điểm bất hợp lý trong báo cáo tài chính cũng rất cần thiết Qua đó, ta
có thể hiểu rõ được tình hình tài chính của các công ty một dễ dàng và thuậntiện hơn giúp bộ phận tài chính đưa ra định hướng hoặc giải pháp đầu tư đúngđắn
- Bài toán 3 - Liên quan: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận
trong dữ liệu bằng các công cụ thống kê của Orange Với bài toán này, nhóm
vận dụng kiến thức Tài chính và Kiểm toán nhiều hơn qua việc quan sát và
đánh giá các biểu đồ liên quan đến rủi ro gian lận báo cáo Đối với chuyênngành Tài chính, việc vận dụng các biểu đồ thể hiện sự tương quan giữa cácbáo cáo, sự chênh lệch tình hình tài chính ở nhiều thời điểm khác nhau là vôcùng quan trọng Vậy nên, kỹ năng phân tích đồ thị rất cần thiết trong việc tìmhiểu và nghiên cứu về lĩnh vực Tài chính doanh nghiệp
Trang 4DANH MỤC BẢNG BIỂU, HÌNH ẢNH MINH HỌA
BẢNG BIỂU
Bảng 1.1: Bảng mô tả cấu trúc của bộ dữ liệu về Credit Risk Dataset 9
Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data 10
HÌNH ẢNH Hình 1 1: Biểu đồ: Tam giác gian lận của Cressey (1953) 2
Hình 1 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm toán trong năm 2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng) 4
Hình 2 1: Minh họa phương pháp Phân lớp dữ liệu (Classification) 11
Hình 2 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression) 13
Hình 2 3: Minh họa Phân loại theo 2 nhóm 13
Hình 2 4: Mô hình phương pháp SVM (Support Vector Machine) 15
Hình 2 5:Sơ đồ mô hình sử dụng phương pháp SVM (Support Vector Machine) 15
Hình 2 6:Minh họa phương pháp Cây quyết định (Decision Tree) 16
Hình 2 7: Sơ đồ mô hình sử dụng phương pháp Cây quyết định (Decision Tree) 17
Hình 2 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering) 18
Hình 2 9: Kết quả phân cụm của thuật toán kmeans 20
Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree 21
Hình 2.11: Mô tả xử lý những dữ liệu bị mất 24
Hình 2 12: Mô tả phân tách thành bộ dữ liệu huấn luyện 70% 25
Hình 2.13: Mô tả phân tách thành bộ dữ liệu dự báo 30% 25
Hình 2.14: Mô hình dự báo ở bài toán 1 28
Hình 2.15: Kết quả đánh giá bài toán 1 theo Hồi quy Logistic (Logistic Regression) 29
Hình 2.16: Kết quả đánh giá bài toán 1 theo Cây quyết định (Decision Tree)30 Hình 2.17: Kết quả đánh giá bài toán 1 theo SVM (Support Vector Machine)30 Hình 2 18: Kết quả đánh giá bài toán 1 qua Test and Score và quyết định chọn phương pháp nghiên cứu 31
Hình 2 19: Kết quả nghiên cứu của bài toán 1 32
Trang 5Hình 2 20: Kiểm tra mức độ chính xác của dự báo bằng công cụ Excel 33
Hình 2 21: Tổng quan mô hình Decision Tree qua Tree Viewer 33
Hình 2 22: Minh họa xây dựng mô hình bài toán 2 36
Hình 2 23: Minh họa kết quả phân loại K-Means sau khi chạy mô hình 36
Hình 2 24: Minh họa đánh giá kết quả 37
Hình 2 25: Minh họa kết quả phân cụm 37
Hình 2 26: Bảng dữ liệu kết quả phân cụm 38
Hình 2 27:Biểu đồ: Kết quả phân cụm theo thuộc tính Numbers 38
Hình 2 28: Biểu đồ: Kết quả phân cụm theo thuộc tính Money_Value 39
Hình 2 29: Biểu đồ: Kết quả phân cụm theo thuộc tính Total 39
Hình 2 30: Kết quả phân cụm được tổng hợp trên Feature Statistics 40
Hình 2 31: Minh họa xây dựng mô hình bài toán 3 41
Hình 2 32: Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt A 42
Hình 2 33:Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt B 42
Hình 2 34:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo A 43
Hình 2 35:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo B 43
Hình 2 36:Biểu đồ: Chỉ số chênh lệch khác biệt trong quá khứ 44
Hình 2 37:Biểu đồ: Chỉ số liên quan đến sai sót về tiền 45
Hình 2 38:Tổng số lượng khác biệt của các báo cáo khác 45
Hình 2 39:Bỏ qua các thuộc tính ngoại trừ Audit Risk 46
Hình 2 40:Lọc đối tượng Audit_Risk với giá trị lớn hơn 1 46
Hình 2 41:Bảng minh họa kết quả Risk khi Audit Risk lớn hơn 1 47
Hình 2 42:Bảng tổng hợp biểu đồ Inherent_Risk, CONTROL_RISK, Detection_Risk và Audit_Risk theo biến phụ thuộc Risk 47
Trang 6MỤC LỤ
C
PHẦN I: KHÁI QUÁT ĐỒ ÁN -1
1 Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay -1
1.1 Báo cáo tài chính -1
1.1.1 Khái niệm Báo cáo tài chính -1
1.1.2 Hệ thống báo cáo tài chính -1
1.2 Gian lận và sai sót trong báo cáo tài chính -2
1.2.1 Khái niệm -2
1.2.2 Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mô hình Tam giác gian lận -2
1.2.3 Những hình thức gian lận báo cáo tài chính phổ biến -3
1.2.4 Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam3 1.2.5 Yêu cầu của kế toán và kiểm toán viên đối với gian lận và sai sót trong Báo cáo tài chính -4
2 Lý do chọn đề tài -6
3 Mục tiêu nghiên cứu -7
4 Đối tượng nghiên cứu -7
5 Mô tả dữ liệu và cấu trúc dữ liệu -8
PHẦN II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ -11
1 Các phương pháp dự đoán và quy trình cụ thể -11
1.1 Phân lớp dữ liệu (Classification) -11
1.2 Phân cụm dữ liệu -17
2 Tìm hiểu về dữ liệu -21
2.1 Phân tích dữ liệu: -22
2.2 Tiền xử lý dữ liệu: -24
2.3 Phân tách dữ liệu: -25
3 Thực nghiệm -25
Trang 7Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng các khoản thanh toán của khách hàng, từ đó che giấu công nợ nhằm gian lận
trên báo cáo tài chính. -26
a) Mô tả bài toán -26
b) Các kiến thức chuyên ngành liên quan đến bài toán -27
c) Xây dựng mô hình và đánh giá kết quả -27
d) Kết quả dự báo -32
Bài toán 2: Phát hiện công ty gian lận trong nhóm các công ty cùng tính chất -35
a) Mô tả bài toán và tiền xử lý dữ liệu: -35
b) Các kiến thức chuyên ngành liên quan đến bài toán: -35
c) Xây dựng mô hình và đánh giá kết quả: -36
Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong dữ liệu -41
PHẦN III: KẾT QUẢ VÀ KẾT LUẬN -48
1 Đánh giá các kết quả đạt được -48
2 Kết luận tổng quan về đề tài -48
3 Những hạn chế: -50
4 Giải pháp/ đề xuất hạn chế gian lận trong báo cáo tài chính: -50
PHẦN IV: TÀI LIỆU THAM KHẢO -52
Trang 8PHẦN I: KHÁI QUÁT ĐỒ ÁN
1 Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay
1.1 Báo cáo tài chính
1.1.1 Khái niệm Báo cáo tài chính
- Báo cáo tài chính là“một tập hợp gồm nhiều báo cáo do doanh nghiệpcung cấp, cho biết thông tin về tình trạng tài chính, kết quả hoạt động vàluồng tiền của doanh nghiệp nhằm giúp những đối tượng bên ngoài nhưnhà đầu tư, chủ nợ và những đối tượng khác có thông tin để thực hiệnquyết định kinh tế của mình.”
- Tại Việt Nam, Báo cáo tài chính là “hệ thống thông tin kinh tế tài chínhđược đơn vị kế toán cung cấp và trình bày theo mẫu biểu quy định tạiChuẩn mực kế toán (VAS) và Chế độ kế toán Việt Nam”
1.1.2 Hệ thống báo cáo tài chính
Hệ thống BCTC của các đơn vị kế toán thuộc hoạt động kinh doanh bao gồm:
- Báo cáo tình hình tài chính (Bảng cân đối kế toán): Báo cáo tài chính
tổng hợp, thể hiện thông tin về Tài sản và nguồn hình thành nên tài sản(Nguồn Vốn) của đơn vị tại một thời điểm nhất định
- Báo cáo kết quả hoạt động kinh doanh: Báo cáo tài chính phản ánh
một cách tổng quát về tình hình và kết quả hoạt động của doanh nghiệp đó(bao gồm kết quả hoạt động kinh doanh thông thường và các kết quả khác)trong một thời kỳ nhất định
- Báo cáo lưu chuyển tiền tệ: Báo cáo tài chính phản ánh việc hình thành
và sử dụng lượng tiền theo các hoạt động khác nhau trong một thời kỳ nhấtđịnh
1
Trang 9- Bản thuyết minh báo cáo tài chính: Một bộ phận của BCTC, cung cấp
thông tin bổ sung cho những báo cáo tài chính khác và cung cấp thêmnhững thông tin cần thiết khác theo yêu cầu của Chuẩn mực kế toán
1.2 Gian lận và sai sót trong báo cáo tài chính
1.2.1 Khái niệm
Theo như Chuẩn mực kiểm toán Việt Nam (VSA 240), Gian lận được xem
là hành vi cố ý do một cá nhân hay tập thể trong Ban quản trị, Ban Giámđốc, những nhân viên hoặc do bên thứ ba thực hiện bằng những hành vigian dối nhằm thu lợi bất chính về cho bản thân hoặc có hành vi bất hợppháp
1.2.2 Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mô hình Tam giác gian lận
Năm 1950, ông Donald Cressey thực hiện nghiên cứu về vấn đề “gian lận, tham ô và biển thủ” bằng cách phỏng vấn khoảng 200 tội phạm kinh tế Từ
đó đưa ra kết luận rằng hành vi phạm tội được hình thành từ 3 yếu tố:
“ Động cơ – Cơ hội – Sự biện minh ”
Hình 1 1: Biểu đồ: Tam giác gian lận của Cressey (1953)
Trang 10- Động cơ/ Áp lực: Áp lực khi gặp các khó khăn gặp phải về mặt tài
chính; áp lực về lợi ích kinh tế có thể đạt được, hay phải hoàn thành đượcnhững chỉ tiêu mà doanh nghiệp đã đề ra nhằm duy trì chiều hướng pháttriển tốt trước những cổ đông, chủ sở hữu cũng như công chúng có quantâm đến doanh nghiệp, từ đó thu hút vốn đầu tư; Doanh nghiệp muốn giảmbớt gánh nặng thuế; Cải thiện tình hình sản xuất kinh doanh, tạo cho cácchủ nợ (ngân hàng, người cho vay) niềm tin về triển vọng phát triển củadoanh nghiệp để thu hút nguồn vốn
- Cơ hội: Cơ chế kiểm soát lỏng lẻo, thiếu chặt chẽ; Cá nhân có một vị trí
đáng tin cậy và hiểu rõ những khuyết điểm cụ thể của bộ phận kiểm soátnội bộ;
- Sự biện minh: Một số cá nhân có thái độ, tính cách hoặc hệ thống các
giá trị đạo đức sai lệch (tham lam, xem thường pháp luật, ), điều này chophép họ thực hiện một hành vi gian lận một cách cố ý Họ luôn biết cáchbiện hộ để hợp lý hóa hành vi gian lận của mình
1.2.3 Những hình thức gian lận báo cáo tài chính phổ biến
- Ghi nhận doanh thu, lợi nhuận ảo
- Che giấu công nợ và các khoản chi phí
- Định giá sai tài sản
- Ghi nhận sai thời điểm, sai niên độ
- Tăng vốn ảo thông qua việc lạm dụng các công ty con
- Thực hiện các cuộc giao dịch khống
- Thiếu sót trong việc khai báo thông tin
1.2.4 Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam
Ngày nay, từ khóa “gian lận” đang được xem là một chủ đề “nóng hổi” màcác doanh nghiệp, chính phủ và nhà đầu tư luôn chú ý và quan tâm tới.Trong những năm gần đây, các tin tức về hàng loạt vụ gian lận báo cáo tàichính bị “phanh phui” khiến cộng đồng nhà đầu tư lo lắng, e ngại về tínhxác thực và đáng tin cậy của các báo cáo tài chính được cung cấp bởi các
3
Trang 11doanh nghiệp, khi mà càng ngày càng có sự cách biệt lớn trong kết quảkinh doanh, chuyển từ lãi sang lỗ nặng sau khi thực hiện kiểm toán.
Hình 1 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm toán trong năm
2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng)
Các doanh nghiệp thường đưa ra nhiều lời giải trình cho hiện tượng sailệch nghiêm trọng trong báo cáo tài chính của mình bằng nhiều lí do khácnhau như: Thiếu khoản ghi nhận trích lập dự phòng; sự yếu kém, thiếu cẩntrọng của bộ phận kế toán; sự khác biệt trong phương thức kế toán giữadoanh nghiệp và kiểm toán;… Nhưng dù là lí do gì thì điều này vẫn gâynên tổn thất nặng nề đối với lợi ích của các nhà đầu tư, tạo cho họ tâm lýhoang mang, thiếu an toàn khi bước vào thị trường đầu tư Đây là một thựctrạng đáng e ngại và cần có những biện pháp ngăn chặn để đảm bảo sựphát triển của nền kinh tế
1.2.5 Yêu cầu của kế toán và kiểm toán viên đối với gian lận và sai sót trong Báo cáo tài chính
Kế toán và kiểm toán viên là hai đối tượng làm việc trực tiếp với báo cáotài chính Vậy nên, cả hai vị trí kế toán và kiểm toán đều cần có sự đồngnhất, hợp tác với nhau trong việc chịu trách nhiệm và phát hiện ra nhữngsai sót và gian lận trong Báo cáo tài chính
Trang 12IFAC (Liên đoàn Kế toán Quốc tế) nêu rõ các nguyên tắc cơ bản cho người
hành nghề kế toán chuyên nghiệp và kiểm toán là “sự chính trực; tính khách quan; năng lực chuyên môn; tính cẩn trọng; tính bảo mật; cách hành xử chuyên nghiệp”.
- Sự chính trực: Thẳng thắn, trung thực, tách bạch rõ ràng các mối quan
hệ chuyên môn và kinh doanh Nghiêm túc tuân thủ các qui định của phápluật và các nguyên tắc nghề nghiệp về gian lận và sai sót trong báo cáo tàichính
- Tính khách quan: Công bằng, nghiêm minh, không thiên vị hay để bất
kỳ xung đột lợi ích nào chi phối những xét đoán chuyên môn liên quan đếnhoạt động kinh doanh
- Năng lực chuyên môn: Có nền tảng tốt và luôn ý thức duy trì những kiến
thức chuyên ngành và khả năng chuyên môn ở mức cần thiết nhằm đảmbảo tốt chất lượng của báo cáo tài chính và các công việc được giao ở mọithời điểm Bên cạnh đó, thường xuyên cập nhật các chuẩn mực mới vềtrình bày báo cáo tài chính cũng như phát hiện gian lận trong báo cáo tàichính
- Tính cẩn trọng: Cẩn thận, kịp thời, kỹ lưỡng và có trách nhiệm với các
yêu cầu của công việc, đặc biệt là đối với các thông tin được ghi nhậntrong báo cáo tài chính
- Tính bảo mật: Phải có quy tắc bảo mật thông tin từ các mối quan hệ
chuyên môn và kinh doanh (khách hàng, nội bộ doanh nghiệp,…) cả trong
và ngoài môi trường làm việc, trừ khi có sự yêu cầu giải trình của phápluật, các cơ quan quản lý hoặc tổ chức nghề nghiệp
- Tư cách nghề nghiệp: Tuân thủ pháp luật và các quy định có liên quan.
Tránh những hành động thiếu chuyên nghiệp làm giảm uy tín nghề nghiệpcủa mình (Cường điệu về công việc, trình độ, kinh nghiệm; đưa thông tinsai lệch, so sánh tiêu cực gây ảnh hưởng xấu đến nghề nghiệp;…) Đặcbiệt, phải có tinh thần cầu tiến, hợp tác, tránh gây ra các mâu thuẫn, xungđột giữa kế toán và kiểm toán viên trong công tác kiểm soát và sửa chữakhi có sai sót, gian lận báo cáo tài chính
5
Trang 132 Lý do chọn đề tài
Trong bối cảnh ngày nay, báo cáo tài chính là rất quan trọng và cần thiết đểcác nhà quản lý, những nhà đầu tư, nhà cung cấp, các cơ quan quản lý,…đưa ra được quyết định sáng suốt nhằm giảm thiểu rủi ro và tối đa hóa lợinhuận nhận được Báo cáo tài chính mang đến một cái nhìn tổng quát vềtình hình kinh doanh của doanh nghiệp, từ đó giúp chủ doanh nghiệp đánhgiá được khả năng kinh doanh cũng như những vấn đề tiềm tàng cần được
xử lý kịp thời, cũng như căn cứ vào các thông tin đã được báo cáo để điềuhành các hoạt động kinh doanh diễn ra theo đúng tiến độ Bên cạnh đó, dựavào báo cáo tài chính mà các nhà đầu tư cũng như chủ nợ của doanhnghiệp có thể phán đoán được khả năng sinh lời và tín dụng của doanhnghiệp Đồng thời, thể hiện rõ về tình hình vốn của doanh nghiệp cũng nhưnguồn vốn này đến từ đâu và khả năng sử dụng như thế nào, nhờ đó doanhnghiệp trở nên linh hoạt và kiểm soát tình hình sử dụng vốn tốt hơn
Báo cáo tài chính phản ánh sức khỏe của một doanh nghiệp, báo cáo tàichính càng minh bạch doanh nghiệp càng phát triển vững mạnh Tuynhiên, tình hình gian lận báo cáo tài chính trên thế giới đang lan rộng vàtrở nên nghiêm trọng hơn, gây ảnh hưởng lớn đến doanh nghiệp cũng nhưnhững nhà đầu tư Đối với những đất nước có thị trường vốn thì việc gianlận báo cáo tài chính sẽ tác động lớn đến sự tin tưởng của những ngườiđang quan tâm đến thông tin của thị trường trên
Nhận thức được những ảnh hưởng tiêu cực mang lại, tại Việt Nam thì Bộ
tài chính đã ban hành chuẩn mực kiểm toán số 240 (VSA 240) ban hành
năm 2001 về trách nhiệm của kiểm toán viên liên quan đến gian lận trongquá trình kiểm toán báo cáo tài chính Trong đó, gian lận là một khái niệmpháp lý tương đối rộng, nên kiểm toán viên chỉ quan tâm đến những gianlận dẫn đến sai sót trọng yếu Mục tiêu cuối cùng của kiểm toán viên vàcác công ty kiểm toán trên thế giới là tìm và đánh giá rủi ro có sai sót trọngyếu trong báo cáo tài chính do hành vi gian lận gây ra, từ đó thu thập toàn
bộ những bằng chứng kiểm toán phù hợp về những rủi ro có sai sót trọngyếu do gian lận đã được đánh giá Thế nhưng quá trình áp dụng các chuẩnmực trên vào thực tế vẫn còn gặp nhiều khó khăn
Trang 14Những tác động xấu mà gian lận báo cáo tài chính gây ra là vô cùngnghiêm trọng Đối với nhà đầu tư cũng như chủ nợ, họ sẽ khó phán đoánđược khả năng sinh lời, thanh toán của doanh nghiệp, dẫn đến rủi ro và dễdàng bị trục lợi từ chính doanh nghiệp mà mình tin tưởng Không chỉ vậy,các cơ quan quản lý như cơ quan thuế sẽ khó kiểm soát được các khoảnphải thu như tiền thuế khi doanh nghiệp đó báo cáo thấp hơn khoản lợinhuận mà họ nhận được dẫn đến thuế phải nộp cũng giảm đi Hay che giấucông nợ và chi phí làm giảm đi các khoản phải chi của doanh nghiệp, cũngnhư không ghi nhận các khoản dự phòng dẫn đến nâng khống giá trị tài sảnkhiến chủ nợ đánh giá sai về tính thanh khoản của doanh nghiệp.
Do đó, gian lận báo cáo tài chính là vấn đề mang tính cấp thiết có ảnhhưởng đến không chỉ mỗi cá nhân đang tham gia vào hoạt động kinhdoanh, đầu tư, tài chính mà còn đối với cả một nền kinh tế vĩ mô Do đó,trong thực tiễn cần có sự nghiên cứu cẩn thận nhằm đưa ra những bài toán
dự báo và phát hiện gian lận trong báo cáo tài chính, để dễ dàng tiếp cậnhơn cũng như đưa ra phán đoán về mức độ gian lận dựa trên các sai sótmang tính trọng yếu
3 Mục tiêu nghiên cứu
Mục tiêu nghiên cứu của nhóm em sẽ thông qua 3 bài toán sau:
- Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng cáckhoản thanh toán của khách hàng từ đó che giấu công nợ nhằm gian lậntrên báo cáo tài chính
- Bài toán 2: Phát hiện sự gian lận của một doanh nghiệp trong nhữngnhóm doanh nghiệp có cùng tính chất
- Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong
dữ liệu
7
Trang 154 Đối tượng nghiên cứu
Đối tượng nghiên cứu của nhóm là những sự sai sót mang tính trọng yếutrong gian lận báo cáo tài chính của những doanh nghiệp có cùng tính chấtvới nhau
5 Mô tả dữ liệu và cấu trúc dữ liệu
Những dữ liệu mà nhóm sử dụng để phân tích được thu thập từ các trangweb sau đây:
Credit Risk Dataset (kaggle.com)
Tập dữ liệu này chứa các cột mô phỏng dữ liệu của phòng tín dụng vềthông tin của các khách hàng, các khoản vay, khả năng thanh toán và rủi rotín dụng của những khách hàng trên Qua đó, giúp kiểm soát tốt các khoảnphải thu cũng như dự đoán được khả năng gian lận trên báo cáo tài chínhcủa doanh nghiệp có liên quan
https://archive.ics.uci.edu/ml/datasets/Audit+Data
Bộ dữ liệu trong một năm từ 2015 đến 2016 của các công ty được thu thập
từ Văn phòng Kiểm toán tại Ấn Độ để xây dựng công cụ dự đoán nhằmphân loại các công ty đáng ngờ Mục tiêu của nghiên cứu là giúp kiểm toánviên xây dựng mô hình phân loại có thể dự đoán công ty gian lận dựa trênnhững yếu tố rủi ro ở thời điểm hiện tại và đã xảy ra trong quá khứ
Credit Risk Dataset
person_age Độ tuổi của từng khách hàng Số nguyên
person_income Thu nhập hàng năm của khách
Trang 16loan_status Tình trạng khoản vay tại ngân
Số nguyên
Bảng 1.1: Bảng mô tả cấu trúc của bộ dữ liệu về Credit Risk Dataset
Audit Risk Data
Sector_score Giá trị điểm rủi ro lịch sử của
đơn vị mục tiêu bằng thủ tụcphân tích
Trang 17PARA_A Sự khác biệt được tìm thấy
trong báo cáo của A
Số không nguyên
PARA_B Sự khác biệt được tìm thấy
trong báo cáo của B
Số không nguyên
TOTAL Tổng số lượng chênh lệch
được tìm thấy ở những báo cáokhác
Số không nguyên
Numbers Những khác biệt trong lịch sử Số thực
District_Loss Dữ liệu mà quận đó mất đi Số thực
CONTROL_RI
SK
Audit Risk = Inherent Risk x Control Risk x Detection Risk (%)
Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data
Trang 19PHẦN II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
1 Các phương pháp dự đoán và quy trình cụ thể
1.1 Phân lớp dữ liệu (Classification)
- Phân lớp dữ liệu (Classification):“Là cách dùng để khai thác dữ liệucủa các mục được chỉ định trong một tập hợp lớn các danh mục hoặc lớp.Mục tiêu để dự đoán chính xác các lớp mục tiêu cho mỗi trường hợp trongtập hợp.”
Trong Phân lớp dữ liệu, một chương trình học từ một tập dữ liệu hoặc cácquan sát nhất định, sau đó phân loại các quan sát mới thành các lớp hoặcnhóm Các lớp có thể được gọi là mục tiêu/ nhãn hoặc danh mục "
Không giống như Hồi quy, biến đầu ra của Phân lớp dữ liệu là một danhmục, không phải giá trị, chẳng hạn như "Xanh lục hoặc Xanh lam", "Tráicây hoặc Động vật", Vì Phân lớp là một kỹ thuật học có giám sát, vì vậy
nó chứa đầu vào với đầu ra tương ứng.”
Trong thuật toán phân lớp dữ liệu, hàm đầu ra rời rạc y được ánh xạ tớibiến đầu vào x.”
Hình 2 1: Minh họa phương pháp Phân lớp dữ liệu (Classification)
Trang 20Ví dụ: Một mô hình phân loại được sử dụng để xác định những người xin
vay là rủi ro tín dụng thấp, trung bình hoặc cao.”
Phân lớp dữ liệu có 2 loại:
+ Phân loại nhị phân: Nếu vấn đề phân loại chỉ có hai kết quả có
thể xảy ra.”
Ví dụ: CÓ hoặc KHÔNG, NAM hay NỮ, SPAM hoặc KHÔNG
SPAM, CHÓ hoặc MÈO,
Ví dụ: Xác định xem sản phẩm đó được sản xuất ra đã đạt đủ tiêu
chuẩn để có thể bán chưa, hay nhà máy nên loại bỏ nó (các thuộctính để phân loại là tính đủ tốt)
+ Phân loại nhiều nhãn: Nếu một bài toán phân loại có nhiều hơn
hai kết quả
Ví dụ: Phân loại các loại cây trồng, phân loại các loại âm nhạc.
- Hồi quy logistic (Logistic Regression): Là phương pháp phân lớp dựa
trên xác suất; là một mô hình hồi quy nhằm dự đoán giá trị đầu ra rời rạc(discrete target variable) ứng với một vectơ đầu vào x
Đây là một mô hình đơn giản (dễ diễn giải kết quả, huấn luyện đơn giản,
dễ cài đặt), không cần thông tin để phân phối của các lớp trong không gianđặc trưng, phân lớp nhanh Tuy nhiên, nó chỉ áp dụng với biến phụ thuộcrời rạc
13
Trang 21Hình 2 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression)
Ví dụ: Để xem một bức ảnh có chứa một con thỏ hay không Ở đây ta đặt
đầu ra với y = 1 nếu bức ảnh có một con thỏ và y = 0 nếu bức ảnh không
có con thỏ nào Đầu vào x ở đây sẽ là các pixel với một bức ảnh đầu vào
Hình 2 3: Minh họa Phân loại theo 2 nhóm
Hồi quy logistic có thể được phân thành ba loại:
Trang 22+ Nhị thức: Trong Hồi quy logistic nhị thức, chỉ có thể có hai loại
biến phụ thuộc
Ví dụ: Thắng hoặc Thất bại,
+ Đa thức: Trong Hồi quy logistic đa thức, có thể có 3 hoặc nhiều
loại biến phụ thuộc không có thứ tự
Ví dụ: "Mèo", "Chó" hoặc "Cừu"
+ Thứ tự: Trong Hồi quy logistic thứ tự, có thể có 3 loại biến phụ
thuộc được sắp xếp theo thứ tự trở lên
Ví dụ: "Thấp", "Trung bình" hoặc "Cao".
- Phương pháp SVM (Support Vector Machine): Là một thuật toán học
có giám sát, mô hình sẽ tiếp nhận những dữ liệu đầu vào và xem các dữliệu này là những vector trong không gian, sau đó phân chia chúng vàonhững lớp khác nhau từ việc xây dựng nên siêu phẳng trong không gian đachiều để làm mặt phân cách cho những lớp dữ liệu
Nếu muốn có được kết quả phân lớp một cách tối ưu thì chúng ta cần phảixác định được siêu phẳng (hyperplane) và đồng thời có khoảng cách tớinhững điểm dữ liệu (margin) ở tất cả những lớp xa nhất có thể đạt đếnđược SVM sở hữu khả năng phân lớp nhanh và tiết kiệm bộ nhớ Đâyđược xem như một công cụ hỗ trợ tối ưu và thường được áp dụng vàonhững bài toán chuyên về việc xử lý hình ảnh, cũng như phân tích cácquan điểm Nhờ vào việc sử dụng Kernel function đã góp phần giúp nhữngphương pháp chuyển không gian này trở nên linh hoạt hơn so với trướckia Tuy nhiên, khi đối mặt với kho dữ liệu lớn hay số chiều lớn hơn sốmẫu dữ liệu huấn luyện thì trở nên kém hiệu quả, nhạy cảm với nhiễu hoặcthiếu thông tin xác suất phân lớp.”
15
Trang 23Hình 2 4: Mô hình phương pháp SVM (Support Vector Machine)
Ví dụ: Giả sử chúng ta thấy một con mèo cũng có một số đặc điểm củachó, vì vậy nếu chúng ta muốn một mô hình có thể xác định chính xác đó
là mèo hay chó thì có thể tạo mô hình sử dụng thuật toán SVM Khi vectơ
hỗ trợ tạo ranh giới quyết định giữa hai dữ liệu này (mèo và chó) và chọncác trường hợp cực đoan (vectơ hỗ trợ), nó sẽ thấy trường hợp cực đoancủa mèo và chó Trên cơ sở các vectơ hỗ trợ, nó sẽ phân loại đó là một conmèo
Trang 24Hình 2 5:Sơ đồ mô hình sử dụng phương pháp SVM (Support Vector Machine)
SVM có hai loại:
SVM tuyến tính: Thường được áp dụng cho những dữ liệu có thể phân
tách tuyến tính, điều này đồng nghĩa rằng nếu tập dữ liệu đó có thểđược phân loại thành hai lớp nhờ vào việc sử dụng một đường thẳng,thì những dữ liệu này sẽ được xem như những dữ liệu có thể phân táchtuyến tính
SVM phi tuyến tính: Trái ngược với SVM tuyến tính, mô hình thường
được áp dụng cho những dữ liệu được phân tách phi tuyến tính
- Phương pháp Cây quyết định (Decision Tree): Trong lĩnh vực quản trị,
Cây quyết định được xem là đồ thị biểu diễn những quyết định đi kèm vớicác kết quả có thể xảy ra nhằm giúp trong quá trình đưa ra quyết định.Ngoài ra, trong khai thác dữ liệu, Cây quyết định còn là phương pháp giúp
mô tả, phân loại và đồng thời tổng quát hóa những dữ liệu đã được chotrước đó
Với hình thức dễ dàng tiếp cận và không yêu cầu cao về quá trình chuẩnhóa dữ liệu, nó giúp xử lý trong đa dạng kiểu kiến thức và xử lý một cáchhiệu quả lượng dữ liệu tương đối lớn chỉ trong một khoản thời gian ngắn.Bên cạnh đó, vẫn còn những hạn chế trong việc xử lý tình huống với các
dữ liệu do thời gian và chi phí để xây dựng mô hình trên vẫn còn khá cao
Hình 2 6:Minh họa phương pháp Cây quyết định (Decision Tree)
17
Trang 25Ví dụ: Hãy tưởng tượng rằng bạn đang cố gắng đánh giá xem mình có nên
đi lướt sóng hay không, bạn có thể sử dụng các quy tắc quyết định sau đểđưa ra lựa chọn cho mình
Hình 2 7: Sơ đồ mô hình sử dụng phương pháp Cây quyết định (Decision Tree)
Các kiểu Cây quyết định:
Cây hồi quy: Là phương pháp ước lượng dành cho những hàm
giá mang giá trị là số thực thay vì được áp dụng cho những côngviệc mang tính chất phân loại như những phương pháp khác
Ví dụ: Để ước tính trị giá phải trả của một căn chung cư cao cấp
hoặc thời gian để xây dựng xong một ngôi trường
Cây phân loại: Với điều kiện y là một biến phân loại như: vay
vốn (nên vay hay không nên vay), quyết định mua hàng (có haykhông)
1.2 Phân cụm dữ liệu
- Phân cụm dữ liệu (Clustering): Là quá trình gom cụm hoặc gom nhóm
những đối tượng hay những dữ liệu có đặc điểm tương đồng với nhau vàocùng một nhóm hoặc vào các cụm tương ứng Do đó, sự tương đồng giữanhững phần tử trong cùng một cụm; sẽ khác biệt với những phần tử trongcác cụm khác
Trang 26Hình 2 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering)
Phân tích cụm là một quy trình linh hoạt với nhiều loại khác nhau có thểđược ứng dụng tùy thuộc vào nhu cầu cụ thể của một nhiệm vụ Dưới đây
là một số loại phân tích cụm phổ biến:
+ Phân cụm phân vùng: Kiểu phân cụm này chia dữ liệu thành một
tập hợp các cụm loại trừ lẫn nhau Phương pháp nổi tiếng nhấttrong danh mục này là thuật toán phân cụm K-Means
+ Phân cụm theo cấp bậc: Kiểu phân cụm này tạo ra một cây cụm.
Phân cụm theo cấp bậc không chỉ phân cụm dữ liệu mà còn xâydựng một hệ thống phân cấp các cụm, giống như cấu trúc cây nhịphân
Phân cụm theo cấp bậc có 2 hướng: Hội tụ (Bottom-Up) và Phânchia (Top-Down)
+ Phân cụm theo mật độ: Các loại thuật toán sẽ tìm kiếm các khu
vực trong không gian đặc trưng nơi có mật độ quan sát cao Nổitiếng nhất trong số đó là DBSCAN
19
Trang 27+ Phân cụm theo lưới: Thuật toán lượng tử hóa không gian thành
một số lượng ô hữu hạn tạo hình thành nên cấu trúc lưới và thựchiện hầu hết những hoạt động phân cụm trên cấu trúc lưới thuđược Điểm cộng lớn nhất là thời gian xử lý nhanh, thường phụthuộc vào số lượng ô trong mỗi chiều không gian lượng tử hóa
+ Phân cụm dựa trên mô hình: Đưa ra giả thuyết về một mô hình
cho từng cụm và tìm ra dữ liệu phù hợp nhất với mô hình nhấtđịnh Ưu điểm là mô hình cung cấp một khung xác suất để ướctính các đặc điểm của quá trình tạo ra dữ liệu
Ví dụ: Mô hình hỗn hợp Gaussian và thuật toán Tối đa hóa kỳvọng
+ Phân cụm không gian con: Trong phân cụm tiêu chuẩn, một đối
tượng thuộc về chính xác một cụm Nhưng đối với trong phâncụm không gian con, một đối tượng có thể thuộc về nhiều cụm vàmỗi cụm được liên kết với một tập hợp con của các thứ nguyên.Kiểu phân cụm này đặc biệt hữu ích cho dữ liệu đa chiều mà trong
đó mỗi chiều đại diện cho một tính năng của dữ liệu
- Đặc điểm Phân cụm dữ liệu:
Số cụm dữ liệu không được biết trước vì vậy việc phân cụm dữliệu thuộc nhóm học Không giám sát (Unsupervised Learning)
Gồm nhiều cách tiếp cận và mỗi một cách sẽ có một vài kỹ thuật.Những kỹ thuật khác nhau sẽ thường cho ra kết quả không giốngnhau
- Đánh giá mô hình phân cụm:
+ Một điểm cộng của phân cụm phân lớp là chúng ta không nhấtthiết phải xác định trước số lượng cụm do đó tối ưu hơn so vớiviệc dùng K-Means Thế nhưng, nó vẫn sẽ có khuyết điểm đó làkhông thể xử lý tốt được với số lượng dữ liệu quá lớn
Trang 28+ Bên cạnh đó, phân cụm phân lớp còn có thể được ứng dụng vàoviệc xác định, cũng như dự báo số cụm trước khi bắt đầu chạythuật toán K-Means ngay sau đó.
Thuật toán K-Means: Là một phương pháp được sử dụng trong phân tích tính chất cụm của dữ liệu Trong đó 'K' đề cập đến số lượng cụm được chỉ định trước Thuật toán phân cụm K-Means sẽ thường được dùng nhiều ở những máy hỗ trợ trong việc tìm kiếm, phân loại khách hàng ở các doanh nghiệp, cũng như thống kê lại những dữ liệu đã có trước đó,…
Hình 2 9: Kết quả phân cụm của thuật toán kmeans
- Ý tưởng chính của thuật toán K-Means: mỗi một đối tượng trong tập
dữ liệu được coi là một điểm trong không gian d chiều (với d là số lượngthuộc tính của đối tượng)
Bước 1: Loại bỏ các hàng dữ liệu bị khuyết Đây là bước thuộcbước Tiền xử lý dữ liệu
Bước 2: Chọn k điểm bất kỳ làm trung tâm ban đầu của k cụm.
21
Trang 29 Bước 3: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất.Nếu những điểm dữ liệu ở mỗi cụm vừa được phân tách không thayđổi so với kết quả của lần phân tách trước nó thì chúng ta nên dừnglại thuật toán trên.
Bước 4: Cập nhật lại tình hình cho từng cụm, bằng cách lấy trungbình cộng của tất cả những điểm dữ liệu đã được gán vào cụm đósau khi đã phân tách trên bước 2
Bước 5: Quay trở lại bước 2
- Các bước quy trình của SVM, Logistic Regression và Tree:
+ Bước 1: Nhập dữ liệu cần huấn luyện vào Orange
+ Bước 2: Nối widget dữ liệu huấn luyện và SVM, Tree, LogisticRegression với Test and Score, sau đó nối widget vào ConfusionMatrix để bắt đầu quá trình đánh giá kết quả và đánh giá ma trậnnhầm lẫn
+ Bước 3: Sau khi chọn được phương pháp dự báo tốt nhất, nối dữliệu huấn luyện vào SVM, hoặc Tree, hoặc Logistic Regression.Đồng thời nhập dữ liệu dùng để dự báo vào Orange
Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree
Trang 302 Tìm hiểu về dữ liệu
Kaggle và UCI đều là những nguồn thu thập đáng tin cậy được dùng trong học
tập và nghiên cứu, vậy nên nhóm quyết định lựa chọn 2 bộ dữ liệu từ 2 nguồn
này để thực hiện dự án Bộ dữ liệu thứ nhất ( Credit Risk Dataset ) được sử dụng để giải quyết bài toán 1, bộ dữ liệu còn lại (Audit Risk Data) thì dùng
cho bài toán 2 và 3.
● Lý do lựa chọn 2 bộ dữ liệu khác nhau để thực hiện 3 bài toán là vì :
+ Nhóm muốn đưa ra góc nhìn đa chiều hơn về rủi ro gian lận trong báocáo tài chính của các doanh nghiệp Nếu chỉ sử dụng bộ dữ liệu AuditRisk Data để thực hiện cả bài toán phân lớp, nhóm chỉ có thể dự báo rủi
ro gian lận của các doanh nghiệp một cách chung chung, mà không thểtiếp cận sâu hơn với các trường hợp cụ thể Vậy nên, việc dùng thêm 1
bộ dữ liệu khác liên quan đến rủi ro thanh toán của khách hàng, nhóm cóthể phân tích và dự báo hành vi gian lận ở một khía cạnh mới
+ Bên cạnh đó, với các kiến thức liên quan đến chuyên ngành kế toán, tàichính của các thành viên trong nhóm, việc tiếp cận thông tin về cáckhoản thanh toán nợ sẽ dễ dàng và gần gũi hơn so với kiến thức về cácnghiệp vụ kiểm toán
+ Từ việc ứng dụng cả hai bộ dữ liệu vào giải quyết bài toán đặt ra, ta thấy
được mối tương quan giữa Các khoản thanh toán của khách hàng với Rủi ro gian lận trong Báo cáo tài chính Từ đó có thể đưa ra kết luận
cuối cùng cho bài Dự án nghiên cứu của nhóm
2.1 Phân tích dữ liệu:
- Với bộ dữ liệu Audit_risk:
+ Dữ liệu thô chứa 27 hàng (thuộc tính) và 776 (cột)
+ Trong mỗi đối tượng sẽ là một đại diện cho mỗi doanh nghiệp đượcchọn để cho vào rà soát về những rủi ro gian lận, mỗi thuộc tính đạidiện những đặc trưng của từng đối tượng doanh nghiệp
+ Từ bộ dữ liệu, khi xét đến các cột dữ liệu hiển thị những đặc trưng,
có 5 thuộc tính chính được tích hợp từ những thuộc tính còn lại và có
23