Báo cáo tài chính dùng để cung cấp thông tin về tình hình tài chính, tình hình kinh doanh và các luồng tiền của một doanh nghiệp, đáp ứng yêu cầu quản lý của chủ doanh nghiệp, cơ quan Nh
TỔNG QUAN DỰ ÁN
Tổng quan về Kiểm toán và Doanh nghiệp
1.1 Khái niệm Báo cáo tài chính :
Theo điều 3, Luật kế toán - 2015,“Báo cáo tài chính là hệ thống thông tin kinh tế, tài chính của đơn vị kế toán được trình bày theo biểu mẫu quy định tại chuẩn mực kế toán và chế độ kế toán” Báo cáo tài chính dùng để cung cấp thông tin về tình hình tài chính, tình hình kinh doanh và các luồng tiền của một doanh nghiệp, đáp ứng yêu cầu quản lý của chủ doanh nghiệp, cơ quan Nhà nước và nhu cầu hữu ích của những người sử dụng trong việc đưa ra các quyết định kinh tế Báo cáo tài chính phải cung cấp những thông tin về: Tài sản, Nợ phải trả và Vốn chủ sở hữu; Doanh thu, thu nhập khác, chi phí kinh doanh và chi phí khác; Lãi, lỗ và phân chia kết quả kinh doanh; Các luồng tiền.Bên cạnh đó, doanh nghiệp còn giải trình thêm về các chỉ tiêu đã phản ánh trên báo cáo tài chính tổng hợp và các chính sách kế toán đã áp dụng trên “Bản thuyết minh báo cáo tài chính” để ghi nhận các nghiệp vụ kinh tế phát sinh, lập và trình bày báo cáo tài chính.”
Kiểm toán là toàn bộ quá trình thu thập và đánh giá, xác thực các bằng chứng có liên quan đến thông tin tài chính của doanh nghiệp, tổ chức nhằm xác định và báo cáo mức độ phù hợp giữa các thông tin đó đối với các chuẩn mực đã được thiết lập [2]
Kiểm toán viên đảm nhận nhiệm vụ kiểm tra báo cáo tài chính và xác minh tính chính xác của nó thông qua báo cáo tài chính dựa trên việc kiểm tra đó Kết quả của hoạt động này thể hiện thành nhận xét và ý kiến của kiểm toán viên trong Báo cáo kiểm toán
Báo cáo kiểm toán sẽ nhấn mạnh những vấn đề có thể xảy ra trong báo cáo tài chính, ví dụ việc không tuân thủ chuẩn mực, công bố không đầy đủ, hoặc có những hạn chế trong quá trình kiểm tra Trong quá trình kiểm toán, kiểm toán viên cần đánh giá khả năng hoạt động liên tục của doanh nghiệp [1]
Nếu phát hiện có hành vi không tuân thủ pháp luật và các quy định, kiểm toán viên phải báo cáo những hành vi này với các cơ quan nhà nước có thẩm quyền, thông báo với đại diện chủ sở hữu của đơn vị được kiểm toán và các đối tượng bên ngoài đơn vị được kiểm toán Nếu nghi ngờ có hành vi không tuân thủ pháp luật và quy định, kiểm toán viên phải thực hiện các thủ tục kiểm toán bổ sung để làm rõ những nghi ngờ này
[3] Đây là một trong những trách nhiệm của kiểm toán viên đối với gian lận và sai sót Theo Schweser, những dấu hiệu gian lận Báo cáo tài chính bao gồm:
- Doanh thu tăng trưởng cao bất thường so với các công ty cùng ngành nghề
- Lượng hàng bán bị trả lại cao hơn so với các công ty cùng ngành nghề và so với quá khứ: Bình thường, hàng bán sẽ bị trả lại khi chất lượng kém, không đạt yêu cầu trong hợp đồng đã cam kết Tuy nhiên, một số công ty dùng những khoản này để che đậy các khoản doanh thu ảo được ghi nhận trong kỳ kế toán trước.
- Giá trị doanh thu của 1 quý cao một cách bất thường so với các quý còn lại và so với cùng quyý năm trước: thông qua dấu hiệu này, có thể một số doanh nghiệp đã thực hiện gian lận ghi nhận doanh thu ảo để đạt được những mục đích khác của công ty như là niêm yết hoặc chuẩn bị hồ sơ đấu thầu, kêu gọi vốn đầu tư,
- Sự tăng lên trong các khoản phải trả và sự giảm đi trong hàng tồn kho và các khoản phải thu: dấu hiệu này cho thấy sự thu hẹp về quy mô doanh nghiệp, giảm sút về hiệu quả kinh doanh trong khi các khoản chi phí, phải trả lại tăng lên, dự đoán một dấu hiệu bất thường về khả năng chi trả, thanh toán các khoản nợ của doanh nghiệp [4]
Bên cạnh những dấu hiệu đã nêu trên, kiểm toán viên có thể phát hiện gian lận thông qua nhiều dấu hiệu khác nữa, tuy nhiên việc áp dụng thực tiễn này vào thực tế đòi hỏi một nghiên cứu có thể đưa ra mô hình có thể dễ dàng sử dụng và tiếp cận đối với các phán đoán về mức độ gian lận trên báo cáo tài chính
1.3 Thực trạng gian lận của các công ty hiện nay :
Ngày nay, gian lận báo cáo tài chính trên thế giới nói chung và Việt Nam nói riêng ngày càng gia tăng và dần trở thành vấn đề đáng quan ngại đối với các doanh nghiệp, chính phủ và các nhà đầu tư Và trong bối cảnh ngày nay, quá trình sử dụng thông tin đăng tải trên báo cáo tài chính đã thể hiện vai trò quan trọng trọng quản lý và đầu tư Ở Việt Nam, hiện tượng chênh lệch giữa các báo cáo tài chính trước và sau kiểm toán đã tạo nên tâm lý nghi ngại Đặc biệt những gian lận báo cáo tài chính gần đây của công ty Cổ phần tập đoàn FLC và công ty Cổ phần NTACO và một loạt các công ty niêm yết khác trên sàn chứng khoán đã bị phát hiện đã gây ra tâm lý nghi ngại cho nhà đầu tư, Ngày nay, xuất hiện ngày càng nhiều các doanh nghiệp sử dụng nhiều thủ thuật gian lận báo cáo tài chính tinh vi, như là tăng vốn ảo thông qua sử dụng các công ty con còn gọi tắt là SPE (công ty phục vụ mục đích đặc biệt), điều chỉnh doanh thu, lợi nhuận thông qua SPE (công ty phục vụ mục đích đặc biệt), thực hiện các giao dịch khống để rút tiền vay ngân hàng thông qua SPE (công ty phục vụ mục đích đặc biệt) và còn rất nhiều hình thức gian lận khác Đây là một thực trạng đáng quan ngại mà chúng ta cần ngăn chặn ngay từ bây giờ
Trong đạo đức nghề nghiệp, người làm kế toán cũng như kiểm toán phải trung thực, khách quan, thận trọng, bảo mật và đảm bảo năng lực chuyên môn Và công việc của những người làm kiểm toán liên quan đến quyết định kinh tế của rất nhiều người sử dụng thông tin, theo đó yêu cầu đặt ra đối với kiểm toán viên là ngoài các thông tin cần phải công bố theo đúng quy định nghề nghiệp và yêu cầu của pháp luật thì thông tin còn cần phải được bảo mật để bảo vệ quyền lợi doanh nghiệp cũng như các bên liên quan [1]
Ngoài ra, xét trên phương diện tổng thể, kiểm toán viên có trách nhiệm đảm bảo hợp lý rằng liệu báo cáo tài chính có còn sai sót trọng yếu do gian lận hoặc nhầm lẫn hay không Nếu phát hiện có hành vi không tuân thủ pháp luật và các quy định, kiểm toán viên phải báo cáo những hành vi này với các cơ quan nhà nước có thẩm quyền,thông báo với đại diện chủ sở hữu của đơn vị được kiểm toán và các đối tượng bên ngoài đơn vị được kiểm toán (nếu có) Đồng thời, kiểm toán viên phải thực hiện các thủ tục kiểm toán bổ sung để làm rõ những nghi ngờ này.
Lý do chọn đề tài
Trong bối cảnh kinh tế thị trường, báo cáo tài chính đóng vai trò không thể thiếu trong việc cung cấp thông tin quan trọng cho các doanh nghiệp, nhà đầu tư, cơ quan quản lý và các bên liên quan khác Mục tiêu chính của báo cáo tài chính là cung cấp thông tin về tình hình tài chính của đơn vị báo cáo, và thông tin này có ý nghĩa quan trọng cho các nhà đầu tư tiềm năng, người cho vay, và tất cả các bên có quan tâm đến việc cung cấp nguồn lực cho doanh nghiệp.
Do đó, báo cáo tài chính phải được biên soạn một cách đúng đắn để phản ánh chính xác hiện tượng kinh tế mà nó thể hiện Nó phải trung thực, không thiên vị và không chứa sai sót Tuy nhiên, trong thời đại hiện nay, rủi ro về gian lận báo cáo tài chính là điều có thể xảy ra Theo Elliot và Willingham, gian lận báo cáo tài chính là hành vi có chủ ý, gây hại và thường được thực hiện bởi những người quản lý nhằm mục đích biến tình hình tài chính trở nên khác biệt so với thực tế Hành vi này gây tổn hại đến tất cả những bên sử dụng thông tin từ báo cáo tài chính, bao gồm cả công ty niêm yết, nhà đầu tư, người cho vay, các cơ quan thuế và các tổ chức có liên quan khác.
Về hậu quả mà nó để lại đối với các yếu tố không thuộc về công ty như các nhà đầu tư, những người cho vay và cơ quan thuế là rất lớn đối với các nhà đầu tư, khi xuất hiện gian lận báo cáo tài chính thì các nhà đầu tư sẽ đánh giá quá cao hoặc quá thấp nguồn lực của công ty và điều này sẽ gây nên sự e dè cho các nhà đầu tư, gây ảnh hưởng đến khả năng sinh lời và vốn đầu tư Đối với người cho vay, khi việc gian lận báo cáo tài chính dẫn đến việc doanh nghiệp mất khả năng thanh toán nợ điều này sẽ gây tồn đọng những khoản nợ xấu đối với người cho vay, ngân hàng và các tổ chức tín dụng Đối với cơ quan thuế, thì việc gian lận báo cáo tài chính sẽ làm giảm số thuế mà doanh nghiệp phải nộp (thuế thu nhập doanh nghiệp, thuế tiêu thụ đặc biệt,… ) gây giảm thu ngân sách và ảnh hưởng xấu đến sự tăng trưởng đến tăng trưởng và thu nhập của quốc gia đó
Nhìn chung, việc gian lận báo cáo tài chính đều sẽ gây ra những hậu quả nghiêm trọng cho từng cá nhân tổ chức là nạn nhân và rộng hơn nữa là sự tăng trưởng và thịnh vượng của quốc gia đó, vì vậy việc xây dựng bài toán và tìm ra, phát hiện gian lận báo cáo tài chính là một trong những việc làm cực kỳ quan trọng và cấp bách đối với mỗi kiểm toán viên.
Mục tiêu nghiên cứu
Mục tiêu nghiên cứu của đề tài tương ứng với ba bài toán cần giải quyết.
Bài toán 1: Dự đoán khả năng các công ty niêm yết sử dụng Hàng tồn kho để gian lận trong BCTC : Mục tiêu của nghiên cứu này là phát triển một mô hình dự đoán để xác định các công ty niêm yết có khả năng sử dụng thông tin về Hàng tồn kho để gian lận trong Báo cáo tài chính Nghiên cứu sẽ tập trung vào việc phân loại các công ty dựa trên mô hình này để xác định rủi ro gian lận.
Bài toán 2: Phát hiện công ty gian lận trong nhóm các công ty cùng ngành nghề : Mục tiêu ở đây là phát triển một phuơng pháp để xác định các công ty trong cùng một nhóm ngành nghề có dấu hiệu gian lận trong BCTC Nghiên cứu này sẽ giúp xác định nhữung công ty tiềm năng gian lận trong một ngành cụ thể.
Bài toán 3: Dự đoán khả năng gian lận trên BCTC của công ty niêm yết : Mục tiêu chính của bài toán này là phát triển một mô hình dự đoán để đánh giá khả năng gian lận trên BCTC của các công ty niêm yết Nghiên cứu này sẽ tập trung vào việc đánh giá và phân tích các chỉ tiêu và dấu hiệu có liên quan để xác định mức độ rủi ro gian lận của mỗi công ty.
Đối tượng nghiên cứu
Đối tượng nghiên cứu của dự án là gian lận trong báo cáo tài chính của các công ty xây dựng niêm yết trên thị trường chứng khoán Việt Nam.
Mô tả dữ liệu và cấu trúc dữ liệu
- Dữ liệu được nhóm thu thập từ các nguồn: https://www.kaggle.com/datasets/flenderson/sales-analysis https://archive.ics.uci.edu/ml/datasets/Audit+Data
- Đây là các nguồn đáng tin cậy để nghiên cứu về vấn đề gian lận trên BCTC của các công ty, đồng thời cho thấy tác động của hàng tồn kho ảnh hưởng như thế nào đến việc gian lận trên BCTC của công ty.
Historical and active inventory: Biến target được nhóm chúng em sử dụng ở đây là SoldFlag: mô tả có hoặc không.
Thuộc tính Ý nghĩa Mô tả
Order Số thứ tự Số thực
Phân biệt xem phần dữ liệu này là hồ sơ bán hàng lịch sử hay hàng tồn kho hoạt động hiện tại.
SKU_number Mã định danh duy nhất cho mỗi sản phẩm Số thực
1: bán trong vòng 6 tháng 0: Không bán
Sold Count Đếm số lần bán Số thực
Có 2 cách để tiếp thị sản phẩm: S và D Có thể bỏ qua hoặc xét độc lập 2 cách này
Release Number Xuất hàng tồn kho Số thực
Bất kì sản phẩm nào đã được dự tính bán trong tương lai
Strength Factor Hệ số cường độ khuyến mãi Số không nguyên
Price Reg Gía nhãn Số không nguyên
Release Year Năm xuất kho Số thực
Low User Price Gía người dùng cuối cùng thấp Số không nguyên
Low Net Price Gía trị ròng thấp Số không nguyên
Bảng 1.1 Bảng mô tả cấu trúc của bộ dữ liệu Sales
Audit risk: Biến target được nhóm chúng em sử dụng ở đây là Risk: mô tả có hoặc không.
Thuộc tính Ý nghĩa Mô tả
Giá trị điểm rủi ro lịch sử của đơn vị mục tiêu bằng thủ tục phân tích
LOCATION_ID ID duy nhất của công ty Số thực
PARA_A Sự khác biệt được tìm Số không nguyên thấy trong kế hoạch kiểm tra và báo cáo tóm tắt của A
Score_A Điểm của A Số không nguyên
Risk_A Rủi ro của A Số không nguyên
Sự khác biệt được tìm thấy trong kế hoạch kiểm tra và báo cáo tóm tắt của B
Score_B Điểm của B Số không nguyên
Risk_B Rủi ro của B Số không nguyên
Tổng số lượng chênh lệch được tìm thấy trong các báo cáo khác
Số không nguyên numbers Những khác biệt trong lịch sử Số thực
Score_B Điểm của B Số không nguyên
Risk_C Rủi ro của C Số không nguyên
Money_Value Gía trị tiền Số không nguyên
Score_MV Điểm của MV Số không nguyên
Risk_D Rủi ro của D Số không nguyên
District_Loss Dữ liệu của quận bị mất Số thực
PROB Vấn đề Số không nguyên
RiSk_E Rủi ro của E Số không nguyên
History Lịch sử Có hoặc không
Prob Vấn đề Số không nguyên
Risk_F Rủi ro của F Số không nguyên
Score Điểm số Số không nguyên
Inherent_Risk Rủi ro tiềm tàng Số không nguyên
CONTROL_RISK Rủi ro kiểm soát Số không nguyên
Detection_Risk Rủi ro phát hiện Số không nguyên
Audit_Risk Rủi ro kiểm toán Số không nguyên
Risk Rủi ro Có hoặc không
Bảng 1.2 Bảng mô tả cấu trúc của bộ dữ liệu Audit risk
QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
Các phương pháp dự đoán và quy trình cụ thể
Phân lớp dữ liệu là một chức năng khai thác dữ liệu chỉ định các mục trong một tập hợp cho các danh mục hoặc lớp mục tiêu Mục tiêu của phân lớp dữ liệu là dự đoán chính xác lớp mục tiêu cho từng trường hợp trong dữ liệu Ví dụ, một mô hình phân loại có thể được sử dụng để xác định những người xin vay là rủi ro tín dụng thấp, trung bình hoặc cao
- Phương pháp hồi quy Logistic (Logistic Regression) là phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp dữ liệu có đặc thù cụ thể dựa trên xác suất Một mô hình dễ cài đặt, huấn luyện đơn giản, phân lớp nhanh, dễ diễn giải kết quả (tuy nhiên chỉ áp dụng với các biến rời rạc).
Hình 2.1 Minh họa phương pháp hồi quy Losgistic
- Phương pháp SVM (Support Vector Machine) là một thuật toán nghiên cứu chuyên sâu có giám sát để phân loại hoặc hồi quy các nhóm dữ liệu Trong
AI và học máy, các hệ thống học có giám sát cung cấp cả dữ liệu đầu vào và dữ liệu đầu ra, được gắn nhãn để phân loại Việc phân loại cung cấp một cơ sở nghiên cứu để xử lý dữ liệu trong tương lai Máy vector hỗ trợ được sử dụng để sắp xếp hai nhóm dữ liệu theo phân loại tương tự Các thuật toán vẽ các đường siêu phẳng trong không gian nhiều chiều để tách các nhóm theo các mẫu
Hình 2.2 Minh họa phương pháp SVM (Support Vector Machine)
- Phương pháp Decision Tree (Cây quyết định) là một cây phân cấp có cấu trúc (biểu đồ hoặc đồ thị) phân loại và tổng quát các dữ liệu giúp xác định một quá trình hành động hoặc để hiển thị xác suất thống kê Sơ đồ thường được phác thảo theo chiều dọc hoặc chiều ngang với các nhánh Mỗi
"nhánh" là một quyết định có thể xảy ra, bắt đầu từ chính quyết định đó (được gọi là "nút") Các nhánh xa nhất trên cây đại diện cho kết quả cuối cùng của một con đường quyết định nhất định và được gọi là "lá".
Hình 2.3 Minh họa phương pháp Decision tree
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó: Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau và các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau [4]
Hình 2.4 Minh họa về phân cụm dữ liệu Đặc điểm:
- Nhiệm vụ chính là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu.
- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm (khác với bài toán phân lớp).
Thuật toán K-means: Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch.
Hình 2.5 Minh họa về thuật toán K-Means
Tư tưởng chính: Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng).
- Bước 1:Xử lý dữ liệu: Loại bỏ các hàng có dữ liệu bị khuyết
- Bước 2: Chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
- Bước 3: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phân chia trước nó thì ta dừng thuật toán.
- Bước 4: Cập nhật lại trung tâm cho từng cụm: Lấy trung bình cộng của tất các các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
Các bước quy trình của SVM, Tree, LR:
- Bước 1: Nhập dữ liệu cần huấn luyện vào orange.
- Bước 2: Nối widget dữ liệu huấn luyện và SVM, Tree, LR với Test and score, sau đó nối widget vào Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn.
- Bước 3: Sau khi chọn được phương pháp dự báo tốt nhất, nối dữ liệu huấn luyện vào SVM, hoặc Tree, hoặc LR Đồng thời nhập dữ liệu dùng để dự báo vào orange.
- Bước 4: Liên kết phương pháp dự báo tốt nhất và dữ liệu dự báo với Predictions để đánh giá và phân loại dữ liệu đầu vào.
- Bước 5: Xuất kết quả dự báo bằng Data Table.
Tìm hiểu về dữ liệu
- Đối với bộ dữ liệu Audit risk:
Dữ liệu thô chứa 669 hàng (đối tượng) và 27 cột (thuộc tính).
Mỗi hàng đại diện cho một đối tượng doanh nghiệp đưa vào xem xét về việc gian lận, mỗi cột là những thuộc tính của đối tượng doanh nghiệp.
Trong những cột dữ liệu về những thuộc tính, nhóm cho rằng 5 thuộc tính chính, tổng hợp từ những đặc trưng còn lại, có ảnh hưởng lớn đến việc phân tích nguy cơ gian lận của các doanh nghiệp: Inherent_Risk (Rủi ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Detection_Risk (Rủi ro phát hiện), Audit_Risk (Rủi ro kiểm toán), Risk (Nguy cơ gian lận) Audit
Risk=Inherent Risk×Control Risk×Detection Risk vì vậy Audit risk sẽ là biến phụ thuộc để xem xét dữ liệu của biến Risk, với Risk (1) nguy cơ doanh nghiệp có gian lận và Risk (0) nguy cơ doanh nghiệp không gian lận.
Nhìn chung từ bộ dữ liệu, nhóm doanh nghiệp có chỉ số của những biến Audit risk càng nhỏ (bé hơn 1) thì đa số kết quả của biến Risk là 0 (doanh nghiệp không có nguy cơ gian lận) Ngược lại, chỉ số biến Audit risk của nhóm doanh nghiệp thể hiện trên bộ dữ liệu càng cao (lớn hơn 1) thì kết quả xảy ra ở biến Risk là 1 (doanh nghiệp có nguy cơ gian lận).
Audit Risk = Inherent Risk × Control Risk × Detection Risk
- Đối với bộ dữ liệu Sales:
Dữ liệu thô chứa 198917 hàng (đối tượng) và 14 cột ( đặc trưng).
Mỗi hàng chứa đại diện cho 1 đơn vị, lượng hàng đã bán ra và mỗi cột chứa các thuộc tính của đối tượng đó.
Mỗi đơn vị bao gồm những thuộc tính File_Type, SKU_number, SoldFlag, SoldCount, MarketingType, ReleaseNumber, New_Release_Flag, StrengthFactor, PriceReg, ReleaseYear, ItemCount, LowUserPrice, LowNetPrice thể hiện thông tin chi tiết về đơn vị hàng hóa và có ảnh hưởng lớn đến việc kiểm soát hàng hóa đã bán trong quá khứ cùng với việc gian lận của doanh nghiệp.
Bộ dữ liệu có biến phụ thuộc là SoldFlag, với dữ liệu là 1 doanh nghiệp có bán trong 6 tháng và với dữ liệu là 0, doanh nghiệp không có bán.
2.2 Tiền xử lý dữ liệu:
Hai bộ dữ liệu mà nhóm chọn được tổng hợp và chọn lọc từ trang archive.ics.uci.edu và kaggle.com Bộ dữ liệu Audit risk mà nhóm chọn từ trang archive.ics.uci.edu để nghiên cứu đã có đầy đủ những thông tin, dữ liệu cần thiết cũng như không bị thiếu hoặc mất dữ liệu nên nhóm đã bỏ qua bước tiền xử lý dữ liệu đối với bộ dữ liệu này, nhưng đối với bộ dữ liệu Sales do dữ liệu quá lớn và có một số dự diệu bị thiếu sót, chính vì vậy nhóm đã dùng preprocessing để xóa đi các hàng có chứa dữ liệu bị mất.
Hình 2.6 – 2.7 Mô tả xử lý dữ liệu bị mất
Trong bài nghiên cứu này, hai bộ dữ liệu mà nhóm sử dụng để phân tích đều được tách ra thành 2 file dữ liệu riêng biệt: 70% của mỗi bộ dữ liệu được sử dụng để làm dữ liệu mẫu cho mô hình phân lớp dữ liệu, 30% dữ liệu còn lại của mỗi bộ được sử dụng để dự báo.
Hình 2.8 Mô tả phân tách bộ dữ liệu
Thực nghiệm
Một là, vận dụng các kiến thức về kế toán, kiểm toán và đặc biệt là những kiến thức liên quan đến kiểm kê hàng tồn kho Những quy tắc, phương pháp như là: kê khai thường xuyên, kiểm kê định kỳ, những nguyên tắc về dòng tiền,
Hai là, vận dụng các công thức như:
Tài sản = Vốn chủ sở hữu + Nợ phải trả
Lợi nhuận = Doanh thu – Chi phí
Ta sẽ tiến hành chạy dữ liệu trên orange nhằm phân nhóm các công ty và so sánh những chỉ tiêu được thể hiện trong báo cáo tài chính.
Ba là, vận dụng các kiến thức về kế toán, kiểm toán về các khả năng gian lận của các công ty niêm yết thông qua các thủ thuật làm sai lệch báo cáo tài chính (che dấu công nợ và chi phí, khai khống doanh thu, ) và nhận biết các rủi ro kiểm toán theo công thức:
Audit Risk = Inherent Risk × Control Risk × Detection Risk (%)
- Rủi ro kiểm toán (Audit risk) là rủi ro mà các báo cáo tài chính có những sai sót trọng yếu mang tính gian lận nhưng kiểm toán viên và các công ty kiểm toán lại đưa ra những ý kiến, nhận xét không thích hợp làm ảnh hưởng đến việc đưa ra các quyết định của người sử dụng bản báo cáo tài chính đó.Rủi ro kiểm toán được xác định dựa vào 3 yếu tố: Rủi ro tiềm tàng
(Inherent Risk), rủi ro kiểm soát (Control Risk), rủi ro phát hiện (Detection Risk).
- Nhóm nghiên cứu giả định rằng nhóm doanh nghiệp có chỉ số của những biến Audit risk càng nhỏ thì đa số kết quả của biến Risk là 0 (doanh nghiệp không có nguy cơ gian lận) Ngược lại, chỉ số biến Audit risk của nhóm doanh nghiệp thể hiện trên bộ dữ liệu càng cao thì kết quả xảy ra ở biến Risk là 1 (doanh nghiệp có nguy cơ gian lận).
3.2 Bài toán 1: Dự đoán khả năng các công ty niêm yết sử dụng Hàng tồn kho để gian lận trong BCTC: a) Mô tả bài toán: b) Mô tả bài toán: Đều là những sai phạm tiềm ẩn gây ảnh hưởng lớn đến báo cáo tài chính, nhưng khác với những lỗi sai sót trong ghi chép sổ kế toán thì gian lận là hình thức một số doanh nghiệp cố ý tạo ra để đạt mục tiêu trục lợi của mình Một số hình thức gian lận tinh vi mà các doanh nghiệp thường xuyên sử dụng: sửa đổi, xuyên tạc hoặc làm giả các chứng từ có liên quan đến báo cáo tài chính, cố tình che giấu, bỏ sót, ghi chép sai sự thật một số thông tin liên quan đến các nghiệp vụ kế toán Và một trong những yếu tố trong báo cáo tài chính dễ gây ra những gian lận tinh vi về sự kiểm kê thiếu hoặc thừa về số lượng mà nhóm đưa ra đó chính là chỉ tiêu Hàng tồn kho, đây là chỉ tiêu gây ảnh hưởng lớn đến doanh thu, chi phí, giá vốn hàng bán và lợi nhuận từ hoạt động kinh doanh trước những thay đổi vốn lưu động, điều này dẫn đến hậu quả công ty bị các kiểm toán viên đánh giá không tốt về khả năng tài chính của doanh nghiệp và làm những người sử dụng thông tin từ báo cáo tài chính có thể đưa ra những quyết định sai lầm về đầu tư hoặc cho vay. c) Chạy mô hình và kết quả :
Hình 2.9 Mô hình xây dựng bài toán 1 d) Kết quả và đánh giá:
- Theo Confusion Matrix, ta có:
Tiếp theo đây là lựa chọn mô hình thông qua widget Cònusion Matrix, giống như nhóm đã đề cập ở trên thì số 1 ở đây đại diện cho cty… và số 0 là …
Và hình ảnh này chính là kết quả đánh giá bt 1 theo mô hình LR của CM
Thì nhìn vào ma trận này ta sẽ thấy đc con số chênh lệch giữa dự báo và thực tế
1: công ty bán hàng hóa trong 6 tháng.
0: công ty không bán hàng hóa trong 6 tháng.
Hình 2.10: Kết quả đánh giá Bài toán 1 theo mô hình Logistic Regression
- Dự báo công ty không bán hàng hóa trong 6 tháng mà thực tế đúng là không bán hàng hóa trong 6 tháng: 44091
- Dự báo công ty không bán hàng hóa trong 6 tháng nhưng thực tế là bán hàng hóa trong 6 tháng: 9107
- Dự báo công ty bán hàng hóa trong 6 tháng nhưng thực tế là không bán hàng hóa trong 6 tháng: 0
- Dự báo công ty bán hàng hóa trong 6 tháng mà thực tế đúng là bán hàng hóa trong 6 tháng: 0.
Xác xuất dự báo sai là 9107.
Hình 2.11: Kết quả đánh giá Bài toán 1 theo mô hình SVM
- Dự báo công ty không bán hàng hóa trong 6 tháng mà thực tế đúng là không bán hàng hóa trong 6 tháng: 44009.
- Dự báo công ty không bán hàng hóa trong 6 tháng nhưng thực tế là bán hàng hóa trong 6 tháng: 152.
- Dự báo công ty bán hàng hóa trong 6 tháng nhưng thực tế là không bán hàng hóa trong 6 tháng: 82.
- Dự báo công ty bán hàng hóa trong 6 tháng mà thực tế đúng là bán hàng hóa trong 6 tháng: 8955.
Xác suất dự báo sai là 152+82#4.
Hình 2.12 Kết quả đánh giá Bài toán 1 theo mô hình Tree
- Dự báo công ty không bán hàng hóa trong 6 tháng mà thực tế đúng là không bán hàng hóa trong 6 tháng: 44091.
- Dự báo công ty không bán hàng hóa trong 6 tháng nhưng thực tế là bán hàng hóa trong 6 tháng: 0.
- Dự báo công ty bán hàng hóa trong 6 tháng nhưng thực tế là không bán hàng hóa trong 6 tháng: 0.
- Dự báo công ty bán hàng hóa trong 6 tháng mà thực tế đúng là bán hàng hóa trong 6 tháng: 9107.
Xác suất dự báo sai là 0.
Xác suất dự báo sai: Tree=0 < SVM#4 < LR07.
Theo lý thuyết, xác suất dự báo sai càng thấp thì mô hình càng tốt (vì khi công ty có bán hàng hóa trong 6 tháng mà dự báo là không bán thì nghĩa là doanh thu thực tế mà doanh nghiệp có được sẽ lớn hơn số tiền mà đã được dự đoán hay ghi trên sổ sách => có ăn chặn hoặc là gian lận => rủi ro cao).
Chọn mô hình của phương pháp Decision Tree.
- Theo “Test and Score”, ta có :
Hình 2.13: Kết quả đánh giá Bài toán 1 theo Test and Score
Theo lý thuyết, AUC càng lớn (càng tiến về 1) thì mô hình càng tốt.
Tuy nhiên, các chỉ số CA, F1, Prec, Recall, MCC của phương pháp Tree có những con số lớn nhất trong cả ba phương pháp.
Chọn mô hình của phương pháp Decision Tree.
Theo Confusion Matrix, ta chọn mô hình của phương pháp Decision Tree.
Theo Test and Score, ta chọn mô hình của phương pháp Decision Tree.
Chọn mô hình của phương pháp Decision Tree.
Hình 2.14: Kết quả đánh giá Bài toán 1
3.3 Bài toán 2: Phát hiện công ty gian lận trong nhóm các công ty cùng tính chất: a) Mô tả bài toán:
Một trong những cách phát hiện gian lận trong báo cáo tài chính là nhận thấy những điểm bất thường (có thể có các khoản doanh thu cao hơn hoặc thấp hơn một cách bất thường) giữa các công ty có cùng ngành nghề Khi kiểm toán viên tiến hành kiểm toán các báo cáo tài chính, nhận thấy được sự chênh lệch bất thường này, họ sẽ tiến hành kiểm tra, đánh giá lại doanh thu cũng như các khoản chi phí, hàng tồn kho của doanh nghiệp nhằm xác minh tính minh bạch và chính xác của doanh nghiệp đó.
Ta sẽ tiến hành chạy dữ liệu trên orange nhằm phân nhóm các công ty và so sánh những chỉ tiêu được thể hiện trong báo cáo tài chính. b) Chạy mô hình và kết quả đánh giá:
Hình 2.15: Mô hình xây dựng Bài toán 2
Hình 2.16: Kết quả đánh giá Bài toán 2
Hình 2.17: Kết quả phân cụm K- Means Bài toán 2
Nếu chia thành 2 cụm: điểm Silhouette cao nhất là ở điểm 0.8 và điểm trung bình ở trường hợp phân cụm này là cao nhất 0.525.
Nếu chia thành 3 cụm: Ở C2 chỉ có 1 công ty, chúng ta đang cần so sánh các công ty cùng ngành nghề nên nếu chia thành 3 cụm sẽ không thỏa điều kiện so sánh, điểm trung bình ở trường hợp phân cụm này ở con số 0.519.
Nếu chia thành 4 cụm: Ở C3 chỉ có 1 công ty, chúng ta đang cần so sánh các công ty cùng ngành nghề nên nếu chia thành 4 cụm sẽ không đủ điều kiện để so sánh, điểm trung bình ở trường hợp phân cụm này ở con số 0.495.
Ta có: o Những lý do trên. o Theo lý thuyết, điểm trung bình (giá trị này nằm trong khoảng từ (-1) đến 1) của trường hợp phân cụm nào cao nhất thì kết quả phân cụm đó tốt nhất.
3.4 Bài toán 3: Dự đoán khả năng gian lận trên BCTC của công ty niêm yết: a) Mô tả bài toán:
Ngày nay, việc minh bạch trong BCTC vẫn là một vấn đề nan giải Chỉ vì lợi nhuận mà nhiều công ty sẵn sàng gian lận trên BCTC để lách luật và nhận được nhiều đầu tư hơn Chính vì vậy mà các kiểm toán viên cần có cái nhìn sáng suốt hơn trong việc đọc BCTC để nhận ra các khả năng gian lận và trên BCTC của công ty niêm yết Bài toán này lập ra để dự đoán khả năng gian lận và phát hiện gian lận trên BCTC của công ty niêm yết. b) Xây dựng mô hình :
Hình 2.19: Mô hình xây dựng Bài toán 3 c) Kết quả và đánh giá:
- Theo Confusion Matrix, ta có :
Sai lầm loại 2 là: Dự báo không gian lận nhưng thực tế là gian lận vì sẽ làm ảnh hưởng đến nhận xét của kiểm toán viên đối với báo cáo tài chính và có thể làm dẫn đến những quyết định sai lầm của người đọc báo cáo tài chính này.
Hình 2.20: Kết quả đánh giá Bài toán 3 theo Decision Tree
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế không gian lận: 1110.
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế có gian lận: 0.
- Dự báo khả năng có gian lận trong BCTC nhưng thực tế không gian lận: 10.
- Dự báo khả năng có gian lận trong BCTC nhưng thực có gian lận: 730.
Xác xuất dự báo sai loại 2 là 0.
Hình 2.21: Kết quả đánh giá Bài toán 3 theo Logistic Regression
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế không gian lận: 1109.
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế có gian lận: 16.
- Dự báo khả năng có gian lận trong BCTC nhưng thực tế không gian lận: 11.
- Dự báo khả năng có gian lận trong BCTC nhưng thực có gian lận: 714.
Xác xuất dự báo sai loại 2 là 16.
Hình 2.22: Kết quả đánh giá Bài toán 3 theo SVM
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế không gian lận: 1104.
- Dự báo khả năng không gian lận trong BCTC nhưng thực tế có gian lận: 38.
- Dự báo khả năng có gian lận trong BCTC nhưng thực tế không gian lận: 16.
- Dự báo khả năng có gian lận trong BCTC nhưng thực có gian lận: 692.
Xác xuất dự báo sai loại 2 là 38.
Theo kết quả thì Tree=0 và SVM 8 và LR
Theo lý thuyết, xác suất dự báo sai càng thấp thì mô hình càng tốt (vì khi công ty có bán hàng hóa trong 6 tháng mà dự báo là không bán thì nghĩa là doanh thu thực tế mà doanh nghiệp có được sẽ lớn hơn số tiền mà đã được dự đoán hay ghi trên sổ sách => có ăn chặn hoặc là gian lận => rủi ro cao).
Decision Tree được chọn làm mô hình để dự báo.
- Theo Test and Score , ta có :
Theo lý thuyết, AUC càng lớn (càng tiến về 1) thì mô hình càng tốt.
Tuy nhiên, các chỉ số CA, F1, Prec, Recall, MCC của phương pháp Tree có những con số lớn nhất trong cả ba phương pháp.
Decision Tree được chọn làm mô hình để dự báo.
Hình 2.23: Kết quả đánh giá Bài toán 3 theo Test and Score
Theo Confusion Matric, ta chọn phương pháp Decision Tree.
Theo Test and Score, ta chọn phương pháp Decision Tree.
Chọn phương pháp Decision Tree.
Hình 2.24: Kết quả đánh giá Bài toán 3
KẾT QUẢ VÀ KẾT LUẬN
Đánh giá kết quả
Theo bảng đánh giá kết quả, phương pháp Decision Tree (Tree) cho ra kết quả cao nhất và đạt điểm tuyệt đối trong 3 mô hình: Accuracy, F-I score, Precision và Recall đều 100% So với phương pháp Support Vector Machine (SVM) có tỉ lệ cao hơn là từ 0.4% đến 1.6% và Logistic Regression (LR) từ 17.1% đến 100% Hơn hết, Confusion Matrix của Decision Tree có sai lầm loại 1 bằng 0 và sai lầm loại 2 bằng 0, nhỏ nhất trong 3 phương pháp.
Theo bảng đánh giá kết quả, phương pháp K-Means cho ta thấy nên chia các công ty thành 2 nhóm để so sánh với số điểm là 0.8 Khi phân thành 2 nhóm, kiểm toán viên sẽ dựa trên các số liệu khác biệt giữa 2 nhóm công ty này và tìm ra sự chênh lệch nếu có
Theo bảng đánh giá kết quả, phương pháp Decision Tree cho ra kết quả cao nhất trong 3 mô hình: Accuracy (99%), F-I score, Precision và Recall đều 96%-98% đều là những tỷ lệ rất cao So với phương pháp SVM có tỉ lệ cao hơn là từ 1.2% đến 3.5% và với LR thì cao hơn từ 0.7% đến 3.8% Confusion Matrix của Decision Tree có sai lầm loại 2 bằng 0 và sai lầm loại 1 bằng 10, nhỏ nhất trong 3 phương pháp.
Kết luận
Việc gian lận trong BCTC hiện nay ngày càng tinh vi trong thủ thuật thực hiện, đã làm xáo trộn hệ thống tài chính- kinh tế, không chỉ gây ảnh hưởng nghiêm trọng đến các doanh nghiệp mà thậm chí còn liên quan tới các tổ chức kinh tế mặc dù các tổ chức, kiểm toán vẫn luôn nỗ lực ngăn chặn Tuy nhiên, hiện tại vẫn chưa thể nào ngăn chặn triệt để vì còn rất nhiều công ty thực hiện gian dối trong BCTC.
Những bài toán nghiên cứu này đã xác định được một số cách thức các công ty dùng để gian lận, cách phát hiện gian lận trong BCTC và dự đoán khả năng gian lận trên BCTC của công ty niêm yết Khi kiểm toán viên tiến hành kiểm tra, họ sẽ sử dụng mô hình này để hỗ trợ cho công việc của mình, hạn chế ít nhất các rủi ro trong quá trình làm việc dựa trên công thức cũng như mô hình đã được xây dựng
Cuối cùng, nghiên cứu này đã thực hiện được những mục tiêu đề ra là giải quyết các bài toán liên quan đến vấn đề được đặt ra ban đầu nhằm hỗ trợ kiểm toán viên trong quá trình phát hiện gian lận Tuy không giải quyết được các bài toán lớn và phức tạp trong vấn đề phát hiện gian lận, nhưng mô hình cũng được xây dựng khá hoàn chỉnh để xác định tính chính xác của vấn đề Bên cạnh đó, chúng ta cũng có thể xem những phương pháp này là một điều quan trọng, cần thiết nhằm cải thiện và nâng cao hiệu quả phát hiện gian lận trong báo cáo tài chính của doanh nghiệp.
Những hạn chế
Việc lựa chọn một đề tài mang tính chuyên ngành và cần có một nền tảng kiến thức chuyên sâu đối với sinh viên năm 2 sẽ có những hạn chế nhất định trong quá trình hoàn thành dự án
- Kết quả nghiên cứu sẽ có khả năng có độ chính xác bị chênh lệch so với thực tế bởi vì dữ liệu được lấy từ dữ liệu có sẵn và là những sự kiện trong quá khứ có độ chính xác bị chênh lệch so với thực tế vì dữ liệu được lấy từ dữ liệu và sự kiện trong quá khứ.
- Vì đề tài đồ án hướng tới và liên quan đến các công ty, doanh nghiệp đã niêm yết nên nhóm không thể tiến hành khảo sát và lấy dữ liệu thực tế, chỉ có thể sử dụng các số liệu có sẵn, nên kết quả nghiên cứu vẫn còn có nhiều hạn chế.
- Nhóm sinh viên thực hiện đồ án chưa được học quá nhiều kiến thức chuyên ngành quan trọng dẫn tới việc thực hiện dự án chưa áp dụng được nhiều kiến thức chuyên ngành ngoài ra thông tin còn của đồ án còn bị hạn chế nhiều
- Phạm vi nghiên cứu và ứng dụng dự án bị thu hẹp vì nhóm chỉ đưa ra phương pháp giải quyết bài toán với một chỉ tiêu nhất định là Hàng tồn kho.
Hướng phát triển
Với sự phát triển của nền kinh tế nước ta nói riêng và cả thế giới nói chung, vấn nạn gian lận báo cáo tài chính đã không còn xa lạ gì và đặc biệt còn nhận được sự quan tâm đặc biệt và mang tính thời sự Các vụ bê bối liên quan đến kế toán đã không còn gì là mới mẻ, và trên thế giới rộng lớn và cụ thể hơn là nước ta cũng đã xuất hiện nhiều vụ gian lận liên quan đến kế toán và báo cáo tài chính và quy mô của mỗi vụ cũng khác nhau nhưng nó luôn là một mối nguy hại cần phải được loại trừ trong nền kinh tế và xã hội hiện nay
Với các bài toán nghiên cứu về các phương pháp xác định gian lận báo cáo tài chính, cụ thể là các bài toán liên quan đến: kiểm kê hàng tồn kho, nhận thấy điểm bất thường giữa các công ty cùng ngành nghề và dự đoán gian lận báo cáo tài chính của công ty niêm yết sẽ kỳ vọng đem lại những cái nhìn tổng quát hơn về tính trung thực của báo cáo tài chính Điều này góp phần rất lớn đối với những quyết định của các nhà đầu tư cũng như từ các cơ quan kiểm toán và rộng hơn nữa là pháp luật trong trường hợp điều tra những vụ bê bối liên quan đến ăn chặn tiền.
Hiện nay với sự phát triển của khoa học và công nghệ, những sàn chứng khoán và đầu tư ra đời và điều này cho chúng ta thấy rằng là việc đầu tư vào một công ty hay một doanh nghiệp là một điều hoàn toàn dễ dàng Và mục đích thực sự của việc đầu tư ấy? chính là lợi nhuận chúng ta sẽ có được từ doanh nghiệp đó và để có được điều đó chúng ta cần phải phân tích cẩn thận nguồn lực và tiềm năng phát triển và sinh lời của công ty đó, và việc sử dụng thông tin từ báo cáo tài chính là một việc cực kỳ quan trọng trong công cuộc xác định nguồn lực và tiềm năng phát triển và sinh lời của công ty Việc phát triển thêm về những phương pháp phát hiện gian lận báo cáo tình hình tài chính sẽ giúp cho các nhà đầu tư biết và xác định rằng những lỗ hổng về những thông tin về nguồn lực công ty đã được công khai và từ đó có thể xác định được những rủi ro mà khi đầu tư vào công ty đó mang lại.
Khi một nhà đầu tư chuẩn bị đầu tư vào một công ty niêm yết, họ sẽ phải phân tích nguồn lực và tiềm năng phát triển của công ty trong tương lai và một trong những cách chính để xác định điều đó là thông qua báo cáo tài chính Và việc có sự chính xác trong báo cáo tài chính sẽ giúp phản ánh đúng được tình hình thực tế của công ty
Kết luận lại các phương pháp nhận diện gian lận báo cáo tài chính đang được các công ty sử dụng rộng rãi, đặc biệt là các kiểm toán viên nội bộ của các công ty, các công ty cung cấp dịch vụ kiểm toán hoặc đặc biệt hơn là kiểm toán nhà nước Và điều này là thực sự cần thiết trong một nền kinh tế mà ngày càng nhiều các doanh nghiệp mới được sinh ra và cả những nhà đầu tư Với bài khảo sát này, hy vọng các phương pháp xác định gian lận báo cáo tài chính sẽ được các doanh nghiệp và các nhà đầu tư áp dụng nhiều và phát triển hơn nữa Tuy nhiên vẫn sẽ có rủi ro khi mà có những công ty sẽ áp dụng những hạn chế và lỗ hổng của những phương pháp này để gian lận báo cáo tài chính và điều này sẽ dẫn đến những hậu quả pháp lý rất lớn.