1. Trang chủ
  2. » Giáo Dục - Đào Tạo

ĐỀ TÀI ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÁT HIỆN RỦI RO GIAN LẬN BÁO CÁO TÀI CHÍNH

61 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Trang 1

ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO PHÁT HIỆN RỦIRO GIAN LẬN BÁO CÁO TÀI CHÍNH

Giảng viên hướng dẫn: THS.Nguyễn Mạnh Tuấn

Trang 2

-🙞🙞🙞🙞🙞 -LỜI CẢM ƠN

Trước khi bước vào nội dung chính của dự án, nhóm 7 xin dành một lời cảm

ơn sâu sắc đến giảng viên phụ trách giảng dạy chúng em môn Khoa học dữ liệu - thầy Nguyễn Mạnh Tuấn, vì những kiến thức hay, bổ ích mà thầy đã truyền đạt trong suốt 6 buổi học của học phần này Đối với chúng em, môn Khoa học dữ liệu là một môn khá khó và khô khan, lại bao hàm nhiều kiến thức, đòi hỏi rất nhiều sự chăm chỉ, khả năng tiếp thu và nhạy bén đối với những dữ liệu Tuy nhiên, qua cách giảng dạy của thầy, môn học này dần trở nên gần gũi và thú vị hơn Quan trọng hơn hết, chúng em hiểu rõ được tính thực tiễn của môn học Nhờ những điều đó, nhóm mới có thể tiến hành thực hiện dự án cũng như có thêm nhiều kỹ năng để hỗ trợ chúng em trong suốt quá trình học tập và công việc sau này. 

Bài tiểu luận được thực hiện bằng cả tâm huyết, tinh thần học hỏi, tìm tòi và vận dụng bài học trên lớp của các thành viên trong nhóm Dù vậy, nhóm cũng biết rằng bài vẫn sẽ còn nhiều thiếu sót do sự thiếu kinh nghiệm và kiến thức chuyên môn về lĩnh vực Khoa học dữ liệu Thế nên, nhóm chúng em cũng mong sẽ nhận được lời góp ý quý báu từ thầy để mỗi thành viên có thêm kinh nghiệm thực hiện các dự án khác trong tương lai.

Lời cuối, nhóm 7 xin chúc thầy Nguyễn Mạnh Tuấn thật nhiều sức khỏe và gặt hái được nhiều thành công trong công việc giảng dạy Chúng em rất biết ơn sự đồng hành của thầy trong suốt học phần vừa qua.

BẢNG ĐÁNH GIÁ MỨC ĐỘ THAM GIA CỦA CÁC THÀNH VIÊN

Trang 3

CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH

Báo cáo tài chính là bức chân dung toàn cảnh về tình hình tài chính của một doanh nghiệp, không chỉ kiểm toán viên mà kế toán và chuyên viên phân tích tài chính cũng rất coi trọng và được xem là mối quan tâm hàng đầu của họ Vậy nên, dù không thuộc chuyên ngành Kiểm toán, nhưng chúng em – các sinh viên ngành Tài chính và Kế toán doanh nghiệp, luôn cập nhật, theo dõi các thông tin liên quan đến vấn đề gian lận trong Báo cáo tài chính Nhóm quyết định chọn đề tài

“Ứng dụng khoa học dữ liệu vào phát hiện rủi ro gian lận báo cáo tài chính”, với

mong muốn tiếp cận vấn đề này theo góc độ Kiểm toán kết hợp với kiến thức chuyên ngành và những kiến thức được học trong môn Khoa học dữ liệu Với góc độ này, việc phát hiện rủi ro gian lận trong Báo cáo tài chính sẽ được phân tích rõ ràng và hợp lý hơn

- Bài toán 1 - Liên quan: Thực hiện dự báo về khả năng doanh nghiệp sẽ lợi

dụng các khoản thanh toán của khách hàng để che giấu công nợ nhằm gian lậntrên báo cáo tài chính (bài toán phân lớp) Chuyên ngành Kế toán doanh

nghiệp đòi hỏi tính khách quan, trung thực trong việc trích lập các khoản dự

phòng vì mọi nghiệp vụ phải có cơ sở kèm theo hóa đơn, chứng từ Ở bài toán này, nhóm đã vận dụng các nguyên tắc kế toán cũng như Khoản phải thu khách hàng (TK131) và Dự phòng phải thu khó đòi (TK2293) cùng với các kiến thức tìm hiểu thêm về kiểm toán, làm cơ sở để thực hiện dự báo rủi ro gian lận của các doanh nghiệp Từ đó, bộ phận kế toán có thể vận dụng để đề phòng sự sai lệch và chủ động ngăn chặn gian lận đối với việc ghi nhận thông tin tài sản trong báo cáo tài chính của doanh nghiệp.

- Bài toán 2 - Liên quan gần: Phát hiện công ty gian lận trong nhóm các công

ty cùng tính chất (bài toán phân cụm) Bài toán này liên quan nhiều hơn đối

với chuyên ngành Kiểm toán, vì ngành Kế toán thường làm việc với một hay

rất ít công ty khác nhau nhằm đảm bảo chất lượng công việc Đối với chuyên ngành Tài chính, việc phân dữ liệu của các công ty thành các cụm khác nhau từ những điểm bất hợp lý trong báo cáo tài chính cũng rất cần thiết Qua đó, ta có thể hiểu rõ được tình hình tài chính của các công ty một dễ dàng và thuận tiện hơn giúp bộ phận tài chính đưa ra định hướng hoặc giải pháp đầu tư đúng đắn.

- Bài toán 3 - Liên quan: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận

trong dữ liệu bằng các công cụ thống kê của Orange Với bài toán này, nhóm

vận dụng kiến thức Tài chính và Kiểm toán nhiều hơn qua việc quan sát và

đánh giá các biểu đồ liên quan đến rủi ro gian lận báo cáo Đối với chuyên ngành Tài chính, việc vận dụng các biểu đồ thể hiện sự tương quan giữa các báo cáo, sự chênh lệch tình hình tài chính ở nhiều thời điểm khác nhau là vô cùng quan trọng Vậy nên, kỹ năng phân tích đồ thị rất cần thiết trong việc tìm hiểu và nghiên cứu về lĩnh vực Tài chính doanh nghiệp.

Trang 4

DANH MỤC BẢNG BIỂU, HÌNH ẢNH MINH HỌA

BẢNG BIỂU

Bảng 1.1: Bảng mô tả cấu trúc của bộ dữ liệu về Credit Risk Dataset 9

Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data 10

HÌNH ẢNH Hình 1 1: Biểu đồ: Tam giác gian lận của Cressey (1953) 2

Hình 1 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm toántrong năm 2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng) 4

Hình 2 1: Minh họa phương pháp Phân lớp dữ liệu (Classification) 11

Hình 2 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression) 13

Hình 2 3: Minh họa Phân loại theo 2 nhóm 13

Hình 2 4: Mô hình phương pháp SVM (Support Vector Machine) 15

Hình 2 5:Sơ đồ mô hình sử dụng phương pháp SVM (Support Vector Machine) 15

Hình 2 6:Minh họa phương pháp Cây quyết định (Decision Tree) 16

Hình 2 7: Sơ đồ mô hình sử dụng phương pháp Cây quyết định (Decision Tree) 17

Hình 2 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering) 18

Hình 2 9: Kết quả phân cụm của thuật toán kmeans 20

Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree 21

Hình 2.11: Mô tả xử lý những dữ liệu bị mất 24

Hình 2 12: Mô tả phân tách thành bộ dữ liệu huấn luyện 70% 25

Hình 2.13: Mô tả phân tách thành bộ dữ liệu dự báo 30% 25

Hình 2.14: Mô hình dự báo ở bài toán 1 28

Hình 2.15: Kết quả đánh giá bài toán 1 theo Hồi quy Logistic (Logistic Regression) 29

Hình 2.16: Kết quả đánh giá bài toán 1 theo Cây quyết định (Decision Tree)30Hình 2.17: Kết quả đánh giá bài toán 1 theo SVM (Support Vector Machine)30Hình 2 18: Kết quả đánh giá bài toán 1 qua Test and Score và quyết định chọn phương pháp nghiên cứu 31

Hình 2 19: Kết quả nghiên cứu của bài toán 1 32

Trang 5

Hình 2 20: Kiểm tra mức độ chính xác của dự báo bằng công cụ Excel 33

Hình 2 21: Tổng quan mô hình Decision Tree qua Tree Viewer 33

Hình 2 22: Minh họa xây dựng mô hình bài toán 2 36

Hình 2 23: Minh họa kết quả phân loại K-Means sau khi chạy mô hình 36

Hình 2 24: Minh họa đánh giá kết quả 37

Hình 2 25: Minh họa kết quả phân cụm 37

Hình 2 26: Bảng dữ liệu kết quả phân cụm 38

Hình 2 27:Biểu đồ: Kết quả phân cụm theo thuộc tính Numbers 38

Hình 2 28: Biểu đồ: Kết quả phân cụm theo thuộc tính Money_Value 39

Hình 2 29: Biểu đồ: Kết quả phân cụm theo thuộc tính Total 39

Hình 2 30: Kết quả phân cụm được tổng hợp trên Feature Statistics 40

Hình 2 31: Minh họa xây dựng mô hình bài toán 3 41

Hình 2 32: Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt A 42

Hình 2 33:Biểu đồ : Sự chênh lệch được phát hiện trong báo cáo cuộc điều tra và báo cáo tóm tắt B 42

Hình 2 34:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo A 43

Hình 2 35:Sự tương quan giữa giá trị rủi ro và sự khác biệt trong báo cáo B 43

Hình 2 36:Biểu đồ: Chỉ số chênh lệch khác biệt trong quá khứ 44

Hình 2 37:Biểu đồ: Chỉ số liên quan đến sai sót về tiền 45

Hình 2 38:Tổng số lượng khác biệt của các báo cáo khác 45

Hình 2 39:Bỏ qua các thuộc tính ngoại trừ Audit Risk 46

Hình 2 40:Lọc đối tượng Audit_Risk với giá trị lớn hơn 1 46

Hình 2 41:Bảng minh họa kết quả Risk khi Audit Risk lớn hơn 1 47

Hình 2 42:Bảng tổng hợp biểu đồ Inherent_Risk, CONTROL_RISK, Detection_Risk và Audit_Risk theo biến phụ thuộc Risk 47

Trang 6

MỤC LỤ

PHẦN I: KHÁI QUÁT ĐỒ ÁN -1

1 Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay -1

1.1 Báo cáo tài chính -1

1.1.1 Khái niệm Báo cáo tài chính -1

1.1.2 Hệ thống báo cáo tài chính -1

1.2 Gian lận và sai sót trong báo cáo tài chính -2

1.2.1 Khái niệm -2

1.2.2 Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mô hình Tam giác gian lận -2

1.2.3 Những hình thức gian lận báo cáo tài chính phổ biến -3

1.2.4 Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam3 1.2.5 Yêu cầu của kế toán và kiểm toán viên đối với gian lận và sai sót trong Báo cáo tài chính -4

2 Lý do chọn đề tài -6

3 Mục tiêu nghiên cứu -7

4 Đối tượng nghiên cứu -7

5 Mô tả dữ liệu và cấu trúc dữ liệu -8

PHẦN II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ -11

1 Các phương pháp dự đoán và quy trình cụ thể -11

1.1 Phân lớp dữ liệu (Classification) -11

Trang 7

Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng các khoản thanh toán của khách hàng, từ đó che giấu công nợ nhằm gian lận

trên báo cáo tài chính. -26

a) Mô tả bài toán -26

b) Các kiến thức chuyên ngành liên quan đến bài toán -27

c) Xây dựng mô hình và đánh giá kết quả -27

d) Kết quả dự báo -32

Bài toán 2: Phát hiện công ty gian lận trong nhóm các công ty cùng tính chất -35

a) Mô tả bài toán và tiền xử lý dữ liệu: -35

b) Các kiến thức chuyên ngành liên quan đến bài toán: -35

c) Xây dựng mô hình và đánh giá kết quả: -36

Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong dữ liệu -41

PHẦN III: KẾT QUẢ VÀ KẾT LUẬN -48

1 Đánh giá các kết quả đạt được -48

2 Kết luận tổng quan về đề tài -48

3 Những hạn chế: -50

4 Giải pháp/ đề xuất hạn chế gian lận trong báo cáo tài chính: -50

PHẦN IV: TÀI LIỆU THAM KHẢO -52

Trang 8

PHẦN I: KHÁI QUÁT ĐỒ ÁN

1 Cơ sở lý luận về nghiên cứu gian lận trong báo cáo tài chính của các doanh nghiệp hiện nay

1.1 Báo cáo tài chính

1.1.1 Khái niệm Báo cáo tài chính

- Báo cáo tài chính là“một tập hợp gồm nhiều báo cáo do doanh nghiệp cung cấp, cho biết thông tin về tình trạng tài chính, kết quả hoạt động và luồng tiền của doanh nghiệp nhằm giúp những đối tượng bên ngoài như nhà đầu tư, chủ nợ và những đối tượng khác có thông tin để thực hiện quyết định kinh tế của mình.”

- Tại Việt Nam, Báo cáo tài chính là “hệ thống thông tin kinh tế tài chính được đơn vị kế toán cung cấp và trình bày theo mẫu biểu quy định tại Chuẩn mực kế toán (VAS) và Chế độ kế toán Việt Nam”.

1.1.2 Hệ thống báo cáo tài chính

Hệ thống BCTC của các đơn vị kế toán thuộc hoạt động kinh doanh baogồm:

- Báo cáo tình hình tài chính (Bảng cân đối kế toán): Báo cáo tài chính

tổng hợp, thể hiện thông tin về Tài sản và nguồn hình thành nên tài sản (Nguồn Vốn) của đơn vị tại một thời điểm nhất định.

- Báo cáo kết quả hoạt động kinh doanh:  Báo cáo tài chính phản ánh

một cách tổng quát về tình hình và kết quả hoạt động của doanh nghiệp đó (bao gồm kết quả hoạt động kinh doanh thông thường và các kết quả khác) trong một thời kỳ nhất định.

- Báo cáo lưu chuyển tiền tệ: Báo cáo tài chính phản ánh việc hình thành

và sử dụng lượng tiền theo các hoạt động khác nhau trong một thời kỳ nhất định.

1

Trang 9

- Bản thuyết minh báo cáo tài chính: Một bộ phận của BCTC, cung cấp

thông tin bổ sung cho những báo cáo tài chính khác và cung cấp thêm những thông tin cần thiết khác theo yêu cầu của Chuẩn mực kế toán

1.2 Gian lận và sai sót trong báo cáo tài chính1.2.1 Khái niệm

Theo như Chuẩn mực kiểm toán Việt Nam (VSA 240), Gian lận được xem

là hành vi cố ý do một cá nhân hay tập thể trong Ban quản trị, Ban Giám đốc, những nhân viên hoặc do bên thứ ba thực hiện bằng những hành vi gian dối nhằm thu lợi bất chính về cho bản thân hoặc có hành vi bất hợp pháp.

1.2.2 Nguyên nhân dẫn đến gian lận trong báo cáo tài chính – Mô hình Tam giác gian lận

Năm 1950, ông Donald Cressey thực hiện nghiên cứu về vấn đề “gian lận,tham ô và biển thủ” bằng cách phỏng vấn khoảng 200 tội phạm kinh tế Từ

đó đưa ra kết luận rằng hành vi phạm tội được hình thành từ 3 yếu tố:

“Động cơ – Cơ hội – Sự biện minh.”

Hình 1 1: Biểu đồ: Tam giác gian lận của Cressey (1953)

Trang 10

- Động cơ/ Áp lực:  Áp lực khi gặp các khó khăn gặp phải về mặt tài

chính; áp lực về lợi ích kinh tế có thể đạt được, hay phải hoàn thành được những chỉ tiêu mà doanh nghiệp đã đề ra nhằm duy trì chiều hướng phát triển tốt trước những cổ đông, chủ sở hữu cũng như công chúng có quan tâm đến doanh nghiệp, từ đó thu hút vốn đầu tư; Doanh nghiệp muốn giảm bớt gánh nặng thuế; Cải thiện tình hình sản xuất kinh doanh, tạo cho các chủ nợ (ngân hàng, người cho vay) niềm tin về triển vọng phát triển của doanh nghiệp để thu hút nguồn vốn.

- Cơ hội: Cơ chế kiểm soát lỏng lẻo, thiếu chặt chẽ; Cá nhân có một vị trí

đáng tin cậy và hiểu rõ những khuyết điểm cụ thể của bộ phận kiểm soát nội bộ;

- Sự biện minh: Một số cá nhân có thái độ, tính cách hoặc hệ thống các

giá trị đạo đức sai lệch (tham lam, xem thường pháp luật, ), điều này cho phép họ thực hiện một hành vi gian lận một cách cố ý Họ luôn biết cách biện hộ để hợp lý hóa hành vi gian lận của mình.

1.2.3 Những hình thức gian lận báo cáo tài chính phổ biến

-  Ghi nhận doanh thu, lợi nhuận ảo -  Che giấu công nợ và các khoản chi phí -  Định giá sai tài sản

-  Ghi nhận sai thời điểm, sai niên độ

-  Tăng vốn ảo thông qua việc lạm dụng các công ty con -  Thực hiện các cuộc giao dịch khống

-  Thiếu sót trong việc khai báo thông tin

1.2.4 Thực trạng gian lận trong báo cáo tài chính hiện nay tại Việt Nam

Ngày nay, từ khóa “gian lận” đang được xem là một chủ đề “nóng hổi” mà các doanh nghiệp, chính phủ và nhà đầu tư luôn chú ý và quan tâm tới Trong những năm gần đây, các tin tức về hàng loạt vụ gian lận báo cáo tài chính bị “phanh phui” khiến cộng đồng nhà đầu tư lo lắng, e ngại về tính xác thực và đáng tin cậy của các báo cáo tài chính được cung cấp bởi các

3

Trang 11

doanh nghiệp, khi mà càng ngày càng có sự cách biệt lớn trong kết quả kinh doanh, chuyển từ lãi sang lỗ nặng sau khi thực hiện kiểm toán.

Hình 1 2: Biểu đồ: 11 doanh nghiệp có lãi chuyển thành lỗ sau kiểm toán trong năm2022 (Nguồn: Vietstock) (Đvt: Tỷ đồng)

Các doanh nghiệp thường đưa ra nhiều lời giải trình cho hiện tượng sai lệch nghiêm trọng trong báo cáo tài chính của mình bằng nhiều lí do khác nhau như: Thiếu khoản ghi nhận trích lập dự phòng; sự yếu kém, thiếu cẩn trọng của bộ phận kế toán; sự khác biệt trong phương thức kế toán giữa doanh nghiệp và kiểm toán;… Nhưng dù là lí do gì thì điều này vẫn gây nên tổn thất nặng nề đối với lợi ích của các nhà đầu tư, tạo cho họ tâm lý hoang mang, thiếu an toàn khi bước vào thị trường đầu tư Đây là một thực trạng đáng e ngại và cần có những biện pháp ngăn chặn để đảm bảo sự phát triển của nền kinh tế.

1.2.5 Yêu cầu của kế toán và kiểm toán viên đối với gian lận và sai sót trong Báo cáo tài chính

Kế toán và kiểm toán viên là hai đối tượng làm việc trực tiếp với báo cáo tài chính Vậy nên, cả hai vị trí kế toán và kiểm toán đều cần có sự đồng nhất, hợp tác với nhau trong việc chịu trách nhiệm và phát hiện ra những sai sót và gian lận trong Báo cáo tài chính.

Trang 12

IFAC (Liên đoàn Kế toán Quốc tế) nêu rõ các nguyên tắc cơ bản cho người

hành nghề kế toán chuyên nghiệp và kiểm toán là “sự chính trực; tínhkhách quan; năng lực chuyên môn; tính cẩn trọng; tính bảo mật; cáchhành xử chuyên nghiệp”.

- Sự chính trực: Thẳng thắn, trung thực, tách bạch rõ ràng các mối quan

hệ chuyên môn và kinh doanh Nghiêm túc tuân thủ các qui định của pháp luật và các nguyên tắc nghề nghiệp về gian lận và sai sót trong báo cáo tài chính.

- Tính khách quan: Công bằng, nghiêm minh, không thiên vị hay để bất

kỳ xung đột lợi ích nào chi phối những xét đoán chuyên môn liên quan đến hoạt động kinh doanh.

- Năng lực chuyên môn: Có nền tảng tốt và luôn ý thức duy trì những kiến

thức chuyên ngành và khả năng chuyên môn ở mức cần thiết nhằm đảm bảo tốt chất lượng của báo cáo tài chính và các công việc được giao ở mọi thời điểm Bên cạnh đó, thường xuyên cập nhật các chuẩn mực mới về trình bày báo cáo tài chính cũng như phát hiện gian lận trong báo cáo tài chính.

- Tính cẩn trọng: Cẩn thận, kịp thời, kỹ lưỡng và có trách nhiệm với các

yêu cầu của công việc, đặc biệt là đối với các thông tin được ghi nhận trong báo cáo tài chính.

- Tính bảo mật: Phải có quy tắc bảo mật thông tin từ các mối quan hệ

chuyên môn và kinh doanh (khách hàng, nội bộ doanh nghiệp,…) cả trong và ngoài môi trường làm việc, trừ khi có sự yêu cầu giải trình của pháp luật, các cơ quan quản lý hoặc tổ chức nghề nghiệp.

- Tư cách nghề nghiệp: Tuân thủ pháp luật và các quy định có liên quan.

Tránh những hành động thiếu chuyên nghiệp làm giảm uy tín nghề nghiệp của mình (Cường điệu về công việc, trình độ, kinh nghiệm; đưa thông tin sai lệch, so sánh tiêu cực gây ảnh hưởng xấu đến nghề nghiệp;…) Đặc biệt, phải có tinh thần cầu tiến, hợp tác, tránh gây ra các mâu thuẫn, xung đột giữa kế toán và kiểm toán viên trong công tác kiểm soát và sửa chữa khi có sai sót, gian lận báo cáo tài chính.

5

Trang 13

2 Lý do chọn đề tài

Trong bối cảnh ngày nay, báo cáo tài chính là rất quan trọng và cần thiết để các nhà quản lý, những nhà đầu tư, nhà cung cấp, các cơ quan quản lý,… đưa ra được quyết định sáng suốt nhằm giảm thiểu rủi ro và tối đa hóa lợi nhuận nhận được Báo cáo tài chính mang đến một cái nhìn tổng quát về tình hình kinh doanh của doanh nghiệp, từ đó giúp chủ doanh nghiệp đánh giá được khả năng kinh doanh cũng như những vấn đề tiềm tàng cần được xử lý kịp thời, cũng như căn cứ vào các thông tin đã được báo cáo để điều hành các hoạt động kinh doanh diễn ra theo đúng tiến độ Bên cạnh đó, dựa vào báo cáo tài chính mà các nhà đầu tư cũng như chủ nợ của doanh nghiệp có thể phán đoán được khả năng sinh lời và tín dụng của doanh nghiệp Đồng thời, thể hiện rõ về tình hình vốn của doanh nghiệp cũng như nguồn vốn này đến từ đâu và khả năng sử dụng như thế nào, nhờ đó doanh nghiệp trở nên linh hoạt và kiểm soát tình hình sử dụng vốn tốt hơn.

Báo cáo tài chính phản ánh sức khỏe của một doanh nghiệp, báo cáo tài chính càng minh bạch doanh nghiệp càng phát triển vững mạnh Tuy nhiên, tình hình gian lận báo cáo tài chính trên thế giới đang lan rộng và trở nên nghiêm trọng hơn, gây ảnh hưởng lớn đến doanh nghiệp cũng như những nhà đầu tư Đối với những đất nước có thị trường vốn thì việc gian lận báo cáo tài chính sẽ tác động lớn đến sự tin tưởng của những người đang quan tâm đến thông tin của thị trường trên.

Nhận thức được những ảnh hưởng tiêu cực mang lại, tại Việt Nam thì Bộ

tài chính đã ban hành chuẩn mực kiểm toán số 240 (VSA 240) ban hành

năm 2001 về trách nhiệm của kiểm toán viên liên quan đến gian lận trong quá trình kiểm toán báo cáo tài chính Trong đó, gian lận là một khái niệm pháp lý tương đối rộng, nên kiểm toán viên chỉ quan tâm đến những gian lận dẫn đến sai sót trọng yếu Mục tiêu cuối cùng của kiểm toán viên và các công ty kiểm toán trên thế giới là tìm và đánh giá rủi ro có sai sót trọng yếu trong báo cáo tài chính do hành vi gian lận gây ra, từ đó thu thập toàn bộ những bằng chứng kiểm toán phù hợp về những rủi ro có sai sót trọng yếu do gian lận đã được đánh giá Thế nhưng quá trình áp dụng các chuẩn mực trên vào thực tế vẫn còn gặp nhiều khó khăn.

Trang 14

Những tác động xấu mà gian lận báo cáo tài chính gây ra là vô cùng nghiêm trọng Đối với nhà đầu tư cũng như chủ nợ, họ sẽ khó phán đoán được khả năng sinh lời, thanh toán của doanh nghiệp, dẫn đến rủi ro và dễ dàng bị trục lợi từ chính doanh nghiệp mà mình tin tưởng Không chỉ vậy, các cơ quan quản lý như cơ quan thuế sẽ khó kiểm soát được các khoản phải thu như tiền thuế khi doanh nghiệp đó báo cáo thấp hơn khoản lợi nhuận mà họ nhận được dẫn đến thuế phải nộp cũng giảm đi Hay che giấu công nợ và chi phí làm giảm đi các khoản phải chi của doanh nghiệp, cũng như không ghi nhận các khoản dự phòng dẫn đến nâng khống giá trị tài sản khiến chủ nợ đánh giá sai về tính thanh khoản của doanh nghiệp.

Do đó, gian lận báo cáo tài chính là vấn đề mang tính cấp thiết có ảnh hưởng đến không chỉ mỗi cá nhân đang tham gia vào hoạt động kinh doanh, đầu tư, tài chính mà còn đối với cả một nền kinh tế vĩ mô Do đó, trong thực tiễn cần có sự nghiên cứu cẩn thận nhằm đưa ra những bài toán dự báo và phát hiện gian lận trong báo cáo tài chính, để dễ dàng tiếp cận hơn cũng như đưa ra phán đoán về mức độ gian lận dựa trên các sai sót mang tính trọng yếu.

3 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu của nhóm em sẽ thông qua 3 bài toán sau:

- Bài toán 1: Dự báo về khả năng mà một doanh nghiệp sẽ lợi dụng các khoản thanh toán của khách hàng từ đó che giấu công nợ nhằm gian lận trên báo cáo tài chính.

- Bài toán 2: Phát hiện sự gian lận của một doanh nghiệp trong những nhóm doanh nghiệp có cùng tính chất.

- Bài toán 3: Phát hiện những điểm đặc thù dễ lợi dụng để gian lận trong dữ liệu

7

Trang 15

4 Đối tượng nghiên cứu

Đối tượng nghiên cứu của nhóm là những sự sai sót mang tính trọng yếu trong gian lận báo cáo tài chính của những doanh nghiệp có cùng tính chất với nhau.

5 Mô tả dữ liệu và cấu trúc dữ liệu

Những dữ liệu mà nhóm sử dụng để phân tích được thu thập từ các trang web sau đây:

Credit Risk Dataset (kaggle.com)

Tập dữ liệu này chứa các cột mô phỏng dữ liệu của phòng tín dụng về thông tin của các khách hàng, các khoản vay, khả năng thanh toán và rủi ro tín dụng của những khách hàng trên Qua đó, giúp kiểm soát tốt các khoản phải thu cũng như dự đoán được khả năng gian lận trên báo cáo tài chính của doanh nghiệp có liên quan.

Bộ dữ liệu trong một năm từ 2015 đến 2016 của các công ty được thu thập từ Văn phòng Kiểm toán tại Ấn Độ để xây dựng công cụ dự đoán nhằm phân loại các công ty đáng ngờ Mục tiêu của nghiên cứu là giúp kiểm toán viên xây dựng mô hình phân loại có thể dự đoán công ty gian lận dựa trên những yếu tố rủi ro ở thời điểm hiện tại và đã xảy ra trong quá khứ.

Credit Risk Dataset

person_age Độ tuổi của từng khách hàng Số nguyên person_income Thu nhập hàng năm của khách

Trang 16

loan_status Tình trạng khoản vay tại ngân

Bảng 1.1: Bảng mô tả cấu trúc của bộ dữ liệu về Credit Risk Dataset

Audit Risk Data

Sector_score Giá trị điểm rủi ro lịch sử của

Trang 17

PARA_A Sự khác biệt được tìm thấy trong báo cáo của A

Số không nguyên

PARA_B Sự khác biệt được tìm thấy trong báo cáo của B

Số không nguyên

TOTAL Tổng số lượng chênh lệch được tìm thấy ở những báo cáo khác

Số không nguyên

Numbers Những khác biệt trong lịch sử Số thực

District_Loss Dữ liệu mà quận đó mất đi Số thực

CONTROL_RI SK

Audit Risk = Inherent Risk x Control Risk x Detection Risk (%)

Bảng 1.2: : Bảng mô tả cấu trúc của bộ dữ liệu về Audit Risk Data

Trang 19

PHẦN II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ 1 Các phương pháp dự đoán và quy trình cụ thể

1.1 Phân lớp dữ liệu (Classification)

- Phân lớp dữ liệu (Classification):“Là cách dùng để khai thác dữ liệu của các mục được chỉ định trong một tập hợp lớn các danh mục hoặc lớp Mục tiêu để dự đoán chính xác các lớp mục tiêu cho mỗi trường hợp trong tập hợp.”

Trong Phân lớp dữ liệu, một chương trình học từ một tập dữ liệu hoặc các quan sát nhất định, sau đó phân loại các quan sát mới thành các lớp hoặc nhóm Các lớp có thể được gọi là mục tiêu/ nhãn hoặc danh mục "

Không giống như Hồi quy, biến đầu ra của Phân lớp dữ liệu là một danh mục, không phải giá trị, chẳng hạn như "Xanh lục hoặc Xanh lam", "Trái cây hoặc Động vật", Vì Phân lớp là một kỹ thuật học có giám sát, vì vậy nó chứa đầu vào với đầu ra tương ứng.”

Trong thuật toán phân lớp dữ liệu, hàm đầu ra rời rạc y được ánh xạ tới biến đầu vào x.”

Hình 2 1: Minh họa phương pháp Phân lớp dữ liệu (Classification)

Trang 20

Ví dụ: Một mô hình phân loại được sử dụng để xác định những người xin

vay là rủi ro tín dụng thấp, trung bình hoặc cao.”

Phân lớp dữ liệu có 2 loại:

+ Phân loại nhị phân: Nếu vấn đề phân loại chỉ có hai kết quả có

thể xảy ra.”

Ví dụ: CÓ hoặc KHÔNG, NAM hay NỮ, SPAM hoặc KHÔNG

SPAM, CHÓ hoặc MÈO,

Ví dụ: Xác định xem sản phẩm đó được sản xuất ra đã đạt đủ tiêu

chuẩn để có thể bán chưa, hay nhà máy nên loại bỏ nó (các thuộc tính để phân loại là tính đủ tốt).

+ Phân loại nhiều nhãn: Nếu một bài toán phân loại có nhiều hơn

hai kết quả.

Ví dụ: Phân loại các loại cây trồng, phân loại các loại âm nhạc.

- Hồi quy logistic (Logistic Regression): Là phương pháp phân lớp dựa

trên xác suất; là một mô hình hồi quy nhằm dự đoán giá trị đầu ra rời rạc (discrete target variable) ứng với một vectơ đầu vào x.

Đây là một mô hình đơn giản (dễ diễn giải kết quả, huấn luyện đơn giản, dễ cài đặt), không cần thông tin để phân phối của các lớp trong không gian đặc trưng, phân lớp nhanh Tuy nhiên, nó chỉ áp dụng với biến phụ thuộc rời rạc

13

Trang 21

Hình 2 2: Minh họa phương pháp Hồi quy logistic (Logistic Regression)

Ví dụ: Để xem một bức ảnh có chứa một con thỏ hay không Ở đây ta đặt

đầu ra với  y = 1 nếu bức ảnh có một con thỏ và y = 0 nếu bức ảnh không có con thỏ nào Đầu vào x ở đây sẽ là các pixel với một bức ảnh đầu vào.

Hình 2 3: Minh họa Phân loại theo 2 nhóm

Hồi quy logistic có thể được phân thành ba loại:

Trang 22

+ Nhị thức: Trong Hồi quy logistic nhị thức, chỉ có thể có hai loại

biến phụ thuộc.

Ví dụ: Thắng hoặc Thất bại,

+ Đa thức: Trong Hồi quy logistic đa thức, có thể có 3 hoặc nhiều

loại biến phụ thuộc không có thứ tự.

Ví dụ: "Mèo", "Chó" hoặc "Cừu"

+ Thứ tự: Trong Hồi quy logistic thứ tự, có thể có 3 loại biến phụ

thuộc được sắp xếp theo thứ tự trở lên.

Ví dụ: "Thấp", "Trung bình" hoặc "Cao".

- Phương pháp SVM (Support Vector Machine): Là một thuật toán học

có giám sát, mô hình sẽ tiếp nhận những dữ liệu đầu vào và xem các dữ liệu này là những vector trong không gian, sau đó phân chia chúng vào những lớp khác nhau từ việc xây dựng nên siêu phẳng trong không gian đa chiều để làm mặt phân cách cho những lớp dữ liệu

Nếu muốn có được kết quả phân lớp một cách tối ưu thì chúng ta cần phải xác định được siêu phẳng (hyperplane) và đồng thời có khoảng cách tới những điểm dữ liệu (margin) ở tất cả những lớp xa nhất có thể đạt đến được SVM sở hữu khả năng phân lớp nhanh và tiết kiệm bộ nhớ Đây được xem như một công cụ hỗ trợ tối ưu và thường được áp dụng vào những bài toán chuyên về việc xử lý hình ảnh, cũng như phân tích các quan điểm Nhờ vào việc sử dụng Kernel function đã góp phần giúp những phương pháp chuyển không gian này trở nên linh hoạt hơn so với trước kia Tuy nhiên, khi đối mặt với kho dữ liệu lớn hay số chiều lớn hơn số mẫu dữ liệu huấn luyện thì trở nên kém hiệu quả, nhạy cảm với nhiễu hoặc thiếu thông tin xác suất phân lớp.”

15

Trang 23

Hình 2 4: Mô hình phương pháp SVM (Support Vector Machine)

Ví dụ: Giả sử chúng ta thấy một con mèo cũng có một số đặc điểm của chó, vì vậy nếu chúng ta muốn một mô hình có thể xác định chính xác đó là mèo hay chó thì có thể tạo mô hình sử dụng thuật toán SVM Khi vectơ hỗ trợ tạo ranh giới quyết định giữa hai dữ liệu này (mèo và chó) và chọn các trường hợp cực đoan (vectơ hỗ trợ), nó sẽ thấy trường hợp cực đoan của mèo và chó Trên cơ sở các vectơ hỗ trợ, nó sẽ phân loại đó là một con mèo.

Trang 24

Hình 2 5:Sơ đồ mô hình sử dụng phương pháp SVM (Support Vector Machine)

SVM có hai loại:

SVM tuyến tính: Thường được áp dụng cho những dữ liệu có thể phân

tách tuyến tính, điều này đồng nghĩa rằng nếu tập dữ liệu đó có thể được phân loại thành hai lớp nhờ vào việc sử dụng một đường thẳng, thì những dữ liệu này sẽ được xem như những dữ liệu có thể phân tách tuyến tính.

SVM phi tuyến tính: Trái ngược với SVM tuyến tính, mô hình thường

được áp dụng cho những dữ liệu được phân tách phi tuyến tính.

- Phương pháp Cây quyết định (Decision Tree): Trong lĩnh vực quản trị,

Cây quyết định được xem là đồ thị biểu diễn những quyết định đi kèm với các kết quả có thể xảy ra nhằm giúp trong quá trình đưa ra quyết định Ngoài ra, trong khai thác dữ liệu, Cây quyết định còn là phương pháp giúp mô tả, phân loại và đồng thời tổng quát hóa những dữ liệu đã được cho trước đó.

Với hình thức dễ dàng tiếp cận và không yêu cầu cao về quá trình chuẩn hóa dữ liệu, nó giúp xử lý trong đa dạng kiểu kiến thức và xử lý một cách hiệu quả lượng  dữ liệu tương đối lớn chỉ trong một khoản thời gian ngắn Bên cạnh đó, vẫn còn những hạn chế trong việc xử lý tình huống với các dữ liệu do thời gian và chi phí để xây dựng mô hình trên vẫn còn khá cao.

Hình 2 6:Minh họa phương pháp Cây quyết định (Decision Tree)

17

Trang 25

Ví dụ: Hãy tưởng tượng rằng bạn đang cố gắng đánh giá xem mình có nên

đi lướt sóng hay không, bạn có thể sử dụng các quy tắc quyết định sau để đưa ra lựa chọn cho mình.

Hình 2 7: Sơ đồ mô hình sử dụng phương pháp Cây quyết định (Decision Tree)

Các kiểu Cây quyết định:

Cây hồi quy: Là phương pháp ước lượng dành cho những hàm

giá mang giá trị là số thực thay vì được áp dụng cho những công việc mang tính chất phân loại như những phương pháp khác.

Ví dụ: Để ước tính trị giá phải trả của một căn chung cư cao cấp

hoặc thời gian để xây dựng xong một ngôi trường.

Cây phân loại: Với điều kiện y là một biến phân loại như: vay

vốn (nên vay hay không nên vay), quyết định mua hàng (có hay không).

1.2 Phân cụm dữ liệu

- Phân cụm dữ liệu (Clustering): Là quá trình gom cụm hoặc gom nhóm

những đối tượng hay những dữ liệu có đặc điểm tương đồng với nhau vào cùng một nhóm hoặc vào các cụm tương ứng Do đó, sự tương đồng giữa những phần tử trong cùng một cụm; sẽ khác biệt với những phần tử trong các cụm khác.

Trang 26

Hình 2 8: Minh họa phương pháp Phân cụm dữ liệu (Clustering)

Phân tích cụm là một quy trình linh hoạt với nhiều loại khác nhau có thể được ứng dụng tùy thuộc vào nhu cầu cụ thể của một nhiệm vụ Dưới đây là một số loại phân tích cụm phổ biến:

+ Phân cụm phân vùng: Kiểu phân cụm này chia dữ liệu thành một

tập hợp các cụm loại trừ lẫn nhau Phương pháp nổi tiếng nhất trong danh mục này là thuật toán phân cụm K-Means.

+ Phân cụm theo cấp bậc: Kiểu phân cụm này tạo ra một cây cụm.

Phân cụm theo cấp bậc không chỉ phân cụm dữ liệu mà còn xây dựng một hệ thống phân cấp các cụm, giống như cấu trúc cây nhị phân

Phân cụm theo cấp bậc có 2 hướng: Hội tụ (Bottom-Up) và Phân chia (Top-Down).

+ Phân cụm theo mật độ: Các loại thuật toán sẽ tìm kiếm các khu

vực trong không gian đặc trưng nơi có mật độ quan sát cao Nổi tiếng nhất trong số đó là DBSCAN.

19

Trang 27

+ Phân cụm theo lưới: Thuật toán lượng tử hóa không gian thành

một số lượng ô hữu hạn tạo hình thành nên cấu trúc lưới và thực hiện hầu hết những hoạt động phân cụm trên cấu trúc lưới thu được Điểm cộng lớn nhất là thời gian xử lý nhanh, thường phụ thuộc vào số lượng ô trong mỗi chiều không gian lượng tử hóa.

+ Phân cụm dựa trên mô hình: Đưa ra giả thuyết về một mô hình

cho từng cụm và tìm ra dữ liệu phù hợp nhất với mô hình nhất định Ưu điểm là mô hình cung cấp một khung xác suất để ước tính các đặc điểm của quá trình tạo ra dữ liệu.

Ví dụ: Mô hình hỗn hợp Gaussian và thuật toán Tối đa hóa kỳ vọng.

+ Phân cụm không gian con: Trong phân cụm tiêu chuẩn, một đối

tượng thuộc về chính xác một cụm Nhưng đối với trong phân cụm không gian con, một đối tượng có thể thuộc về nhiều cụm và mỗi cụm được liên kết với một tập hợp con của các thứ nguyên Kiểu phân cụm này đặc biệt hữu ích cho dữ liệu đa chiều mà trong đó mỗi chiều đại diện cho một tính năng của dữ liệu.

- Đặc điểm Phân cụm dữ liệu:

 Số cụm dữ liệu không được biết trước vì vậy việc phân cụm dữ liệu thuộc nhóm học Không giám sát (Unsupervised Learning)  Gồm nhiều cách tiếp cận và mỗi một cách sẽ có một vài kỹ thuật.

Những kỹ thuật khác nhau sẽ thường cho ra kết quả không giống nhau.

- Đánh giá mô hình phân cụm:

+ Một điểm cộng của phân cụm phân lớp là chúng ta không nhất thiết phải xác định trước số lượng cụm do đó tối ưu hơn so với việc dùng K-Means Thế nhưng, nó vẫn sẽ có khuyết điểm đó là không thể xử lý tốt được với số lượng dữ liệu quá lớn.

Trang 28

+ Bên cạnh đó, phân cụm phân lớp còn có thể được ứng dụng vào việc xác định, cũng như dự báo số cụm trước khi bắt đầu chạy thuật toán K-Means ngay sau đó.

Thuật toán K-Means: Là một phương pháp được sử dụng trong phân tíchtính chất cụm của dữ liệu Trong đó 'K' đề cập đến số lượng cụm được chỉđịnh trước Thuật toán phân cụm K-Means sẽ thường được dùng nhiều ởnhững máy hỗ trợ trong việc tìm kiếm, phân loại khách hàng ở các doanhnghiệp, cũng như thống kê lại những dữ liệu đã có trước đó,…

Hình 2 9: Kết quả phân cụm của thuật toán kmeans

- Ý tưởng chính của thuật toán K-Means:  mỗi một đối tượng trong tập

dữ liệu được coi là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng)

 Bước 1: Loại bỏ các hàng dữ liệu bị khuyết Đây là bước thuộc bước Tiền xử lý dữ liệu.

 Bước 2: Chọn k điểm bất kỳ làm trung tâm ban đầu của k cụm.21

Trang 29

 Bước 3: Phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất. Nếu những điểm dữ liệu ở mỗi cụm vừa được phân tách không thay đổi so với kết quả của lần phân tách trước nó thì chúng ta nên dừng lại thuật toán trên.

 Bước 4: Cập nhật lại tình hình cho từng cụm, bằng cách lấy trung bình cộng của tất cả những điểm dữ liệu đã được gán vào cụm đó sau khi đã phân tách trên bước 2.

 Bước 5: Quay trở lại bước 2.

- Các bước quy trình của SVM, Logistic Regression và Tree:

+ Bước 1: Nhập dữ liệu cần huấn luyện vào Orange

+ Bước 2: Nối widget dữ liệu huấn luyện và SVM, Tree, Logistic Regression với Test and Score, sau đó nối widget vào Confusion Matrix để bắt đầu quá trình đánh giá kết quả và đánh giá ma trận nhầm lẫn.

+ Bước 3: Sau khi chọn được phương pháp dự báo tốt nhất, nối dữ liệu huấn luyện vào SVM, hoặc Tree, hoặc Logistic Regression Đồng thời nhập dữ liệu dùng để dự báo vào Orange.

Hình 2.10: Minh họa các bước quy trình của SVM, Logistic Regression và Tree

Trang 30

2 Tìm hiểu về dữ liệu

Kaggle và UCI đều là những nguồn thu thập đáng tin cậy được dùng trong học

tập và nghiên cứu, vậy nên nhóm quyết định lựa chọn 2 bộ dữ liệu từ 2 nguồn

này để thực hiện dự án Bộ dữ liệu thứ nhất (Credit Risk Dataset) được sửdụng để giải quyết bài toán 1, bộ dữ liệu còn lại (Audit Risk Data) thì dùng

cho bài toán 2 và 3.

● Lý do lựa chọn 2 bộ dữ liệu khác nhau để thực hiện 3 bài toán là vì :

+ Nhóm muốn đưa ra góc nhìn đa chiều hơn về rủi ro gian lận trong báo cáo tài chính của các doanh nghiệp Nếu chỉ sử dụng bộ dữ liệu Audit Risk Data để thực hiện cả bài toán phân lớp, nhóm chỉ có thể dự báo rủi ro gian lận của các doanh nghiệp một cách chung chung, mà không thể tiếp cận sâu hơn với các trường hợp cụ thể Vậy nên, việc dùng thêm 1 bộ dữ liệu khác liên quan đến rủi ro thanh toán của khách hàng, nhóm có thể phân tích và dự báo hành vi gian lận ở một khía cạnh mới

+ Bên cạnh đó, với các kiến thức liên quan đến chuyên ngành kế toán, tài chính của các thành viên trong nhóm, việc tiếp cận thông tin về các khoản thanh toán nợ sẽ dễ dàng và gần gũi hơn so với kiến thức về các nghiệp vụ kiểm toán.

+ Từ việc ứng dụng cả hai bộ dữ liệu vào giải quyết bài toán đặt ra, ta thấy

được mối tương quan giữa Các khoản thanh toán của khách hàng vớiRủi ro gian lận trong Báo cáo tài chính Từ đó có thể đưa ra kết luận

cuối cùng cho bài Dự án nghiên cứu của nhóm.

2.1 Phân tích dữ liệu:

- Với bộ dữ liệu Audit_risk:

+ Dữ liệu thô chứa 27 hàng (thuộc tính) và 776 (cột)

+ Trong mỗi đối tượng sẽ là một đại diện cho mỗi doanh nghiệp được chọn để cho vào rà soát về những rủi ro gian lận, mỗi thuộc tính đại diện những đặc trưng của từng đối tượng doanh nghiệp

+ Từ bộ dữ liệu, khi xét đến các cột dữ liệu hiển thị những đặc trưng, có 5 thuộc tính chính được tích hợp từ những thuộc tính còn lại và có

23

Ngày đăng: 04/04/2024, 10:26

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w