1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Ứng dụng khoa học dữ liệu vào việc phân tích rủi ro trong gian lận báo cáo tài chính

31 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng khoa học dữ liệu vào việc phân tích rủi ro trong gian lận báo cáo tài chính
Tác giả Phạm Thị Thái Thịnh, Trương Gia Thịnh, Hồ Thị Minh Thư, Nguyễn Ngọc Yến Thuy, Tạ Mỹ Tiên
Người hướng dẫn TS. Nguyễn An Tế
Trường học Đại học UEH, Trường Kinh doanh, Khoa Kế toán
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án cuối kỳ
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 31
Dung lượng 5,05 MB

Cấu trúc

  • CHƯƠNG I TỔNG QUAN DỰ ÁN (6)
    • 1. T ng quan v ổ ề kiể m toán và doanh nghi ệp (6)
      • 1.1. Khái ni m BCTC ệ (0)
      • 1.2. Nghi p v ệ ụ kiể m toán (7)
      • 1.3. Th c tr ng gian l n c a công ty hi n nay ự ạ ậ ủ ệ (0)
    • 2. Lý do ch ọn đề tài (8)
    • 3. M c tiêu nghiên c ụ ứu (0)
    • 4. Đối tƣợng và phạm vi nghiên cứu (0)
      • 4.1. Đối tượng nghiên cứu (9)
      • 4.2. Ph m vi nghiên c u ạ ứ (9)
    • 5. Mô t d u và c u trúc d ả ữ liệ ấ ữ liệu (0)
  • CHƯƠNG II QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ (11)
    • 1. Các phương pháp dự đoán và quy trình cụ thể (11)
      • 1.1. Phân lớp dữ liệu (11)
      • 1.2 Phân cụm dữ liệu (11)
    • 2. Tìm hiểu dữ liêu (12)
      • 2.1 Phân tích dữ liệu và tiền xử lý dữ liệu (12)
      • 2.2 Tiền xử lý dữ liệu (14)
    • 3. BÀI TOÁN 1: PHÁT HI ỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂ N CÁC Y ẾU (15)
      • 3.1. Mô tả bài toán (15)
      • 3.2. Các phương pháp thể hiện đánh giá dữ liệu. - (15)
      • 3.3. Phân tích dữ liệu (15)
      • 3.4. Đánh giá (18)
    • 4. BÀI TOÁN 2: DỰ BÁO NGUY CƠ GIAN LẬ N C A CÁC CÔNG TY D A VÀO Ủ Ự KHẢ NĂNG XẢY RA RỦI RO Ở CÁC BÁO CÁO TÀI CHÍNH (BÀI TOÁN PHÂN LỚP ) (19)
      • 4.1. Mô tả phương pháp (0)
      • 4.2. Quy trình x lý: ử (19)
      • 4.3. Đánh giá kế t qu ả (0)
      • 4.4. K ết quả ự d báo (0)
      • 4.5. Các ki n th c chuyên ngành liên quan ế ứ (23)
    • 5. BÀI TOÁN 3: Phân lo ại các nhóm có nguy cơ gian lậ n báo các tài chính (Bài toán phân cụm) (24)
      • 5.1. Mô t ả phương pháp phân cụ m (Clustering) (24)
      • 5.2. Mô tả phương pháp K-Means (25)
      • 5.3. Quy trình th c hi n bài toán phân c ự ệ ụm (25)
      • 5.4. K ết quả phân lo i K- ạ means (0)
  • CHƯƠNG III: KẾT LUẬN (30)

Nội dung

Viế ệc ngăn chặn và x lý ử các trường hợp gian lận báo cáo tài chính là một trong những nhiệm vụ cấp bách của cả nhà đầu tư và các cơ quan quản lý.. Vì vậy, việc ứng dụng khoa h c dữ liệ

TỔNG QUAN DỰ ÁN

T ng quan v ổ ề kiể m toán và doanh nghi ệp

Theo Khoản 1 Điều 3 Luật K toán s 88/2015/QH13ế ố , định nghĩa báo cáo tài chính như sau: “Báo cáo tài chính là hệthống thông tin kinh t , tài chính cế ủa đơn vị ế toán được trình k bày theo bi u mể ẫu quy định t i chu n m c k toán và chạ ẩ ự ế ế độ ế toán” k Nói cách khác, Báo cáo tài chính là các thông tin kinh tế được kế toán viên trình bày dướ ại d ng b ng bi uả ể Căn cứ vào Chuẩn m c VAS 21 Trình bày Báo cáo tài chính thì mự – ục đích lập báo cáo tài chính như sau: Báo cáo tài chính ph n ánh theo m t c u trúc ch t ch tình hình tài chính, k t qu kinh doanh ả ộ ấ ặ ẽ ế ả của m t doanh nghiộ ệp Mục đích của báo cáo tài chính là cung cấp các thông tin về tình hình tài chính, tình hình kinh doanh và các lu ng ti n c a m t doanh nghiồ ề ủ ộ ệp, đáp ứng nhu c u h u ích ầ ữ cho số đông những ngườ ử ụi s d ng trong việc đưa ra các quyết định kinh t Báo cáo tài chính ế phải cung cấp nh ng thông tin c a m t doanh nghi p v : ữ ủ ộ ệ ề

4 Doanh thu, thu nhập khác, chi phí s n xu t kinh doanh và chi phí khác ả ấ

5 Lãi, lỗ và phân chia k t qu kinh doanh ế ả

Các thông tin này cùng v i các thông tin trình bày trong B n thuy t minh báo cáo tài ớ ả ế chính giúp người sử dụng dự đoán được các luồng tiền trong tương lai và đặc biệt là thời điểm và mức độ chắc ch n c a vi c t o ra các lu ng ti n và các khoắ ủ ệ ạ ồ ề ản tương đương tiền Báo cáo tài chính áp d ng cho tụ ất cả loại hình doanh nghiệp được thành l p và hoậ ạt động theo pháp luật Việt Nam Định kỳ theo thời hạn quy định của Pháp luật về Kế toán, Thống kê, Doanh nghiệp có nghĩa vụ lập và nộp báo cáo tài chính trung thực và chính xác cho các cơ quan nhà nước có thẩm quy n Tùy t ng lo i hình, quy mô doanh nghi p s có th i h n n p báo cáo và sề ừ ạ ệ ẽ ờ ạ ộ ố lượng báo cáo riêng phù hợp Báo cáo tài chính có ý nghĩa quan trọng đố ới v i công tác qu n lý Doanh ả nghiệp cũng như đố ới các cơ quan chủi v quản và các đối tượng khác ngoài doanh nghiệp như nhà đầu tư hoặc người quan tâm Báo cáo tài chính thể hiện đầy đủ các vấn đề như:

 Báo cáo tài chính thể hiện rõ tình hình s n xu t kinh doanh c a doanh nghiả ấ ủ ệp đặc bi t là thông tin v khệ ề ả năng sinh lời, v tình hình biề ến động trong s n xu t kinh doanh ả ấ để người đọc đưa ra các đánh giá về thay đổi tiềm tàng c a các nguồn lực tài chính mà ủ doanh nghi p có th kiệ ể ểm soát trong tương lai, đồng th i dờ ự đoán khả năng tạo ra các ngu n ti n cho doanh nghiồ ề ệp trên cơ sở ệ hi n có và việc đánh giá hiệu qu các ngu n lả ồ ực b sung mà doanh nghi p có th s d ng ổ ệ ể ử ụ

 Thông tin v s biề ự ến động tình hình tài chính c a doanh nghi p: Các chủ ệ ỉ tiêu như tình hình tài s n, ngu n v n, tình hình k t qu hoả ồ ố ế ả ạt động s n xu t kinh doanh, tình ả ấ hình lưu chuyển tiền tệ của doanh nghiệp tại một thời điểm hoặc của một thời kỳ được thể hiện rõ trong báo cáo tài chính

Công vi c c a ki m toán chính là ki m tra, xác minh tính trung th c c a nh ng báo cáo ệ ủ ể ể ự ủ ữ tài chính đó, từ đó giúp cung cấp những thông tin chính xác nhất về tình hình tài chính của tổ chức đó Hay nói cách khác, kiểm toán là quá trình thu thập và đánh giá bằng chứng liên quan đến những thông tin tài chính được kiểm tra (cung cấp bởi kế toán) nhằm xác đinh và báo cáo v mề ức độ phù h p giợ ữa thông tin đó với các chu n mẩ ực đã được thi t l p ế ậ

Có th nói, kiể ểm toán hướng đến r t nhiấ ều đối tượng, những người quan tâm t i tình ớ hình tài chính c a m t tủ ộ ổ chức nào đó nhưng không có nghiệp v v tài chính, kụ ề ế toán; đó là lí do h cọ ần đến nh ng kiữ ểm toán viên để tìm hiểu và đưa ra những đánh giá phù hợp giúp họ có nh ng quyữ ết định đúng đắn nh t ấ

Nghiệp vụ kiểm toán là công vi c ki m tra l i dệ ể ạ ữ liệu và s sách c a k toán có tính xác ổ ủ ế thực và tuân thủ đúng quy định c a pháp luủ ật hay chưa Dựa trên các chứng từ và cơ sở dữ liệu của doanh nghiệp cung cấp, th c hiự ện báo cáo tài chính cho doanh nghiệp… Nhìn chung nghi p v ki m toán s bao g m: l p k ho ch, xây dệ ụ ể ẽ ồ ậ ế ạ ựng chương trình, thu thập thông tin, ghi chép, lập báo cáo

V i hoớ ạt động đó, có thểthấy được hai chức năng chính của kiểm toán, đó là: xác minh tính trung th c và tính pháp ự lý của các báo cáo tài chính Đánh giá bằng việc đưa ra ý kiến v ề tính trung th c và mự ức độ ợ h p lý c a các thông tin tài chính, k toán ủ ế Tư vấn cho các nhà quản lý thông qua vi c ch ra nh ng sai sót và g i m ra nh ng biệ ỉ ữ ợ ở ữ ện pháp để kh c ph c, giúp các ắ ụ công ty hoạt động hi u qu ệ ả hơn.

Gian l n trên BCTC ậ là trường h p các thông tin trên báo cáo tài chính b bóp méo, phợ ị ản ánh không trung th c tình hình tài chính cự ủa doanh nghiệp Tính “không trung thực và hợp lý” của báo cáo tài chính là không đảm bảo tuân thủ các chuẩn mực kế toán thay vì phản ánh thông tin chính xác nh t vấ ề giá tr ị công ty như mong đợ ủa thị trường tài chính i c

Theo Hệ thống chu n m c Ki m toán Vi t Nam s 240: Trách nhi m c a ki m toán ẩ ự ể ệ ố ệ ủ ể viên liên quan đến gian l n trong quá trình ki m toán báo cáo tài chính ậ ể được quy định cụ thể: khi th c hi n ki m toán theo các chu n m c ki m toán Vi t Nam, ki m toán viên ch u trách ự ệ ể ẩ ự ể ệ ể ị nhiệm đạt được sự đảm b o h p lý r ng liả ợ ằ ệu báo cáo tài chính, xét trên phương diện t ng thổ ể, có còn sai sót trọng y u do gian l n hoế ậ ặc nh m lầ ẫn hay không

N u phát hi n có hành vi không tuân th pháp luế ệ ủ ật và các quy định, ki m toán viên phể ải báo cáo nh ng hành vi này vữ ới các cơ quan nhà nước có th m quy n, thông báo vẩ ề ới đại diện chủ ở s hữu của đơn vị được kiểm toán và các đối tượng bên ngoài đơn vị được kiểm toán (nếu có) N u nghi ng có hành vi không tuân th pháp luế ờ ủ ật và các quy định, ki m toán viên phể ải thực hiện các th tủ ục kiểm toán bổ sung để làm rõ nh ng nghi ng này ữ ờ

1.2 Thực trạng gian l n c a công ty hi n nay ậ ủ ệ

Trong n n kinh tề ế thị trường, báo cáo tài chính (BCTC) là m t ngu n cung c p thông tin ộ ồ ấ quan tr ng và không thọ ể thiếu, nh m k t n i doanh nghi p vằ ế ố ệ ới nhà đầu tư, các cơ quan quản lý và các bên liên quan Trên thị trường ch ng khoán, BCTC có vai trò quan trứ ọng, là cơ sở để ạo t ni m tin cho công chúng hề để ọ đưa ra quyết định kinh tế đúng đắn Tuy nhiên, th c t nh ng ự ế ữ năm qua, đã xảy ra nhiều vụ gian lận khi lập BCTC của các doanh nghiệp điển hình như: Công ty Dược Viễn Đông (năm 2011), Công ty Cổ phần Đầu tư khoáng sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Những vụ việc gian lận của các doanh nghiệp này đã làm d y lên nghi ng , lo ng i t phía cấ ờ ạ ừ ổ đông và những đối tượng quan tâm về chất lượng của thông tin trên BCTC

Các công ty thường có xu hướng tăng cường hoạt động kinh doanh để đáp ứng các chỉ tiêu tài chính như doanh thu, lợi nhuận và tăng trưởng Tuy nhiên, để đạt được mục tiêu này, m t sộ ố công ty đã sử ụ d ng những chiêu trò không đạo đức để làm đẹp báo cáo tài chính của mình Các chiêu trò này có th bao g m vi c ghi nh n doanh thu không có th t, ghi nh n sai ể ồ ệ ậ ậ ậ niên độ kế toán hay không khai báo đầy đủ thông tin Để ngăn chặn tình trạng gian lận báo cáo tài chính, các cơ quan quản lý như Ủy ban Chứng khoán và Thị trường Ch ng khoán Viứ ệt Nam đã áp dụng nhi u bi n pháp ki m soát và ề ệ ể xử lý các trường h p vi phợ ạm Ngoài ra, các công ty cũng cần tuân thủ đúng quy trình và tiêu chuẩn k ế toán để đả m bảo tính chính xác và minh bạch của báo cáo tài chính

Tuy nhiên, để giải quyết triệt để ấn đề v này, cần có sự phối hợp giữa các cơ quan quản lý, các công ty và các nhà đầu tư Các công ty cần tự giác và chịu trách nhiệm với việc báo cáo tài chính của mình, trong khi các nhà đầu tư cần có ki n th c và kinh nghiế ứ ệm để đánh giá tính kh ảthi và rủi ro của các khoản đầu tư.

Trong b i c nh kinh t hi n nay, vi c xây d ng m t thố ả ế ệ ệ ự ộ ị trường tài chính minh b ch và ạ đáng tin cậy là r t quan trấ ọng để thu hút đầu tư và phát triển kinh t Viế ệc ngăn chặn và x lý ử các trường hợp gian lận báo cáo tài chính là một trong những nhiệm vụ cấp bách của cả nhà đầu tư và các cơ quan quản lý.

Lý do ch ọn đề tài

Gian l n báo cáo tài chính trên th gi i ngày ậ ế ớ càng gia tăng và trở thành vấn đề nghiêm trọng đối với các doanh nghiệp, chính phủ và các nhà đầu tư Đặc biệt, tại các quốc gia có thị trường v n, gian lố ận báo cáo tài chính đã đe dọa đến niềm tin c a công chúng vào thông tin ủ trên thị trường T i Vi t Nam, hàng lo t các v gian l n báo cáo tài chính c a các công ty niêm ạ ệ ạ ụ ậ ủ y t trên sàn chế ứng khoán đã gây ra tâm lý nghi ngờ cho các nhà đầu tư, ảnh hưởng t i hoớ ạt động c a th ủ ị trường vốn Vì vậy, việc ứng dụng khoa h c dữ liệu vào việc phân tích r i ro trong ọ ủ gian lận báo cáo tài chính để những người quan tâm ti p cế ận và đánh giá chính xác hơn về các báo cáo tài chính

Gian l n BCTC là m t vậ ộ ấn đề nghiêm trọng trong lĩnh vực k toán và tài chính Có ế nhi u hình th c gian lề ứ ận khác nhau và các phương pháp truyền th ng có thố ể không đủ để phát hiện và ngăn chặn được KHDL có khả năng xử lý và phân tích dữ liệ ớu l n, giúp tìm ra nh ng ữ m u t ẫ ổchức có kh ả năng gian lận cao hơn và đưa ra các chỉ ố ủ s r i ro cần được quan tâm KHDL đã phát triển mạnh mẽ trong những năm gần đây và đã được áp dụng thành công trong nhiều lĩnh vực Vi c áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th m ệ ụ ủ ậ ể ở ra nh ng khữ ả năng mới để nâng cao hi u quệ ả và độ chính xác c a quá trình phát hi n gian l n ủ ệ ậ Ngoài ra, BCTC thường ch a các thông tin cứ ấu trúc như số liệu tài chính, số liệu kế toán, cũng như các thông tin phi cấu trúc khác như văn bản, email, tài liệu liên quan KHDL có khả năng x lý c dử ả ữ liệu c u trúc và phi c u trúc, giúp t o ra cái nhìn toàn di n vấ ấ ạ ệ ề các nguy cơ và mẫu t ổchức gian l n có thậ ể không được phát hiện bằng các phương pháp truyền th ng ố

Việc áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th mang l i l i ích ụ ủ ậ ể ạ ợ thiết th c cho các công ty kiự ểm toán, các cơ quan quản lý tài chính và các tổ chức có nhu cầu ki m soát r i ro tài chính ể ủ Đề tài này có th giúp c i thi n tính minh b ch và tin c y trong quá ể ả ệ ạ ậ trình công bố BCTC

Mục tiêu nghiên cứu của đề tài tương ứng v i ba bài toán c n gi i quy ớ ầ ả ết:

Bài toán 1: Phát hiện các điểm đặc thù liên quan đến các y u t gây ra gian l n trong Báo ế ố ậ cáo tài chính

Bài toán 2: Dự báo nguy cơ gian lận c a các công ty d a vào khủ ự ả năng xảy ra r i ro các ủ ở Báo cáo tài chính (bài toán phân l p nh phân) ớ ị

Bài toán 3: Phân loại các nhóm có nguy cơ gian lận Báo cáo tài chính (bài toán phân cụm).

4 Đối tƣợng và ph m vi nghiên c u ạ ứ

4.1 Đối tượng nghiên cứu Đề tài ứng dụng Khoa h c Dữ liệu (KHDL) vào việc phân tích r i ro trong gian lận Báo ọ ủ cáo tài chính (BCTC) có đối tượng nghiên cứu là các báo cáo tài chính và các thông tin liên quan đến giao dịch tài chính của doanh nghiệp

Phạm vi nghiên c u cứ ủa đề tài bao g m vi c s dồ ệ ử ụng các phương pháp và công cụ ủa c KHDL để phát hiện các dấu hiệu của gian lận trong BCTC, từ đó đưa ra các khuyến nghị để gi m thi u rả ể ủi ro cho các nhà đầu tư và ngườ ử ụi s d ng thông tin tài chính

5 Mô tả ữ d liệu và cấu trúc d u ữliệ

Nguồn d u mà nhóm thu th p phữliệ ậ ục vụ cho nghiên c u: ứ

B dộ ữ liệu r i ro kiủ ểm toán để phân lo i các công ty gian l n: B dạ ậ ộ ữ liệu g m các thông ồ tin:https://www.kaggle.com/datasets/sid321axn/audit-data?fbclid=IwAR1jIupZEEhp-

HPWy5YCWPM6YcSkE9cbP61A-q1Ke4K50lCMkVjrIuGU80E

Thuộc tính Ý nghĩa Kiểu dữ liệu

Sector_Score Giá trị r i ro trong l ch s qua quy trình phân tíchủ ị ử S ốthực

Location_ID Mã tỉnh/ thành ph ố Số t nhiên ự

Para_A S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa ki m tra vể báo cáo tóm t t A tính b ng Rs ắ ằ S ốthực

Score_A Giá trị r i ro lủ ịch sử ủa rp A c S ốthực

Risk_A Giá trị r i ro c a rp A ủ ủ S ốthực

Para_B S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa kiểm tra v báo cáo tóm t t B tính b ng Rs ắ ằ

Score_B Giá trị r i ro lủ ịch sử ủa rp B c S ốthực

Risk_B Giá trị r i ro c a rp B ủ ủ S ốthực

Total Tổng s ố lượng khác biệt trong các báo cáo khác ng

Numbers Giá trị khác biệt lịch s ử S ốthực

Money value S n c a nh ng sai ph m cốtiề ủ ữ ạ ủa kiểm toán trong q kh ứ

Loss S t n th t mà doanh nghi p ph i chố ổ ấ ệ ả ịu trong năm trước S nguyên ố

District_loss Tổn th t mà doanh nghi p trong qu n ph i ch u troấ ệ ậ ả ị

History Tổn thất lịch s trung bình mà công ty phử ải chịu tro

PROB Xác suất tổn th t ấ S ốthực

Prob Xác suất rủi ro l ch s ị ử S ốthực

Inherent_risk Chỉ ố s Rủi ro tiềm tàng (Rủi ro cố h u) ữ S ốthực

Control_risk Chỉ ố s Rủi ro kiểm soát S ốthực

Detection_risk Chỉ ố s Rủi ro phát hiện S ốthực

Audi_risk Chỉ ố ủ s r i ro kiểm toán S ốthực

Risk Khả năng xảy ra r i ro ủ

(0 = không, 1 = có) (Đối tượng m c tiêu) ụ

Risk class Lớp rủi ro được chỉ đị nh cho một trường h p kiợ ểm toán Chuỗi

B ng 1: Phân tích thông tin d u ả ữliệ Trong đó:

+ Rs: H s ệ ố tương quan thứ ậ b c Spearman

+ object: ki u phể ức hợp

Đối tƣợng và phạm vi nghiên cứu

hiện và ngăn chặn được KHDL có khả năng xử lý và phân tích dữ liệ ớu l n, giúp tìm ra nh ng ữ m u t ẫ ổchức có kh ả năng gian lận cao hơn và đưa ra các chỉ ố ủ s r i ro cần được quan tâm KHDL đã phát triển mạnh mẽ trong những năm gần đây và đã được áp dụng thành công trong nhiều lĩnh vực Vi c áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th m ệ ụ ủ ậ ể ở ra nh ng khữ ả năng mới để nâng cao hi u quệ ả và độ chính xác c a quá trình phát hi n gian l n ủ ệ ậ Ngoài ra, BCTC thường ch a các thông tin cứ ấu trúc như số liệu tài chính, số liệu kế toán, cũng như các thông tin phi cấu trúc khác như văn bản, email, tài liệu liên quan KHDL có khả năng x lý c dử ả ữ liệu c u trúc và phi c u trúc, giúp t o ra cái nhìn toàn di n vấ ấ ạ ệ ề các nguy cơ và mẫu t ổchức gian l n có thậ ể không được phát hiện bằng các phương pháp truyền th ng ố

Việc áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th mang l i l i ích ụ ủ ậ ể ạ ợ thiết th c cho các công ty kiự ểm toán, các cơ quan quản lý tài chính và các tổ chức có nhu cầu ki m soát r i ro tài chính ể ủ Đề tài này có th giúp c i thi n tính minh b ch và tin c y trong quá ể ả ệ ạ ậ trình công bố BCTC

Mục tiêu nghiên cứu của đề tài tương ứng v i ba bài toán c n gi i quy ớ ầ ả ết:

Bài toán 1: Phát hiện các điểm đặc thù liên quan đến các y u t gây ra gian l n trong Báo ế ố ậ cáo tài chính

Bài toán 2: Dự báo nguy cơ gian lận c a các công ty d a vào khủ ự ả năng xảy ra r i ro các ủ ở Báo cáo tài chính (bài toán phân l p nh phân) ớ ị

Bài toán 3: Phân loại các nhóm có nguy cơ gian lận Báo cáo tài chính (bài toán phân cụm).

4 Đối tƣợng và ph m vi nghiên c u ạ ứ

4.1 Đối tượng nghiên cứu Đề tài ứng dụng Khoa h c Dữ liệu (KHDL) vào việc phân tích r i ro trong gian lận Báo ọ ủ cáo tài chính (BCTC) có đối tượng nghiên cứu là các báo cáo tài chính và các thông tin liên quan đến giao dịch tài chính của doanh nghiệp

Phạm vi nghiên c u cứ ủa đề tài bao g m vi c s dồ ệ ử ụng các phương pháp và công cụ ủa c KHDL để phát hiện các dấu hiệu của gian lận trong BCTC, từ đó đưa ra các khuyến nghị để gi m thi u rả ể ủi ro cho các nhà đầu tư và ngườ ử ụi s d ng thông tin tài chính

5 Mô tả ữ d liệu và cấu trúc d u ữliệ

Nguồn d u mà nhóm thu th p phữliệ ậ ục vụ cho nghiên c u: ứ

B dộ ữ liệu r i ro kiủ ểm toán để phân lo i các công ty gian l n: B dạ ậ ộ ữ liệu g m các thông ồ tin:https://www.kaggle.com/datasets/sid321axn/audit-data?fbclid=IwAR1jIupZEEhp-

HPWy5YCWPM6YcSkE9cbP61A-q1Ke4K50lCMkVjrIuGU80E

Thuộc tính Ý nghĩa Kiểu dữ liệu

Sector_Score Giá trị r i ro trong l ch s qua quy trình phân tíchủ ị ử S ốthực

Location_ID Mã tỉnh/ thành ph ố Số t nhiên ự

Para_A S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa ki m tra vể báo cáo tóm t t A tính b ng Rs ắ ằ S ốthực

Score_A Giá trị r i ro lủ ịch sử ủa rp A c S ốthực

Risk_A Giá trị r i ro c a rp A ủ ủ S ốthực

Para_B S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa kiểm tra v báo cáo tóm t t B tính b ng Rs ắ ằ

Score_B Giá trị r i ro lủ ịch sử ủa rp B c S ốthực

Risk_B Giá trị r i ro c a rp B ủ ủ S ốthực

Total Tổng s ố lượng khác biệt trong các báo cáo khác ng

Numbers Giá trị khác biệt lịch s ử S ốthực

Money value S n c a nh ng sai ph m cốtiề ủ ữ ạ ủa kiểm toán trong q kh ứ

Loss S t n th t mà doanh nghi p ph i chố ổ ấ ệ ả ịu trong năm trước S nguyên ố

District_loss Tổn th t mà doanh nghi p trong qu n ph i ch u troấ ệ ậ ả ị

History Tổn thất lịch s trung bình mà công ty phử ải chịu tro

PROB Xác suất tổn th t ấ S ốthực

Prob Xác suất rủi ro l ch s ị ử S ốthực

Inherent_risk Chỉ ố s Rủi ro tiềm tàng (Rủi ro cố h u) ữ S ốthực

Control_risk Chỉ ố s Rủi ro kiểm soát S ốthực

Detection_risk Chỉ ố s Rủi ro phát hiện S ốthực

Audi_risk Chỉ ố ủ s r i ro kiểm toán S ốthực

Risk Khả năng xảy ra r i ro ủ

(0 = không, 1 = có) (Đối tượng m c tiêu) ụ

Risk class Lớp rủi ro được chỉ đị nh cho một trường h p kiợ ểm toán Chuỗi

B ng 1: Phân tích thông tin d u ả ữliệ Trong đó:

+ Rs: H s ệ ố tương quan thứ ậ b c Spearman

+ object: ki u phể ức hợp

Mô t d u và c u trúc d ả ữ liệ ấ ữ liệu

1 Các phương pháp dự đoán và quy trình cụ thể

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Bài toán phân lớp là bài toán khá đơn giản để áp dụng vì vậy độ phổ biến của bài toán này khá lớn

Phân lớp dữ liệu được chia thành 3 loại dựa trên số lớp và số nhãn số liệu đó được gán vào Phân lớp nhị phân (binary classification), đây là loại phân lớp đơn giản nhất chỉ với tổng số lớp là N=2 Các thuật toán phổ biến thường hay sử dụng với số lớp N=2 là: hồi quy logistic, Support Vector Machine (SVM), cây quyết định (decision trees), Naive Bayes

Phân lớp dữ liệu nhị phân được dùng nhiều trong cuộc sống như: chẩn đoán y khoa, tín dụng, phát hiện gian lận, spam, …

Còn một loại phân lớp dữ liệu có số lớp lớn hơn 2 (N>2) Phân lớp đa lớp (multi-class classification), đây là phương pháp để có thể phân lớp từ dữ liệu gốc thành nhiều lớp (N>2) Có một số phương pháp phổ biến như: Random Forest, Gradient Boosting, Logistic Regression, Support Vector Machine, … Phân lớp đa lớp được ứng dụng nhận dạng khuôn mặt, nhận dạng chữ viết (Optical Character Recognition), nhận dạng giống loài sinh vật, …

Cuối cùng là phân lớp đa nhãn (multi label classification) Đây là phương pháp được cả- i biên từ phân lớp nhị phân và phân lớp đa lớp Được ứng dụng nhiều vào phân loại ảnh, phân loại văn bản (chủ đề), …

Quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp gọi quá trình phân lớp dữ liệu

+ S1: Xây dựng mô hình phân lớp (Model Construction)

+ S2: Sử dụng mô hình phân lớp (Model Usage)

S2.1: Đánh giá mô hình phân lớp (độ chính xác, …)

S2.2: Phân lớp những dữ liệu mới

Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau.

QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

Các phương pháp dự đoán và quy trình cụ thể

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Bài toán phân lớp là bài toán khá đơn giản để áp dụng vì vậy độ phổ biến của bài toán này khá lớn

Phân lớp dữ liệu được chia thành 3 loại dựa trên số lớp và số nhãn số liệu đó được gán vào Phân lớp nhị phân (binary classification), đây là loại phân lớp đơn giản nhất chỉ với tổng số lớp là N=2 Các thuật toán phổ biến thường hay sử dụng với số lớp N=2 là: hồi quy logistic, Support Vector Machine (SVM), cây quyết định (decision trees), Naive Bayes

Phân lớp dữ liệu nhị phân được dùng nhiều trong cuộc sống như: chẩn đoán y khoa, tín dụng, phát hiện gian lận, spam, …

Còn một loại phân lớp dữ liệu có số lớp lớn hơn 2 (N>2) Phân lớp đa lớp (multi-class classification), đây là phương pháp để có thể phân lớp từ dữ liệu gốc thành nhiều lớp (N>2) Có một số phương pháp phổ biến như: Random Forest, Gradient Boosting, Logistic Regression, Support Vector Machine, … Phân lớp đa lớp được ứng dụng nhận dạng khuôn mặt, nhận dạng chữ viết (Optical Character Recognition), nhận dạng giống loài sinh vật, …

Cuối cùng là phân lớp đa nhãn (multi label classification) Đây là phương pháp được cả- i biên từ phân lớp nhị phân và phân lớp đa lớp Được ứng dụng nhiều vào phân loại ảnh, phân loại văn bản (chủ đề), …

Quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp gọi quá trình phân lớp dữ liệu

+ S1: Xây dựng mô hình phân lớp (Model Construction)

+ S2: Sử dụng mô hình phân lớp (Model Usage)

S2.1: Đánh giá mô hình phân lớp (độ chính xác, …)

S2.2: Phân lớp những dữ liệu mới

Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau.

- Mô hình phân cụm là mô hình dự đoán không giám sát Có nghĩa là nó không tập trung vào một biến mục tiêu Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu

Do đó, dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn

1.2.1 Quá trình phân cụm dữ liệu. Để đánh giá mô hình phân cụm ta có thể đánh giá theo một số phương pháp bên dưới Đánh giá cụm, đây là khâu quan trọng nhất trong kỹ thuật gom cụm, cũng là khâu quan trọng nhất của đề tài Đánh giá, so sánh và chọn ra phương pháp gom cụm có chất lượng đủ tốt. 1.2.2 Thuật toán phân cụm dữ liệu.

- Thuật toán phân cụm Means: thuộc nhóm thuật toán phân cụm dựa trên phân hoạch, là một K- trong những thuật toán phân cụm dữ liệu được sử dụng nhiều trong khai phá dữ liệu.

- Thuật toán phân cụm phân cấp (Hierachical Clustering) không yêu cầu khai báo trước số lượng cụm Thay vào đó, thuật toán chỉ yêu cầu xác định trước thước đo về sự khác biệt giữa các cụm (không giao nhau), dựa trên sự khác biệt từng cặp giữa các quan sát trong hai cụm 1.2.3 Ứng dụng

Phương pháp gom cụm được ứng dụng nhiều vào: kinh doanh, tiếp thị, xã hội, tìm kiếm thông tin (Information Retrieval, Recommender System).

Tìm hiểu dữ liêu

2.1 Phân tích dữ liệu và tiền xử lý dữ liệu

Mỗi hàng đại diện cho 1 đối tượng doanh nghiệp và mỗi cột chứa các thuộc tính của đối tượng:

− Dữ liệu thô chứa 776 hàng (đối tượng) và 25 cột (đặc trưng)

− Trong cột dữ liệu về các thuộc tính bao gồm có 4 thuộc tính là: Inherent_Risk (Rủi ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) cả 4 thuộc tính cho ra kết quả ảnh hưởng phần lớn đến nguy cơ doanh nghiệp có gian lận (Risk1) hoặc không gian lận (Risk0) Nhìn chung, các đặc tính Inherent_Risk, Control_Risk, Audit_Risk đều có điểm chung là nếu các chỉ số càng nhỏ hoặc có giá trị nhỏ không đáng kể (xấp xỉ 0) thì khả năng xảy ra kết quả “Risk 0” càng cao Mặt khác, các chỉ số càng lớn thì khả năng xảy ra kết quả “Risk1” càng cao, chứng tỏ doanh nghiệp có nguy cơ gian lận trong kiểm toán Nhóm sử dụng các thuộc tính nêu trên để đưa ra những dự đoán gian lận dựa trên các kết quả đưa ra Sau khi phân tích chúng ta sẽ thực hiện bước tiền xử lý dữ liệu

Hình 1: Mô hình thực hiện bài toán phát hiện

Biểu đồ 1: Dữ liệu của Risk_0 và Risk_1 theo Control_Risk

Biểu đồ 2: Dữ liệu của Risk_0 và Risk_1 theo Inherent_Risk

Biểu đồ 3: Dữ liệu của Risk_0 và Risk_1 theo Audit_Risk

2.2 Tiền xử lý dữ liệu

Dữ liệu cơ bản đã được xử lý, 11 đối với các dữ liệu bị thiếu, đối với các dữ liệu bị thiếu chúng em sử dụng công cụ Preprocess để xử lý các dữ liệu bằng cách thay thế các dữ liệu bị thiếu bằng giá trị trung bình của các giá trị trong thuộc tính đó

− Lọc từ dữ liệu gốc “audit_risk”, nhóm đã sử dụng công cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hiện việc phân lớp dữ liệu như sau: Sử dụng 70% dữ liệu ban đầu để làm dữ liệu mẫu huấn luyện mô hình phân lớp dữ liệu (audit_risk.tab) Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (audit_risk_forecast.tab)

− Xác định biến độc lập và biến phụ thuộc:

+ Biến phụ thuộc là “Risk”

+ Biến độc lập là các thuộc tính còn lại.

BÀI TOÁN 1: PHÁT HI ỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂ N CÁC Y ẾU

GÂY RA GIAN L N TRONG BÁO CÁO TÀI CHÍNHẬ

3.1 Mô tả bài toán (slide)

3.2 Các phương pháp thể hiện đánh giá dữ liệu- ( đọc cái này)

 Biểu đồ thanh: thể hiện sự chênh lệch giữa các thuộc tính trong việc đưa ra kết quả “Có” hoặc “Không” xảy ra rủi ro gian lận trong báo cáo tài chính

 Biểu đồ histogram: phân bổ chỉ số điểm và tần suất xuất hiện của các chỉ số với kết quả lần lượt của hai loại công ty

 Biểu đồ scatter plot: thể hiện mối tương quan giữa hai thuộc tính.

3.3 Phân tích dữ liệu ( đọc cái này)

 Para: chênh lệch giữa thuộc tính được thấy trong báo cáo tóm tắt và báo cáo cuộc điều tra

 Các chỉ số Para A (khác biệt A) của “Risk 0” tập trung từ mức 0-1 Ngược lại, chỉ số Para A này với “Risk 1” lại được phân rải giảm dần từ mức 1-90 Độ phủ của “Risk 1” hoàn toàn áp đảo “Risk 0”

 Risk A, Risk B: giá trị rủi ro của các báo cáo trong quá khứ

Biểu đồ 4: giá trị rủi ro của báo cáo A và báo cáo B trong quá khứ

 Có thể thấy rằng chỉ số chỉ số giá trị rủi ro gian lận trong báo cáo có xu hướng tỉ lệ thuận với giá trị khác biệt Rủi ro gian lận trong báo cáo tài chính sẽ càng cao nếu chỉ số khác biệt và chỉ số giá trị rủi ro càng cao Trong báo cáo A, giá trị chủ yếu từ 30 đổ xuống Trong báo cáo B, hai chỉ số được nhắc đến có sự phân tán rộng hơn (0-200)

 Tổng số lượng khác biệt trong các báo cáo khác

Biểu đồ 5 Tổng số lƣợng khác biệt trong các báo cáo khác:

 Theo như dự đoán từ trước, sự khác biệt trong các báo cáo càng cao thị khả năng xảy ra rủi ro sẽ có thể dễ dàng dự đoán được và rủi ro gian lận trong báo cáo tài chính sẽ càng lớn Càng nhiều sự khác biệt, khả năng xảy ra rủi ro gian lận trong kiểm toán càng cao và v i m c giá tr lớ ứ ị ớn hơn 7,66 gần như hoàn toàn có th x y ra gian lể ả ận “Risk 1”.

 Chỉ số chênh lệch khác biệt trong quá khứ

Biểu đồ 6: Chỉ số chênh lệch khác biệt trong quá khứ

 Từ biểu đồ này, cho thấy phần lớn các công ty có chỉ số chênh lệch (chỉ số khác biệt) trong quá khứ dao động ở mức 4.8-5 sẽ có khả năng xảy ra rủi ro.

 Gía trị tổn thất (Loss_Core)

Biểu đồ 7: Giá trị tổn thất

 “Risk 0” có chỉ số chênh lệch ở mức ổn định, và với sự chênh lệch giữa quá khứ so với hiện tại là rất lớn và phân bổ từ 2 , cho thấy tỉ lệ xảy ra gian lận là có thể xảy ra.-7

Biểu đồ 8: Money_Value –Chỉ ố s tiền liên quan đến sai sót

 Chỉ số tiền liên quan đến sai sót ở “Risk 0” tập trung ổn định ở mức nhỏ hơn 20,689 Đối với “Risk 1” thì chỉ số này phân bố đều ở các mức lớn hơn 20,689, giá trị lớn nhất (max) đạt đến mức 935,030

Biểu đồ : Tổng hợp rủi ro 9

 Dữ liệu thô chứa 776 đối tượng và 19 cột đặc trưng.

 Các điểm đặc thù của dữ liệu được trình bày qua việc sử dụng các biểu đồ thống kê và các công cụ máy tính

 Các chỉ số nhỏ hoặc không đáng kể, khả năng xảy ra kết quả “risk 0” sẽ cao và ngược lại Các chỉ số càng lớn và có sự phân bổ rộng, khả năng xảy ra kết quả “risk 1” có khả - năng xảy ra gian lận trong báo cáo tài chính sẽ càng cao

 Các thống kê vẫn còn được thực hiện thủ công và các công cụ thống kê trong trường hợp các chỉ số phân bổ rộng, chưa thể hiện được đầy đủ và toàn vẹn

 Kết quả của thống kê dữ liệu là kết quả hầu như không có sai số và đảm bảo tính chính xác của dữ liệu gốc.

BÀI TOÁN 2: DỰ BÁO NGUY CƠ GIAN LẬ N C A CÁC CÔNG TY D A VÀO Ủ Ự KHẢ NĂNG XẢY RA RỦI RO Ở CÁC BÁO CÁO TÀI CHÍNH (BÀI TOÁN PHÂN LỚP )

KHẢ NĂNG XẢY RA RỦI RO Ở CÁC BÁO CÁO TÀI CHÍNH (BÀI TOÁN PHÂN

LỚP) 4.1 Mô tả phương pháp

*Phương pháp phân lớp (Classification)(đọc đây hay slide cx dc)

Phân lớp d ữliệu là quá trình phân một đối tượng dữ liệu vào m t hay nhi u l p (loộ ề ớ ại) đã cho trước nhờ ộ m t mô hình phân l p ớ

*Các bước thực hiển bài toán phân lớp dữ liệu (Quá trình phân lớp dữ liệu):

(đọc đây hay slide cx dc)

Quá trình phân lớp d u gữliệ ồm 2 bước chính:

- Bướ c 1: Xây dựng mô hình (giai đoạn “huấn luyện”):

- Bướ c 2: Sử ụ d ng mô hình phân lớp chia thành 2 bước nhỏ:

Bước 2.1: Đánh giá mô hình (kiểm trả tính đúng đắn của mô hình):

Các phương pháp phân lớp được sử dụng trong bài: (đọc đây hay slide cx dc)

- Cây quyết định (Decision Tree

- Hồi quy Logistic (Logistic Regression

4.2 Quy trình x lý: ử (đọc đây )

- Bướ c 1: Chọn d u File audit_risk.tab và ữliệ chọn cột “Risk” làm Target

- Bướ c 2: Phân tách dữ liệu : L c tù dọ ữ liệu gốc “audit_risk.csv”, nhóm đã sử ụ d ng công cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hi n vi c phân l p ệ ệ ớ d u ữliệ

- Bướ c 3: Dùng ba phương pháp: Decision Tree, Logictic Regression và SVM ti n hành d báo ế ự rủi ro kiểm toán của các công ty và đánh giá độ ệ hi u qu cả ủa các phương pháp.

- Bướ c 4: Lựa chọn phương pháp được đánh giá tốt nhất

Hình 2: Mô hình quy trình x lý bài toán phân lử ớp

B ng 2: K t qu d báo theo Test and Score ả ế ả ự

Tuy nhiên: Phương pháp Tree (Phương pháp cây quyết định) cho ra kết quả Accuracy, F1-score, Precision và Recall là cao nh t trong cấ ả 3 mô hình được s d ng => ử ụ Nên ch n s ọ ử dụng phương pháp Tree (Cây quyết định)

- Theo Ma trận nhầm lẫn:

+ Kết quả ủa phương pháp Tree: c

B ng 3: K t qu d báo khi s dả ế ả ự ử ụng phương pháp Tree theo ma trận nhầm lẫn

- Kết quả ủa phương pháp SVM: c

B ng 4: K t qu d báo khi s dả ế ả ự ử ụng phương pháp SVM theo ma trận nhầm lẫn

- Kết quả ủa phương pháp Logistic Regression: c

B ng 5: K t qu d báo khi s dả ế ả ự ử ụng phương pháp Logistic Regression theo ma trận nhầm l n ẫ

Sai l m lo i 2: ầ ạ Dự báo là công ty không gian l n (Risk có ch sậ ỉ ố là 0) nhưng thật ra là có gian l n (Risk có ch sậ ỉ ố là 1), điều này dẫn đến sai sót trong quá trình ki m toán viên kiể ểm tra gian lận, ảnh hưởng xấu đến mức độ trung thực của công ty kiểm toán

=> Theo k t qu thì mô hình Tree có k t qu sai l m lo i 2 b ng 0 th p nh t so v i các mô hình ế ả ế ả ầ ạ ằ ấ ấ ớ SVM = 15 và LR = 5

=> T kừ ết quả trên, nhóm đề xuất rằng công ty ki m toán nên s d ng mô hình Tree (Cây quyể ử ụ ết định) trong quá trình dự báo nguy cơ gian lận của các doanh nghiệp

B ng 6: K t qu d báo c a Bài toán 2 t Predicition ả ế ả ự ủ ừ

- Theo bảng đánh giá kết qu , ma tr n nh m l n cả ậ ầ ẫ ủa phương pháp Tree có sai l m loầ ại 2 b ng 0 ằ là nh nhỏ ất trong ba phương pháp: Logistic Regression, SVM, Tree Do đó, công ty kiểm toán nên s d ng mô hình Tree (Cây quyử ụ ết định) trong quá trình dự báo nguy cơ gian lận của các doanh nghi p ệ

Từ k t qu trên có th mô tế ả ể ả khái quát tình hình gian l n c a các doanh nghiậ ủ ệp để đề xuất và đưa ra các chính sách phù hợp từ đó hạn chế ệ vi c gian l n trong báo cáo tài chính ậ

4.5 Các ki n th c chuyên ngành liên quanế ứ (đọc đây)

- Định nghĩa : R i ro ki m toán là r i ro mà ki m toán ủ ể ủ ể viên đưa ra ý kiến không phù hợp đối với báo cáo tài chính, khi báo cáo tài chính đó có sai sót trọng y u ế

- R i ro ki ủ ểm toán đượ c chia thành ba lo ạ i:

+ Rủi ro ti m tàng (IR)ề là r i ro mà báo cáo tài chính có sai sót tr ng y u, ngay c khi hủ ọ ế ả ệ thống ki m soát nể ội bộhoạt động hi u qu ệ ả

+ Rủi ro ki m soát (CR)ể là r i ro mà sai sót tr ng yủ ọ ếu không được ngăn chặn haowjc phát hi n ệ bởi hệthống ki m soát nể ội bộ

+ Rủi ro phát hi n (DR)ệ là r i ro mà ki m toán viên không phát hiủ ể ện được sai sót trọng y u ế

- Rủi ro kiểm toán là m t y u r quan tr ng trong qua trình ki m toán báo cáo tài chính ộ ế ố ọ ể

- M i quan h gi a ba lo ố ệ ữ ạ i r ủ i ro ki ểm toán đượ c th ể hi ệ n qua công th c sau: ứ

Rủi ro ki m tể oán (AR) = Rủi ro ti m tàng (IR) * Rề ủi ro ki m soát (CR) ể

- D a vào nh ng công th ự ữ ức trên, mô hình để ả i quy ết bài toán như sau: gi

+ Bước 1: Chọn đầu vào: Những nhân tố ảnh hưởng đến rủi ro kiểm toán

+ Bước 2: Lựa chọn mô hình dự đoán (Thuật toán thẩm định rủi ro)

+ Bước 3: Dùng Risk Score để thẩm định đánh giá rủi ro

* Đúng: Doanh nghiệp có gian l n trong các báo cáo tài chính ậ

* Sai: Doanh nghi p có Risk (R i ro) th p ệ ủ ấ

* Đúng: Doanh nghiệp không gian l n trong các báo cáo tài chính ậ

* Sai: Quay lại bước 1 để ể ki m tra lại sốliệu và đánh giá từ đầ u

Mô hình gi i quy t bài toán ả ế

BÀI TOÁN 3: Phân lo ại các nhóm có nguy cơ gian lậ n báo các tài chính (Bài toán phân cụm)

5.1 Mô tả phương pháp phân cụm (Clustering): (đọc như trong slide)

5.2 Mô t ả phương pháp K-Means: (đọc như trong slide)

5.3 Quy trình th c hi n bài toán phân cự ệ ụm ( đọc như trong slide)

Hình 3: Mô hình quy trình x lý bài toán phân cử ụm

5.4 Kết quả phân lo i K-means ạ

B ng 7: K t qu phân loả ế ả ại K-means

Nhóm chọn số lượng cụm được phân tách là 2 vì điểm Silhouette của 2 cụm là cao nhất (tức điểm dữ liệu càng được phân cụm chính xác) và đồng thời cũng là số nhóm được phân tách ít nhất

→ Silhouette Plot cho thấy chất lượng của việc phân cụm tương đối ổn Các chỉ số đầu tiên của các cụm Silhouette Plot đều dương

Dựa vào Distributions và Box Plot, chúng ta có các phân bố của từng cụm theo các biểu đồ sau:

Hình 4 : Phân bố khả năng gian lận và không gian lận dựa trên các r i ro trong BCTC ủ

Nhìn chung thì tỷ l không gian lệ ận cao hơn so với tỷ l gian l n ( 471 > 305) ệ ậ

Biểu đồ 10: Phân bố khả năng gian lận và không gian lận dựa trên 4 rủi ro

Ta th y, sau khi chúng ta ki m tra qua 4 r i ro g m: r i ro ti m tàng, r i ro ki m soát, ấ ể ủ ồ ủ ề ủ ể rủi ro phát hi n và r i ro ki m toán thì t l không gian lệ ủ ể ỷ ệ ận đề ớn hơn tỷ ệu l l gian l n Gi a các ậ ữ rủi ro thì tỷ l không gian l n và t l gian l n không có s chênh l ch l n ệ ậ ỷ ệ ậ ự ệ ớ

Từ đây, để có cái nhìn t ng quát và toàn thổ ể hơn, ta xem sự phân b c a các thu c tính ổ ủ ộ ở các nhóm qua b ng Feature Statistic: ả

Biểu đồ 11: K t qu c a Feature Statistics ế ả ủ

T k t qu c a Feature Statistic nhóm nh n th y m t sừ ế ả ủ ậ ấ ộ ố điểm đặc thù trung bình c a d ủ ữ liệu như sau:

- Xác xuấ ủi ro lịt r ch sử: 0,217.

- Chỉ ố ủi ro tiề s r m tàng : 1,4

- Khả năng xảy ra rủi ro: Thường là không gian l n ậ

5.5 Ki n th c chuyên ngành có liên quan ế ứ

Việc dùng K-Means để phân c m dụ ữ liệu Audit risk giúp ta phân biệt ra được các công ty có liên quan đến việc gian lận BCTC và các công ty không gian lận, giúp phân biệt và loại b ỏra các dữ u gây nhi u trong viliệ ễ ệc đánh giá mức độ gian l n trong BCTC ậ Đây chính là các chỉ số đánh giá những rủi ro trong việc phát hiện gian lận:

CR (Control Risk): R i ro ki m soát ủ ể

DR (Detection Risk): R i ro phát hi n ủ ệ

AR (Audit Risk): Rủi ro kiểm toán

IR (Inherent Risk): R i ro ti m tàng ủ ề

Dữ liệu k t qu d a trên ch s r i ro ki m toán (Audit_risk) và ch sế ả ự ỉ ố ủ ể ỉ ố Silhouette để phân c m thành các nhóm có gian l n Tụ ậ ừ đó, doanh nghiệp có th tìm ra các biể ện pháp để ử x lý r i ro trên.ủ

Ngày đăng: 08/04/2024, 08:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w