Ứng dụng khoa học dữ liệu vào việc phân tích rủi ro trong gian lận báo cáo tài chính

31 3 0
Ứng dụng khoa học dữ liệu vào việc phân tích rủi ro trong gian lận báo cáo tài chính

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Viế ệc ngăn chặn và x lý ử các trường hợp gian lận báo cáo tài chính là một trong những nhiệm vụ cấp bách của cả nhà đầu tư và các cơ quan quản lý.. Vì vậy, việc ứng dụng khoa h c dữ liệ

Trang 1

BỘ GIÁO DỤC & ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH DOANH

KHOA K TOÁN

DỰ ÁN CUỐI KỲ MÔN: KHOA HỌC DỮ LIỆU

Giảng viên giảng dạy: TS Nguyễn An Tế

Trang 2

MỤC LỤC

CHƯƠNG I : TỔNG QUAN DỰ ÁN 1

1 T ng quan v ổề kiểm toán và doanh nghiệp 1

1.1 Khái ni m BCTC 1

1.2 Nghi p v ệụ kiểm toán 2

1.3 Th c tr ng gian l n c a công ty hi n nayựạậủệ 3

2 Lý do chọn đề tài 3

3 M c tiêu nghiên cụứu 4

4 Đối tượng và phạm vi nghiên cứu 4

4.1 Đối tượng nghiên cứu 4

4.2 Ph m vi nghiên c uạứ 4

5 Mô t d u và c u trúc d ả ữ liệấữ liệu 4

CHƯƠNG II QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ: 6

1 Các phương pháp dự đoán và quy trình cụ thể 6

3 BÀI TOÁN 1: PHÁT HIỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂN CÁC YẾU T GÂY RA GIAN L N TRONG BÁO CÁO TÀI CHÍNHỐẬ 10

3.1 Mô tả bài toán 10

3.2 Các phương pháp thể hiện đánh giá dữ liệu.- 10

3.3 Phân tích dữ liệu 10

3.4 Đánh giá 13

4 BÀI TOÁN 2: DỰ BÁO NGUY CƠ GIAN LẬN C A CÁC CÔNG TY D A VÀO ỦỰKHẢ NĂNG XẢY RA RỦI RO Ở CÁC BÁO CÁO TÀI CHÍNH (BÀI TOÁN PHÂN LỚP ) 14

4.1 Mô tả phương pháp 14

4.2 Quy trình x lý: 14

4.3 Đánh giá kết quả: 15

Trang 3

4.4 Kết quả ự d báo 18

4.5 Các ki n th c chuyên ngành liên quanếứ 18

5 BÀI TOÁN 3: Phân loại các nhóm có nguy cơ gian lận báo các tài chính (Bài toán phân cụm) 19

5.1 Mô tả phương pháp phân cụm (Clustering) 19

5.2 Mô tả phương pháp K-Means 20

5.3 Quy trình th c hi n bài toán phân cựệụm 20

5.4 Kết quả phân lo i K- means 20

CHƯƠNG III: KẾT LUẬN 25

DANH MỤC TÀI LI U THAM KHỆẢO 0

Trang 4

DANH MỤC HÌNH ẢNH

Hình 1: Mô hình thực hi n bài toán phát hi n ệ ệ Hình 2: Mô hình quy trình xử lý bài toán phân lớp Hình 3: Mô hình quy trình xử lý bài toán phân cụm

Hình 4: Phân bố khả năng gian lận và không gian l n dậ ựa trên các rủi ro trong BCTC DANH M C BIỤỂU ĐỔ

Biểu đồ 1: Dữ liệu của Risk_0 và Risk_1 theo Control_Risk Biểu đồ 2: Dữ liệu của Risk_0 và Risk_1 theo Inherent_Risk Biểu đồ 3: Dữ liệu của Risk_0 và Risk_1 theo Audit Risk

Biểu đồ 4: Giá trị rủi ro của báo cáo A và báo cáo B trong quá khứ Biểu đồ 5: Tổng số lượng khác biệt trong các báo cáo khác Biểu đồ 6: Chỉ số chênh lệch khác bi t trong quá khứ ệ Biểu đồ 7: Giá trị tổn thất

Biểu đồ 8: Money_Value – Chỉ ốtiền liên quan đến sai sót Biểu đồ 9: Tổng hợp rủi ro

Biểu đồ 10: Phân bố khả năng gian lận và không gian lận dựa trên 4 rủi ro Biểu đồ 11: Kết quả của Feature Statistics

DANH M C BỤẢNG

B ng 1: Phân tích thông tin d u ả ữ liệ B ng 2: Kả ết quả ự d báo theo Test and Score

B ng 3: Kả ết quả ự d báo khi s dử ụng phương pháp Tree theo ma trận nh m l n ầ ẫ B ng 4: Kả ết quả ự d báo khi s dử ụng phương pháp SVM theo ma trận nh m l n ầ ẫ

B ng 5: Kả ết quả ự d báo khi s dử ụng phương pháp Logistic Regression theo ma tr n nhậ ầm lẫn B ng 6: Kả ết quả ự d báo c a Bài toán 2 t Prediction ủ ừ

B ng 7: Kả ết quả phân loại K-means B ng 8: Kả ết quả Silhouette Plot

Trang 5

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành nhất đến giảng viên trực tiếp giảng dạy bộ môn Khoa học dữ liệu là TS Nguyễn An Tế vì đã dùng tri thức, thời gian và tâm huyết để có thể truyền đạt vốn kiến thức sâu rộng, uyên bác của mình cho chúng em cũng như các bạn trong suốt quá trình học Trong khoảng thời gian được học tập với thầy, thứ chúng em học được không chỉ là kiến thức mà còn là cả sự tận tâm và chuyên chú đối với lĩnh vực mà mình nghiên cứu của thầy Những điều đó sẽ là tấm gương sáng để chúng em học tập và hoàn thiện bản thân mình hơn, là hành trang vững chắc trên con đường học tập sau này của chúng em

Môn Khoa học dữ liệu đối với chúng em là môn học thú vị, mới mẻ, vô cùng bổ ích và có tính ứng dụng cao, cung cấp kiến thức để đáp ứng những nhu cầu thực tiễn của sinh viên Khoa học dữ liệu vốn là một môn nhiều tính toán, và tư duy logic, do đó một sinh viên kinh tế lần đầu tiếp xúc với môn học sẽ gặp nhiều khó khăn trong quá trình tiếp thu kiến thức và xử lý các bài tập thực hành Từ đó chúng em khó tránh khỏi những thiếu sót không đáng có Tuy nhiên nhóm chúng em đã cố gắng vận dụng những kiến thức mà thầy đã giảng trên lớp và cố gắng hoàn thiện bài đồ án hoàn thiện nhất

Để có thể hoàn thành đồ án nhóm cuối kì một cách chỉnh chu thật sự không dễ dàng, đòi hỏi chúng em phải dành rất nhiều thời gian, tâm huyết để tự nghiên cứu và học hỏi Chúng em đã cố gắng vận dụng những kiến thức đã học được trong học kỳ qua để hoàn thành đồ án nhóm, tuy nhiên, do chưa có nhiều kinh nghiệm làm đề tài cũng như kiến thức và khả năng lý luận còn nhiều thiếu sót và hạn chế, kính mong sự chỉ dẫn và đóng góp của thầy để đồ án của chúng em được hoàn thiện hơn

Cuối cùng, chúng em xin chúc thầy thật nhiều sức khỏe, luôn vui vẻ để có thể vững bước trên sự nghiệp trồng người Chúng em xin chân thành cảm ơn

Trang 6

1

1 T ng quan v ổề kiểm toán và doanh nghi p

1.1. Khái niệm BCTC

Theo Khoản 1 Điều 3 Luật K toán s 88/2015/QH13ế ố , định nghĩa báo cáo tài chính như sau: “Báo cáo tài chính là hệ thống thông tin kinh t , tài chính cế ủa đơn vị ế toán được trình k bày theo bi u mể ẫu quy định t i chu n m c k toán và chạ ẩ ự ế ế độ ế toán” k Nói cách khác, Báo cáo tài chính là các thông tin kinh tế được kế toán viên trình bày dướ ại d ng b ng bi uả ể Căn cứ vào Chuẩn m c VAS 21 Trình bày Báo cáo tài chính thì mự – ục đích lập báo cáo tài chính như sau: Báo cáo tài chính ph n ánh theo m t c u trúc ch t ch tình hình tài chính, k t qu kinh doanh ả ộ ấ ặ ẽ ế ả của m t doanh nghiộ ệp Mục đích của báo cáo tài chính là cung cấp các thông tin về tình hình tài chính, tình hình kinh doanh và các lu ng ti n c a m t doanh nghiồ ề ủ ộ ệp, đáp ứng nhu c u h u ích ầ ữ cho số đông những ngườ ử ụi s d ng trong việc đưa ra các quyết định kinh t Báo cáo tài chính ế phải cung cấp nh ng thông tin c a m t doanh nghi p v : ữ ủ ộ ệ ề

1 Tài sản 2 Nợ phải trả 3 Vốn ch s h u ủ ở ữ

4 Doanh thu, thu nhập khác, chi phí s n xu t kinh doanh và chi phí khác ả ấ 5 Lãi, lỗ và phân chia k t qu kinh doanh ế ả

6 Các lu ng ti n ồ ề

Các thông tin này cùng v i các thông tin trình bày trong B n thuy t minh báo cáo tài ớ ả ế chính giúp người sử dụng dự đoán được các luồng tiền trong tương lai và đặc biệt là thời điểm và mức độ chắc ch n c a vi c t o ra các lu ng ti n và các khoắ ủ ệ ạ ồ ề ản tương đương tiền Báo cáo tài chính áp d ng cho tụ ất cả loại hình doanh nghiệp được thành l p và hoậ ạt động theo pháp luật Việt Nam Định kỳ theo thời hạn quy định của Pháp luật về Kế toán, Thống kê, Doanh nghiệp có nghĩa vụ lập và nộp báo cáo tài chính trung thực và chính xác cho các cơ quan nhà nước có thẩm quy n Tùy t ng lo i hình, quy mô doanh nghi p s có th i h n n p báo cáo và sề ừ ạ ệ ẽ ờ ạ ộ ố lượng báo cáo riêng phù hợp Báo cáo tài chính có ý nghĩa quan trọng đố ới v i công tác qu n lý Doanh ả nghiệp cũng như đố ới các cơ quan chủi v quản và các đối tượng khác ngoài doanh nghiệp như nhà đầu tư hoặc người quan tâm Báo cáo tài chính thể hiện đầy đủ các vấn đề như:

 Báo cáo tài chính thể hiện rõ tình hình s n xu t kinh doanh c a doanh nghiả ấ ủ ệp đặc bi t là thông tin v khệ ề ả năng sinh lời, v tình hình biề ến động trong s n xu t kinh doanh ả ấ để người đọc đưa ra các đánh giá về thay đổi tiềm tàng c a các nguồn lực tài chính mà ủ doanh nghi p có th kiệ ể ểm soát trong tương lai, đồng th i dờ ự đoán khả năng tạo ra các ngu n ti n cho doanh nghiồ ề ệp trên cơ sở ệ hi n có và việc đánh giá hiệu qu các ngu n lả ồ ực b sung mà doanh nghi p có th s d ng ổ ệ ể ử ụ

 Thông tin v s biề ự ến động tình hình tài chính c a doanh nghi p: Các chủ ệ ỉ tiêu như tình hình tài s n, ngu n v n, tình hình k t qu hoả ồ ố ế ả ạt động s n xu t kinh doanh, tình ả ấ hình lưu chuyển tiền tệ của doanh nghiệp tại một thời điểm hoặc của một thời kỳ được thể hiện rõ trong báo cáo tài chính

Trang 7

2

1.2 Nghi p v ệụ kiểm toán

Công vi c c a ki m toán chính là ki m tra, xác minh tính trung th c c a nh ng báo cáo ệ ủ ể ể ự ủ ữ tài chính đó, từ đó giúp cung cấp những thông tin chính xác nhất về tình hình tài chính của tổ chức đó Hay nói cách khác, kiểm toán là quá trình thu thập và đánh giá bằng chứng liên quan đến những thông tin tài chính được kiểm tra (cung cấp bởi kế toán) nhằm xác đinh và báo cáo v mề ức độ phù h p giợ ữa thông tin đó với các chu n mẩ ực đã được thi t l p ế ậ

Có th nói, kiể ểm toán hướng đến r t nhiấ ều đối tượng, những người quan tâm t i tình ớ hình tài chính c a m t tủ ộ ổ chức nào đó nhưng không có nghiệp v v tài chính, kụ ề ế toán; đó là lí do h cọ ần đến nh ng kiữ ểm toán viên để tìm hiểu và đưa ra những đánh giá phù hợp giúp họ có nh ng quyữ ết định đúng đắn nh t ấ

Nghiệp vụ kiểm toán là công vi c ki m tra l i dệ ể ạ ữ liệu và s sách c a k toán có tính xác ổ ủ ế thực và tuân thủ đúng quy định c a pháp luủ ật hay chưa Dựa trên các chứng từ và cơ sở dữ liệu của doanh nghiệp cung cấp, th c hiự ện báo cáo tài chính cho doanh nghiệp… Nhìn chung nghi p v ki m toán s bao g m: l p k ho ch, xây dệ ụ ể ẽ ồ ậ ế ạ ựng chương trình, thu thập thông tin, ghi chép, lập báo cáo

V i hoớ ạt động đó, có thể thấy được hai chức năng chính của kiểm toán, đó là: xác minh tính trung th c và tính pháp ự lý của các báo cáo tài chính Đánh giá bằng việc đưa ra ý kiến v ề tính trung th c và mự ức độ ợ h p lý c a các thông tin tài chính, k toán ủ ế Tư vấn cho các nhà quản lý thông qua vi c ch ra nh ng sai sót và g i m ra nh ng biệ ỉ ữ ợ ở ữ ện pháp để kh c ph c, giúp các ắ ụ công ty hoạt động hi u qu ệ ả hơn.

Gian l n trên BCTC ậ là trường h p các thông tin trên báo cáo tài chính b bóp méo, phợ ị ản ánh không trung th c tình hình tài chính cự ủa doanh nghiệp Tính “không trung thực và hợp lý” của báo cáo tài chính là không đảm bảo tuân thủ các chuẩn mực kế toán thay vì phản ánh thông tin chính xác nh t vấ ề giá tr ịcông ty như mong đợ ủa thị trường tài chính i c

Theo Hệ thống chu n m c Ki m toán Vi t Nam s 240: Trách nhi m c a ki m toán ẩ ự ể ệ ố ệ ủ ể viên liên quan đến gian l n trong quá trình ki m toán báo cáo tài chính ậ ể được quy định cụ thể: khi th c hi n ki m toán theo các chu n m c ki m toán Vi t Nam, ki m toán viên ch u trách ự ệ ể ẩ ự ể ệ ể ị nhiệm đạt được sự đảm b o h p lý r ng liả ợ ằ ệu báo cáo tài chính, xét trên phương diện t ng thổ ể, có còn sai sót trọng y u do gian l n hoế ậ ặc nh m lầ ẫn hay không

N u phát hi n có hành vi không tuân th pháp luế ệ ủ ật và các quy định, ki m toán viên phể ải báo cáo nh ng hành vi này vữ ới các cơ quan nhà nước có th m quy n, thông báo vẩ ề ới đại diện chủ ở s hữu của đơn vị được kiểm toán và các đối tượng bên ngoài đơn vị được kiểm toán (nếu có) N u nghi ng có hành vi không tuân th pháp luế ờ ủ ật và các quy định, ki m toán viên phể ải thực hiện các th tủ ục kiểm toán bổ sung để làm rõ nh ng nghi ng này ữ ờ

Trang 8

3

1.2. Thực trạng gian l n c a công ty hi n nay ậủệ

Trong n n kinh tề ế thị trường, báo cáo tài chính (BCTC) là m t ngu n cung c p thông tin ộ ồ ấ quan tr ng và không thọ ể thiếu, nh m k t n i doanh nghi p vằ ế ố ệ ới nhà đầu tư, các cơ quan quản lý và các bên liên quan Trên thị trường ch ng khoán, BCTC có vai trò quan trứ ọng, là cơ sở để ạo t ni m tin cho công chúng hề để ọ đưa ra quyết định kinh tế đúng đắn Tuy nhiên, th c t nh ng ự ế ữ năm qua, đã xảy ra nhiều vụ gian lận khi lập BCTC của các doanh nghiệp điển hình như: Công ty Dược Viễn Đông (năm 2011), Công ty Cổ phần Đầu tư khoáng sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Những vụ việc gian lận của các doanh nghiệp này đã làm d y lên nghi ng , lo ng i t phía cấ ờ ạ ừ ổ đông và những đối tượng quan tâm về chất lượng của thông tin trên BCTC

Các công ty thường có xu hướng tăng cường hoạt động kinh doanh để đáp ứng các chỉ tiêu tài chính như doanh thu, lợi nhuận và tăng trưởng Tuy nhiên, để đạt được mục tiêu này, m t sộ ố công ty đã sử ụ d ng những chiêu trò không đạo đức để làm đẹp báo cáo tài chính của mình Các chiêu trò này có th bao g m vi c ghi nh n doanh thu không có th t, ghi nh n sai ể ồ ệ ậ ậ ậ niên độ kế toán hay không khai báo đầy đủ thông tin

Để ngăn chặn tình trạng gian lận báo cáo tài chính, các cơ quan quản lý như Ủy ban Chứng khoán và Thị trường Ch ng khoán Viứ ệt Nam đã áp dụng nhi u bi n pháp ki m soát và ề ệ ể xử lý các trường h p vi phợ ạm Ngoài ra, các công ty cũng cần tuân thủ đúng quy trình và tiêu chuẩn k ế toán để đả m bảo tính chính xác và minh bạch của báo cáo tài chính

Tuy nhiên, để giải quyết triệt để ấn đề v này, cần có sự phối hợp giữa các cơ quan quản lý, các công ty và các nhà đầu tư Các công ty cần tự giác và chịu trách nhiệm với việc báo cáo tài chính của mình, trong khi các nhà đầu tư cần có ki n th c và kinh nghiế ứ ệm để đánh giá tính kh ả thi và rủi ro của các khoản đầu tư.

Trong b i c nh kinh t hi n nay, vi c xây d ng m t thố ả ế ệ ệ ự ộ ị trường tài chính minh b ch và ạ đáng tin cậy là r t quan trấ ọng để thu hút đầu tư và phát triển kinh t Viế ệc ngăn chặn và x lý ử các trường hợp gian lận báo cáo tài chính là một trong những nhiệm vụ cấp bách của cả nhà đầu tư và các cơ quan quản lý

2 Lý do chọn đề tài

Gian l n báo cáo tài chính trên th gi i ngày ậ ế ớ càng gia tăng và trở thành vấn đề nghiêm trọng đối với các doanh nghiệp, chính phủ và các nhà đầu tư Đặc biệt, tại các quốc gia có thị trường v n, gian lố ận báo cáo tài chính đã đe dọa đến niềm tin c a công chúng vào thông tin ủ trên thị trường T i Vi t Nam, hàng lo t các v gian l n báo cáo tài chính c a các công ty niêm ạ ệ ạ ụ ậ ủ y t trên sàn chế ứng khoán đã gây ra tâm lý nghi ngờ cho các nhà đầu tư, ảnh hưởng t i hoớ ạt động c a th ủ ị trường vốn Vì vậy, việc ứng dụng khoa h c dữ liệu vào việc phân tích r i ro trong ọ ủ gian lận báo cáo tài chính để những người quan tâm ti p cế ận và đánh giá chính xác hơn về các báo cáo tài chính

Trang 9

4

Gian l n BCTC là m t vậ ộ ấn đề nghiêm trọng trong lĩnh vực k toán và tài chính Có ế nhi u hình th c gian lề ứ ận khác nhau và các phương pháp truyền th ng có thố ể không đủ để phát hiện và ngăn chặn được KHDL có khả năng xử lý và phân tích dữ liệ ớu l n, giúp tìm ra nh ng ữ m u t ẫ ổ chức có kh ả năng gian lận cao hơn và đưa ra các chỉ ố ủ s r i ro cần được quan tâm

KHDL đã phát triển mạnh mẽ trong những năm gần đây và đã được áp dụng thành công trong nhiều lĩnh vực Vi c áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th m ệ ụ ủ ậ ể ở ra nh ng khữ ả năng mới để nâng cao hi u quệ ả và độ chính xác c a quá trình phát hi n gian l n ủ ệ ậ Ngoài ra, BCTC thường ch a các thông tin cứ ấu trúc như số liệu tài chính, số liệu kế toán, cũng như các thông tin phi cấu trúc khác như văn bản, email, tài liệu liên quan KHDL có khả năng x lý c dử ả ữ liệu c u trúc và phi c u trúc, giúp t o ra cái nhìn toàn di n vấ ấ ạ ệ ề các nguy cơ và mẫu t ổ chức gian ậl n có thể không được phát hiện bằng các phương pháp truyền th ng ố

Việc áp d ng KHDL vào phân tích r i ro trong gian l n BCTC có th mang l i l i ích ụ ủ ậ ể ạ ợ thiết th c cho các công ty kiự ểm toán, các cơ quan quản lý tài chính và các tổ chức có nhu cầu ki m soát r i ro tài chính ể ủ Đề tài này có th giúp c i thi n tính minh b ch và tin c y trong quá ể ả ệ ạ ậ trình công bố BCTC

3. Mục tiêu nghiên c u

Mục tiêu nghiên cứu của đề tài tương ứng v i ba bài toán c n gi i quy ớ ầ ả ết:

Bài toán 1: Phát hiện các điểm đặc thù liên quan đến các y u t gây ra gian l n trong Báo ế ố ậ cáo tài chính

Bài toán 2: Dự báo nguy cơ gian lận c a các công ty d a vào khủ ự ả năng xảy ra r i ro các ủ ở Báo cáo tài chính (bài toán phân l p nh phân) ớ ị

Bài toán 3: Phân loại các nhóm có nguy cơ gian lận Báo cáo tài chính (bài toán phân cụm) 4. Đối tƣợng và ph m vi nghiên c u ạứ

4.1 Đối tượng nghiên cứu

Đề tài ứng dụng Khoa h c Dữ liệu (KHDL) vào việc phân tích r i ro trong gian lận Báo ọ ủ cáo tài chính (BCTC) có đối tượng nghiên cứu là các báo cáo tài chính và các thông tin liên quan đến giao dịch tài chính của doanh nghiệp

4.2 Ph m vi nghiên c uạứ

Phạm vi nghiên c u cứ ủa đề tài bao g m vi c s dồ ệ ử ụng các phương pháp và công cụ ủa c KHDL để phát hiện các dấu hiệu của gian lận trong BCTC, từ đó đưa ra các khuyến nghị để gi m thi u rả ể ủi ro cho các nhà đầu tư và ngườ ử ụi s d ng thông tin tài chính

5 Mô tả ữ liệu và cấ d u trúc d u ữ liệ

Nguồn d u mà nhóm thu th p phữ liệ ậ ục vụ cho nghiên c u: ứ

B dộ ữ liệu r i ro kiủ ểm toán để phân lo i các công ty gian l n: B dạ ậ ộ ữ liệu g m các thông ồ

Sector_Score Giá trị r i ro trong l ch s qua quy trình phân tíchủ ị ử S ố thực

Para_A S khác bi t chi tiêu theo k ho ch cự ệ ế ạ ủa ểki m tra v

báo cáo tóm t t A tính b ng Rs ắ ằ S ố thực

Trang 10

District_loss Tổn th t mà doanh nghi p trong qu n ph i ch u troấ ệ ậ ả ị

History Tổn thất lịch s trung bình mà công ty phử ải chịu tro

+ Rs: H s ệ ố tương quan thứ ậ b c Spearman + Score = (đơn vị) 10 tri u ệ

+ float: ki u s ể ố thực + integer: ki u s nguyên ể ố + char: ki u chu i ể ỗ + object: ki u phể ức hợp

Trang 11

6

1. Các phương pháp dự đoán và quy trình cụ thể

1.1 Phân lớp dữ liệu

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào) Bài toán phân lớp là bài toán khá đơn giản để áp dụng vì vậy độ phổ biến của bài toán này khá lớn

Phân lớp dữ liệu được chia thành 3 loại dựa trên số lớp và số nhãn số liệu đó được gán vào Phân lớp nhị phân (binary classification), đây là loại phân lớp đơn giản nhất chỉ với tổng số lớp là N=2 Các thuật toán phổ biến thường hay sử dụng với số lớp N=2 là: hồi quy logistic, Support Vector Machine (SVM), cây quyết định (decision trees), Naive Bayes

Phân lớp dữ liệu nhị phân được dùng nhiều trong cuộc sống như: chẩn đoán y khoa, tín dụng, phát hiện gian lận, spam, …

Còn một loại phân lớp dữ liệu có số lớp lớn hơn 2 (N>2) Phân lớp đa lớp (multi-class classification), đây là phương pháp để có thể phân lớp từ dữ liệu gốc thành nhiều lớp (N>2) Có một số phương pháp phổ biến như: Random Forest, Gradient Boosting, Logistic Regression, Support Vector Machine, … Phân lớp đa lớp được ứng dụng nhận dạng khuôn mặt, nhận dạng chữ viết (Optical Character Recognition), nhận dạng giống loài sinh vật, …

Cuối cùng là phân lớp đa nhãn (multi label classification) Đây là phương pháp được cả- i biên từ phân lớp nhị phân và phân lớp đa lớp Được ứng dụng nhiều vào phân loại ảnh, phân loại văn bản (chủ đề), …

Quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp gọi quá trình phân lớp dữ liệu

Quy trình 2 bước:

+ S1: Xây dựng mô hình phân lớp (Model Construction) + S2: Sử dụng mô hình phân lớp (Model Usage)

S2.1: Đánh giá mô hình phân lớp (độ chính xác, …) S2.2: Phân lớp những dữ liệu mới

1.2 Phân cụm dữ liệu

Phân cụm là một ứng dụng khác của khái niệm cơ bản về sự tương đồng Ý tưởng cơ bản là chúng ta muốn tìm các nhóm đối tượng, trong đó các đối tượng trong mỗi nhóm tương tự nhau, nhưng các đối tượng trong các nhóm khác nhau thì không quá giống nhau.

Trang 12

7

- Mô hình phân cụm là mô hình dự đoán không giám sát Có nghĩa là nó không tập trung vào một biến mục tiêu Thay vào đó, nó tìm kiếm các loại quy tắc khác trong tập hợp dữ liệu Do đó, dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn

1.2.1 Quá trình phân cụm dữ liệu.

Để đánh giá mô hình phân cụm ta có thể đánh giá theo một số phương pháp bên dưới Đánh giá cụm, đây là khâu quan trọng nhất trong kỹ thuật gom cụm, cũng là khâu quan trọng nhất của đề tài Đánh giá, so sánh và chọn ra phương pháp gom cụm có chất lượng đủ tốt.

1.2.2 Thuật toán phân cụm dữ liệu.

- Thuật toán phân cụm Means: thuộc nhóm thuật toán phân cụm dựa trên phân hoạch, là một K-trong những thuật toán phân cụm dữ liệu được sử dụng nhiều trong khai phá dữ liệu.

- Thuật toán phân cụm phân cấp (Hierachical Clustering) không yêu cầu khai báo trước số lượng cụm Thay vào đó, thuật toán chỉ yêu cầu xác định trước thước đo về sự khác biệt giữa các cụm (không giao nhau), dựa trên sự khác biệt từng cặp giữa các quan sát trong hai cụm

1.2.3 Ứng dụng

Phương pháp gom cụm được ứng dụng nhiều vào: kinh doanh, tiếp thị, xã hội, tìm kiếm thông tin (Information Retrieval, Recommender System)

2. Tìm hiểu dữ liêu

2.1 Phân tích dữ liệu và tiền xử lý dữ liệu

Mỗi hàng đại diện cho 1 đối tượng doanh nghiệp và mỗi cột chứa các thuộc tính của đối tượng:

− Dữ liệu thô chứa 776 hàng (đối tượng) và 25 cột (đặc trưng)

− Trong cột dữ liệu về các thuộc tính bao gồm có 4 thuộc tính là: Inherent_Risk (Rủi ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) cả 4 thuộc tính cho ra kết quả ảnh hưởng phần lớn đến nguy cơ doanh nghiệp có gian lận (Risk1) hoặc không gian lận (Risk0) Nhìn chung, các đặc tính Inherent_Risk, Control_Risk, Audit_Risk đều có điểm chung là nếu các chỉ số càng nhỏ hoặc có giá trị nhỏ không đáng kể (xấp xỉ 0) thì khả năng xảy ra kết quả “Risk 0” càng cao Mặt khác, các chỉ số càng lớn thì khả năng xảy ra kết quả “Risk1” càng cao, chứng tỏ doanh nghiệp có nguy cơ gian lận trong kiểm toán Nhóm sử dụng các thuộc tính nêu trên để đưa ra những dự đoán gian lận dựa trên các kết quả đưa ra Sau khi phân tích chúng ta sẽ thực hiện bước tiền xử lý dữ liệu

Trang 14

Dữ liệu cơ bản đã được xử lý, 11 đối với các dữ liệu bị thiếu, đối với các dữ liệu bị thiếu chúng em sử dụng công cụ Preprocess để xử lý các dữ liệu bằng cách thay thế các dữ liệu bị thiếu bằng giá trị trung bình của các giá trị trong thuộc tính đó

Trang 15

10

2.2.2 Phân tách dữ liệu:

− Lọc từ dữ liệu gốc “audit_risk”, nhóm đã sử dụng công cụ Data Sampler tách dữ liệu khảo sát ban đầu thành hai file riêng biệt để thực hiện việc phân lớp dữ liệu như sau: Sử dụng 70% dữ liệu ban đầu để làm dữ liệu mẫu huấn luyện mô hình phân lớp dữ liệu (audit_risk.tab) Và sử dụng 30% dữ liệu còn lại để làm dữ liệu dự báo cho nghiên cứu (audit_risk_forecast.tab) − Xác định biến độc lập và biến phụ thuộc:

+ Biến phụ thuộc là “Risk”

+ Biến độc lập là các thuộc tính còn lại.

3 BÀI TOÁN 1: PHÁT HIỆN CÁC ĐIỂM ĐẶC THÙ LIÊN QUAN ĐỂN CÁC Y U T ẾỐ

3.1 Mô tả bài toán (slide)

3.2 Các phương pháp thể hiện đánh giá dữ liệu- ( đọc cái này)

 Biểu đồ thanh: thể hiện sự chênh lệch giữa các thuộc tính trong việc đưa ra kết quả “Có” hoặc “Không” xảy ra rủi ro gian lận trong báo cáo tài chính

 Biểu đồ histogram: phân bổ chỉ số điểm và tần suất xuất hiện của các chỉ số với kết quả lần lượt của hai loại công ty

 Biểu đồ scatter plot: thể hiện mối tương quan giữa hai thuộc tính.

3.3 Phân tích dữ liệu ( đọc cái này)

 Para: chênh lệch giữa thuộc tính được thấy trong báo cáo tóm tắt và báo cáo cuộc điều tra

 Các chỉ số Para A (khác biệt A) của “Risk 0” tập trung từ mức 0-1 Ngược lại, chỉ số Para A này với “Risk 1” lại được phân rải giảm dần từ mức 1-90 Độ phủ của “Risk 1” hoàn toàn áp đảo “Risk 0”

 Risk A, Risk B: giá trị rủi ro của các báo cáo trong quá khứ

Biểu đồ 4: giá trị rủi ro của báo cáo A và báo cáo B trong quá khứ

 Có thể thấy rằng chỉ số chỉ số giá trị rủi ro gian lận trong báo cáo có xu hướng tỉ lệ thuận với giá trị khác biệt Rủi ro gian lận trong báo cáo tài chính sẽ càng cao nếu chỉ số khác

Ngày đăng: 08/04/2024, 08:03

Tài liệu cùng người dùng

Tài liệu liên quan