Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
1,03 MB
Nội dung
lOMoARcPSD|21993573 BỘ GIÁO DỤC VÀ ĐÀO TẠO TP.HCM UEH – ĐẠI HỌC KINH TẾ TP.HCM TRƯỜNG KINH DOANH – COLLEGE OF BUSINESS KHOA KẾ TỐN DỰ ÁN MƠN: KHOA HỌC DỮ LIỆU Ứng dụng máy học vào phát rủi ro gian lận báo cáo tài Tên học phần Giảng viên giảng dạy Lớp học phần Nhóm sinh viên : : : : Khoa học liệu ThS Nguyễn Mạnh Tuấn 22C1INF50905970 Ngơ Hồng Triều Anh Lâm Khánh Mai Nguyễn Thị Bích Tuyền Trần Tố Tâm Phạm Ngọc Kim Ngân lOMoARcPSD|21993573 DANH MỤC HÌNH ẢNH Ảnh 1: Mơ hình thực tốn phát Ảnh 2: Mơ hình quy trình xử lý tốn phân lớp Ảnh 3: Mơ hình giải tốn Ảnh 4: Mơ hình quy trình xử lý tốn phân cụm DANH MỤC BẢNG Bảng 1: Phân tích thơng tin liệu Bảng 2: Kết dự báo theo Test and Score Bảng 3: Kết dự báo sử dụng phương pháp Tree theo ma trận nhầm lẫn Bảng 4: Kết dự báo sử dụng phương pháp SVM theo ma trận nhầm lẫn Bảng 5: Kết dự báo sử dụng phương pháp Logistic Regression theo ma trận nhầm lẫn Bảng 6: Kết K-Means DANH MỤC BIỂU ĐỒ Biểu đồ 1: Dữ liệu Risk0 Risk1 theo Control_Risk Biểu đồ 2: Dữ liệu Risk0 Risk1 theo Inherent_Risk Biểu đồ 3: Dữ liệu Risk0 Risk1 theo Audit_Risk Biểu đồ 4: Sự chênh lệch tìm thấy báo cáo điều tra báo cáo tóm tắt Biểu đồ 5: Giá trị rủi ro báo cáo A khứ Biểu đồ 6: Giá trị rủi ro báo cáo khứ Biểu đồ 7: Tổng số lượng khác biệt báo cáo khác Biểu đồ 8: Chỉ số chênh lệch khác biệt khứ Biểu đồ 9: Giá trị tổn thất (Loss_Score) Biểu đồ 10: Money_Value - Chỉ số tiền liên quan đến sai sót Biểu đồ 11: Detection_risk: Rủi ro phát Biểu đồ 12: Tổng hợp rủi ro Biểu đồ 13: Biểu đồ Silhouette Plot toán phân cụm Biểu đồ 14: Biểu đồ Scatter Plot toán phân cụm lOMoARcPSD|21993573 MỤC LỤC CHƯƠNG 1: TỔNG QUAN I Lý chọn đề tài II Mục tiêu nghiên cứu Mục tiêu tổng quát Các mục tiêu cụ thể III Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Phạm vi nghiên cứu: IV Mơ tả tốn V Mô tả liệu CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ Phân tích tiền xử lý liệu a Phân tích liệu b Tiền xử lý liệu 10 Bài toán 1: Phát điểm đặc thù (các yếu tố gây gian lận) liệu dựa vào lược đồ công cụ thống kê 11 a Mơ tả tốn 11 b Các phương pháp thể - đánh giá liệu 11 c Phân tích liệu: 11 d Đánh giá: 17 Bài toán 2: Dự báo nguy gian lận (Gian lận/Không gian lận) công ty dựa vào khả xảy rủi ro báo cáo kiểm toán (Bài toán phân lớp nhị phân) 17 a Mô tả phương pháp 17 b Quy trình xử lý 18 c Đánh giá kết quả: 19 d Các kiến thức chuyên ngành liên quan 22 Bài tốn 3: Phân loại nhóm có nguy gian lận báo tài (Bài toán phân cụm) 23 a Mô tả phương pháp phân cụm (Clustering): 23 b Mô tả phương pháp K-Means: 23 lOMoARcPSD|21993573 c Quy trình thực toán phân cụm: 23 d Kết phân loại k-Means: 24 e Các kiến thức chuyên ngành liên quan: 26 lOMoARcPSD|21993573 CHƯƠNG 1: TỔNG QUAN I Lý chọn đề tài Thời đại công nghệ 4.0 nay, ngành công nghệ thông tin khoa học liệu có phát triển bùng nổ Hệ thống liệu khổng lồ tạo hàng ngày với mức độ vô phức tạp Đứng trước yêu cầu cấp thiết cần xử lý liệu lớn chuyển thành tri thức có ích, ngành khai phá liệu (data mining) đời có phát triển vô mạnh mẽ Phần mềm khai phá liệu cho phép người dùng phân tích liệu theo nhiều góc nhìn khác nhau, phân loại liệu theo quan điểm riêng biệt tổng kết mối quan hệ bóc tách Từ đó, giúp người dùng tìm dự đốn thơng tin bổ ích tiềm ẩn hệ thống liệu lớn Việc ứng dụng phần mềm khoa học liệu quan tâm nhiều xu hướng tất yếu thời đại Nó ứng dụng nhiều lĩnh vực đời sống xã hội thương mại (nhằm tìm tệp khách hàng mục tiêu, phân tích thị trường, ) hay lĩnh vực khoa học (dự báo, ), Kiểm toán dần ngày trở thành lĩnh vực quan trọng kinh tế Việt Nam Và vấn đề để đảm bảo chất lượng kiểm toán việc đánh giá rủi ro kiểm tốn, tìm gian lận báo cáo tài từ cung cấp thơng tin xác, bổ ích đến người sử dụng thơng tin báo cáo tài Tuy nhiên, việc phát hành vi gian lận công ty vấn đề vô khó khăn mang tính thách thức kiểm toán viên Theo Hiệp hội nhà điều tra gian lận (2016), gian lận báo cáo tài trường hợp thông tin báo cáo bị bóp méo, phản ánh khơng trung thực tình hình tài doanh nghiệp cách cố ý nhằm lừa gạt người sử dụng thông tin Việc đánh giá tìm hành vi gian lận báo cáo tài vấn đề mang tính thời cấp thiết Đặc biệt, sau hàng loạt vụ bê bối gian lận hàng loạt công ty lớn toàn giới dẫn đến việc phá sản việc gian lận Worldcom, Enron, Lehman Brothers, Xerox, Tại Việt Nam, năm qua, xảy nhiều vụ gian lận lập báo cáo tài doanh nghiệp điển hình như: Cơng ty Dược Viễn Đơng (năm 2011), Cơng ty Cổ phần Đầu tư khống sản Tây Bắc (năm 2012), Tập đoàn Kỹ nghệ gỗ (năm 2016)… Việc phát sinh thông tin thiếu minh bạch báo cáo tài cơng ty có tầm vóc lớn đến cơng ty nhỏ làm phát sinh quan tâm ngày nhiều tính trung thực hợp lý báo cáo tài Điều tạo nên thách thức lớn người quản lý công ty công ty kiểm toán kiểm toán viên Từ thực tế đó, nhà lãnh đạo cơng ty kiểm tốn mong muốn có cơng cụ nhằm lưu trữ, truy xuất có khả xử lý liệu tốt để hỗ trợ kiểm toán viên Đáp ứng yêu cầu trên, phần mềm khoa học liệu ứng dụng nhiều cơng ty kiểm tốn Nhằm nghiên cứu tìm hiểu rõ việc đánh giá gian lận nhờ vào lOMoARcPSD|21993573 công cụ khai phá liệu để ứng dụng kiến thức học trường môn Khoa học liệu, nhóm chúng em định thực đề tài “Ứng dụng công cụ khai phá liệu phân tích phát gian lận báo cáo tài chính” II Mục tiêu nghiên cứu Mục tiêu tổng quát Mục tiêu tổng quát báo cáo tìm giải pháp làm giảm rủi ro kiểm toán việc ứng dụng hệ thống thơng tin dựa vào việc dự báo phân tích liệu rủi ro kiểm toán báo cáo tài Các mục tiêu cụ thể Bài tốn 1: Phát đặc điểm đặc thù gây gian lận kiểm tốn - giúp kiểm tốn viên nhìn thấy yếu tố tác động trực tiếp dẫn đến rủi ro Kiểm Toán Bài toán 2: Dự báo nguy gian lận báo cáo tài - giúp kiểm toán viên đánh giá mức độ gian lận cơng ty để kịp thời xử lí Bài tốn 3: Phân loại nhóm có gian lận báo cáo tài - giúp kiểm tốn viên phát gian lận cách nhanh chóng với tính xác cao III Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: Đối tượng nghiên cứu Nghiên cứu Rủi ro kiểm toán tập trung thông tin 777 doanh nghiệp kinh doanh đến từ 46 thành phố giới, chẳng hạn vị trí địa lí, điểm khác biệt báo cáo, số liệu khứ số lần xảy tổn thất, số tiền bạc bị tổn thất doanh nghiệp nói chung địa phương nói riêng Bên cạnh số rủi ro tiềm tàng, rủi ro kiểm soát, rủi ro phát cuối rủi ro xảy kiểm tốn tương lai Phạm vi nghiên cứu: Thời gian số liệu thu thập 10 năm (2009-2019) IV Mơ tả tốn Sử dụng excel phần mềm orange để xử lý liệu giải toán sau: Bài toán 1: Phát điểm đặc thù (các yếu tố gây gian lận) liệu dựa vào lược đồ cơng cụ thống kê Bài tốn 2: Dự báo nguy gian lận (Gian lận/Không gian lận) công ty dựa vào khả xảy rủi ro báo cáo kiểm toán (Bài toán phân lớp nhị phân) Bài toán 3: Phân loại nhóm có nguy gian lận báo tài (Bài tốn phân cụm) V Mơ tả liệu lOMoARcPSD|21993573 Bộ liệu tổng hợp từ tập liệu, hồ sơ khứ công ty đến từ nhiều lĩnh vực truy xuất tại: https://archive.ics.uci.edu/ml/datasets/Audit+Data Bộ liệu thu thập từ năm 2015 đến năm 2016 công ty Kiểm toán Ấn Độ Bộ liệu gồm thơng tin: Thuộc tính Ý nghĩa Kiểu liệu Sector_score Giá trị rủi ro lịch sử qua quy trình phân tích Số thực Location_ID Mã tỉnh/thành phố Số tự nhiên Para_A Sự khác biệt chi tiêu theo kế hoạch kiểm tra báo cáo tóm tắt A tính Rs Số thực Score_A Giá trị rủi ro lịch sử rp A Số thực Risk_A Giá trị rủi ro rp A Số thực Para_B Sự khác biệt chi tiêu theo kế hoạch kiểm tra báo cáo tóm tắt B tính Rs Số thực Score_B Giá trị rủi ro lịch sử rp B Số thực Risk_B Giá trị rủi ro rp B Số thực Total Tổng số lượng khác biệt báo cáo khác Rs Số thực Numbers Giá trị khác biệt lịch sử Số thực Money value Số tiền sai phạm kiểm toán khứ Số thực Loss Số tổn thất mà doanh nghiệp phải chịu năm trước Số nguyên District_loss Tổn thất mà doanh nghiệp quận phải chịu 10 năm qua Số nguyên History Tổn thất lịch sử trung bình mà công ty phải chịu 10 năm qua Số nguyên PROB Xác suất tổn thất Số thực Prob Xác suất rủi ro lịch sử Số thực Inherent_risk Chỉ số Rủi ro tiềm tàng (Rủi ro cố hữu) Số thực Control_risk Chỉ số Rủi ro kiểm soát Số thực Detection_risk Chỉ số Rủi ro phát Số thực Audit_risk Chỉ số rủi ro kiểm toán Số thực Risk Khả xảy rủi ro (0 = khơng, = có) (Đối tượng mục tiêu) Số nguyên lOMoARcPSD|21993573 Risk class Lớp rủi ro định cho trường hợp kiểm tốn Chuỗi Bảng 1: Phân tích thơng tin liệu Trong đó: + Rs: Hệ số tương quan thứ bậc Spearman + Score = (đơn vị) 10 triệu + float: kiểu số thực + integer: kiểu số nguyên + char: kiểu chuỗi + object: kiểu phức hợp CHƯƠNG II: QUY TRÌNH THỰC HIỆN & KẾT QUẢ Phân tích tiền xử lý liệu a Phân tích liệu Phân tích liệu đặc trưng có tính phân loại: − Mỗi hàng đại diện cho đối tượng doanh nghiệp cột chứa thuộc tính đối tượng − Dữ liệu thô chứa 776 hàng (đối tượng) 25 cột (đặc trưng) − Trong cột liệu thuộc tính có thuộc tính là: Inherent_Risk (Rủi ro tiềm tàng), Control_Risk (Rủi ro kiểm soát), Audit_Risk (Rủi ro kiểm toán) ảnh hưởng phần lớn đến nguy doanh nghiệp có gian lận (Risk1) khơng gian lận (Risk0) Nhìn chung, đặc tính Inherent_Risk, Control_Risk, Audit_Risk có điểm chung số nhỏ không đáng kể (xấp xỉ 0) khả xảy kết “Risk 0” cao Mặt khác, số lớn khả xảy kết “Risk1” cao, chứng tỏ doanh nghiệp có nguy gian lận kiểm tốn lOMoARcPSD|21993573 Ảnh 1: Mơ hình thực toán phát Về Control risk: Biểu đồ 1: Dữ liệu Risk_0 Risk_1 theo Control_Risk Về inherent_Risk: lOMoARcPSD|21993573 Biểu đồ 2: Dữ liệu Risk_0 Risk_1 theo Inherent_Risk Về Audit_Risk: Biểu đồ 3: Dữ liệu Risk_0 Risk_1 theo Audit_Risk b Tiền xử lý liệu Xử lý liệu: Báo cáo sử dụng liệu tổng hợp từ trang: https://archive.ics.uci.edu/ml/datasets/Audit+Data Dữ liệu xử lý, 10 lOMoARcPSD|21993573 Biểu đồ 8: Chỉ số chênh lệch khác biệt khứ Biểu đồ cho thấy công ty có khả xảy rủi ro, có số chênh lệch (chỉ số khác biệt) khứ dao động mức 4.8-5, ngược lại số mức cao nhiều Dễ dàng thấy được, chênh lệch tìm thấy hay khứ yếu tố quan trọng để đánh giá dự đốn cơng ty xảy gian lận kiểm tốn hay khơng Để làm rõ hơn, đến với: − Giá trị tổn thất (Loss_Score) 14 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Biểu đồ 9: Giá trị tổn thất (Loss-Score) Do “Risk 0” có số chênh lệch mức ổn định, với chênh lệch không đáng kể mức từ 1-2 Ngược lại với chênh lệch khứ so với lớn phân bổ từ 2-7, cho thấy tỉ lệ xảy gian lận − Money_Value: 15 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Biểu đồ 10: Money_Value – Chỉ số tiền liên quan đến sai sót Tương tự thuộc tính số tiền liên quan đến sai sót “Risk 0” tập trung ổn định mức nhỏ 20.689 Đối với “Risk 1” số phân bố mức lớn 20.689, với giá trị lớn (max) đạt đến mức 935.030 Biểu đồ 11: Detection-Risk – Rủi ro phát Rủi ro phát – loại rủi ro gian lận kiểm toán thường gặp thuộc tính dễ dàng dự đốn khả xảy rủi ro doanh nghiệp Với mức số thấp 0,5, cơng ty dự đốn “Risk 0” Ngược lại với “Risk 1”, số rủi ro phát kiểm toán từ 0,5 trở lên 16 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Biểu đồ 12: Tổng hợp rủi ro d Đánh giá: − Các điểm đặc thù liệu trình bày trực quan thông qua việc sử dụng biểu đồ thống kê cơng cụ máy tính − Dữ liệu thô chứa 776 đối tượng 19 cột đặc trưng − Đối với số nhỏ (hoặc không đáng kể) khả xảy kết “risk 0” cao ngược lại Các số lớn có phân bố rộng khả xảy kết “risk 1”-có khả xảy gian lận kiểm toán cao − Các thống kê cịn thực thủ cơng công cụ thống kê trường hợp số phân bố rộng, chưa thể đầy đủ toàn vẹn − Với lợi liệu gốc liệu bị thiếu (chỉ có missing value) bù đắp giá trị trung bình cột liệu đó, kết thống kê liệu kết gần khơng có sai số đảm bảo tính xác liệu gốc Bài toán 2: Dự báo nguy gian lận (Gian lận/Không gian lận) công ty dựa vào khả xảy rủi ro báo cáo kiểm toán (Bài toán phân lớp nhị phân) a Mô tả phương pháp Phương pháp phân lớp (Classification) Phân lớp liệu trình phân đối tượng liệu vào hay nhiều lớp (loại) cho trước nhờ mơ hình phân lớp Mơ hình xây dựng dựa tập liệu gán nhãn trước Q trình gán nhãn cho đối tượng liệu trình phân lớp Quá trình phân lớp liệu gồm bước: − Bước 1: Xây dựng mơ hình (giai đoạn “huấn luyện”) + Dữ liệu đầu vào liệu mẫu gán nhãn tiền xử lý + Các thuật toán phân lớp: Cây định, SVM, Hồi quy logistic … 17 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 + Kết bước mơ hình phân lớp huấn luyện (trình phân lớp) − Bước 2: Đánh giá mơ hình (kiểm tra tính đắn) + Dữ liệu đầu vào: tập liệu mẫu khác gắn nhãn tiền xử lý Tuy nhiên lúc đưa vào mơ hình phân lớp, ta “lờ” thuộc tình gắn nhãn + Tính đắn mơ hình xác định cách so sánh thuộc tính gắn nhãn liệu đầu vào kết phân lớp mô hình − Bước 3: Phân lớp liệu Phân loại toán phân lớp: Nhiệm vụ toán phân lớp phân loại đối tượng liệu vào n lớp cho trước nếu: + n = 2: Thuộc toán phân lớp nhị phân + n > 2: Thuộc toán phân lớp đa lớp Các phương pháp phân lớp sử dụng bài: − Cây định (Decision Tree): Trong lý thuyết quản trị, định đồ thị định kết kèm nhằm hỗ trợ trình định Trong lĩnh vực khai thác liệu, định phương pháp mô tả, phân loại tổng quát hóa tập liệu cho trước − SVM (Support Vector Machine) thuật tốn có giám sát, SVM nhận liệu vào, xem chúng vector không gian phân loại chúng vào lớp khác cách xây dựng siêu phẳng không gian nhiều chiều làm mặt phân cách lớp liệu Để tối ưu kết phân lớp phải xác định siêu phẳng (hyperplane) có khoảng cách đến điểm liệu (margin) tất lớp xa SVM có nhiều biến thể để phù hợp với nhiều toán phân loại khác − Hồi quy Logistic (Logistic Regression): Là phương pháp nhằm kiểm tra tính hiệu mơ hình phân lớp liệu có đặc thù cụ thể, từ định có sử dụng mơ hình hay khơng Một mơ hình lý tưởng mơ hình khơng đơn giản, không phức tạp không nhạy cảm với nhiễu b Quy trình xử lý 18 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Ảnh 2: Mơ hình quy trình xử lý tốn phân lớp − Bước 1: Chọn liệu File audit_risk.tab chọn cột “Risk” làm Target − Bước 2: Phân tách liệu: Lọc từ liệu gốc “audit_risk.csv”, nhóm sử dụng cơng cụ Data Sampler tách liệu khảo sát ban đầu thành hai file riêng biệt để thực việc phân lớp liệu sau: Sử dụng 70% liệu ban đầu để làm liệu mẫu huấn luyện mô hình phân lớp liệu (audit_risk_train.tab) Và sử dụng 30% liệu lại để làm liệu dự báo cho nghiên cứu (audit_risk_forecast.tab) − Bước 3: Dùng phương pháp: Tree, Logistic Regression SVM tiến hành dự báo rủi ro kiểm tốn cơng ty đánh giá độ hiệu phương pháp − Bước 4: Lựa chọn phương pháp đánh giá tốt nhất, dùng phương pháp dự báo cho liệu File “audit_risk_forecast.tab” c Đánh giá kết quả: − Theo test and score: 19 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Bảng 2: Kết dự báo theo Test and Score => AUC: LR = > SVM = 0,997; Tree = 0,998 Tuy nhiên: Phương pháp Tree (Phương pháp định) cho kết Accuracy, F1-score, Precision Recall cao mơ hình sử dụng => Nên chọn sử dụng phương pháp Tree (Cây định) − Theo Ma trận nhầm lẫn: + Kết phương pháp Tree: Bảng 3: Kết dự báo sử dụng phương pháp Tree theo ma trận nhầm lẫn 20 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 − Kết phương pháp SVM Bảng 4: Kết dự báo sử dụng phương pháp SVM theo ma trận nhầm lẫn − Kết phương pháp Logistic Regression: Bảng 5:Kết dự báo sử dụng phương pháp Logistic Regression theo ma trận nhầm lẫn Sai lầm loại là: Dự báo công ty không gian lận (Risk có số 0) thật có gian lận (Risk có số 1), điều dẫn đến sai sót q trình kiểm tốn viên kiểm tra gian lận, ảnh hưởng xấu đến mức độ trung thực cơng ty kiểm tốn 21 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 => Theo kết mơ hình Tree có kết sai lầm loại thấp so với mơ hình LR = 5, SVM = 15 Từ kết trên, nhóm đề xuất cơng ty kiểm tốn sử dụng mơ hình Tree (Cây định) trình dự báo nguy gian lận doanh nghiệp d Các kiến thức chuyên ngành liên quan − Định nghĩa: Rủi ro kiểm toán (Audit Risk - AR): Là rủi ro kiểm tốn viên cơng ty kiểm tốn đưa ý kiến nhận xét khơng thích hợp báo cáo tài kiểm tốn cịn có sai sót trọng yếu − Các thành phần rủi ro kiểm toán: + Rủi ro tiềm tàng (Inherent risk – IR): Rủi ro tiềm tàng hay gọi rủi ro cố hữu, tồn sai sót trọng yếu thân đối tượng kiểm toán (tức tồn chức hoạt động môi trường quản lý doanh nghiệp) + Rủi ro kiểm soát (Control risk – CR): Là tồn sai sót trọng yếu mà hệ thống kiểm sốt nội không phát ngăn chặn kịp thời + Rủi ro phát (Detection risk – DR): Là tồn sai sót trọng yếu mà hệ thống kiểm tốn hay chun gia kiểm tốn khơng phát − Mối quan hệ ba loại rủi ro kiểm toán thể cơng thức sau: AR=IR.CR.DR Trong : IR (Inherent Risk): Rủi ro tiềm tàng CR (Control Risk): Rủi ro kiểm soát DR (Detection Risk): Rủi ro phát AR (Audit Risk): Rủi ro kiểm toán Dựa vào cơng thức trên, mơ hình để giải toán sau: + Bước 1: Chọn đầu vào: Những nhân tố ảnh hưởng đến rủi ro kiểm toán + Bước 2: Lựa chọn mơ hình dự đốn (Thuật tốn thẩm định rủi ro) + Bước 3: Dùng Risk Score để thẩm định đánh giá rủi ro + Bước 4: Nhận xét o Nếu Risk (Rủi Ro) cao: • Đúng: Doanh nghiệp có gian lận báo cáo kiểm tốn • Sai: Doanh nghiệp có Risk (Rủi Ro) thấp o Nếu Risk (Rủi Ro) thấp: • Đúng: Doanh nghiệp khơng gian lận báo cáo kiểm tốn • Sai: Quay lại bước để kiểm tra lại số liệu đánh giá lại từ đầu 22 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Ảnh 3: Mơ hình giải toán Dựa vào bước trên: Risk xác định đối tượng mục tiêu (Target) để xác định nguy gian lận doanh nghiệp Bài toán 3: Phân loại nhóm có nguy gian lận báo tài (Bài tốn phân cụm) a Mơ tả phương pháp phân cụm (Clustering): − Clustering phương pháp phân tích, qua tập liệu phân thành nhiều cụm/ nhóm khác nhau, cụm/ nhóm điểm liệu hay quan sát giống nhau, cụm/ nhóm có khác biệt (các quan sát nhóm khác với quan sát cịn lại nhóm khác) − Clustering gọi unsupervised classification (phân loại không giám sát) phương pháp unsupervised learning (học không giám sát) - phương pháp xây dựng model phân tích - dựa tập liệu "khơng có nhãn", điểm liệu chưa phân loại - mục đích tìm hiểu trích xuất thơng tin giá trị đặc điểm, tính chất quan sát bên − Clustering không cố gắng phân loại, ước lượng hay dự báo giá trị biến mục tiêu b Mơ tả phương pháp K-Means: − Có tham số đầu vào thuật toán số cụm k tham số đầu thuật toán trọng tâm cụm liệu − Áp dụng cho liệu xuất tập liệu mục cụm sử dụng làm thuộc tính lớp Thuộc tính lớp gốc, tồn tại, chuyển sang thuộc tính meta − Tư tưởng K-Means tìm cách phân nhóm đối tượng cho vào k cụm cho tổng bình phương khoảng cách đối tượng đến tâm cụm nhỏ c Quy trình thực tốn phân cụm: − Bước 1: Chọn liệu từ File Audit_risk.csv, không chọn biến Target mà giữ biến độc lập feature − Bước 2: Dùng phương pháp K-Means để phân cụm liệu 23 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 − Bước 3: Dùng Silhouette Plot để minh hoạ liệu Dữ liệu từ Silhouette minh hoạ Scatter Plot Data Table Ảnh 4: Mơ hình quy trình xử lý toán phân cụm d Kết phân loại k-Means: Chạy k-Means từ đến cụm, chọn phân cụm tương ứng với Silhouette cao 0.520 Bảng 6: Kết K-means Minh hoạ kết phân cụm: − Biểu đồ minh hoạ Silhouette Plot: 24 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 Biểu đồ 13: Biểu đồ Silhouette Plot toán phân cụm => Silhouette Plot cho thấy chất lượng việc phân cụm tương đối ổn Các số cụm Silhouette Plot dương − Biểu đồ minh hoạ Scatter Plot: Biểu đồ 14: Biểu đồ Scatter Plot toán phân cụm 25 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 => Ở đồ thị phân cụm, ta thấy phân bố liệu chia thành cụm với nhiều liệu khác nhau, cho kết dựa số Audit_Risk Silhouette e Các kiến thức chuyên ngành liên quan: Việc dùng K-Means để phân cụm liệu Audit risk giúp ta phân biệt công ty có liên quan đến việc gian lận BCTC công ty không gian lận, giúp phân biệt loại bỏ liệu gây nhiễu việc đánh giá mức độ gian lận BCTC Inherent_risk Chỉ số Rủi ro tiềm tàng (Rủi ro cố hữu) Control_risk Chỉ số Rủi ro kiểm soát Detection_risk Chỉ số Rủi ro phát Audit_risk Chỉ số rủi ro kiểm toán Đây số đánh giá rủi ro việc phát gian lận AR=IR.CR.DR Trong : IR (Inherent Risk): Rủi ro tiềm tàng CR (Control Risk): Rủi ro kiểm soát DR (Detection Risk): Rủi ro phát AR (Audit Risk): Rủi ro kiểm toán Dữ liệu kết dựa số rủi ro kiểm toán (Audit_risk) số Silhouette để phân cụm thành nhóm có gian lận Từ đó, doanh nghiệp tìm biện pháp để xử lý rủi ro 26 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 TÀI LIỆU THAM KHẢO Slide đào tạo môn Khoa Học Dữ Liệu – UEH https://archive.ics.uci.edu/ml/datasets/Audit+Data ailieuxanh_ksa_2014_144931_9789.pdf Cùng nghiên cứu liên quan đến ứng dụng máy học chuyên ngành kiểm toán 27 Downloaded by chinh toan (vuchinhhp22@gmail.com) lOMoARcPSD|21993573 LỜI CẢM ƠN Khoa học liệu môn thú vị, kịp thời thời đại số hóa Sinh viên UEH nhóm sinh viên đầu khối ngành kinh tế đất nước Vì vậy, việc ứng dụng khoa học công nghệ vào phát triển kinh tế xem yêu cầu cấp thiết thời đại Trải qua gần tháng học tập, nghiên cứu mơn, nhóm em tiếp thu, lĩnh hội kiến thức vơ bổ ích, phù hợp, hành trang vững để chuẩn bị cho công việc sau Nhờ vào dạy tận tình ThS.Nguyễn Mạnh Tuấn (Thầy Tuấn), nhóm em hiểu phần chương trình khoa học liệu nhận thức tính cấp thiết mơn thời đại Nhóm em xin gửi lời cảm ơn chân thành đến thầy Tuấn, cảm ơn thầy ln tận tình dạy, hỗ trợ kịp thời để giải triệt để khó khăn nhóm gặp phải q trình học Nhóm em chúc thầy ln có thật nhiều sức khỏe, thành cơng nghiệp ln người đưa đị tận tụy với nghề Chân thành cảm ơn thầy! Nhóm 28 Downloaded by chinh toan (vuchinhhp22@gmail.com)