ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN BỘ MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI PHÂN TÍCH DỮ LIỆU CỦA CÔNG TY KIỂM TOÁN VỚI CÔNG CỤ ORANGE Giảng viên hướng dẫn Trương Việt Phương K.
ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN BỘ MÔN KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU CỦA CƠNG TY KIỂM TỐN VỚI CƠNG CỤ ORANGE Giảng viên hướng dẫn : Trương Việt Phương Khóa Năm học Mã lớp học phần Nhóm sinh viên thực : : : : K47 2022-2023 22C1INF50905959 Giang Quốc Hưng Phạm Trường Hưng Phan Thị Ngọc Huyền Nguyễn Thị Tố Như Võ Nguyễn Mỹ Dung Thành phố Hồ Chí Minh, ngày 10 tháng 10 năm 2022 BẢN PHÂN CÔNG CÁC THÀNH VIÊN ĐÁNH GIÁ STT HỌ TÊN NHIỆM VỤ Giang Quốc Hưng Tìm liệu,mơ tả biến,xử lí liệu Orange, Excel,nhận xét 100% Phạm Trường Hưng Tìm liệu,mơ tả biến, xử lí liệu Orange, Excel,nhận xét 100% Nguyễn Thị Tố Như Tìm liệu,mơ tả biến, xử lí liệu Orange, Excel,nhận xét 100% Phan Thị Ngọc Huyền Cơ sở lý thuyết, kết luận tổng hợp Word 100% Võ Nguyễn Mỹ Dung Cơ sở lý thuyết, kết luận tổng hợp Word 100% MỤC LỤC LỜI MỞ ĐẦU LỜI CẢM ƠN DANH MỤC ẢNH CHƯƠNG 1: Tổng quan khoa học liệu đề tài nghiên cứu 1.1 Giới thiệu KHDL: 1.2 Giới thiệu đề tài: 1.2.1 Lý chọn đề tài: 1.2.2 Mục tiêu nghiên cứu: 1.2.3 Phương pháp thực hiện: CHƯƠNG 2: Tổng quan chương trình Orange phương pháp sử dụng 2.1 Tổng quan phần mềm Orange: 2.2 Tổng quan phương pháp sử dụng: 2.2.1 Tiền xử lý liệu 2.2.2 Phân cụm liệu: 2.2.3 Phân lớp liệu ( Classification): 11 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT 14 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 16 4.1 Tiền xử lý: 16 4.1.1 Làm liệu: 16 4.1.2 Loại bỏ biến không phù hợp: 18 4.2 Phân cụm: 20 4.2.1 Phương pháp Hierarchical clustering: 21 4.2.2 Phương pháp K-Means: 23 4.2.3 Trích xuất liệu So sánh với nhãn có: 25 4.3 Phân lớp liệu: 32 4.3.1 Xây dựng mơ hình: 32 4.3.2 Sử dụng mơ hình: 32 4.4 Dự báo: 37 4.4.1 Lấy mẫu liệu: 37 4.4.2 Tiến hành dự báo: 38 4.5 Đánh giá kết nghiên cứu: 39 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 40 5.1 Kết luận: 40 5.2 Hướng phát triển: 41 TÀI LIỆU THAM KHẢO 42 LỜI MỞ ĐẦU Cùng với phát triển khoa học kĩ thuật trình chuyển đổi số, mà liệu tồn khắp nơi ngày trở nên đa dạng, phức tạp, ngành khoa học rút trích phân tích liệu xuất dần trở thành lĩnh vực đóng vai trị quan trọng thời đại ngày Song song với đó, nhiều doanh nghiệp, tổ chức nhiều lĩnh vực dành quan tâm đến việc tìm cơng cụ, mơ hình phân tích, xử lý liệu cách xác, góp phần gia tăng suất hiệu cơng việc Do đó, việc ứng dụng khoa học liệu kĩ thuật công nghệ vô cần thiết, đặc biệt lĩnh vực kiểm toán – lĩnh vực địi hỏi trung thực xác cao Những hoạt động gian lận tài vấn đề nghiêm trọng cản trở tồn phát triển doanh nghiệp Chính thế, lựa chọn liệu External Audit cơng ty kiểm tốn Ấn Độ phân tích đánh giá cơng cụ Orange hướng đến xây dựng mơ hình phân loại dự đốn cơng ty gian lận sở yếu tố rủi ro lịch sử nhằm giảm tối đa khả xảy sai sót trọng yếu báo cáo tài Chúng tơi làm rõ vấn đề tiểu luận LỜI CẢM ƠN Để hoàn thành tiểu luận với chủ đề “Phân tích liệu External Audit thơng qua thuật tốn Orange” ngồi nỗ lực thành viên, chúng em xin gửi lời cảm ơn chân thành đến: -Trường đại học Kinh tế TP.HCM đưa mơn học Khoa học liệu vào chương trình giảng dạy giúp cung cấp tri thức hữu ích cho ngành học chuyên môn chúng em - Giảng viên hướng dẫn – thầy Trương Việt Phương hỗ trợ nhiệt tình, giảng dạy tâm huyết để chúng em hồn thành tiểu luận môn học cách trọn vẹn Khoa học liệu mơn học vơ hữu ích, cung cấp cho chúng em nhiều kiến thức thực tiễn,rèn luyện tinh thần thái độ học tập Tin kiến thức gắn liền với chúng em đường nghiệp sau Chúng em xin chân thành cảm ơn! DANH MỤC ẢNH Hình 4.1.1.a:Bảng mơ thống kê mô tả biến khảo sát liệu gốc Hình 4.1.1.b: Type Role ban đầu thuộc tính Hình 4.1.1.c: Kết thực điều chỉnh Role Hình 4.1.1.d: Kết đánh giá thuộc tính Rank Hình 4.1.1.f :Bảng thể thao tác phần tiền xử lí liệu Hình 4.2.a: Bước xử lí skip thuộc tính “Risk” Hình 4.2.b:Chuỗi thao tác thực phân cụm liệu Hình 4.2.1.a: Kết phân cấp Orange Hình 4.2.1.b:Bảng Silhouette Plot cho phân cụm phân cấp Hình 4.2.2.a: Bảng phân tích k-Means cho liệu Hình 4.2.2.b:Bảng Silhouette Plot cho phân cụm phân hoạch Hình 4.2.3.a: Bảng liệu excel phân cụm theo phương pháp Hierarchical clustering Hình 4.2.3.b: Bảng liệu excel phân cụm theo phương pháp k-Means Hình 4.2.3.c: Kết tổng hợp Pivot Table Hình 4.2.3.d:Bảng liệu sau dán nhãn copy nhãn có Hình 4.2.3.e:Câu lệnh dán nhãn cho liệu phân cụm Hình 4.2.3.f: So sánh liệu phân cụm nhãn có Hình 4.2.3.g: Bảng hiển thị kết so sánh với nhãn có Hình 4.2.3.h:Bảng liệu sau dán nhãn copy nhãn có\ Hình 4.2.3.i: Câu lệnh dán nhãn cho liệu phân cụm Hình 4.2.3.j: So sánh liệu phân cụm nhãn có Hình 4.2.3.k: Bảng hiển thị kết so sánh với nhãn có Hình 4.3.1: Chuỗi thao tác phân lớp liệu Hình 4.3.2.a: Phân lớp liệu theo phương pháp Cây định Hình 4.3.2.b:Kết chia mẫu liệu phần (Cross validation) Hình 4.3.2.c:Kết chia mẫu liệu 10 phần (Cross validation) Hình 4.3.2.d:Kết chia mẫu liệu 50-90% (Random Samping) Hình 4.3.2.e:Kết chia mẫu liệu 20-75% (Random Samping) Hình 4.3.2.f: Kết ma trận nhầm lẫn phương pháp Decision Tree Hình 4.3.2.g: Kết ma trận nhầm lẫn phương phápLogistic Regression Hình 4.3.2.h: Kết ma trận nhầm lẫn phương pháp SVM Hình 4.3.2.i: Đường cong ROC Hình 4.4.1.a: Nạp liệu Hình 4.4.1.b: Lấy 10% mẫu từ liệu Hình 4.4.2.a: Mơ hình dự báo cho 10% mẫu dự liệu Hình 4.4.2.b: Kết dự báo CHƯƠNG 1: Tổng quan khoa học liệu đề tài nghiên cứu 1.1 Giới thiệu KHDL: Khoa học liệu lĩnh vực nghiên cứu xuất thời gian gần dần khẳng định tầm quan trọng vị Khái niệm dần trở nên quen thuộc thực “Khoa học liệu” gì? Khoa học liệu ngành khoa học việc quản trị phân tích liệu, trích xuất giá trị từ liệu để tìm hiểu biết, tri thức hành động, định dẫn dắt hành động Khoa học liệu nghiên cứu xử lý khối liệu khổng lồ để tìm kiếm, phân tích thu thơng tin có ý nghĩa hỗ trợ đưa định kinh doanh Do đó, học Data Science khơng học phân tích liệu, mà cịn học cách đánh giá tình hình dự đốn tương lai để điều hành doanh nghiệp cách có hiệu Khoa học liệu gồm có ba phần chính: Tạo quản trị liệu, phân tích liệu chuyển kết phân tích thành giá trị hành động Việc phân tích dùng liệu dựa vào ba nguồn tri thức: tốn học, cơng nghệ thơng tin tri thức lĩnh vực ứng dụng cụ thể Mục đích ngành làm thay đổi lượng lớn liệu chưa xử lý, làm để định hình mơ hình kinh doanh phù hợp, từ góp phần giúp tổ chức giảm chi phí, tăng cao hiệu cơng việc, phát rủi ro hội thị trường làm gia tăng lợi cạnh tranh doanh nghiệp Để nghiên cứu khoa học liệu, bạn cần phải thực quan sát, đặt câu hỏi, hình thành giả thuyết, tạo kiểm tra, phân tích kết đưa khuyến nghị thực tế Khoa học liệu bao gồm lĩnh vực: Khai thác liệu (Data mining), Thống kê (Statistic), Học máy (Machine learning), Phân tích (Analyze) Lập trình (Programming) Khoa học liệu xếp thứ bảng xếp hạng “Những ngành quan trọng với lĩnh vực” Tổ chức Glassdoor Điều cho thấy, khơng có ứng dụng mạnh mẽ cơng nghệ, Data science cịn yếu tố cần thiết quan trọng loại hình doanh nghiệp 1.2 Giới thiệu đề tài: 1.2.1 Lý chọn đề tài: Trong thời buổi bùng nổ công nghệ thông tin nay, cơng nghệ Điện tốn đám mây, AI, Blockchain, IoTs,… ngày phát triển mạnh mẽ ứng dụng rộng rãi đa phần lĩnh vực đời sống song song đó, việc khai thác, phân tích liệu ngày trọng, bật việc thu thập, khai thác, phân tích dự báo tượng kinh tế lĩnh vực tài chính, kế tốn chúng tơi đề cập đến Để phân tích liệu cách tự động đạt hiệu quả, cần đến tảng, phần mềm, công cụ để hỗ trợ như: Excel, Python, Power BI, SQl Với liệu mà nhóm thực thu thập được, chúng tơi sử dụng phần mềm Orange để xây dựng quy trình khai thác liệu trực quan - phần mềm khai thác liệu phổ biến thực mà khơng cần lập trình Nhóm sử dụng liệu cơng ty kiểm tốn Ấn Độ Mục tiêu liệu giúp kiểm tốn viên xây dựng mơ hình phân loại dự đốn cơng ty gian lận sở yếu tố rủi ro lịch sử Trong q trình thực hiện, kiểm tốn viên kiểm tra hoạt động kinh doanh văn phịng phủ khác mục tiêu nhằm đến văn phịng với khả xảy sai sót cao mức độ nghiêm trọng Điều tính tốn cách đánh giá rủi ro liên quan đến mục tiêu báo cáo tài (Houston, Peters Pratt 1999) Dữ liệu sau phân tích Orange, đưa số nhận xét kết luận, đánh giá hiệu nghiên cứu Và lí mà nhóm tác giả chọn đề tài 1.2.2 Mục tiêu nghiên cứu: - Khám phá liệu - Làm liệu - Phân cụm, phân lớp liệu - So sánh dựa nhãn “Risk” cho việc phân loại rủi ro có tồn hay khơng - Cung cấp nhìn tổng quan hoạt động cơng ty, từ đưa nhận xét đánh giá dựa liệu phân tích 1.2.3 Phương pháp thực hiện: Nhóm tác giả sử dụng phần mềm Orange để tiến hành thực xử lý liệu, phân cụm, phân lớp liệu tiến hành dự báo cho nhóm liệu ngẫu nhiên chưa phân lớp - Để thực phân cụm liệu nhóm sử dụng hai loại phương pháp Hierarchical clustering phương pháp phân cụm K-means + Đối với Hierarchical clustering nhóm tiến hành tính khoảng cách phần tử Distance.Tiếp theo nhóm quan sát liệu phân cụm với số cụm từ đến quan sát Silhouette Plot + Đối với phương pháp K-means nhóm quan sát số Silhouette trung bình phân liệu từ đến cụm sau chọn số cụm có số Silhouette tốt, phù hợp với số lượng biến có sẵn liệu quan sát Silhouette Plot Sau quan sát hai phương pháp qua số Silhouette, nhóm tiến hành đánh giá chọn phương pháp tốt để phân cụm cho liệu “Audit Data” - Đối với việc phân lớp liệu, nhóm chọn biến “Risk” biến mục tiêu, tiến hành phân lớp phương pháp Cây định (Decision Tree), SVM (Support Vector Machine) Hồi quy Logistic (LogisticRgression) Nhóm đánh giá mơ hình cách sử dụng phương pháp đánh Test and Score, quan sát số AUC mô hình cuốicùng quan sát Confused Matrix CHƯƠNG 2: Tổng quan chương trình Orange phương pháp sử dụng 2.1 Tổng quan phần mềm Orange: Orange hệ điều hành nhân Linux (Dòng Minimal X OpenSUSE) Hệ điều hành dựa kiến trúc x86 (32-bit) Intel chạy vi x86 Intel hay AMD Orange thư viện quy trình đối tượng cốt lõi C ++ kết hợp nhiều thuật toán Data mining học máy tiêu chuẩn không tiêu chuẩn Orange mơi trường viết kịch để tạo mẫu nhanh thuật toán mẫu thử nghiệm Nó nhóm mơ-đun dựa python tồn thư viện lõi Phần mềm Orange biết đến việc tích hợp cơng cụ khai phá liệu mã nguồn mở học máy thơng minh, đơn giản, lập trình Python với giao diện trực quan tương tác dễ dàng Với nhiều chức năng, phần mềm phân tích liệu từ đơn giản đến phức tạp, tạo đồ họa đẹp mắt thú vị giúp việc khai thác liệu học máy trở nên dễ dàng cho người dùng chuyên gia Các công cụ (widgets) cung cấp chức đọc liệu, hiển thị liệu dạng bảng, lựa chọn thuộc tính đặc điểm liệu, huấn luyện liệu để dự đoán, so sánh thuật toán máy học, trực quan hóa phần tử liệu,… Orange cung cấp cho người dùng tập toolbox tinh gọn giúp người dùng bắt tay vào việc phân tích liệu, bao gồm: Data: dùng để rút trích, biến đổi, nạp liệu (ETL process) Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát liệu tốt Model: gồm hàm machine learning phân lớp liệu Evaluate: phương pháp đánh giá mơ hình máy học Unsupervised: gồm hàm machine learning gom nhóm liệu 2.2 Tổng quan phương pháp sử dụng: 2.2.1 Tiền xử lý liệu Tiền xử lý liệu trình xử lý liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng liệu (quality of the data) đó, cải thiện chất lượng kết khai phá Dữ liệu ban đầu thu thập từ thực tế thường định dạng thơ, khơng khả thi cho việc phân tích, liệu cần xử lý, làm biến đổi trước Chính thế, tiền xử lý liệu bước quan trọng việc giải vấn đề Data Mining Q trình tiền xử lí liệu bao gồm: Làm liệu, Tích hợp biến đổi liệu Rút gọn liệu Hình 4.2.3.e: Câu lệnh dán nhãn cho liệu phân cụm Tiếp theo, ta tiến hành so sánh biến liệu phân cụm theo phương pháp Hierarchical clustering với nhãn có Excel với câu lệnh “=Z2=A22”, thu kết sau: Hình 4.2.3.f: So sánh liệu phân cụm nhãn có Cuối cùng, ta thực đếm số lượng mẫu phân cụm xác câu lện = COUNTIF(AB2:AB775;AB770), sau lấy số mẫu phân cũm xác chia cho tổng số 776 mẫu có nhãn Kết thu có 473 mẫu phân cụm xác, chiếm 60,9536% 28 Hình 4.2.3.g: Bảng hiển thị kết so sánh với nhãn có b So sánh liệu phân cụm phương pháp k-Means với liệu có nhãn sẵn ban đầu: Đầu tiên, nhóm thực chép liệu từ cột “Risk” liệu tiền xử lí sang liệu phân cụm phương pháp k-Means 29 Hình 4.2.3.h: Bảng liệu sau dán nhãn copy nhãn có Sau đó, nhóm tiến hành dán nhãn cho liệu phân cụm dựa kết phân cụm excel nhờ câu lệnh =IF(Y2="C1";0;1) sau kéo cho 776 kết khảo sát lại, cụ thể sau: Hình 4.2.3.i: Câu lệnh dán nhãn cho liệu phân cụm Tiếp tục, ta tiến hành so sánh liệu phân cụm theo phương pháp k-Means với nhãn có Excel với câu lệnh “=AA2=AB2”, thu kết sau: 30 Hình 4.2.3.j: So sánh liệu phân cụm nhãn có Cuối cùng, ta thực đếm số lượng mẫu phân cụm xác câu lệnh = COUNTIF(AB2:AB775;AB770), sau lấy số mẫu phân cụm xác chia cho tổng số 776 mẫu có nhãn Kết thu có 610 mẫu phân cụm xác, chiếm 78,6082% 31 Hình 4.2.3.k: Bảng hiển thị kết so sánh với nhãn có Như sau thực so sánh phân cụm theo phương pháp với nhãn có phân cụm theo phương pháp k-Means đáng tin cậy xác phương pháp Hierarchical clustering theo phương án đánh giá ngoại (78,6082% > 60,9536%) 4.3 Phân lớp liệu: 4.3.1 Xây dựng mơ hình: Nhóm sử dụng liệu ban đầu (có nhãn thực tiền xử lý), tiến hành phân lớp theo ba phương pháp: - Cây định (Decision Tree) - Hồi quy Logistic (Logistic Regression) - SVM (Support Vector Machine) Hình 4.3.1: Chuỗi thao tác phân lớp liệu 4.3.2 Sử dụng mơ hình: Phân lớp liệu với Phương pháp Cây quyế t định (Decision Tree): 32 Trong mảng khai thác liệu, phương pháp định phương pháp để mô tả, phân loại tổng quát hóa tập liệu cho trước Đây phương pháp đơn giản, dễ hiểu xử lý hiệu lượng liệu lớn thời gian ngắn Nhìn bảng kết Tree viewer ta thấy, liệu sau phân lớp làm Nodes nhánh cho thấy định phân loại tổng quát hóa tập liệu rõ ràng Hình 4.3.2.a: Phân lớp liệu theo phương pháp Cây định Sau thực thao tác phân lớp liệu, ta tiến hành đánh giá mơ hình phân lớp (kiểm tra tính đắn mơ hình) cơng cụ sau: a Sử dụng Test and Score: Ta dùng công cụ Test and Score phương pháp để so sánh, đánh giá thuật toán lựa chọn phương pháp tốt để tiến hành dự báo Tại bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác Cross validation hay Random Sampling… Dưới số kết Bảng Test and Score với số cách chia tỉ lệ lấy mẫu khác nhau: Hình 4.3.2.b: Kết chia mẫu liệu phần (Cross validation) 33 Hình 4.3.2.c: Kết chia mẫu liệu 10 phần (Cross validation) Hình 4.3.2.d: Kết chia mẫu liệu 50-90% (Random Samping) Hình 4.3.2.e: Kết chia mẫu liệu 20-75% (Random Samping) Nhận xét: Tại mục “Evaluation results for target” cho ta biết số đánh giá mơ hình: Decision Tree, SVM, Logistic Regression Để đánh giá mơ hình ta dựa vào số AUC, CA Nhìn chung qua trường hợp, ta thấy số đánh giá cho mô hình Logistic Regression cao mơ hình SVM thấp mơ hình Decision Tree Đặc biệt số mơ hình định đánh giá với số thấp hẳn hai mơ hình cịn lại Như vậy, thuật tốn Decision Tree khơng phải mơ hình tốt so sánh với hai thuật tốn cịn lại Cịn hai mơ hình cịn lại đánh giá cao, nhiên so sánh 34 trường hợp, ta thấy mơ hình Logistic Regression cao SVM số trường hợp chia mẫu, đặc biệt số AUC mơ hình Logistic Regression tất trường hợp chia mẫu đề Nên nói theo cơng cụ Test and Score Logistic Regression phương pháp phân lớp hiệu b Sử dụng Ma trận nhầm lẫn (Confusion Matrix): Ma trận nhầm lẫn (Confusion Matrix) phương pháp hữu ích việc đánh giá xác hiệu mơ hình phân lớp liệu Nhóm định sử dụng Ma trận nhầm lẫn để đánh giá ba phương pháp phân lớp thực thu kết sau: Hình 4.3.2.f: Kết ma trận nhầm lẫn phương pháp Decision Tree Hình 4.3.2.g: Kết ma trận nhầm lẫn phương pháp Logistic Regression 35 Hình 4.3.2.h: Kết ma trận nhầm lẫn phương pháp SVM Nhận xét: Trong Ma trận nhầm lẫn, số cần quan tâm đến Accuracy (tính xác) Đây tỷ lệ số mẫu phân lớp toàn tập liệu, tính theo cơng thức (TP+TN)/n Một mơ hình đánh giá tốt xác có số Accuracy (tính xác) cao Dựa vào lý thuyết kết thu thao tác với Ma trận nhầm lẫn , ta nhận xét mơ hình phương pháp Decision Tree mang lại kết tốt số ACC= 0,9987 Phương pháp Hồi quy Logistic phương pháp SVM có giá trị 0,9923 0,9673 Như vậy, theo Ma trận nhầm lẫn phương pháp Cây định phương pháp phù hợp c Sử dụng đường cong ROC: ROC Analysis: phương tiện so sánh mơ hình phân loại Đường cong gần đường viền bên trái sau đường viền khơng gian ROC, phân loại xác 36 Hình 4.3.2.i: Đường cong ROC Nhận xét: Một mơ hình hiệu quả, đáng tin cậy đường cong ROC tiệm cận với điểm (0;1) đồ thị Quan sát bảng kết ta thấy đường màu xanh mơ hình Tree đường màu cam mơ hình Logistic Regression hai mơ hình tiệm cận với điểm (0;1) Cịn mơ hình SVM lại bị đánh giá thấp Kết luận: Phương pháp phân lớp Logistic Regression phương pháp tốt vì: + Phương pháp có AUC (Area Under the Curve) hay diện tích nằm đường cong ROC lớn (xấp xỉ 1), tức có mơ hình tốt nhất; + Phương pháp có CA (Accuracy) hay tính xác cao thứ 2; + Độ xác (Precision) cao nhất; + Phương pháp có hiệu cao có đường cong ROC tiệm cận với điểm (0;1) 4.4 Dự báo: Sau thực phân lớp đánh giá mơ hình phân lớp, ta lựa chọn phương pháp Logistic Regression tốt Vì vậy, ta dùng Logistic Regression để tiến hành dự báo 4.4.1 Lấy mẫu liệu: Đưa liệu ban đầu qua tiền xử lý vào Orange, skip biến Location_ID khơng tham gia vào mơ hình đồng thời skip biến phụ thuộc Risk 37 Hình 4.4.1.a: Nạp liệu Sử dụng Data Sampler trích 10% từ file liệu xử lý tiền liệu, xem chưa có nhãn để tiến hành dự báo (nghĩa ta lấy 78 mẫu liệu với 25 biến khơng có liệu bị thiếu) Hình 4.4.1.b: Lấy 10% mẫu từ liệu 4.4.2 Tiến hành dự báo: Sử dụng Predictions để dự báo liệu theo phương pháp Logistic Regression 38 Hình 4.4.2.a: Mơ hình dự báo cho 10% mẫu dự liệu Kết dự báo: Hình 4.4.2.b: Kết dự báo Sau hồn thành dự báo ta thực lưu kết dự báo máy với tên File KQDuBao.xlxs 4.5 Đánh giá kết nghiên cứu: Như vậy, tiểu luận nhóm tìm hiểu kĩ hơn, sâu ngành “Khoa học liệu”, phần mềm Orange xây dựng mơ hình xử lý liệu 39 phần mềm Orange, áp dụng mơ hình xây dựng để xử lý liệu “RISK” lấy từ cơng ty kiểm tốn Ấn Độ thuật toán phân cụm phân lớp Kết cho thấy phân lớp liệu, phương pháp Logistic Regression cho kết hiệu thông qua ma trận nhầm lẫn số đánh giá Ngồi kết mơ hình cịn cho thấy thuật tốn Logistic Regression mơ hình Decision Tree hợp lí tính đáng tin cậy khơng cao phương pháp Hồi Quy liệu Cịn phân cụm liệu, mơ hình K-means thể ưu điểm tốt mơ hình Hierarchical Clustering Từ kết thực cho thấy Thuật toán K-means thực tương đối nhanh, thuật toán Hierarchical Clustering phương pháp phân cụm dễ hiểu, nhiên tốc độ chậm Nhóm sử dụng mơ hình để tiến hành dự báo cho 10% mẫu liệu lấy từ liệu Loan Predication cho kết tích cực CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận: Thông qua liệu “Audit Data” với mục tiêu liệu giúp kiểm tốn viên xây dựng mơ hình phân loại dự đốn cơng ty gian lận sở yếu tố rủi ro khứ, nhóm tác giả tiến hành tiền xử lý liệu, loại bỏ số biến khơng cần thiết, nhóm thực phân lớp phân cụm liệu với nhiều phương pháp khác Sau phân tích, so sánh đánh giá phương pháp nhóm chọn phân lớp với phương pháp Losgistic Regression phân cụm với phương pháp Hierarchical Clustering hai phương án hiệu đáng tin cậy Kiểm toán nhiệm vụ quan trọng để xác định hành vi gian lận tổ chức tài Áp dụng Learning machine vào q trình kiểm tốn đạt hiệu việc kiểm tra liệu kiểm toán Từ phân tích này, nhà kiểm tốn dự đốn hành vi gian lận cơng ty nhằm mục đích đề xuất quy trình để đánh giá rủi ro doanh nghiệp trình lập kế hoạch kiểm tốn Từ ta thấy phần mềm Orange hữu ích việc vận dụng kiến thức khoa học liệu để phân tích đưa dự báo tốt qua phương pháp Hồi quy Logistics, k-Means, Bên cạnh đó, tiến hành phân tích liệu với phần mềm Orange giúp nhóm có thêm hội tiếp cận thực hành nhiều với “Khoa học liệu” Nhờ nhóm hiểu ưu điểm, điểm mạnh phân tích liệu, phần Orange nhận thấy với phương pháp phân tích liệu có đặc điểm tương thích riêng với liệu khác Chúng có điểm mạnh yếu tùy theo đặc trưng liệu, việc phân tích đánh giá liệu 40 quan trọng việc lựa chọn phương pháp tối ưu để đem lại kết cao dự báo 5.2 Hướng phát triển: Sau thực phân tích, nhóm đưa số đề xuất để hỗ trợ kiểm tốn viên phát ngăn chặn tình trạng gian lận công ty việc lập Báo cáo tài sau: - Rủi ro liên quan đến thay đổi lớn giả định liên quan đến ước tính Do đó, kiểm toán viên cần quan tâm đến việc thu thập thông tin liên quan đến hoạt động, môi trường kinh doanh doanh nghiệp ước tính, giả định, rủi ro kỳ trước làm sở để đưa kết đánh giá xác tính đắn hợp lí ước tính, giả định mà doanh nghiệp sử dụng rủi ro gian lận kỳ Theo phân tích mà nhóm thực hiện, cơng ty có sai sót lớn số tiền q trình kiểm tốn trước có xu hướng có điểm rủi ro gian lận cao nên kiểm toán viên cần đặc biệt ý đến số - Mặc dù kiểm tốn viên xác định hội thực hành vi gian lận, khó để xác định sai sót lĩnh vực mà họ xem xét, ước tính kế tốn, gian lận hay nhầm lẫn Do đó, kiểm tốn viên cần nâng cao trình độ nghiệp vụ chun mơn, ln giữ thái độ hoài nghi nghề nghiệp suốt q trình thực kiểm tốn Ngồi cần sử dụng mơ hình thống kê, học máy phù hợp để hỗ trợ phân tích nhằm giảm thiểu rủi ro cho kiểm tốn viên khơng nhận diện hành vi gian lận công ty q trình thực kiểm tốn - Về phía cơng ty, doanh nghiệp, sai sót trọng yếu dẫn đến gian lận BCTC phần hành vi có chủ ý, đến từ nguyên nhân chủ quan trình độ nghiệp vụ kế tốn viên cịn hạn chế, chưa có đầy đủ kinh nghiệm làm việc, thiếu trung thực, khách quan q trình ghi nhận, đánh giá… Chính thế, doanh nghiệp nên có chế độ khuyến khích thưởng phạt rõ ràng kế toán nâng cao trình độ chun mơn; thường xun cập nhật thay đổi chế độ kế toán hành thông tin chuyên môn nghiệp vụ phù hợp với lĩnh vực hoạt động doanh nghiệp - Các doanh nghiệp cần tăng cường hoàn thiện hệ thống kiểm sốt nội Khi doanh nghiệp có hệ thống kiểm sốt nội hoạt động hiệu khả ngăn ngừa hành vi gian lận hoạt động cơng ty kiểm sốt tốt giảm thiểu đáng kể Tính xác số liệu kế tốn BCTC cơng ty đảm bảo => Từ phân tích vừa rồi, mơ hình phân lớp Logistic Regression dự báo khả có hành vi gian lận cơng ty với tính xác khoảng 99,87% Tuy nhiên, chúng tơi chưa thể nghiên cứu nhiều tập liệu để nhận diện số cơng ty có sai sót trọng yếu gây gian lận thơng tin BCTC đó, cơng ty có biểu ổn định Ở dự án tương lai, chúng tơi tìm cách tối ưu hóa phương pháp thống kê học máy để cải thiện kết nghiên cứu Chúng sử 41 dụng phương pháp tổng hợp vào việc phân tích liệu kiểm tốn để đưa kết quán cho liệu gian lận không đồng với TÀI LIỆU THAM KHẢO Phạm Đình Khánh,”DEEP AI” ,2021 https://phamdinhkhanh.github.io/deepai-book/intro.html (truy cập 2/10/2022) Vũ Minh Đông, “Một số phương pháp phân cụm liệu”, Đồ án tốt nghiệp ĐHDL Hải Phòng https://lib.hpu.edu.vn/bitstream/handle/123456789/18074/12_VuMinhDong_CT1002 pdf ( truy cập 3/10/2022) Lưu Tuấn Lâm, “Thuật toán phân cụm liệu nửa giám sát”, Đồ án tốt nghiệp ĐHDL Hải Phòng https://www.thuvientailieu.vn/tai-lieu/do-an-thuat-toan-phan-cum-du-lieu-nua-giamsat-10750/(truy cập 3/10/2022) “Phân tích liệu Bank Marketing qua thuật tốn Orange”, Tiểu luận mơn Khoa học liệu, Đại học Kinh tế TP.HCM, 2021 “Data mining sử dụng Orange”, 2022 https://websitehcm.com/data-mining-su-dung-orange/ (truy cập 4/10/2022) Nguyễn Thị Hoa, “Phân lớp quan điểm khách hàng ứng dụng”, Luận văn thạc sỹ, Đại học Công nghệ thông tin truyền thông, Thái Nguyên, 2016 http://tailieudientu.lrc.tnu.edu.vn/Upload/Collection/brief/brief_57868_201710131031 23_28nguyen%20thi%20thoa.pdf (tuy cập 3/10/2022) Nguyễn Đăng Huy, “Kiểm toán viên độc lập việc phát gian lận sai sót kiểm tốn báo cáo tài chính”, Tạp chí Kế toán & Kiểm toán Hội Kế toán Kiểm toán Việt Nam 42 ... thiệu KHDL: Khoa học liệu lĩnh vực nghiên cứu xuất thời gian gần dần khẳng định tầm quan trọng vị Khái niệm dần trở nên quen thuộc thực ? ?Khoa học liệu? ?? gì? Khoa học liệu ngành khoa học việc quản... huyết để chúng em hồn thành tiểu luận mơn học cách trọn vẹn Khoa học liệu mơn học vơ hữu ích, cung cấp cho chúng em nhiều kiến thức thực tiễn,rèn luyện tinh thần thái độ học tập Tin kiến thức gắn... đó, học Data Science khơng học phân tích liệu, mà cịn học cách đánh giá tình hình dự đoán tương lai để điều hành doanh nghiệp cách có hiệu Khoa học liệu gồm có ba phần chính: Tạo quản trị liệu,