TÓM TẮT Nghiên cứu này được thực hiện nhằm ứng dụng các mô hình học máy để đánh giá rủi ro kiểm toán trong quá trình kiểm toán báo cáo tài chính, cụ thể là tại Deloitte.. Bằng cách sử dụ
GIỚI THIỆU NGHIÊN CỨU
Lý do chọn đề tài
Tiến bộ trong lĩnh vực học máy đã mở ra cánh cửa cho các ứng dụng mới trong nhiều lĩnh vực, bao gồm cả kiểm toán Thuật toán học máy có khả năng xử lý dữ liệu lớn và phức tạp, từ đó cung cấp những thông tin quý giá trong việc đánh giá rủi ro trong quy trình kiểm toán báo cáo tài chính Môi trường kinh doanh đang ngày càng trở nên phức tạp với sự thay đổi nhanh chóng của công nghệ, chính sách, và yêu cầu của thị trường, dẫn đến việc tăng cường các yếu tố rủi ro trong quy trình kiểm toán Sự linh hoạt của thuật toán học máy có thể giúp đối phó với sự phức tạp này bằng cách tự động hóa việc phát hiện các mẫu rủi ro
Ngoài ra, nhu cầu ngày càng tăng của thị trường đòi hỏi sự minh bạch và đáng tin cậy trong báo cáo tài chính Để đáp ứng nhu cầu này, các công ty kiểm toán như Deloitte cần áp dụng các phương pháp đánh giá rủi ro tiên tiến Việc áp dụng học máy trong đánh giá rủi ro kiểm toán có thể giúp giảm thiểu các sai sót của con người, tối ưu hóa quy trình làm việc và tăng cường hiệu quả công việc Điều này mang lại lợi ích cho cả công ty kiểm toán và khách hàng của họ bằng cách cung cấp thông tin chính xác và đáng tin cậy Chính vì thế, tác giả thực hiện ứng dụng học máy để đánh giá rủi ro kiểm toán trong kiểm toán báo cáo tài chính để nghiên cứu và đề xuất các giải pháp hiệu quả, đáp ứng yêu cầu minh bạch và đáng tin cậy của thị trường, cũng như các công ty kiểm toán.
Mục tiêu nghiên cứu
Mục tiêu tổng quát: Mục tiêu nghiên cứu của đề tài là tìm hiểu và đánh giá khả năng ứng dụng của các phương pháp học máy trong việc xác định và quản lý rủi ro kiểm toán, nhằm nâng cao hiệu quả và chất lượng của quy trình kiểm toán báo cáo tài chính tại Deloitte Việt Nam Thông qua nghiên cứu này, đề tài sẽ phân tích các phương pháp học máy hiện đại, so sánh với các phương pháp truyền thống, và xác định những ưu điểm cũng như hạn chế của từng phương pháp khi áp dụng vào thực tế Đồng thời, nghiên cứu sẽ đưa ra các đề xuất cụ thể về việc triển khai và tối ưu hóa các phương pháp học máy trong quy trình kiểm toán, góp phần nâng cao năng lực đánh giá rủi ro và đảm bảo tính chính xác của báo cáo tài chính
Phân tích các phương pháp học máy hiện đại và so sánh chúng với các phương pháp truyền thống trong việc đánh giá rủi ro kiểm toán Đánh giá kết quả của từng phương pháp học máy khi áp dụng vào đánh giá rủi ro kiểm toán báo cáo tài chính Đề xuất ý kiến cụ thể để triển khai và tối ưu hóa các công cụ học máy trong quy trình kiểm toán, nhằm nâng cao hiệu quả và chất lượng của quy trình này tại Deloitte Việt Nam.
Phương pháp nghiên cứu
Phương pháp nghiên cứu chính của đề tài này là áp dụng các kỹ thuật học máy để đánh giá rủi ro kiểm toán trong kiểm toán báo cáo tài chính, với một nghiên cứu cụ thể tại Deloitte Việt Nam Nghiên cứu bắt đầu bằng việc xây dựng một khung lý thuyết dựa trên các mô hình học máy phổ biến như cây quyết định, rừng ngẫu nhiên, và máy vector hỗ trợ để phân tích và dự đoán rủi ro Quy trình thực hiện bao gồm thu thập dữ liệu từ các báo cáo tài chính trên thị trường chứng khoán, làm sạch và chuẩn hóa dữ liệu, huấn luyện và kiểm thử mô hình học máy và cuối cùng là đánh giá và so sánh kết quả dựa trên các chỉ số như độ chính xác, độ nhạy, độ đặc hiệu, và ma trận nhầm lẫn
Cụ thể, quá trình nghiên cứu bắt đầu với việc thu thập dữ liệu từ báo cáo tài chính chưa được kiểm toán bởi Deloitte và các nguồn dữ liệu công khai Các biến tài chính như lợi nhuận gộp, tỷ lệ nợ/vốn chủ sở hữu, ROE và các biến phi tài chính như quy mô công ty, ngành nghề được sử dụng Sau đó, dữ liệu được làm sạch để loại bỏ các giá trị thiếu hoặc không hợp lệ và chuẩn hóa để đưa các biến về cùng một thang đo Dữ liệu được chia thành tập huấn luyện và tập kiểm tra theo tỷ lệ 70:30 Các mô hình học máy như cây quyết định, rừng ngẫu nhiên, và máy vector hỗ trợ được sử dụng để huấn luyện mô hình trên tập huấn luyện và đánh giá trên tập kiểm tra Kết quả được phân tích để xác định các biến có ảnh hưởng lớn nhất đến biến phụ thuộc và dự đoán rủi ro kiểm toán cho các công ty chưa được kiểm toán Cuối cùng, nghiên cứu kết luận về hiệu quả của các mô hình học máy trong việc đánh giá rủi ro kiểm toán và đề xuất các kết quả đối với Deloitte khi áp dụng các kỹ thuật này trong quy trình kiểm toán, cũng như gợi ý các hướng nghiên cứu tiếp theo để cải thiện mô hình và quy trình.
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Phương pháp và kỹ thuật học máy được ứng dụng trong đánh giá rủi ro kiểm toán của quy trình kiểm toán báo cáo tài chính
Không gian: Dựa trên các Báo cáo tài chính chưa được kiểm toán bởi công ty kiểm toán Deloitte
Thời gian: Nghiên cứu sẽ tập trung vào một khoảng thời gian cụ thể từ 2019-2023 để đảm bảo dữ liệu được sử dụng là tương đối mới nhất và thể hiện xu hướng hiện tại của quy trình kiểm toán.
Câu hỏi nghiên cứu
Phương pháp, thuật toán học máy nào có thể được ứng dụng hiệu quả nhất trong việc đánh giá rủi ro kiểm toán trong quy trình kiểm toán báo cáo tài chính ?
Làm thế nào các biến số và tính năng trong dữ liệu kiểm toán có thể được chọn lọc và tối ưu hóa để đảm bảo độ chính xác và hiệu quả của mô hình học máy?
Làm thế nào để đảm bảo tính minh bạch và khả kiểm chứng trong việc sử dụng các mô hình học máy trong quy trình kiểm toán của Deloitte?
Kết cấu khóa luận
Chương 1: Giới thiệu nghiên cứu
Chương 2: Các nghiên cứu liên quan
Chương 3: Cơ sở lý thuyết và phương pháp nghiên cứu
Chương 4: Kết quả nghiên cứu và thảo luận
Chương 5: Kết luận và hàm ý
Chương 1 của khóa luận đã giới thiệu tổng quan về nghiên cứu ứng dụng học máy trong đánh giá rủi ro kiểm toán báo cáo tài chính tại Deloitte Việt Nam Mục tiêu nghiên cứu là xác định và quản lý rủi ro kiểm toán thông qua các phương pháp học máy, nâng cao hiệu quả và chất lượng quy trình kiểm toán Lý do chọn đề tài là sự cần thiết cải tiến các phương pháp truyền thống để đáp ứng yêu cầu ngày càng cao trong ngành kiểm toán Đối tượng nghiên cứu là quy trình kiểm toán báo cáo tài chính và các công cụ học máy ứng dụng trong lĩnh vực này, với phạm vi tập trung tại Deloitte Việt Nam Câu hỏi nghiên cứu chính là làm thế nào để ứng dụng học máy hiệu quả trong quy trình kiểm toán, và kết cấu khóa luận bao gồm các phần chính từ giới thiệu, phương pháp nghiên cứu, phân tích dữ liệu đến kết luận và đề xuất.
CÁC NGHIÊN CỨU LIÊN QUAN
Các nghiên cứu trước
Việc phát hiện rủi ro kiểm toán đã được chú ý trong vài thập kỷ qua, tập trung vào các bất thường về kiểm toán nói chung và báo cáo tài chính nói riêng Trong khi nghiên cứu ban đầu sử dụng các kỹ thuật thống kê hoặc truyền thống vừa tốn thời gian vừa tốn kém, thì gần đây, trọng tâm đã chuyển sang sự xuất hiện của dữ liệu lớn và học máy Ngoài ra, các nghiên cứu trước đây đã cho thấy hiệu quả vượt trội của các phương pháp học máy so với các phương pháp kiểm toán thông thường Phát hiện của Craja và các cộng sự (2020) cho thấy các mô hình được xây dựng bằng cách sử dụng phương pháp học máy có thể phát hiện rủi ro báo cáo tài chính một cách hiệu quả, theo kịp sự phát triển liên tục của hành vi gian lận báo cáo tài chính và phản hồi bằng công nghệ cập nhật nhất Các thuật toán học máy không chỉ hữu ích trong việc xử lý dữ liệu lớn mà còn có thể bắt chước cách người dùng xử lý dữ liệu phi cấu trúc, văn bản, lời nói và hình ảnh để cải thiện độ chính xác trong việc diễn giải báo cáo tài chính
Bell, T and Carcello, J (2000), “A decision aid for assessing the likelihood of fraudulent financial reporting” đã sử dụng mô hình hồi quy logistic để ước tính khả năng xảy ra gian lận trong báo cáo tài chính Sử dụng mẫu gồm 77 lần tham gia gian lận và 305 lần tham gia không gian lận, Bell và Carcello (2000) nhận thấy rằng mô hình hồi quy logistic của họ chính xác hơn đáng kể so với các kiểm toán viên hành nghề trong việc đánh giá rủi ro gian lận đối với 77 quan sát Trong một nghiên cứu khác, Skousen et al (2009) đã sử dụng mô hình hồi quy logistic để phát hiện gian lận trong báo cáo tài chính giữa một nhóm các công ty gian lận và một mẫu các công ty không gian lận Nghiên cứu chỉ ra rằng mô hình hồi quy logistic có hiệu quả trong việc dự đoán công ty mẫu nào có hành vi gian lận so với những công ty không gian lận Tương tự như vậy, Spathis (2002) nhận thấy các kỹ thuật hồi quy logistic đa biến là chính xác trong việc phát hiện các báo cáo tài chính sai lệch, sử dụng mẫu các công ty gian lận và không gian lận Hajek và Henriques (2017) cũng nhận thấy rằng hồi quy logistic cũng hữu ích trong việc phát hiện gian lận báo cáo tài chính
Xin‐Ping Song và Zhi-Hua Hu (2014) với nghiên cứu “Application of Machine
Learning Methods to Risk Assessment of Financial Statement Fraud: Evidence from China” Ttrình bày một phương pháp đánh giá rủi ro gian lận báo cáo tài chính Cách tiếp cận được đề xuất bao gồm một hệ thống các yếu tố rủi ro tài chính và phi tài chính và phương pháp đánh giá kết hợp kết hợp các phương pháp học máy với hệ thống dựa trên quy tắc Các thử nghiệm được thực hiện bằng cách sử dụng dữ liệu từ các công ty Trung Quốc bởi bốn bộ phân loại (hồi quy logistic, mạng thần kinh lan truyền ngược, cây quyết định C5.0 và máy vectơ hỗ trợ) và một tập hợp các bộ phân loại đó Nhóm các bộ phân loại được đề xuất vượt trội hơn từng bộ phân loại trong số bốn bộ phân loại riêng lẻ về độ chính xác và tỷ lệ lỗi tổng hợp Kết quả thử nghiệm chỉ ra rằng các yếu tố rủi ro phi tài chính và hệ thống dựa trên quy tắc giúp giảm tỷ lệ lỗi Phương pháp đề xuất vượt trội hơn các phương pháp học máy trong việc đánh giá rủi ro gian lận báo cáo tài chính
Joanna Wyrobek (2020) với nghiên cứu “Application of machine learning models and artificial intelligence to analyze annual financial statements to identify companies with unfair corporate culture”, tạo ra một mô hình dựa trên báo cáo tài chính hàng năm để xác định nguy cơ xảy ra những bất thường tài chính nghiêm trọng trong doanh nghiệp Những sai phạm này có thể liên quan đến các loại gian lận tài chính khác nhau mà không nhất thiết ảnh hưởng đến báo cáo tài chính năm Đặc điểm đặc trưng của những sai phạm là chúng có quy mô lớn và sẽ ảnh hưởng mạnh mẽ đến danh tiếng của công ty Kết quả nghiên cứu cho thấy các thuật toán học máy và trí tuệ nhân tạo có thể học cách nhận biết các kiểu lừa đảo như vậy và có thể phát hiện chúng rất hiệu quả Một yếu tố mới lạ của nghiên cứu được trình bày là nó cho thấy khả năng đào tạo các thuật toán để nhận ra gian lận dựa trên thông tin thường không liên quan trực tiếp đến các hoạt động gian lận được quan sát Tầm quan trọng thực tiễn của nghiên cứu là khả năng sử dụng mô hình trong quá trình ra quyết định trong doanh nghiệp Mô hình cho phép đánh giá rủi ro mà một đối tác kinh doanh tiềm năng có thể phạm tội gian lận tài chính, đòi hỏi phải kiểm tra cẩn thận tính liêm chính của doanh nghiệp đó
H Gamal Aly và cộng sự (2023) với nghiên cứu về “Machine Learning
Algorithms and Auditor’s Assessments of the Risks Material Misstatement: Evidence from the Restatement of Listed London Companies ” đã điều tra mối quan hệ giữa các thuật toán học máy và đánh giá của kiểm toán viên về rủi ro có sai sót trọng yếu và báo cáo lại Ngồi ra, cịn tập trung vào tác động của các thuật tốn học máy (SVM, Nạve Bayes và K-means) đối với việc trình bày sai ở các công ty ở London Mẫu cuối cùng của nghiên cứu là 304 quan sát trong năm của công ty Bao gồm các công ty niêm yết trên Sở giao dịch chứng khoán Luân Đôn và giai đoạn từ 2018 đến 2020 Kết quả cho thấy tác động tích cực đáng kể của các kỹ thuật học máy (K-means, Naive Bayes và SVM) đối với các sai sót cố ý, có nghĩa là việc sử dụng các kỹ thuật học máy giúp xác định các sai sót cố ý Kết quả cũng cho thấy tác động tiêu cực đáng kể của các kỹ thuật tương tự (K-mean, Naive Bayes và SVM) đối với việc đánh giá các sai sót
Nguyễn Anh Phong, Phan Huy Tâm và Ngô Phú Thành (2022) với đề “Nhận dạng gian lận báo cáo tài chính bằng công nghệ máy học: Trường hợp các công ty niêm yết ở Việt Nam” Nghiên cứu sử dụng dữ liệu của các công ty phi tài chính niêm yết năm 2018 và 2019, kết hợp mô hình M-Score và Z-Score, áp dụng kỹ thuật machine learning ANN và SVM trong dự báo bằng chứng gian lận trong báo cáo tài chính Kết quả nghiên cứu cho thấy sử dụng kỹ thuật SVM và chỉ số M-Score có độ chính xác cao trong dự đoán
Dựa trên các nghiên cứu trên và nhiều nghiên cứu khác có chủ đề tương tự, song các nghiên cứu chưa làm rõ học máy giúp kiểm toán viên như thế nào trong đánh giá các rủi ro kiểm toán trong kiểm toán báo cáo tài chính Chính vì vậy, tác giả sẽ nghiên cứu về học máy trong đánh giả rủi ro kiểm toán trong kiểm toán báo cáo tài chính, nhằm hỗ trợ kiểm toán viên rút ngắn thời gian, nâng cao hiệu quả, hiểu rõ cách áp dụng học máy trong báo cáo tài chính để đưa ra đánh giá kiểm toán về rủi ro hiệu quả Ngoài ra, nghiên cứu lựa chọn công ty kiểm toán hàng đầu như Deloitte để xây dựng nghiên cứu nhằm tăng tính thuyết phục và số liệu chính xác.
Điểm mới của nghiên cứu
Sử dụng học máy để đánh giá và dự đoán rủi ro trong quy trình kiểm toán có thể giúp cải thiện hiệu suất và chính xác của quy trình kiểm toán, từ đó giảm thiểu nguy cơ sai sót và tăng tính minh bạch trong báo cáo tài chính Đóng góp của nghiên cứu:
Nghiên cứu này sẽ cung cấp cái nhìn sâu sắc về cách mà công nghệ học máy có thể được áp dụng vào lĩnh vực kiểm toán Đề xuất các biện pháp cải tiến cụ thể cho quy trình kiểm toán của Deloitte và có thể được áp dụng trong thực tế để nâng cao chất lượng và hiệu suất của dịch vụ kiểm toán
Giúp làm giàu tri thức trong lĩnh vực kiểm toán và cung cấp phương tiện hiệu quả cho các công ty kiểm toán để đối phó với môi trường kinh doanh phức tạp và đa dạng ngày nay
2.2.2 Điểm mới trong nghiên cứu
Trong nghiên cứu này, tác giả lựa chọn học máy như một phương pháp để phân tích mà không lựa chọn ngôn ngữ khác vì học máy chưa được ứng dụng rộnHọc máy, với khả năng xử lý khối lượng dữ liệu lớn và nhận diện mẫu phức tạp, cung cấp một công cụ mạnh mẽ để phát hiện các mô hình bất thường và rủi ro mà các phương pháp truyền thống có thể bỏ qua Những thuật toán học máy có thể học từ dữ liệu lịch sử và cải thiện khả năng dự đoán theo thời gian, giúp xác định sớm các rủi ro tiềm ẩn với độ chính xác cao hơn Đồng thời, học máy có thể tự động hóa nhiều quy trình phân tích, giảm thiểu sự can thiệp của con người và các sai sót liên quan, từ đó nâng cao hiệu quả và tính khách quan trong đánh giá rủi ro kiểm toán Hơn nữa, với khả năng mở rộng và linh hoạt, các mô hình học máy có thể thích ứng nhanh chóng với các thay đổi trong môi trường kinh doanh và các yếu tố rủi ro mới, mang lại giải pháp kiểm toán cập nhật và chính xác hơn Chính vì vậy, việc áp dụng học máy trong nghiên cứu không chỉ giúp cải thiện chất lượng đánh giá rủi ro mà còn nâng cao hiệu suất và hiệu quả của quy trình kiểm toán.g rãi trong lĩnh vực kiểm toán, mặc dù nó đã được triển khai thành công trong nhiều ngành khác Phần lớn các nghiên cứu trước về học máy đều nói về gian lận trong kiểm toán, sự hoạt động liên tục, phát hiện bất thường trong báo cáo tài chính, rủi ro trong các bằng chứng kiểm toán, đánh giá rủi ro gian lận báo cáo tài chính Chẳng hạn như Nghiên cứu về học máy trong báo cáo hoạt động liên tục của kiểm toán viên, Khám phá tính hiệu quả của học máy trong phát hiện hành vi gian lận tài chính, Phát hiện sự bất thường trong báo cáo tài chính Tuy nhiên, các nghiên cứu cho thấy tầm quan trọng của việc áp dụng học máy mang lại lợi thế cạnh tranh khá lớn cho các công ty với độ hiệu quả và uy tín cao Chính vì vậy, tác giả sẽ kế thừa có chọn lọc các yếu tố phù hợp cho nghiên cứu, đồng thời phát triển mạnh mẽ các ứng dụng học máy để đánh giá rủi ro kiểm toán trong kiểm toán báo cáo tài chính và các rủi ro kiểm toán được phân tích nhờ học máy Ngoài ra, nghiên cứu chỉ tập trung ứng dụng cho một công ty cụ thể như Deloitte, là một công ty kiểm toán lớn, có lượng khách dồi dào, là cơ hội để nghiên cứu khai thác triệt để về học máy
Chương 2 đã tổng hợp và phân tích các nghiên cứu trước về ứng dụng học máy trong kiểm toán, đặc biệt là trong phát hiện gian lận và bất thường trong báo cáo tài chính Đóng góp của nghiên cứu này là cung cấp cái nhìn sâu sắc về cách công nghệ học máy có thể cải thiện quy trình kiểm toán, với các biện pháp cải tiến cụ thể cho Deloitte và nâng cao chất lượng dịch vụ Điểm mới của nghiên cứu là việc áp dụng học máy để đánh giá rủi ro kiểm toán, điều này còn chưa được khai thác nhiều, đặc biệt là trong bối cảnh của một công ty kiểm toán lớn như Deloitte Nghiên cứu sẽ kế thừa các yếu tố từ các nghiên cứu trước và phát triển ứng dụng học máy để tối ưu hóa quy trình kiểm toán trong thực tế.
CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP NGHIÊN CỨU 10
Các rủi ro kiểm toán trong kiểm toán báo cáo tài chính
Kiểm toán báo cáo tài chính là quá trình đánh giá độc lập và hệ thống các báo cáo tài chính của một tổ chức để đảm bảo tính chính xác, công bằng và tuân thủ các quy định kế toán và luật pháp hiện hành Mục tiêu của kiểm toán báo cáo tài chính là xác định xem các báo cáo tài chính có phản ánh trung thực và hợp lý tình hình tài chính, kết quả hoạt động kinh doanh và lưu chuyển tiền tệ của tổ chức hay không
Trong quá trình kiểm toán, kiểm toán viên sẽ thực hiện các bước như:
Lập kế hoạch kiểm toán: Xác định mục tiêu kiểm toán, phạm vi và phương pháp kiểm tra dựa trên đánh giá rủi ro
Thu thập chứng cứ: Kiểm toán viên sẽ thu thập và phân tích chứng cứ tài chính để đánh giá tính chính xác và tính hợp lý của các báo cáo tài chính Đánh giá và phân tích: Đánh giá các quy trình kiểm soát nội bộ và phân tích các số liệu tài chính để phát hiện các bất thường hoặc rủi ro
Lập báo cáo kiểm toán: Sau khi hoàn tất quá trình kiểm tra, kiểm toán viên sẽ lập báo cáo kiểm toán, trong đó nêu rõ ý kiến về mức độ chính xác và công bằng của báo cáo tài chính, cùng với các khuyến nghị nếu cần thiết
Kiểm toán báo cáo tài chính không chỉ giúp đảm bảo sự tin cậy của thông tin tài chính mà còn cung cấp sự đảm bảo cho các bên liên quan như nhà đầu tư, chủ nợ và các cơ quan quản lý rằng các báo cáo tài chính được lập và trình bày đúng quy định và thực tế
Rủi ro kiểm toán (Audit Risk) là khả năng mà kiểm toán viên không phát hiện hoặc không nhận ra các sai sót hoặc gian lận quan trọng trong báo cáo tài chính của một tổ chức, dẫn đến việc phát hành một báo cáo kiểm toán không chính xác hoặc không phù hợp với thực tế
3.1.2 Các loại rủi ro kiểm toán
Rủi ro tiềm tàng là khả năng các thông tin cơ sở như nhóm giao dịch, số dư tài khoản, thông tin thuyết minh có thể chứa đựng các sai sót trọng yếu, khi xét riêng lẻ hoặc tổng hợp lại, trước khi xem xét đến bất kỳ kiểm soát nào
Rủi ro tiềm tàng chủ yếu bắt nguồn từ các yếu tố nội tại của doanh nghiệp, ví dụ như tính phức tạp của các tính toán có thể dẫn đến nhiều sai sót hơn so với các tính toán đơn giản, khả năng thất thoát tiền mặt thường cao hơn so với các khoản khác, và các khoản mục dựa trên các ước tính kế toán có nguy cơ sai sót cao hơn so với các giao dịch thông thường Các yếu tố bên ngoài cũng có thể góp phần tăng rủi ro tiềm tàng, ví dụ như sự phát triển công nghệ có thể làm cho một số sản phẩm trở nên lỗi thời, dẫn đến khả năng phải giảm giá hàng tồn kho trong báo cáo tài chính
Mỗi doanh nghiệp có các rủi ro tiềm tàng khác nhau, phụ thuộc vào bản chất ngành nghề, điều kiện kinh doanh và các yếu tố khác liên quan đến hoạt động Kiểm toán viên chỉ có thể đánh giá và không thể thay đổi các rủi ro tiềm tàng này Việc đánh giá rủi ro tiềm tàng là quan trọng suốt quá trình lập kế hoạch và thực hiện kiểm toán
Rủi ro kiểm soát là khả năng xảy ra sai sót trọng yếu trong từng giao dịch, số dư tài khoản hoặc thông tin thuyết minh, mà hệ thống kiểm soát nội bộ của doanh nghiệp không thể ngăn chặn hoặc phát hiện và sửa chữa kịp thời Kiểm soát bao gồm thiết kế, thực thi và duy trì các quy trình để giảm thiểu các rủi ro đã xác định có thể ảnh hưởng đến việc hoàn thành các mục tiêu của doanh nghiệp Tuy nhiên, các hệ thống kiểm soát nội bộ cũng có những hạn chế, chẳng hạn như khả năng con người gây ra nhầm lẫn, sai sót hoặc một số kiểm soát có thể bị lạm dụng
Rủi ro phát hiện là khả năng các thủ tục kiểm toán thực hiện nhằm giảm thiểu rủi ro kiểm toán xuống mức chấp nhận được, nhưng vẫn có thể không phát hiện được hết các sai sót trọng yếu khi xét riêng lẻ hoặc tổng hợp lại Mức độ rủi ro phát hiện chấp nhận được có thể tăng lên nếu mức độ rủi ro kiểm soát được xác định cao hơn Việc này yêu cầu thu thập các bằng chứng kiểm toán thuyết phục để hạn chế rủi ro sai sót Rủi ro tiềm tàng và rủi ro kiểm soát tồn tại độc lập với quá trình kiểm toán, trong khi rủi ro phát hiện phụ thuộc vào các thủ tục kiểm toán và có thể thay đổi theo xem xét của kiểm toán viên Rủi ro tiềm tàng và rủi ro kiểm soát càng thấp, rủi ro phát hiện có thể chấp nhận được sẽ càng cao, và ngược lại, càng nhiều rủi ro tiềm tàng và rủi ro kiểm soát được kiểm toán viên xác định là tồn tại, thì rủi ro phát hiện có thể chấp nhận được sẽ càng thấp
Trong lĩnh vực kiểm toán, rủi ro là một vấn đề luôn hiện diện và có nhiều nguyên nhân khác nhau Kiểm toán viên và công ty kiểm toán có thể thiết lập các quy trình và biện pháp để đánh giá trước rủi ro trước khi chấp nhận hay từ chối một khách hàng Tuy nhiên, họ không thể hoàn toàn kiểm soát được rủi ro kiểm toán, mà chỉ có thể ước tính khả năng xảy ra sai sót và các thiệt hại có thể gây ra đối với công việc kinh doanh của công ty kiểm toán
Rủi ro kiểm toán là thuật ngữ chuyên môn đề cập đến các sai sót hoặc thiếu sót trong báo cáo tài chính của khách hàng, do các lỗi kế toán như bỏ sót giao dịch, phân loại không chính xác, thuyết minh không phù hợp, hoặc sai sót trong các ước tính kế toán Đối với kiểm toán viên, việc đánh giá rủi ro là một quá trình phức tạp, yêu cầu xác định các nguồn gốc rủi ro và đánh giá khả năng xảy ra sai sót Việc này thường đòi hỏi kiểm toán viên phải có sự chuyên môn cao và không chỉ là đo lường chính xác mà còn là sự đánh giá toàn diện về các rủi ro liên quan
Phương pháp tiếp cận kiểm toán dựa trên rủi ro tập trung vào các chi tiết có thể chứa đựng sai sót quan trọng trong báo cáo tài chính do các rủi ro mà doanh nghiệp đang đối mặt Đây là một phương pháp đánh giá rủi ro từ “đỉnh đến đáy”, yêu cầu kiểm toán viên phải xác định rõ các rủi ro hàng ngày của doanh nghiệp, đánh giá tác động của chúng đối với báo cáo tài chính, và thiết kế các thủ tục kiểm toán phù hợp để xử lý các rủi ro này
Tóm lại, việc đánh giá rủi ro là vô cùng quan trọng trong kiểm toán để giảm thiểu các ý kiến sai lầm và hạn chế các thiệt hại có thể gây ra cho kiểm toán viên và các bên liên quan.
Học máy
Học máy là một phần của trí tuệ nhân tạo và khoa học máy tính, tập trung vào việc sử dụng dữ liệu và thuật toán để cho phép AI bắt chước cách con người học, dần dần cải thiện độ chính xác của nó
Mục tiêu cuối cùng của học máy là thiết kế các thuật toán tự động giúp hệ thống thu thập dữ liệu và sử dụng dữ liệu đó để tìm hiểu thêm Các hệ thống dự kiến sẽ tìm kiếm các mẫu trong dữ liệu được thu thập và sử dụng chúng để đưa ra các quyết định quan trọng cho chính chúng
Nói chung, học máy là khiến các hệ thống suy nghĩ và hành động giống con người, thể hiện trí thông minh giống con người và cung cấp cho chúng bộ não Trong thế giới thực hiện có các mô hình học máy có khả năng thực hiện các nhiệm vụ như: Tách thư rác khỏi email thực
Sửa lỗi ngữ pháp và chính tả
Nhờ học máy, thế giới cũng đã chứng kiến các hệ thống thiết kế có khả năng thể hiện tư duy giống con người, thực hiện các nhiệm vụ như:
Nhận dạng đối tượng và hình ảnh
Hiểu lời nói hoặc văn bản
Bot trên các trang web tương tác với con người, giống như con người
Bước 1: Thu thập dữ liệu
Ban đầu máy học từ dữ liệu cung cấp cho chúng, có thể tự thu thập hoặc lấy các bộ dữ liệu đã công bố trước đó Điều quan trọng nhất là phải thu thập dữ liệu đáng tin cậy để mô hình học máy có thể tìm ra các mẫu chính xác Chất lượng dữ liệu cung cấp sẽ quyết định độ chính xác của mô hình, vì vậy nếu dữ liệu không chính xác hoặc lỗi thời, kết quả dự đoán sai hoặc không liên quan Đảm bảo sử dụng dữ liệu từ một nguồn đáng tin cậy vì nó sẽ ảnh hưởng trực tiếp đến kết quả mô hình Dữ liệu tốt, chứa rất ít giá trị bị thiếu và lặp lại, đồng thời thể hiện tốt các danh mục/lớp con của kết quả
Bước 2: Chuẩn bị dữ liệu
Sau khi có dữ liệu, chúng ta phải thực hiện các bước chuẩn bị:
Tập hợp tất cả dữ liệu có và chuẩn hóa nó Điều này giúp đảm bảo dữ liệu được phân bổ đồng đều và thứ tự không ảnh hưởng đến quá trình học
Làm sạch dữ liệu để loại bỏ dữ liệu không mong muốn, giá trị bị thiếu, hàng và cột, giá trị trùng lặp, chuyển đổi loại dữ liệu, v.v Bạn thậm chí có thể phải cơ cấu lại tập dữ liệu và thay đổi hàng và cột hoặc chỉ mục của hàng và cột
Trực quan hóa dữ liệu để hiểu cách nó được cấu trúc và hiểu mối quan hệ giữa các biến và lớp khác nhau hiện tại
Chia dữ liệu đã được làm sạch thành hai tập - tập huấn luyện và tập kiểm tra Tập huấn luyện là tập mà mô hình học từ đó Một tập kiểm tra được sử dụng để kiểm tra tính chính xác của mô hình sau khi đào tạo
Bước này chiếm nhiều thời gian nhất tỷ lệ thuận với lượng dữ liệu đã có Bước 1 và 2 thường chiếm hơn 70% tổng thời gian thực hiện
Bước 3: Lựa chọn mô hình
Mô hình học máy xác định kết quả nhận được sau khi chạy thuật toán học máy trên dữ liệu được thu thập Điều quan trọng là chọn một mô hình phù hợp với nhiệm vụ hiện tại Trong nhiều năm, các nhà khoa học đã phát triển nhiều mô hình khác nhau phù hợp cho các nhiệm vụ khác nhau như nhận dạng giọng nói, nhận dạng hình ảnh, dự đoán, v.v Ngoài ra, chúng ta phải xem liệu mô hình của mình có phù hợp với dữ liệu hay không và chọn cho phù hợp
Bước 4: Huấn luyện mô hình
Huấn luyện là bước quan trọng nhất trong học máy Trong quá trình huấn luyện, chúng ta chuyển dữ liệu đã chuẩn bị sẵn sang mô hình học máy để tìm mẫu và đưa ra dự đoán Nó dẫn đến việc mô hình học từ dữ liệu để có thể hoàn thành nhiệm vụ đã đặt ra Theo thời gian, qua quá trình huấn luyện, mô hình sẽ dự đoán tốt hơn
Bước 5: Đánh giá mô hình
Sau khi huấn luyện mô hình, chúng ta phải kiểm tra xem nó hoạt động như thế nào Điều này được thực hiện bằng cách kiểm tra hiệu suất của mô hình trên dữ liệu chưa từng thấy trước đó Dữ liệu chưa xem được sử dụng là tập kiểm tra mà chúng ta đã chia trước đó Nếu việc kiểm tra được thực hiện trên cùng một dữ liệu được sử dụng để huấn luyện, chúng ta sẽ không có được thước đo chính xác vì mô hình đã được sử dụng với dữ liệu đó và tìm thấy các mẫu giống nhau trước đây Điều này sẽ cung cấp cho độ chính xác không tương xứng
Khi được sử dụng trên dữ liệu kiểm tra, chúng ta sẽ có được thước đo chính xác về cách mô hình hoạt động và tốc độ của nó Độ chính xác của mô hình trên 80% được coi là tốt
Bước 6: Điều chỉnh tham số
Khi đã tạo và đánh giá mô hình của mình, hãy xem liệu độ chính xác của nó có thể được cải thiện theo bất kỳ cách nào không Điều này được thực hiện bằng cách điều chỉnh các tham số có trong mô hình Tham số là các biến trong mô hình mà người lập trình quyết định Ở một giá trị cụ thể của tham số, độ chính xác sẽ là tối đa Điều chỉnh tham số đề cập đến việc tìm kiếm các giá trị này
Bước 7: Đưa ra dự đoán
Cuối cùng, chúng ta có thể sử dụng mô hình của mình trên dữ liệu để đưa ra dự đoán chính xác.
Các phương pháp và thuật toán trong nghiên cứu
Supervised Machine Learning, còn được gọi là học máy có giám sát, được xác định bằng cách sử dụng các bộ dữ liệu được gắn nhãn để huấn luyện các thuật toán nhằm phân loại dữ liệu hoặc dự đoán kết quả một cách chính xác Khi dữ liệu đầu vào được đưa vào mô hình, mô hình sẽ điều chỉnh trọng số của nó cho đến khi nó được lắp phù hợp Điều này xảy ra như một phần của quá trình xác nhận chéo để đảm bảo rằng mô hình tránh được việc trang bị quá mức hoặc thiếu trang bị Học tập có giám sát giúp các tổ chức giải quyết nhiều vấn đề trong thế giới thực trên quy mô lớn, chẳng hạn như phân loại thư rác vào một thư mục riêng biệt với hộp thư đến của bạn Một số phương pháp được sử dụng trong học tập có giám sát bao gồm mạng lưới thần kinh, vịnh ngây thơ, hồi quy tuyến tính, hồi quy logistic, rừng ngẫu nhiên và máy vectơ hỗ trợ (SVM)
Unsupervised Machine Learning, còn được gọi là học máy không giám sát, sử dụng thuật toán học máy để phân tích và phân cụm các tập dữ liệu không được gắn nhãn (các tập hợp con được gọi là cụm) Các thuật toán này khám phá các mẫu hoặc nhóm dữ liệu ẩn mà không cần sự can thiệp của con người Khả năng khám phá những điểm tương đồng và khác biệt về thông tin của phương pháp này khiến nó trở nên lý tưởng cho việc phân tích dữ liệu thăm dò, chiến lược bán chéo, phân khúc khách hàng cũng như nhận dạng hình ảnh và mẫu Nó cũng được sử dụng để giảm số lượng tính năng trong mô hình thông qua quá trình giảm kích thước Phân tích thành phần chính (PCA) và phân tích giá trị số ít (SVD) là hai phương pháp phổ biến cho việc này Các thuật toán khác được sử dụng trong học tập không giám sát bao gồm mạng lưới thần kinh, phân cụm k-mean và phương pháp phân cụm xác suất
Semi-supervised Machine Learning - Học bán giám sát cung cấp một phương tiện kết hợp giữa học có giám sát và không giám sát Trong quá trình thực hiện, nó sử dụng dataset (tập dữ liệu) được gắn nhãn nhỏ hơn để hướng dẫn phân loại và trích xuất tính năng từ tập dữ liệu lớn hơn, không được gắn nhãn Học bán giám sát có thể giải quyết vấn đề không có đủ dữ liệu được dán nhãn cho thuật toán học có giám sát Nó cũng hữu ích nếu việc dán nhãn đủ dữ liệu quá tốn kém
3.3.2 Một số thuật toán học máy
Logistic Regression (Hồi quy logistics): Dùng để dự đoán xác suất xảy ra của rủi ro kiểm toán dựa trên các biến đầu vào, như ROE, tỉ lệ nợ/vốn chủ sở hữu, và biên lợi nhuận ròng Mô hình này thường được sử dụng để dự đoán xác suất của một biến phụ thuộc nhị phân
Decision Trees (Cây quyết định): Cây quyết định có thể được sử dụng cho cả việc dự đoán các giá trị số (hồi quy) và phân loại dữ liệu thành các danh mục Cây quyết định sử dụng chuỗi phân nhánh của các quyết định được liên kết có thể được biểu diễn bằng sơ đồ cây Một trong những ưu điểm của cây quyết định là chúng dễ dàng xác thực và kiểm tra, không giống như hộp đen của mạng lưới thần kinh
Random Forests (Rừng ngẫu nhiên): Trong rừng ngẫu nhiên, thuật toán học máy dự đoán một giá trị hoặc danh mục bằng cách kết hợp các kết quả từ một số cây quyết định, thích hợp cho việc xử lý các tập dữ liệu lớn và phức tạp
Máy Vector Hỗ trợ (Support Vector Machines - SVM): SVM là một mô hình học máy phổ biến được sử dụng cho bài toán phân loại và hồi quy SVM có thể được áp dụng để phân loại các công ty vào các nhóm rủi ro kiểm toán khác nhau dựa trên các đặc trưng của chúng
Mạng Nơ-ron (Neural Network): Có thể được sử dụng như một công cụ mạnh mẽ để phân tích và dự đoán rủi ro kiểm toán của các công ty dựa trên các chỉ số tài chính và phi tài chính Neural Network là một kỹ thuật học máy tiên tiến, mô phỏng cách hoạt động của bộ não con người để xử lý thông tin, học hỏi và đưa ra quyết định
3.3.3 Ứng dụng học máy trong kiểm toán báo cáo tài chính
Học không giám sát – Phân tích tỷ lệ
Học tập không giám sát có thể được sử dụng để phân cụm các tỷ lệ báo cáo tài chính Giả sử rằng kiểm toán viên muốn có một bảng thông tin có không quá sáu tỷ lệ khác nhau để tóm tắt chung về hiệu quả hoạt động tài chính của khách hàng Vấn đề là có gần 80 tỷ lệ khác nhau có sẵn Có thể chọn sáu tỷ lệ từ danh sách để thông tin cung cấp vẫn đầy đủ và tránh trùng lặp không? Trong lĩnh vực học máy, các tỷ lệ nên được nhóm lại thành các cụm, sao cho các tỷ lệ trong cùng một cụm có mối tương quan chặt chẽ, trong khi mối tương quan giữa các cụm thấp nhất có thể
Bước đầu tiên là thu thập thông tin báo cáo tài chính từ một số lượng lớn các công ty trong một ngành cụ thể Một trong những thách thức lớn nhất của nhiệm vụ này, và điều thường xuyên xảy ra khi xử lý dữ liệu lớn, là làm sạch dữ liệu Ví dụ, phần lớn dữ liệu báo cáo tài chính có thể bao gồm các số liệu về Tổng tài sản hiện tại và các bộ phận cấu thành của nó như Tiền và các khoản tương đương tiền, Tổng các khoản phải thu, và Tổng hàng tồn kho Tuy nhiên, trong một số trường hợp, các thành phần này có thể bị thiếu và chỉ có Tổng tài sản hiện tại được cung cấp, trong khi ở những trường hợp khác, một hoặc nhiều chi tiết có thể có, nhưng trường tổng lại bị thiếu Một giải pháp có thể là loại bỏ tất cả các trường hợp không hoàn chỉnh này, nhưng cách tiếp cận này có thể làm giảm đáng kể kích thước của cơ sở dữ liệu Thay vào đó, trải qua quá trình khó khăn trong việc đối chiếu thông tin có sẵn có thể mang lại cho nhà nghiên cứu một cơ sở dữ liệu lớn hơn nhiều để sử dụng liên tục
Sau khi làm sạch dữ liệu cơ sở, tiếp tục tiến hành phân tích Nhà nghiên cứu sẽ quyết định số lượng cụm mong muốn, và máy tính sẽ đảm nhận các công việc phức tạp Nếu người dùng đã chỉ định sáu thừa số, máy tính sẽ cố gắng tìm sáu vectơ trong không gian sáu chiều sao cho tổng khoảng cách giữa mỗi vectơ trong số 80 tỷ lệ ban đầu và sáu vectơ thu được càng nhỏ càng tốt Kết quả phân tích cho thấy sáu yếu tố được yêu cầu đại diện cho các nhóm tỷ lệ báo cáo tài chính Các nhóm này thường trùng khớp với các phép đo mà người sử dụng báo cáo tài chính quan tâm, như tính thanh khoản, khả năng thanh toán, khả năng sinh lời, việc sử dụng tài sản, lợi nhuận trên vốn đầu tư và thị trường tài chính Ví dụ: yếu tố đầu tiên liên quan đến khả năng sinh lời, yếu tố thứ hai liên quan đến tính thanh khoản, yếu tố thứ ba là lợi nhuận trên tài sản, v.v Bước tiếp theo là chọn từng yếu tố mà tỷ lệ báo cáo tài chính cụ thể tương quan với nó gần nhất Ví dụ: Yếu tố Khả năng sinh lời (Yếu tố 1) có mối tương quan mạnh nhất với tỷ lệ Giá vốn hàng bán so với Doanh thu Sáu tỷ lệ thu được càng giống nhau càng tốt và thông tin chứa trong các tỷ lệ không được hiển thị giống với thông tin của ít nhất một trong các tỷ lệ được hiển thị
Học không giám sát – Ghi sổ
Cách tiếp cận tương tự đã được áp dụng để phân loại các khoản mục Bằng cách sử dụng các tài khoản sổ cái chung và số tiền ghi nợ và tín dụng, Phân cụm tổng hợp theo cấp bậc cung cấp số lượng cụm mong muốn của các mục nhập tương tự Các cụm được hiển thị trên biểu đồ phân tán hai chiều, với việc tối ưu hóa vòng xoay để đảm bảo rằng các cụm khác biệt được quan sát rõ ràng nhất có thể Các giao dịch được mã hóa màu dựa trên hiểu biết của kiểm toán viên về các quy trình kinh doanh mà chúng thuộc về
Ngoài ra, nó còn hỗ trợ theo nhiều cách khác nhau Nó xác định các luồng giao dịch chính trong một công ty, như mua hàng, bán hàng, thanh toán, biên lai, bảng lương, bổ sung tài sản cố định, v.v Các luồng hiển thị dưới dạng các nhóm hoặc cụm giao dịch riêng biệt, thể hiện sự phức tạp của quy trình ghi sổ kế toán Chúng cho thấy việc tài khoản kiểm soát có được sử dụng hay không và tần suất số tiền được chuyển sang các tài khoản khác cho đến khi chúng ổn định ở điểm đến cuối cùng Việc phân tích các cụm này có thể phát hiện ra các mục nhập bất thường, chẳng hạn như các mục nhập thủ công, do người dùng hoặc sai sót không mong muốn Cuối cùng, kỹ thuật này tiết lộ các cấu trúc chung trong các công ty, giúp kiểm toán viên tìm kiếm mối quan hệ giữa các quy trình và tài khoản báo cáo tài chính, và làm nền tảng cho các kỹ thuật máy học (được giám sát) khác
Học có giám sát – Phân tích hồi quy
Kỹ thuật học máy được biết đến rộng rãi nhất và ít phức tạp nhất là phân tích hồi quy Nó sử dụng mối quan hệ giả định giữa một số biến lợi ích, điển hình là tài khoản báo cáo tài chính mà kiểm toán viên muốn kiểm tra và một tập hợp các yếu tố dự đoán, dữ liệu tài chính hoặc phi tài chính mà kiểm toán viên tin rằng có mối quan hệ hợp lý với biến phụ thuộc Mối quan hệ được huấn luyện trên dữ liệu có sẵn Điều này thường bao gồm dữ liệu lịch sử cho các ứng dụng theo chuỗi thời gian hoặc dữ liệu tương tự (dữ liệu lịch sử hoặc từ các thực thể khác) để phân tích cắt ngang
Sử dụng phân tích hồi quy có thể là một kỹ thuật rất hiệu quả để xác định các ngoại lệ, những quan sát bất ngờ đến mức cần được nghiên cứu thêm Việc không có các giá trị ngoại lệ cho phép đánh giá khả năng đơn vị phụ thuộc không có sai sót trọng yếu Xác suất này càng thấp thì càng cần ít công việc kiểm toán bổ sung
Phương pháp trong nghiên cứu
Sau khi xác định được các yếu tố và biến số qua nghiên cứu định tính, phương pháp nghiên cứu định lượng sẽ được áp dụng để kiểm định các giả thuyết và xây dựng mô hình học máy Dữ liệu định lượng sẽ được thu thập từ các báo cáo tài chính và hồ sơ kiểm toán của các công ty chưa được kiểm toán bởi Deloitte Các biến số như doanh thu, lợi nhuận gộp, tổng tài sản và các chỉ số tài chính khác sẽ được tổng hợp
Mô hình học máy như hồi quy logistics, rừng ngẫu nhiên, mạng nơron nhân tạo và hỗ trợ vector sẽ được áp dụng để phân tích dữ liệu và dự đoán rủi ro kiểm toán Kết quả phân tích định lượng sẽ cho thấy mức độ chính xác và hiệu quả của từng mô hình trong việc đánh giá rủi ro kiểm toán, từ đó đưa ra những khuyến nghị cụ thể về việc áp dụng mô hình học máy trong thực tế kiểm toán tại Deloitte
Bước 1: Thu thập dữ liệu
Dữ liệu được thu thập bao gồm việc thu thập dữ liệu từ nhiều nguồn khác nhau nhằm đảm bảo tính toàn diện và chính xác Các nguồn dữ liệu chính bao gồm các báo cáo tài chính và các cơ sở dữ liệu tài chính công khai như Vietstock, Stockfinance,
YFinance, CafeF hoặc các trang web của Ủy ban Chứng khoán, các công ty Dữ liệu sẽ bao gồm các thông tin tài chính, phi tài chính, và các biến kiểm soát có liên quan đến rủi ro kiểm toán Dữ liệu cũng được thu thập từ các tạp chí, nghiên cứu, bài báo đã được kiểm duyệt để đảm bảo độ chính xác Ngoài ra, có các công cụ phần mềm tài chính, sử dụng các công cụ phần mềm như Microsoft Excel, Tableau, hoặc các phần mềm tài chính chuyên nghiệp để tính toán và phân tích các tỷ số tài chính từ dữ liệu thô
Tiến hành thu thập dữ liệu tài chính và phi tài chính từ các báo cáo tài chính và hồ sơ kiểm toán của các công ty trên sàn chứng khoán Dữ liệu sẽ được chuẩn hóa và làm sạch để đảm bảo tính nhất quán và độ tin cậy
Mẫu nghiên cứu sẽ được chọn từ các công ty chưa được kiểm toán bởi Deloitte trong một khoảng thời gian nhất định, cụ thể là các báo cáo tài chính từ năm 2019 -
2023 Quy mô mẫu sẽ gồm hơn 3000 công ty, được chọn ngẫu nhiên từ các ngành nghề khác nhau để đảm bảo tính đại diện Việc chọn mẫu ngẫu nhiên sẽ giúp giảm thiểu thiên lệch và đảm bảo kết quả nghiên cứu có thể áp dụng rộng rãi
Bước 3: Giả thuyết nghiên cứu
Các biến nghiên cứu bao gồm cả biến độc lập và biến phụ thuộc Biến phụ thuộc là rủi ro kiểm toán (Audit Risks) - biến phụ thuộc chính, phản ánh khả năng xảy ra sai sót trong báo cáo tài chính mà kiểm toán viên cần phải phát hiện, được đo lường bằng các chỉ số như số lượng và mức độ nghiêm trọng của các sai sót được phát hiện trong quá trình kiểm toán Các biến độc lập sẽ bao gồm:
Doanh thu (Revenue): Đây là một trong những chỉ số quan trọng nhất trong báo cáo tài chính, thể hiện doanh số kinh doanh của công ty Sự biến động trong doanh thu có thể ảnh hưởng đến các khía cạnh của quy trình kiểm toán, bao gồm đánh giá về tính chính xác và minh bạch của thông tin tài chính
Thu nhập ròng (Net Income): Thu nhập là kết quả cuối cùng của hoạt động kinh doanh, phản ánh hiệu quả của doanh nghiệp Sự biến động lớn trong thu nhập có thể là dấu hiệu của các rủi ro kiểm toán
Lợi nhuận gộp (Gross Profit): Lợi nhuận gộp là lợi nhuận cuối cùng của công ty sau khi trừ đi tất cả các chi phí, bao gồm cả thuế Sự biến động trong lợi nhuận gộp có thể ảnh hưởng đến tính chính xác và độ minh bạch của báo cáo tài chính Lợi nhuận gộp giảm có thể cho thấy hiệu quả kinh doanh kém, làm tăng rủi ro về việc làm đẹp báo cáo tài chính
Thu nhập trên mỗi cổ phiếu (Earnings Per Share): Biến động lớn trong EPS có thể là dấu hiệu của việc điều chỉnh lợi nhuận, làm tăng rủi ro kiểm toán Biến này thể hiện lợi nhuận trung bình mà mỗi cổ phiếu mang lại Sự biến động trong lợi nhuận trên mỗi cổ phiếu có thể ảnh hưởng đến sự quyết định của các nhà đầu tư và có thể cần được kiểm tra kỹ lưỡng trong quy trình kiểm toán
EBITDA (Lợi nhuận trước thuế, lãi vay và khấu hao): Chỉ số này phản ánh khả năng sinh lời thực tế của công ty, và mức EBITDA thấp có thể làm tăng rủi ro kiểm toán
Vốn cổ đông (Shareholder Equity): Sự thay đổi đột ngột trong vốn cổ đông có thể là dấu hiệu của các giao dịch không bình thường hoặc gian lận
Dòng tiền từ hoạt động kinh doanh (Cash Flow from Operating): Dòng tiền từ hoạt động kinh doanh là thước đo tính thanh khoản và khả năng tạo ra tiền mặt của doanh nghiệp Sự không ổn định trong dòng tiền có thể là dấu hiệu của các vấn đề tiềm ẩn
Dòng tiền từ hoạt động đầu tư (Cash Flow from Investing): Dòng tiền thể hiện các khoản đầu tư của công ty, biến động bất thường có thể làm tăng rủi ro kiểm toán
KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN
Phương pháp học máy
Học máy có giám sát (Supervised Learning) là một phương pháp trong học máy nơi mô hình được huấn luyện dựa trên dữ liệu đã có sẵn nhãn (label) Dữ liệu này bao gồm các đặc trưng (features) và nhãn tương ứng Mục tiêu là mô hình học cách ánh xạ từ đặc trưng đến nhãn để có thể dự đoán chính xác nhãn của các dữ liệu mới
Trong lĩnh vực kiểm toán, có sẵn dữ liệu lịch sử về kết quả kiểm toán của các công ty Dữ liệu này bao gồm các chỉ số tài chính và kết quả kiểm toán (mức độ rủi ro kiểm toán) Những thông tin này chính là nguồn dữ liệu có nhãn hoàn hảo cho mô hình học máy có giám sát Đặc trưng (features): Các chỉ số tài chính của công ty như doanh thu, lợi nhuận gộp, thu nhập ròng, tỷ suất sinh lời, số lượng nhân viên, tỷ lệ nợ trên vốn chủ sở hữu, dòng tiền từ đầu tư v.v
Nhãn (label): Mức độ rủi ro kiểm toán (cao hoặc thấp)
Mục tiêu của đề tài là đánh giá và dự đoán rủi ro kiểm toán cho các công ty dựa trên các chỉ số tài chính của họ trong báo cáo tài chính Đây là một bài toán phân loại điển hình, nơi chúng ta cần xác định xem công ty có rủi ro kiểm toán cao hay thấp thông qua
Trong đề tài này, tác giả sử dụng học máy có giám sát vì phương pháp này cho phép thực hiện các vấn đề sau:
Sử dụng dữ liệu có nhãn để huấn luyện mô hình: Mô hình sẽ học cách ánh xạ từ các đặc trưng tài chính của công ty đến mức độ rủi ro kiểm toán Đánh giá và cải thiện mô hình: Sử dụng dữ liệu kiểm tra để đánh giá hiệu suất của mô hình và cải thiện nó dựa trên kết quả
Các thuật toán học máy có giám sát như Logistic Regression, Decision Trees, Random Forest, Neural Network và Support Vector Machines đã được chứng minh là hiệu quả trong việc giải quyết các bài toán phân loại Những thuật toán này có thể:
Xử lý và phân tích các đặc trưng phức tạp: Giúp mô hình học được các mối quan hệ ẩn giữa các chỉ số tài chính và rủi ro kiểm toán Đưa ra dự đoán chính xác: Giúp đưa ra các quyết định kiểm toán chính xác, nhanh hơn và giảm thiểu rủi ro trong việc đánh giá
Mô hình học máy có giám sát không chỉ áp dụng cho một bộ dữ liệu cụ thể mà còn có thể được huấn luyện và áp dụng cho các bộ dữ liệu mới, thậm chí trong các hoàn cảnh khác nhau Điều này đặc biệt hữu ích trong kiểm toán vì các công ty và điều kiện tài chính của họ thay đổi theo thời gian
Nhiều thuật toán học máy có giám sát cung cấp các mô hình dễ giải thích Ví dụ, cây quyết định (Decision Trees) giúp hiểu rõ các quyết định được đưa ra dựa trên các đặc trưng tài chính Điều này rất quan trọng trong lĩnh vực kiểm toán, nơi sự minh bạch và giải thích rõ ràng là yếu tố then chốt
Học máy có giám sát là phương pháp lý tưởng cho đề tài này vì nó cho phép tận dụng dữ liệu lịch sử có sẵn, đạt được mục tiêu phân loại rõ ràng và cung cấp các mô hình chính xác và dễ giải thích Việc sử dụng học máy có giám sát sẽ giúp Deloitte đưa ra các quyết định kiểm toán chính xác hơn, nâng cao hiệu suất công việc và giảm thiểu rủi ro trong quá trình kiểm toán báo cáo tài chính.
Kết quả nghiên cứu
Sau khi xác định được mô hình học máy cụ thể, tác giả lựa chọn thư viện phù hợp để chạy mô hình trên công cụ Jupyter Notebook với 15 biến độc lập trên tập Excel được tổng hợp từ báo cáo tài chính của hơn 1000 công ty từ 2019-2023, sau khi loại bỏ dữ liệu thiếu còn gần 800 công ty, cho tổng dữ liệu khoảng hơn 3000 và chưa được kiểm toán bởi Deloitte, dữ liệu được lấy từ sàn chứng khoán và Web tài chính Dữ liệu đã được xử lý, sắp xếp theo hệ thống mã chứng khoán, gồm nhiều ngành nghề, lĩnh vực khác nhau mang đến sự đa dạng, màu sắc cho bài nghiên cứu Trong Jupyter Notebook, tác giả sử dụng các công cụ và thư viện như pandas, numpy, seaborn, scikit-learn để thực hiện các bước kiểm tra và chuẩn bị dữ liệu một cách hiệu quả Sau khi thực hiện khai báo thư viện cho dữ liệu Tiếp tục tải dữ liệu lên Jupyter
Noteboook để chạy mô hình, sử dụng lệnh để đọc dữ liệu, đồng thời xem file bằng lệnh df head ( ), file dữ liệu bao gồm dữ liệu từ năm 2019 đến 2023 Hàm df.info( ) sẽ cho ta biết định dạng và số lượng quan sát non-null của mỗi trường trong dataframe, hàm df.describe( ) dùng để mô tả thống kê dữ liệu
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.1 Số liệu các công ty trong năm 2019 - 2023
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.2 Kiểm tra giá trị Null trong dữ liệu
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.3 Mô tả thống kê dữ liệu
Khi chuẩn bị dữ liệu để chạy mô hình học máy trên Jupyter Notebook, việc kiểm tra lỗi trùng lặp, thiếu và đảm bảo chất lượng dữ liệu là cực kỳ quan trọng Điều này giúp mô hình học máy hoạt động hiệu quả và đưa ra các dự đoán chính xác
Ta tiến hành kiểm tra tập dữ liệu, dựa trên kết quả, dữ liệu không có hiện tượng thiếu, trùng hay lặp, điều này đảm bảo ổn định cho các hoạt động sau
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.4 Kết quả kiểm tra trùng lặp, thiếu
Dựa vào các biểu đồ phân phối, ta có thể biết tỷ lệ và xu hướng của các biến thay đổi thế nào qua các năm để có cái nhìn khái quát về tình hình hiện tại của mỗi công ty
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.5 Xu hướng của các biến qua các năm
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.6 Độ tương quan giữa các biến
Thực hiện trực quan hóa các dữ liệu, cho thấy sự thay đổi và tương quan giữa các biến Ma trận tương quan cho thấy mối tương quan giữa các biến độc lập Kết quả của ma trận tương quan sẽ cho thấy các biến nào có sự tương quan mạnh với nhau Các cặp biến có hệ số tương quan gần bằng 1 hoặc -1 cho thấy sự tương quan mạnh mẽ và có thể cần xử lý để tránh đa cộng tuyến
Sau đó ta tách file dữ liệu ra theo từng năm, để dễ dàng thực hiện các bước tiếp theo ta sử dụng dữ liệu tại năm có các biến động như năm 2023, đây là năm gần nhất, sẽ dễ theo dõi các biến động thực tế, sau đó đem đi thực hiện cho các năm trước để đánh giá độ tin cậy của mô hình và có cái nhìn tổng quát hơn
Hoàn thành các bước chuẩn bị dữ liệu như khám phá và làm sạch, tiếp tục chia tập dữ liệu thành tập huấn luyện và tập kiểm tra
Trong nghiên cứu, sử dụng một số các chỉ số đánh giá như sau:
Accuracy (Độ chính xác tổng thể) là tỷ lệ giữa số lượng dự đoán đúng (True Positives + True Negatives) trên tổng số mẫu Accuracy cho biết tỷ lệ phần trăm mẫu mà mô hình dự đoán đúng Tuy nhiên, trong trường hợp dữ liệu mất cân bằng, Accuracy có thể không phản ánh đúng hiệu suất của mô hình
Precision (Độ chính xác) là tỷ lệ giữa số lượng dự đoán đúng (True Positives) trên tổng số dự đoán mà mô hình cho là đúng (True Positives + False Positives) Precision cho biết trong số những mẫu mà mô hình dự đoán là dương tính (positive), có bao nhiêu mẫu thực sự là dương tính
Recall (Độ nhạy) là tỷ lệ giữa số lượng dự đoán đúng (True Positives) trên tổng số mẫu thực sự dương tính (True Positives + False Negatives) Recall cho biết trong số những mẫu thực sự là dương tính, có bao nhiêu mẫu mà mô hình dự đoán đúng
F1-Score là trung bình điều hòa của Precision và Recall, cung cấp một thước đo cân bằng giữa Precision và Recall, đặc biệt hữu ích khi bạn cần cân nhắc cả False Positives và False Negatives
AUC-ROC làm thước đo khách quan về hiệu suất của mô hình, cho phép phát triển các mô hình Al có hiệu suất cao AUC-ROC là một thước đo quan trọng trong học máy, đặc biệt là trong các vấn đề phân loại Nó đo lường chất lượng dự đoán của mô hình, bất kể ngưỡng phân loại Về cơ bản, nó định lượng sự cân bằng giữa độ nhạy (tỷ lệ dương tính thực) và độ đặc hiệu (tỷ lệ dương tính giả) Điểm AUC-ROC càng gần 1 thì mô hình càng phân biệt tốt hơn giữa các lớp tích cực và tiêu cực
Nghiên cứu sẽ sử dụng 5 loại mô hình và thực hiện phân tích như sau:
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.7 Kết quả mô hình Logistics Regression
Precision (Độ chính xác của dự đoán): Precision đo lường mức độ chính xác trong các dự đoán dương tính Đối với kiểm toán, precision cao ở lớp 1 là quan trọng để giảm thiểu các báo động giả (false positives), giúp tránh việc đánh giá sai các công ty không có rủi ro thành có rủi ro
Giá trị 0 (Không rủi ro): 0.87 tức là dự đoán mà mô hình cho rằng không có rủi ro là 87% chính xác
Giá trị 1 (Rủi ro): 0.91, dự đoán có rủi ro là 91% là chính xác
Recall (Độ nhạy): Recall đo lường khả năng của mô hình trong việc nhận diện đúng các trường hợp dương tính Recall cao ở giá trị 1 là cần thiết để đảm bảo rằng các trường hợp rủi ro không bị bỏ sót, quan trọng trong kiểm toán để tránh bỏ qua các công ty có rủi ro thực sự
Giá trị 0: 0.97 mô hình nhận diện chính xác 97% các trường hợp không rủi ro Giá trị 1: 0.67 mô hình nhận diện chính xác 67% các trường hợp rủi ro
F1-Score là trung bình giữa precision và recall, cung cấp một thước đo cân bằng hơn khi có sự mất cân đối giữa precision và recall F1-score cho giá trị 1 là 0.77 cho thấy sự cân bằng này khá ổn để đảm bảo mô hình vừa chính xác vừa nhạy bén trong việc phát hiện rủi ro
Nghiên cứu tại Deloitte
Deloitte có nhiều kinh nghiệm về phân tích và AI/ML, tập trung vào việc giúp khách hàng phát triển và triển khai các giải pháp đổi mới để giải quyết các thách thức kinh doanh phức tạp Bao gồm từ phát triển chiến lược và quản lý dữ liệu đến phát triển và triển khai mô hình, đồng thời họ có thành tích nổi bật trong việc mang lại kết quả có tác động trong các ngành Kết hợp với mảng phân tích dữ liệu nâng cao và các sản phẩm AI/ML của Google Cloud, giúp trao quyền cho các tổ chức hợp lý hóa hoạt động và đưa ra quyết định dựa trên dữ liệu, đồng thời giúp giảm bớt những hạn chế về quy mô, hiệu suất và chi phí
Theo Báo cáo Xu hướng Công nghệ mới nhất năm 2021 của Deloitte đề cập rằng
“Chỉ có khoảng 8% tổ chức đạt lợi tức đầu tư từ các chương trình về Machine Learning Thị trường Machine Learning Operations dự kiến sẽ mở rộng lên gần 4 tỷ USD vào năm 2025”, điều này cho thấy Deloitte từng bước khai thác kỹ thuật Machine Learning, nơi AI phát triển ngày một nhiều Ngoài ra, năm 2023, công ty Deloitte thông báo việc ứng dụng Machine Learning trong phân tích giao thông vận tải, thực hiện thiết kế, dự đoán và nâng cao mạng lưới giao thông bằng công nghệ bản sao kỹ thuật số Cải thiện hiệu quả của cơ sở hạ tầng, giảm chi phí vận hành và cung cấp dịch vụ tốt hơn cho các bên liên quan bằng cách sử dụng phân tích và AI/ML để tối ưu hóa tuyến đường, dự báo nhu cầu và lập kế hoạch kịch bản
Gần đây, Deloitte, kết hợp với Workday và AICPA-CIMA, đã tài trợ cho Chuyến tham quan Tài chính Thông minh Ngày làm việc Trong Chuyến tham quan, những người có ảnh hưởng và những người ra quyết định trong văn phòng CFO và văn phòng CIO đã cân nhắc về cách công nghệ thông minh như AI/ML có thể giúp các nhà lãnh đạo Tài chính chuyển đổi tổ chức của họ từ chức năng tiêu chuẩn sang năng lực năng động Ở đây, trí tuệ nhân tạo và học máy đang chuyển đổi các mô hình kinh doanh, quy trình, hoạt động và mối quan hệ khách hàng, đồng thời nâng cao trách nhiệm phân tích và tư vấn của các chuyên gia tài chính, tài chính ngân hàng, đồng thời định hình lại các kỹ năng và năng lực họ cần để tạo ra giá trị cho doanh nghiệp trong kinh doanh
Mặc dù đã có nhiều thành công trong việc ứng dụng Machine Learning vào các lĩnh vực khác, Deloitte vẫn còn hạn chế trong việc đưa công nghệ này vào quá trình kiểm toán để đánh giá rủi ro kiểm toán trong kiểm toán báo cáo tài chính Việc áp dụng machine learning vào kiểm toán có thể mang lại nhiều lợi ích đáng kể:
Phát hiện rủi ro tiềm ẩn: Machine learning có thể phân tích hàng triệu dòng dữ liệu tài chính để phát hiện các rủi ro tiềm ẩn mà con người có thể bỏ sót Điều này giúp nâng cao độ chính xác của kiểm toán và giảm thiểu các sai sót
Tự động hóa quy trình kiểm toán: Machine learning có thể tự động hóa nhiều quy trình kiểm toán, giúp tiết kiệm thời gian và giảm bớt gánh nặng công việc cho kiểm toán viên Điều này không chỉ tăng hiệu quả mà còn cho phép kiểm toán viên tập trung vào các nhiệm vụ quan trọng hơn
Phát hiện bất thường và gian lận: Machine learning có thể học hỏi từ các mô hình gian lận trong quá khứ và phát hiện ra các giao dịch bất thường một cách nhanh chóng và chính xác Điều này giúp tăng cường khả năng phát hiện gian lận trong kiểm toán
Dự đoán rủi ro tương lai: Machine learning có thể dự đoán các rủi ro tài chính trong tương lai dựa trên các dữ liệu lịch sử, giúp doanh nghiệp có các biện pháp phòng ngừa kịp thời
Dựa trên cả lợi ích và thực trạng như trên, việc triển khai Machine Learning trong kiểm toán tại Deloitte, đặc biệt là Việt Nam không chỉ giúp nâng cao chất lượng và hiệu quả kiểm toán, mà còn tăng cường khả năng cạnh tranh, hội nhập và đáp ứng yêu cầu ngày càng cao của khách hàng Đây là một bước đi chiến lược và cần thiết để Deloitte tiếp tục dẫn đầu trong ngành kiểm toán và tư vấn tài chính
Dựa vào nghiên cứu, có thể thấy ứng dụng học máy mang lại nhiều tiềm năng trong việc đánh giá rủi ro kiểm toán, giúp kiểm toán viên kiểm soát dữ liệu lớn, hoàn thành nhanh chóng và thuận tiện hơn Nghiên cứu sử dụng dữ liệu thị trường, loại bỏ các công ty được kiểm toán bởi Deloitte, nhằm đánh giá khách quan, từ đó áp dụng vào Deloitte Tiến hành thử nghiệm trên tập dữ liệu thử bao gồm gần 200 công ty sẽ được kiểm toán bởi Deloitte, ta thu được một số kết quả như hình bên dưới:
Hình 4.19 Tập dữ liệu thử các công ty kiểm toán bởi Deloitte
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.20 Hệ số đặc trưng trên tập dữ liệu kiểm toán bởi Deloitte
(Nguồn: Kết quả trên Jupyter Notebook)
Hình 4.21 Kết quả phân loại bằng mô hình Decision Tree trên tập dữ liệu
Ngoài ra, khi thực hiện chạy tập dữ liệu trên các mô hình học máy ta thu về kết quả khá tốt với độ chính xác trên 70%, đồng thời các kết quả như trên cho ta biết các quy tắc phân loại cụ thể để sử dụng cho việc đánh giá rủi ro kiểm toán trong kiểm toán báo cáo tài chính, đồng thời biết được các biến, công ty nào ảnh hưởng nhiều nhất được chú ý, nhằm điều chỉnh và đưa ra giải pháp cho vấn đề đó Chính vì vậy, học máy thực sự là công cụ hữu ích cho công ty kiểm toán lớn như Deloitte
Chương này tổng kết các kết quả nghiên cứu trên dữ liệu thị trường sau đó áp dụng tại Deloitte Việt Nam Các phương pháp học máy đã chứng minh hiệu quả cao trong việc xác định và quản lý rủi ro kiểm toán, vượt trội so với các phương pháp truyền thống Kết quả thực nghiệm cho thấy khả năng nâng cao độ chính xác và hiệu quả của quy trình kiểm toán Từ đó, có cơ sở để đưa ra các đề xuất về triển khai phương pháp học máy, hứa hẹn mang lại những cải tiến đáng kể cho quy trình kiểm toán báo cáo tài chính tại Deloitte nói riêng và các công ty kiểm toán nói chung.