Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf” Áp dụng các kỹ thuật khai phá dữ liệu cho Kế toán tài chính Đề án Phát hiện g
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
Trang 2MỤC LỤC
MỤC LỤC 2
LỜI GIỚI THIỆU 4
PHẦN I: NỘI DUNG BÀI DỊCH 5
I.1 Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf” 5
1 Giới thiệu: 5
2 Một gian lận là gì? 7
3 Phương pháp tiếp cận khai phá dữ liệu: 8
3.1 Phân loại các ứng dụng khai phá dữ liệu: 10
3.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính: 12
4 Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận: 15
5 Kết luận: 16
I.2 Những kiến thức thu thập được qua bài báo: 18
PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH 19
II.1 Giới thiệu sơ lược về khai phá dữ liệu: 19
1 Khai phá dữ liệu là gì? 19
2 Quá trình khai phá dữ liệu: 19
3 Chức năng của khai phá dữ liệu: 20
4 Các kỹ thuật khai phá dữ liệu: 20
5 Các dạng dữ liệu có thể khai phá được: 22
6 Các lĩnh vực liên quan đến khai phá dữ liệu và ứng dụng của khai phá dữ liệu: 22
7 Các thách thức và hướng phát triển của phát hiện tri thức và khai phá dữ liệu 23
II.2 Giới thiệu về khai phá dữ liệu sử dụng cây quyết định: 24
II.3 Xây dựng cây quyết định dự báo sức khỏe qua việc bắt mạch trong Đông y:
28
3.2 Thu thập và tiền xử lý dữ liệu: 29
Trang 3II.4 Cài đặt thuật toán thử nghiệm: 36
II.5 Kết luận và hướng phát triển: 38
TÀI LIỆU THAM KHẢO 39
Trang 4LỜI GIỚI THIỆU
Lời đầu tiên chúng em xin chân thành cảm ơn PGS.TS Đỗ Phúc đã nhiệt tình giảng
dạy và truyền đạt kiến thức cho chúng em với môn học Hệ hỗ trợ ra quyết định
Sau thời gian học tập và nghiên cứu về môn học này, nhóm chúng em gồm hai thành
viên: LÊ KIM NGA – CH1301040 và NGUYỄN THÀNH THIỆN – CH1301059 thống
nhất chọn một bài báo để tìm hiểu thông qua việc dịch và rút ra những kiến thức tiếp thuđược của bài báo này Đồng thời, chúng em chọn nội dung để viết thu hoạch và xây dựngứng dụng với mục đích áp dụng khai phá dữ liệu sử dụng cây quyết định để dự báo mộtngười “Có bệnh” hay “Không có bệnh” thông qua việc bắt mạch trong Đông Y
Nội dung bài thu hoạch của chúng em gồm các phần:
Phần I: Nội dung bản dịch của bài báo;
Phần II: Ứng dụng kỹ thuật khai phá dữ liệu dùng cây quyết định qua việc bắt mạch;
Phân công công việc của từng thành viên:
1 Lê Kim Nga:
Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
Tìm hiểu về xem mạch trong Đông y và xây dựng bảng dữ liệu dựa vào cácthông tin thu thập được;
Xây dựng và cài đặt thuật toán tính Gain, Entropy;
Dịch sơ lược bài báo và hỗ trợ việc thiết kế, hiệu chỉnh giao diện chương trìnhDemo; Viết báo cáo thu hoạch;
2 Nguyễn Thành Thiện:
Tìm hiểu về Data Mining và Kỹ thuật khai phá dữ liệu dùng cây quyết định;
Xây dựng và cài đặt thuật toán ID3 và vẽ cây;
Thiết kế giao diện, tập tin dữ liệu đầu vào và chương trình chính;
Rà soát và điều chỉnh nội dung bản dịch của bài báo; Viết báo cáo thu hoạch;
Do thời gian nghiên cứu có hạn và bản thân chúng em cũng còn nhiều hạn chế nênbài thu hoạch này chắc chắn sẽ không tránh khỏi phần sai sót Chúng em mong nhận được
lời góp ý của PGS.TS Đỗ Phúc để hướng phát triển sắp tới của chúng em sẽ hoàn thiện và
đạt kết quả tốt hơn Chúng em chân thành cảm ơn!
NHÓM HỌC VIÊN THỰC HIỆN
Trang 5PHẦN I: NỘI DUNG BÀI DỊCH
I.1 Bản dịch từ file “Application of Data Mining Techniques for Financial Accounting Fraud Detection Scheme.pdf”
Áp dụng các kỹ thuật khai phá dữ liệu cho Kế toán tài chính
Đề án Phát hiện gian lận
Tóm tắt: kỹ thuật khai phá dữ liệu được cung cấp viện trợ lớn trong việc phát hiện gian lận kế toán tài chính, kể từ khi giao dịch với khối lượng dữ liệu lớn và phức tạp của dữ liệu tài chính là những thách thức lớn đối với ngành kế toán Việc thực hiện các kỹ thuật khai phá dữ liệu để phát hiện gian lận sau dòng chảy thông tin truyền thống khai phá dữ liệu, bắt đầu với lựa chọn tính năng tiếp theo thu thập dữ liệu và quản lý trước, sau đó chế biến và đánh giá hiệu suất Các phương pháp khai phá dữ liệu có khả năng phát hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trường hợp gian lận trong quá khứ để xây dựng các mô hình, trong đó xác định và phát hiện các nguy cơ gian lận Báo cáo tài chính lừa đảo, một trong những hành vi gian lận tài chính, đã đạt tỷ lệ phổ biến trên toàn cầu Sự sụp đổ của nhiều công ty tư nhân đã để lại một vết bẩn trên hiệu quả của quản trị doanh nghiệp, chất lượng của báo cáo tài chính, và độ tin cậy của chức năng kiểm toán Gian lận báo cáo tài chính đã trở thành một vấn đề quan trọng của các doanh nghiệp trên thế giới Mục đích của sự đóng góp này là để giới thiệu một số kỹ thuật khai phá dữ liệu để phát hiện gian lận và ngăn chặn các hoạt động gian lận trong thẻ tín dụng và viễn thông của một doanh nghiệp để tiết kiệm chi phí nhiều hơn, và cũng
vì lợi ích chung của doanh nghiệp qua việc xác định bằng chứng pháp lý tiềm năng.
Từ khóa chính: Khai phá dữ liệu; Kiểm toán; Phát hiện gian lận, gian lận tài chính, Tam giác gian lận.
1 Giới thiệu:
Kiểm toán ngày nay đã trở thành một nhiệm vụ ngày càng cao và có nhiều bằng chứng rằng
"book cooking" là thông lệ kế toán được áp dụng rộng rãi Koskivaara gọi năm 2002, "nămkhủng khiếp", từ việc xem sổ sách kế toán và tuyên bố rằng việc này vẫn đang tiếp diễn(Koskivaara, 2004) Một số ước tính nói rằng chi phí gian lận kinh doanh Mỹ hơn 400 tỷUSD mỗi năm (Wells, 1997) Spathis, Doumpos, và Zopounidis (2002) cho rằng gian lậnbáo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua Yêu cầu của việc pháthiện, xác định và gian lận báo cáo kế toán tài chính đã tăng lên [1] Gian lận quản lý có thểđược định nghĩa là sự gian lận có chủ ý của quản lý mà gây thiệt hại cho nhà đầu tư và các
Trang 6chủ nợ thông qua tài liệu sai lệch báo cáo tài chính Trong quá trình kiểm toán, kiểm toánviên phải đánh giá khả năng gian lận quản lý Oxford Từ điển tiếng Anh [2] định nghĩa gianlận là "sai trái hoặc lừa dối hình sự có ý định dẫn đến lợi ích tài chính hoặc cá nhân".
Trong tài liệu học thuật, gian lận được định nghĩa là dẫn đến sự lạm dụng của hệ thống tổchức lợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý trực tiếp [3] Mặc dù cáctài liệu còn thiếu một định nghĩa được chấp nhận của gian lận tài chính, nhà nghiên cứu đãxác định nó như là "Một hành động cố ý đó là trái pháp luật, nguyên tắc hay chính sách vớimục đích để có được lợi ích tài chính trái phép "[4] và" cố ý sai sót trọng yếu hoặc thiếu sótcủa số lượng người sử dụng lừa gạt tài chính, đặc biệt là các nhà đầu tư và các chủ nợ "[5] gian lận kế toán thực hiện bằng cách làm cho báo cáo tài chính kế toán giả mạo mànhững con số thao túng bởi phóng đại tài sản, mục giả mạo liên quan đến doanh thu và lợinhuận, chiếm đoạt tiền thuế, hoặc dư nợ phải trả, nợ, chi phí hoặc tổn thất [1] Sự gian lận
kế toán cũng được xác định bởi các chuyên gia kế toán là "có chủ ý và thực hiện khôngđúng các ghi chép số liệu trong báo cáo tài chính để đạt được một lợi nhuận hoạt động củacông ty tốt hơn so với thực tế"[6]
Trong kinh tế, gian lận tài chính đang trở thành một vấn đề ngày càng nghiêm trọng và gianlận kế toán phát hiện một cách hiệu quả đã và đang là một nhiệm vụ quan trọng nhưng phứctạp cho các chuyên gia kế toán [7] Kiểm toán nội bộ của các vấn đề tài chính trong cáccông ty đã trở thành một hoạt động ngày càng thường xuyên và có nhiều bằng chứng chothấy "book cooking" là thông lệ kế toán được áp dụng trên toàn thế giới để thực hiện hành
vi gian lận tài chính [8] Việc phát hiện gian lận kế toán sử dụng thủ tục kiểm toán nội bộtruyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể [9] Thứ nhất, kiểmtoán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm của gian lận kếtoán Thứ hai, như các thao tác gian lận số liệu kế toán là rất hiếm khi xảy ra, hầu hết cáckiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện và ngăn chặn gianlận Cuối cùng, những người quan tâm khác của bộ phận tài chính như Giám đốc tài chính(CFO), quản lý tài chính và kế toán đang cố tình tìm cách đánh lừa các kiểm toán viên nội
bộ hay bên ngoài [10] Trong khi biết những hạn chế của kiểm toán, quản lý tài chính và kếtoán đã kết luận rằng thủ tục kiểm toán truyền thống và những tiêu chuẩn là không đủ đểphát hiện gian lận Những hạn chế của kiểm toán tài chính đề nghị cần bổ sung dữ liệu tựđộng thủ tục phân tích và các công cụ để phát hiện hiệu quả của báo cáo tài chính sailệch Nó là cần thiết để đưa vào hạch toán chi phí của việc phát hiện gian lận và các chi phícủa hành vi lừa đảo, bởi vì ngăn chặn gian lận vài đô la có thể đòi hỏi một hệ thống rất tốnkém Điều này có thể thực hiện bằng cách sử dụng một lớp quyết định trên hệ thống đểquyết định các hành động có tính đến các yếu tố như số lượng giao dịch và rủi ro liên quanđến người sử dụng thực hiện các giao dịch Sự phát triển của phương pháp phats hiện mới là
Trang 7khó khăn hơn do sự hạn chế nghiêm trọng về quyền riêng tư và trao đổi ý tưởng Hơn nữa,tập hợp dữ liệu không có sẵn và kết quả thường không được tiết lộ cho công chúng Cácchiến lược kiểm toán lập kế hoạch là một vấn đề phát hiện gian lận cùng với mục đích ngănngừa phân tích dữ liệu kiểm toán và xây dựng lịch sử mô hình lập kế hoạch kiểm toán cóhiệu quả trong tương lai Một ứng dụng tài chính và bảo hiểm theo vùng, nơi kiểm tra nhằmphát hiện trốn thuế và công khai gian lận Một nghiên cứu trường hợp này được trình bàybởi Bonchi (1999) minh họa cách kỹ thuật dựa trên phân loại có thể được sử dụng để hỗ trợcông việc của các chiến lược kiểm toán lập kế hoạch.
Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) được dựa trênphương pháp thống kê và phân tích liên kết trong để phát hiện sự cố xảy ra khi người bán cốgắng nâng giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầu bằng biệt/ bí danh hoặcthông qua các mối liên hệ Ngoài gian lận, những nỗ lực phát hiện có thể được thúc đẩy hơnnữa bởi sự cần thiết để hiểu được hành vi của khách hàng để cho phép cung cấp dịch vụ phùhợp và cải thiện hoạt động
2 Một gian lận là gì?
Gian lận là hành vi cố ý có nghĩa là để tạo ra cho người khác một cái gì đó có giá trị, hoặc từ
bỏ quyền hợp pháp Nó là một xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gây nhầmlẫn Gian lận có thể từ nhân viên trộm cắp nhỏ và hành vi không hiệu quả để chiếm đoạt tàisản và báo cáo gian lận tài chính Trong bối cảnh tình huống khác nhau, gian lận có thể cócác hình thức hơi khác nhau ví dụ, hối lộ, tham ô, chứng khoán gian lận, gian lận chăm sócsức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gian lậninternet, lừa đảo qua điện thoại, lừa đảo tịch thu nhà thế chấp, và trộm cắp danh tính - tất cảđều có đặc điểm riêng biệt của họ Có ít nhất là nhiều loại gian lận như có nhiều loại củanhững người thực hiện nó Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối Mộtngười nào đó cố ý nằm để có được một lợi ích bất hợp pháp, hoặc một lợi thế không côngbằng Một số ví dụ về gian lận bao gồm:
• Bất kỳ hành động không trung thực hoặc gian lận;
• Giả mạo hoặc thay đổi một phiếu, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• Biển thủ tài sản;
• Cố ý không thích hợp trong việc xử lý hoặc báo cáo tiền hoặc giao dịch tài chính
• Mạo sử dụng ảnh hưởng trong một giao dịch kinh doanh để nhận được một lợi ích (chẳnghạn như hối lộ, lại quả, và thầu gian lận);
• Trục lợi là kết quả của thông tin nội bộ;
• Tiết lộ thông tin nội bộ cho người khác để cho họ để bảo đảm tăng bất hợp pháp
Trang 8Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà một người thậntrọng xem xét hành nghề kinh doanh hợp lý và cần thiết cho các sự kiện và hoàncảnh Trường hợp lạm dụng không gian lận bất hợp pháp hoạt động, nhưng có hại, và họcần phải được giảm thiểu.
Tam giác gian lận là một mô hình để giải thích các yếu tố gây ra một người nào đó đểgian lận nghề nghiệp Nó bao gồm ba thành phần dẫn đến hành vi gian lận:
1 Nhận thức nhu cầu tài chính không chia sẻ
2 Cơ hội cảm nhận
3 Hợp lý hoá
Hình 1: Tam giác Gian lận
3 Phương pháp tiếp cận khai phá dữ liệu:
Khai phá dữ liệu phân tích khối lượng lớn các giao dịch và dữ liệu thanh toán và tìm
ra mô hình, xu hướng và cụm đó tiết lộ gian lận Các bước chính để thực hiện phương phápnày để phát hiện gian lận trong một tổ chức kinh doanh là:
1 Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổi chúng thành mụctiêu khai phá dữ liệu;
2 Sưu tập dữ liệu và sự hiểu biết;
3 Làm sạch dữ liệu và chuẩn bị các thuật toán.;
4 Thiết kế thử nghiệm;
5 Đánh giá kết quả để xem xét quá trình
Vấn đề kỹ thuật liên quan là do:
1 Dữ liệu không hoàn hảo không thu thập cho mục đích khai phá dữ liệu, vì vậy họkhông chính xác, không đầy đủ, và không liên quan dữ liệu, thuộc tính;
Trang 92 Dữ liệu cao chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn ví dụ lừa đảo, vì vậybằng cách dự đoán tất cả các ví dụ được chính xác tỷ lệ thành công rất cao có thể đạtđược mà không phát hiện bất kỳ gian lận;
3 Cơ hội cao hơn trên phù hợp khi xảy ra khi mô hình chính xác cao phát sinh từ môhình phù hợp trong tập huấn luyện mà không phải là đáng tin cậy về mặt thống kê vàkhông có sẵn trong các thiết lập điểm Để xử lý với các dữ liệu sai lệch tập huấn luyện
là chia thành từng miếng nơi phân phối là ít sai lệch (Chan, 1998)
Một cách tiếp cận phát hiện điển hình bao gồm trong việc phát hiện outlier nơi các hành
vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi xa bênngoài phạm vi dự kiến nên được đánh giá chặt chẽ hơn
Kỹ thuật thống kê được sử dụng cho phương pháp này là:
1 Dự đoán và Phân loại
• Thuật toán hồi quy: mạng neural, CART, hồi quy, GLM;
• Phân loại các thuật toán (dự đoán biểu tượng Kết quả): Thanh, hồi quy logistic;
2 Phân nhóm và tìm kiếm sự kết hợp
• Clustering / Các thuật toán phân nhóm: K-Means, Kohonen, Factor analysis;
• Các thuật toán kết hợp: GRI, Capri Sequence
Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giám sáttrên các dữ liệu được dán nhãn, phương pháp tiếp cận lai trên dán nhãn dữ liệu, phươngpháp tiếp cận bán giám sát với pháp lý (không gian lận) dữ liệu, phương pháp tiếp cậnkhông được giám sát với các dữ liệu không dán nhãn (Phua, 2005) Khung phân loại, đượcthể hiện trong hình 1, dựa trên một nghiên cứu tài liệu hiện có kiến thức về bản chất củakhai phá dữ liệu nghiên cứu [19, 20], nghiên cứu phát hiện gian lận [18]
Một khung phân loại gian lận tài chính được đề xuất trong [7] dựa trên khung tộiphạm tài chính của Văn phòng Liên bang Mỹ điều tra [21], đó là một trong những khuônkhổ được thiết lập cho phát hiện gian lận tài chính Hình 2 bao gồm hai lớp, vòng đầu tiênbao gồm sáu lớp học ứng dụng khai phá dữ liệu về phân loại, phân nhóm, dự báo, phát hiệnoutlier, hồi quy, và trực quan [22,23], được hỗ trợ bởi một tập hợp các phương pháp tiếp cậnthuật toán để trích xuất các mối quan hệ có liên quan trong các dữ liệu [14]
Trang 10Hình 2: Khung khái niệm cho ứng dụng của khai phá dữ liệu để phát hiện gian lận kế
tốn tài chính.
Một mơ tả ngắn gọn về các khuơn khổ khái niệm với tài liệu tham khảo được cung cấp vàcác ứng dụng khai phá dữ liệu sáu lớp học (phân loại, phân nhĩm, phát hiện outlier, dự báo,hồi quy và trực quan), mỗi thành phần được thảo luận chi tiết hơn trong các phần sau
3.1 Phân loại các ứng dụng khai phá dữ liệu:
Mỗi lớp ứng dụng khai phá dữ liệu được hỗ trợ bởi một tập hợp các phương pháp tiếp cậnthuật tốn để trích xuất các liên quan các mối quan hệ trong dữ liệu Những cách tiếp cận cĩthể xử lý các lớp khác nhau của vấn đề Các lớp được trình bày dưới đây
Phân loại (Classification)- Phân loại xây dựng và sử dụng một mơ hình để dự đốn các
nhãn phân loại các đối tượng khơng biết đến phân biệt giữa các đối tượng của các lớp khácnhau Các nhãn phân loại được xác định trước, rời rạc và khơng cĩ thứ tự [24] Các tài liệunghiên cứu mơ tả rằng phân loại hoặc dự đốn là quá trình xác định một tập hợp các tínhnăng phổ biến (Mơ hình), và đề xuất các mơ hình mơ tả và phân biệt các lớp dữ liệu hoặccác khái niệm [17] Phân loại chung kỹ thuật bao gồm các mạng neural, kỹ thuật NạveBayes, cây quyết định và Support vector Machines Như vậy nhiệm vụ phân loại được sửdụng trong việc phát hiện thẻ tín dụng, chăm sĩc sức khỏe và bảo hiểm xe cộ, và gian lậncủa cơng ty, trong số các loại gian lận, và phân loại là một trong những mơ hình học tập phổbiến nhất trong việc ứng dụng dữ liệu khai thác khống sản trong việc phát hiện gian lận
Phân nhĩm (Clustering): Clustering được sử dụng để phân vùng các đối tượng vào các
nhĩm khái niệm cĩ ý nghĩa trước đĩ chưa biết (tức là cụm), với các đối tượng trong một
Trang 11nhĩm là tương tự như nhau nhưng rất khác so với các đối tượng trong các cụm khác Phânnhĩm cịn được gọi là phân đoạn dữ liệu hoặc phân vùng và được coi là một biến thể củaphân loại khơng giám sát [24] Phân tích cụm phân hủy hoặc phân vùng một tập dữ liệu(đơn hoặc đa biến) thành các nhĩm giống nhau để các dữ liệu điểm trong một nhĩm tương
tự như nhau và khác nhau cĩ thể từ các điểm dữ liệu trong các nhĩm khác [1] Nĩ cho rằngđối tượng dữ liệu trong mỗi cụm nên cĩ nhiều sự tương đương trong nội bộ nhĩm trongcùng một nhĩm nhưng nên cĩ ít liên cụm tương tự như trong các cụm khác [17] Các kỹthuật phân nhĩm phổ biến nhất là K-láng giềng gần nhất, kỹ thuật Nạve Bayes và self-organizing maps
Dự đốn (Prediction): Dự đốn ước tính số và ra lệnh cho các giá trị trong tương lai dựa
trên mơ hình của một tập dữ liệu [19] Cần lưu ý rằng, đối với dự đốn, các thuộc tính, màgiá trị được dự đốn là cĩ giá trị liên tục (quyết định) hơn là phân loại (rời rạc cĩ giá trị vàkhơng cĩ thứ tự) Thuộc tính này được gọi là các thuộc tính dự đốn [24] Mạng lưới neural
và mơ hình dự đốn logic là các kỹ thuật dự báo thường được sử dụng
Outlier Detection: Outlier detection được sử dụng để đo khoảng cách giữa các đối tượng
dữ liệu để phát hiện các đối tượng đĩ là cách hồn tồn hoặc khơng phù hợp với tập dữ liệucịn lại [24] Dữ liệu mà dường như đã khác nhau đặc hơn so với phần cịn lại của dân sốđược gọi là giá trị ngoại lai [26] Các vấn đề phát hiện outlier/ bất thường là một trongnhững những vấn đề cơ bản nhất trong khai phá dữ liệu Một kỹ thuật thường được sử dụngtrong việc phát hiện outlier là thuật tốn học khơng giám sát [27]
Hồi quy: hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối quan hệ giữa
một hoặc nhiều biến và biến phụ thuộc (cĩ nghĩa là cĩ giá trị liên tục) [24] Nhiều nghiêncứu thực nghiệm đã sử dụng hồi quy logistic như một điểm chuẩn [28] Các kỹ thuật hồiquy thường được thực hiện bằng cách sử dụng phương pháp tốn học như hồi quy và tuyếntính, và nĩ được sử dụng trong việc phát hiện thẻ tín dụng, cây trồng và bảo hiểm xe cộ, vàgian lận của cơng ty
Trực quan (Visualization): Visualization đề cập đến trình bày dễ hiểu dữ liệu và phương
pháp cĩ thể chuyển đổi đặc điểm dữ liệu phức tạp vào mơ hình rõ ràng để cho phép ngườidùng xem các mơ hình phức tạp hoặc các mối quan hệ phát hiện trong quá trình khai phá dữliệu [14] Các nhà nghiên cứu đã khai thác các khả năng phát hiện mơ hình của thị giác conngười hệ thống bằng cách xây dựng một bộ cơng cụ và ứng dụng linh hoạt mã hĩa dữ liệubằng cách sử dụng màu sắc, vị trí, kích thước và hình ảnh khác đặc trưng Trực quan được
sử dụng tốt nhất để cung cấp các mẫu phức tạp thơng qua trình bày rõ ràng về dữ liệu hoặccác chức năng [29]
Trang 123.2 Phân loại kỹ thuật khai phá dữ liệu cho phát hiện gian lận trong Kế toán tài chính:
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tàichính, chúng tôi trình bày một đánh giá của kỹ thuật khai phá dữ liệu được xác định trongthực tế áp dụng để phát hiện các gian lận tài chính Các kỹ thuật thông dụng nhất mô hìnhhậu cần, mạng lưới neural, cây mạng Bayesian niềm tin, và quyết định, tất cả đều rơi vàophân loại thể loại Bốn kỹ thuật được thảo luận chi tiết hơn trong phần sau
Mô hình hồi quy: Các mô hình hồi quy dựa chủ yếu được sử dụng trong việc phát hiện gian
lận kế toán tài chính Đa số chúng đều dựa trên hồi quy logistic, stepwise-logisticregression, đa phương pháp làm tiêu chí quyết định và mũ beta tổng quát hai (EGB2)[7] Mô hình Logistic là một mô hình tuyến tính tổng quát được sử dụng cho nhị thức hồiquy trong đó các biến dự đoán có thể là số hoặc phân loại [30] Nó là chủ yếu được sử dụng
để giải quyết vấn đề gây ra bởi bảo hiểm và gian lận của công ty
Một số nghiên cứu đã đề xuất mô hình hồi quy dựa trên Logistic để dự đoán sự hiện diệncủa gian lận báo cáo tài chính [30] Phương pháp thống kê hồi quy logistic có thể phát hiệngiả mạo báo cáo tài chính một cách hiệu quả [30] Một số nhà nghiên cứu cũng đã phát triển
mô hình tổng quát phản ứng định tính dựa trên Probit và Logit kỹ thuật để dự đoán tài chínhtuyên bố gian lận Mô hình đã được dựa trên một bộ dữ liệu được thu thập bởi một công ty
và nhu cầu kế toán công quốc tế thử nghiệm cho tổng quát [14] Mô hình Cascaded Logitcũng đã đề xuất để điều tra mối quan hệ giữa người trong cuộc kinh doanh và khả năng gianlận Nghiên cứu phát hiện ra rằng trong khi sự gian lận đang được thực hiện, trong nội bộ,tức là giám đốc điều hành và các nhà quản lý, giảm nắm giữ cổ phiếu của mình thông quahoạt động chứng khoán bán cao Các phương pháp khác như thống kê phân tích hồi quycũng rất hữu ích để kiểm tra nếu sự tồn tại của một ủy ban kiểm toán độc lập giảm nhẹ hoặcgiảm khả năng gian lận Văn học cũng mô tả rằng các tổ chức với các ủy ban kiểm toán,được thành lập bởi các nhà quản lý độc lập, đáp ứng không quá hai lần mỗi năm, ít có khảnăng bị xử phạt về gian lận báo cáo tài chính [26]
Phân tích hồi quy sử dụng mô hình Logit có thể được sử dụng để phân tích thực nghiệm củacác chỉ số tài chính mà có thể đáng kể dự đoán gian lận tài chính [29] Phân tích hậu cần vàphân tích phân nhóm cùng nhau có thể được sử dụng để thiết lập một mô hình phát hiện củagian lận từ bốn khía cạnh của chỉ số tài chính, quản trị công ty, rủi ro tài chính và áp lựckinh doanh có liên quan Sau khi cụm lọc biến đáng kể, mô hình dự đoán có thể được thànhlập với phương pháp tiêu chuẩn, không Tiêu chuẩn hóa Bayes và Giao nhận [4]
Các mô hình hồi quy logistic dựa phát hiện gian lận kế toán là phổ biến trong vănhọc từ các mô hình dựa trên hồi quy logistic có thể lên tới 95,1% phát hiện chính xác vớihiệu ứng kỳ vọng đáng kể
Trang 13Mạng Neural: Các mạng neural là những công cụ mô hình dữ liệu thống kê phi tuyến tính
được lấy cảm hứng từ chức năng của bộ não con người sử dụng một tập hợp các nút liên kếtvới nhau [11] Mạng lưới neural được áp dụng rộng rãi trong phân loại và phân nhóm, và lợithế của mình như sau Đầu tiên, nó là thích nghi; thứ hai, nó có thể tạo ra mô hình mạnh mẽ;
và thứ ba, quá trình phân loại có thể được sửa đổi nếu trọng lượng đào tạo mới được thiếtlập Mạng lưới neural được áp dụng chủ yếu thẻ tín dụng, bảo hiểm ô tô và gian lận củacông ty
Các tài liệu mô tả rằng các mạng lưới neural có thể được sử dụng như một công cụphát hiện gian lận tài chính Sự gian lận mạng lưới neural mô hình phân loại sử dụng dữ liệutài chính nội sinh tạo ra từ mô hình hành vi học có thể được áp dụng cho một mẫu thửnghiệm Mạng lưới neural có thể được sử dụng để dự đoán sự xuất hiện của gian lận củacông ty ở cấp quản lý Các nhà nghiên cứu đã khám phá hiệu quả của mạng lưới neural, câyquyết định và các mạng niềm tin Bayesian trong phát hiện gian lận báo cáo tài chính (FFS)
và xác định các yếu tố liên quan đến FFS [8]
Nghiên cứu trong [10] cho thấy vector đầu vào bao gồm chỉ tiêu tài chính và biếntính, đã được nhiều hơn hiệu quả khi mô hình phát hiện gian lận đã được phát triển bằngcách sử dụng mạng lưới neural Mô hình này cũng được so sánh với tiêu chuẩn phươngpháp thống kê như phân tích phân biệt tuyến tính và bậc hai, cũng như phương pháp hồi quylogistic [10]
Các kiến trúc mạng nơron thích nghi tổng quát và mạng lý thích ứng được đón nhận
vì tội gian lận phát hiện Các kỹ thuật lai giống như quy tắc mờ tích hợp với một mạng lướineural (hệ thống neural mờ) cũng là đề xuất Các tài liệu mô tả rằng mạng lưới neural mờtích hợp tốt hơn mô hình thống kê truyền thống và mạng lưới mô hình neural được báo cáotrong các nghiên cứu trước
Bayesian Belief Network: Mạng lưới Belief Bayes (BBN) đại diện cho một tập hợp các
biến ngẫu nhiên và điều kiện độc lập của họ sử dụng một biểu đồ mạch hở có hướng(DAG), trong đó các nút đại diện cho các biến ngẫu nhiên và cạnh mất tích mã hóaindependencies có điều kiện giữa các biến [8] Mạng Bayesian niềm tin được sử dụng trongviệc phát triển mô hình thẻ tín dụng, bảo hiểm ô tô, và gian lận của công ty phát hiện Cácnghiên cứu trong [8] mô tả niềm tin Bayesian mô hình mạng phân loại chính xác 90,3%mẫu xác nhận để phát hiện gian lận Mạng niềm tin Bayesian vượt trội so với phương phápmạng và quyết định cây neural và đạt được độ chính xác phân loại xuất sắc [8]
Cây quyết định (Decision Tree): Một cây quyết định (DT) là một cây cấu trúc công cụ hỗ
trợ quyết định, trong đó mỗi nút đại diện cho một thử nghiệm trên một thuộc tính và mỗi chinhánh đại diện cho kết quả có thể Bằng cách này, các mô hình dự đoán cố gắng để phân
Trang 14chia quan sát vào nhóm loại trừ lẫn nhau và được sử dụng cho các nhiệm vụ khai phá dữliệu và máy học [8] Quyết định cây là những công cụ hỗ trợ quyết định tiên đoán rằng tạolập bản đồ từ những quan sát đến những hậu quả có thể [24] Dự đoán được đại diện bởi lá
và các liên từ các tính năng của các ngành Cây quyết định thường được sử dụng trong thẻtín dụng, bảo hiểm ô tô, và gian lận của công ty
Phương pháp láng giềng gần nhất: phương pháp láng giềng gần nhất là một sự tương
đồng tiếp cận dựa trên phân loại Dựa trên một sự kết hợp của các lớp của các k bản ghitương đương, mỗi hồ sơ được phân loại Đôi khi phương pháp này cũng là được biết đếnnhư kỹ thuật k-láng giềng gần nhất [24] Phương pháp K- láng giềng gần nhất được sử dụngtrong yêu cầu bảo hiểm ô tô, phát hiện gian lận và xác định giá trị mặc định của thẻ tín dụngkhách hàng
Logic mờ và thuật toán di truyền: các thuật toán di truyền được sử dụng trong các hệ
thống phân loại để đại diện và mô hình hóa các kiểm toán viên hành vi ra quyết định trongmột khung cảnh gian lận Thuật toán di truyền cùng với hệ thống nhị phân vector hỗ trợ(BSVS) là dựa trên các vectơ hỗ trợ trong các máy vector hỗ trợ (SVM) được sử dụng đểgiải quyết vấn đề gian lận thẻ tín dụng mà có không được xác định tốt
Fuzzy Logic là một kỹ thuật toán học phân loại lý luận chủ quan và gán dữ liệu vàomột đặc biệt nhóm, hoặc cụm, dựa trên mức độ khả năng dữ liệu có khi ở trong nhóm
đó Các chuyên gia phân loại mờ kỹ thuật cho phép một để thực hiện lý luận gần đúng cóthể cải thiện hiệu suất trong ba cách Đầu tiên, hiệu suất được cải thiện thông qua đại diện
số hiệu quả của điều khoản mơ hồ, bởi vì công nghệ mờ có thể số lượng cho đại diện củamột mục dữ liệu trong một thể loại cụ thể Cách thứ hai hiệu suất được tăng cường là thôngqua tăng phạm vi hoạt động trong môi trường bệnh được xác định, đó là cách mà phươngpháp mờ có thể hiển thị một phần thành viên của các yếu tố dữ liệu trong một hoặc nhiềuloại có thể không được xác định rõ ràng trong phân tích truyền thống Cuối cùng, hiệu suấtđược tăng lên vì công nghệ mờ đã giảm nhạy cảm với dữ liệu "ồn ào", hoặc giá trị ngoạilai Một đa hệ thống dựa trên luật lệ mờ được đề xuất trong [9] để xếp hạng quản lý tàichính nhà nước Các tác giả đã sử dụng lý thuyết tập mờ để đại diện cho sự thiếu chính xáctrong thông tin đánh giá và phán đoán
Một mô hình logic mờ đã được thực hiện trong [5] để phát hiện gian lận trong mộtbảng tính Excel Bằng việc sử dụng logic mờ mô hình phát triển cụm cho báo cáo khác nhauđại diện cho lá cờ đỏ trong việc phát hiện gian lận, dữ liệu phi tài chính là bao gồm các biếnbáo cáo tài chính để phân tích Mô hình này bao gồm các biến khác nhau như tài chính đònbẩy, lợi nhuận, thanh khoản, dòng tiền và một biến được thiết kế để đại diện cho một công
ty "của nguy cơ gian lận Logic mờ hiệu quả mô hình biến, được phát triển để định lượng
Trang 15các yếu tố nguy cơ gian lận Mô hình dự đoán hành vi gian lận với 86,7% độ chính xác[5] Cùng một mô hình được chuyển thể trong [1] để phát triển một mô hình để phát hiệngian lận báo cáo tài chính.
Đề xuất mô hình sử dụng kết hợp dữ liệu báo cáo tài chính khác nhau Mờ lý dựa trên
hệ thống chuyên gia đã được phát triển để xác định và đánh giá liệu các yếu tố gian lận cóliên quan đến bảo hiểm tuyên bố các khu định cư Logic dựa mờ hệ thống chuyên gia đượcphát triển cho các kiểm toán viên để xác định gian lận trong giải quyết tuyên bố bảohiểm Hệ thống đã có thể cắt giảm chi phí bằng cách phát hiện hồ sơ giả mạo
Lập trình di truyền với các quy tắc sản xuất logic mờ được sử dụng để phân loại dữliệu Nghiên cứu trong [5] đã đề xuất và đã thử nghiệm một hệ thống để phát hiện gian lận
về yêu cầu bảo hiểm nhà sản và dữ liệu giao dịch thẻ tín dụng Các nghiên cứu về di truyềnlập trình để phát hiện gian lận thiếu điểm chuẩn với các phương pháp và kỹ thuật hiện
có Một thuật toán di truyền phương pháp tiếp cận dựa trên phát hiện gian lận báo cáo tàichính Có thể thấy rằng điểm bất thường đặc biệt là các số liệu có giá trị cho đặc trưng hành
vi tài chính doanh nghiệp và phân tích những điểm số theo thời gian đại diện cho một cáchhiệu quả phát hiện hành vi khả năng gian lận
Hệ chuyên gia: Các nhà nghiên cứu trong lĩnh vực hệ thống chuyên gia đã xem xét vai trò
của hệ thống chuyên gia trong việc tăng phát hiện khả năng của kiểm toán viên và người sửdụng báo cáo Bằng cách sử dụng hệ thống chuyên gia, họ có thể có khả năng tốt hơn đểphát hiện chiếm nguy cơ gian lận trong bối cảnh và mức độ khác nhau và cho phép kiểmtoán viên cho các đề xuất kiểm toán đáng tin cậy hơn nhiều thông qua thủ tục kiểm toán hợp
lý Nghiên cứu đã xác nhận rằng việc sử dụng một hệ thống chuyên gia tăng cường kiểmtoán viên "hiệu suất Với sự hỗ trợ từ hệ thống chuyên gia, kiểm toán viên phân biệt đối xửtốt hơn, trong số những tình huống khác nhau với các cấp quản lý gian lận có nguy cơ Hệthống chuyên gia hỗ trợ trong việc ra quyết định liên quan đến hoạt động kiểm toán thíchhợp
Nghiên cứu phát hiện gian lận trong kế toán tài chính được phân loại theo ứng dụngkhai phá dữ liệu và kỹ thuật khai phá dữ liệu Một số nhà nghiên cứu đã cố gắng áp dụngmột sự kết hợp của nhiều kỹ thuật khai phá dữ liệu như cây quyết định, mạng neural, mạngtin Bayesian, K-láng giềng gần nhất Mục tiêu chính là để áp dụng một hỗ trợ quyết định lai
hệ thống sử dụng phương pháp xếp chồng biến để phát hiện gian lận báo cáo tài chính
4 Khai phá dữ liệu dựa trên khung đối với phát hiện gian lận:
Các nghiên cứu liên quan đến ứng dụng của các thuật toán khai phá dữ liệu và kỹthuật để phát hiện gian lận kế toán tài chính là một khu vực nghiên cứu Việc thực hiện các
kỹ thuật theo dòng chảy thông tin tương tự của các quá trình khai phá dữ liệu nói
Trang 16chung Quá trình bắt đầu với lựa chọn tính năng sau đó tiến hành với đại diện, thu thập vàquản lý dữ liệu, tiền xử lý, khai phá dữ liệu, sau chế biến, và trong việc đánh giá hiệu suấtkết thúc Bài viết này đã đề xuất một mở rộng khuôn khổ khai phá dữ liệu chung Khuônkhổ này xem xét đặc điểm cụ thể của phát hiện gian lận đối với gian lận trong tài chính kếtoán (Xem hình 3).
Hình 3: Khai phá dữ liệu dựa trên khung cho phát hiện gian lận trong tài chính kế toán
5 Kết luận:
Bài viết này xem xét các tài liệu mô tả việc sử dụng các thuật toán khai phá dữ liệubao gồm kiểm tra thống kê, phân tích hồi quy, Neural Network, cây quyết định, MạngBayesian, … để phát hiện gian lận kế toán tài chính Phân tích hồi quy được sử dụng rộngrãi để phát hiện gian lận vì nó có khả năng giải thích tuyệt vời Các nhà nghiên cứu đãkhông thực hiện bất kỳ so sánh như vậy đến nay, liên quan đến việc phát hiện tác dụng vàtính chính xác của Neural Network so với mô hình hồi quy Những lợi thế của NeuralNetwork là rằng không có yêu cầu nghiêm ngặt về dữ liệu và nó có một sự tổng quát mạnh
mẽ và điều chỉnh Sau khi phân bổ chính xác và đào tạo thích hợp, Neural Network có thểthực hiện phân loại lớn so với hồi quy mô hình Nhưng do đặc biệt cấu trúc bí ẩn bên trong,
Trang 17đó là không thể đối với các nhà nghiên cứu theo dõi quá trình hình thành các đầu ra kếtluận Có những vấn đề khác cũng liên quan với Neural Network như không có lời giải thích
rõ ràng về kết nối cân, chính xác phức tạp và thủ tục kiểm tra độ tin cậy thống kê, và thiếugiải thích
Nghiên cứu trong tương lai:
Bài viết này cho thấy rằng chỉ sử dụng dữ liệu báo cáo tài chính có thể không đủ cho việcphát hiện gian lận Các tầm quan trọng của kỹ thuật khai phá dữ liệu trong việc phát hiệngian lận tài chính đã được công nhận Công việc trong tương lai có thể đề xuất một khuônkhổ phân loại toàn diện hoặc một hệ thống các ứng dụng khai phá dữ liệu trong tài chínhphát hiện gian lận kế toán
Tài liệu tham khảo
[1] Yue, X., Wu, Y., Wang, Y L., & Chu, C (2007) A review of data mining-basedfinancial fraud detection research, international conference on wireless communicationsSep, Networking and Mobile Computing (2007) 5519 –5522
[2] Oxford Concise English Dictionary, 11th Edition, Oxford University Press, 2009 [3] Phua, C., Lee, V., Smith, K & Gayler, R (2005) A comprehensive survey of datamining -based fraud detection research, Artificial Intelligence Review (2005) 1–14
[4] Wang, J., Liao, Y., Tsai, T & Hung, G (2006) Technology-based financialfrauds in Taiwan: issue and approaches, IEEE Conference on: Systems, Man andCyberspace Oct (2006) 1120 –1124
[5] Wang, S (2010) A Comprehensive Survey of Data Mining-Based Fraud Detection Research International Conference on Intelligent ComputationTechnology and Automation, vol 1, pp.50 -53, 2010
Accounting-[6] Accounting Fraud Definition and Examples that are retrieved from
free-accounting-fraud-article/
http://www.accountingelite.com/accountingtips/accounting-fraud-definition-and-examples-[7] Ngai, E.W.T., Hu, Y., Wong, Y H., Chen, Y., & Sun, X (2010) The application ofdata mining techniques in financial fraud detection: A classification framework and anacademic review of literature, Decision Support System (2010),doi:10.1016/j.dss.2010.08.006
[8] Kirkos, E., Spathis, C., & Manolopoulos, Y (2007) Data mining techniques forthe detection of fraudulent financial statements, Expert Systems with Applications 32 (4)(2007) 995 –1003
Trang 18[9] Fanning, K., Cogger, K., & Srivastava, R (1995) Detection of managementfraud: a neural network approach International Journal of Intelligent Systems inAccounting, Finance & Management, vol 4, no 2, pp 113 – 26, June 1995
[10] Fanning, K., & Cogger, K (1998) Neural network detection of management fraudusing published financial data International Journal of Intelligent Systems in Accounting,Finance & Management, vol 7, no 1, pp 21 - 24, 1998
[11] Silverstone, Howard, & Sheetz, M (2004) Forensic Accounting and FraudInvestigation for Non-Experts Hoboken, John Wiley & Sons, 2004
[12] Bologna, Jack & Lindquist, R J (1987) Fraud Auditing and Forensic Accounting.New York: John Wiley & Sons, 1987
[13] Elkan, C (2001) Magical Thinking in Data Mining: Lessons from COIL Challenge
2000 Proc of SIGKDD01, 426-431
[14] Turban, E., Aronson, J.E., Liang, T.P., & Sharda, R (2007) Decision Support andBusiness Intelligence Systems, Eighth edition, Pearson Education, 2007
I.2 Những kiến thức thu thập được qua bài báo:
Gian lận trong kinh tế, cụ thể là lĩnh vực tài chính kế toán là gì và nguyên nhân dẫnđến những gian lận này thông qua Tam giác gian lận;
Các phương pháp, kỹ thuật khai phá dữ liệu nói chung và những phương pháp phổbiến được sử dụng hiện nay;
Giới thiệu các kỹ thuật khai phá dữ liệu đã được sử dụng để phát hiện gian lận trongtài chính kế toán;
Khung khai phá dữ liệu dùng để phát hiện gian lận trong tài chính kế toán;
Trang 19PHẦN II: ỨNG DỤNG KỸ THUẬT KHAI PHÁ DỮ LIỆU DÙNG CÂY QUYẾT ĐỊNH QUA VIỆC BẮT MẠCH
II.1 Giới thiệu sơ lược về khai phá dữ liệu:
1 Khai phá dữ liệu là gì?
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của thập kỷ
1980 Nó là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên trong lượng lớn dữ liệuđược lưu trữ trong các CSDL, kho dữ liệu Hiện nay, ngoài thuật ngữ khai phá dữ liệu,người ta còn dùng một số thuật ngữ khác có ý nghĩa tương tự như: khai phá tri thức từCSDL, trích lọc dữ liệu, phân tích dữ liệu/ mẫu, khảo cổ dữ liệu, nạo vét dữ liệu.Nhiềungười coi khai phá dữ liệu và một thuật ngữ thông dụng khác là phát hiện tri thức trongCSDL (Knowlegde Discovery in Databases - KDD) là như nhau Tuy nhiên trên thực tế,khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình phát hiện tri thức trong CSDL Cóthể nói Data Mining là giai đoạn quan trọng nhất trong tiến trình phát hiện tri thức từ CSDL,các tri thức này hỗ trợ trong việc ra quyết định trong khoa học và kinh doanh
2 Quá trình khai phá dữ liệu:
Gồm 6 bước:
Hình 3: Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu bắt đầu với kho dữ liệu thô và kết thúc với tri thức đượcchiết xuất ra Nội dung của quá trình như sau:
2.1 Gom dữ liệu (gatherin):
Đánh giá luật
Tri thức
Mô hình
Dữ liệu đã làm sạch, tiền xử lý
Dữ liệu
Dữ liệu đíchGom dữ liệu
Khai phá dữ liệuChuyển đổi dữ liệuLàm sạch, tiền xử lý