BÀI TIỂU LUẬNMÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH GVHD : PGS... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINBÀI TIỂU LUẬN
Trang 1BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS TS Đỗ Phúc HVTH : Võ Thị Thúy Lan MSHV : CH1301096
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
BÀI TIỂU LUẬN
MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH
ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU
NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH
GVHD : PGS TS Đỗ Phúc HVTH : Võ Thị Thúy Lan MSHV : CH1301096
Lớp : Cao học khóa 8
Trang 3Tôi xin cam đoan bài báo cáo này hoàn toàn do tôi thực hiện với nội dung dựa
theo “Tạp chí Quốc tế Nghiên cứu nâng cao Khoa học máy tính và Kỹ thuật phần mềm
tập 3, số 11, tháng 11 năm 2013” của tác giả Sowjanya và cộng sự.
Trang 4MỤC LỤC
Danh mục các hình vẽ 2
MỞ ĐẦU 3
Chương 1 GIỚI THIỆU 4
Chương 2 GIAN LẬN LÀ GÌ? 7
Chương 3 PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU 9
3.1 Phân loại các ứng dụng khai thác dữ liệu 11
3.2 Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài chính 13
Chương 4 KHAI THÁC DỮ LIỆU DỰA TRÊN KHUNG ĐỂ PHÁT HIỆN GIAN LẬN 20
Chương 5 KẾT LUẬN 22
TÀI LIỆU THAM KHẢO 23
Trang 5Danh mục các hình vẽ
Hình 2.1 Tam giác gian lận 8Hình 3.1 Khung khái niệm cho ứng dụng của khai thác dữ liệu để phát hiện gian lận kếtoán tài chính 11Hình 4.1 Khai thác dữ liệu dựa trên khung phát hiện gian lận 21
Trang 6MỞ ĐẦU
Kỹ thuật khai thác dữ liệu đã góp phần rất lớn trong việc phát hiện gian lận kếtoán tài chính, khi mà giao dịch với khối lượng dữ liệu lớn và phức tạp đang là nhữngthách thức lớn đối với ngành kế toán Việc thực hiện các kỹ thuật khai thác dữ liệu đểphát hiện gian lận theo dòng chảy thông tin truyền thống của khai thác dữ liệu bắt đầuvới việc lựa chọn tính năng đại diện tiếp theo, thu thập dữ liệu và quản lý, tiền xử lý,khai thác dữ liệu, hậu xử lý và đánh giá hiệu suất Các phương pháp khai thác dữ liệu
có khả năng phát hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trườnghợp gian lận trong quá khứ để xây dựng các mô hình, trong đó xác định và phát hiệncác nguy cơ gian lận Gian lận báo cáo tài chính, một trong những hành vi gian lận tàichính đã và đang thành vấn nạn trên toàn cầu Sự sụp đổ của các công ty cá nhân đã đểlại một vết bẩn trên hiệu quả của quản trị doanh nghiệp, chất lượng của báo cáo tàichính và độ tin cậy của chức năng kiểm toán Gian lận báo cáo tài chính đã trở thànhmột vấn đề quan trọng trong các doanh nghiệp trên toàn thế giới
Bài báo cáo này tập trung trình bày một số kỹ thuật khai thác dữ liệu để pháthiện gian lận và phòng ngừa với các ứng dụng trong thẻ tín dụng và viễn thông trongmột doanh nghiệp khai thác kho dữ liệu để đạt được tiết kiệm chi phí cao hơn và cũng
vì lợi ích của việc xác định bằng chứng pháp lý tiềm năng
Nội dung bài báo cáo gồm 2 phần chính:
Giới thiệu chung về gian lận trong báo cáo tài chính kế toán
Các phương pháp khai thác dữ liệu để phát hiện gian lận
Em xin chân thành cảm ơn Thầy PGS.TS Đỗ Phúc đã truyền đạt những kiếnthức quý báu trong môn Hệ hỗ trợ quyết định làm cơ sở nền tảng cho em thực hiện báocáo này
Trang 8Chương 1 GIỚI THIỆU
Kiểm toán ngày nay đã trở thành một nhiệm vụ quan trọng và được áp dụngrộng rãi Koskivaara gọi năm 2002, "năm kinh hoàng", khi kiểm tra một số sổ sách kếtoán trong một cuộc khảo sát đã tuyên bố rằng việc gian lận vẫn đang tiếp diễn(Koskivaara, 2004) Một số ước tính nói rằng chi phí gian lận kinh doanh tại Mỹ là hơn
400 tỷ USD mỗi năm (Wells, 1997) Spathis, Doumpos và Zopounidis (2002) cho rằnggian lận báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua Vì thế,nhu cầu của việc phát hiện, xác định và báo cáo gian lận kế toán tài chính đã tăng lên
Gian lận trong quản lý có thể được định nghĩa là sự gian lận có chủ ý gây thiệthại cho nhà đầu tư và các chủ nợ thông qua sự sai lệch tài liệu báo cáo tài chính Trongquá trình kiểm toán, kiểm toán viên phải đánh giá khả năng gian lận quản lý
Trong tài liệu học thuật, gian lận là dẫn đến sự lạm dụng của hệ thống tổ chứclợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý Mặc dù các tài liệu cònthiếu một định nghĩa được mọi người chấp nhận hoàn toàn về gian lận tài chính, cácnhà nghiên cứu đã xác định nó như là "một hành động cố ý và trái pháp luật, nguyêntắc hay chính sách với mục đích để có được lợi ích tài chính trái phép" và "cố ý sai sóthoặc bỏ sót số tiền của người sử dụng và không đưa vào báo cáo tài chính, đặc biệt làcác nhà đầu tư và các chủ nợ" Gian lận kế toán thực hiện bằng cách làm giả mạo báocáo tài chính kế toán mà các con số được chế tác bằng việc phóng đại tài sản, mục giảliên quan đến doanh thu và lợi nhuận, chiếm dụng tiền thuế, công nợ, chi phí hoặc tổnthất Sự gian lận kế toán cũng được xác định bởi các chuyên gia kế toán là có "thao tácchủ ý ghi chép không đúng các số liệu trong báo cáo tài chính để đạt được một lợinhuận hoạt động của công ty và sự hiển thị đó là không đúng so với thực tế"
Về kinh tế, gian lận tài chính đã trở thành một vấn đề ngày càng nghiêm trọng
và việc phát hiện hiệu quả gian lận kế toán luôn luôn là một nhiệm vụ quan trọng
Trang 9nhưng phức tạp cho các chuyên gia kế toán Kiểm toán nội bộ của các vấn đề tài chínhtrong các công ty đã trở thành một hoạt động ngày càng được tăng cường nhưng cónhiều bằng chứng cho thấy hoạt động này được áp dụng trên toàn thế giới để thực hiệnhành vi gian lận tài chính Việc phát hiện gian lận kế toán sử dụng các thủ tục kiểmtoán nội bộ truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể Đầutiên, kiểm toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm củagian lận kế toán Thứ hai, việc phát hiện gian lận số liệu kế toán là rất hiếm khi xảy ra,hầu hết các kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện vàngăn chặn hành vi gian lận Cuối cùng, những người quan tâm khác của bộ phận tàichính như Giám đốc tài chính (CFO-Chief Financial Officer), quản lý tài chính và kếtoán đang cố tình tìm cách đánh lừa các kiểm toán viên nội bộ hay bên ngoài Trongkhi biết những hạn chế của một kiểm toán, quản lý tài chính và kế toán đã kết luận rằngthủ tục kiểm toán truyền thống và tiêu chuẩn không đủ để phát hiện gian lận Nhữnghạn chế của kiểm toán tài chính đưa ra một nhu cầu cấp thiết là cần có sẵn dữ liệu tựđộng bổ sung để tiếp tục phân tích và cần có các công cụ để phát hiện nhanh và hiệuquả các báo cáo tài chính sai lệch Điều này là rất cần thiết nên cần có một khoản chicho việc phát hiện gian lận và các hành vi lừa đảo, bởi vì ngăn chặn gian lận sẽ gópphần làm giảm khá hiệu quả sự hao hụt trong hệ thống tài chính Điều này là có thểbằng cách xây dựng một lớp quyết định trên hệ thống để xem xét hành động có tínhđến các yếu tố như số lượng giao dịch và rủi ro liên quan đến người sử dụng thực hiệncác giao dịch Sự phát triển các phương pháp mới sẽ khó khăn hơn do sự hạn chế vềquyền riêng tư và trao đổi ý tưởng Hơn nữa, tập hợp dữ liệu không có sẵn và kết quảthường không được tiết lộ cho công chúng Các chiến lược lập kế hoạch kiểm toán làviệc phát hiện gian lận với mục đích ngăn ngừa phân tích dữ liệu kiểm toán và xâydựng lịch sử mô hình của kế hoạch kiểm toán có hiệu quả trong tương lai Một ứngdụng tài chính và bảo hiểm, nơi kiểm tra nhằm phát hiện trốn thuế và tuyên bố gian lận.Một trường hợp nghiên cứu được trình bày bởi Bonchi (1999) minh họa các kỹ thuật
Trang 10dựa trên phân loại có thể được sử dụng để hỗ trợ công việc cho các chiến lược quyhoạch kiểm toán.
Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) dựatrên phương pháp thống kê và phân tích liên kết trong để phát hiện người mua ảo xảy
ra khi người bán cố gắng đội giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầudưới những bí danh khác nhau hoặc thông qua liên kết Ngoài gian lận, những nỗ lựcphát hiện có thể được thúc đẩy hơn nữa bởi sự cần thiết phải hiểu được hành vi củakhách hàng để cho phép cung cấp dịch vụ phù hợp và cải thiện hoạt động
Trang 11Chương 2 GIAN LẬN LÀ GÌ?
Gian lận là hành vi cố ý để tạo ra cho người khác một cái gì đó có giá trị, hoặc
từ bỏ quyền hợp pháp Đó là sự xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gâynhầm lẫn Gian lận có thể từ nhân viên trộm cắp nhỏ, hành vi để chiếm đoạt tài sản vàbáo cáo tài chính gian lận Trong bối cảnh tình huống khác nhau, gian lận có thể có cáchình thức hơi khác nhau Ví dụ: hối lộ, tham ô, gian lận chứng khoán, gian lận chămsóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gianlận internet, lừa đảo qua điện thoại, thế chấp lừa đảo bị tịch thu và trộm cắp danh tính -tất cả đều có đặc điểm riêng biệt của nó Ít nhất có nhiều loại gian lận mà nhiều loạingười đã thực hiện nó Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối.Một người nào đó cố tình gian lận để có được một lợi ích bất hợp pháp, hoặc một lợithế không công bằng
Một số ví dụ về gian lận bao gồm:
• bất kỳ hành động không trung thực hoặc gian lận;
• giả mạo hoặc thay đổi một hóa đơn, hối phiếu ngân hàng, hoặc tài liệu tài chính;
• trục lợi kết quả của thông tin nội bộ;
• tiết lộ nội bộ thông tin cho người khác để tăng lợi ích bất hợp pháp
Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà mộtngười bình thường hành nghề kinh doanh hợp pháp trong các sự kiện và hoàn cảnh
Trang 12GIAN LẬN
HỢP LÝ HÓA – những hành động biện minh cho sự không trung thực
SỨC ÉP – động lực hoặc động cơ
để gian lận
CƠ HỘI –
khả năng để thực hiện chiếm
dụng tiền mặt hoặc tài sản của
- Nhận thấy nhu cầu tài chính cá biệt
- Nhận thấy cơ hội
- Hợp lý hóa
Hình 2.1 Tam giác gian lận
Trang 13Chương 3 PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU
Khai thác dữ liệu là phân tích khối lượng lớn các giao dịch và dữ liệu thanhtoán, tìm ra mô hình, xu hướng và tiết lộ cụm gian lận Các bước chính để thực hiệnphương pháp này phát hiện gian lận trong một tổ chức kinh doanh là:
Bước 1: Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổichúng thành mục tiêu khai thác dữ liệu
Bước 2: Thu thập dữ liệu và sự hiểu biết
Bước 3: Làm sạch dữ liệu và chuẩn bị cho các thuật toán
Bước 4: Thiết kế thử nghiệm
Bước 5: Đánh giá kết quả để xem xét quá trình
có liên quan vấn đề kỹ thuật là do:
- Dữ liệu không hoàn hảo do không thu thập cho mục đích khai thác dữ liệu, vìvậy chúng không chính xác, không đầy đủ và không liên quan thuộc tính dữliệu;
- Dữ liệu chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn là phát hiện gianlận, vì vậy bằng cách dự đoán tất cả các trường hợp để hợp pháp, có thể đạtđược tỷ lệ thành công rất cao mà không phát hiện bất kỳ gian lận;
- Cơ hội nhiều hơn phù hợp khi xảy ra mô hình chính xác cao phát sinh từ môhình phù hợp trong tập huấn luyện mà không đáng tin cậy về mặt thống kê vàkhông có sẵn trong các thiết lập điểm Để xử lý với các dữ liệu sai lệch, tậphuấn luyện được chia thành từng mảnh để nơi phân phối là ít sai lệch (Chan,1998)
Trang 14Một cách tiếp cận phát hiện điển hình bao gồm việc phát hiện ngoại lai, nơi cáchành vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi
xa bên ngoài phạm vi dự kiến sẽ phải được đánh giá chặt chẽ hơn
Các kỹ thuật thống kê được sử dụng cho phương pháp này:
Dự đoán và phân loại
• Các thuật toán hồi quy: mạng nơ-ron, giỏ hàng, hồi quy, GLM-General LinearModel;
• Phân loại các thuật toán (dự đoán tượng trưng kết quả): hồi quy logistic;
Nhóm và tìm hội
• Clustering / Phân nhóm các thuật toán: K-means, Kohonen, phân tích nhân tố;
• Hiệp hội các thuật toán GRI, Capri trình tự
Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giámsát trên các dữ liệu được dán nhãn, lai phương pháp tiếp cận trên dữ liệu được dánnhãn, bán phương pháp giám sát với pháp lý (vùng gian lận) dữ liệu, phương pháp tiếpcận không được giám sát với các dữ liệu không dán nhãn (Phua, 2005) Khung phânloại, được thể hiện trong hình 2.1, dựa trên một nghiên cứu kiến thức tài liệu hiện có vềbản chất của nghiên cứu khai thác dữ liệu, nghiên cứu phát hiện gian lận
Một khung phân loại gian lận tài chính được đề xuất dựa trên khung tội phạm tàichính của Văn phòng liên bang điều tra Mỹ, đó là một trong những khuôn khổ đượcthiết lập cho phát hiện gian lận tài chính Hình 3.1 bao gồm hai lớp, lớp đầu tiên baogồm sáu ứng dụng khai thác dữ liệu về phân loại, phân nhóm, dự đoán, phát hiện ngoạilai, hồi quy và trực quan, được hỗ trợ bởi một tập hợp các phương pháp tiếp cận thuậttoán để trích xuất các mối quan hệ có liên quan trong dữ liệu
Trang 15Mạng nơ-ron Nạve Bayes
Phát hiện ngoại lai Gian lận
Lân cận gần nhất Clustering
Phân loại
Dự đốn
Hồi quy
Trực quan
3.1 Phân loại các ứng dụng khai thác dữ liệu
Mỗi ơ trong số sáu lớp ứng dụng khai thác dữ liệu được hỗ trợ bởi một tập hợpcác phương pháp tiếp cận thuật tốn để trích xuất các mối quan hệ cĩ liên quan trong
Trang 16dữ liệu Những cách tiếp cận cĩ thể xử lý các lớp khác nhau của vấn đề Các lớp đượctrình bày dưới đây.
Phân loại: Phân tích xây dựng và sử dụng một mơ hình để dự đốn các nhãn
phân loại các đối tượng chưa được phân biệt giữa các đối tượng của các lớp khác nhau.Các nhãn phân loại được xác định trước, rời rạc và khơng cĩ thứ tự Các tài liệu nghiêncứu mơ tả rằng phân loại hoặc dự đốn là quá trình xác định một tập hợp các tính năngphổ biến (mơ hình), và đề xuất các mơ hình mơ tả và phân biệt các lớp dữ liệu hoặc cáckhái niệm Phân loại kỹ thuật chung bao gồm các mạng nơ-ron, các kỹ thuật NạveBayes, cây quyết định và máy hỗ trợ vector Nhiệm vụ phân loại được sử dụng trongviệc phát hiện thẻ tín dụng, chăm sĩc sức khỏe, bảo hiểm xe cộ và gian lận của cơng ty,trong số các loại gian lận, phân loại là một trong những mơ hình học tập phổ biến nhấttrong việc áp dụng dữ liệu khai thác để phát hiện gian lận
Clustering: Clustering được sử dụng để phân vùng các đối tượng đầu vào mà
trước đĩ chưa biết khái niệm nhĩm cĩ ý nghĩa (ví dụ như cụm), với các đối tượng trongmột nhĩm là tương tự nhau nhưng rất khác so với các đối tượng trong các cụm khác.Clustering cịn được gọi là phân đoạn dữ liệu hoặc phân vùng và được coi là một biếnthể của phân loại khơng giám sát Phân tích cụm phân hủy hoặc phân vùng một tập dữliệu (đơn hoặc đa biến) thành các nhĩm giống nhau để các dữ liệu điểm trong mộtnhĩm tương tự nhau và khác nhau so với các điểm dữ liệu trong các nhĩm khác Đĩ là
đề nghị đối tượng dữ liệu trong mỗi cụm nên cĩ tính tương tự cao trong nội bộ nhĩmcủa cùng một nhĩm nhưng cần phải cĩ liên cụm tương tự như trong các cụm khác Các
kỹ thuật phân nhĩm phổ biến nhất là những K-lân cận gần nhất, kỹ thuật Nạve Bayes
và bản đồ tự tổ chức
Dự đốn: Dự đốn ước tính số và ra lệnh cho các giá trị trong tương lai dựa trên
mơ hình của một tập dữ liệu Cần lưu ý rằng, đối với dự đốn, các thuộc tính mà giá trịđược dự đốn là cĩ giá trị liên tục (ra lệnh) chứ khơng phải là phân loại (rời rạc cĩ giá
Trang 17trị và không có thứ tự) Thuộc tính này được gọi là các thuộc tính dự đoán Mạng ron và mô hình dự báo hậu cần là các kỹ thuật dự báo thường được sử dụng.
nơ-Phát hiện ngoại lai: nơ-Phát hiện ngoại lai được sử dụng để đo khoảng cách giữa
các đối tượng dữ liệu để phát hiện những đối tượng quá khác hoặc không phù hợp vớitập dữ liệu còn lại Dữ liệu xuất hiện sẽ có những đặc điểm khác biệt so với phần cònlại của số chung được gọi là giá trị ngoại lai Các vấn đề phát hiện ngoại lai hoặc bấtthường là một trong những vấn đề cơ bản nhất trong khai thác dữ liệu Một kỹ thuậtthường được sử dụng trong việc phát hiện ngoại lai là thuật toán chiết khấu
Hồi quy: Hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối
quan hệ giữa một hay nhiều biến độc lập và biến phụ thuộc (có nghĩa là liên tục có giátrị) Nhiều nghiên cứu thực nghiệm đã sử dụng hồi quy logistic như một chuẩn mựccho phương pháp này Các kỹ thuật hồi quy thường được thực hiện bằng cách sử dụngphương pháp toán học như hồi quy logistic và hồi quy tuyến tính, và nó được sử dụngtrong việc phát hiện thẻ tín dụng, cây trồng, bảo hiểm xe cộ và gian lận của công ty
Trực quan: đề cập đến trình bày dữ liệu một cách dễ hiểu và phương pháp có
thể chuyển đổi các đặc tính dữ liệu phức tạp vào một mô hình rõ ràng để cho phépngười dùng xem các mô hình phức tạp hoặc phát hiện các mối quan hệ trong quá trìnhkhai thác dữ liệu Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình hệthống thị giác của con người bằng cách xây dựng một bộ công cụ và ứng dụng linhhoạt mã hóa dữ liệu bằng cách sử dụng màu sắc, vị trí, kích thước và các đặc điểm hìnhảnh khác Trực quan được sử dụng tốt nhất để cung cấp các mẫu phức tạp thông quaviệc trình bày rõ ràng về dữ liệu hoặc các chức năng
3.2 Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài chính
Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tàichính, sau đây là phần trình bày một đánh giá của kỹ thuật khai thác dữ liệu được xác