1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Hệ hỗ trợ quyết định ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH

27 582 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 90,8 KB

Nội dung

BÀI TIỂU LUẬNMÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH GVHD : PGS... TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TINBÀI TIỂU LUẬN

Trang 1

BÀI TIỂU LUẬN

MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH

ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU

NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH

GVHD : PGS TS Đỗ Phúc HVTH : Võ Thị Thúy Lan MSHV : CH1301096

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÀI TIỂU LUẬN

MÔN: HỆ HỖ TRỢ QUYẾT ĐỊNH

ÁP DỤNG CÁC KỸ THUẬT KHAI THÁC DỮ LIỆU

NHẰM PHÁT HIỆN GIAN LẬN CHO KẾ TOÁN TÀI CHÍNH

GVHD : PGS TS Đỗ Phúc HVTH : Võ Thị Thúy Lan MSHV : CH1301096

Lớp : Cao học khóa 8

Trang 3

Tôi xin cam đoan bài báo cáo này hoàn toàn do tôi thực hiện với nội dung dựa

theo “Tạp chí Quốc tế Nghiên cứu nâng cao Khoa học máy tính và Kỹ thuật phần mềm

tập 3, số 11, tháng 11 năm 2013” của tác giả Sowjanya và cộng sự.

Trang 4

MỤC LỤC

Danh mục các hình vẽ 2

MỞ ĐẦU 3

Chương 1 GIỚI THIỆU 4

Chương 2 GIAN LẬN LÀ GÌ? 7

Chương 3 PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU 9

3.1 Phân loại các ứng dụng khai thác dữ liệu 11

3.2 Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài chính 13

Chương 4 KHAI THÁC DỮ LIỆU DỰA TRÊN KHUNG ĐỂ PHÁT HIỆN GIAN LẬN 20

Chương 5 KẾT LUẬN 22

TÀI LIỆU THAM KHẢO 23

Trang 5

Danh mục các hình vẽ

Hình 2.1 Tam giác gian lận 8Hình 3.1 Khung khái niệm cho ứng dụng của khai thác dữ liệu để phát hiện gian lận kếtoán tài chính 11Hình 4.1 Khai thác dữ liệu dựa trên khung phát hiện gian lận 21

Trang 6

MỞ ĐẦU

Kỹ thuật khai thác dữ liệu đã góp phần rất lớn trong việc phát hiện gian lận kếtoán tài chính, khi mà giao dịch với khối lượng dữ liệu lớn và phức tạp đang là nhữngthách thức lớn đối với ngành kế toán Việc thực hiện các kỹ thuật khai thác dữ liệu đểphát hiện gian lận theo dòng chảy thông tin truyền thống của khai thác dữ liệu bắt đầuvới việc lựa chọn tính năng đại diện tiếp theo, thu thập dữ liệu và quản lý, tiền xử lý,khai thác dữ liệu, hậu xử lý và đánh giá hiệu suất Các phương pháp khai thác dữ liệu

có khả năng phát hiện gian lận bởi vì những kỹ thuật này có thể sử dụng các trườnghợp gian lận trong quá khứ để xây dựng các mô hình, trong đó xác định và phát hiệncác nguy cơ gian lận Gian lận báo cáo tài chính, một trong những hành vi gian lận tàichính đã và đang thành vấn nạn trên toàn cầu Sự sụp đổ của các công ty cá nhân đã đểlại một vết bẩn trên hiệu quả của quản trị doanh nghiệp, chất lượng của báo cáo tàichính và độ tin cậy của chức năng kiểm toán Gian lận báo cáo tài chính đã trở thànhmột vấn đề quan trọng trong các doanh nghiệp trên toàn thế giới

Bài báo cáo này tập trung trình bày một số kỹ thuật khai thác dữ liệu để pháthiện gian lận và phòng ngừa với các ứng dụng trong thẻ tín dụng và viễn thông trongmột doanh nghiệp khai thác kho dữ liệu để đạt được tiết kiệm chi phí cao hơn và cũng

vì lợi ích của việc xác định bằng chứng pháp lý tiềm năng

Nội dung bài báo cáo gồm 2 phần chính:

 Giới thiệu chung về gian lận trong báo cáo tài chính kế toán

 Các phương pháp khai thác dữ liệu để phát hiện gian lận

Em xin chân thành cảm ơn Thầy PGS.TS Đỗ Phúc đã truyền đạt những kiếnthức quý báu trong môn Hệ hỗ trợ quyết định làm cơ sở nền tảng cho em thực hiện báocáo này

Trang 8

Chương 1 GIỚI THIỆU

Kiểm toán ngày nay đã trở thành một nhiệm vụ quan trọng và được áp dụngrộng rãi Koskivaara gọi năm 2002, "năm kinh hoàng", khi kiểm tra một số sổ sách kếtoán trong một cuộc khảo sát đã tuyên bố rằng việc gian lận vẫn đang tiếp diễn(Koskivaara, 2004) Một số ước tính nói rằng chi phí gian lận kinh doanh tại Mỹ là hơn

400 tỷ USD mỗi năm (Wells, 1997) Spathis, Doumpos và Zopounidis (2002) cho rằnggian lận báo cáo tài chính ngày càng trở nên thường xuyên trong vài năm qua Vì thế,nhu cầu của việc phát hiện, xác định và báo cáo gian lận kế toán tài chính đã tăng lên

Gian lận trong quản lý có thể được định nghĩa là sự gian lận có chủ ý gây thiệthại cho nhà đầu tư và các chủ nợ thông qua sự sai lệch tài liệu báo cáo tài chính Trongquá trình kiểm toán, kiểm toán viên phải đánh giá khả năng gian lận quản lý

Trong tài liệu học thuật, gian lận là dẫn đến sự lạm dụng của hệ thống tổ chứclợi nhuận mà không nhất thiết phải dẫn đến hậu quả pháp lý Mặc dù các tài liệu cònthiếu một định nghĩa được mọi người chấp nhận hoàn toàn về gian lận tài chính, cácnhà nghiên cứu đã xác định nó như là "một hành động cố ý và trái pháp luật, nguyêntắc hay chính sách với mục đích để có được lợi ích tài chính trái phép" và "cố ý sai sóthoặc bỏ sót số tiền của người sử dụng và không đưa vào báo cáo tài chính, đặc biệt làcác nhà đầu tư và các chủ nợ" Gian lận kế toán thực hiện bằng cách làm giả mạo báocáo tài chính kế toán mà các con số được chế tác bằng việc phóng đại tài sản, mục giảliên quan đến doanh thu và lợi nhuận, chiếm dụng tiền thuế, công nợ, chi phí hoặc tổnthất Sự gian lận kế toán cũng được xác định bởi các chuyên gia kế toán là có "thao tácchủ ý ghi chép không đúng các số liệu trong báo cáo tài chính để đạt được một lợinhuận hoạt động của công ty và sự hiển thị đó là không đúng so với thực tế"

Về kinh tế, gian lận tài chính đã trở thành một vấn đề ngày càng nghiêm trọng

và việc phát hiện hiệu quả gian lận kế toán luôn luôn là một nhiệm vụ quan trọng

Trang 9

nhưng phức tạp cho các chuyên gia kế toán Kiểm toán nội bộ của các vấn đề tài chínhtrong các công ty đã trở thành một hoạt động ngày càng được tăng cường nhưng cónhiều bằng chứng cho thấy hoạt động này được áp dụng trên toàn thế giới để thực hiệnhành vi gian lận tài chính Việc phát hiện gian lận kế toán sử dụng các thủ tục kiểmtoán nội bộ truyền thống là một khó khăn hay đôi khi là một nhiệm vụ không thể Đầutiên, kiểm toán viên thường thiếu kiến thức cần thiết liên quan đến các đặc điểm củagian lận kế toán Thứ hai, việc phát hiện gian lận số liệu kế toán là rất hiếm khi xảy ra,hầu hết các kiểm toán viên thiếu kinh nghiệm và chuyên môn cần thiết để phát hiện vàngăn chặn hành vi gian lận Cuối cùng, những người quan tâm khác của bộ phận tàichính như Giám đốc tài chính (CFO-Chief Financial Officer), quản lý tài chính và kếtoán đang cố tình tìm cách đánh lừa các kiểm toán viên nội bộ hay bên ngoài Trongkhi biết những hạn chế của một kiểm toán, quản lý tài chính và kế toán đã kết luận rằngthủ tục kiểm toán truyền thống và tiêu chuẩn không đủ để phát hiện gian lận Nhữnghạn chế của kiểm toán tài chính đưa ra một nhu cầu cấp thiết là cần có sẵn dữ liệu tựđộng bổ sung để tiếp tục phân tích và cần có các công cụ để phát hiện nhanh và hiệuquả các báo cáo tài chính sai lệch Điều này là rất cần thiết nên cần có một khoản chicho việc phát hiện gian lận và các hành vi lừa đảo, bởi vì ngăn chặn gian lận sẽ gópphần làm giảm khá hiệu quả sự hao hụt trong hệ thống tài chính Điều này là có thểbằng cách xây dựng một lớp quyết định trên hệ thống để xem xét hành động có tínhđến các yếu tố như số lượng giao dịch và rủi ro liên quan đến người sử dụng thực hiệncác giao dịch Sự phát triển các phương pháp mới sẽ khó khăn hơn do sự hạn chế vềquyền riêng tư và trao đổi ý tưởng Hơn nữa, tập hợp dữ liệu không có sẵn và kết quảthường không được tiết lộ cho công chúng Các chiến lược lập kế hoạch kiểm toán làviệc phát hiện gian lận với mục đích ngăn ngừa phân tích dữ liệu kiểm toán và xâydựng lịch sử mô hình của kế hoạch kiểm toán có hiệu quả trong tương lai Một ứngdụng tài chính và bảo hiểm, nơi kiểm tra nhằm phát hiện trốn thuế và tuyên bố gian lận.Một trường hợp nghiên cứu được trình bày bởi Bonchi (1999) minh họa các kỹ thuật

Trang 10

dựa trên phân loại có thể được sử dụng để hỗ trợ công việc cho các chiến lược quyhoạch kiểm toán.

Các phương pháp phát hiện gian lận trong đấu giá trực tuyến (Shah, 2002) dựatrên phương pháp thống kê và phân tích liên kết trong để phát hiện người mua ảo xảy

ra khi người bán cố gắng đội giá trong phiên đấu giá bằng cách đặt mua hồ sơ dự thầudưới những bí danh khác nhau hoặc thông qua liên kết Ngoài gian lận, những nỗ lựcphát hiện có thể được thúc đẩy hơn nữa bởi sự cần thiết phải hiểu được hành vi củakhách hàng để cho phép cung cấp dịch vụ phù hợp và cải thiện hoạt động

Trang 11

Chương 2 GIAN LẬN LÀ GÌ?

Gian lận là hành vi cố ý để tạo ra cho người khác một cái gì đó có giá trị, hoặc

từ bỏ quyền hợp pháp Đó là sự xuyên tạc hoặc che giấu thông tin để lừa dối hoặc gâynhầm lẫn Gian lận có thể từ nhân viên trộm cắp nhỏ, hành vi để chiếm đoạt tài sản vàbáo cáo tài chính gian lận Trong bối cảnh tình huống khác nhau, gian lận có thể có cáchình thức hơi khác nhau Ví dụ: hối lộ, tham ô, gian lận chứng khoán, gian lận chămsóc sức khỏe, lừa đảo rửa tiền, gian lận bảo hiểm, vi phạm bản quyền phần mềm, gianlận internet, lừa đảo qua điện thoại, thế chấp lừa đảo bị tịch thu và trộm cắp danh tính -tất cả đều có đặc điểm riêng biệt của nó Ít nhất có nhiều loại gian lận mà nhiều loạingười đã thực hiện nó Nhưng trong mỗi trường hợp, liên quan đến gian lận lừa dối.Một người nào đó cố tình gian lận để có được một lợi ích bất hợp pháp, hoặc một lợithế không công bằng

Một số ví dụ về gian lận bao gồm:

• bất kỳ hành động không trung thực hoặc gian lận;

• giả mạo hoặc thay đổi một hóa đơn, hối phiếu ngân hàng, hoặc tài liệu tài chính;

• trục lợi kết quả của thông tin nội bộ;

• tiết lộ nội bộ thông tin cho người khác để tăng lợi ích bất hợp pháp

Lạm dụng là hành vi thiếu hoặc không đúng khi so sánh với hành vi mà mộtngười bình thường hành nghề kinh doanh hợp pháp trong các sự kiện và hoàn cảnh

Trang 12

GIAN LẬN

HỢP LÝ HÓA – những hành động biện minh cho sự không trung thực

SỨC ÉP – động lực hoặc động cơ

để gian lận

CƠ HỘI –

khả năng để thực hiện chiếm

dụng tiền mặt hoặc tài sản của

- Nhận thấy nhu cầu tài chính cá biệt

- Nhận thấy cơ hội

- Hợp lý hóa

Hình 2.1 Tam giác gian lận

Trang 13

Chương 3 PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU

Khai thác dữ liệu là phân tích khối lượng lớn các giao dịch và dữ liệu thanhtoán, tìm ra mô hình, xu hướng và tiết lộ cụm gian lận Các bước chính để thực hiệnphương pháp này phát hiện gian lận trong một tổ chức kinh doanh là:

Bước 1: Phân tích các mục tiêu lừa đảo và gian lận tiềm năng, để chuyển đổichúng thành mục tiêu khai thác dữ liệu

Bước 2: Thu thập dữ liệu và sự hiểu biết

Bước 3: Làm sạch dữ liệu và chuẩn bị cho các thuật toán

Bước 4: Thiết kế thử nghiệm

Bước 5: Đánh giá kết quả để xem xét quá trình

có liên quan vấn đề kỹ thuật là do:

- Dữ liệu không hoàn hảo do không thu thập cho mục đích khai thác dữ liệu, vìvậy chúng không chính xác, không đầy đủ và không liên quan thuộc tính dữliệu;

- Dữ liệu chênh lệch nhau, có rất nhiều chi tiết hợp pháp hơn là phát hiện gianlận, vì vậy bằng cách dự đoán tất cả các trường hợp để hợp pháp, có thể đạtđược tỷ lệ thành công rất cao mà không phát hiện bất kỳ gian lận;

- Cơ hội nhiều hơn phù hợp khi xảy ra mô hình chính xác cao phát sinh từ môhình phù hợp trong tập huấn luyện mà không đáng tin cậy về mặt thống kê vàkhông có sẵn trong các thiết lập điểm Để xử lý với các dữ liệu sai lệch, tậphuấn luyện được chia thành từng mảnh để nơi phân phối là ít sai lệch (Chan,1998)

Trang 14

Một cách tiếp cận phát hiện điển hình bao gồm việc phát hiện ngoại lai, nơi cáchành vi gian lận không được giả định như bình thường và xác định giá trị ngoại lai rơi

xa bên ngoài phạm vi dự kiến sẽ phải được đánh giá chặt chẽ hơn

Các kỹ thuật thống kê được sử dụng cho phương pháp này:

Dự đoán và phân loại

• Các thuật toán hồi quy: mạng nơ-ron, giỏ hàng, hồi quy, GLM-General LinearModel;

• Phân loại các thuật toán (dự đoán tượng trưng kết quả): hồi quy logistic;

Nhóm và tìm hội

• Clustering / Phân nhóm các thuật toán: K-means, Kohonen, phân tích nhân tố;

• Hiệp hội các thuật toán GRI, Capri trình tự

Nhiều hệ thống phát hiện gian lận hiện hoạt động bằng cách: phương pháp giámsát trên các dữ liệu được dán nhãn, lai phương pháp tiếp cận trên dữ liệu được dánnhãn, bán phương pháp giám sát với pháp lý (vùng gian lận) dữ liệu, phương pháp tiếpcận không được giám sát với các dữ liệu không dán nhãn (Phua, 2005) Khung phânloại, được thể hiện trong hình 2.1, dựa trên một nghiên cứu kiến thức tài liệu hiện có vềbản chất của nghiên cứu khai thác dữ liệu, nghiên cứu phát hiện gian lận

Một khung phân loại gian lận tài chính được đề xuất dựa trên khung tội phạm tàichính của Văn phòng liên bang điều tra Mỹ, đó là một trong những khuôn khổ đượcthiết lập cho phát hiện gian lận tài chính Hình 3.1 bao gồm hai lớp, lớp đầu tiên baogồm sáu ứng dụng khai thác dữ liệu về phân loại, phân nhóm, dự đoán, phát hiện ngoạilai, hồi quy và trực quan, được hỗ trợ bởi một tập hợp các phương pháp tiếp cận thuậttoán để trích xuất các mối quan hệ có liên quan trong dữ liệu

Trang 15

Mạng nơ-ron Nạve Bayes

Phát hiện ngoại lai Gian lận

Lân cận gần nhất Clustering

Phân loại

Dự đốn

Hồi quy

Trực quan

3.1 Phân loại các ứng dụng khai thác dữ liệu

Mỗi ơ trong số sáu lớp ứng dụng khai thác dữ liệu được hỗ trợ bởi một tập hợpcác phương pháp tiếp cận thuật tốn để trích xuất các mối quan hệ cĩ liên quan trong

Trang 16

dữ liệu Những cách tiếp cận cĩ thể xử lý các lớp khác nhau của vấn đề Các lớp đượctrình bày dưới đây.

Phân loại: Phân tích xây dựng và sử dụng một mơ hình để dự đốn các nhãn

phân loại các đối tượng chưa được phân biệt giữa các đối tượng của các lớp khác nhau.Các nhãn phân loại được xác định trước, rời rạc và khơng cĩ thứ tự Các tài liệu nghiêncứu mơ tả rằng phân loại hoặc dự đốn là quá trình xác định một tập hợp các tính năngphổ biến (mơ hình), và đề xuất các mơ hình mơ tả và phân biệt các lớp dữ liệu hoặc cáckhái niệm Phân loại kỹ thuật chung bao gồm các mạng nơ-ron, các kỹ thuật NạveBayes, cây quyết định và máy hỗ trợ vector Nhiệm vụ phân loại được sử dụng trongviệc phát hiện thẻ tín dụng, chăm sĩc sức khỏe, bảo hiểm xe cộ và gian lận của cơng ty,trong số các loại gian lận, phân loại là một trong những mơ hình học tập phổ biến nhấttrong việc áp dụng dữ liệu khai thác để phát hiện gian lận

Clustering: Clustering được sử dụng để phân vùng các đối tượng đầu vào mà

trước đĩ chưa biết khái niệm nhĩm cĩ ý nghĩa (ví dụ như cụm), với các đối tượng trongmột nhĩm là tương tự nhau nhưng rất khác so với các đối tượng trong các cụm khác.Clustering cịn được gọi là phân đoạn dữ liệu hoặc phân vùng và được coi là một biếnthể của phân loại khơng giám sát Phân tích cụm phân hủy hoặc phân vùng một tập dữliệu (đơn hoặc đa biến) thành các nhĩm giống nhau để các dữ liệu điểm trong mộtnhĩm tương tự nhau và khác nhau so với các điểm dữ liệu trong các nhĩm khác Đĩ là

đề nghị đối tượng dữ liệu trong mỗi cụm nên cĩ tính tương tự cao trong nội bộ nhĩmcủa cùng một nhĩm nhưng cần phải cĩ liên cụm tương tự như trong các cụm khác Các

kỹ thuật phân nhĩm phổ biến nhất là những K-lân cận gần nhất, kỹ thuật Nạve Bayes

và bản đồ tự tổ chức

Dự đốn: Dự đốn ước tính số và ra lệnh cho các giá trị trong tương lai dựa trên

mơ hình của một tập dữ liệu Cần lưu ý rằng, đối với dự đốn, các thuộc tính mà giá trịđược dự đốn là cĩ giá trị liên tục (ra lệnh) chứ khơng phải là phân loại (rời rạc cĩ giá

Trang 17

trị và không có thứ tự) Thuộc tính này được gọi là các thuộc tính dự đoán Mạng ron và mô hình dự báo hậu cần là các kỹ thuật dự báo thường được sử dụng.

nơ-Phát hiện ngoại lai: nơ-Phát hiện ngoại lai được sử dụng để đo khoảng cách giữa

các đối tượng dữ liệu để phát hiện những đối tượng quá khác hoặc không phù hợp vớitập dữ liệu còn lại Dữ liệu xuất hiện sẽ có những đặc điểm khác biệt so với phần cònlại của số chung được gọi là giá trị ngoại lai Các vấn đề phát hiện ngoại lai hoặc bấtthường là một trong những vấn đề cơ bản nhất trong khai thác dữ liệu Một kỹ thuậtthường được sử dụng trong việc phát hiện ngoại lai là thuật toán chiết khấu

Hồi quy: Hồi quy là một phương pháp thống kê được sử dụng để tiết lộ mối

quan hệ giữa một hay nhiều biến độc lập và biến phụ thuộc (có nghĩa là liên tục có giátrị) Nhiều nghiên cứu thực nghiệm đã sử dụng hồi quy logistic như một chuẩn mựccho phương pháp này Các kỹ thuật hồi quy thường được thực hiện bằng cách sử dụngphương pháp toán học như hồi quy logistic và hồi quy tuyến tính, và nó được sử dụngtrong việc phát hiện thẻ tín dụng, cây trồng, bảo hiểm xe cộ và gian lận của công ty

Trực quan: đề cập đến trình bày dữ liệu một cách dễ hiểu và phương pháp có

thể chuyển đổi các đặc tính dữ liệu phức tạp vào một mô hình rõ ràng để cho phépngười dùng xem các mô hình phức tạp hoặc phát hiện các mối quan hệ trong quá trìnhkhai thác dữ liệu Các nhà nghiên cứu đã khai thác các khả năng phát hiện mô hình hệthống thị giác của con người bằng cách xây dựng một bộ công cụ và ứng dụng linhhoạt mã hóa dữ liệu bằng cách sử dụng màu sắc, vị trí, kích thước và các đặc điểm hìnhảnh khác Trực quan được sử dụng tốt nhất để cung cấp các mẫu phức tạp thông quaviệc trình bày rõ ràng về dữ liệu hoặc các chức năng

3.2 Phân loại kỹ thuật khai thác dữ liệu trong việc phát hiện gian lận kế toán tài chính

Để xác định các thuật toán chính được sử dụng để phát hiện gian lận kế toán tàichính, sau đây là phần trình bày một đánh giá của kỹ thuật khai thác dữ liệu được xác

Ngày đăng: 20/05/2015, 22:56

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w