M c dù ngày nay gói ph n m m khai phá d li u đ c yêu c u t đ ng hóa
nhi u h n, nh ng nó v n yêu c u m t s h ng d n t ng i s d ng. Vì v y, trong
vi c s d ng các công c khai thác d li u, ng i dùng c n ph i có m t ki n th c
đ c phân lo i khác nhau. Tuy nhiên, nói chung, nó đ c chia thành hai nhóm chính:
- K thu t khai phá d li u mô t : có nhi m v mô t v các tính ch t ho c các
đ c tính chung c a t p d li u l n m t cách t ng k t và súc tích. Các k thu t này bao g m: Phân c m (Clustering), tóm t t (Summerization), tr c quan hóa (Visualization), phân tích s phát tri n và đ l ch (Evolution and Deviation analyst), phân tích lu t k t h p (Association rules), … Khai thác d li u mô t là r t
d dàng đ áp d ng trên d li u không đ c giám sát. Tính ch t này đ c đ ngh
s d ng cho công tác phòng ch ng các hành vi gian l n báo cáo tài chính vì các
ph ng pháp không đ c giám sát phát hi n l i / sai l m, thay đ i trong hành vi và
giá tr thay vì phân lo i các t ch c là gian l n ho c không gian l n.
- K thu t khai phá d li u d đoán: Có nhi m v đ a ra các d đoán d a vào
các suy di n trên d li u hi n th i. Các k thu t này g m có: Phân l p (Classifacation), h i quy (regession), … M c tiêu c a khai thác d li u d đoán là đ d đoán giá tr c a m t thu c tính trên c s giá tr c a các thu c tính khác. Kh
n ng khai thác d li u tiên đoán này s đ c s d ng đ phát hi n các hành vi gian
l n báo cáo tài chính. M t trong nh ng ph ng pháp quan tr ng c a khai thác d
li u d đoán là phân lo i. Phân lo i là m t quá trình hai b c. Trong b c đ u tiên,
m i t ch c trong m u đào t o đ c dán nhãn là gian l n, gian l n không trên c s
c a m t thu c tính nhãn l p. B c này có k t qu h c có giám sát trong m t mô
hình mà sau b c th hai c a phân lo i, trong đó đã h c đ c c g ng mô hình đ phân lo i các t ch c t m u xác nh n là gian l n hay không gian l n. Do đó, phát
hi n và xác đ nh các hành vi gian l n báo cáo tài chính có th đ c coi nh là m t
v n đ c đi n phân lo i.
xác đ nh các thu t toán chính đ c s d ng cho phát hi n gian l n trong k
toán tài chính, tác gi trình bày v các k thu t d li u khai thác đ c xác đ nh trong các tài li u áp d ng cho nghiên c u đ phát hi n các hành vi gian l n tài chính. K thu t đ c s d ng th ng xuyên nh t này là các mô hình cây quy t đ nh (decision trees), m ng th n kinh nhân t o (Artificial Neural Network- ANN), m ng
Belief Bayesian (the Bayesian belief network), t t c đ u r i vào k thu t d đoán và thu t toán lu t k t h p Apriori thu c vào k thu t mô t . B n k thu t này s
đ c th o lu n chi ti t h n trong ph n d i đây.
+ Cây Quy t đ nh (Decision Trees) là công c h tr quy t đ nh mang c u trúc hình cây, n i mà m i lá đ i di n cho m t th nghi m trên m t thu c tính và t ng nhánh đ i di n cho h u qu có th . Nh ng cây này có th đ c tr ng thông qua d a trên thu t toán h c máy nh CART và ID3, C4.5, J48.
M t c u trúc cây đ c t o ra trong đó m i nút c a cây quy đ nh c th th
nghi m c a m t thu c tính, t ng ngành t ng ngđ n m t k t qu th nghi m, và
m i lá t o thành m t d đoán phân lo i. M c đích chính c a cây quy t đ nh là dùng
đ d đoán l p (xác đ nh l p) c a các đ i t ng ch a bi t (unseen data), phân chia
d a trên các thu c tính t t nh t đ tách các m u. M u ti p đ c chia thành các t p con, cho đ n khi không có thêm ho c chia tách có th t o ra s khác bi t có ý ngha th ng kê ho c các phân nhóm là quá nh đ tr i quat ng t có ý ngha phân chia. Thông tin cao nh t là g n nh t v i g c cây.
(Ngu n: http://vi.wikipedia.org/wiki/ Cây_quy t_đ nh )
Các đi m m nh c a ph ng pháp cây quy t đ nh là: cây quy t đ nh có th t o ra
bi n liên t c và phân lo i, và cây quy t đ nh c ng cung c p m t d u hi u rõ ràng đ d đoán và phân lo i.
+ M ng Neuron – m ng th n kinh nhân t o là mô hình x lý thông tin đ c mô
ph ng d a trên ho t đ ng c a h th ng th n kinh c a sinh v t, bao g m s l ng
l n các Neuron đ c g n k t đ x lý thông tin. ANN gi ng nh b não con ng i,
đ c h c b i kinh nghi m (thông qua hu n luy n), có kh n ng l u gi nh ng kinh
nghi m hi u bi t (tri th c) và s d ng nh ng tri th c đó trong vi c d đoán các d
li u ch a bi t (unseen data). M ng l i th n kinh hi n đ i là các công c mô hình th ng kê d li u phi tuy n tính. Chúng th ng đ c s d ng đ mô hình hóa các m i quan h ph c t p gi a các y u t đ u vào và đ u ra ho c tìm ki m m u trong d li u.
M t m ng truy n th ng đa t ng (Multilayer Perceptron) là m t lo i trong các l p ph bi n và quan tr ng nh t trong các ng d ng c a m ng th n kinh, m ng lan truy n ti n đ c hu n luy n theo ki u h c có giám sát, thi t l p các d li u đ u vào vào m t t p h p cácđ u ra thích h p.
M ng l i th n kinh đ c áp d ng r ng rãi trong phân lo i và phân nhóm, và l i th c a nó nh sau: u tiên, là nó thích nghi, th hai, nó có th t o ra các mô hình m nh m , và th ba, quá trình phân lo i có th đ c s a đ i n u tr ng s hu n
luy n (training weights) m i đ c thi t l p. M ng l i th n kinh đ c áp d ng ch
y u trong l nh v c th tín d ng, b o hi m ô tô và phát hi n gian l n c a công ty.
V c b n, m ng l i th n kinh là m t mô hình toán h c t m t c s d li u l ch
s c a các ví d v các giá tr đ u vào và đ u ra. Sau khi bi t m i quan h gi a các
bi n s , m ng l i đã đ c đào t o và mô hình toán h c đ c xây d ng trong d
li u m u, d a vào m i t ng quan gi a các d li u. Mô hình k t qu , khi đ c s
d ng v i các d li u đ u vào m i, s cung c p d đoán các k t qu đ u ra trong
t ng lai. Ví d , b ng cách thu th p d li u l ch s c a các kho n vay th ng m i
đ c th c hi n cho các t ch c, ngân hàng có th xác đ nh nh ng t ch c không có
kh n ng hoàn tr các kho n vay. M t mô hình có th đ c xây d ng d a trên các
m i quan h , gi a các ch tiêu tài chính và k t qu c a kho n vay c a m t công ty
đ c l a ch n. Sau khi mô hình đ c t ng h p, nó có th đ c s d ng đ d đoán
n u ng i n p đ n vay th ng m i m i có th đ m c đ nh tr n . M ng l i th n
kinh là công c phân tích d li u l n có th đ c s d ng hi u qu đ d đoán s
xu t hi n c a báo cáo tài chính gian l n nh ng th ng b b qua b i các ki m toán
viên n i b và bên ngoài.
Các nhà nghiên c u đã khám phá hi u qu c a m ng th n kinh nhân t o, cây
quy t đ nh và m ng ni m tin Bayesian trong phát hi n gian l n báo cáo tài chính
(FFS) và đ xác đ nh các y u t liên quan đ n FFS (K. Fanning and K.Cogger, 1998) và (Kirkos, 2005).
+ Bayesian Belief Network - M ng ni m tin Bayesian - là m t mô hình đ h a mã hóa các m i quan h xác su t gi a các bi n quan tâm. Khi đ c s d ng k t h p v i các k thu t th ng kê, mô hình đ h a có nhi u thu n l i cho phân tích d li u. M t, b i vì mô hình mã hóa ph thu c trong s t t c các bi n, nó d dàng x lý các tình hu ng mà m t s m c d li u b thi u. Hai, m t m ng Bayesian có th đ c s
đ c s hi u bi t v m t v n đ tên mi n và đ d đoán nh ng h u qu c a s can
thi p. Ba, b i vì mô hình này có m t ng ngh a nguyên nhân và xác su t, nó là đ i
di n cho vi c k t h p ki n th c (mà th ng đi kèm theo hình th c quan h nhân
qu ) và d li u. B n, ph ng pháp th ng kê Bayes k t h p v i m ng Bayes cung
c p m t cách ti p c n hi u qu và nguyên t c đ tránh l p d li u. Các nghiên c u
mô t mô hình m ng ni m tin Bayesian phân lo i chính xác 90,3% c a m u xác nh n đ phát hi n gian l n. M ng ni m tin Bayesian t t h n m ng th n kinh và
ph ng pháp cây quy t đ nh và đ t đ c đ chính xác phân lo i xu t s c.
Tóm l i, dù nhi u k thu t phân l p đ c đ xu t (phân l p cây quy t đ nh, phân l p Baysian, m ng noron, phân tích th ng kê,…), trong các k thu t đó, cây quy t đ nh đ c coi là công c m nh, ph bi n và đ c bi t thích h p cho data mining (Ho Tu Bao: Chapter 3: Data mining with Decision Tree – www.akademik.del.ac.id/ebooks).