Ph ng pháp khai phá d li u:

Một phần của tài liệu Phân tích chỉ số tài chính để phát hiện gian lận, sai sót trong báo cáo tài chính của các doanh nghiệp niêm yết trên thị trường chứng khoán việt nam (Trang 34)

M c dù ngày nay gói ph n m m khai phá d li u đ c yêu c u t đ ng hóa

nhi u h n, nh ng nó v n yêu c u m t s h ng d n t ng i s d ng. Vì v y, trong

vi c s d ng các công c khai thác d li u, ng i dùng c n ph i có m t ki n th c

đ c phân lo i khác nhau. Tuy nhiên, nói chung, nó đ c chia thành hai nhóm chính:

- K thu t khai phá d li u mô t : có nhi m v mô t v các tính ch t ho c các

đ c tính chung c a t p d li u l n m t cách t ng k t và súc tích. Các k thu t này bao g m: Phân c m (Clustering), tóm t t (Summerization), tr c quan hóa (Visualization), phân tích s phát tri n và đ l ch (Evolution and Deviation analyst), phân tích lu t k t h p (Association rules), … Khai thác d li u mô t là r t

d dàng đ áp d ng trên d li u không đ c giám sát. Tính ch t này đ c đ ngh

s d ng cho công tác phòng ch ng các hành vi gian l n báo cáo tài chính vì các

ph ng pháp không đ c giám sát phát hi n l i / sai l m, thay đ i trong hành vi và

giá tr thay vì phân lo i các t ch c là gian l n ho c không gian l n.

- K thu t khai phá d li u d đoán: Có nhi m v đ a ra các d đoán d a vào

các suy di n trên d li u hi n th i. Các k thu t này g m có: Phân l p (Classifacation), h i quy (regession), … M c tiêu c a khai thác d li u d đoán là đ d đoán giá tr c a m t thu c tính trên c s giá tr c a các thu c tính khác. Kh

n ng khai thác d li u tiên đoán này s đ c s d ng đ phát hi n các hành vi gian

l n báo cáo tài chính. M t trong nh ng ph ng pháp quan tr ng c a khai thác d

li u d đoán là phân lo i. Phân lo i là m t quá trình hai b c. Trong b c đ u tiên,

m i t ch c trong m u đào t o đ c dán nhãn là gian l n, gian l n không trên c s

c a m t thu c tính nhãn l p. B c này có k t qu h c có giám sát trong m t mô

hình mà sau b c th hai c a phân lo i, trong đó đã h c đ c c g ng mô hình đ phân lo i các t ch c t m u xác nh n là gian l n hay không gian l n. Do đó, phát

hi n và xác đ nh các hành vi gian l n báo cáo tài chính có th đ c coi nh là m t

v n đ c đi n phân lo i.

xác đ nh các thu t toán chính đ c s d ng cho phát hi n gian l n trong k

toán tài chính, tác gi trình bày v các k thu t d li u khai thác đ c xác đ nh trong các tài li u áp d ng cho nghiên c u đ phát hi n các hành vi gian l n tài chính. K thu t đ c s d ng th ng xuyên nh t này là các mô hình cây quy t đ nh (decision trees), m ng th n kinh nhân t o (Artificial Neural Network- ANN), m ng

Belief Bayesian (the Bayesian belief network), t t c đ u r i vào k thu t d đoán và thu t toán lu t k t h p Apriori thu c vào k thu t mô t . B n k thu t này s

đ c th o lu n chi ti t h n trong ph n d i đây.

+ Cây Quy t đ nh (Decision Trees) là công c h tr quy t đ nh mang c u trúc hình cây, n i mà m i lá đ i di n cho m t th nghi m trên m t thu c tính và t ng nhánh đ i di n cho h u qu có th . Nh ng cây này có th đ c tr ng thông qua d a trên thu t toán h c máy nh CART và ID3, C4.5, J48.

M t c u trúc cây đ c t o ra trong đó m i nút c a cây quy đ nh c th th

nghi m c a m t thu c tính, t ng ngành t ng ngđ n m t k t qu th nghi m, và

m i lá t o thành m t d đoán phân lo i. M c đích chính c a cây quy t đ nh là dùng

đ d đoán l p (xác đ nh l p) c a các đ i t ng ch a bi t (unseen data), phân chia

d a trên các thu c tính t t nh t đ tách các m u. M u ti p đ c chia thành các t p con, cho đ n khi không có thêm ho c chia tách có th t o ra s khác bi t có ý ngha th ng kê ho c các phân nhóm là quá nh đ tr i quat ng t có ý ngha phân chia. Thông tin cao nh t là g n nh t v i g c cây.

(Ngu n: http://vi.wikipedia.org/wiki/ Cây_quy t_đ nh ) (adsbygoogle = window.adsbygoogle || []).push({});

Các đi m m nh c a ph ng pháp cây quy t đ nh là: cây quy t đ nh có th t o ra

bi n liên t c và phân lo i, và cây quy t đ nh c ng cung c p m t d u hi u rõ ràng đ d đoán và phân lo i.

+ M ng Neuron – m ng th n kinh nhân t o là mô hình x lý thông tin đ c mô

ph ng d a trên ho t đ ng c a h th ng th n kinh c a sinh v t, bao g m s l ng

l n các Neuron đ c g n k t đ x lý thông tin. ANN gi ng nh b não con ng i,

đ c h c b i kinh nghi m (thông qua hu n luy n), có kh n ng l u gi nh ng kinh

nghi m hi u bi t (tri th c) và s d ng nh ng tri th c đó trong vi c d đoán các d

li u ch a bi t (unseen data). M ng l i th n kinh hi n đ i là các công c mô hình th ng kê d li u phi tuy n tính. Chúng th ng đ c s d ng đ mô hình hóa các m i quan h ph c t p gi a các y u t đ u vào và đ u ra ho c tìm ki m m u trong d li u.

M t m ng truy n th ng đa t ng (Multilayer Perceptron) là m t lo i trong các l p ph bi n và quan tr ng nh t trong các ng d ng c a m ng th n kinh, m ng lan truy n ti n đ c hu n luy n theo ki u h c có giám sát, thi t l p các d li u đ u vào vào m t t p h p cácđ u ra thích h p.

M ng l i th n kinh đ c áp d ng r ng rãi trong phân lo i và phân nhóm, và l i th c a nó nh sau: u tiên, là nó thích nghi, th hai, nó có th t o ra các mô hình m nh m , và th ba, quá trình phân lo i có th đ c s a đ i n u tr ng s hu n

luy n (training weights) m i đ c thi t l p. M ng l i th n kinh đ c áp d ng ch

y u trong l nh v c th tín d ng, b o hi m ô tô và phát hi n gian l n c a công ty.

V c b n, m ng l i th n kinh là m t mô hình toán h c t m t c s d li u l ch

s c a các ví d v các giá tr đ u vào và đ u ra. Sau khi bi t m i quan h gi a các

bi n s , m ng l i đã đ c đào t o và mô hình toán h c đ c xây d ng trong d

li u m u, d a vào m i t ng quan gi a các d li u. Mô hình k t qu , khi đ c s

d ng v i các d li u đ u vào m i, s cung c p d đoán các k t qu đ u ra trong

t ng lai. Ví d , b ng cách thu th p d li u l ch s c a các kho n vay th ng m i

đ c th c hi n cho các t ch c, ngân hàng có th xác đ nh nh ng t ch c không có

kh n ng hoàn tr các kho n vay. M t mô hình có th đ c xây d ng d a trên các

m i quan h , gi a các ch tiêu tài chính và k t qu c a kho n vay c a m t công ty

đ c l a ch n. Sau khi mô hình đ c t ng h p, nó có th đ c s d ng đ d đoán

n u ng i n p đ n vay th ng m i m i có th đ m c đ nh tr n . M ng l i th n

kinh là công c phân tích d li u l n có th đ c s d ng hi u qu đ d đoán s

xu t hi n c a báo cáo tài chính gian l n nh ng th ng b b qua b i các ki m toán

viên n i b và bên ngoài.

Các nhà nghiên c u đã khám phá hi u qu c a m ng th n kinh nhân t o, cây

quy t đ nh và m ng ni m tin Bayesian trong phát hi n gian l n báo cáo tài chính

(FFS) và đ xác đ nh các y u t liên quan đ n FFS (K. Fanning and K.Cogger, 1998) và (Kirkos, 2005). (adsbygoogle = window.adsbygoogle || []).push({});

+ Bayesian Belief Network - M ng ni m tin Bayesian - là m t mô hình đ h a mã hóa các m i quan h xác su t gi a các bi n quan tâm. Khi đ c s d ng k t h p v i các k thu t th ng kê, mô hình đ h a có nhi u thu n l i cho phân tích d li u. M t, b i vì mô hình mã hóa ph thu c trong s t t c các bi n, nó d dàng x lý các tình hu ng mà m t s m c d li u b thi u. Hai, m t m ng Bayesian có th đ c s

đ c s hi u bi t v m t v n đ tên mi n và đ d đoán nh ng h u qu c a s can

thi p. Ba, b i vì mô hình này có m t ng ngh a nguyên nhân và xác su t, nó là đ i

di n cho vi c k t h p ki n th c (mà th ng đi kèm theo hình th c quan h nhân

qu ) và d li u. B n, ph ng pháp th ng kê Bayes k t h p v i m ng Bayes cung

c p m t cách ti p c n hi u qu và nguyên t c đ tránh l p d li u. Các nghiên c u

mô t mô hình m ng ni m tin Bayesian phân lo i chính xác 90,3% c a m u xác nh n đ phát hi n gian l n. M ng ni m tin Bayesian t t h n m ng th n kinh và

ph ng pháp cây quy t đ nh và đ t đ c đ chính xác phân lo i xu t s c.

Tóm l i, dù nhi u k thu t phân l p đ c đ xu t (phân l p cây quy t đ nh, phân l p Baysian, m ng noron, phân tích th ng kê,…), trong các k thu t đó, cây quy t đ nh đ c coi là công c m nh, ph bi n và đ c bi t thích h p cho data mining (Ho Tu Bao: Chapter 3: Data mining with Decision Tree – www.akademik.del.ac.id/ebooks).

Một phần của tài liệu Phân tích chỉ số tài chính để phát hiện gian lận, sai sót trong báo cáo tài chính của các doanh nghiệp niêm yết trên thị trường chứng khoán việt nam (Trang 34)