K t lunch ng 1:
2.2.1.1 La chn công ch tr cho khai phá d li u:
Nghiên c u này d a trên các nghiên c u tr c đây v l nh v c khai phá d li u
đ ng th i c p nh t thêm các công c h tr m i, sau khi tìm hi u các tính n ng c a
t ng công c nh Discipulus, Weka, Orange, Yale, Carrot 2, ELKI, GATE, R, Microsoft Analysics Service, SAS, Google Chart API, hay c ng có th đ t đ c nhi u k t qu t t v i Microsoft Excel. tài đã ch n công c d a trên các tiêu chí:
kh n ng tính toán, tính ti n d ng d hi u cho ng i không chuyên công ngh thông
tin - ch đòi h i m t s hi u bi t thô s c a các khái ni m th ng kê, h tr t t tr c quan hóa (visualization) và h n th n a là ti t ki m chi phí t i đa ( u tiên ph n m m mã ngu n m ). Ph n m m Weka đã đáp ng các yêu c u trên đ ng th i c ng có công c ti n x lý d li u t t và h tr cho nh ng t p d li u l n nên tác gi đã
ch n Weka nh là m t công c đ th c hi n bài lu n này.
Weka đã đ c phát tri n tr ng i h c Waikato và là tên vi t t t c a Waikato
Environment for Knowledge Analysis, h th ng này đ c vi t b ng ngôn ng Java, ch y trên b t k flatform nào, đã đ c th nghi m v i Linux và Windows, và h
đi u hành Macintosh. Nó cung c p m t giao di n th ng nh t v i nhi u thu t toán
khác nhau, cùng v i các ph ng pháp cho vi c x lý tr c, x lý sau và dành cho vi c đánh giá k t qu c a các s đ h c trên b t k t p d li u cho tr c nào.
Hình 2.1 :Giao di n ph n m m Weka
Explorer: S d ng menu l a ch n. Explorer s d ng cho nh ng b d li u v a và nh .
Experimenter: Cho phép ng i dùng th c hi n nh ng bài t p c b n khi ng
d ng phân l p và k thu t h i quy, v i nh ng công vi c có giá tr, ph ng pháp và
tham s t t nh t cho v n đ đã cho. Cho phép b n t đ ng hóa x lý, làm cho nó phân l p và l c d dàng v i nh ng cách thi t l p tham s khác nhau trên toàn b ng d li u.
KnowledgeFlow: Cho phép ng i dùng kéo th nh ng chi c h p t ng tr ng
cho các gi i thu t và d li u đ k t n i chúng l i v i nhau và đ a ra c u trúc. Simple CLI: S d ng câu l nh th c thi.
Weka h tr m t s d li u nhi m v khai thác tiêu chu n, c th h n, ti n x lý d li u, phân nhóm, phân lo i, h i quy, tr c quan, và l a ch n tính n ng. Weka tri n khai m t t p h p t ng đ i đ y đ các thu t toán phân lo i, bao g m nhi u phân lo i ph bi n nh t. D a trên nh ng nghiên c u liên quan (ví d , nghiên c u và d li u nghiên c u gian l n báo cáo tài chính tr c đây khai thác d li u trong các
l nh v c), 3 thu t toán đã đ c l a ch n t Weka: (1) J48, (2) Bayesian Network,
(3) MultilayerPerceptron. 2.2.1.2 Ti n x lý d li u:
B c đ u tiên là thu th p, phân tích. Kích th c c a nghiên c u là các công ty niêm y t trên th tr ng ch ng khoán Vi t Nam (HOSE và HNX). S l ng các quan sát là 213 m u BCTC c a các công ty cho giai đo n tài chính n m 2009 đ n
n m 2011 đ c thu th p thành 2 t p h p d li u tách bi t nhau: 2020 m u BCTC
làm t p h p d li u hu n luy n và 11 m uBCTC đ làm t p ki m tra, xác nh n tính h u ích c a mô hình. Các tiêu chí cho các quan sát là:
- Các công ty niêm y ttrên sàn h n ho c b ng2 n m.
- Báo cáo tài chính c a các công ty này đ c ki m toánhàng n m b i các công ty ki m toán ho t đ ng t i Vi t Nam. Tuy nhiên các báo cáo đ c phân tích là các báo cáo tài chính đ c công b tr c ki m toán. Báo cáo đ c ki m toán s là c s cho
- Trong t p h p d li u hu n luy n, phân ra làm 2 lo i: 104 công ty có có d u
hi u gian l n đ c xu t hi n và 98 công ty không có d u hi u gian l n BCTC trong
vi c ban hành. Trong đó 27 công ty trong ngành nguyên v t li u, 7 công ty ngành
công ngh thông tin, 94 công ty ngành công nghi p, 17 công ty ngành d ch v tiêu dùng, 44 công ty ngành hành tiêu dùng, 9 công ty ngành n ng l ng, 12 công ty trong ngành y t .
Vi c phân lo i m t báo cáo tài chính là có sai sót, gian l n này đ c d a trên các thông s sau đây: trong báo cáo c a ki m toán viên nghi ng nghiêm tr ng c a tính chính xác c a các tài kho n, báo cáo tài chính sau ki m toán đ c yêu c u ph i đi u
ch nh, c quan thu có s không khoan nh ng các kho n thu nghiêm tr ng trong
đó làm thay đ i đáng k b ng cân đ i hàng n m c a công ty và báo cáo thu nh p,
vi c áp d ng pháp lu t Vi t Nam liên quan đ n giá tr th c tiêu c c (nh : d phòng gi m giá,…), các công ty trên sàn giao d ch ch ng khoán HOSE và HNX b theo dõi g t gao và “đàm phán b đình ch ” cho lý do liên quan đ n gi m o d li u tài chính c a công ty, và s t n t i c a th t c t t ng tòa án ch đ i v i FFS ho c s
ph m pháp v thu nghiêm tr ng. Các d u hi u này trong d li u v l ch s gian l n
c a t ch c có th đ c thu th p t chính báo cáo gi i trình đi u ch nh các sai sót
tr ng y u c a công ty đó theo yêu c u c a ki m toán viên sau khi ki m toán ho c
các cáo bu c gian l n n u có t ngu n bên ngoài khác ch ng h n nh th tr ng
ch ng khoán, t p chí ngành công nghi p th ng m i, báo, t p chí kinh doanh và
internet.
Nh ng công ty có nh ng đ c đi m không FFS d a trên s v ng m t c a b t k
d u hi u ho c b ng ch ng liên quan đ n vi c phân lo i FFS trong báo cáo c a ki m toán viên, trong c s d li u tài chính và thu và S Giao d ch ch ng khoán HOSE và HNX. M u quan sát không có FFS này đ c quan sát và đi u tra c n th n, tuy nhiên đi u này không đ m b o r ng các báo cáo tài chính c a các doanh nghi p này không b gi m o ho c có các hành vi không FFS đ c ti t l trong t ng lai. Nó ch b ođ m r ng không có FFS đã đ c tìm d a trên các thông s trên.
M t v n đ n a là đ i v i nghiên c u này, tác gi mu n yêu c u m t m u c a các công ty v i FFS đ c bi t đ n, tuy nhiên l y m t m u trình bày nh th m t thách th c. Hi m khi nào công ty ki m toán cung c p cho các nhà nghiên c u d li u FFS. Các công ty ki m toán lo s nguy c ki n t ng và thi t h i có th đ c k t
h p v i FFS. Do đó tác gi ch l y các BCTC nghi ng có gian l n, dù có nh ng
công v n đi u ch nh hay ch a thì s li u đ c dùng đ phân tích là s li u đ c
chính công ty công b ban đ u vào k t thúc n m báo cáo tài chính ch a đ c đi u
ch nh và đ c đánh giá là có sai sót tr ng y u c n ph i đ c đi u ch nh, và trong
nghiên c u này đ c phân lo i là có gian l n. Các Báo cáo tài chính có gian l n hay doanh nghi p có gian l n trong nghiên c u này có th ch a ho c không bao gi b k t án v hành vi liên quan đ n gian l n. S phân lo i này ch phù h p v i nh ng s
t th a nh n l i, s tr i nghi m th i k tài chính khó kh n hay qua các nghiên c u
tr c đây.
V n đ th hai là các công ty đ c phân tích không có công ty ho t đ ng trong
l nh v c d ch v tài chính nh Ngân hàng, B o hi m, qu đ u t ,…vì BCTC c a
các công ty này khá khác v i BCTC doanh nghi p bình th ng và các quy đ nh ho t đ ng c a h đ c ki m soát ch t b i các c quan c p cao. Các công ty ngành
vi n thông và đi n n c đa ph n ch a đ c c ph n hóa nên c ng không có trong
d li u c a nghiên c u này. Do đó trong m u ch n ch bao g m 7 ngành còn l i
trong phân ngành đã đ c nói t i ph n (1.2.3): N ng l ng, Nguyên v t li u, Công nghi p, D ch v tiêu dùng, Hàng tiêu dùng, Y t , Công ngh .
B c ti p theo là ti n x lí d li u. X lý các giá tr thi u c a các thu c tính b ng cahcs thay các giá tr thi u b ng giá tr trung bình c a thu c tính đó. Lo i b các giá tr ch a các giá tr vô ngh a và không có kh n ng k t n i d li u. M t thách
th c trong khi ti n x lý d li u là BCTC c a các công ty ho t đ ng đa ngành ngh ,
th m chí trong nh ng ngành r t khác nhau nên t s tài chính c a h ít có ý ngh a
khi so sánh v i t s ngành, do đó đ h n ch các BCTC đ c dùng đ phân tích là các BCTC riêng c a công ty ch không ph i là BCTC h p nh t. Vì là nghiên c u
nh , nghiên c u này ch m i s d ng BCTC riêng c a công ty ch ch a dùng BCTC h p nh t đ phân tích nh m h n ch vi c phân lo i ngành.
Trong giai đo n ti n x lý d li u, đ tài l a ch n các thu c tính có liên quan
đ n công vi c d đoán d a trên các ch s tài chính th ng đ c s d ng đã trình
bày trong ch ng I, k t h p giá tr c a các thu c tính thành các nhóm có ý ngha và
d n xu t ra thu c tính m i.
2.2.1.3 Mô hình hóa công vi c:
B c k ti p trong v n đ d đoán c a đ tài là xây d ng và đánh giá các mô
hình. Gi i thu t Decision Tree và Bayesian Network đ c cung c p trong công c
Weka đã đ c s d ng cho vi c mô hình hóa.
Gi i thu t J48-Decision Tree trong Weka đ c cung c p l p Java có tên “weka.classifiers.trees.J48 -C 0.25 -M 2”. Gi i thu t này sinh ra cây c t (pruned)
ho c không c t (un-pruned) C4.5 Decision Tree, và có 3 tham s quan tr ng (xem
b ng IV):
• confidenceFactor: Nhân t s d ng cho vi c c t t a (N u giá tr này càng nh thì cây sinh ra s đ c c t càng nhi u)
• minNumObj: S th hi n (instances) t i thi u trên m t nút lá trong cây. • Unpruned: N u là True thì cây sinh ra s đ c c t t a và ng c l i.
Gi i thu t Bayesian Network trong Weka đ c cung c p l p Java “weka.classifiers.bayes.BayesNet -D -Q weka.classifiers.bayes.net.search.local.K2 - - -P 1 -S BAYES -E weka.classifiers.bayes.net.estimate.SimpleEstimator -- -A 0.5”, và có hai tham s chính (xem b ng VI):
• Estimator: S d ng cho vi c tìm b ng phân ph i xác su t, nó c l ng xác su t tr c ti p t d li u vào.
• SearchAlgorithm: S d ng đ tìm c u trúc cho m ng Bayes
(Hình 2.3: Tham s c a thu t toán Bayesian Network)
2.2.2 Tính h u ích khi s d ng t s tài chính phân tích BCTC gian l n:
Chúng ta th ng c n ph i so sánh hai ph ng pháp h c khác nhau v cùng m t
v n đ đ xem ph ng pháp nào t t h n đ s d ng. i u này đ n gi n là ch n mô
hình nào mà c tính thành công là l n h n. Tuy nhiên, c ng ph i l u ý r ng các mô hình có th có s khác bi t ch đ n gi n là do l i d toán, và trong m t s
tr ng h p, đi u quan tr ng là đ xác đ nh xem m t trong nh ng ch ng trình là
th c s t t h n so v i ng i khác v m t v n đ c th . ây là m t thách th c tiêu
chu n cho các nhà nghiên c u h c máy.
Các tham s khi ch y mô hình trong nghiên c u này là dùng tham s m c đ nh tr c s d ng thu t toán ph bi n.
2.2.2.1 S d ng mô hình Bayesian Network:
ây là d li u thu đ c sau khi th c hi n thành công, g m thông tin v t p d
B ng 2.1: K t qu c a mô hình h c máy Bayesian Network (2 trang)
Scheme: weka.classifiers.bayes.BayesNet - D - Q
weka.classifiers.bayes.net.search.local.K2 - - - P 1 - S BAYES - E
weka.classifiers.bayes.net.estimate.SimpleEstimator - - - A 0.5 Relation: 1.nonfraud&fraud- non dscr
Instances: 202 Attributes: 29
=== Classifier model (full training set) === Bayes Network Classifier
not using ADTree
#attributes=29 #classindex=28
Network structure (nodes followed by parents) Time taken to build model: 0.02 seconds === Evaluation on training set ===
Time taken to test model on training data: 0.02 seconds === Summary ===
Correctly Classified Instances 131 64.8515 % Incorrectly Classified Instances 71 35.1485 % Kappa statistic 0.3064
Mean absolute error 0.3618 Root mean squared error 0.4787 Relative absolute error 72.4133 % Root relative squared error 95.7915 % Coverage of cases (0.95 level) 97.5248 % Mean rel. region size (0.95 level) 90.8416 % Total Number of Instances 202 === Detailed Accuracy By Class ===
TP Rate FP Rate Precision Recall F- Measure MCC ROC Area PRC Area Class 0.888 0.577 0.592 0.888 0.71 0.349 0.748 0.718 NonFraud 0.423 0.112 0.8 0.423 0.553 0.349 0.748 0.739 Fraud Weighted Avg. 0.649 0.338 0.699 0.649 0.63 0.349 0.748 0.729 === Confusion Matrix ===
B ng 2.1: K t qu c a mô hình h c máy Bayesian Network (2 trang)
a b <- - classified as 87 11 | a = NonFraud 60 44 | b = Fraud
Theo k t qu trên đây thì m u d li u g m có 202 công ty, phân lo i ban đ u có
104 BCTC có đi u ch nh sau khi công b (có sai sót tr ng y u), nh ng mô hình ch
phát hi n đ c 87 tr ng h p; phân lo i ban đ u có 98 BCTC không có đi u ch nh sau khi công b , nh ng mô hình ch phát hi n đ c 44 tr ng h p; t ng s phát
hi n đúng là 131 tr ng h p (64,9%), phát hi n sai 71 tr ng h p (35,1%).
Mô hình phân l p này không đ t hi u qu l m.
2.2.2.2 S d ng mô hình cây quy t đ nh:
2.2.2.2.1 Phân lo i báo cáo tài chính c a các công ty niêm y t trong t t c m u
(7 ngành):
B ng 2.2: K t qu c a mô hình h c máy cây quy t đ nh J4.8 (s d ng Use training set) (4 trang)
=== Run information ===
Scheme: weka.classifiers.trees.J48 - C 0.25 - M 2 Relation: 1.nonfraud&fraud- non dscr
Instances: 202 Attributes: 29 CACL QACL NFATA B1 SALTA B2 CASHTA DEBTEQ FAEQ RECLIB TDTA LTDTA WCTA INVSAL
B ng 2.2: K t qu c a mô hình h c máy cây quy t đ nh J4.8 (s d ng Use training set) (4 trang) INVTA Z score COSAL NPSAL NIFA GPTA NPTA ROCE RECSAL REINV RETREND B3 GMTREND Nganh Loai
Test mode: evaluate on training data === Classifier model (full training set) === J48 pruned tree - - - NPTA <= 0.0088 | RECSAL <= 0.1151 | | CASHTA <= 0.0137: NonFraud (3.0) | | CASHTA > 0.0137: Fraud (3.0/ 1.0) | RECSAL > 0.1151: Fraud (30.0/ 1.0) NPTA > 0.0088 | Nganh = HTD | | CACL <= 1.0586: Fraud (4.0) | | CACL > 1.0586 | | | CASHTA <= 0.2217 | | | | COSAL <= 0.174: NonFraud (15.0) | | | | COSAL > 0.174 | | | | | GMTREND <= 0.5564 | | | | | | REINV <= 0.092: NonFraud (2.0) | | | | | | REINV > 0.092: Fraud (5.0) | | | | | GMTREND > 0.5564: NonFraud (5.0) | | | CASHTA > 0.2217: Fraud (3.0)
B ng 2.2: K t qu c a mô hình h c máy cây quy t đ nh J4.8 (s d ng Use training