K t l un ch n g2
3.2.4. Chun b phân chia t pd
1. T p d li u hu n luy n (training dataset).
2. T p d li u ki m th (test set/validation set). T p d li u này c s d ng ki m tra chính xác v kh n ng d ốn c a mơ hình phân l p.
S d ng n m t s b l c Filters c a Weka, trong m c Unsupervised
/Instance/RemovePercentage phân chia t p d li u: 80% làm t p d li u hu n luy n (training dataset) và 20% làm t p d li u ki m th (test set/validation set).
Hình 3.7. D li u s d ng cho Training và Test mơ hình 3.2.5. Xây d ng mơ hình
Cĩ r t nhi u thu t tốn xây d ng mơ hình t t p các d li u u vào và phân l p d li u a ra quy t nh d báo. Xây d ng mơ hình phân l p là hình th c phân tích, mơ t các l p d li u quan tr ng xây d ng mơ
hình. Khơng cĩ mơ hình nào v t tr i nh t cho m i t p d li u. D a vào các tiêu chí ánh giá nh chính xác, th i gian hu n luy n, tính linh ho t, kh
n ng co giãn, cĩ th a ra quy t nh s d ng mơ hình nào thích h p
nh t trong bài tốn th c t . lu n v n này, chúng ta s tìm hi u m t s mơ
hình nh ng s nêu ra mơ phù h p v i t p d li u train t ĩ áp d ng vào
t p d li u test c th . K t qu mong mu n s là l a ch n mơ hình t t nh t,
phù h p nh t a ra quy t nh d báo cho bài tốn.
Hình 3.8. Quy trình xây d ng mơ hình d báo v i WEKA
3.2.5.1.K t qu mơ hình weka.classifiers.functions.Logistic
Hình 3.9. K t qu mơ hình Logistic
D a vào k t qu phân tích trên cho th y v i mơ hình Logistic cĩ t l
gi m < 4%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 96%, Recall = Precision >96% cho th y t l xác su t d báo ch s giá tiêu dùng t ng >96%.
3.2.5.2.K t qu mơ hình weka.classifiers.bayes.NaiveBayes
Hình 3.10. K t qu mơ hình NaiveBayes
D a vào k t qu phân tích trên cho th y v i mơ hình NaiveBayes t l d báo ch s giá tiêu dùng t ng > 87%, d báo ch s giá tiêu dùng gi m < 13%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 88%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng t ng > 87%.
3.2.5.3.K t qu mơ hình weka.classifiers.bayes.BayesNet
D a vào k t qu phân tích trên cho th y v i mơ hình BayesNet t l d báo ch s giá tiêu dùng t ng > 87%, d báo ch s giá tiêu dùng gi m < 13%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 88%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng s t ng > 87%.
3.2.5.4.K t qu mơ hình weka.classifiers.trees.J48
Hình 3.12. K t qu mơ hình trees.J48
D a vào k t qu phân tích trên cho th y v i mơ hình trees.J48 t l d báo ch s giá tiêu dùng t ng > 94%, d báo ch s giá tiêu dùng gi m 6%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 94%, Recall = Precision > 94% cho th y t l xác su t d báo ch s giá tiêu dùng t ng > 94%.
3.2.5.5.K t qu mơ hình weka.classifiers.lazy.IBk
a. V i K=1
Hình 3.14. K t qu mơ hình IBk K=1
D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 2 t l d
báo ch s giá tiêu dùng t ng > 94%, d báo ch s giá tiêu dùng gi m < 6%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 94%, Recall = Precision >94% cho th y t l xác su t ch s giá tiêu dùng t ng >94%.
b. V i K=2
Hình 3.15. K t qu mơ hình IBk K=2
D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 2 t l d
báo ch s giá tiêu dùng t ng > 92%, d báo ch s giá tiêu dùng gi m < 8%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 92%, Recall = Precision > 92% cho th y t l xác su t ch s giá tiêu dùng t ng > 92%.
c. V i K=3
Hình 3.16. K t qu mơ hình IBk K=3
D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 3 t l d
8%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 91%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng c ng t ng > 92%.
3.2.5.6.K t qu mơ hình weka.classifiers.functions.SMO
Hình 3.17. K t qu mơ hình SMO
D a vào k t qu phân tích trên cho th y v i mơ hìnhSMOt l d báo ch s giá tiêu dùng t ng > 91%, d báo ch s giá tiêu dùng gi m < 9%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 92%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng c ng t ng > 90%.
3.2.5.7.K t qu mơ hình
weka.classifiers.functions.MultilayerPerceptron
D a vào k t qu phân tích trên cho th y v i mơ hìnhMultilayerPerceptron
t l d báo ch s giá tiêu dùng t ng > 96%, d báo ch s giá tiêu dùng gi m < 4%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 96%, Recall= Precision > 96% cho th y t l xác su t d báo ch s giá tiêu dùng t ng m nh > 96%.
lu n v n này, vi c xác nh ch s giá tiêu dùng t ng hay gi m là vi c
c c k quan tr ng nên Precision và Recall mơ hình càng cao ch ng t d
báo trong t ng lai xác su t ch s giá tiêu dùng ngày càng t ng cao và
chính xác d báo t ng là r t l n theo ĩ t l % l m phát c ng s c d báo
ngày càng t ng.
3.3. ÁNH GIÁ, NH N XÉT K T QU MƠ HÌNH
Vi c ánh giá các mơ hình là c n thi t m b o r ng các mơ hình
chúng ta xây d ng s cĩ hi u qu d báo t t. ây, chúng ta s t p trung vào
kh n ng d ốn c a các mơ hình qua vi c quan sát k t qu c a ma tr n nh m l n (confusion matrix), T l chính xác, MAE, RMSE, Precision, Recall,
F1-score, Error_rate ánh giá, nh n xét các mơ hình. Trong ĩ:
Confusion matrix Predicted Class
Actual Class
tang giam
tang a b
giam c d
a: TP (true positive) m u mang nhãn d ng c phân l p úng vào
l p d ng.
b:FN (false negative) m u mang nhãn d ng b phân l p sai vào
c:FP (false positive) m u mang nhãn âm b phân l p sai vào l p d ng.
d:TN (true negative) m u mang nhãn âm c phân l p úng vào
l p âm.
MAE (Mean Absolute Error) Sai s tuy t i trung bình
MAE là m t ph ng pháp o l ng s khác bi t gi a hai bi n liên t c.
Gi s r ng X và Y là hai bi n liên t c th hi n k t qu d ốn c a mơ hình
và k t qu th c t , o MAE c tính theo cơng th c sau:
MAE = =
RMSE (Root mean squared error) c n b c hai sai s bình ph ng trung bình
RMSE th ng xuyên c s d ng ánh giá kh p c a mơ hình so
v i d li u hu n luy n. c tính b ng c n b c hai c a giá tr tuy t i c a h
s t ng quan gi a giá tr th c và giá tr d ốn.
RMSE=
Precision (bao nhiêu cái úng c l y ra)
Xem xét trên t p d li u ki m tra xem cĩ bao nhiêu d li u c mơ
hình d ốn úng. ây chính là ch s accuracy ( chính xác c a mơ
hình), Precision c tính nh sau:
Precision =
Tuy nhiên cho khách quan h n ng i ta c n ph i xem xét thêm m t
y u t n a chính làRecall, Recall (bao nhiêu cái c l y ra là úng) c
tính theo cơng th c sau:
Ch s này cịn c g i là nh y c a mơ hình là xem xét cĩ kh n ng t ng quát hĩa nh th nào.
F1-score là harmonic mean c a precision và recall (gi s r ng hai i l ng này khác khơng)
F1-score = 2
F1-score càng cao, b phân l p càng t t. T ng h p k t qu t các mơ hình nh sau:
B ng 3.3. score cĩ giá tr n m trong n a kho ng B ng t ng h p k t qu phân tích các mơ hình
Classifier MAE RMSE Precision Recall F1-score Error_rate
Train Test Train Test Train Test Train Test Train Test Train Test
Logistic 0.1148 0.1152 0.2381 0.2186 0.933 0.961 0.935 0.935 0.934 0.948 0.067 0.039 NaiveBayes 0.1285 0.1144 0.3069 0.2687 0.883 0.907 0.887 0.871 0.885 0.889 0.117 0.093 BayesNet 0.1235 0.1436 0.2698 0.2808 0.916 0.945 0.909 0.871 0.912 0.906 0.084 0.055 Tree J48 0.1028 0.0889 0.2267 0.1705 0.940 0.976 0.942 0.986 0.941 0.981 0.060 0.058 kNN K=1 0.0551 0.061 0.1621 0.1534 0.963 0.969 0.961 0.968 0.962 0.968 0.037 0.031 K=2 0.1006 0.1131 0.2133 0.2058 0.929 0.969 0.922 0.968 0.925 0.968 0.071 0.078 K=3 0.116 0.1128 0.2375 0.2153 0.919 0.967 0.922 0.968 0.92 0.967 0.081 0.033 SMO 0.0909 0.129 0.3015 0.3529 0.920 0.945 0.909 0.871 0.914 0.906 0.080 0.055 Multilayer Perceptron 0.0633 0.0678 0.1668 0.1529 0.961 0.976 0.961 0.968 0.961 0.972 0.039 0.033
Hình 3.19. Bi u so sánh k t qu d báo các mơ hình
D a vào b ng k t qu phân tích và bi u so sánh trên chúng ta cĩ th k t lu n r ng i v i t p d li u ã cĩ trong lu n v n này thì mơ hình
MultilayerPerceptroncho k t qu d báo chính xác cao nh t (> 96%), t l d báo l i th p nh t (< 4%) t p d li u hu n luy n và cho k t qu d báo chính xác cao nh t (> 96.5%), t l d báo l i th p nh t (x p x 3.5%) t p d li u ki m th và t l F1-score i v i t p d li u hu n luy n là > 96%, t p ki m th là > 97%, t l F1 càng cao cho th y b phân l p càng t t. V y, ta cĩ th
u tiên l a ch n mơ hình Multilayer Perceptron cho bài tốn.
3.4. XÂY D NG NG D NG
H th ng c xây d ng b ng ngơn ng JAVA trên n n t ng .JDK. B c u, h th ng k t n i v i CSDL và s d ng các mơ hình ã xây d ng ch ng 3 a ra các d báo ch s giá tiêu dùng cpi và tình hình l m phát
kinh t Vi t Nam n n m 2020. Ng i dùng cĩ th l a ch n t ng d ng và
Hình 3.20. ng d ng d báo ch s giá tiêu dùng CPI và tình hình l m phát kinh t n n m 2020
K t lu n ch ng 3
Nh v y xây d ng c ng d ng d báo ch sơ giá tiêu dùng và tình
hình l m phát kinh t n n m chúng ta c n ph i th c hi n m t s cơng vi c sau: Tr c tiên, t i file d li u Ch s giá tiêu dùng, ch s giá vàng và ơ la M các tháng trong n m so v i tháng tr c t m c s li u th ng kê c a trang web T ng c c th ng kê Vi t Nam cung c p nh d ng file .xml, ti p theo
chuy n file d li u .xml v d ng.csv ho c .arff th c hi n c trên cơng
c h tr Weka, ti p theo ti n x lý d li u và t o thu c tính phân l p sao cho l p 1 t ng ng v i d báo ch s cpi t ng, l p 0 t ng ng v i d báo ch s cpi gi m t ĩ a ra quy t nh d báo l m phát tình hình kinh t r i phân chia t p d li u thành 80% làm t p d li u hu n luy n (training dataset) và 20% làm t p d li u ki m th (test set/validation set). Sau ĩ s d ng t p
d li u training xây d ng các mơ hình phân l p (Logistic, Naive Bayes,
giá k t qu c a t ng mơ hình d a trên k t qu phân tích ánh giá MAE,
RMSE, Precision, Recall, Error_rate làm m c tiêu cĩ th xác nh mơ hình
t t hay khơng t t. Cu i cùng ph i là s d ng t p d li u test ki m ch ng l i xem k t qu ánh giá cĩ th c s phù h p và hi u qu v i b d li u train
khơng, mơ hình nào cho k t qu t l d báo chính xác cao nh t và t l l i th p nh t thì c u tiên l a ch n . D báo ch s giá tiêu dùng (CPI) trong t ng lai là lu n v n mà tơi ã s d ng d li u th i gian t tháng 1/2002 n tháng 12/2017 c a T ng c c th ng kê Vi t Nam. T k t qu nghiên c u k t cĩ th k t lu n r ng chúng ta u tiên l a ch n mơ hình MultilayerPerceptron
d ốn ch s CPI n n m 2020 và t k t qu d báo CPI chúng ta d
K T LU N CHUNG VÀ H NG PHÁT TRI N TÀIK t lu n chung K t lu n chung
Qua quá trình nghiên c u và tìm hi u v các v n v t m quan tr ng
c a vi c d báo ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t t i Vi t Nam và m t s v n liên quan t i khai phá d li u xây d ng mơ hình
d báo, lu n v n ã hồn thành và t c m t s k t qu nh sau:
Lu n v n ã trình bày c vai trị và t m quan tr ng c a vi c d báo
ch s giá tiêu dùng (CPI) và l m phát kinh t t i Vi t Nam.
Nghiên c u c s lý thuy t liên quan n k thu t xây d ng mơ hình d báo khai phá d li u và xây d ng các mơ hình b ng cơng c WEKA.
i v i bài tốn d báo ch s giá tiêu dùng cpi và tình hình l m phát kinh t Vi t Nam n n m 2020, lu n v n ã xây d ng các mơ hình d báo
Logistic, Naive Bayes, Bayes Net, Tree J48, KNN, SMO, Multilayer
Perceptron. V i d li u t T ng c c th ng kê Vi t Nam, s li u thu th p c
192 instance trong th i gian t 1/2002-12/2017 d li u thu th p c cĩ th i gian liên t c, khơng gián o n. Qua nghiên c u phân tích, l a ch n và ánh giá chúng ta u tiên l a ch n mơ hình MultilayerPerceptron phù h p nh t v i t p d li u ã thu th p.
Trên c s tri th c phát hi n c t các mơ hình d báo, lu n v n ti n hành xây d ng ng d ng d báo ch s giá tiêu dùng CPI và tình hình l m phát kinh t Vi t Nam n n m 2020. V i vi c tri n khai th nghi m ng d ng d báo ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t Vi t Nam n n m 2020. ng d ng này s gĩp ph n h tr cho nhà qu n lý k p
th i a ra quy t nh úng n trong các ho t ng kinh t , bình n giá tr
ti n t , ki m ch l m phát...
Bên c nh nh ng k t qu t c, a mơ hình d báo vào vi c xây
qu m t cách th ng xuyên. B n thân tơi nh n th y ây là m t ng d ng cĩ tính th c ti n cao, d báo ch s giá tiêu dùng t t s d n n ki m ch l m phát t t i u ĩ mang l i nhi u l i ích cho n n kinh t qu c gia c ng nh các
nhà u t và các doanh nghi p a ra các quy t nh úng n trong kinh
doanh và ho ch nh kinh t .
H ng phát tri n
Trong t ng lai, chúng tơi hy v ng nghiên c u này i sâu h n b ng vi c th o lu n d báo ch s giá tiêu dùng và l m phát trong th i gian b ng cách s d ng cơng ngh tiên ti n h n: bigdata, áp d ng trong mơi tr ng i n tốn
ám mây, s d ng ph ng pháp deeplearning...và tích h p nhi u ph ng pháp m i cho ra m t ng d ng hồn h o h n v i xác xu t d báo chính