Chun b phân chia t pd

Một phần của tài liệu XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020 (Trang 53)

K t l un ch n g2

3.2.4.Chun b phân chia t pd

1. T p d li u hu n luy n (training dataset).

2. T p d li u ki m th (test set/validation set). T p d li u này c s d ng ki m tra chính xác v kh n ng d ốn c a mơ hình phân l p.

S d ng n m t s b l c Filters c a Weka, trong m c Unsupervised

/Instance/RemovePercentage phân chia t p d li u: 80% làm t p d li u hu n luy n (training dataset) và 20% làm t p d li u ki m th (test set/validation set).

Hình 3.7. D li u s d ng cho Training và Test mơ hình 3.2.5. Xây d ng mơ hình

Cĩ r t nhi u thu t tốn xây d ng mơ hình t t p các d li u u vào và phân l p d li u a ra quy t nh d báo. Xây d ng mơ hình phân l p là hình th c phân tích, mơ t các l p d li u quan tr ng xây d ng mơ

hình. Khơng cĩ mơ hình nào v t tr i nh t cho m i t p d li u. D a vào các tiêu chí ánh giá nh chính xác, th i gian hu n luy n, tính linh ho t, kh

n ng co giãn, cĩ th a ra quy t nh s d ng mơ hình nào thích h p

nh t trong bài tốn th c t . lu n v n này, chúng ta s tìm hi u m t s mơ

hình nh ng s nêu ra mơ phù h p v i t p d li u train t ĩ áp d ng vào

t p d li u test c th . K t qu mong mu n s là l a ch n mơ hình t t nh t,

phù h p nh t a ra quy t nh d báo cho bài tốn.

Hình 3.8. Quy trình xây d ng mơ hình d báo v i WEKA

3.2.5.1.K t qu mơ hình weka.classifiers.functions.Logistic

Hình 3.9. K t qu mơ hình Logistic

D a vào k t qu phân tích trên cho th y v i mơ hình Logistic t l

gi m < 4%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 96%, Recall = Precision >96% cho th y t l xác su t d báo ch s giá tiêu dùng t ng >96%.

3.2.5.2.K t qu mơ hình weka.classifiers.bayes.NaiveBayes

Hình 3.10. K t qu mơ hình NaiveBayes

D a vào k t qu phân tích trên cho th y v i mơ hình NaiveBayes t l d báo ch s giá tiêu dùng t ng > 87%, d báo ch s giá tiêu dùng gi m < 13%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 88%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng t ng > 87%.

3.2.5.3.K t qu mơ hình weka.classifiers.bayes.BayesNet

D a vào k t qu phân tích trên cho th y v i mơ hình BayesNet t l d báo ch s giá tiêu dùng t ng > 87%, d báo ch s giá tiêu dùng gi m < 13%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 88%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng s t ng > 87%.

3.2.5.4.K t qu mơ hình weka.classifiers.trees.J48

Hình 3.12. K t qu mơ hình trees.J48

D a vào k t qu phân tích trên cho th y v i mơ hình trees.J48 t l d báo ch s giá tiêu dùng t ng > 94%, d báo ch s giá tiêu dùng gi m 6%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 94%, Recall = Precision > 94% cho th y t l xác su t d báo ch s giá tiêu dùng t ng > 94%.

3.2.5.5.K t qu mơ hình weka.classifiers.lazy.IBk

a. V i K=1

Hình 3.14. K t qu mơ hình IBk K=1

D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 2 t l d

báo ch s giá tiêu dùng t ng > 94%, d báo ch s giá tiêu dùng gi m < 6%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 94%, Recall = Precision >94% cho th y t l xác su t ch s giá tiêu dùng t ng >94%.

b. V i K=2 (adsbygoogle = window.adsbygoogle || []).push({});

Hình 3.15. K t qu mơ hình IBk K=2

D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 2 t l d

báo ch s giá tiêu dùng t ng > 92%, d báo ch s giá tiêu dùng gi m < 8%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 92%, Recall = Precision > 92% cho th y t l xác su t ch s giá tiêu dùng t ng > 92%.

c. V i K=3

Hình 3.16. K t qu mơ hình IBk K=3

D a vào k t qu phân tích trên cho th y v i mơ hình IBk K= 3 t l d

8%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 91%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng c ng t ng > 92%.

3.2.5.6.K t qu mơ hình weka.classifiers.functions.SMO

Hình 3.17. K t qu mơ hình SMO

D a vào k t qu phân tích trên cho th y v i mơ hìnhSMOt l d báo ch s giá tiêu dùng t ng > 91%, d báo ch s giá tiêu dùng gi m < 9%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 92%, Recall cho th y t l xác su t d báo ch s giá tiêu dùng c ng t ng > 90%.

3.2.5.7.K t qu mơ hình

weka.classifiers.functions.MultilayerPerceptron

D a vào k t qu phân tích trên cho th y v i mơ hìnhMultilayerPerceptron

t l d báo ch s giá tiêu dùng t ng > 96%, d báo ch s giá tiêu dùng gi m < 4%, Precision cho th y t l xác su t d báo ch s giá tiêu dùng t ng chính xác > 96%, Recall= Precision > 96% cho th y t l xác su t d báo ch s giá tiêu dùng t ng m nh > 96%.

lu n v n này, vi c xác nh ch s giá tiêu dùng t ng hay gi m là vi c

c c k quan tr ng nên Precision và Recall mơ hình càng cao ch ng t d

báo trong t ng lai xác su t ch s giá tiêu dùng ngày càng t ng cao và

chính xác d báo t ng là r t l n theo ĩ t l % l m phát c ng s c d báo

ngày càng t ng.

3.3. ÁNH GIÁ, NH N XÉT K T QU MƠ HÌNH

Vi c ánh giá các mơ hình là c n thi t m b o r ng các mơ hình

chúng ta xây d ng s cĩ hi u qu d báo t t. ây, chúng ta s t p trung vào

kh n ng d ốn c a các mơ hình qua vi c quan sát k t qu c a ma tr n nh m l n (confusion matrix), T l chính xác, MAE, RMSE, Precision, Recall,

F1-score, Error_rate ánh giá, nh n xét các mơ hình. Trong ĩ:

Confusion matrix Predicted Class

Actual Class

tang giam

tang a b

giam c d

a: TP (true positive) m u mang nhãn d ng c phân l p úng vào (adsbygoogle = window.adsbygoogle || []).push({});

l p d ng.

b:FN (false negative) m u mang nhãn d ng b phân l p sai vào

c:FP (false positive) m u mang nhãn âm b phân l p sai vào l p d ng.

d:TN (true negative) m u mang nhãn âm c phân l p úng vào

l p âm.

MAE (Mean Absolute Error) Sai s tuy t i trung bình

MAE là m t ph ng pháp o l ng s khác bi t gi a hai bi n liên t c.

Gi s r ng X và Y là hai bi n liên t c th hi n k t qu d ốn c a mơ hình

và k t qu th c t , o MAE c tính theo cơng th c sau:

MAE = =

RMSE (Root mean squared error) c n b c hai sai s bình ph ng trung bình

RMSE th ng xuyên c s d ng ánh giá kh p c a mơ hình so

v i d li u hu n luy n. c tính b ng c n b c hai c a giá tr tuy t i c a h

s t ng quan gi a giá tr th c và giá tr d ốn.

RMSE=

Precision (bao nhiêu cái úng c l y ra)

Xem xét trên t p d li u ki m tra xem cĩ bao nhiêu d li u c mơ

hình d ốn úng. ây chính là ch s accuracy ( chính xác c a mơ

hình), Precision c tính nh sau:

Precision =

Tuy nhiên cho khách quan h n ng i ta c n ph i xem xét thêm m t

y u t n a chính làRecall, Recall (bao nhiêu cái c l y ra là úng) c

tính theo cơng th c sau:

Ch s này cịn c g i là nh y c a mơ hình là xem xét cĩ kh n ng t ng quát hĩa nh th nào.

F1-score là harmonic mean c a precision và recall (gi s r ng hai i l ng này khác khơng)

F1-score = 2

F1-score càng cao, b phân l p càng t t. T ng h p k t qu t các mơ hình nh sau:

B ng 3.3. score cĩ giá tr n m trong n a kho ng B ng t ng h p k t qu phân tích các mơ hình

Classifier MAE RMSE Precision Recall F1-score Error_rate

Train Test Train Test Train Test Train Test Train Test Train Test (adsbygoogle = window.adsbygoogle || []).push({});

Logistic 0.1148 0.1152 0.2381 0.2186 0.933 0.961 0.935 0.935 0.934 0.948 0.067 0.039 NaiveBayes 0.1285 0.1144 0.3069 0.2687 0.883 0.907 0.887 0.871 0.885 0.889 0.117 0.093 BayesNet 0.1235 0.1436 0.2698 0.2808 0.916 0.945 0.909 0.871 0.912 0.906 0.084 0.055 Tree J48 0.1028 0.0889 0.2267 0.1705 0.940 0.976 0.942 0.986 0.941 0.981 0.060 0.058 kNN K=1 0.0551 0.061 0.1621 0.1534 0.963 0.969 0.961 0.968 0.962 0.968 0.037 0.031 K=2 0.1006 0.1131 0.2133 0.2058 0.929 0.969 0.922 0.968 0.925 0.968 0.071 0.078 K=3 0.116 0.1128 0.2375 0.2153 0.919 0.967 0.922 0.968 0.92 0.967 0.081 0.033 SMO 0.0909 0.129 0.3015 0.3529 0.920 0.945 0.909 0.871 0.914 0.906 0.080 0.055 Multilayer Perceptron 0.0633 0.0678 0.1668 0.1529 0.961 0.976 0.961 0.968 0.961 0.972 0.039 0.033

Hình 3.19. Bi u so sánh k t qu d báo các mơ hình

D a vào b ng k t qu phân tích và bi u so sánh trên chúng ta cĩ th k t lu n r ng i v i t p d li u ã cĩ trong lu n v n này thì mơ hình

MultilayerPerceptroncho k t qu d báo chính xác cao nh t (> 96%), t l d báo l i th p nh t (< 4%) t p d li u hu n luy n và cho k t qu d báo chính xác cao nh t (> 96.5%), t l d báo l i th p nh t (x p x 3.5%) t p d li u ki m th và t l F1-score i v i t p d li u hu n luy n là > 96%, t p ki m th là > 97%, t l F1 càng cao cho th y b phân l p càng t t. V y, ta cĩ th

u tiên l a ch n mơ hình Multilayer Perceptron cho bài tốn.

3.4. XÂY D NG NG D NG

H th ng c xây d ng b ng ngơn ng JAVA trên n n t ng .JDK. B c u, h th ng k t n i v i CSDL và s d ng các mơ hình ã xây d ng ch ng 3 a ra các d báo ch s giá tiêu dùng cpi và tình hình l m phát

kinh t Vi t Nam n n m 2020. Ng i dùng cĩ th l a ch n t ng d ng và

Hình 3.20. ng d ng d báo ch s giá tiêu dùng CPI và tình hình l m phát kinh t n n m 2020

K t lu n ch ng 3

Nh v y xây d ng c ng d ng d báo ch sơ giá tiêu dùng và tình

hình l m phát kinh t n n m chúng ta c n ph i th c hi n m t s cơng vi c sau: Tr c tiên, t i file d li u Ch s giá tiêu dùng, ch s giá vàng và ơ la M các tháng trong n m so v i tháng tr c t m c s li u th ng kê c a trang web T ng c c th ng kê Vi t Nam cung c p nh d ng file .xml, ti p theo

chuy n file d li u .xml v d ng.csv ho c .arff th c hi n c trên cơng

c h tr Weka, ti p theo ti n x lý d li u và t o thu c tính phân l p sao cho l p 1 t ng ng v i d báo ch s cpi t ng, l p 0 t ng ng v i d báo ch s cpi gi m t ĩ a ra quy t nh d báo l m phát tình hình kinh t r i phân chia t p d li u thành 80% làm t p d li u hu n luy n (training dataset) và 20% làm t p d li u ki m th (test set/validation set). Sau ĩ s d ng t p

d li u training xây d ng các mơ hình phân l p (Logistic, Naive Bayes,

giá k t qu c a t ng mơ hình d a trên k t qu phân tích ánh giá MAE,

RMSE, Precision, Recall, Error_rate làm m c tiêu cĩ th xác nh mơ hình

t t hay khơng t t. Cu i cùng ph i là s d ng t p d li u test ki m ch ng l i xem k t qu ánh giá cĩ th c s phù h p và hi u qu v i b d li u train

khơng, mơ hình nào cho k t qu t l d báo chính xác cao nh t và t l l i th p nh t thì c u tiên l a ch n . D báo ch s giá tiêu dùng (CPI) trong t ng lai là lu n v n mà tơi ã s d ng d li u th i gian t tháng 1/2002 n tháng 12/2017 c a T ng c c th ng kê Vi t Nam. T k t qu nghiên c u k t cĩ th k t lu n r ng chúng ta u tiên l a ch n mơ hình MultilayerPerceptron

d ốn ch s CPI n n m 2020 và t k t qu d báo CPI chúng ta d

K T LU N CHUNG VÀ H NG PHÁT TRI N TÀIK t lu n chung K t lu n chung

Qua quá trình nghiên c u và tìm hi u v các v n v t m quan tr ng

c a vi c d báo ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t t i Vi t Nam và m t s v n liên quan t i khai phá d li u xây d ng mơ hình

d báo, lu n v n ã hồn thành và t c m t s k t qu nh sau:

Lu n v n ã trình bày c vai trị và t m quan tr ng c a vi c d báo

ch s giá tiêu dùng (CPI) và l m phát kinh t t i Vi t Nam.

Nghiên c u c s lý thuy t liên quan n k thu t xây d ng mơ hình d báo khai phá d li u và xây d ng các mơ hình b ng cơng c WEKA.

i v i bài tốn d báo ch s giá tiêu dùng cpi và tình hình l m phát kinh t Vi t Nam n n m 2020, lu n v n ã xây d ng các mơ hình d báo

Logistic, Naive Bayes, Bayes Net, Tree J48, KNN, SMO, Multilayer

Perceptron. V i d li u t T ng c c th ng kê Vi t Nam, s li u thu th p c (adsbygoogle = window.adsbygoogle || []).push({});

192 instance trong th i gian t 1/2002-12/2017 d li u thu th p c cĩ th i gian liên t c, khơng gián o n. Qua nghiên c u phân tích, l a ch n và ánh giá chúng ta u tiên l a ch n mơ hình MultilayerPerceptron phù h p nh t v i t p d li u ã thu th p.

Trên c s tri th c phát hi n c t các mơ hình d báo, lu n v n ti n hành xây d ng ng d ng d báo ch s giá tiêu dùng CPI và tình hình l m phát kinh t Vi t Nam n n m 2020. V i vi c tri n khai th nghi m ng d ng d báo ch s giá tiêu dùng (CPI) và tình hình l m phát kinh t Vi t Nam n n m 2020. ng d ng này s gĩp ph n h tr cho nhà qu n lý k p

th i a ra quy t nh úng n trong các ho t ng kinh t , bình n giá tr

ti n t , ki m ch l m phát...

Bên c nh nh ng k t qu t c, a mơ hình d báo vào vi c xây

qu m t cách th ng xuyên. B n thân tơi nh n th y ây là m t ng d ng cĩ tính th c ti n cao, d báo ch s giá tiêu dùng t t s d n n ki m ch l m phát t t i u ĩ mang l i nhi u l i ích cho n n kinh t qu c gia c ng nh các

nhà u t và các doanh nghi p a ra các quy t nh úng n trong kinh

doanh và ho ch nh kinh t .

H ng phát tri n

Trong t ng lai, chúng tơi hy v ng nghiên c u này i sâu h n b ng vi c th o lu n d báo ch s giá tiêu dùng và l m phát trong th i gian b ng cách s d ng cơng ngh tiên ti n h n: bigdata, áp d ng trong mơi tr ng i n tốn

ám mây, s d ng ph ng pháp deeplearning...và tích h p nhi u ph ng pháp m i cho ra m t ng d ng hồn h o h n v i xác xu t d báo chính

Một phần của tài liệu XÂY DỰNG ỨNG DỰNG DỰ BÁO CHỈ SỐ CPI VÀ TÌNH HÌNH LẠM PHÁT KINH TẾ VIỆT NAM ĐẾN NĂM 2020 (Trang 53)