Vì vậy nhóm chọn đề tài về ứng dụng khoa học đữ liệu vào dự đoán sự tăng trưởng GDP và phân bỏ tình hình kinh tế của nhóm các Quốc gia, bởi tính quan trọng của việc hiểu và đánh giá nền
Trang 1DAI HOC UEH TRUONG CONG NGHE VA THIET KE KHOA CONG NGHE THONG TIN KINH DOANH
UEH
UNIVERSITY DU AN CUOI KY DE TAI: UNG DUNG KHOA HOC DU LIEU VAO DU DOAN
TANG TRUONG GDP VA PHAN BO TINH HiNH KINH TE
CUA CAC NHOM NUOC
BO MON: KHOA HOC DU LIEU
Mã lớp học phần: 23CIINF50905963
Thành viên nhóm 5: Trần Minh Duy - 31221023143
Lê Trung Khải — 31221024431 Võ Gia Hân - 31221026049 Bùi Thị Khánh Linh - 31221025048
Trương Vương Ngọc Yến - 31221020805
Trang 2
MUC LUC
1 Lý do chọn đề tài nghién CUUl c.cccccccccceccseesesessesevsessesessesecsesevsvscsesevevevsnseseteseseres l 2 Mục tiêu nghiÊn CỨU: cc cece 1211111112111 2111111101112 110111101112 11101111 1 2.1 Mục tiêu tông quát: - 5: S11 111111111111 11 111 1211101111211 trau l
2.2 Mục tiêu cụ thỂ: - 5s: 22c: 222112221122111 2111221112221 021112121101 2e I
3, Đối tượng và phạm vi nghiên cứu -. - + 1 +21111121111111111111112121 11112 re 2 3.1 Đối tượng nghiên cứu St 1T 1 E1 E111 11121 1112121112111 11g 2 3.2 Phạm vi nghiên cứu - - c1 201220112211 121 11151115211 111111 11115011 01111 k1 ky 2 4 Phương pháp thực hiện -.- c2 2c 12221221211 1211 1121111211111 1101111111 0111121111 2
CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUÁ 2 I._ Mô tả nguồn đữ liệu và cau trúc của đữ liệu 5+ sS 1111111111111 1151 11 1 x2 2 LL Mô tảnguỗn đữ liệu - -Sc 221211115111111111 11 121 1121 1 gu 2 1.2 Cấu trúc của dữ liệu: :-222c222112221112211221121711212121111.21 te 3 2 Phân tích và tiền xử lý đữ liệu 5s s St 22 E12111121111111111012122211 1g 4
2.1 Phân tích dữ liệu -. 2 2E 1222121121121 1 11111521 1211211 111112111 1 re 4
2.2 Tiền xử lý đữ liệu: s21 S21211112111111211 1111 1 11 g1 rrr 4
3 BÀI TOÁN 1: Mô tả đữ liệu bằng lược dé hay các công cụ thống kê 8 3.1 Xây dựng và mô tả dashboard - L2 220112011211 11211 1511112111111 1 115811 x ray 8
3.1.1 Mô tả bài toán c1 21121121121 121 1111212111122 111g T1 HH HH ng 8
3.1.2 Xây dựng và mô tả dashboard 2: 2 22 2221122311323 1 1211115111551 ese 9 3.2 Các đặc thủ của đữ liệu theo biến phụ thuộc - 22222 22221122222 17
3.2.1 Mô tả bải toán 221121211121 121 111 151211111122111111 11211 11H15 1 ra 17
3.2.2 Phát hiện các đặc thù của dữ liệu theo biến phụ thuộc - 17 3.2.3 Kết luận thông qua các kết quả đạt được - : 22 2221122 2s2csxs 22 4 Bài toán dự báo sự tăng trưởng GDP của mỗi quốc gia dé đưa ra quyết định cho
HÌì (00810 00657-18:97.1009)7)1) 8160) NĐEddẮẮIẰIẰẮẰẮẰ 23
4.1 Các kiến thức chuyên ngảnh - 5s s91 SE 22121211 1111112121E11111x1x11 1 ceE 23
4.2 Quy trinh phân lớp đữ liệu - -.- 2: 2c 222221221211 1212 1112211212121 kce 24
4.3 Phân tích chuyên sâu và phát hiện đặc điểm dữ liệu dùng Hồi quy Logistic:
31
4.4 Phân tích chuyên sâu và phát hiện đặc điểm đữ liệu dùng Tree: 33 4.5 Kiến NOD eee ccc ccc ce ceceeeeceeccseeeseessseeeeseesseessseeseseeesseessseessetesseetsseenieeens 34
Trang 35 Bai toan phân loại các nhóm nước theo tình hình kinh tế để đưa ra quyết định
đầu tư (Bài toán phân cụm) - s11 11 11 111 1111 111121 111712111111 tt 34
5.1 Các kiến thức chuyên ngành liên quan đến bài toán -2- s52: 34 5.2 M6 ta bal toate e 36 5.3 Phan cum bang phuong phap Hierarchical Clustering: 0.00000000cccccceeeee 38 5.4 Phân cụm bằng phương pháp K-Means: 2 TS 21 111112212171 11 xe2 44
k*tadiiiiiáiẳđidiiầẳăãäẳäẳ 46
Ă nẽ 46 5.7 Phát hiện đặc điểm của bộ dữ liệu 2 SH S1 212151115155 111115121215151 12c 55
2 Nhan xét Bai toat 2 ccc 2 1 0121121121121 1711115211111 1011 11111110112 111 117112 re 56 3 Nhan xét Bat toan 3.0 cccccceccenceescceeesesseeseesesecsecsseecsssetseensestsstesssansies 57
A Két ludn Téng Quat ncccccccccccccccssecsescssesecsesecsesecsecscsessesseesevevscsesesevesevenseseses 57
5 Kién Nght cho bat WANA ccc 2212222111211 121 1112111111111 11811 1811112211111 58
Trang 4Hinh 2.1: Hinh 2.2: Hinh 2.3: Hinh 2.4: Hinh 2.5: Hinh 2.6: Hinh 2.7: Hinh 3.1: Hinh 3.2 Hinh 3.3 Hinh 4.1: Hinh 4.2: Hinh 4.3: Hình 4.4: Bỏ qua biến “Chỉ số chứng khốn”, “Kho bạc Hoa Kỳ” Hình 4.5:
Hình 4.6: Hình 4.7: Hình 4.8: Hình 4.9:
DANH MỤC HÌNH ẢNH
Gđao diện File-Orange Gđao diện File-Orange Giao diện Edit domain-Orange Giao diện Data Tables-Orange Giao diện Preprocess-Orange Giao dién Select Rows-Orange Giao diện Orange sau khi hồn thành Bước 3 Phần chức năng của PivotTable
Economic Dashboard
M6 hinh xw li bai toan 1
Chon 70% dữ liệu học Chon 30% dữ liệu dự độn
Hinh 4.10: Két qua Neural Network Hinh 4.11: Két qua Decision Tree
Hinh 4.12: Két qua SVM
Hinh 4.13: Két qua Logistic Regression Hinh 4.14: Hé sé héi quy các biến độc lập Hinh 4.15: M6 hinh Decision Tree Hinh 5.2: Giao dién File - Orange
25 26 26 27 27 28 28 29 29 30 30 31 33 37
Trang 5Hinh 5.3: Giao diện File - Orange
Hinh 5.4: Giao diện Preprocess Hinh 5.5: Giao dién Distances Hinh 5.6: Giao dién Linkage Hinh 5.7: Giao dién Selection Hinh 5.8: Silhouette Plot thê hiện phân 2 cụm theo phương pháp Hierarchical Clustering
Hình 5.9: Silhouette Plot thê hiện phân 3 cụm theo phương pháp Hierarchical Clustering
Hinh 5.10: Silhouette Plot thê hiện phân 4 cụm theo phương pháp Hierarchical Clustering
Hinh 5.11: Linkage Average — 2 cum phu hop voi dé liéu Hinh 5.12: Két quả đại diện “Dữ liệu dòng cao nhất của các cụm” Hình 5.13: Kết quả phân cụm băng phương pháp K-Means trén Orange Hình 5.14: Kết quả phân cụm theo thuật toán k-Means
Hinh 5.15: Bang dữ liệu “Dữ liệu sau khi phân cụm”
Hinh 5.16: Chọn dữ liệu với điều kiện “Cluster” “C1” Hinh 5.17: Chọn dữ liệu với điều kién “Cluster” “C2” Hình 5.18: Bảng dữ liệu “CL”
Hình 5.19: Bang dữ liệu “C2”
Hinh 5.20: Thống kê mô tả các biến của dữ liệu “C1” Hinh 5.21: Théng kê mô tả các biến của dữ liệu “C1” Hinh 5.22: Thống kê mô tả các biến của dữ liệu “C2” Hinh 5.23: Thống kê mô tả các biến của dữ liệu “C2”
37 38 39 39 39 40 4I
42 43 43 44 45 50 51 52 52 53 53 54 54 54
Trang 6DANH MUC BANG
Bang 2.1: Phân tích thông tin đữ liệu Bang 5.1: Két qua phan cum bằng phương pháp k-Means Bảng 5.2: So sánh kết quả của 2 phương pháp k-Means va Hierarchical Clustering
DANH MỤC BIEU DO
Biéu dé 3.1 Biêu đỗ tròn về tỉ lệ sản lượng các quốc gia Biểu đồ 3.2 Sự thay đổi của phần trăm GDP của từng quốc gia qua các năm Biểu đồ 3.3 Sự thay đổi của giá đầu qua các năm
Biểu đồ 3.4 Đường xu hướng của Tỉ lệ lạm phát và Tỉ lệ thất nghiệp
Biểu đồ 3.5 Biêu đỗ kết hợp giữa thu nhập bình quân đầu người và tỉ lệ lạm phát Biểu đồ 3.6 Cán cân thương mại theo địa ly
Biểu đồ 3.7 Tỉ lệ Yes và No theo chỉ số giá Biểu đồ 3.8 Tỉ lệ Yes và No theo tỉ lệ lạm phát
Biểu dé 3.9 Tỉ lệ Yes va No theo giá dầu
Biểu đồ 3.10 Tỉ lệ Yes và No theo tỉ giá hối đoái
Biểu đồ 3.11 Tỉ lệ Yes và No theo phần trăm GDP Biểu đồ 5.L: Phân bố các cụm
Biểu đồ 5.2: Phân bố nhóm nước theo quốc gia Biểu đồ 5.3: Phân bố nhóm nước theo tỷ lệ lạm phát Biểu đồ 5.4: Phân bố nhóm nước theo giá đầu Biếu đồ 5.5: Phân bố nhóm nước theo phần trăm GDP Biểu đồ 5.6: Phân bố nhóm nước theo tỷ lệ thất nghiệp
45 46
Trang 7CAC BAI TOAN LIEN QUAN DEN CHUYEN NGANH
Kinh té hoc ứng dụng là một ngành khoa học xã hội tập trung chuyên sâu vào phân tích, nghiên cứu thị trường từ vi mô đến vĩ mô Sinh viên theo học ngành này sẽ được trang bị những kiến thức về các yếu tố của một nền kinh tế, các công cụ chuyên dùng để phân tích, đánh giá mức độ phù hợp Từ những lợi ích của kiến thức và chuyên ngành này mang lại, nhóm 5 em quyết định chọn đề tải “ỨNG DỤNG KHOA
HOC DU LIEU VAO DU DOAN TANG TRUONG GDP VA PHAN BO TINH
HINH KINH TE CUA CÁC NHÓM NƯỚC” Với những yêu cầu được đặt ra, nhóm
da str dung Orange, Excel va dé giải quyết ba bài toán sau: @ Bai toan | (Lién quan): M6 ta dit liệu bằng lược đồ hay các công cụ thống kê Ở bài toán này, đối với phần xây dựng và mô tả đashboard, nhóm đã phân tích những đặc điểm và mối liên hệ giữa các chỉ số kinh tế trong bộ đữ liệu để xây dựng những biểu đồ thê hiện sự phụ thuộc lẫn nhau giữa các biến Với bộ đữ liệu về các thông số kinh tế của các nước theo chuỗi thời gian, nhóm phân tích dựa vào các tri thức của chuyên ngành kinh tế học ứng đụng Và cũng trong quá trình phát hiện đặc thù của đữ liệu theo các biến phụ thuộc, nhóm cũng sử dụng những kiến thức chuyên ngành để
phát hiện những đặc tính nôi bật của tình hình kinh tế các quốc gia
@ Bài toán 2 (Liên quan): là bài toán dự đoán GDP năm kế tiếp có tăng trưởng hay không dựa trên các yếu tố vẻ chỉ số giá, tỷ lệ lạm phát, giá dầu, tỷ giá hối đoái, phần trăm GDP, thu nhập bình quân đầu người, tỷ lệ thất nghiệp, sản lượng, cán cân
thương mại Những yếu tổ trên đây là những khái niệm liên quan mật thiết đến lĩnh
vực kinh tế học ở mức vi mô và vĩ mô Vì vậy, bài toán này được cho là liên quan mật thiết đến chuyên ngành kinh tế học ứng dụng Cùng với các kiến thức của chuyên ngành kinh tế học ứng đụng, sự hỗ trợ của bài toán phân lớp này thông qua công cụ Orange có thể giúp cho các nhà kinh tế học có thể dự đoán tốt hơn sự tăng trưởng của GDP qua từng năm
@ Bài toán 3 (Liên quan): là bài toán phân bố tình hình kinh tế của các nhóm
nước đề đưa ra quyết định đầu tư Kinh tế học ứng dụng trong việc phân loại nhóm nước có thê sử dụng các biến số kinh tế quan trọng như phần trăm GDP, tỷ lệ lạm phát, tỷ lệ thất nghiệp, tỷ giá hối đoái và các chỉ số khác liên quan đến kinh tế khác Bằng cách xây dựng mô hình phân loại dựa trên các biến số kinh tế này, ta có thê tạo ra các nhóm nước phát triển hoặc đang phát triển khác nhau Khi biết được tình hình kinh tế của từng nhóm nước, ta có thể áp dụng các nguyên tắc kinh tế đề đưa ra quyết định đầu tư Áp dụng kinh tế học ứng dụng với sự hỗ trợ của bài toán phân cụm thông
Trang 8qua công cụ Orange có thê giúp chúng ta hiểu rõ hơn về tình hình kinh tế của từng nhóm và đánh giá tiềm năng đầu tư trong mỗi nhóm
Qua đó, ta có thê rút ra kết luận rằng cả ba bài toán trên đều liên quan mật thiết đến phân tích cũng như đánh giá thị trường Từ những phân tích trên, doanh nghiệp có thê đánh giá và quyết định đâu là thị trường tốt nhất để họ đầu tư vào nhằm giảm thiểu rủi ro cũng như tối đa hóa lợi nhuận thu được
Trang 9CHUONG I: TONG QUAN
1 Lý do chọn đề tài nghiên cứu: GDP (Gross Domestic Product) la tong san phẩm trong nước, là giá trị sản phẩm vật chất và dịch vụ cuối cùng được tạo ra của nên kinh tế trong một khoảng thời
gian nhất định GDP không chỉ là một chỉ số đo lường sức khỏe kinh tế mà còn ảnh
hưởng sâu rộng và trực tiếp đến cuộc sống của người đân, cũng như định hướng phát triển một quốc gia trong tương lai Vì vậy nhóm chọn đề tài về ứng dụng khoa học đữ liệu vào dự đoán sự tăng trưởng GDP và phân bỏ tình hình kinh tế của nhóm các Quốc gia, bởi tính quan trọng của việc hiểu và đánh giá nền kinh tế trong thời buôi suy thoái hiện nay
Ngoài ra, việc theo dõi sự chuyền biến GDP và tình hình kinh tế cũng mang lại cái nhìn tổng quan về sự phát triển kinh tế toàn cầu, giúp tạo ra các chiến lược đáp ứng hiệu quả hơn đối với những thách thức toàn cầu như biến đổi khí hậu, đa dạng hóa kinh tế, và tăng cường hợp tác quốc tế
Bởi vì những lý do trên, nhóm nghiên cứu chúng em đã làm những nghiên cứu và phân tích để cung cấp cái nhìn sâu rộng hơn về những yếu tố ảnh hưởng đến GDP của các nước có trong dữ liệu Chúng em hy vọng thông qua bài phân tích dữ liệu mà nhóm thực hiện có thê trả lời được một số câu hỏi được đặt ra về GDP hay tỉnh hình kinh tế của các nước Những nghiên cứu này không chỉ giúp chúng hiểu sâu hơn về sự phát triển kinh tế mà còn cung cấp thông tin hữu ích cho các quyết định chính sách, các nhà đầu tư và đoanh nghiệp đề họ có thể tham gia vào thị trường với cái nhìn rõ ràng và chiến lược hơn
2 Mục tiêu nghiên cứu: 2.1 Mục tiêu tông quát: Dự đoán và phân tích GDP của các quốc gia nhằm giúp nhà đầu tư đưa ra quyết định 2.2 Mục tiêu cu thé:
® Bài toán l: Mô tả dữ liệu bằng lược đồ hay các công cụ thống kê e Bài toán 2: Bài toán dự báo sự tăng trưởng GDP của mỗi quốc gia để đưa ra
quyết định cho nhà đầu tư (Bài toán phân lớp) e Bai toan 3: Phân loại các nhóm nước theo tình hình kinh tế để đưa ra quyết định
đầu tư (Bài toán phân cụm)
Trang 103 Đối tượng và phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu
Đối tượng nghiên cứu của bài đồ án này sẽ tập trung vào các chỉ số kinh tế của
9 quốc gia khác nhau, chăng hạn như tỷ lệ thất nghiệp, tỷ lệ lạm phát, tỷ giá hối đoái,
thu nhập bình quân đầu người, cán cân thương mại và các chỉ số khác Dữ liệu được lay từ Kaggle và nhóm nghiên cứu đề đưa ra quyết định nên hay không nên đầu tư dựa trên các phần dự báo
3.2 Phạm vi nghiên cứu Thời gian số liệu được thu nhập trong 20 năm (tử năm 2001 đến năm 2020) 4 Phương pháp thực hiện
@ Thu thập dữ liệu: Bộ dữ liệu được tải từ trang web Kaggle Tìm hiểu và chọn sử dụng bộ đữ liệu có nhiều chỉ số kinh tế của các quốc gia trong khoảng thời gian đủ dài để có thê đưa ra cái nhìn tông quan vẻ tình hình kinh tế quốc gia để ra quyết định đầu tư
@ khai thác dữ liệu: Dữ liệu có được được phân tích bằng các kiến thức chuyên ngành và các kỹ thuật thống kê Từ đó, nhóm xác định sự tương tác giữa các biến trong tập dữ liệu và tiến hành lập mô hình, đưa ra đánh giá về mô hình @ Sử dụng phần mềm Microsoft Excel: Xây dựng và mô tả dashboard thông qua
Excel đề có cái nhìn trực quan và tông quát về bộ sô liệu @ Sử dụng phần mềm Oranse: Thông qua phần mềm Orange, nhóm sẽ thực hiện
các công đoạn tiền xử lý dữ liệu, phát hiện các đặc thù của dữ liệu theo biến phụ thuộc và dùng các bài toán phân lớp, phân cụm đề dự đoán tăng trưởng GDP và
phân bồ tình hình kinh tế các nước
® Lập báo cáo: Sau khi sử dụng các phần mềm trung gian, nhóm tông hợp kết quả, nhóm lập báo cáo từ những kết quả trong quá trình khai thác đữ liệu và đưa
ra kết luận phù hợp đối với từng bài toán
Trang 11CHƯƠNG II: QUY TRÌNH THUC HIEN VA KET QUA
1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu
1.1 Mô tả nguồn dữ liệu
Bộ đữ liệu mà nhóm lựa chọn nhắm phục vụ cho nghiên cứu: Economic Data -
9 Countries (1980-2020) Đây là đữ liệu được lấy từ Kaggle, là một nguồn đữ liệu uy
tín thường dùng trong học tập và nghiên cứu Dữ liệu này được thu thập từ năm 1980- 2020 về nền Kinh Tế của 9 Quốc gia (gồm 8 Quốc gia và I Đặc khu hành chính) khác nhau
Stock index NiÑy 50, Nikkei 225, HSI, | Chỉ số chứng khoán |_ Chuỗi
Chỉ số chứng khoá SZCOMP, DAX 30, CAC | chính của quốc gia | ki tu
40, IEX 35 Mỹ, Anh, Ấn Độ, Nhật
Trang 12đồng tiên của nước
gdppercent Từ -0.L1 đên 0.14 (%) , GDP của các nước | Số thực cu ,
tương ứng ercapitaincome _ Từ 452 đến 65280 Thu nhập bình quân spo Số
Quốc g1a tương ứng
nhap khau Dau tu cua chinh
Bảng 2.1: Phân tích thông tin dữ liệu
2 Phân tích và tiền xử lý dữ liệu
2.1 Phân tích dữ liệu Dữ liệu có những điêm cân hiệu như sau: e@ Mỗi hàng trong dữ liệu đại diện cho môi quôc gia ở một năm cụ thê và mỗi cột
của đữ liệu chứa một thuộc tính của đối tượng ® Dữ liệu thô chưa được xử lý bao gồm 369 hàng (đối tượng) và 14 cột (đặc
trưng) @ Trong cột dữ liệu vẻ Tốc độ tăng trưởng GDP của các nước có 5 thuộc tính là:
Inflationrate (tý lệ lạm phat), Log indexprice (chi s6 gia theo ham log), oil prices (giá dầu), Tradebalance (cán cân thương mại), percapitaincome (thu nhập bình quân đầu người)
Trang 13Nhìn chung, nếu các thuộc tính về Tỷ lệ lạm phát (Inflationrate), Chỉ số giá theo hàm log (Log_indexprice), Giá dầu (oil prices) mang giá trị âm, và các giá trị còn lai (Tradebalance, percapotaincome) mang gia tri duong thi tốc độ tăng trưởng GDP tang
2.2 Tiền xử lý dữ liệu:
Bộ dữ liệu lấy từ Kaggle được nhóm cho vào Orange đề bắt đầu các bước tiền xử lý đữ liệu Vì đữ liệu về nền Kinh tế của 9 Quốc gia này chỉ được lấy từ một nguồn duy nhất trên kaggle nên không cần tiến hành bước Datfa integration
® Bước l: Trong Orange, chọn bộ dữ liệu cần xử lý, để tất cả các biến độc lập
Data © file: — Economic Data - 9 Countries (1980-2020).csv
~) URL:
Info
369 instance(s) 14 feature(s) (4.5% missing values)
Data has no target variable
feature feature
Values n bé
Õ Reload
qle.com/spreadsheets/d/ 1IEESh0_XD650MK_HS9WwqpC-mOGbExfX/edit#qid=466959403
Trang 14
QO File: Economic Data - 9 Countries (1980-2020).csv m (Š Reload > URL: gle.com/spreadsheets/d/1IEESh0_XD6S0MK_HS9WwapC-mOGbExfX/edit#qid=466959403
Tnfo 369 instance(s) 14 feature(s) (4.5% missing values) Data has no target variable
O meta attribute(s)
Columns (Double click to edit) Name Type Role Values
3 year numeric feature 4 index price @ numeric feature 3 log indexprice numeric feature
? oilprices ] nunmeric feature
Trang 15Variables
stock index — Chỉ số chứng khoán
i§ country —¬ Quốc gia year > Năm
index price > Chỉ số giá log_indexprice — Chỉ số giá chứng khoán
inflationrate — Ty lé lam phat
oil prices —> Giá dầu exchange_rate — Tỷ giá hối đoái gdppercent — Phan tram GDP percapitaincome — Thu nhập bình quân đầu người unemploymentrate —¬ Tỷ lệ thất nghiệp
Trang 16
369 instances 14 features (4.5% missing values) No target variable No meta attributes
Variables
@ Show variable labels (if present) (> Visualize numeric values @ Color by instance classes
Selection
B@ Select full rows
Restore Original Order 8 Send Automatically
Hình 2.4: Giao điện Data Tables-Orange
Sử dụng Preprocess để xử ly đữ liệu (chọn Impute Missing Values — Average/Most Frequent)
Preprocessors
Discretize Continuous Variables Continuize Discrete Variables
Impute Missing Values
Select Relevant Features Normalize Features Randomize
Remove Sparse Features
Principal Component Analysis
® Bước 2.2: Data Cleanineg
Impute Missing Values x © Average/Most frequent
© Replace with random value (©) Remove rows with missing values
Trang 17@ Buc 3: Data Reduction Su dung Select Rows dé loc dé liéu tir nim 2001 dén nim 2020
Out: ~189 rows, 13 variables ) Remove unused classes
a Autor
? B
Selected Data —› Preprocessed Dat Matching Data Data za Data %, a — Data Fe +» Data FI
Save Data Data
Hinh 2.7: Giao dién Orange sau khi hoan thanh Bước 3 e Buéc 4: Data transformation
Sau khi đã hoàn thành Select Rows, đùng Excel dé tách thành 70% dữ liệu đề
học và 30% dữ liệu dự báo và đánh giá với số quan sát lần lượt là 126 và 54
3 BÀI TOÁN I: Mô tá dữ liệu bằng lược đồ hay các công cụ thống kê 3.1 Xây dựng và mô tả dashboard
3.1.1, Mô tả bài toán Dashboard la mét céng doan Data Visualization, ta str dung dashboard dé cé cái nhìn tổng quan về bộ dữ liệu nhằm tìm hiểu các mối liên hệ giữa các biến dữ liệu trước
Trang 18khi đưa vào giai đoạn phân tích Thông qua dashboard, ta biểu đồ hóa tập đữ liệu về các dạng đồ thị, bảng và hình ảnh để theo dõi rõ hơn sự biến động của các biến
Với bộ đữ liệu đã được tiền xử lí cung cấp thông tin về các chỉ số kinh tế như chỉ số giá, thu nhập bình quân đầu người, sản lượng của 9 quốc gia khác nhau từ 3
châu lục khác nhau từ năm 2001 đến năm 2020, bằng cách trực quan hóa dữ liệu thông
qua bảng biểu và dé thi, sáng tạo màu sắc và đồ họa để làm nỗi bật các điểm dữ liệu quan trọng của dữ liệu, đashboard cung cấp cái nhìn tổng quát về hiệu quả kinh tế của các quốc gia và là bước đầu đề phân tích sâu rộng về từng chỉ số và xu hướng
Việc xây dựng dashboard bắt đầu từ xây dựng các biểu đồ riêng biệt dựa trên tập dữ liệu Sử dụng dữ liệu đã được tiền xử lí Đ47⁄4FINALLL.xixs và định dạng dữ liệu dạng bảng, ta bat đầu tạo các biểu đồ thông qua chức năng PivotTable Tại phần PivotTable Fields, các biến được liệt kê lần lượt và sẽ được phân vào 4 phân: Filters, Column, Rows va Values dé tao mét biéu dé hoan chinh
Hình 3.1: Phần chức năng của PivotTable
3.1.2 Xây dung va mo ta dashboard @® Biểu đồ tròn PiePivot
Biểu đồ tròn được đặt tên PiePivot này đi sâu vào phân tích sản lượng (Values) của các quốc gia (Rows) được tính toán trong từng năm (Filters) cho thấy được đóng góp của từng quốc gia vào sản lượng chung toàn thế giới Các nhãn dữ liệu phần trăm trên biéu đỗ thê hiện tỉ lệ sản lượng của mỗi quốc gia so với tổng sản lượng của cả 9 quốc gia trong bộ đữ liệu trong cùng một năm
10
Trang 19United Kingdom, 6% Spain 4% India 6% France,7%
Biểu dé 3.1 Biéu đồ tròn về tỉ lệ sản lượng các quốc gia Dựa vào biểu đồ theo từng năm, ta có thê thấy được quốc gia chiếm ưu thế sản xuất trong một năm cụ thê và đối chiếu sự thay đôi so với cái năm khác Chẳng hạn như tông sản lượng của Trung Quốc luôn đứng đầu trong 9 quốc gia bắt đầu từ năm
2004 (chiếm 27%) cho đến năm 2020 (chiếm 63% - tương đương 2/3 tông sản lượng)
cho thấy mức sản lượng liên tục tăng từ năm này sang năm khác Mặt khác, nếu lây
cuộc khủng hoảng tài chính 2008-2009 làm mốc thì từ sau 2009 trở đi, tỉ lệ sản lượng
của Đức luôn dao động ở mức 10-15% cho thấy sự ôn định và bên bỉ trong việc khắc phục những thách thức kinh tế của quốc gia này
Bên cạnh đó, ta còn thấy được Hongkong luôn có mức sản lượng thấp nhất trong số các quốc gia được phân tích, điều này có thé lí giải được bởi quy mô kinh tế của Hongkong nhỏ hơn các quốc gia khác trong biểu đồ Mỹ và Ân Độ đều nằm trong những nước đứng đầu về dân số và quy mô kinh tế thường có tỉ lệ sản lượng tương đương nhau Như vậy, tính tương tác của PiePivot này có ưu điểm rất lớn là cho phép ta nhìn thấy sự thay đổi sản lượng các quốc gia qua từng năm và so sánh giữa các quốc gia với nhau, từ đó tăng tính linh hoạt trong việc tiến hành thực hiện mục tiêu tong quat cua do an
@ Biêu đồ đường LinePivot Biếu đồ đường LinePivot này chủ yếu dùng để quan sát sự thay đôi của biến phần trăm GDP (Values) của các quốc gia (Columns) trong suốt những năm 2001 — 2020 (Rows) và nhận biết được sự tăng trưởng hay giảm sút kinh tế qua các năm Mỗi
11
Trang 20duong va moi mau sac đại diện cho một quôc gia đề có thê mang lai sự so sánh một cách tông quát và hiệu quả
Phan tram GDP theo nam
Salar France Germany Hong Kong
India
® Japan @ Spain Deere eu) 4® United States of America Biểu đồ 3.2 Sự thay đổi của phần trăm GDP của từng quốc gia qua các năm
Ở biếu đỗ này, ta nhanh chóng nhận thấy được sự phát triển đầy ấn tượng của cơ cầu kinh tế Trung Quốc trong giai đoạn 20 năm, quốc gia này luôn giữ được sức tăng trưởng cao và bền bỉ khi chưa có năm nào GDP tăng trưởng âm Điều này cho thấy sự phát triển đáng kế của Trung Quốc cũng như khả năng điều phối và nắm bắt cơ hội trong lĩnh vực sản xuất hàng hóa và dịch vụ Mức tăng cao nhất 0,14% được ghi nhận vào năm 2007, năm quốc gia này trở thành cường quốc kinh tế lớn thứ ba toàn
cầu
Mặt khác, biểu đồ này còn giúp ta so sánh giữa các nước với nhau rõ ràng hơn Trong thời gian Khủng hoảng tài chính 2008-2009, phần trăm GDP của các nước (trừ Trung Quốc và Ân Độ) đều được ghi nhận phần trăm tăng trưởng âm và đều tụt dốc nang né Từ đây có thể thấy các tác động xấu của cuộc đại suy thoái lên hoạt động sản xuất hàng hóa và dịch vụ Nhưng trong tình thế đó, chính phủ Trung Quốc và Ân D6 vấn có những chính sách kinh tế giúp giảm thiêu các tác động của cuộc khủng hoảng đề duy trì mức tăng trưởng đương Và từ năm 2018 về sau, phần trăm tăng trưởng của cả 9 quốc gia này đều giảm và vào năm 2020 xuất hiện đại địch COVID-19, đa số các nước có mức tăng trưởng âm cho thấy kế sách kinh tế tốt nhất ở thời điểm đó là cô găng đề nên kinh tế chung không rơi vào trạng thái đình lạm
12
Trang 21Nhin chung, biéu dé LinePivot dem lai cach nhin chỉ tiết hơn về xu hướng thay đổi của phần trăm GDP của từng quốc gia qua các năm và nhìn vào tình hình chung của các nước cĩ thế phỏng đốn được thời kì kinh tế thế giới phát triển thịnh vượng hay thụt lùi và dựa vào đĩ cĩ thê dự đốn tình hình tăng trưởng GDP cho những bài
tộn sau
@ Biếu đồ thanh BarPivot
Biểu đồ thanh BarPivot hiến thị giá dau (Values) tir nam 2001 dén 2020 (Rows)
cho thấy sự biến động của giá dầu qua thời gian này và tình hình thị trường đầu mỏ tồn cầu gắn liền với các yếu tố kinh tế chính trị khác hay ảnh hưởng của nĩ đối với các quốc gia (Filter) trên thế giới
GIÁ DẦU
4702
Biểu đồ 3.3 Sự thay đổi của giả dầu qua các nắm Từ năm 2001, giá đầu ở mức 19,39USD và trong những năm tiếp theo, giá dầu tăng đáng kể và ở mức 61,96USD vào năm 2006 Đánh dấu một giai đoạn của tăng
13
Trang 22trưởng mạnh mẽ vả sự tăng cường nhu cầu toàn cầu Tuy nhiên, khi nền kinh tế thế giới có dấu hiệu chững lại giá dầu sẽ tăng cao đột biến như ở năm 2007 giá dầu đạt 91,69USD Giá dầu gây nên những tác động chậm rãi đến chỉ phí sản xuất có định của nhiều ngành công nghiệp, đặc biệt đầu còn là đầu vào quan trọng nhất trong lĩnh vực vận tải Khi giá dầu tăng, chỉ phí cho một đơn vị sản phẩm cũng tăng lên, từ đó có thé dẫn đến sự tăng giá cả hàng hóa và dịch vụ Vào đại khủng hoảng 2008, giá đầu giảm đồng thời với khủng hoảng tài chính tạo ra những biến động mạnh mẽ cho toàn ngành dầu mỏ Sau đó, vào những năm đầu của thập niên 2010 giá đầu bắt đầu tăng trở lại và đặc biệt tăng cao phản ánh tăng cường cầu dầu đề phục hỏi kinh tế toàn cầu
Giai đoạn sau, khi kinh tế quốc tế dần ôn định thì giá dầu có một số biến động nhưng chủ yếu ở mức thấp hơn và dần trở lại mức bình thường và những năm sau đó, giá dầu đạt 47,02USD cho thay anh huong tram trọng của đại dịch COVID-19 lên thị trường dầu mỏ Từ biểu đồ BarPivot về sự thay đổi giá dầu này, ta có cái nhìn tổng quan hơn về các biên động trên quốc tê
@ Duong xu hướng Sparkline Đường xu hướng sparkline là một loại biểu đồ đường đơn giản và dùng để biêu diễn xu hướng thay đôi của tỉ lệ lạm phát và tỉ lệ thất nghiệp (Values) của các quốc gia (Rows) theo từng năm (Columns) để đưa ra cái nhìn tông quan nhất về sự biến động của hai chỉ số quan trọng này trong quá trình xem xét chuyên sâu về kinh tế của mỗi quốc gia
ĐƯỜNG XU HƯỚNG
China
France
Germany - _Ì* ` Hong Kong
India
United Kingdom - ¬ ^^ United States of America |— LN [DK
Biểu đồ 3.4 Đường xu hướng của Tỉ lệ lạm phát và Tỉ lệ thất nghiệp 14
Trang 23Qua các đường xu hướng tổng hợp, ta thấy rõ nhất là tốc độ lạm phát của Đức đang có xu hướng chậm lại qua các năm và quốc gia này đang đâần lấy lại vị thế của mình là một cường quốc kinh tế Trong khi đó, tỉ lệ lạm phát của Trung Quốc và Tây Ban Nha lại đang dần tăng qua các năm còn Anh và Mỹ có tỉ lệ lạm phát tăng cao kỉ lục vào những năm đại suy thoái và sau đó đều đang trở lại mức ổn định Nhìn chung, tỉ lệ lạm phát của các nước được khảo sát sẽ tăng cao vào đại suy thoái và sau đó dần phục hồi và bình ổn nhờ vào các định hướng kinh tế của riêng các quốc gia
Khi xét đến các đường xu hướng của tỉ lệ thất nghiệp, tổng quan ta nhận thấy chỉ số này của các nước thường biến động khá thất thường tùy vảo thực trạng xã hội riêng của từng nước Hongkong có tỉ lệ thất nghiệp tăng lên qua các năm và tăng cao
nhất năm 2020 khi có đại dịch COVID-L9 và vẫn còn xu hướng gia tăng vì thị trường
lao động chịu nhiều sức ép đáng kế và các hoạch định kinh tế của chính phủ không
đem lại quá nhiều khả năng kích thích các hoạt động phân phối và sản xuất Vì nhờ
vào các chính sách công khuyến khích tạo ra việc làm và tỉ lệ thất nghiệp tự nhiên thường bình ôn sau một chu kì kinh tế, đa số các nước đều có tỉ lệ thất nghiệp ở mức én định
@ Biéu đồ kết hợp Combo
Biểu đồ Combo kết hợp giữa biểu đồ (Thu nhập bình quân đầu người) và đường (Ti lệ lạm phát) theo từng năm (Rows) của các quốc gia (Filters) Việc kết hợp này dựa trên sự tương tác giữa sự phát triển kinh tế và tác động của lạm phát đến thu nhập của người dân
THU NHẬP BÌNH QUẦN ĐẦU NGƯỜI
VÀ TÍ LỆ LẠM PHÁT
350000 300000
150000 100000 1310,
2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020
15
Trang 24Biểu đồ 3.5 Biêu đồ kết hợp giữa thu nhập bình quân đầu người và tỉ lệ lạm phát
Thông thường, những chính sách chính phủ về tiền lương và tiền lương tối thiêu dành cho người lao động thường được điều chỉnh dựa trên tỉ lệ lạm phát của mỗi quốc gia Vì thế mà hai đại lượng này thường liên quan đến nhau Nếu tỉ lệ lạm phát tăng mà thu nhập bình quân đầu người giảm thì mức sống của người dân giảm, và ngược lại Chẳng hạn như ta có thế thấy ở Pháp, Tây Ban Nha và Mỹ, vào thời gian đại suy
thoái xảy ra, khi tỉ lệ lạm phát tăng nhưng thu nhập bình quân giảm, mỗi đơn vị thu
nhập kiếm được không còn mua được lượng hàng hóa tương ứng như trước Từ đó tổng cầu quốc gia giảm Hay ở Hongkong vào những năm 2004, lạm phát tăng quá cao so với thu nhập làm cho đời sống kinh tế ở quốc gia này gặp nhiều biến động Từ biểu đỗ này, ta nhận ra được chính phủ các nước đều đối mặt thách thức cô gắng duy trì mức sống cho người dân trong bối cảnh biến động của lạm phát
@ Biéu đồ bán đồ MapPivot
Biéu dé ban đồ MapPivot thê hiện cán cân thương mại (Values) của các quốc gia (Rows) theo từng năm (Filters) để đưa ra những nhận xét về mức độ cân đối hoặc mất cân đối trong hoạt động thương mại quốc tế Cán cân thương mại là phần chênh lệnh giữa xuất khâu và nhập khẩu nên biểu đồ còn cho ta thấy sự phân bố của cán cân thương mại trên toàn cầu và sự khác biệt về hoạt động thương mại giữa các khu vực và quốc gia
1ó
Trang 25CAN CAN THUONG MAI THEO DIA LY
Powered by Bing © Australian Bureau of Statistics, GeoNames, Microsoft, Navinfo, Open Places, OpenStreetMap, TomTom, Zenrin
Trong số 9 quốc gia được khảo sát, các quốc gia ở châu Âu (Pháp, Đức, Tây Ban Nha, Anh) và các nước ở châu Á (Hongkong) thường có cán cân thương mại dương Điều này cho thấy rằng các quốc gia này có lượng hàng hóa và dịch vụ xuất khâu cao hơn là nhập khâu và có mức độ cân đối cao trong hoạt động thương mại Điều này chứng tỏ rằng sản phâm công nông thương và dịch vụ của các quốc gia này đa dạng, chất lượng và sở hửu tính cạnh tranh với các mặt hàng khác khá cao trên thị trường quốc tế
Các quốc gia như Trung Quốc, Nhật Bản và Ân Độ cũng có một số năm có cán cân thương mại âm dựa vào nghị định ngoại giao và hợp tác quốc tế theo từng năm Mặt khác, Mỹ luôn có cán cân thương mại âm, tức là mức nhập khẩu luôn vượt qua xuất khâu Điều này cho thấy Mỹ có thị trường lớn và mức cầu nhập khâu cao, đặc điểm của nền kinh tế tiêu thụ lớn Các cân thương mại âm này cũng có thể giải thích bằng các chính sách ngoại giao của quốc gia nay Vay, biéu dé ban dé nay cho ta thay sự khác biệt trong hoạt động thương mại của các quốc gia co thé phản ánh được nhiều yếu tổ kinh tế và thị trường của từng quốc gia nay
@ ECONOMIC DASHBOARD
17
Trang 26Từ các biểu đồ riêng biệt, cắt tất cả biểu đồ sang cùng một sheet được đặt tên
DASHBOARD Sau đó, thêm Slicer cho hai thành phân biến định danh và định tính là
“Quốc gia” và “Năm” đề cung cấp các nút có thể lọc các PivotTable Sau đó định dạng và thêm một số chú thích để tạo một dashboard hoàn chỉnh tên ECONOMIC DASHBOARD
HT
PHÁN TRAM GDP THEO NAM (00010
— | United States of America
THU NHẬP BÌNH QUẦN ĐẦU NGƯỜI
VÀ TÍ LẺ LẠM PHAT
Hinh 3.2 Economic Dashboard Economic Dashboard được tông hợp từ 6 biếu đồ nhỏ dé có cái nhìn toàn diện
về tình hình kinh tế của 9 quốc gia được khảo sát trong bộ dữ liệu từ năm 2001-2020
để phục vụ cho mục tiêu tổng quát của bài là dự đoán tăng trưởng GDP và phân bố tình hình kinh tế của các nhóm nước Dựa vào Slicer, dashboard có thê chỉ hiển thị đữ liệu chỉ khoảng 2-3 nước và 4-5 năm tùy vào lựa chọn dé dé dàng đưa ra nhận xét về tình hình kinh tế từng nước, sự so sánh với các quốc gia khác theo các năm và theo dõi biến động của nền kinh tế quốc tế
3.2 Các đặc thù của dữ liệu theo biến phụ thuộc 3.2.1 M6 ta bai toan
® Dựa trên các biểu đồ của phần mém Orange và phát hiện các đặc thù của đữ liệu theo biến phụ thuộc và đưa ra kết luận
® Các biến độc lập được xem xét và đánh giá có ảnh hưởng như thế nào đến kết quả cuối củng “yes” hay “no”
® Đưa ra kết luận tong thể dựa trên những đặc điểm phân tích được
18
Trang 27® Xây dựng mô hình Orange và file xử li BAITOANI
Data > Data Selected Data Data Data
File Edit Domain Data Table Select Columns Distributions Save Data
Hinh 3.3 Mo hinh xử lí bài toán I 3.2.2 Phát hiện các đặc thù của dữ liệu theo biến phụ thuộc
@ Chỉ số gia
19
Trang 2820 18 16 14 12
đến 15000%) thì tỉ lệ đó là 25% Từ đây, ta có thê đưa ra kết luận răng chỉ số giá có
gây ảnh hưởng đến việc năm tiếp theo nền kinh tế có đạt kết qua là dau tu do phat triển kinh tế vì chỉ số giá càng cao làm cho giá cả hàng hóa và dịch vụ nhập khâu trở nên đắt đỏ hơn, hàng hóa càng đắt thì lượng cầu của nền kinh tế giảm xuống ảnh hưởng đến MPC xu hướng tiêu dùng cận biên của doanh nghiệp khi phải giảm quy mô sản xuất khi sức cầu giảm
@ Tilé lam phat
20
Trang 29Biểu đồ 3.8 Tỉ lệ Yes và No theo tỉ lệ lạm phát
Từ biểu đỗ trên, ta có thê đưa ra kết luận rằng tỉ lệ lạm phát có ảnh hưởng đến việc năm tiếp theo nền kinh tế có đạt kết quả là tăng trưởng hay không Vì khi tỉ lệ lạm phát của một quốc gia rơi vào khoảng 0 đến 0,05%, tỉ lệ chân đoán không đầu tư là
72,08% Trong khi đó, nếu quốc gia đó giảm phát (tỉ lệ lạm phát bé hơn không 0%) thì
tỉ lệ này chỉ còn 40% Như vậy, khi tỉ lệ lạm phát cao thì khả năng bất ôn định kinh tế
của nước đó tăng thêm, từ đây có thê làm giảm đầu tư và tạo ra sự không chắc hắn trong môi trường kinh doanh, kéo nền kinh tế quốc gia trì trệ cũng như tăng trưởng kém
21
Trang 30Biểu đồ 3.9 Tỉ lệ Ves và No theo giá dầu
Có thê nói, giá đầu đôi khi gây tác động đến các hoạt động sản xuất hàng hóa và dịch vụ của nền kinh tế nhưng lại không có ảnh hưởng quá nhiều đến kết quả tăng trưởng của mỗi quốc gia Nếu giá dầu nằm trong khoảng 20 đến 40USD, tỉ lệ chân đoán nên đầu tư là 44,44% trong khi giá dầu trên 80USD thì tỉ lệ còn khoảng 35,56% Điều này có thê giải thích bằng việc khi giá đầu tăng cao trong dài hạn, nền kinh tế bắt đầu sử đụng các nguồn năng lượng thay thế có thể tái tạo được như năng lượng mặt trời, năng lượng gió và người tiêu dùng sẽ chuyên sang di chuyển và vận chuyển bằng các phương tiện ít tốn xăng dầu hơn Vậy, ta kết luận được rằng giá dầu có thể gây tác động lớn trong ngăn hạn nhưng tác động đó dần nhạt đi trong dài hạn của nền kinh tê
22
Trang 31@ Ty gid héi đoái
0 20 40 60 80 100 120 140
Tỷ giá hối đoái
Biểu đồ 3.10 Tỉ lệ Yes và No theo tỉ giá hối đoái
Nhờ vào quan sát biêu đồ, ta nhận thay rang ti giá hỗi đoái không có ảnh hưởng quá lớn đến khả năng năm sau quốc gia đó có tăng trưởng hay không Khi tỉ giá hối đoái của một quốc gia ở mức thấp hơn 25USD thì tỉ lệ chân đoán không đầu tư đạt
70,71% trong khi tỉ giá hối đoái ở mức 50 đến 75USD thì tỉ lệ đó là 66,67% Vì những
tác động cụ thê của tỉ giá hối đoái thường mất một khoảng thời gian khá dài đề có thế thay rõ trong sự phát triển kinh tế và khi tỉ giá chỉ có những thay đổi nhỏ có thé bi bao mòn bởi doanh nghiệp và thị trường mà không gây ảnh hưởng đến quá trình kinh doanh Tóm lại, tác động của tỉ giá hối đoái còn lệ thuộc vào nhiều yếu tố và có thê làm giảm bởi khả năng và chính sách quản lí rủi ro của các quốc gia
23
Trang 32@ Phan trim GDP
@ yes
Biểu đồ 3.11 Tỉ lệ Yes và No theo phần tram GDP
Từ biểu đồ 11, ta nhận xét được rằng nếu tốc độ tăng trưởng GDP của các nước
tương ứng đạt từ 0,05 đến 0,1% thì tỉ lệ chân đoán nên đầu tư đạt 27,27% Mặt khác, nếu quốc gia đó có tốc độ tăng trưởng GDP âm (từ -0,05 đến 0%) thì tỉ lệ này chỉ đạt
6,67% Vì tốc độ tăng trưởng GDP thường đi đôi với sự tăng năng suất lao động, tăng các hoạt động đầu tư và sản xuất và tăng thu nhập và chỉ tiêu dùng, điều đó làm cho quy mô của các hoạt động sản xuất kinh tế được mở rộng, tông sản phẩm và dịch vụ trong nước tăng làm nền kinh tế phá triển một cách toàn diện
3.2.3 Kết luận thông qua các kết quả đạt được Sau khi phân tích các đặc tính liên quan đến tỉ lệ năm tiếp theo quốc gia tăng trưởng hay suy giảm kinh tế dựa vào lược đồ và các công cụ thống kê, nhóm đã đưa ra các nhận xét về các đặc tính chỉ số giá, tỉ lệ lạm phát, giá dau, tỉ giá hối đoái và phần trăm GDP Ta thấy được rằng một quốc gia sẽ đạt kết quả tăng trưởng kinh tế vào năm tiếp theo sẽ có những đặc điểm nỗi bật như tỉ lệ lạm phát nên thấp và thuộc khoảng giá
24
Trang 33trị 0 đến 0,1%; tốc độ tăng trưởng GDP tương ứng dương và chỉ số giá ở mức 10000
đến 15000USD
Thông qua các đặc thu, đặc trưng cơ bản này, các quốc gia sẽ biết được những yếu tổ có tác động quan trọng đến sự phát triển tăng trưởng kinh tế, ảnh hưởng đến quyết định đầu tư và đưa ra các biện pháp và chính sách hoạch định hiệu quả như kiểm giám sát tốc độ lạm phát bằng việc ôn định giá cả, tiền tệ và lượng cung tiền trên thị trường qua các cơ chế và đặc thù của ngân hàng trung ương, tập trung sản xuất và tăng trưởng đề có được tốc độ tăng trưởng GDP dương Tuy vậy, kết quả dự báo có nên đầu tư hay không không chỉ phụ thuộc vào một yếu tô riêng lẻ nào đó mà nó phụ thuộc vào tất cả các dữ liệu được đưa ra, ngoài ra còn có những ngoại tác mà đữ liệu không thê thu thập được Nên đề đảm bảo sự phát triển kinh tế, mỗi quốc gia còn cần linh hoạt trong các chính sách của mình
4 Bai toan dự báo sự tăng trưởng GDP của mỗi quốc gia để đưa ra quyết dinh cho nha dau tư (Bài toán phân lớp)
4.1 Cac kiên thức chuyên ngành Tỷ lệ phần trăm GDP: GDP là tổng sản phâm quốc nội, thê hiện tổng số lượng hàng hóa, dịch vụ được sản xuất vào một thời điểm nhất định, ở một quốc gia cụ thé Một tỷ lệ phần trăm GDP có xu hướng tăng qua hàng năm có thê phản ánh được kha năng sản xuất của quốc gia đang tăng dàn, đồng nghĩa với việc nền kinh tế của quốc gia đó đang trên đà phát triển
Chỉ số giá: là trung bình cộng gia quyền của giá hàng hóa, dịch vụ theo thời gian Do đó, nó đóng vai trò như một công cụ đề tính tỷ lệ lạm phát Một nếu giá trị này cao cho thấy giá cả đang biến động nhiều, điều này đồng nghĩa với việc quốc gia đó đang trải qua lạm phát và lạm phát có thê khiến cho nền kinh tế của một quốc gia gặp nhiều khó khăn, gây ra sự sụt giảm trong tỷ lệ phần trăm GDP
Chỉ số giá được tính theo hàm Log: đề tránh đơn vị tiền tệ các nước có sự khác biệt, có thể giúp cho quá trình phân tích được chính xác hơn
Tỷ lệ lạm phát: Một tỷ lệ lạm phát cao chứng tỏ đồng tiền nước đó đang bị sụt giá, gây ra sự gia tăng giá cả hàng hóa và đồng thời làm giảm sức mua của người dân cũng như các doanh nghiệp, gây ra những rối loạn trong hoạt động đầu tư, kinh doanh, khiến tỷ lệ phần trăm GDP của một nước giảm xuống
Giá dầu: Dầu mỏ là một trong những nguyên liệu quan trọng nhất đối với mọi quốc gia, nó cung cấp năng lượng cho hầu hết mọi hoạt động sản xuất hàng hóa ngày nay Chính vì thế giá đầu biến động sẽ dẫn đến tác động tương đối lớn đối với tỷ lệ phần trăm GDP của một quốc gia
25
Trang 34Tỷ giá hối đoái (đơn vị: Đô-la Mỹ): Vì hiện nay Đô-la đang là đồng tiền có tỷ lệ quy đổi cao nhất thế giới Chính vì thế, ty lệ chuyên đối giữa đơn vị tiền tệ của một nước sang đồng đô la càng thấp chứng tỏ quốc gia đó có giá trị tương đối lớn trên thị trường tiền tệ quốc tế Khi một đồng tiền của quốc gia nào đó đang có giá trị trên thị trường tiền tệ thì các nhà đầu tư sẽ có nhu cầu đầu tư vào thị trường của quốc gia đó, phản ánh quốc gia đang có nên kinh tế ổn định đề có thể tạo niềm tin cho các nhà đầu
tư
Thu nhập bình quân đầu người: Giá trị này nếu cảng cao thì cho thấy công dân của quốc gia đó đang có một mức sống cao, có thê chỉ trả đầy đủ cho mọi nhu cầu của cuộc sống Ngoài ra, nó còn phản ánh sự phát triển của nền kinh tế quốc gia đó có thê cung cấp đủ số lượng việc làm với mức lương phủ hợp cho người dân
Tỷ lệ thất nghiệp: tỷ lệ phần trăm số người thất nghiệp trong tông số lực lượng lao động Một tỷ lệ thất nghiệp cảng cao phản ánh tình trạng quốc gia chưa tận dụng hết được nguồn cung lao động, do đó nền kinh tế vẫn đang chưa phát huy được đến mức tối đa
Cán cân thương mại: sự chênh lệch giữa xuất khâu và nhập khâu các hàng hóa, dịch vụ của các quốc gia Một cán cân thương mại dương cho thấy quốc gia đó đang xuất khâu nhiều hơn nhập khâu, điều này đồng nghĩa với việc số lượng hàng hóa được tạo ra ở quốc gia đó là vừa đủ cho cả tiêu dùng quốc nội và xuất khâu, qua đó, thể hiện một mức GDP cao của quốc gia đó
4.2 Quy trình phân lớp dữ liệu
Bước 1: Từ dữ liệu gốc, chia làm 70% đữ liệu huấn luyện và 30% dữ liệu đề dự báo và
đánh giá (không dùng Data Sampler) Bài toán được lưu trong file Dir liu Orange
2ó
Trang 35a Fae
Ê xét Paste
= Caltei a General xơ
Chgbeard 5 Fore Agrrent 5 Number es
1 |Chá»%X«sã ‘ c Ki ‹ ‹ Divs Báo 2 'CAC\40D,
3 4 |NASDAQ 20031 2035 1 3743 005 0.05 no
5 NASDAQ 2002 1539/73 1 38023 0.06 G.05 yes 6 NASDAQ 2003 164717 1 3944 006 0.04 yes 7 NASDAQ 2004 198653 1 41713 0.06 6.04 yes 8 NASDAQ 2005 209932 1 44115 0.0 0.04 no
TÔ NASD: 2007 257847 1 47976 0.05 6.05 ao
11|NAspAa 2008 216165 1 48383 006 0.04 yex 12 NASDAQ 2009 1845.38 1 400 009 0.03 no 13 NASDAQ 2010 2349.89 1 48467 01 003 yes 14 NASDAQ 2013 267744 1 498i 00 0.03 no
15 NASDAQ 2012 296556 1 51603 0.08 6.02 no 16 NASDAQ 2013 354121 1 53107 007 0.02 no MÃ 2014 43751 1 550! 0.06 2.03 no 18 FTSE 1 1002 521735 1444 37119 0.0 05 no 19 FISE 100 2002 3940 15 2998: 0.05 6.05 no
20 rTsE 2003 447687 1.63 343i 005 0.04 yes 21 FTSE 100 2004 48143 183 40214 0.05 0.04 no
22 FTSE 100 United Kin 2005 5618.76 182 41933 0.05 6.04 yes
23/FTSE 100 Unitedxin 2006 622081 1 44474 005 0.05 no
24 FTSE 100 United Kin, 2007 6456.91 2 504 0.05 2.05 no
25 FTSE 100 UnitedKin 2008 443417 185 0037114 47270 006 0.04 yes 26 /FISE 100 UnitedKin 2009 541288 157 38736 008 0.03 no
27 FTSE100 United Kin, 2010 5899 155 39537 0.08 0.03 yes 26 FTSE 100 United Kin, 2011 557228 16 42048 0.08 6.03 no 29 FTSE 100 United Kin 2012 589781 159 42449 0.08 0.02 no
X cụt Bs copy
Ni
Bước 2: Trong File đữ liệu Training, cài đặt “Dự Báo” làm biến phụ thudc (target), bo qua (skip) các biến “Chỉ số chứng khoán” và “Kho Bạc Hoa Kỳ” vì không liên quan đến dữ liệu dự báo
2015 494555 7 62353 2018 742596 2020 1020151 2016 714283
2018 6728.13 2019 754244 2020 646052 2016 25626.46 2017 34056.83 2019 41253.74 2020 47 2015 1920377
2016 1692048
7 8
2018 2310.73 2019 21697.23 2015 23287469 xa
110.43 0 109.03 106.76 +?
Hinh 4.2: Chon 30% di liệu dự đoán