Yêu cầu về thu thập dữ liệu Thu thập dữ liệu là quá trình lựa chọn và tập hợp các loại hình dữ liệu bằng các phương pháp khác nhau và từ các nguồn khác nhau nhằm đáp ứng yêu cầu thông ti
Trang 1Bộ Giáo dục và Đào tạo Trường Đại học Kinh tế Quốc dân
BÀI TẬP NHÓM
ĐỀ BÀI Hãy thu thập số liệu chuỗi thời gian về chỉ số giá lương thực của Việt Nam (theo tháng) trong giai đoạn 2010-2021 từ đó lựa chọn mô hình dự báo phù hợp để dự báo các tháng trong năm 2022.
Sinh viên thực hiện: Nhóm 3
Lớp học phần: Dự báo kinh tế xã hội 1 (122)_03
Giảng viên hướng dẫn: PGS.TS.Lê Huy Đức
Hà Nội 2022
Trang 2Mục Lục
1 Mô tả nguồn dữ liệu 5
1.1 Yêu cầu về thu thập dữ liệu 5
1.2.Nguồn thu thập dữ liệu 6
1.3 Phương pháp dự báo thu thập 7
1.4.Quản lý dữ liệu cho dự báo 8
2.Lựa chọn mô hình và phương pháp cho dự báo 8
2.1 Một số khái niệm và mô hình ARIMA 8
2.1.1 Chuỗi dừng 8
2.1.2 Quá trình tự hồi quy AR 9
2.1.3 Quá trình trung bình trượt MA 9
2.1.4 Quá trình trung bình trượt và tự hồi quy ARMA 10
2.1.5 Quá trình trung bình trượt, tích hợp, tự hồi quy ARIMA 10
2.2 Phương pháp BOX JENKINS 10
2.2.1 Kiểm tra tính dừng 10
2.2.2 Nhận dạng mô hình 11
2.2.3 Ước lượng mô hình 12
2.2.4 Kiểm định mô hình 12
2.2.5 Dự báo 12
2.2.6 Đánh giá dự báo 13
3.Sử dụng các phần mềm để ước lượng mô hình ARIMA 13
3.1 Nhận dạng mô hình ARIMA 13
3.1.1 Kiểm tra tính dừng 13
3.1.2 Chọn bậc AR(p) và bậc MA(q) tối ưu: 16
3.2 Chạy các mô hình ARIMA nói trên có được trên phần mềm SPSS để ước lượng, kiểm định và dự báo 18
3.2.1 Ước lượng mô hình ARIMA và kiểm định mô hình 18
3.2.2 Đưa ra dự báo 27
TÀI LIỆU THAM KHẢO 28
Trang 3LỜI MỞ ĐẦU
Việt Nam hiện nay sau hơn 30 năm mở cửa với nền kinh tế thế giới đã trở thànhmột trong những quốc gia hội nhập kinh tế quốc tế hàng đầu thế giới Từ một nướcthiếu lương thực và phải đối diện với nạn đói thì sau khi đổi mới Việt Nam hiện làmột trong những nhà sản xuất và xuất khẩu lương thực lớn nhất trên thế giới Xuấtkhẩu lương thực bao gồm nhóm hàng nông sản và thủy sản đã trở thành mặt hàngxuất khẩu chủ lực của nước ta
Từ số liệu của tổng cục thống kê năm 2021 kim ngạch xuất khẩu nhóm hàng nông.thủy sản đạt 28.08 tỷ USD và chiếm 8.3% trong tổng kim ngạch xuất khẩu của nềnkinh tế Những sản phẩm nổi bật bao gồm thủy sản đạt 8.88 tỷ USD; rau quả đạt3.55 tỷ USD; hạt điều sản lượng đạt 580 nghìn tấn và kim ngạch đạt 3.64 tỷ USD;gạo sản lượng đạt 6.24 triệu tấn và kim ngạch đạt 3.3 tỷ USD; cà phê sản lượng đạt1.56 triệu tấn và kim ngạch đạt 3.07 tỷ USD; hạt tiêu sản lượng đạt 261 nghìn tấn
và kim ngạch đạt 938 triệu USD
Tuy nhiên thế giới hiện nay đang trải qua những biến động lớn chưa từng có ảnhhưởng đến kinh tế và an ninh toàn cầu như dịch bệnh COVID – 19 hay xung độtNga – Ukraine Tất cả những điều trên đã và đang tiếp tục tác động tiêu cực tớitoàn bộ thế giới bao gồm cả lương thực An ninh lương thực đã trở thành vấn đề đedọa nhiều quốc gia trên thế giới bởi những biến động toàn cầu Vì vậy dự báo chỉ
số giá lương thực là một điều cần thiết để nhà nước có thể thực hiện những chínhsách kinh tế phù hợp đối với nhóm hàng lương thực và đảm bảo an ninh lươngthực Do lượng kiến thức có hạn nên trong quá trình tìm kiếm thông tin chúng emkhông tránh khỏi sự thiếu sót rất mong nhận được ý kiến đóng góp và sửa đổi củathầy để bài tập được hoàn thiện hơn
Chúng em xin chân thành cảm ơn!
Trang 41 Mô tả nguồn dữ liệu
1.1 Yêu cầu về thu thập dữ liệu
Thu thập dữ liệu là quá trình lựa chọn và tập hợp các loại hình dữ liệu bằng các phương pháp khác nhau và từ các nguồn khác nhau nhằm đáp ứng yêu cầu thông tin để tiến hành dự báo theo một cách thức nào đó
Trong dự báo kinh tế - xã hội, cơ sở dữ liệu ban đầu phục vụ dự báo cần đảm bảo các yêu cầu chủ yếu sau đây:
Thứ nhất, dữ liệu cần đầy đủ, đảm bảo tính chính xác và khách quan Tùy vào
phương pháp hay mô hình dự báo được lựa chọn mà yêu cầu thông tin và dữ liệu khác nhau Một mô hình dự báo phức tạp có thể cần đến nhiều dữ liệu hơn, ngược lại nếu sử dụng một mô hình đơn giản hơn sẽ cần ít dữ liệu hơn Do vậy, tính đầy
đủ ở đây cần được đánh giá trong mối tương quan với cách tiếp cận phương pháp
và mô hình dự báo được sử dụng Nghĩa là yêu cầu số lượng hay độ dài quan sát cần đủ lớn để cho phép phát hiện được xu thế biến động của đối tượng dự báo; ngoài dữ liệu định lượng cần có thêm dữ liệu định tính để củng cố mô hình dự báo;
và các dữ liệu về các nhân tố ảnh hưởng hay biến động của môi trường cần đủ độ chi tiết để phản ánh được các mối quan hệ chủ yếu Khi thu thập các dữ liệu về sự vật hiện tượng cần phải đảm bảo tính khách quan của nguồn dữ liệu, đảm bảo dữ liệu mô tả sự vật hiện tượng đúng như chúng vốn có Tính chính xác là một yêu cầu bắt buộc đối với các dữ liệu được thu thập phục vụ cho dự báo
Thứ hai, dữ liệu phải phù hợp Dữ liệu sử dụng cần đảm bảo yêu cầu phù hợp với
mục tiêu dự báo về nội dung, hình thức biểu hiện, đơn vị đo lường, thời gian và không gian diễn biến của sự vật hiện tượng Dữ liệu phải mang tính đại diện cho các tình huống, trong từng hoàn cảnh cụ thể mà dự báo thực hiện Hơn nữa, dữ liệu
sử dụng trong dự báo phải đảm bảo yêu cầu thích hợp với phương pháp dự báo lựa chọn Với phương pháp định lượng, dữ liệu bắt buộc phải là dữ liệu số, còn đối vớiphương pháp dự báo định tính, các dữ liệu cần thiết là các mệnh đề đánh giá, các câu trả lời có nội dung phản ánh phù hợp với mục tiêu dự báo
Trang 5Dữ liệu được thu thập cần đảm bảo
Thứ ba, dữ liệu phải đồng nhất về nội dung
nhất quán về khái niệm, phạm vi không gian và thời gian, phạm vi bị chi phối, công cụ đo lường, đơn vị tính,… Một khi có sự thay đổi trong khái niệm, phạm vi hay đơn vị đo lường thì phải tiến hành điều chỉnh để đảm tính nhất quán của dữ liệu và có thể so sánh được Yêu cầu này đòi hỏi sự mô tả về đối tượng dự báo phảiđược thực hiện trên một bộ tiêu chuẩn thống nhất và bộ tiêu chuẩn này phải được thực hiện cho từng đối tượng cụ thể theo không gian và thời gian
Thứ tư, dữ liệu phải đảm bảo tính liên tục về thời gian Dữ liệu được thu thập, tổng
hợp và trình bày theo thời gian thường được sử dụng rộng rãi trong dự báo Trong thực tế, số liệu thu thập được theo thời gian là những chuỗi thời gian rất hữu ích đối với một lớp rộng lớn các phương pháp dự báo áp dụng trong kinh tế - xã hội vàkinh doanh Theo yêu cầu này, các dữ liệu thu thập cần đảm bảo tính liên tục, có khoảng cách quan sát đều nhau và có độ dài phù hợp
1.2.Nguồn thu thập dữ liệu
Dữ liệu sử dụng trong phân tích kinh tế - xã hội nói chung được thu thập từ rất nhiều nguồn khác nhau Trong thực tế, nguồn dữ liệu sử dụng cho dự báo có nguồnxuất xứ khác nhau song có thể phân thành hai nguồn chính: nguồn dữ liệu sơ cấp
và nguồn dữ liệu thứ cấp Dữ liệu sơ cấp được thu thập trực tiếp khi thực hiện nhiệm vụ dự báo thông qua quan sát, phỏng vấn, khảo sát, thí nghiệm cụ thể, hoặc kết quả điều tra khảo sát của các cơ quan chuyên môn Thông dụng hơn, dữ liệu sơ cấp còn được thu thập từ việc ghi chép sự biến động của một số chỉ tiêu thống kê một số biến cần nghiên cứu trong phạm vi doanh nghiệp theo thời gian xuất hiện Các phương pháp dự báo định tính và định lượng đều có thể sử dụng dữ liệu sơ cấp
để tiến hành các dự báo cho các đối tượng dự báo khác nhau Các phương pháp dự báo định lượng sử dụng dữ liệu sơ cấp dưới dạng số liệu để tiến hành dự báo về trạng thái của đối tượng dự báo ví dụ khối lượng bán hàng hoặc khối lượng hàng
dự trữ.… Còn phương pháp dự báo định tính sử dụng nguồn dữ liệu sơ cấp xây
Trang 6dựng các tiêu thức đánh giá mang tính dự báo, hoặc sử dụng dữ liệu sơ cấp cho điều chỉnh ý kiến đánh giá dự báo
Nghiên cứu của nhóm chúng em sử dụng nguồn dữ liệu sơ cấp là dữ liệu về chỉ số giá lương thực của Việt Nam ( theo tháng, năm) trong giai đoạn 2010-2021 Tổng cục Thống kê tiến hành là nơi cung cấp nguồn dữ liệu sơ cấp lớn ở Việt Nam đảm bảo đầy đủ các tiêu chí trong yêu cầu về dữ liệu khi phục vụ cho dự báo
7 100.52 100.7 9 100.83
2 102.9
4
101.51 99.59 100.3
7 100.68 100.1 3 100.66 100.25 101.4
4 100.53 100.3 2 101.77
3 99.1 102.18 98.79 99.41 99.87 99.76 100.23 100.16 100.3
5 99.45 101.0 9 100.01
4 98.09 102.47 98.31 99.14 99.74 99.69 101.11 100.16 100.1
2 99.61 102.0 9 99.99
5 98.71 101.77 99.46 99.31 99.49 99.54 100.68 99.94 100.0
3 99.63 99.92 99.91
8 100.3 100.5 3 100.12
10 101.8
9
101.27 100.37 100.9
1 100.2 99.83 100.03 100.57 100.1
5 100.05 100.1 6 99.83
11 106.0
2
103.25 100.05 101.2
9 100.12 100.3 1 100.22 101.12 100.2
7 100.26 100.5 9 100.22
12 104.6
7
101.4 100.13 101.2
2 100.14 100.4 5 100.22 100.56 100.1
7 100.45 100.4 3 100.36
1.3 Phương pháp dự báo thu thập
Các dữ liệu sơ cấp phục vụ dự báo được thu thập bằng nhiều phương pháp khác nhau như quan sát, phỏng vấn, thảo luận nhóm và khảo sát ý kiến Trong đó tiến hành phương pháp quan sát có thể quan sát và ghi chép một cách trực tiếp hoặc thông qua việc nghiên cứu tài liệu sẵn có về chỉ số giá lương thực của Việt Nam trong giai đoạn 2010-2021 từ nguồn dữ liệu của Tổng cục thống kê
Trong quá trình thu thập, rất nhiều nguyên nhân có thể gây ra sai số Do vậy, xử lý
sơ bộ dữ liệu là khâu quan trọng nhằm hoàn thiện bộ dữ liệu trước khi sử dụng
Trang 7chúng vào xây dựng mô hình dự báo nhằm loại bỏ sai số và đảm bảo các yêu cầu
về tính khách quan, tính phù hợp và tính đồng nhất về nội dung, có thể so sánh được của các dữ liệu Để phát hiện và khắc phục sai số của dữ liệu có thể áp dụng phương pháp phân tích đối chứng kinh tế - kỹ thuật, kiểm định thống kê toán và nội suy – cắt dán
1.4.Quản lý dữ liệu cho dự báo
Phần lớn các phương pháp dự báo được tiến hành dựa trên những dữ liệu quá 23 khứ và hiện tại để dự báo trạng thái của đối tượng dự báo trong tương lai Sự sẵn
có của dữ liệu sẽ là cơ sở quan trọng lựa chọn phương pháp dự báo và có thể ảnh hưởng tới kết quả dự báo Để chuẩn bị dữ liệu tốt cho công tác dự báo chuyên nghiệp cần hình thành và phát triển các cơ sở dữ liệu, thực hiện lưu trữ dữ liệu mộtcách hệ thống nhằm thực hiện các dự báo hiện tại cũng như điều chỉnh dự báo khi cần thiết bằng các phầm mềm như Eview, SPSS,…
2.Lựa chọn mô hình và phương pháp cho dự báo
2.1 Một số khái niệm và mô hình ARIMA
2.1.1 Chuỗi dừng
Trong thống kê, kinh tế lượng và toán tài chính, một chuỗi thời gian là một chuỗi cácđiểm dữ liệu, thường được đo ở lần liên tiếp cách nhau khoảng thời gian thống nhất Dựbáo chuỗi thời gian là sử dụng một mô hình dự báo các sự kiện tương lai dựa trên sự kiệnquá khứ được biết: để dự đoán điểm dữ liệu trước khi chúng được đo Một ví dụ về dựbáo chuỗi thời gian trong kinh tế lượng là dự đoán chỉ số giá (lạm phát) của một nền kinh
tế dựa vào mô hình đáng tin cậy
Định nghĩa
Chuỗi dừng gọi là dừng khi nó thỏa mãn các điều kiện sau đây:
Có trung bình không thay đổi theo thời gian: E(= với mọi t
Có phương sai không thay đổi theo thời gian: Var( với mọi t
Có hiệp phương sai chỉ phụ thuộc vào khoảng cách giữa các quan sát chứ khôngphụ thuộc và thời gian: Cov( = với mọi t
Kiểm định tính dừng
Trang 8Kiểm định tính dừng dựa trên lược đồ tự tương quan
Một trong các kiểm định đơn giản là kiểm định tính dừng dựa trên lược đồ tự tương quan.Hàm tự tương quan ACF(k)= :
Hàm tự tương quan riêng ACF(k) = : Đo mức độ tương quan giữa sau khi đã loại trừtương tác của , ……., Ta chỉ xem xét tương quan của đã loại trừ ảnh hưởng cuả các giátrị của y tại thời điểm t khác
Kiểm định nghiệm đơn vị (unit root test)
Xét mô hình sau đây:
=là nhiễu trắng.(1.1)Nếu như thì chuỗi không dừng Do đó để kiểm định ta kiểm định giả thiết :
2.1.2 Quá trình tự hồi quy AR
Quá trình tự hồi quy bậc p có dạng như sau:
Trong đó : là nhiễu trắngut
2.1.3 Quá trình trung bình trượt MA
Quá trình MA(q) là quá trình có dạng :
Trong đó : là nhiễu trắng.ut
Trang 92.1.4 Quá trình trung bình trượt và tự hồi quy ARMA
Cơ chế sản sinh ra Y không chỉ có AR hoặc MA mà có thể kết hợp cả hai yếu tố này Khikết hợp cả hai yếu tố này ta có quá trình trung bình trượt và tự hồi quy ARMA.YtQuá trình ARMA(1,1) nếu y có thể biểu diễn dưới dạng :
Tổng quát ta có quá trình ARMA(p,q) nếu có dạng :
Tính dừng và khả nghịch :
Dừng khi AR(p) dừng
Khả nghịch khi MA(q) khả nghịch
2.1.5 Quá trình trung bình trượt, tích hợp, tự hồi quy ARIMA
Chuỗi thời gian xuất phát có thể dừng hoặc không dừng Để làm chuỗi dừng có chúng ta
sẽ lấy sai phân Chuỗi được gọi là đồng liên kết bậc d nếu chuỗi sai phân bậc d là chuỗidừng Áp dụng mô hình ARIMA (p,q) cho ta quá trình trung bình trượt, tích hợp, tự hồiquy ARIMA(p,d,q)
2.2 Phương pháp BOX JENKINS
Phương pháp này là sử dụng chuỗi thời gian trong quá khứ để dự báo cho tương lai Việckết hợp mô hình ARIMA trình bày ở trên và phương pháp Box-Jenkins sẽ giúp ta xử lývấn đề này Nội dung của phương pháp gồm 5 bước cơ bản :
Bước 1: Kiểm tra tính dừng
Bước 2: Nhận dạng mô hình
Bước 3: Ước lượng mô hình
Bước 4: Kiểm định mô hình
Bước 5: Sử dụng mô hình để dự báo
2.2.1 Kiểm tra tính dừng
Có 3 phương pháp:
Vẽ đồ thị chuỗi thời gian, nhận xét qua hình dạng của đồ thị
Thông qua hàm tự tương quan mẫu: SACF
Trang 10Nếu: SACF giảm nhanh và không có xu thế → chuỗi dừng.
SACF giảm chậm, có xu thế → chuỗi không dừng
Sử dụng phương pháp kiểm định nghiệm đơn vị
2.2.2 Nhận dạng mô hình
Nhận dạng mô hình tức là chúng ta phải tìm ra các giá trị p,q và d Để tìm được d ta dùngkiểm định nghiệm đơn vị DF hoặc ADF, kiểm định nghiệm đơn vị (làm chuỗi dừng ) Từchuỗi dừng nhận được ta phải tìm ra giá trị p,q Ta có bảng tổng kết một số trường hợp :
ARIM
(1,d,1) 1≠0 sau đó giảm dạng mũ hoặc
hình sin
11≠0 sau đó giảm dạng mũ hoặc
hình sin(1,d ,2) 1 , 2≠0 sau đó giảm dạng mũ
hoặc hình sin
11≠0 sau đó giảm dạng mũ hoặc
hình sin(2,d,1) 1≠0 sau đó giảm dạng mũ hoặc
hình sin
11, 22≠0 sau đó giảm dạng mũhoặc hình sin(2,d,2) 1 , 2≠0 sau đó giảm dạng mũ
hoặc hình sin
11, 22≠0 sau đó giảm dạng mũhoặc hình sinCác quá trình bậc cao hơn cần phải thử và kết hợp các phương pháp định dạng khác nhau
Từ lược đồ tương quan có thể cho ta kết quả nhiều giá trị p, q khác nhau nên ta có các
mô hình ARIMA khác nhau Các mô hình khác nhau thì cho ta kết quả dự báo khác nhau,thế mô hình nào cho ta kết quả dự báo tốt nhất, giải quyết vấn đề này ta dựa trên các tiêuchuẩn lựa chọn
Trang 112.2.3 Ước lượng mô hình
Sau khi định dạng mô hình ta biết bậc sai phân d của chuỗi xuất phát để thu được chuỗidừng Và ta cũng đã biết p,q Do đó ta dùng phương pháp bình phương nhỏ nhất để ướclượng mô hình ARIMA này Sử dụng phần mềm EVIEWS, SPSS, STATA, chúng ta dễdàng ước lượng mô hình này bằng phương pháp bình phương nhỏ nhất
2.2.4 Kiểm định mô hình
Bằng cách nào ta biết mô hình đã lựa chọn phù hợp với thực tế Nếu như mô hình là thíchhợp thì các yếu tố ngẫu nhiên là nhiễu trắng Do đó để xem mô hình có phù hợp haykhông ta phải kiểm định phần dư Kết quả ước lượng từ mô hình ARIMA cho ta phần dư.Dùng ADF để kiểm định xem phần dư có phải là nhiễu trắng hay không Các phần dư tựtương quan nhỏ và dao động trong khoảng:
Kiểm định dựa trên thống kê Q Ljung-Box được sử dụng để kiểm tra toàn diện tính đầy
Tương tự ta được các giá trị dự báo của y trong các thời kỳ tiếp theo Theo như cách này
dự báo thì sai số dự báo sẽ tăng lên khi dự báo quá xa
Trang 12Tổng bình phương các sai số dự báo: ٭
Căn bậc hai sai số bình phương trung bình:٭
Sai số tuyệt đối trung bình :٭
3.Sử dụng các phần mềm để ước lượng mô hình ARIMA
3.1 Nhận dạng mô hình ARIMA
3.1.1 Kiểm tra tính dừng
Sử dụng phần mềm EVIEW 12, vẽ đồ thị biến CHISOGIALUONGTHUC
Trang 13Kiểm nghiệm đơn vị:
View -> Descriptive Statistics and tests -> Histogram and stats
Hình 2
Ta thấy Mean = 100.3378 => CHISOGIALUONGTHUC có hằng số
Hồi quy chuỗi gialuongthuc theo thời gian, nhập ls chisogialuongthuc c @trend
trên thanh lệnh màn hình, kết quả như sau:
Trang 14Ta thấy giá trị p – value = 0.0388 < 0.05 => chuỗi Gialuongthuc có xu thế
Như vậy ta sẽ chọn Trend and intercept trong phần Include in test question.
- Kiểm định tính dừng của chuỗi Gialuongthuc:
- Kiểm định cặp giả thuyết :
H0: =0: Chuỗi không dừng xu thế
H1: ≠0: Chuỗi là dừng xu thế
Sử dụng phần Unit root tests trong Eviews, ta được bảng sau: