Xây dựng mô hình ARIMA để dự báo số lượng sinh viên tốt nghiệp

MỤC LỤC

Mục tiêu nghiên cứu

Xây dựng môhình ARIMA dự đoánbiến động số lượng sinh viên tốt nghiệp tăng hoặc giảm cho các năm tiếptheo trong tưong lai. - Tìm hiểu chuỗi thời gian - Tìm hiểu mô hình ARIMA - Xây dựng mô hình dự đoán.

Cách tiếp cận và phương pháp nghiên cứu 1 Cách tiếp cận

CÁC MÔ HÌNH Dự BÁO TRONG PHÂN TÍCH DỮ LIỆU

Chuỗi thòi gian (Time Series) .1 Khái niệm

- Khi dự báo trên tậpdữ liệu gốc, một đường biểu diễnkhông ổn định và khó dự đoán có thể xuất hiện. Trong trường hợpnày, chúng ta cần chọn các thành phần con của chuỗi dữ liệu mà có tính quy luật và xu hướng vận động cụ thể hon. Sau đó, chúng takết hợp lại những thànhphần này để tạo ra dự báo chính xác hơn.

Tuynhiên, do dữ liệu có thể không đủ lớn hoặc không đủ độ ổn định để xác định một cách chính xác Cyclicity, chúng ta thường chỉ tậptrung vào các thành phần còn lại, bao gồm Trend, Seasonality và Irregularity.

Mô hình hồi quy đon

Chú ý: các quan sát không nằm trên đường thẳng mà được phân bố ngẫu nhiên xung quanh nó. Thuật ngữ "lỗi" không chỉđon thuần là một sai số mà thựcchấtlà sự sailệchso với mô hình đường thẳng cơ bản. Điều này bao gồm tất cả cácyếu tố cóthể ảnh hưởng đếngiá trị yt ngoài giátrị dự đoán từ xt.

Phương pháp bìnhphương nhỏnhất cung cấpmột cách chọn hệ số hiệu quả bằng việc giảm thiểu tổng các sai số bình phương. Việctìm ra ước tính tốtnhất cho các hệ số thường được gọi là “fitting” mô hình với dữ liệu, hoặc đôi khilà“learning” hoặc “training” môhình.

MÔ HÌNH ARIMA - GIỚI THIỆU VỀ PHẢN MỀM EVIEWS

Mô hình ARIMA

Tuy nhiên, thay vì tương quan giữa hai biến khácnhau thì mối tương quan này lại là giữa hai giá trị của cùng một biết tại các thời điểm Xị và Xị+k. Trường hợp tự tương quan được sử dụng để phát hiện tính không ngẫu nhiên thì nó thường chỉ có hiện tượngtự tương quan ở lần đầu tiên (hay độtrễ 1). Khi tựtương quan được sử dụng đểxác định mô hìnhchuỗi thời gian thích hợp, sự tự tương quan thường được biểu diễn dạng biểu đồ cho nhiều độ trễ.

Hàm tự tương quan từng phần là một công cụ trong phân tích chuỗi thời gian để xác định mức độ tương quan giữacác giátrị trong chuỗi thời gian vàcác giá trị trong một khoảngthời gian cố định sau khi loại bỏ tác động của các giátrị nằm giữa chúng. Hàm tự tương quan từng phần tương tự như hàm tự tương quan ngoại trừ việc nó chỉ hiển thị mối tương quan giữa hai quan sát mà độ trễ ngắn hơn giữa các quan sát đó không giải thích được. Trong phân tíchchuỗi thời gian, hàm tự tương quan đo lường mối quan hệ tương quan giữa một quan sát và các quan sát trước đó trong chuỗi thời gian.

Hàm tự tương quantừng phần giúp loại bỏ tác động này bằng cách tính toán tương quan giữa hai quan sát, không tính đến các quan sát nằm giữa chúng. Trong mô hình tự hồi quy, chúng ta dự báo biến quan tâm bằng cách sử dụng mộtkết hợp tuyến tính của các giá trị quá khứ của chính biến đó. Thuật ngữ "tự hồi quy" chỉ đơn giản là chỉ rarằng biến được dự báo là chínhnó, tức là nó hồi quy hoặc phụ thuộc vào các giátrị của nó trong quá khứ.

Trong mô hình này, chúng ta sử dụng các giá trị quan sát được trướcđócủa biến đểdự đoán giá trị của biến tại các thời điểm trong tương lai. Trong mô hình trung bình trượt, chúng ta tính trung bình động của các giá trị quan sát trước đó và sử dụng nó đểước lượng giá trị tiếp theo. Thuật ngữ "trung bìnhtrượt" thể hiện cách chúng tadi chuyển qua dữ liệu và tính trung bình của các phần tử trong một cửa sổ thời gian nhất định, sau đó sử dụng trung bình này làm dự báo cho giá trị tiếp theo.

Môhình trung bình trượt không phải làmộtsự hồi quy theonghĩathôngthường, nhưng nó làmột kỹ thuật quan trọngtrong phân tíchchuỗi thời gian để dự báo các giá trị tiếp theo. Bằng cách giảm phương sai, chúng ta có thể làm cho biến thể của chuỗi thời gian trởnên ít biến động hơn và dễ dàng đểthực hiện các phân tích và dự báo. Các điều kiện dừng và khả năng nghịch đảo tưong tự được sử dụng cho các mô hình trung bình độngvà tự hồi quy cũng áp dụngchomô hình ARIMA.

Xây dụng mô hình ARIMA .1 Nhận dạng mô hình

Để đảm bảo mô hình là phù hợp cho việc dự báo, mộttrong những bước quan trọng là kiểm tra xem các sai số của mô hình có phải là nhiễu trắng hay không. Hàm tự tương quan cho phép chúngta đo lườngmức độtương quangiữa các sai số liên tiếptrong chuỗi dữ liệu. Neucác sai số của mô hìnhlà nhiễu trắng, tức là không cómối tương quan nào còn lại sau khi loại bỏ các tương quan đã được mô hình hóa, thì mô hình cóthể được coi làphù hợp.

Do đó, kiểm định hàm tự tươngquan của sai số là một cách quan trọng để đảm bảotính chính xác của mô hình dự báo và sự phù hợp của nó với dữ liệu thựctế. Dựatrênmô hình ARIMA thích hợp với tập dữ, tiến hànhxác định giátrị dựbáo điểm và khoảng tin cậy của dự báo.

Giói thiệu phần mem Eviews

• Kiểm chứng các giả thuyết: EViews cung cấp các công cụ để thực hiện kiểm định giả thuyết và phân tíchtương quan giữa các biến. • Biểu đồ hóa và trực quan hóa: EVievvs cho phép người dùng tạo biểu đồ và biểu đồ thể hiện dữ liệu và kết quả phân tích một cách dễdàng và hiệu quả. • Tính tương thích cao: EViews hỗ trợ nhiều định dạng dữ liệu phổ biến và có khả năng kết hợp với các ngônngữ lậptrình như Python và Rđể mởrộng chức năngcủa nó.

Các tổchức tài chính, tập đoàn,cơ quan chính phủ và học giả thường sử dụng EViews như một công cụ đểthực hiện các phân tích phức tạp và tạo ra dự báo dựa trên dữ liệu số liệu thống kê. Giao diện của EViews được thiết kế để đơn giản và dễ sử dụng, giúp người dùng tiếp cận cáctính năng phân tích mộtcách hiệu quả mà không cần có kiến thức chuyên sâu về lập trình. EViews là một phần mềm phân tích thống kê và kinh tế được sử dụng rộng rãi trong nghiên cứu và phân tích dữ liệu kinh tế, tài chính và thống kê.

Phần mềm cungcấp cho người dùng các công cụ phân tích dữ liệu có độ phức tạp, hồi quyvà khảnăngdự báo các giátrị tương lai bằng việc xây dựng mộtmối quan hệ thống kêtừ dữ liệu có san và sử dụng mối quan hệ này. Với sự linh hoạt trong thao tác, quản lý dữ liệu dễ dàng nên Eviews đượcứng dụng trong nhiều lĩnh vựckhác nhaunhư phân tích tài chính, phân tích kết hợp đánh giácác dữ liệu khoa học, dự báo kinh tế,. Irregular Dated and Panel workfiles may be madefrom Unstrudured workfiles by later specifying date and/or other identifier series.

Wuikiile names (optional) WF:. Hình 2.1 Cửa sổ Workfile Có 3 dạng cấu trúc chính của Workfile:. 1)Dated-regular frequency: dùng cho dữ liệu chuỗi thời gian 2)ưnstructured/ưndated: dùng cho dữ liệu chéo. 3)Balanced panel: dành cho dữ liệu dạng bảng. View/Graph/Line & Symbol: mô hình hóa bằng đồthị, đưa ra phán đoán về một chuỗi thời gian là dừng hay không. View/Correlogram: thông qua biểu đồ tương quan và tự tương quan từng phần xác địnhcácthànhphần p, d, q của mô hình.

Sau khi đã xác định được các thành phần p, d, q củamô hình ARIMA, ta tiếp tục quá trình bằng việc xây dựng môhình theo các bước sau. Quá trìnhnày giúp chúng taxây dụngmôhình ARIMAdựatrên cácthôngsố p, d, q đã được xác định, và sẽ tiếp tục đào sâu vào việc ước lưọng các tham số cụ thể của mô hình. Chọn View/Residual Diagnostics/ Correlogram-Q-statistics..: để xác định sai số (hay phần dư) có phải là nhiễu trắng hay không ta xét đồ thị tưong quan của phần dư (AC).