1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp

50 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu mô hình ARIMA trong dự báo tỉ lệ sinh viên tốt nghiệp
Tác giả Nguyễn Quang Huy
Người hướng dẫn TS. Đoàn Văn Thắng
Trường học Trường Đại học Công nghiệp Thành phố Hồ Chí Minh
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 50
Dung lượng 1,62 MB

Nội dung

Phương pháp dự báo theo chuỗi thời gian là một trong những phương pháp định lượng phổ biến, trongđó chuỗi quan sát được dựa trên một biến duy nhấttheo thời gian.Phương pháp chuỗi thời gi

Trang 1

BỘ CÔNGTHƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHÓ HÒ CHÍ MINH

NGUYỄN QUANG HUY

Trang 2

Công trình được hoàn thànhtại Trường Đại học Công nghiệp TP Hồ Chí Minh.

Người hướng dẫn khoahọc: TS Đoàn Văn Thắng

Luận vănthạc sỹ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sỹ Trường Đại học Công nghiệp TP Hồ Chí Minh: ngày tháng năm

Thành phần Hội đồng đánh giáluận văn thạc sỹgồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ ỉuận văn thạc Sĩ)

Trang 3

BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự do - Hạnh phúc

THÀNH PHỐ HÒ CHÍ MINH

NHIỆM VỤ LUẬN VĂN THẠC sĩ

L TÊN ĐÈ TÀI:

Nghiên cứu mô hình ARIMA trong dự báo tỉ lệ sinh viên tốt nghiệp

NHIỆM VỤ VÀ NỘI DUNG:

Nhiệm vụ: Dựa trên dữ liệu số lượng sinh viên tốt nghiệp trong quá khứ kết hợp ứng dụng mô hình ARIMA dự đoán số lượng sinh viên tốt nghiệp trong tương lai.

Nội dung: phân tích dữ liệu số lượng sinh viên đã tốt nghiệp Nghiên cứu và xây dựng, kiểm thử mô hình ARIMA phù hợp cho dự đoán Dựa trên dữ liệu sinh viên tốt nghiệp tiến hành dự

dự đoán cho năm tiếp theo và tiến hành đánh giá mức độ hiệu quả của mô hình.

II NGÀY GIAO ĐỀ TÀI: 25/05/2023

III NGÀY HOÀN ĐÈ TÀI: 25/11/2023

IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đoàn Văn Thắng

NGƯỜI HƯỚNG DẪN

Tp Hồ Chí Minh, ngày tháng năm 20

CHỦ NHIỆM Bộ MÔN ĐÀO TẠO

TRƯỞNG KHOA KHOA CNTT

(Họ tên và chữ ký

Trang 4

LỜI CẢM ƠN

Tôi bày tỏ lòng biết ơn sâu sắc đến thầy TS Đoàn Văn Thắng đãhướng dẫn, hỗtrợtậntâm suốt quá trình thực hiện luận văn Cảmơn lãnh đạoNhàtrường đã tạođiều kiện tốt

để cá nhân tôi, cùng học viên khác hoàn thành luậnvăn

Tôi gửi lời cảm ơn đến bạn bè, đồng nghiệp, người thân, gia đình đã ủng hộ và động viên tôi duy trì sự kiên nhẫn trong quá trình thực hiện luận văn này

Mặc dù luận văn đã được hoànthành, nhưng nhận thấy vẫn còn mộtsố hạn chế, vì vậy tôi rất mong nhận được sự đóng góp để chỉnh sửa, bổ sung và hoàn thiện hơn

Xin chân thành cảm ơn

Trang 5

TÓM TẤT LUẬN VĂN

ARIMA làmột trong những mô hình đã và đang được sử dụng ngày càng rộngrãi trong lĩnh vực phân tích dữ liệu nhằm mục đích đưara những dự báo cho tương lai Luận văn này thực hiện nhằm mục đích giới thiệu một cách cụthể và chi tiết về môhình ARIMA

và ứng dụng thựctế trong việc dự báo tươnglai từ các dữ liệu trong quá khứ

Trong luận văn này,tập trung vàonghiên cứu: (1) Lý thuyết của dữ liệu chuỗithời gian cùng các mô hình dựbáo hồi quy, (2) Lýthuyết mô hình ARIMAvà (3) Giới thiệu phần mem Eviews Song song với việc nghiên cứu lý thuyết,luận văn cũng tiếnhành ápdụng

mô hình vào thựctế với tập dữ liệu được thu thập từ đơn vị giáo dụctại thành phố HồChí Minh

Đánh giá, dự báo và đưa kết luận từ việc nghiên cứu với tập dữ liệu hiện có Kết quảnày sẽ là mộttrong những tư liệu tham khảo có ích cho các đơn vị hay tổ chức có nhu cầu về dự báo tương lai bằng việc phân tích dữ liệu chuỗi thời gian

Trang 6

ARIMA is a model that has been widely used in data analytic to make predictions for the future Thisthesisis written in detail for an introductorypurpose about the ARIMA model and its usage in giving futureinformation based on historical data

In thisthesis, the author is going to concentrate on research: (1) Theory of time seriesdata and regression forecast model, (2) Theory of ARIMA model, and(3) Eviews software introduction Along with theoretical study, practical application is alsoapplied to the datafile collected from the educational unit in HoChi Minh City.Assessment, prediction, and conclusion are based on analysis based on available data files This thesis will be one of the references for units or organizations that need to make predictions based on time series date analytic

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của cá nhân tôi và giảng viên hướngdẫn Kết quả nghiên cứu, kết luậntrong luận văn là trungthực,khôngsao chép từnguồnkhác dưới mọi hình thức Thựchiện trích dẫn, dẫn nguồn tài liệu tham khảo đúng theoquy định

Học viên

Nguyễn Quang Huy

iv

Trang 8

MỤC LỤC

MỞ ĐẦU 1

1 Đặtvan đề 1

2 Mụctiêu nghiên cứu 2

3 Đối tượng và phạm vi nghiên cứu 3

4 Cách tiếp cận và phương pháp nghiên cứu 3

4.1 Cách tiếp cận 3

4.2 Phương phápnghiên cứu 3

5 Ýnghĩathực tiễn đề tài 4

6 Phạm vi và giới hạn đề tài 4

7 Cấu trúc luận văn 4

CHƯƠNG 1 CÁC MÔ HÌNH DựBÁO TRONG PHÂN TÍCH DỮ LIỆU 5

1.1 Chuỗi thời gian (Time Series) 5

1.2 Mô hình hồi quy đơn 6

1.3 Mô hình hồi quybội 8

CHƯƠNG 2 MÔ HÌNHARIMA - GIỚI THIỆU VÈ PHẨN MỀM EVIEWS 9

2.1 Mô hình ARIMA 9

2.2 Xây dựng mô hình ARIMA 14

2.3 Giới thiệu phần mem Eviews 15

CHƯƠNG 3 ÁP dụng môhình ARIMAtrong Dự BÁO TỈ LỆ SINH VIÊN TỐT NGHIỆP 23

3.1 Thu thập dữ liệu 23

3.2 Kết quả xâydựng mô hình 23

3.3 Đánh giá và nhận xét kết quả thựcnghiệm 35

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37

DANH MỤC CÔNG TRÌNH ĐẪ CÔNG BỐ CỦA HỌC VIÊN 38

LÝLỊCH TRÍCH NGANG CỦA HỌCVIÊN 40

Trang 9

DANH MỤC HÌNH ẢNH

Hình 1.1 Mộtví dụ mô hình hồi quy tuyến tính [7] 7

Hình 2.1 Cửasổ Workfile 17

Hình 2.2 Nhập dữ liệu vào phầm mem Eviews 18

Hình 2.3 Biểu đồ hàm tự tương quan, tự tương quan từngphần 19

Hình 2.4 Kết quảquá trình ước lượng 20

Hình 2.5 Biểu đồthể hiện hàm tự tưong quan, tự tưong quan từng phần của phần dư 21 Hình 2.6 Lựa chọn yêu cầu phù hợp chodự báo 22

Hình 3.1 Biểu đồ biến động số lượng tốt nghiệp từ năm 2007-2022 24

Hình 3.2 Biểu đồ chuỗidừng khi lấy sai phân bậc 1 25

Hình 3.3 Biểu đồ tự tưong quan (ACF),biểu đồ tự tưong quan riêng từng phần (PACF) và giá trị p-value tưong ứng 26

Hình 3.4 Ước lượng mô hình ARIMA (8,1,1) 27

Hình 3.5 Kết quả thu được quamô hình ARIMA (8,1,1) 28

Hình 3.6 Kiểm traphần dưcó nhiễu trắng ARIMA (8,1,1) 30

Hình 3.7 Nghiệm nghịch đảo quá trìnhAR và MA 31

Hình 3.8 Đồ thị biểu diễn nghiệm củaquá trình AR và MA 32

Hình 3.9 Dự báo 33

Hình 3.10 Kết quả bảngthống kê theo dự báo 34

Hình 3.11 Biểu đồ dựbáo số lượng sinh viên tốt nghiệp năm 2023 35

vi

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 2.1 Các trường hợp đặc biệt của mô hình ARIMA 13Bảng 3.1 Số liệu sinh viên tốt nghiệp qua từng năm 23Bảng 3.2 Bảng giá tương ứng từng mô hình 29

Trang 11

DANH MỤC TỪ VIẾT TẤT

Ký hiệu chữ

viết tắt

ACF Auto Correlation Fucntion Hàm tự tương quan

ARIMA Autoregressive Intergrated Moving

Average

Tự hồi quy tích hợp trungbình trượt

ARMA Autoregressive Moving Average Tự hồi quy trung bình trượt

PACF Partial Auto Correlation Function Hàm tự tương quan từng

phân

viii

Trang 12

MỞ ĐẦU

1 Đặt vấn đề

Dự báo làcông việc ngày càng cần thiết trong thời điểm hiện tại Kết quả việc dự báo

sẽ cung cấp những thông tincầnthiết chocác kếhoạch và cóthể khẳng địnhnếu không

có nhữngdự báo thì các hoạch định sẽ không có sự tin cậy cao

Trong [1] [2], kỹ thuật dự báo đã rađời rất lâu vào khoảng thế kỉ 19, tuy nhiên vai trò của dựbáo ngày càng mạnh mẽ kể từ khi công nghệ thông tin ngày càng pháttriểnbởibản chất việc mô hình hóa các phương pháp dự báo lại cần đến sự hỗ trợ giúp sứccủacông cụ máy tính Cho tới những năm của thập niên 50, thì các lý thuyết về dựbáo, cácphương pháp luận mới được xây dựng, pháttriển một cách có hệ thống

Trong công việc phân tích dự báo, việc thu thập thông tin đadạng về lĩnh vực dự báo

làmột trong những mục tiêu quan trọng nhất Thông tin này cóthể được phân chia thành

ba phần chính: dữ liệu quákhứ của lĩnh vực dự báo, hiện trạng và diễn biến phát triển của lĩnh vực đó, cùngvới đánh giá chi tiết về các yếu tố ảnh hưởng,bao gồm cảyếu tố định tính vàđịnh lượng

Thực tế, các phương pháp dự báo thường được phân loại thành hai loại chính: phươngpháp định tính và phương pháp định lượng Phương pháp định tính phụ thuộc chủ yếu vào kinh nghiệm của các chuyên gia trong lĩnh vựctương ứng và kết quả của phươngpháp nàythường cần sự đánh giá từnhiều chuyên gia khác nhau

Phương pháp định lượng, ngược lại, sửdụng dữ liệuquá khứđể xác định xu hướng phát triển của đốitượngvà xây dựng môhìnhtoán học dựa trên dữ liệu đó Phương pháp dự báo theo chuỗi thời gian là một trong những phương pháp định lượng phổ biến, trong

đó chuỗi quan sát được dựa trên một biến duy nhấttheo thời gian

Phương pháp chuỗi thời gian giả định rằng xu hướng phát triển của biến số dự báo sẽ tiếp tục giữnguyên trongquá khứ và thời điểm hiện tại,từ đó dùng để dự báotương lai.Bài luận văn này đang nghiên cứu mô hình ARIMAnhằm thực hiện phân tích dữ liệusinh viên tốtnghiệp và tiến hành dự báo lượng sinh viên tốt nghiệp Mô hình ARIMA(AutoRegressive Integrate Moving Average) được đề nghị vào năm 1976 bởi Box-

Trang 13

Jenkins [3], dựa trên môhình tự hồi quy AR và mô hình trung bình trượtMA Mô hìnhARIMA dự báo định lượngtheo thời gian, vớixu thế vận độngcủa đối tượng trong quákhứ sẽ quyết định giátrị tưong laicủa biến số dựbáo Từcác dữ liệu quan sát được, môhình ARIMA sẽ phân tích tính tưong quan giữachúng để đưa ra mô hình dự báo quacác giađoạn nhận dạng,ướclượngtham số và kiểm tra chúng nhằm tìm ra mô hìnhphù họp.

Ngày nay, dự báo chuỗi thời gian được ứngdụng trên nhiều lĩnh vực: dự báo nhiệt độ, lượng mưa,dự báo giá cổ phiếu chứng khoán, dự báo lạm phát,

Bài luận văn nghiên cứu mô hình chuỗi thời gian theo phưong pháp trung bình trượt tích hợp tự hồi quy ARIMA để dự báo tỉ lệ sinh viên tốt nghiệp cho cácnăm tiếp theonhằm mục đích trợ giúp các nhà quản lý và các bên liên quan đưara những chính sách phù hợp

2 Mục tiêu nghiên cứu

Xây dựng môhình ARIMA dự đoánbiến động số lượng sinh viên tốt nghiệp tăng hoặcgiảm cho các năm tiếptheo trong tưong lai

- Tìm hiểu chuỗi thời gian

- Tìm hiểu mô hình ARIMA

- Xây dựng mô hình dự đoán

2

Trang 14

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: dữ liệu lịch sử số lượng tốt nghiệp của đơn vị qua các nămPhạm vi nghiên cứu:

• Không gian: Trường Đại Học Công Nghiệp TP HCM

• Bộ dữ liệu dữ liệu sinh viêntốt nghiệptheo từng năm từ năm 2007 đếnnăm 2022) của khoa CNTT Trường Đại Học Công NghiệpTP HCM

• Nội dung: phân tích chuỗi dữ liệu thời giantrongquá khứ, dựbáo số lượng sinh viêntốt nghiệpcho các năm tiếptheo

4 Cách tiếp cận và phương pháp nghiên cứu

4.1 Cách tiếp cận

Tập trung khai thác các kết quả đánh giá thực nghiệm và kết quả nghiên cứu lý luậntrước đây về mô hình ARIMA; các phân tích, đánh giá liên quan về tính khả thi, hiệuquả của mô hình

Nghiên cứu lý thuyết và các ứng dụng của mô hình ARIMA trong việc dự báo thôngqua cácdữ liệu trong quá khứ

4.2 Phương pháp nghiên cứu

Phương pháp nghiên cứu tổng luận: Nghiên cứu tổng hợp về mặt lý luận về: chuỗi thờigian (Time Series) và các khái niệm có liên quan; mô hình ARIMA, các khái niệm liênquan và ứngdụng thựctế,

Trên cơ sở lý thuyết đãnghiên cứu, tiến hành thực nghiệm dự báo tuyển sinh sử dụng

môhình ARIMA

Phươngpháp mô phỏng: Sử dụng phần mềm Eviewsđể xây dựng mô hình nhằm dự báo tuyển sinh trong tương laicủa đơn vị Môitrường thực nghiệm được tiến hành trên máytính xác tay Lenovo có cấu hình CPU Intel core Ĩ5-9780H, RAM 16GB và sử dụng hệđiềuhành Windows 10 Dữ liệu thực nghiệm là các dữ liệu tuyển sinh của đơn vị từ quákhứ các năm trước

Trang 15

5 Ý nghĩa thực tiễn đề tài

Hiểu được mô hình ARIMA và ứng dụng của nó trong dự báo các kết quả tương lai

MôhìnhARIMA lí giải đượccác biến độngcủachuỗi thời gian thông qua các quan hệvới các giátrị quá khứ Môhình cũng được ứngdụng một cách minh họanhằm dự báo biến động sinh viên tốt nghiệp tăng hoặc giảm cho các năm tiếp theo của một đơn vịgiáo dục

6 Phạm vi và giới hạn đề tài

Phạm vi thực hiện là tậpdữ liệu củatrườngđại học Công NghiệpTP Hồ Chí Minhtrongvòng 16 năm (từ năm 2007 đến năm 2022)

Đề tài tiến hành thực hiện dựa trên phương pháp dùng mô hình ARIMA để phân tích

dữ liệu chuỗi thời gian

7 Cấu trúc luận văn

- Mở đầu

- Phần lý thuyết

- Chương 1: Cácmô hình dựbáotrong phân tích dữ liệu

- Chương 2: MôhìnhARIMA- Phan mem Eviews

- Chương3: Ảp dụng mô hình ARIMA trong dự báo tỉ lệ sinh viên tốt nghiệp

- Kết luận

4

Trang 16

CHƯƠNG 1 CÁC MÔ HÌNH Dự BÁO TRONG PHÂN TÍCH DỮ LIỆU

1.1 Chuỗi thòi gian (Time Series)

1.1.2 Đặc trưng chuôi th ời gian

Từ [4] [5] [6], các thành phần đặctrưng của chuỗi dữ liệu thời gian:

• Tính xu hướng (Trend): Đây là thành phần trong phân tíchchuỗi thời gian cho thấy

xu hướngchung của dữ liệu trong một khoảng thời gian dài Xu hướng có thể là tăngdần, giảm dần hoặc ổn định Thành phần này giúp chúng ta hiểu được hướng diễn biến tổng thể của dữ liệu và cung cấp thông tin về sự thay đổi dài hạn củabiến số

đó Ví dụ, tronglĩnh vực kinh tế, sựlạm phát thường làm tănggiá cả trung bình theothòi gian, thể hiện mộtxu hướng tăng

• Tính mùavụ (Seasonality): thành phần chỉ ra những biến đổi tăng hoặc giảm có sựlặp đi lặp lại một cách đều đặncủa dữliệu trong một khoảngthời gian xác định (vídụ: số ngày thứ Hai mỗitháng hoặc các ngày lễ thay đổitheo mỗi năm, )

• Tính chu kỳ(Cyclicity): thành này nókhác yếu tố mùavụ ỏ chỗ thành phần này có

sự biếnđộng trong khoảng thời gian dài hơn và không xác định trong nhiều năm, cótính chất lặpcủa dữ liệu theo thời gian

• Yeu tố bất thường (Irregularity), hay còn được gọi là nhiễu trắng (white noise), là thành phần cuối cùng của phân tích chuỗi thời gian Sau khi đã loại bỏ các thành phần khác như xu hướng, mùavụ và chu kỳ,yếu tố này thể hiệncác biến động ngẫu nhiên của dữ liệu mà không có một quy luậthay mô hìnhcụ thể

Trang 17

- Khi dự báo trên tậpdữ liệu gốc, một đường biểu diễnkhông ổn định và khó dự đoán

có thể xuất hiện Trong trường hợpnày, chúng ta cần chọn các thành phần con củachuỗi dữ liệu mà có tính quy luật và xu hướng vận động cụ thể hon Sau đó, chúng

takết hợp lại những thànhphần này để tạo ra dự báo chính xác hơn Với Cyclicity, đây làxu hướng biến động trong một khoảng thời gian dài Tuynhiên, do dữ liệu cóthể không đủ lớn hoặc không đủ độ ổn định để xác định một cách chính xác Cyclicity, chúng ta thường chỉ tậptrung vào các thành phần còn lại, bao gồm Trend,Seasonality và Irregularity

1.2 Mô hình hồi quy đon

Mô hình hồi quy tuyến tỉnh cổ điển (Linear Regression)

Trong các trường hợp đơn giản,mô hình hồi quy chophép mối quan hệtuyến tínhgiữa biến dự báoy và một biến dự đoánX

Các hệ số povà pl lần lượtbiểu thị điểm chặn và độ dốc của đường thẳng Điểm chặn

po biểu thị giátrị dựbáo của ykhi x=0 Độ dốc pl biểu thị sựthay đổi trung bình được

dự đoán trong y do X tăng một đơn vị

6

Trang 18

60-Hìnli 1.1 Một vídụ mô hìnhhồi quy tuyến tính [7]

Chú ý: các quan sát không nằm trên đường thẳng mà được phân bố ngẫu nhiên xungquanh nó Mỗi quan sát có thể được hiểu như sự kết họp giữa phần hệ thống hoặc phần giải thích của mô hình, po + px, và "lỗi" ngẫu nhiên, st Thuật ngữ "lỗi" không chỉđon thuần là một sai số mà thựcchấtlà sự sailệchso với mô hình đường thẳng cơ bản Điềunày bao gồm tất cả cácyếu tố cóthể ảnh hưởng đếngiá trị yt ngoài giátrị dự đoán từxt

Phương pháp bỉnh phương nhỏ nhất (OLS - Ordinary Least Squares)

Phương pháp bìnhphương nhỏnhất cung cấpmột cách chọn hệ số hiệu quả bằng việc giảm thiểu tổng các sai số bình phương Nghĩa là ta chọn các giá trị po, pl, , pk saocho cực tiểu hóa

£Ỉ=1 ft — sĩ=i(yt - P q - Pixi,t — p2x2,t — Pkxk,ty (1-2)

Đây được gọi là ước lượng bình phương tối thiểu vì nó mang lại giá trị nhỏ nhất chotổng các sai sốbình phương Việctìm ra ước tính tốtnhất cho các hệ số thường được gọi là “fitting” mô hình với dữ liệu, hoặc đôi khilà“learning” hoặc “training” môhình

Trang 19

1.3 Mô hình hồi quy bội

Mô hình hồi quy tuyển tính đa bội (Multiple linear regression)

Khi có hai hoặc nhiều biến dự đoán, mô hình được gọi là mô hình hồi quy đa bội Dạngtổng quát:

yt - Pữ + P1XU + f>2x2,t + —I- Pkxk,t + £t (1.3)

Trong đó y là biến dự báo và%!, , xk là k biến dự báo Mỗi biến dự đoán phải là số Các hệ số pl, ,pk đolườngtác động của từng yếu tố dự đoán sau khitính đến tác động của tấtcả các yếu tốdự đoán kháctrong mô hình

8

Trang 20

CHƯƠNG 2 MÔ HÌNH ARIMA - GIỚI THIỆU VỀ PHẢN MỀM EVIEWS

2.1 Mô hình ARIMA

Hai nhà toán học người Mỹ (George Box và Gwilym Jenkins) đã nghiên cứu mô hình

tự hồi quytích hợptrung bình trượt(Autoregressive Integrated Moving Average) đượcviếttắt ARIMAvà mô hình này được phổ biến trong quyển sách “Time Series Analysis- Forecasting And Control “củahọ năm 1976 về sau, tên họ được đặt (Box-Jenkins) đểgọi tên các quátrình ARIMA tổngquát, áp dụng vào việc phân tíchvà dự báo các chuỗi thời gian [8]

Môhình ARIMA cung cấp một cáchtiếpcận khác để dự báochuỗi thời gian Làm mịn hàm mũ và mô hình ARIMA là hai phương pháp được sử dụng nhiều nhất để dự báo chuỗi thòi gian và đưara các phưong pháp bổ sung cho vấn đề Trongkhi các mô hìnhlàm mịn hàm mũ dựa trên mô tả xu hướng và tính thời vụ trong dữ liệu, các mô hìnhARIMA nhằm mục đích mô tả các mối tưong quantự động trong dữ liệu

Theo [3] [9], bản chất ARIMA làtổng hợp của các môhình: Mô hìnhtự hồi quy (AR),

môhìnhtích hợp (I) và mô hình trung bình trượt(MA) với chuỗi dữ liệu được sử dụng

để nghiên cứu phải có tínhdừng

Tính dừng của chuỗi thời gian

Một chuỗi thời gian được coi là chuỗi dừng khi nó thỏa mãn các đặc tính không phụ thuộcvào thời điểmquan sát Điều này cónghĩa là giátrị của chuỗi không thay đổi theothời gian và không có sự biến động tự nhiên hay xu hướng rõ ràng

Trong trường hợp củachuỗi thời gian có xu hướng hoặc tính thời vụ, các giátrị trongchuỗi sẽ phụ thuộc vào thời gian vàsẽ thay đổi theo các mẫu và mùa vụ Do đó, những chuỗi nàythường không được coi là dừng

Mặc khác, một chuỗi nhiễu có tính dừng sẽ không thể phân biệt được ở bất kỳ thời điểmnào Điều này có nghĩalà không có sự biến đổi định kỳ hoặc xu hướng nào được quansát và các giátrị trong chuỗi được xem xét làổn định qua thời gian

Trang 21

2.1.1 Hàm tự tương quan - A CF

Theo [7], hàm tự tương quan có thể được sử dụng cho các mục đích:

- Đe phát hiện tính không ngẫu nhiên trong dữ liệu

- Để xác định môhình chuỗi thời gian phù hợptrongtrường hợp dữ liệu không có tínhngẫu nhiên

Cho các phép đo: Kp y2, , Y N tại thời điểm xr ,x2, ■■■ ,XN, độ trễ k hàm tự tương quanđược định nghĩa như sau:

Trường hợp tự tương quan được sử dụng để phát hiện tính không ngẫu nhiên thì nó thường chỉ có hiện tượngtự tương quan ở lần đầu tiên (hay độtrễ 1) Khi tựtương quanđược sử dụng đểxác định mô hìnhchuỗi thời gian thích hợp, sự tự tương quan thường được biểu diễn dạng biểu đồ cho nhiều độ trễ

2.1.2 Hàm tự tương quan từng phần - PACF

Hàm tự tương quan từng phần là một công cụ trong phân tích chuỗi thời gian để xác định mức độ tương quan giữacác giátrị trong chuỗi thời gian vàcác giá trị trong một khoảngthời gian cố định sau khi loại bỏ tác động của các giátrị nằm giữa chúng.Hàm tự tương quan từng phần tương tự như hàm tự tương quan ngoại trừ việc nó chỉ hiển thị mối tương quan giữa hai quan sát mà độ trễ ngắn hơn giữa các quan sát đókhông giải thích được

10

Trang 22

Trong phân tíchchuỗi thời gian, hàm tự tương quan đo lường mối quan hệ tương quangiữa một quan sát và các quan sát trước đó trong chuỗi thời gian Tuy nhiên, hàm tựtươngquan cóthể bị ảnh hưởngbởi các giátrị tương quan giữa các quan sát trung gian.Hàm tự tương quantừng phần giúp loại bỏ tác động này bằng cách tính toán tương quangiữa hai quan sát, không tính đến các quan sát nằm giữa chúng.

Hàm tự tương quan từng phần thường được sử dụng trong việc xác định mô hình chochuỗi thời gian, đặc biệt là khi áp dụng mô hình ARIMA Bằng cách này thì hàm tự tương quan từng phần giúp xác định số lượng các độ trễ (lags) cho các thành phần tự hồi quy của môhình ARIMA

2.1.3 Mô hình tự hoi quy - AR bậc p

Trong mô hình tự hồi quy, chúng ta dự báo biến quan tâm bằng cách sử dụng mộtkết hợp tuyến tính của các giá trị quá khứ của chính biến đó Thuật ngữ "tự hồi quy" chỉ đơn giản là chỉ rarằng biến được dự báo là chínhnó, tức là nó hồi quy hoặc phụ thuộcvào các giátrị của nó trong quá khứ Trong mô hình này, chúng ta sử dụng các giá trị quan sát được trướcđócủa biến đểdự đoán giá trị của biến tại các thời điểm trong tương lai

Do vậy, môhình tự hồi quybậc p có thể được viết như sau:

2.1.4 Mô hình trung bình trượt - MA bậc q

Môhìnhtrung bình trượt(MA) sử dụng các lỗi dựbáo trong quá khứ để dự đoán giá trị của biến quan tâm tại các thời điểm trong tương lai

Trang 23

Trong mô hình trung bình trượt, chúng ta tính trung bình động của các giá trị quan sát trước đó và sử dụng nó đểước lượng giá trị tiếp theo Thuật ngữ "trung bìnhtrượt" thể hiện cách chúng tadi chuyển qua dữ liệu và tính trung bình của các phần tử trong một cửa sổ thời gian nhất định, sau đó sử dụng trung bình này làm dự báo cho giá trị tiếp theo.

yt = c + £t + ỡ^! + ớ2et_2 + - + 0 e t _q (1.6) Trong đó: t : lànhiễu trắng (white noise) hay sai so

c: trung bìnhcủa chuỗi thời gian yt

ỡ r: hệ số ước lượng

Chúng tôigọi đây làmô hình trung bình trượtbậc q, được gọi là mô hình MA(q) Trong

môhình này, ta không thực sự quan sát các giátrị của £t (lỗi), màchỉ sử dụng chúng đểước lượng giátrị của biến trong tưonglai

Môhình trung bình trượt không phải làmộtsự hồi quy theonghĩathôngthường, nhưng

nó làmột kỹ thuật quan trọngtrong phân tíchchuỗi thời gian để dự báo các giá trị tiếp theo

2 ỉ 5 Sai phân - Intergrated I bậc d

Đểlàm cho một chuỗi thời gian trỏ nên dừng, chúngta thường thực hiện các phépbiếnđổi như lấy sai phân Lấy sai phân là quá trình tính toán sự khác biệtgiữa các quan sát liên tiếp trongchuỗithời gian Bằngcách này, chúngta có thể loại bỏ xu hướngvà tínhthời vụ từ chuỗi thời gian

Thêm vào đó, phép biến đổi như logarit cũng có thể giúp ổn định phương sai của chuỗi thời gian Bằng cách giảm phương sai, chúng ta có thể làm cho biến thể của chuỗi thờigian trởnên ít biến động hơn và dễ dàng đểthực hiện các phân tích và dự báo

Quá trình lấy sai phân:

- Sai phân bậc 1: 1(1) = A(xt) = Xt - Xt-1

- Sai phânbậc d: 1(d) = Ad(xt) = ỒÍỂ^ÉÍĨÉỈỈ

đ ỈJtHL6 s

12

Trang 24

2 ỉ 6 Mô hình trung bình trượt tích họp tự hổi quy - ARIMA(p,d,q)

Khi kết hợp sai phân với tự hồi quy và mô hình trung bình trượt [10], chúng ta sẽ thuđượcmô hìnhARIMA Mô hìnhARIMA hay còn gọi là mô hình trung bình trượttíchhợp tự hồi quy (trong ngữ cảnh này, tích hợp” là đảo ngược của sai phân) Mô hìnhđược biểu diễn:

y't = + Qiy't-1 +I- 6py' t_ p + Ớiốt-1 + —I- ỡq£t-q + £t (1*7)

Trong đó: y't: là chuỗi đã lấy sai phân ( nó cóthể đã được lấy sai phần nhiều hon 1 lần)Các“bộ dự đoán”ỏphíabên phải bao gồm cả giátrị trễcủayt và lỗi trễ Chúng tôi gọi đây là mô hình ARIM(p,d,q) Với:

• p: bậc củaphần tự hồi quy

• d: bậc của sai phân

• q: bậc của mô hình trung bìnhtrượt

Các điều kiện dừng và khả năng nghịch đảo tưong tự được sử dụng cho các mô hìnhtrung bình độngvà tự hồi quy cũng áp dụngchomô hình ARIMA

Nhiều mô hình chúngta đãthảo luận làtrường hợp đặc biệt của mô hìnhARIMA,như bảng dưới đây:

Bảng 2.1 Các trường hợp đặc biệt của môhình ARIMA

Di động ngẫu nhiên ARIMA(0,l,0) không có hằng số

Bình phưong nhỏnhất ARIMA(0,l,0) có 1 hằng số

Trang 25

2.2 Xây dụng mô hình ARIMA

2.2.1 Nhận dạng mô hình

Để nhận dạng mô hình ARMA(p,q), ta cần xác định các giá trị thích hợp chocác hệ số

pvà q, trong đó p là bậctự hồi quyvà qlàbậctrung bình trượt Quá trình nàyphụ thuộcvào đồ thị hàm tự tương quan (ACF) và hàm tự hồi quytừng phần (PACF)

Chọn mô hình AR(p): Neu đồ thị PACF có giátrị cao tại các độ trễ 1, 2, ,p và giảmđángkể sau đó, đồng thời ACF giảm dần, chúngtacó thể chọn mô hình AR(p)

Chọn mô hình MA(q): Neu đồ thị ACF có giá trị cao tại các độ trễ 1, 2, ,q và giảm đángkể sau đó, vàđồng thời PACF giảm dần, chúng ta cóthể chọn mô hình MA(q)

Mô hình ARIMA chỉ áp dụng được cho chuỗi dừng Neu chuỗi không dừng, ta cần chuyển đổi nó thành chuỗi dừng trước khi ước lượng tham số Thông thường, việc lấysai phân một hoặc nhiều lần (bậc d=0, 1, 2, 3) có thể tạo ra một chuỗi có tính dừng.Trong trường hợp biến đổi này khôngthành công, các phưong pháp biến đổi khác nhưchuyển đổi logarithm cóthể được áp dụng

2.2.2 ưức lượng thông so

Sau khi xác định được bậc của mô hình ARIMA, quá trình tiếp theo là ước lượng cácthông số của mô hình Quá trình này thường là một quá trình thực nghiệm và thường được thực hiện thông qua phương pháp bình phương nhỏ nhất, cụ thể là phương phápMaximum Likelihood, để tìm ra mô hình tốtnhất cho việc dự báo

Các thông số của mô hình ARIMA thường được ước lượngthông quanhiều phần mềm khác nhau như Eviews, SPSS, R, và nhiều phần mềm thống kê và dự báo khác Mỗiphần mềm có cách thực hiện vàcách ước lượng thông số của mô hình một cách riêngbiệt, nhưng mục tiêu cuối cùng là tìm ra một mô hình ARIMA phù hợp và chính xác nhất chotình huống cụ thể

14

Ngày đăng: 07/05/2024, 19:02

HÌNH ẢNH LIÊN QUAN

Hình  2.1 Cửa  sổ  Workfile Có  3  dạng  cấu trúc chính của  Workfile: - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 2.1 Cửa sổ Workfile Có 3 dạng cấu trúc chính của Workfile: (Trang 28)
Hình 2.2  Nhập dữ  liệu  vào  phầm  mềm E views - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 2.2 Nhập dữ liệu vào phầm mềm E views (Trang 29)
Hình 2.3 Biểu đồ hàm tự tương quan, tự tương quan từng phần - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 2.3 Biểu đồ hàm tự tương quan, tự tương quan từng phần (Trang 30)
Hình  2.4  Kết  quả quá  trình  uớc luọng - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 2.4 Kết quả quá trình uớc luọng (Trang 31)
Hình  2.5 Biểu  đồ  thể hiện hàm tự tưong  quan,  tụ  tương  quan từng  phần  của phần  du - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 2.5 Biểu đồ thể hiện hàm tự tưong quan, tụ tương quan từng phần của phần du (Trang 32)
Hình  2.6  Lựa  chọn  yêu  cầu phù họp  cho  dự  báo - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 2.6 Lựa chọn yêu cầu phù họp cho dự báo (Trang 33)
Bảng  3.1 Số liệu  sinh  viên  tốt nghiệp qua  từng  năm - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
ng 3.1 Số liệu sinh viên tốt nghiệp qua từng năm (Trang 34)
Hình  3.1  Biểu đồ  biến động số lượng  tốt nghiệp  từ năm 2007-2022 - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 3.1 Biểu đồ biến động số lượng tốt nghiệp từ năm 2007-2022 (Trang 35)
Hình 3.2 Biểu đồ chuỗi dùng khi  lấy  sai phân  bậc 1 - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 3.2 Biểu đồ chuỗi dùng khi lấy sai phân bậc 1 (Trang 36)
Bảng 3.1 Kiểm định tính dùng tại  sai  phân  bậc  1 - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Bảng 3.1 Kiểm định tính dùng tại sai phân bậc 1 (Trang 36)
Hình 3.3  Biểu  đồ  tự tương quan (ACF),  biểu đồ tự  tương quan  riêng  từng  phần  (PACF)  và giá  trị  p-value  tương  ứng - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 3.3 Biểu đồ tự tương quan (ACF), biểu đồ tự tương quan riêng từng phần (PACF) và giá trị p-value tương ứng (Trang 37)
Hình  3.4  ước lượng  mô hình  ARIMA (8,1,1) Thu  được  kết quả nhu  sau: - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 3.4 ước lượng mô hình ARIMA (8,1,1) Thu được kết quả nhu sau: (Trang 38)
Hình 3.5  Kết  quả  thu đuợc  qua  mô  hình  ARIMA (8,1,1) - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 3.5 Kết quả thu đuợc qua mô hình ARIMA (8,1,1) (Trang 39)
Bảng 3.2 Bảng  giá  tương ứng  từng  mô hình - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Bảng 3.2 Bảng giá tương ứng từng mô hình (Trang 40)
Hình 3.6 Kiểm tra  phần dư có nhiễu  trắng  ARIMA (8,1,1) - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 3.6 Kiểm tra phần dư có nhiễu trắng ARIMA (8,1,1) (Trang 41)
Hình  3.7  Nghiệm  nghịch đảo quá  trình AR  và MA - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 3.7 Nghiệm nghịch đảo quá trình AR và MA (Trang 42)
Hình  3.8  Đồ thị  biểu  diễn  nghiệm của  quá  trình AR và  MA - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 3.8 Đồ thị biểu diễn nghiệm của quá trình AR và MA (Trang 43)
Hình 3.9  Dự  báo - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
Hình 3.9 Dự báo (Trang 44)
Hình  3.11 Biểu đồ dự  báo  số lượng  sinh  viên  tốt nghiệp  năm 2023 - nghiên cứu mô hình arima trong dự báo tỉ lệ sinh viên tốt nghiệp
nh 3.11 Biểu đồ dự báo số lượng sinh viên tốt nghiệp năm 2023 (Trang 46)