Phương pháp dự báo theo chuỗi thời gian là một trong những phương pháp định lượng phổ biến, trongđó chuỗi quan sát được dựa trên một biến duy nhấttheo thời gian.Phương pháp chuỗi thời gi
Trang 1BỘ CÔNGTHƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHÓ HÒ CHÍ MINH
NGUYỄN QUANG HUY
Trang 2Công trình được hoàn thànhtại Trường Đại học Công nghiệp TP Hồ Chí Minh.
Người hướng dẫn khoahọc: TS Đoàn Văn Thắng
Luận vănthạc sỹ được bảo vệ tại Hội đồng chấm bảo vệ Luận văn thạc sỹ Trường Đại học Công nghiệp TP Hồ Chí Minh: ngày tháng năm
Thành phần Hội đồng đánh giáluận văn thạc sỹgồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ ỉuận văn thạc Sĩ)
Trang 3BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỘI CHỦ NGHĨAVIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự do - Hạnh phúc
THÀNH PHỐ HÒ CHÍ MINH
NHIỆM VỤ LUẬN VĂN THẠC sĩ
L TÊN ĐÈ TÀI:
Nghiên cứu mô hình ARIMA trong dự báo tỉ lệ sinh viên tốt nghiệp
NHIỆM VỤ VÀ NỘI DUNG:
Nhiệm vụ: Dựa trên dữ liệu số lượng sinh viên tốt nghiệp trong quá khứ kết hợp ứng dụng mô hình ARIMA dự đoán số lượng sinh viên tốt nghiệp trong tương lai.
Nội dung: phân tích dữ liệu số lượng sinh viên đã tốt nghiệp Nghiên cứu và xây dựng, kiểm thử mô hình ARIMA phù hợp cho dự đoán Dựa trên dữ liệu sinh viên tốt nghiệp tiến hành dự
dự đoán cho năm tiếp theo và tiến hành đánh giá mức độ hiệu quả của mô hình.
II NGÀY GIAO ĐỀ TÀI: 25/05/2023
III NGÀY HOÀN ĐÈ TÀI: 25/11/2023
IV NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Đoàn Văn Thắng
NGƯỜI HƯỚNG DẪN
Tp Hồ Chí Minh, ngày tháng năm 20
CHỦ NHIỆM Bộ MÔN ĐÀO TẠO
TRƯỞNG KHOA KHOA CNTT
(Họ tên và chữ ký
Trang 4LỜI CẢM ƠN
Tôi bày tỏ lòng biết ơn sâu sắc đến thầy TS Đoàn Văn Thắng đãhướng dẫn, hỗtrợtậntâm suốt quá trình thực hiện luận văn Cảmơn lãnh đạoNhàtrường đã tạođiều kiện tốt
để cá nhân tôi, cùng học viên khác hoàn thành luậnvăn
Tôi gửi lời cảm ơn đến bạn bè, đồng nghiệp, người thân, gia đình đã ủng hộ và động viên tôi duy trì sự kiên nhẫn trong quá trình thực hiện luận văn này
Mặc dù luận văn đã được hoànthành, nhưng nhận thấy vẫn còn mộtsố hạn chế, vì vậy tôi rất mong nhận được sự đóng góp để chỉnh sửa, bổ sung và hoàn thiện hơn
Xin chân thành cảm ơn
Trang 5TÓM TẤT LUẬN VĂN
ARIMA làmột trong những mô hình đã và đang được sử dụng ngày càng rộngrãi trong lĩnh vực phân tích dữ liệu nhằm mục đích đưara những dự báo cho tương lai Luận văn này thực hiện nhằm mục đích giới thiệu một cách cụthể và chi tiết về môhình ARIMA
và ứng dụng thựctế trong việc dự báo tươnglai từ các dữ liệu trong quá khứ
Trong luận văn này,tập trung vàonghiên cứu: (1) Lý thuyết của dữ liệu chuỗithời gian cùng các mô hình dựbáo hồi quy, (2) Lýthuyết mô hình ARIMAvà (3) Giới thiệu phần mem Eviews Song song với việc nghiên cứu lý thuyết,luận văn cũng tiếnhành ápdụng
mô hình vào thựctế với tập dữ liệu được thu thập từ đơn vị giáo dụctại thành phố HồChí Minh
Đánh giá, dự báo và đưa kết luận từ việc nghiên cứu với tập dữ liệu hiện có Kết quảnày sẽ là mộttrong những tư liệu tham khảo có ích cho các đơn vị hay tổ chức có nhu cầu về dự báo tương lai bằng việc phân tích dữ liệu chuỗi thời gian
Trang 6ARIMA is a model that has been widely used in data analytic to make predictions for the future Thisthesisis written in detail for an introductorypurpose about the ARIMA model and its usage in giving futureinformation based on historical data
In thisthesis, the author is going to concentrate on research: (1) Theory of time seriesdata and regression forecast model, (2) Theory of ARIMA model, and(3) Eviews software introduction Along with theoretical study, practical application is alsoapplied to the datafile collected from the educational unit in HoChi Minh City.Assessment, prediction, and conclusion are based on analysis based on available data files This thesis will be one of the references for units or organizations that need to make predictions based on time series date analytic
Trang 7LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của cá nhân tôi và giảng viên hướngdẫn Kết quả nghiên cứu, kết luậntrong luận văn là trungthực,khôngsao chép từnguồnkhác dưới mọi hình thức Thựchiện trích dẫn, dẫn nguồn tài liệu tham khảo đúng theoquy định
Học viên
Nguyễn Quang Huy
iv
Trang 8MỤC LỤC
MỞ ĐẦU 1
1 Đặtvan đề 1
2 Mụctiêu nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 3
4 Cách tiếp cận và phương pháp nghiên cứu 3
4.1 Cách tiếp cận 3
4.2 Phương phápnghiên cứu 3
5 Ýnghĩathực tiễn đề tài 4
6 Phạm vi và giới hạn đề tài 4
7 Cấu trúc luận văn 4
CHƯƠNG 1 CÁC MÔ HÌNH DựBÁO TRONG PHÂN TÍCH DỮ LIỆU 5
1.1 Chuỗi thời gian (Time Series) 5
1.2 Mô hình hồi quy đơn 6
1.3 Mô hình hồi quybội 8
CHƯƠNG 2 MÔ HÌNHARIMA - GIỚI THIỆU VÈ PHẨN MỀM EVIEWS 9
2.1 Mô hình ARIMA 9
2.2 Xây dựng mô hình ARIMA 14
2.3 Giới thiệu phần mem Eviews 15
CHƯƠNG 3 ÁP dụng môhình ARIMAtrong Dự BÁO TỈ LỆ SINH VIÊN TỐT NGHIỆP 23
3.1 Thu thập dữ liệu 23
3.2 Kết quả xâydựng mô hình 23
3.3 Đánh giá và nhận xét kết quả thựcnghiệm 35
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 37
DANH MỤC CÔNG TRÌNH ĐẪ CÔNG BỐ CỦA HỌC VIÊN 38
LÝLỊCH TRÍCH NGANG CỦA HỌCVIÊN 40
Trang 9DANH MỤC HÌNH ẢNH
Hình 1.1 Mộtví dụ mô hình hồi quy tuyến tính [7] 7
Hình 2.1 Cửasổ Workfile 17
Hình 2.2 Nhập dữ liệu vào phầm mem Eviews 18
Hình 2.3 Biểu đồ hàm tự tương quan, tự tương quan từngphần 19
Hình 2.4 Kết quảquá trình ước lượng 20
Hình 2.5 Biểu đồthể hiện hàm tự tưong quan, tự tưong quan từng phần của phần dư 21 Hình 2.6 Lựa chọn yêu cầu phù hợp chodự báo 22
Hình 3.1 Biểu đồ biến động số lượng tốt nghiệp từ năm 2007-2022 24
Hình 3.2 Biểu đồ chuỗidừng khi lấy sai phân bậc 1 25
Hình 3.3 Biểu đồ tự tưong quan (ACF),biểu đồ tự tưong quan riêng từng phần (PACF) và giá trị p-value tưong ứng 26
Hình 3.4 Ước lượng mô hình ARIMA (8,1,1) 27
Hình 3.5 Kết quả thu được quamô hình ARIMA (8,1,1) 28
Hình 3.6 Kiểm traphần dưcó nhiễu trắng ARIMA (8,1,1) 30
Hình 3.7 Nghiệm nghịch đảo quá trìnhAR và MA 31
Hình 3.8 Đồ thị biểu diễn nghiệm củaquá trình AR và MA 32
Hình 3.9 Dự báo 33
Hình 3.10 Kết quả bảngthống kê theo dự báo 34
Hình 3.11 Biểu đồ dựbáo số lượng sinh viên tốt nghiệp năm 2023 35
vi
Trang 10DANH MỤC BẢNG BIỂU
Bảng 2.1 Các trường hợp đặc biệt của mô hình ARIMA 13Bảng 3.1 Số liệu sinh viên tốt nghiệp qua từng năm 23Bảng 3.2 Bảng giá tương ứng từng mô hình 29
Trang 11DANH MỤC TỪ VIẾT TẤT
Ký hiệu chữ
viết tắt
ACF Auto Correlation Fucntion Hàm tự tương quan
ARIMA Autoregressive Intergrated Moving
Average
Tự hồi quy tích hợp trungbình trượt
ARMA Autoregressive Moving Average Tự hồi quy trung bình trượt
PACF Partial Auto Correlation Function Hàm tự tương quan từng
phân
viii
Trang 12MỞ ĐẦU
1 Đặt vấn đề
Dự báo làcông việc ngày càng cần thiết trong thời điểm hiện tại Kết quả việc dự báo
sẽ cung cấp những thông tincầnthiết chocác kếhoạch và cóthể khẳng địnhnếu không
có nhữngdự báo thì các hoạch định sẽ không có sự tin cậy cao
Trong [1] [2], kỹ thuật dự báo đã rađời rất lâu vào khoảng thế kỉ 19, tuy nhiên vai trò của dựbáo ngày càng mạnh mẽ kể từ khi công nghệ thông tin ngày càng pháttriểnbởibản chất việc mô hình hóa các phương pháp dự báo lại cần đến sự hỗ trợ giúp sứccủacông cụ máy tính Cho tới những năm của thập niên 50, thì các lý thuyết về dựbáo, cácphương pháp luận mới được xây dựng, pháttriển một cách có hệ thống
Trong công việc phân tích dự báo, việc thu thập thông tin đadạng về lĩnh vực dự báo
làmột trong những mục tiêu quan trọng nhất Thông tin này cóthể được phân chia thành
ba phần chính: dữ liệu quákhứ của lĩnh vực dự báo, hiện trạng và diễn biến phát triển của lĩnh vực đó, cùngvới đánh giá chi tiết về các yếu tố ảnh hưởng,bao gồm cảyếu tố định tính vàđịnh lượng
Thực tế, các phương pháp dự báo thường được phân loại thành hai loại chính: phươngpháp định tính và phương pháp định lượng Phương pháp định tính phụ thuộc chủ yếu vào kinh nghiệm của các chuyên gia trong lĩnh vựctương ứng và kết quả của phươngpháp nàythường cần sự đánh giá từnhiều chuyên gia khác nhau
Phương pháp định lượng, ngược lại, sửdụng dữ liệuquá khứđể xác định xu hướng phát triển của đốitượngvà xây dựng môhìnhtoán học dựa trên dữ liệu đó Phương pháp dự báo theo chuỗi thời gian là một trong những phương pháp định lượng phổ biến, trong
đó chuỗi quan sát được dựa trên một biến duy nhấttheo thời gian
Phương pháp chuỗi thời gian giả định rằng xu hướng phát triển của biến số dự báo sẽ tiếp tục giữnguyên trongquá khứ và thời điểm hiện tại,từ đó dùng để dự báotương lai.Bài luận văn này đang nghiên cứu mô hình ARIMAnhằm thực hiện phân tích dữ liệusinh viên tốtnghiệp và tiến hành dự báo lượng sinh viên tốt nghiệp Mô hình ARIMA(AutoRegressive Integrate Moving Average) được đề nghị vào năm 1976 bởi Box-
Trang 13Jenkins [3], dựa trên môhình tự hồi quy AR và mô hình trung bình trượtMA Mô hìnhARIMA dự báo định lượngtheo thời gian, vớixu thế vận độngcủa đối tượng trong quákhứ sẽ quyết định giátrị tưong laicủa biến số dựbáo Từcác dữ liệu quan sát được, môhình ARIMA sẽ phân tích tính tưong quan giữachúng để đưa ra mô hình dự báo quacác giađoạn nhận dạng,ướclượngtham số và kiểm tra chúng nhằm tìm ra mô hìnhphù họp.
Ngày nay, dự báo chuỗi thời gian được ứngdụng trên nhiều lĩnh vực: dự báo nhiệt độ, lượng mưa,dự báo giá cổ phiếu chứng khoán, dự báo lạm phát,
Bài luận văn nghiên cứu mô hình chuỗi thời gian theo phưong pháp trung bình trượt tích hợp tự hồi quy ARIMA để dự báo tỉ lệ sinh viên tốt nghiệp cho cácnăm tiếp theonhằm mục đích trợ giúp các nhà quản lý và các bên liên quan đưara những chính sách phù hợp
2 Mục tiêu nghiên cứu
Xây dựng môhình ARIMA dự đoánbiến động số lượng sinh viên tốt nghiệp tăng hoặcgiảm cho các năm tiếptheo trong tưong lai
- Tìm hiểu chuỗi thời gian
- Tìm hiểu mô hình ARIMA
- Xây dựng mô hình dự đoán
2
Trang 143 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: dữ liệu lịch sử số lượng tốt nghiệp của đơn vị qua các nămPhạm vi nghiên cứu:
• Không gian: Trường Đại Học Công Nghiệp TP HCM
• Bộ dữ liệu dữ liệu sinh viêntốt nghiệptheo từng năm từ năm 2007 đếnnăm 2022) của khoa CNTT Trường Đại Học Công NghiệpTP HCM
• Nội dung: phân tích chuỗi dữ liệu thời giantrongquá khứ, dựbáo số lượng sinh viêntốt nghiệpcho các năm tiếptheo
4 Cách tiếp cận và phương pháp nghiên cứu
4.1 Cách tiếp cận
Tập trung khai thác các kết quả đánh giá thực nghiệm và kết quả nghiên cứu lý luậntrước đây về mô hình ARIMA; các phân tích, đánh giá liên quan về tính khả thi, hiệuquả của mô hình
Nghiên cứu lý thuyết và các ứng dụng của mô hình ARIMA trong việc dự báo thôngqua cácdữ liệu trong quá khứ
4.2 Phương pháp nghiên cứu
Phương pháp nghiên cứu tổng luận: Nghiên cứu tổng hợp về mặt lý luận về: chuỗi thờigian (Time Series) và các khái niệm có liên quan; mô hình ARIMA, các khái niệm liênquan và ứngdụng thựctế,
Trên cơ sở lý thuyết đãnghiên cứu, tiến hành thực nghiệm dự báo tuyển sinh sử dụng
môhình ARIMA
Phươngpháp mô phỏng: Sử dụng phần mềm Eviewsđể xây dựng mô hình nhằm dự báo tuyển sinh trong tương laicủa đơn vị Môitrường thực nghiệm được tiến hành trên máytính xác tay Lenovo có cấu hình CPU Intel core Ĩ5-9780H, RAM 16GB và sử dụng hệđiềuhành Windows 10 Dữ liệu thực nghiệm là các dữ liệu tuyển sinh của đơn vị từ quákhứ các năm trước
Trang 155 Ý nghĩa thực tiễn đề tài
Hiểu được mô hình ARIMA và ứng dụng của nó trong dự báo các kết quả tương lai
MôhìnhARIMA lí giải đượccác biến độngcủachuỗi thời gian thông qua các quan hệvới các giátrị quá khứ Môhình cũng được ứngdụng một cách minh họanhằm dự báo biến động sinh viên tốt nghiệp tăng hoặc giảm cho các năm tiếp theo của một đơn vịgiáo dục
6 Phạm vi và giới hạn đề tài
Phạm vi thực hiện là tậpdữ liệu củatrườngđại học Công NghiệpTP Hồ Chí Minhtrongvòng 16 năm (từ năm 2007 đến năm 2022)
Đề tài tiến hành thực hiện dựa trên phương pháp dùng mô hình ARIMA để phân tích
dữ liệu chuỗi thời gian
7 Cấu trúc luận văn
- Mở đầu
- Phần lý thuyết
- Chương 1: Cácmô hình dựbáotrong phân tích dữ liệu
- Chương 2: MôhìnhARIMA- Phan mem Eviews
- Chương3: Ảp dụng mô hình ARIMA trong dự báo tỉ lệ sinh viên tốt nghiệp
- Kết luận
4
Trang 16CHƯƠNG 1 CÁC MÔ HÌNH Dự BÁO TRONG PHÂN TÍCH DỮ LIỆU
1.1 Chuỗi thòi gian (Time Series)
1.1.2 Đặc trưng chuôi th ời gian
Từ [4] [5] [6], các thành phần đặctrưng của chuỗi dữ liệu thời gian:
• Tính xu hướng (Trend): Đây là thành phần trong phân tíchchuỗi thời gian cho thấy
xu hướngchung của dữ liệu trong một khoảng thời gian dài Xu hướng có thể là tăngdần, giảm dần hoặc ổn định Thành phần này giúp chúng ta hiểu được hướng diễn biến tổng thể của dữ liệu và cung cấp thông tin về sự thay đổi dài hạn củabiến số
đó Ví dụ, tronglĩnh vực kinh tế, sựlạm phát thường làm tănggiá cả trung bình theothòi gian, thể hiện mộtxu hướng tăng
• Tính mùavụ (Seasonality): thành phần chỉ ra những biến đổi tăng hoặc giảm có sựlặp đi lặp lại một cách đều đặncủa dữliệu trong một khoảngthời gian xác định (vídụ: số ngày thứ Hai mỗitháng hoặc các ngày lễ thay đổitheo mỗi năm, )
• Tính chu kỳ(Cyclicity): thành này nókhác yếu tố mùavụ ỏ chỗ thành phần này có
sự biếnđộng trong khoảng thời gian dài hơn và không xác định trong nhiều năm, cótính chất lặpcủa dữ liệu theo thời gian
• Yeu tố bất thường (Irregularity), hay còn được gọi là nhiễu trắng (white noise), là thành phần cuối cùng của phân tích chuỗi thời gian Sau khi đã loại bỏ các thành phần khác như xu hướng, mùavụ và chu kỳ,yếu tố này thể hiệncác biến động ngẫu nhiên của dữ liệu mà không có một quy luậthay mô hìnhcụ thể
Trang 17- Khi dự báo trên tậpdữ liệu gốc, một đường biểu diễnkhông ổn định và khó dự đoán
có thể xuất hiện Trong trường hợpnày, chúng ta cần chọn các thành phần con củachuỗi dữ liệu mà có tính quy luật và xu hướng vận động cụ thể hon Sau đó, chúng
takết hợp lại những thànhphần này để tạo ra dự báo chính xác hơn Với Cyclicity, đây làxu hướng biến động trong một khoảng thời gian dài Tuynhiên, do dữ liệu cóthể không đủ lớn hoặc không đủ độ ổn định để xác định một cách chính xác Cyclicity, chúng ta thường chỉ tậptrung vào các thành phần còn lại, bao gồm Trend,Seasonality và Irregularity
1.2 Mô hình hồi quy đon
Mô hình hồi quy tuyến tỉnh cổ điển (Linear Regression)
Trong các trường hợp đơn giản,mô hình hồi quy chophép mối quan hệtuyến tínhgiữa biến dự báoy và một biến dự đoánX
Các hệ số povà pl lần lượtbiểu thị điểm chặn và độ dốc của đường thẳng Điểm chặn
po biểu thị giátrị dựbáo của ykhi x=0 Độ dốc pl biểu thị sựthay đổi trung bình được
dự đoán trong y do X tăng một đơn vị
6
Trang 1860-Hìnli 1.1 Một vídụ mô hìnhhồi quy tuyến tính [7]
Chú ý: các quan sát không nằm trên đường thẳng mà được phân bố ngẫu nhiên xungquanh nó Mỗi quan sát có thể được hiểu như sự kết họp giữa phần hệ thống hoặc phần giải thích của mô hình, po + px, và "lỗi" ngẫu nhiên, st Thuật ngữ "lỗi" không chỉđon thuần là một sai số mà thựcchấtlà sự sailệchso với mô hình đường thẳng cơ bản Điềunày bao gồm tất cả cácyếu tố cóthể ảnh hưởng đếngiá trị yt ngoài giátrị dự đoán từxt
Phương pháp bỉnh phương nhỏ nhất (OLS - Ordinary Least Squares)
Phương pháp bìnhphương nhỏnhất cung cấpmột cách chọn hệ số hiệu quả bằng việc giảm thiểu tổng các sai số bình phương Nghĩa là ta chọn các giá trị po, pl, , pk saocho cực tiểu hóa
£Ỉ=1 ft — sĩ=i(yt - P q - Pixi,t — p2x2,t — Pkxk,ty (1-2)
Đây được gọi là ước lượng bình phương tối thiểu vì nó mang lại giá trị nhỏ nhất chotổng các sai sốbình phương Việctìm ra ước tính tốtnhất cho các hệ số thường được gọi là “fitting” mô hình với dữ liệu, hoặc đôi khilà“learning” hoặc “training” môhình
Trang 191.3 Mô hình hồi quy bội
Mô hình hồi quy tuyển tính đa bội (Multiple linear regression)
Khi có hai hoặc nhiều biến dự đoán, mô hình được gọi là mô hình hồi quy đa bội Dạngtổng quát:
yt - Pữ + P1XU + f>2x2,t + —I- Pkxk,t + £t (1.3)
Trong đó y là biến dự báo và%!, , xk là k biến dự báo Mỗi biến dự đoán phải là số Các hệ số pl, ,pk đolườngtác động của từng yếu tố dự đoán sau khitính đến tác động của tấtcả các yếu tốdự đoán kháctrong mô hình
8
Trang 20CHƯƠNG 2 MÔ HÌNH ARIMA - GIỚI THIỆU VỀ PHẢN MỀM EVIEWS
2.1 Mô hình ARIMA
Hai nhà toán học người Mỹ (George Box và Gwilym Jenkins) đã nghiên cứu mô hình
tự hồi quytích hợptrung bình trượt(Autoregressive Integrated Moving Average) đượcviếttắt ARIMAvà mô hình này được phổ biến trong quyển sách “Time Series Analysis- Forecasting And Control “củahọ năm 1976 về sau, tên họ được đặt (Box-Jenkins) đểgọi tên các quátrình ARIMA tổngquát, áp dụng vào việc phân tíchvà dự báo các chuỗi thời gian [8]
Môhình ARIMA cung cấp một cáchtiếpcận khác để dự báochuỗi thời gian Làm mịn hàm mũ và mô hình ARIMA là hai phương pháp được sử dụng nhiều nhất để dự báo chuỗi thòi gian và đưara các phưong pháp bổ sung cho vấn đề Trongkhi các mô hìnhlàm mịn hàm mũ dựa trên mô tả xu hướng và tính thời vụ trong dữ liệu, các mô hìnhARIMA nhằm mục đích mô tả các mối tưong quantự động trong dữ liệu
Theo [3] [9], bản chất ARIMA làtổng hợp của các môhình: Mô hìnhtự hồi quy (AR),
môhìnhtích hợp (I) và mô hình trung bình trượt(MA) với chuỗi dữ liệu được sử dụng
để nghiên cứu phải có tínhdừng
Tính dừng của chuỗi thời gian
Một chuỗi thời gian được coi là chuỗi dừng khi nó thỏa mãn các đặc tính không phụ thuộcvào thời điểmquan sát Điều này cónghĩa là giátrị của chuỗi không thay đổi theothời gian và không có sự biến động tự nhiên hay xu hướng rõ ràng
Trong trường hợp củachuỗi thời gian có xu hướng hoặc tính thời vụ, các giátrị trongchuỗi sẽ phụ thuộc vào thời gian vàsẽ thay đổi theo các mẫu và mùa vụ Do đó, những chuỗi nàythường không được coi là dừng
Mặc khác, một chuỗi nhiễu có tính dừng sẽ không thể phân biệt được ở bất kỳ thời điểmnào Điều này có nghĩalà không có sự biến đổi định kỳ hoặc xu hướng nào được quansát và các giátrị trong chuỗi được xem xét làổn định qua thời gian
Trang 212.1.1 Hàm tự tương quan - A CF
Theo [7], hàm tự tương quan có thể được sử dụng cho các mục đích:
- Đe phát hiện tính không ngẫu nhiên trong dữ liệu
- Để xác định môhình chuỗi thời gian phù hợptrongtrường hợp dữ liệu không có tínhngẫu nhiên
Cho các phép đo: Kp y2, , Y N tại thời điểm xr ,x2, ■■■ ,XN, độ trễ k hàm tự tương quanđược định nghĩa như sau:
Trường hợp tự tương quan được sử dụng để phát hiện tính không ngẫu nhiên thì nó thường chỉ có hiện tượngtự tương quan ở lần đầu tiên (hay độtrễ 1) Khi tựtương quanđược sử dụng đểxác định mô hìnhchuỗi thời gian thích hợp, sự tự tương quan thường được biểu diễn dạng biểu đồ cho nhiều độ trễ
2.1.2 Hàm tự tương quan từng phần - PACF
Hàm tự tương quan từng phần là một công cụ trong phân tích chuỗi thời gian để xác định mức độ tương quan giữacác giátrị trong chuỗi thời gian vàcác giá trị trong một khoảngthời gian cố định sau khi loại bỏ tác động của các giátrị nằm giữa chúng.Hàm tự tương quan từng phần tương tự như hàm tự tương quan ngoại trừ việc nó chỉ hiển thị mối tương quan giữa hai quan sát mà độ trễ ngắn hơn giữa các quan sát đókhông giải thích được
10
Trang 22Trong phân tíchchuỗi thời gian, hàm tự tương quan đo lường mối quan hệ tương quangiữa một quan sát và các quan sát trước đó trong chuỗi thời gian Tuy nhiên, hàm tựtươngquan cóthể bị ảnh hưởngbởi các giátrị tương quan giữa các quan sát trung gian.Hàm tự tương quantừng phần giúp loại bỏ tác động này bằng cách tính toán tương quangiữa hai quan sát, không tính đến các quan sát nằm giữa chúng.
Hàm tự tương quan từng phần thường được sử dụng trong việc xác định mô hình chochuỗi thời gian, đặc biệt là khi áp dụng mô hình ARIMA Bằng cách này thì hàm tự tương quan từng phần giúp xác định số lượng các độ trễ (lags) cho các thành phần tự hồi quy của môhình ARIMA
2.1.3 Mô hình tự hoi quy - AR bậc p
Trong mô hình tự hồi quy, chúng ta dự báo biến quan tâm bằng cách sử dụng mộtkết hợp tuyến tính của các giá trị quá khứ của chính biến đó Thuật ngữ "tự hồi quy" chỉ đơn giản là chỉ rarằng biến được dự báo là chínhnó, tức là nó hồi quy hoặc phụ thuộcvào các giátrị của nó trong quá khứ Trong mô hình này, chúng ta sử dụng các giá trị quan sát được trướcđócủa biến đểdự đoán giá trị của biến tại các thời điểm trong tương lai
Do vậy, môhình tự hồi quybậc p có thể được viết như sau:
2.1.4 Mô hình trung bình trượt - MA bậc q
Môhìnhtrung bình trượt(MA) sử dụng các lỗi dựbáo trong quá khứ để dự đoán giá trị của biến quan tâm tại các thời điểm trong tương lai
Trang 23Trong mô hình trung bình trượt, chúng ta tính trung bình động của các giá trị quan sát trước đó và sử dụng nó đểước lượng giá trị tiếp theo Thuật ngữ "trung bìnhtrượt" thể hiện cách chúng tadi chuyển qua dữ liệu và tính trung bình của các phần tử trong một cửa sổ thời gian nhất định, sau đó sử dụng trung bình này làm dự báo cho giá trị tiếp theo.
yt = c + £t + ỡ^! + ớ2et_2 + - + 0 e t _q (1.6) Trong đó: t : lànhiễu trắng (white noise) hay sai so
c: trung bìnhcủa chuỗi thời gian yt
ỡ r: hệ số ước lượng
Chúng tôigọi đây làmô hình trung bình trượtbậc q, được gọi là mô hình MA(q) Trong
môhình này, ta không thực sự quan sát các giátrị của £t (lỗi), màchỉ sử dụng chúng đểước lượng giátrị của biến trong tưonglai
Môhình trung bình trượt không phải làmộtsự hồi quy theonghĩathôngthường, nhưng
nó làmột kỹ thuật quan trọngtrong phân tíchchuỗi thời gian để dự báo các giá trị tiếp theo
2 ỉ 5 Sai phân - Intergrated I bậc d
Đểlàm cho một chuỗi thời gian trỏ nên dừng, chúngta thường thực hiện các phépbiếnđổi như lấy sai phân Lấy sai phân là quá trình tính toán sự khác biệtgiữa các quan sát liên tiếp trongchuỗithời gian Bằngcách này, chúngta có thể loại bỏ xu hướngvà tínhthời vụ từ chuỗi thời gian
Thêm vào đó, phép biến đổi như logarit cũng có thể giúp ổn định phương sai của chuỗi thời gian Bằng cách giảm phương sai, chúng ta có thể làm cho biến thể của chuỗi thờigian trởnên ít biến động hơn và dễ dàng đểthực hiện các phân tích và dự báo
Quá trình lấy sai phân:
- Sai phân bậc 1: 1(1) = A(xt) = Xt - Xt-1
- Sai phânbậc d: 1(d) = Ad(xt) = ỒÍỂ^ÉÍĨÉỈỈ
đ ỈJtHL6 s
12
Trang 242 ỉ 6 Mô hình trung bình trượt tích họp tự hổi quy - ARIMA(p,d,q)
Khi kết hợp sai phân với tự hồi quy và mô hình trung bình trượt [10], chúng ta sẽ thuđượcmô hìnhARIMA Mô hìnhARIMA hay còn gọi là mô hình trung bình trượttíchhợp tự hồi quy (trong ngữ cảnh này, tích hợp” là đảo ngược của sai phân) Mô hìnhđược biểu diễn:
y't = + Qiy't-1 + —I- 6py' t_ p + Ớiốt-1 + —I- ỡq£t-q + £t (1*7)
Trong đó: y't: là chuỗi đã lấy sai phân ( nó cóthể đã được lấy sai phần nhiều hon 1 lần)Các“bộ dự đoán”ỏphíabên phải bao gồm cả giátrị trễcủayt và lỗi trễ Chúng tôi gọi đây là mô hình ARIM(p,d,q) Với:
• p: bậc củaphần tự hồi quy
• d: bậc của sai phân
• q: bậc của mô hình trung bìnhtrượt
Các điều kiện dừng và khả năng nghịch đảo tưong tự được sử dụng cho các mô hìnhtrung bình độngvà tự hồi quy cũng áp dụngchomô hình ARIMA
Nhiều mô hình chúngta đãthảo luận làtrường hợp đặc biệt của mô hìnhARIMA,như bảng dưới đây:
Bảng 2.1 Các trường hợp đặc biệt của môhình ARIMA
Di động ngẫu nhiên ARIMA(0,l,0) không có hằng số
Bình phưong nhỏnhất ARIMA(0,l,0) có 1 hằng số
Trang 252.2 Xây dụng mô hình ARIMA
2.2.1 Nhận dạng mô hình
Để nhận dạng mô hình ARMA(p,q), ta cần xác định các giá trị thích hợp chocác hệ số
pvà q, trong đó p là bậctự hồi quyvà qlàbậctrung bình trượt Quá trình nàyphụ thuộcvào đồ thị hàm tự tương quan (ACF) và hàm tự hồi quytừng phần (PACF)
Chọn mô hình AR(p): Neu đồ thị PACF có giátrị cao tại các độ trễ 1, 2, ,p và giảmđángkể sau đó, đồng thời ACF giảm dần, chúngtacó thể chọn mô hình AR(p)
Chọn mô hình MA(q): Neu đồ thị ACF có giá trị cao tại các độ trễ 1, 2, ,q và giảm đángkể sau đó, vàđồng thời PACF giảm dần, chúng ta cóthể chọn mô hình MA(q)
Mô hình ARIMA chỉ áp dụng được cho chuỗi dừng Neu chuỗi không dừng, ta cần chuyển đổi nó thành chuỗi dừng trước khi ước lượng tham số Thông thường, việc lấysai phân một hoặc nhiều lần (bậc d=0, 1, 2, 3) có thể tạo ra một chuỗi có tính dừng.Trong trường hợp biến đổi này khôngthành công, các phưong pháp biến đổi khác nhưchuyển đổi logarithm cóthể được áp dụng
2.2.2 ưức lượng thông so
Sau khi xác định được bậc của mô hình ARIMA, quá trình tiếp theo là ước lượng cácthông số của mô hình Quá trình này thường là một quá trình thực nghiệm và thường được thực hiện thông qua phương pháp bình phương nhỏ nhất, cụ thể là phương phápMaximum Likelihood, để tìm ra mô hình tốtnhất cho việc dự báo
Các thông số của mô hình ARIMA thường được ước lượngthông quanhiều phần mềm khác nhau như Eviews, SPSS, R, và nhiều phần mềm thống kê và dự báo khác Mỗiphần mềm có cách thực hiện vàcách ước lượng thông số của mô hình một cách riêngbiệt, nhưng mục tiêu cuối cùng là tìm ra một mô hình ARIMA phù hợp và chính xác nhất chotình huống cụ thể
14