Khí hậu luôn là bộ phận quan trọng của tự nhiên và môi trường, có ý nghĩa quyết định đến nhiều mặt hoạt động sản xuất và đời sống. Vì thế nghiên cứu điều kiện tự nhiên hay cụ thể là phân tích khí tượng thủy văn là một ứng dụng phổ biến trong nghiên cứu khí hậu. Theo viện hàn lâm khoa học và công nghệ Việt Nam, mặc dù trong nữa đầu thế kỷ XXI nguồn năng lượng hóa thạch vẫn còn chiếm vai trò chủ đạo cung cấp nhu cầu năng lượng của nhân loại nhưng chúng đang trên đường cạn kiệt và là thủ phạm chính gây ô nhiễm môi trường. Chính vì vậy loài người đang nổ lực tìm tòi và khai thác các nguồn năng lượng thay thế. Theo những số liệu dự báo, ngay từ sau năm 2050 các nguồn năng lượng tái tạo sẽ giữ vai trò chủ đạo cung cấp năng lượng cho con người, trong đó năng lượng mặt trời sẽ đóng vai trò đặc biệt quan trọng, cung cấp tới 75% nhu cầu năng lượng của nhân loại vào năm 2100. Việt Nam là một trong các quốc gia có tiềm năng đáng kể về năng lượng mặt trời. Các số liệu khảo sát về lượng bức xạ mặt trời cho thấy các địa phương phía bắc bình quân có khoảng từ 18002100 giờ nắng trong một năm, còn các tỉnh phía nam, trong đó có Cần Thơ, có khoảng 20002600 giờ nắng trong một năm. Để đánh giá, dự báo ngắn hạn và dài hạn về tiềm năng khai thác năng lượng mặt trời, đòi hỏi cần có những nghiên cứu về sự biến đổi và sự phân bố của các dãy bức xạ tổng hàng ngày đo được trên mặt đất, hay một dạng vô hướng tương đương dãy chỉ số sáng. Để đóng góp cho yêu cầu này, tôi chọn đề tài Chuỗi thời gian và ứng dụng, nhằm mô hình hoá sự biến đổi của bức xạ tổng và dãy chỉ số sáng. Các tham số của mô hình sẽ được ước lượng từ dữ liệu thực. Kết quả của đề tài sẽ được áp dụng thử nghiệm trên các dữ liệu được cung cấp từ Trung tâm dự báo khí tượng khu vực Nam Bộ đặt tại Thành phố Cần Thơ.
Mục đích nghiên cứu
Tổng kết một cách có hệ thống các phương pháp dự báo chuỗi thời gian,giải quyết các vấn đề tính toán của các phương pháp này, đồng thời áp dụng chúng vào mô hình thuật toán phù hợp để phân loại ảnh từ số liệu thực tế.
Đối tượng và phạm vị nghiên cứu
Đối tượng nghiên cứu
Các mô hình chuỗi thời gian dự báo của bức xạ tổng chỉ số sáng trung bình.
Phạm vi nghiên cứu
Các mô hình chuỗi thời gian được xây dựng cho các dãy chỉ số sáng trung bình theo các ngày trong các tháng đặc trưng trong năm tại Thành phố Cần Thơ.
Phương pháp nghiên cứu
- Sắp xếp, phân tích, tổng hợp các vấn đề nghiên cứu một cách có hệ thống và logic từ các tài liệu tham khảo
- Sử dụng các phương pháp tính gần đúng trong thống kê và trong giải tích,giải quyết vấn đề tính toán bằng các phần mềm R Studio.
Cấu trúc luận văn
Cấu trúc luận văn gồm có phần giới thiệu, phần nội dung, phần kết luận và tài liệu tham khảo Phần nội dung gồm 3 chương:
Chương 1: Kiến thức chuẩn bị
Trình bày những kiến thức liên quan đến bài toán chuỗi thời gian, vấn đề tính toán và các kết quả lý thuyết liên quan đến chuỗi thời gian.
Chương 2: Một số mô hình chuỗi thời gian
Trình bày các mô hình chuỗi thời gian đang sử dụng hiện nay Mỗi mô hình trình bày lý thuyết và các kết quả lý thuyết liên quan
Chương 3: Dự báo số giờ nắng tại Thành phố Cần Thơ Ứng dụng thực tế các mô hình chuỗi thời gian trình bày ở chương 2 để dự báo số giờ năng tại Thành phố Cần Thơ.
Phương trình sai phân và toán tử trễ
1.1.1 Phương trình sai phân a) Phương trình sai phân bậc nhất
Gọi Y là biến số có giá trị biến đổi theo thời gian,
Y t là giá trị của Y tại thời điểm t,
W t là các ảnh hưởng đến Y tại thời điểm t.
Giả sử phương trình động biểu diễn giá trị của Y tại thời điểm t với giá trị tại điểm trước đó có dạng
Phương trình (1.1) được gọi là sai phân bậc nhất biểu diễn Y t hàm tuyến tính của Y t 1 và W t Trong đó W t có thể là biến tất định cũng có thể là biến ngẫu nhiên.
Ta giải phương trình (1.1) bằng phương pháp đệ quy Giả sử phương trình (1.1) đúng với tất cả các t.
Nếu biết giá trị xuất phát của Y ở thời điểm t1 và các giá trị W đối với 0,1,2, t thì có thể tìm giá trị của Y ở bất kỳ điểm nào.
Như vậy (1.2) biểu diễn Y t như là một hàm tuyến tính của giá trị xuất phát
Y 1 và các giá trị quá khứ của W Do đó có thể dễ dàng tính ảnh hưởng của W 0 đến Y t
Tương tự nếu bắt đầu từ thời điểm t thì các Y t j được mô tả như hàm tuyến tính của các giá trị Y t 1 và W , W , , W t t 1 t j
Y Y Khi đó ảnh hưởng của W t đến Y t j là:
(1.3) được gọi là nhân tử động (dynamic multiplier), nhân tử này chỉ phụ thuộc vào j, độ dài khoảng thời gian tính từ thời điểm t đến thời điểm t j , không phụ thuộc vào t, tức là thời điểm quan sát Kết luận này đúng với bất kỳ phương trình sai phân tuyến tính nào. b) Phương trình sai phân bậc p Định nghĩa: Phương trình sai phân bậc p có dạng:
Y Y Y Y (1.4) Trong đó Y ở thời kỳ t phụ thuộc vào p giá trị trễ của chính biến này và giá trị hiện thời của biến đầu vàoW t
Dạng ma trận của phương trình sai phân bậc p:
(1.5) là một hệ gồm p phương trình
Phương trình thứ nhất là (1.4)
Phương trình thứ hai là Y t 1 Y t 1
Phương trình thứ ba là Y t 2 Y t 2
Nhân tử của (1.5) cũng tương tự phương trình sai phân bậc 1
Giải phương trình sai phân bậc p:
Giả sử có giá trị của của thời điểm t 1 Khi đó:
Xét phương trình đầu của hệ trên, ta có:
Y f Y f Y f Y f f f (1.6) Trong đó f 1 ( ) j i là phần tử (1,j) của ma trận F i
(1.6) mô tả Y ở thời điểm t là hàm tuyến tính của p giá trị ban đầu của
Nếu bắt đầu từ thời điểm j, ta có:
Y f Y f Y f Y f f f Phương trình sai phân bậc p cho nhân tử động:
Trong đó f 11 ( ) j là phần tử (1,1) của ma trận F j
Nếu j 1, f 11 (1) 1 , phần tử (1,1) của ma trận F Khi đó: Ảnh hưởng của W t đến Y t 1 :
Với các giá trị j lớn hơn thì càng dễ dàng để tìm được giá trị bằng số cho các nhân tử động W t j t
bằng cách đặt Y 1 Y 2 Y p 0; W 0 1. Xác lập giá trị cho W đối với tất cả các thời điểm kể từ thời điểm 0.
Thay Y Y 0 , t 1 , Y t 2 , , Y t p 1 vào (1.4) để tính Y t 1 và tiếp tục quá trình đệ quy như trên.
Giá trị của Y ở bước thứ t sẽ cho ảnh hưởng của W 0 đến Y t Ảnh hưởng của W t đến Y t j :
cũng có thể tìm được ảnh hưởng này từ các giá trị riêng của ma trận F: F I p 0
Với p 2 ta có giá trị riêng là nghiệm của phương trình:
(1.7) Đối với hệ tổng quát bậc p, F I p 0 là một phương trình bậc p đối với
và p nghiệm của phương trình là p giá trị riêng của ma trận F.
Mệnh đề 1.1 : Các giá trị riêng của ma trận F là các giá trị thỏa mãn
Giả sử rằng các giá trị riêng của ma trận F cấp ( p p ) là phân biệt nhau, khi đó tồn tại ma trận T cấp ( p p ) không suy biến sao cho
Trong đó ma trận có dạng
Mỗi cột của ma trận T là vector riêng tương ứng với các giá trị riêng của F. Khi đó F 2 T T 2 1 , tổng quát F j T T j 1
Trong đó c i ( t t 1 i i 1 ) và c 1 c 2 c p ( t t 11 11 ) ( t t 12 21 ) t t 13 31 t t 1 p p 1 là phần tử thứ (1,1) của ma trận TT 1 Mà TT 1 là ma trận đơn vị nên c 1 c 2 c p 1
Vậy nhân tử động tại thời điểm t là trung bình có trọng số của p giá trị riêng được nâng lên lũy thừa bậc j.
Mệnh đề 1.2 : Nếu như các giá trị riêng ( , , , 1 2 p ) của ma trận F là phân biệt nhau thì c i được xác định như sau:
Phương trình sai phân bậc p (1.4) ngụ ý rằng:
được cho bởi phần tử (1,1) của F j : j f 11 j Theo (1.9) ta có j c 1 1 j c 2 2 j c 3 3 j c p p j
Nếu p 1 , theo (1.7) ta có : 1 0 phương trình có nghiệm 1 1
Kết hợp (1.9) ta có c 1 1, do đó W 1 t j j t
giống với (1.3) Khi các giá trị riêng của F đều là số thực, điều này xảy ra khi p 2
Theo (1.7) ta được 1 2 4 2 2 0 và các giá trị riêng đều có giá trị tuyệt đối nhỏ hơn 1, khi đó hệ thống sẽ ổn định Nhân tử động F I p 0 sẽ giảm theo dạng hàm mũ hoặc giảm theo hàm mũ đan xen dấu.
Dài hạn và giá trị hiện tại :
Nếu tất cả các giá trị riêng đều nhỏ hơn 1 theo modun thì F j trong
Sẽ hội tụ đến ma trận 0 khi j đủ lớn.
Trong đó 1 cho bởi phần tử (1,1) của ma trận F j 1 có dạng như (1.8) nếu tất cả các giá trị riêng là khác nhau.
Từ đó có thể tính được ảnh hưởng đến giá trị hiện thời Y do tác động có tính nhất thời của W.
Xét vấn đề tổng quát hơn
là bởi phần tử (1,1) của ma trận F j
Nếu như tất cả các giá trị riêng của F đều nhỏ hơn 1 theo modun thì ảnh hưởng của giá trị hiện thời của do thay đổi V được cho bởi:
Ảnh hưởng đến giá trị hiện thời của Y do thay đổi trong W là W i t j t
Mệnh đề 1.3 : Nếu như các giá trị riêng của ma trận F cấp p p đều có modun nhỏ hơn 1 thì tồn tại ma trận ( I p F ) 1 và ảnh hưởng của W đến giá trị hiện thời của Y được cho bởi phần tử (1,1) của ma trận trên
Ảnh hưởng lũy thừa khi thay đổi W ở thời kỳ t (W ) t đến Y Y t , t 1 , có thể xem như một trường hợp đặc biệt của mệnh đề 1.3. Đặt 1 , các giá trị riêng đều có modun nhỏ hơn 1, khi đó ảnh hưởng tích lũy đến Y là
Điều này có nghĩa là ảnh hưởng trong dài hạn của thay đổi nhất thời trong W
1.1.2 Toán tử trễ ( Lag operators ) a) Giới thiệu
Chuỗi thời gian là dãy các quan sát về một biến nào đó theo thời gian. Thường chúng ta thu thập số liệu bắt đầu ở một thời điểm nhất định, chẳng hạn 1 t và kết thúc tại thời điểm khác t n , ta được các quan sát ( , , , )Y Y 1 2 Y n Chúng ta có thể tìm được các quan sát trước quan sát thứ nhất ( , Y Y Y 2 , 1 , ) 0 hoặc các quan sát sau quan sát thứ n ( Y n 1 , Y n 2 , ) Mẫu quan sát được có thể xem như một đoạn hữu hạn của một chuỗi vô hạn.
Y P, P t là giá trị của một loại cổ phiếu ở thời điểm t;
Y c c là các thành phần của chuỗi là một hằng số.
Nếu người ta coi một hàm Y f X ( ) hay Y g X ( , W) như là một toán tử biến đầu vào X hay (X, W) thành đầu ra Y.
Toán tử chuỗi thời gian biến đổi một chuỗi thời gian hay một nhóm chuỗi thời gian thành một chuỗi thời gian mới Nghĩa là toán tử thời gian biến đổi một chuỗi X t hay một nhóm chuỗi X t , W t thành đầu ra một chuỗi mới
Y t tương ứng với các thành phần của đầu vào.
Toán tử nhân: Y t X t là toán tử nhân giá trị của biến X ở thời điểm bất kỳ với hằng số để tạo ra giá trị của biến Y ở cùng thời điểm này.
Toán tử cộng: Y t X t W t là toán tử tính tổng của giá trị biến X và giá trị của biến W ở tại một thời điểm để tạo ra giá trị của biến Y ở cùng thời điểm này.
Do toán tử nhân hoặc cộng thực hiện nhân hoặc cộng từng thành phần nên các toán tử này tuân theo các quy tắc của các phép biến đổi đại số, chẳng hạn như:
Toán tử trễ: giả sử ta có chuỗi X t bây giờ ta tạo ra chuỗi mới Y t trong đó giá trị Y ở thời điểm t bằng giá trị X ở thời điểm t1, tức là Y t X t 1
Khi đó L được gọi là toán tử trễ kí hiệu là L 2 , khi đó
Tổng quát với k là số nguyên bất kỳ ta có: L X k t X t k
( a bL LX ) t aLX t bL X t aX t bX t
b) Phương trình sai phân bậc nhất dưới dạng toán tử trễ
Phương trình sai phân bậc nhất có dạng Y t Y t 1 W t
Phương trình sai phân bậc nhất được viết dưới dạng toàn tử trễ: t t W t
Nhân 2 vế với toán tử (1 L 2 2 L 3 3 L t t L ) ta được
Toán tử (1 L 2 2 L 3 3 L t t L )(1 L Y ) t Y t chỉ khác Y t một lượng
Nếu 1 và t đủ lớn ta có thể áp dụng cho chuỗi bị chặn để tính xấp xỉ của toán tử (1 L 2 2 L 3 3 L t t L ) bằng nghịch đảo của toán tử (1 L )
Trong đó toán tử (1 L ) 1 có tính chất (1 L )(1 L ) 1 1.
Với “1” là toán tử đơn vị: 1 Y t Y t
Giả sử 1 và các chuỗi Y, W đều bị chặn, theo (1.10) ta có:
Công thức trên được thực hiện với 1 và không chỉ với W bị chặn mà còn với W là biến ngẫu nhiên dừng. c) Phương trình sai phân bậc hai dưới dạng toán tử trễ
Xét phương trình sai phân cấp hai:
Sử dụng toán tử trễ ta có
Giả sử tìm được 1 2 sao cho
1 ( 1 2 ) L 1 2 L 2 (1.12) Với 1 2 có các tính chất sau:
được xác định sao cho toán tử bên vế trái và toán tử bên vế phải của (1.12) đối với Y t là như nhau.
Nhân tử động của phương trình bậc hai (1.11) được dựa trên các giá trị riêng của ma trận
Các giá trị của ma trận F là hai giá trị thỏa phương trình:
d) Phương trình sai phân bậc p dưới dạng toán tử trễ
Phương trình sai phân bậc p có dạng:
Phân tích vế trái ta được
Trong đó ( , , , 1 2 p ) là các giá trị riêng của ma trận
Phương trình sai phân bậc p là ổn định nếu các giá trị riêng ( , , , 1 2 p ) nằm trong đường tròn đơn vị.
Giả sử rằng các giá trị riêng nằm trong đường tròn đơn vị và chúng ta chỉ xét các chuỗi bị chặn thì các (1 1 L ) , (1 1 2 L ) , , (1 1 p L ) 1 đều tồn tại và phương trình sai phân (1 1 L )(1 2 L ) (1 p L Y ) t W t được viết dưới dạng:
Nếu tất cả các giá trị riêng đều khác nhau thì có thể triển khai toán tử vế phải:
Kỳ vọng, tính dừng và tính Ergodicity
1.2.1 Kỳ vọng, hiệp phương sai a) Kỳ vọng
Giả sử có một mẫu ngẫu nhiên kích thước n từ một biến ngẫu nhiên Y nào đó ( , , , )y y 1 2 y n
Mẫu này có n số cụ thể nhưng tập hợp n số này chỉ là một đầu ra của một quá trình ngẫu nhiên tạo ra số liệu này Ngay cả khi quan sát trong một khoảng thời gian vô hạn ta có: y t t , y 1 , , , , , , y y y 0 1 2 y y n n 1 , thì y t t cũng được xem như một phép thử từ một quá trình theo thời gian.
là các biến ngẫu nhiên độc lập có cùng phân bố.
( , , , ) n là một mẫu ngẫu nhiên.
Nếu t N (0, 2 ) thì t t được gọi là ngẫu nhiên trắng Gauss.
Tương tự như vậy ta có thể tạo ra một số lượng tùy ý các biến ngẫu nhiên. Giả sử ta có I biến ngẫu nhiên y t (1) t , y t (2) t , , y t ( ) I t
Từ mỗi biến ta lấy ra quan sát ở thời điểm t bất kỳ ta được y t (1) , y t (2) , , y t ( ) I là một mẫu của I phép thử đối với biến ngẫu nhiên Y t Biến ngẫu nhiên này có hàm mật độ f Y t ( ) y t Khi đó f Y t ( ) y t được gọi là hàm mật độ có điều kiện của Y t
Kỳ vọng của quan sát thứ t của chuỗi thời gian là
E Y cũng có thể được tính bằng giới hạn theo xác suất của trung bình chung là
Ta xét một số quá trình sau đây:
-Nếu Y t là nhiễu trắng Gauss t t thì
- Y t t , trong đó E ( ) 0, t var ( ) t 2 , cov ( , t t s ) 0, s 0 khi đó ( ) t
E Y t; E Y ( ) t được gọi là kỳ vọng có điều kiện của Y t , ký hiệu E Y ( ) t t
Phương sai của Y t ký hiệu là
Giả sử y t ( ) I t là phép thử về một quá trình thời gian Ta xây dựng vector
( ) I x t bao gồm m 1 thành phần như sau
Mỗi phép thử y t ( ) I t tạo ra một giá trị cụ thể của vector x t ( ) I Phân bố xác suất của vector x t ( ) I , i 1, 2, , I còn được gọi là phân bố đồng thời của ( , Y Y t t 1 , , Y t j ).
Từ phân bố này ta tính được hệ số tương quan thứ j của Y t
it chính là hiệp phương sai của Y t với chính giá trị trễ của nó it có thể lấy từ dòng 1 cột thứ j 1 của ma trận hiệp phương sai của vector x t ( ) I
it cũng có thể tính bằng cách khác
Với t là nhiễu trắng thì
Chuỗi dừng được phân thành hai loại: dừng yếu (weakly stationarity) và dừng chặt (strick stationarity).
1.2.2 Chuỗi dừng yếu ( Weakly stationarity )
Chuỗi Y t được gọi là dừng theo hiệp phương sai (hay dừng yếu) nếu kỳ vọng, phương sai và hiệp phương sai không đổi theo thời gian Tức là chuỗi Y t đồng thời thỏa mãn 2 điều kiện:
Ta quy ước trong tài liệu này khi nói về quá trình ngẫu nhiên là dừng thì được hiểu là dừng yếu.
Các điều kiện thứ nhất và thứ hai có thể là momen bậc 2 không phụ thuộc vào t. Điều kiện thứ 3 trong định nghĩa có nghĩa là hiệp phương sai, do đó hệ số tương quan giữa Y t và Y t k chỉ phụ thuộc vào độ dài k về thời gian giữa Y t và Y t k , không phụ thuộc vào thời điểm t Chẳng hạn nếu Cov Y Y ( , t t 5 ) không đổi thì:
Cov Y Y Cov Y Y Cov Y Y không đổi.
Nhưng Cov Y Y ( , t t 5 ) có thể khác Cov Y Y ( , t t 6 )
Chuỗi Y t được gọi là không dừng nếu không thỏa bất kỳ điều nào nói trên. Khi k 0 thì 0 2 , k thì k k
Khi khảo sát các k theo độ dài của trễ ta được hàm tự tương quan:
1.2.3 Chuỗi dừng chặt ( Strick sationarity )
Chuỗi Y t được gọi là dừng chặt nếu với các giá trị bất kỳ j j 1 , , , 2 j n thì phân bố đồng thời của ( Y t j 1 , Y t j 2 , , Y t j n ) chỉ phụ thuộc vào khoảng ( , , , )j j 1 2 j n không phụ thuộc vào t.
Ta thấy nếu một chuỗi là dừng chặt với momen bậc 2 là hữu hạn thì nó là dừng yếu.
Một chuỗi là dừng yếu chưa chắc đã dừng chặt, mặc dù momen bậc 2 không phụ thuộc thời gian nhưng momen cấp cao hơn có thể phụ thuộc thời gian.
Chuỗi ngẫu nhiên được gọi là chuỗi Gauss nếu hàm mật độ đồng thời là hàm Gauss đối với bất kỳ ( j j 1 , , , 2 j n ) nào.
Chuỗi tích hợp (chuỗi dừng sai phân): Nếu Y t là chuỗi không dừng nhưng sai phân bậc nhất Y t Y Y t t 1 là dừng, người ta nói rằng Y t tích hợp bậc nhất (chuỗi dừng sai phân bậc nhất).
Y t là chuỗi không dừng, gọi d là sai phân bậc nhỏ nhất của chuỗi Y t , d 1 ( ) Y t không dừng, nhưng d ( ) Y t ( d 1 ( )) Y t là dừng, khi đó Y t được gọi là chuỗi tích hợp d (chuỗi dừng sai phân bậc d), ký hiệu I d ( )
Như vậy nếu d 0 thì Y t là chuỗi dừng.
Khi có một phép thử với kích thước mẫu là n từ quá trình y t (1) , y t (2) , , y t ( ) I ta có thể tính được trung bình mẫu:
y không phải là trung bình chung, nó chỉ là trung bình tại thời điểm t.
Nếu y hội tụ theo xác suất đến E Y ( ) t khi t ,
Một quá trình Ergodicity đối với trung bình đảm bảo rằng j , do đó các j sẽ hội tụ đến 0 khi j đủ lớn.
Ta có hiệp phương sai của một quá trình dừng thỏa mãn: 1 n j t t
thì quá trình đó là quá trình Ergodicity.
Tương tự, một quá trình dừng được gọi là Ergodicity đối với momen bậc 2 nếu: 1 lim1 I ( t t )( t j t j ) j ,
Trong nhiều ứng dụng yêu cầu quá trình dừng và Ergodicity là như nhau tuy nhiên có quá trình là dừng nhưng không phải là Ergodicity.
Giả sử i của phép thử thứ y t ( ) i t với y t ( ) i t được cho từ phân bố
t là nhiễu trắng Gauss có trung bình bằng 0, phương sai 2 và độc lập với i
Vậy Y t ( ) i ( ) i t là quá trình dừng.
Do đó Y t ( ) i ( ) i t không phải là Ergodicity.
1.2.5 Kiềm định nghiệm đơn vị ( Unit Root Test )
Kiểm định nghiệm đơn vị là một kiểm định được sử dụng khá phổ biến để kiểm định một chuỗi thời gian là dừng hay không dừng Dickey – Fuller (1981) đã đưa ra kiểm định Dickey - Fuller (DF) và kiểm định Dickey - Fuller mở rộng (ADF) Nghiên cứu này sử dụng kiểm định ADF để thực hiện kiểm định nghiệm đơn vị nên chỉ tập trung vào lý thuyết của mô hình này Cụ thể, theo Dickey - Fuller (1981) mô hình kiểm định nghiệm đơn vị mở rộng ADF có dạng
y t : Chuỗi số liệu theo thời gian đang xem xét, k: Chiều dài độ trễ,
Mô hình (1.15) khác với mô hình (1.14) là có thêm biến xu hướng về thời gian t Biến xu hướng là một biến có giá trị từ 1 đến n, trong đó 1 đại diện cho quan sát đầu tiên trong dữ liệu và n đại diện cho quan sát cuối cùng trong chuỗi dữ liệu.
Nhiễu trắng là số hạng chỉ sai số ngẫu nhiên xuất phát từ các giả định cổ điển rằng có giá trị trung bình bằng 0, phương sai là hằng số và không tự tương quan Nghiên cứu sẽ tiến hành kiểm định trong cả 2 trường hợp không có và có xu hướng về thời gian bằng cách sử dụng lần lượt các mô hình (2.14) và (2.15).
Kết quả của kiểm định ADF thường rất nhạy cảm với sự lựa chọn chiều dài độ trễ k nên tiêu chuẩn thông tin AIC (Akaike’s Information Criterion) của Akaike (1973) được sử dụng để chọn lựa k tối ưu cho mô hình ADF Cụ thể, giá trị k được lựa chọn sao cho giá trị AIC nhỏ nhất Giá trị này sẽ được tìm một cách tự động khi dùng các phần mềm R để thực hiện kiểm định nghiệm đơn vị.
H0: 0 ( y t là chuỗi dữ liệu không dừng),
H1: 0 ( y t là chuỗi dữ liệu dừng)
Trong kiểm định ADF, giá trị kiểm định ADF không theo phân bố chuẩn. Theo Dickey và Fuller (1981) giá trị t ước lượng của các hệ số trong các mô hình (2.14) và (2.15) sẽ phân phối xác suất (tau statistic, =giá trị hệ số ước lượng). Giá trị tới hạn được xác định dựa trên bảng giá trị tính sẵn của Mackinnon
(1996) Giá trị tới hạn này cũng được tính sẵn khi kiểm định ADF bằng phần mềm R Để xác định giả thiết H0 nghiên cứu so sánh giá trị kiểm định tính toán với giá trị tới hạn của Mackinnon và kết luận về tính dừng của các chuỗi quan sát Cụ thể, nếu trị tuyệt đối của giá trị tính toán lớn hơn trị tuyệt đối giá trị tới hạn thì giả thiết H 0 sẽ bị bác bỏ, tức chuỗi dữ liệu có tính dừng và ngược lại chấp nhận giả thiết H 0 , tức chuỗi dữ liệu không có tính dừng.
Nhiễu trắng (White noise)
Quá trình u t t được gọi là nhiễu trắng nếu mỗi thành phần của chuỗi có kỳ vọng bằng 0, phương sai không đổi và không tự tương quan, tức là:
(1.18) Đôi khi thay điều kiện Cov u u ( , t t s ) 0, s 0 bằng điều kiện mạnh hơn: u u t , độc lập với nhau với t (1.19)
Quá trình thỏa mãn các điều kiện (1.16), (1.17), (1.19) được gọi là nhiễu trắng độc lập.
Nếu các điều kiện (1.16), (1.17), (1.19) được thỏa mãn và u t N (0, 2 ) thì quá trình ngẫu nhiên được gọi là nhiễu trắng Gauss.
Lưu ý: Từ (1.19) có thể suy ra (1.18), điều ngược lại thì không đúng.
Nhiễu trắng là một chuỗi dừng. Để kiểm định chung cho rằng tất cả các hệ số tự tương quan k điều đồng thời bằng 0, ta có thể sử dụng trị thống kê Q do Box và Pierce lập nên Hàm này được xác định như sau
ở đây, n = độ lớn của mẫu, m = thời lượng của độ trễ (số độ trễ).
Trị thống kê Q có phân bố gần giống như phân bố khi bình phương với m bậc tự do Trong khi áp dụng, nếu như giá trị tính được của Q vượt quá giá trị tới hạn của Q theo bảng khi bình phương ở một mức đã chọn (thường là 5%), ta có thể loại trừ giả thuyết không – theo đó tất cả k 0 ; ít nhất phải có một vài
Một biến thể của Trị thống kê Q dạng Box – Pierce là trị thống kê Ljung- Box (LB) được xác định dưới đây
Mặc dù trong mẫu lớn, cả thống kê Q lẫn thống kê LB đều tuân theo phân bố khi bình phương với m bậc tự do, trị thống kê LB được coi là có các tính chất tốt hơn (mạnh/ hữu hiệu hơn, về mặt thống kê) đối với các mẫu nhỏ so với trị thống kê Q Giả thiết kiểm định LB giống như kiểm định Q.
Bước ngẫu nghiên (Random walk)
Nếu Y t Y t 1 u t , trong đó u t là nhiễu trắng thì Y t được gọi là bước ngẫu nhiên.
E Y E Y E u E Y điều này có nghĩa là kỳ vọng của Y t không đổi.
Do Y 0 là hằng số, các u t độc lập với nhau, có phương sai không đổi 2 ,nên ( ) t 2
Vậy là chuỗi không dừng.
Sai phân bậc nhất của Y t : Y t Y Y t t 1 u t Trong trường hợp này Y t là chuỗi dừng.
Nếu đưa thêm vào mô hình bước ngẫu nhiên một hằng số thì Y t được gọi là bước ngẫu nhiên có bụi (Random walk with drift).
Chuỗi thời gian
Dữ liệu chuỗi thời gian là các dữ liệu mà các biến quan sát được thu thập theo thời gian, chẳng hạn như GDP, CPI, việc làm, thất nghiệp, lãi suất, chỉ số chứng khoán, suất sinh lợi nhuận của cổ phiếu, giá vàng, doanh số,…
Các dữ liệu thời gian có thể được thu thập theo một tần suất quan sát nhất định tùy đặc điểm từng đối tượng nghiên cứu Ví dụ: theo ngày (chứng khoán, lãi suất, tỷ giá hối đoái), theo tuần (lương tuần, cung tiền), theo tháng (tỷ lệ thất nghiệp, tỷ lệ lạm phát, sản lượng công nghiệp, doanh số), theo quý (GDP, doanh số), theo năm (ngân sách Chính phủ, tốc độ tăng trưởng kinh tế, tỷ lệ lạm phát, giá trị xuất khẩu).
Các thành phần chuỗi thời gian:
1.5.1 Yếu tố xu thế ( Trend )
Xu thế là thành phần thể hiện sự tăng (hoặc giảm) ẩn bên trong của một chuỗi thời gian Xu thế có thể được tạo ra do sự thay đổi dân số liên tục, lạm phát, thay đổi công nghệ, tăng năng suất,… Thành phần này thường được ký hiệu là Tr hay T
Nếu chuỗi thời gian có yếu tố xu thế thì các giá trị liên tiếp của nó có mối quan hệ với nhau khá ý nghĩa Các hệ số tương quan của các độ trễ đầu tiên rất lớn và sẽ giảm dần về 0 khi số độ trễ tăng lên.
Một chuỗi có yếu tố xu hướng được gọi là chuỗi không dừng, cần loại bỏ yếu tố này trước khi xác định mô hình dự báo Có nhiều cách loại bỏ yếu tố xu thế trong chuỗi thời gian nhưng thông thường nhất là lấy sai phân.
Giả sử ta có chuỗi dữ liệu Y t thì sai phân của Y t được định nghĩa như sau: Sai phân bậc 1: Y t Y Y t t 1
Sai phân bậc 1 với độ trễ theo quý: Y t Y Y t t 4
Sai phân bậc 1 với độ trễ theo tháng: Y t Y Y t t 12
1.5.2 Yếu tố chu kỳ ( Cyclical )
Thành phần chu kỳ là một chuỗi những dao động giống như hình sóng và sự dao động này sẽ lặp lại sau một thời kỳ thường dài hơn 1 năm Nói chung chu kỳ được tạo ra do sự thay đổi các điều kiện kinh tế Ví dụ: sau 10 năm thì suy thoái nền kinh tế sẽ lặp lại Người ta thường ký hiệu thành phần chu kỳ là C1 hay C
Trong thực tế yếu tố chu kỳ thường khó xác định và thường được xem như là một phần của yếu tố xu thế Thành phần thể hiện sự tăng (hay giảm) ẩn bên trong của một chuỗi dữ liệu được gọi là thành phần Xu thế - Chu kỳ (Trend - cycle) và cũng được ký hiệu là Tr hay T Khi đó một chuỗi thời gian sẽ gồm 3 thành phần Tr, Sn, Ir.
Những dao động mùa vụ rất thuờng được tìm thấy ở dữ liệu theo quý, tháng hoặc thậm chí theo tuần Nếu chỉ có dữ liệu theo năm thì không có biến động mùa Sự dao động mùa vụ liên quan đến kiểu thay đổi khá ổn định xuất hiện hàng năm, kiểu thay đổi đó được lặp lại ở năm sau và năm sau nữa Yếu tố mùa xảy ra do sự thay đổi của thời tiết, các sự kiện trong năm liên quan đến lịch như nghỉ hè, nghỉ lễ.
Thành phần này thường được ký hiệu là Sn hay S
Mùa và chu kỳ là quy luật dao động của dữ liệu có tính chất lặp đi lặp lại. Nếu như mùa là quy luật diễn ra giữa các thời điểm trong năm thì chu kỳ là quy luật diễn ra trong thời gian dài vài năm đến vài chục năm, với tần suất quan sát là năm và chuỗi thời gian phải đủ dài thì mới có thể phát hiện ra quy luật chu kỳ.
Nếu một chuỗi có yếu tố mùa thì dạng dữ liệu của nó sẽ được lặp đi lặp lại qua một khoảng thời gian nhất định (thường là một năm) Các quan sát trong các mùa giống nhau (VD: quý I năm 2006 và quý I năm 2007) có xu hướng tương quan với nhau.
Nếu dữ liệu theo quý thì các quý trông có vẽ giống nhau, các quý II trông có vẽ giống nhau,… Khi đó các hệ số tương quan với độ trễ k = 4 có thể có ý nghĩa thống kê.
Nếu dữ liệu theo tháng thì các tháng 1 trông có vẻ giống nhau, các tháng 2 trông có vẽ giống nhau,… Khi đó các hệ số tương quan với độ trễ k = 12 có thể có ý nghĩa thông kê.
Trong các mô hình dự báo doanh số, số lượng khách du lịch,… thông thường ta nên lưu ý đến yếu tố mùa
1.5.4 Yếu tố ngẫu nhiên/ bất thường ( Irregular )
Thành phần ngẫu nhiên bao gồm những thay đổi ngẫu nhiên hay không dự đoán được những sự thay đổi bất thường là kết quả của vô số những sự kiện mà nếu xét riêng lẻ thì không quan trọng còn nếu kết hợp các sự kiện riêng lẻ đó lại thì có thể tạo thành một ảnh hưởng lớn Thành phần bất thường này thường xuất hiện do ảnh hưởng thiên tai, động đất, nội chiến, khủng bố,…
Người ta ký hiệu thành phần ngẫu nhiên là Ir hay I.
Trong bốn thành phần của chuỗi thời gian nói trên thì các mô hình dự báo có thể tập trung tìm ra các thành phần xu thế, mùa vụ Thành phần chu kỳ cần có một chuỗi dữ liệu lưu trữ ít nhất trên 30 năm Còn các dao động khác thường không thể dự báo được.
Do vậy phương pháp dự báo phân tích chỉ tập trung đề cập hai yếu tố xu thế và mùa vụ đồng thời cố gắng tìm ra những cách thức kết hợp của hai thành phần này nhằm phục vụ cho nhu cầu dự báo chuỗi thời gian.
Chuỗi thời gian không dừng và mô hình ARIMA
2.1.1 Mô hình trung bình trượt tự hồi quy ARMA( p,q ) a) Mô hình
Cách trình bày thứ nhất:
Mô hình ARMA(p,q) có dạng:
Trong đó u là nhiễu trắng.
Trình bày mô hình theo cách trên là cách trình bày chặt chẽ, cô đọng nhất, tiện lợi khi dùng để ước lượng và dự báo.
Nếu các nghiệm của phương trình 1 1 z 2 z 2 p z p ) 0 đều nằm ngoài đường tròn đơn vị thì (2.1) có thể biến đổi theo hai cách như sau:
Cách trình bày thứ hai:
Cách trình bày này thuận tiện khi đánh giá ảnh hưởng của các cú sốc đến Y t
Cách trình bày thứ ba:
Cách trình bày này cho biết đóng góp của Y t ở các thời kỳ trễ đối với Y t là bao nhiêu.
Tính dừng của quá trình ARMA chỉ phụ thuộc tham số i , i 1, 2, , p mà không phụ thuộc vào các tham số j 1, 2, , q
Ngoài hệ số chặn c mô hình còn có yếu tố xu thế
Ngoài tính dừng một tính chất mong muốn khác của chuỗi thời gian là tính khả nghịch.
Mệnh đề 2.1: Về tính khả nghịch của một chuỗi thời gian
Một chuỗi thời gian được gọi là có tính khả nghịch nếu có thể tái hiện u t qua các giá trị hiện tại và quá khứ Y t và Y t 1 , b) Dự báo
Xét quá trình dừng và khả nghịch ARMA(p,q)
Giá trị báo thời kỳ s sẽ là:
Mô hình ARMA(p,q) ta có ràng buộc 1 i 1 để đảm bảo tính dừng của chuỗi thời gian Y t Nếu 1 thì Y t có xu hướng ngày càng lớn, vì thế có thể trở thành chuỗi thời gian tăng đột biến Chuỗi thời gian tăng đột biến là chuỗi không dừng Trong thực tế hiếm khi ta gặp những chỉ báo kinh tế vận động theo cách này Tuy nhiên, một chuỗi thời gian nhất là chứng khoán, nếu chúng ta chỉ xét một giai đoạn ngắn thì khả năng xảy ra hiên tượng là không nhỏ Chính vì vậy khi thiếu nhiều dữ liệu quá khứ thì ta không nên sử dụng mô hình ARMA.
2.1.2 Mô hình tự hồi quy - AR ( Autoregressive process ) a) Mô hình tự hồi quy bậc p – AR(p)
Là mô hình ARMA (p,q) khi p 0
Mô hình tự hồi quy bậc p có dạng:
AR(p) là mô hình khả nghịch.
Ký hiệu ( ) 1 L 1 L 2 L 2 p L p , vậy ta có: ( ) L Y t 0 u t Điều kiện để AR(p) hội tụ là 1 i 1, i 1, 2, , p
Phương tình đặc trưng đối với AR(p)
Với phương trình trên có điều kiện dừng tương đương với điều kiện các i với i 1, 2, , p đều nằm trên đường tròn đơn vị.
Nhân hai vế ( Y t ) với 1 ( Y t k ), sau đó lấy kỳ vọng ta được phương trình Yule – Walker:
Các mô hình tự hồi quy chỉ phù hợp với các chuỗi dừng và các hệ số 0 thể hiện mức trung bình của chuỗi Nếu dữ liệu dao động xung quanh giá trị 0 hoặc dạng sai phân thì không cần hệ số 0 trong mô hình. Để một chuỗi trong AR(p) là chuỗi dừng thì chuỗi đó phải thỏa điều kiện sau
Để xác định độ trễ p ta sử dụng giản đồ tự tương quan theo cách sau:
ACF có xu hướng bằng 0 ngay lập tức trong hệ số tự tương quan riêngPACF sẽ có xu hướng khác 0 một cách có ý nghĩa thống kê cho đến độ trễ p và sẽ
Trong phân tích chuỗi thời gian, hệ số tự tương quan riêng PACF k được sử dụng để đo lường mức độ quan hệ giữa Y t và Y t k khi các độ trễ từ 1 đến k-1 đã được loại trừ Việc xác định PACF k là để xác định mô hình ARMA có thích hợp hay không.
Hệ số tự tương quan riêng bậc m được định nghĩa như hệ số tự hồi quy cuối cùng của mô hình AR(m).
Ví dụ cho các mô hình:
Hệ số cuối cùng của Y trong mỗi phương trình này 1 , , , 2 m , là hệ số tự tương quan riêng của mỗi mô hình.
Trên lý thuyết ta có thể giải tìm các hệ số 1 , , , 2 m nhưng đòi hỏi rất nhiều thời gian Tuy nhiên ta chỉ cần hiểu sẽ sử dụng các hệ số tương quan riêng này như thế nào trong việc xác định mô hình AR(p) thích hợp là được vì các phần mềm kinh tế lượng, chẳng hạn như R, Eviews, đều có thể cung cấp các giá trị này.
Trong quá trình tạo ra một chuỗi thời gian theo mô hình AR(1) thì chỉ có hệ số ˆ 1 có ý nghĩa thống kê trong khi các hệ 2 , , m không có ý nghĩa thống kê. Trong quá trình tạo ra một chuỗi thời gian theo mô hình AR(2) thì có hệ số
có ý nghĩa thống kê trong khi các hệ số 3 , , m không có ý nghĩa thống kê.Lập luận tương tự cho các mô hình AR(3),AR(4),…,AR(p). b) Dự báo mô hình AR(p) Đặt
theo mệnh đề 1.2 ta có:
( ) j f ik là phần tử (i,k) của F j
j được cho bởi phần tử (1,1) của F j j f 11 j
Khi dự báo người ta bỏ các số hạng u t j
Sai số của dự báo:
Cách đơn giản nhất của dự báo là sử dụng phương pháp đệ quy:
Y Y với k n c) Mô hình AR(1) không có hệ số chặn
Bước ngẫu nhiên là một trường hợp đặc biệt của quá trình tự hồi quy bậc nhất AR(1):
Từ biểu diễn cuối ta thấy Y t dừng khi 1 1
-Trong trường hợp 1 1 thì Y t không thỏa mãn điều kiện dừng, do E(
Y t ) và V ar( ) Y t phụ thuộc t Tuy nhiên người ta vẫn gọi trường hợp này là dừng Khi t đủ lớn thì
Nếu Y t là các thành phần của một mẫu, khi đó ước lượng bình phương nhỏ nhất của là:
-Trong trường hợp 1 ta có bước ngẫu nhiên lim ( ) lim 1. t t
Kết quả này đưa ra một quy tắc không chính thức để xét một chuỗi có phải là chuỗi dừng hay không Đối với chuỗi ACF(k) sẽ giảm khi k tăng, còn chuỗi không dừng thì không có xu hướng đó.
đối với bước ngẫu nhiên và
trong trường hợp chuỗi dừng, nên ta thấy rằng một cú “sốc” hay một cái mới có ảnh hưởng liên tục đối với chuỗi không dừng, ảnh hưởng giảm dần theo thời gian đối với chuỗi dừng. Để kiểm định giả thiết
Dickey và Fuller đã chỉ ra rằng thống kê ˆ ˆ
( ) n ( 1) n có phân bố giới hạn, có phân bố tiệm cận nhưng không phải chuẩn Do đó không thể kiểm định giả thiết dựa trên các giá trị giới hạn phân bố chuẩn, phân bố T, phân bố 2 Các giá trị giới hạn để kiểm tra cặp giả thiết trên do Dickey - Fuller đề xuất là sử dụng kỹ thuật mô phỏng.
L là toán tử trễ: LY t Y t 1 ; L Y p t Y t p ,
Đặt ( ) (1 L L ), L là toán tử trễ Nghiệm z của phương trình (1 L ) 0 là
Cho nên nếu 1 1 thì z 1 và Y t sẽ dừng.
Điều đó có ngụ ý rằng quá trình dừng AR(1) có thể được trình bày bằng quá trình MA ( )
d) Mô hình AR(1) có hệ số chặn
Y được biểu diễn như sau
là hữu hạn, do đó E Y ( ) t hữu hạn và V Y ar( ) t cũng hữu hạn.
Khi 1 thì Y t là bước ngẫu nhiên, E Y ( ) t Y 0 t
Quá trình AR(1) với 1 1 có thể biểu diễn qua u t như sau
2.1.3 Mô hình trung bình trượt – MA( q ) a) Mô hình
Là mô hình ARMA(p,q) khi q 0
Y t là quá trình trung bình trượt bậc q nếu Y t có dạng
Y u u u (2.2) Trong đó: u t là nhiễu trắng, số hạng nhiễu ngẫu nhiên
Với bất kỳ giá trị của ( , , , ) 1 2 q thì quá trình dừng MA(Q) đều là quá trình dừng.
Với quá trình MA(2) ta có
Mô hình (2.2) có thể viết gọn như sau: 1 1 q t t t j j
Điều này có nghĩa giá trị Y tại thời điểm t không chỉ phụ thuộc vào các thông tin hiện tại mà còn phụ thuộc vào các thông tin trong quá khứ Tuy nhiên các thông tin gần nhất có ý nghĩa nhiều hơn so với các thông tin trước đó Như vậy các mô hình MA cung cấp giá trị dự báo của Y t trên cơ sở kết hợp tuyến tính của các giá trị sai số quá khứ.
Ngoài ra (2.2) có thể viết theo cách khác như sau
Nói cách khác độ lệch của Y t là một hàm tuyến tính của các sai số hiện tại và quá khứ. Để xác định độ trễ q ta sử dụng giản đồ tự tương quan theo cách sau đây: ACF sẽ có xu hướng khác 0 một cách có ý nghĩa thông kê cho đến độ trễ q và sẽ bằng 0 ngay sau độ trễ q đó Điều này có nghĩa rằng nếu chuỗi thời gian Y t là một chuỗi theo MA(2) thì các hệ số ACF ACF 1 , 2 có ý nghĩa thống kê và các hệ số khác không có ý nghĩa thống kê Trong khi đó PACF có xu hướng bằng 0 ngay lập tức.
Thông thường ít có chuỗi thời gian nào thỏa mãn các điều kiện của mô hình AR(p) và MA(q) mà thường là kết hợp của hai mô hình này, có nghĩa là một chuỗi dừng có thể tuân theo mô hình tổng quát ARMA(p,q). b) Dự báo
Dự báo sẽ dài hơn q thời kỳ đơn giản chỉ là trung bình không điều kiện ràng buộc. c) Mô hình trung bình trượt bậc nhất – MA(1)
Mô hình trung bình trượt bậc nhất có dạng
Y u u trong đó: u t là ngẫu nhiên trắng, số hạng nhiễu ngẫu nhiên,
là giá trị trung bình của quá trình,
là hệ số ước lượng,
1 u t là sai số ở giai đoạn t 1.
Như vậy nếu Y t là một quá trình MA(1) thì kỳ vọng, phương sai, hiệp phương sai không phụ thuộc vào thời gian Do đó quá trình MA(1) là quá trình dừng với mọi giá trị của
Nếu t là nhiễu trắng Gauss thì MA(1) là Ergodicity.
Hệ số tự tương quan:
Hàm ý của mô hình MA(1) là Y t phụ thuộc vào giá trị của sai số hiện tại và sai số quá khứ, tức là tại thời điểm t và t 1 Điều này có nghĩa Y t phụ thuộc vào giá trị sai số trước đó chứ không phụ thuộc vào giải trị trễ của Y t
2.1.4 Mô hình trung bình trượt tự hồi quy - ARIMA( p,d,q ) a) Định nghĩa dừng sai phân
Mô hình chuỗi thời gian mờ hóa Abbasov-Mamedova
Đây là thuật toán của Ali.M.Abbasov và Masuma.H.Mamedova Đại học Công Nghệ đề xuất năm 2003 Hai tác giả đã ứng dụng chuỗi thời gian mờ để dự báo dân số gồm 6 bước sau:
Bước 1 : Xác định tập nền U chứa đoạn thời gian giữa các biến đổi nhỏ nhất và lớn nhất trong tổng dân số.
Bước 2 : Chia tập U thành n đoạn thời gian có độ dài bằng nhau chứa các giá trị biến đổi tương ứng với tỷ lệ tăng trưởng khác nhau của dân số Đồng thời tính các giá trị trung bình của từng đoạn u m i
Bước 3: Mô tả chất lượng của các giá trị biến đổi dân số như là một biến ngôn ngữ, xác định các giá trị tương ứng của biến ngôn ngữ hoặc thiết lập các tập mờ F(t).
- A t là mờ hóa các biến của năm t,
- C là hằng số được xác định theo thuật toán DOC sao cho A i 0,1 ,
- U là các biến đổi của từng năm, hoặc là giá trị trung bình của từng đoạn thứ i,
- u m i là giá trị trung bình của từng đoạn thứ i.
Bước 4: Mờ hóa các dữ liệu đầu vào hoặc chuyển đổi các giá trị số vào các giá trị mờ Hoạt động này cho phép phản ánh sự tương ứng giá trị định lượng định tính của tỷ lệ phát triển dân số tiêu biểu trong giá trị của hàm quan hệ.
Bước 5 : Lựa chọn tham số w (1 < w < n), n là số năm của dữ liệu ban đầu tương ứng với thời gian trước khi sang năm có liên quan, tính toán các mối quan hệ mờ của ma trận P w (T).
F t max R R R max R R R max R R R trong đó: i = 1, ,w; j = 1, , n
Bước 6 : Giải mờ kết quả thu được hoặc chuyển đổi các giá trị mờ vào các giá trị định tính Dự báo tăng trưởng dân số trong năm tới ( )V t
Kết quả dự báo cho năm thứ t được tính theo công thức sau:
- N t( ) là dân số của năm t,
- V(t) là số dân tăng trưởng từ năm t – 1 đến năm t.
Một số vấn đề liên quan
2.3.1 Phương pháp làm trơn số liệu a) Phương pháp trung bình trượt i) Trung bình trượt đơn Được xác định theo công thức:
(2.4) trong đó M t là trung bình trượt của M thời kỳ x x t , t 1 , x t 2 , , x t N 1 là giá trị của chuỗi tại N thời kỳ về trước.
Tại mỗi thời kỳ, quan trắc cũ nhất bị loại ra và thêm vào một quan trắc gần nhất Ta có thể dùng phương pháp luân phiên để tính trung bình trượt đơn cho thuận tiện hơn Phương trình (2.4) có thể viết:
Nghĩa là có thể tính giá trị của M t từ giá trị trước đó M t−1. ii) Trung bình trượt kép
Trung bình trượt kép là trung bình trượt của trung bình trượt đơn, nghĩa là từ trung bình trượt đơn vừa tính lấy trung bình một lần nữa Khi đó ta có:
trong đó M t 2 là trung bình trượt kép, chỉ số [2] ở trên là bậc của trung bình trượt chứ không phải là số m; M t M t 1 M t N 1 là các trung bình trượt đơn. Tương tự như trên ta cũng có công thức luân phiên cho trung bình trượt kép
iii) Trung bình trượt trung tâm
Khác với trung bình trượt đơn và kép ở trên, trung bình trượt trung tâm của thời kỳ hiện tại t được lấy với cả thời kỳ trước và sau, đối xứng qua t (Ví dụ: trung bình trượt của 5 thời kỳ thì lấy trung bình của hai thời kỳ trước, thời kỳ hiện tại và hai thời kỳ sau).
- Chọn thời kỳ để tính trung bình L L được chọn tùy thuộc mục đích nghiên cứu L càng lớn thì càng trơn, nhưng bị mất đi những chu kỳ dao động nhỏ hơn đáng lẽ phải có L càng nhỏ thì biểu hiện dao động càng rõ nhưng lại mang quá nhiều nhiễu loạn, khó phát hiện các chu kỳ Việc tính trung bình phải phụ thuộc vào L là chẳn hay lẻ.
- Nếu L lẻ thì trung bình trượt trung tâm được tính
trong đó, x t là điểm giữa của khoảng L các quan trắc.
Lưu ý rằng khi đó sẽ mất đi số hạng đầu và số hạng cuối.
- Nếu L chẳn thì tính theo hai bước:
* Tính trung bình trượt bao quanh khoảng L.
trong đó: M t 1 1 , M t 1 2 là các trung bình trượt đơn bao quanh khoảng L.
Sau đó tính trung bình trượt đơn của hai giá trị vừa tính M t 1 1 ,M t 1 2 và viết tương ứng với M t 1 2 để cho “trung tâm” của trung bình trượt tương ứng với chuỗi gốc.
Làm trơn hàm mũ là kỹ thuật, trong đó liên tục tính toán lại hoặc giải thích lại những biến đổi hoặc dao động gần thời điểm xem xét Những dao động này có thể do sai số ngẫu nhiên, hoặc vốn có bên ngoài không dự tính được Phương pháp làm trơn này cho phép hiệu chỉnh để có kết quả dự báo chính xác hơn Làm trơn hàm mũ chỉ thực hiện cho chuỗi dừng Bài toán này được A.N Kolmogorov đề xuất đầu tiên, sau đó được N, Viner phát triển.
Trong làm trơn hàm mũ một giá trị trơn được ước lượng mới là tổ hợp của các giá trị làm trơn hay ước lượng của thời kỳ trước cộng với tỷ lệ sai số ngẫu nhiên được tạo thành trong thời kỳ trước:
Phương trình này thường được viết dưới dạng:
1 1 , t t t t s s x s (2.5) trong đó, s t là giá trị làm trơn hay ước lượng mới cho thời kỳ tiếp theo; s t 1 là giá trị làm trơn hay ước lượng cho thời kỳ trước; xt là số liệu thực của chuỗi trước;
1 t t x s là ước lượng cho thời kỳ tiếp theo; α là trọng số hoặc hằng số làm trơn. Sau khi loại bỏ số hạng đồng dạng phương trình (2.5) được viết thành:
Trọng số hay hằng số làm trơn không là chung cho mọi số hạng Những quan trắc gần nhất có trọng số lớn nhất, quan trắc gần tiếp theo có trọng số
tiếp tục ta có trọng số 1 2 , 1 3 … Vậy số hạng làm trơn tại thời điểm t có thể viết như sau:
1 1 1 1 2 1 t 1 0. t t t t t t x s x x x x s Làm trơn bằng hàm mũ đơn
Thực hiện công thức (2.2) ở dạng truy hồi Ta xuất phát từ giá trị ban đầu s 0 đồng thời cần xác định hằng số làm trơn α.
Về lý thuyết, α có thể thay đổi từ 0,01 đến 1.00 Để xác định α thường dùng phương pháp thử sai số, sao cho tổng bình phương sai số x t x t ' 2 hay
là nhỏ nhất Giá trị ban đầu có thể phán đoán bằng sự so sánh giữa phương pháp làm trơn và trung bình trượt, khi đó ta có
, trong đó, L là độ dài thời kỳ làm trơn.
- Ước lượng ban đầu s 0. Ước lượng này thường được lấy bằng trung bình số học của cả chuỗi.
2.3.2 Phương pháp mờ hóa dữ liệu a) Mô hình Chen Đây là mô hình do Shyi – Ming Chen, khoa Công Nghệ Thông Tin, Đại học Quốc Gia Chiao Tung, Đài Loan đề xuất Công trình này được đăng trên tạp chí
“Fuzzy Sets and System” năm 1996 Mô hình này có thuật toán gồm 4 bước như sau:
Bước 1 : Xác định tập nền U trên các giá trị lịch sữ của chuỗi thời gian như sau:
- D min , D max lần lượt là giá trị nhỏ nhất và lớn nhất của chuỗi thời gian,
- D1, D2 là các số dương thích hợp.
Bước 2 : Chia tập U thành từng đoạn thích hợp và đều nhau U 1 , U 2 , ,U n Xác định các tập mờ A i tương ứng với U i và mờ hóa các giá trị lịch sử của chuỗi thời gian Nếu A i là giá trị mờ hóa tại thời điểm t và A j là giá trị mờ hóa tại thời điểm t+1 thì ta có mối quan hệ A i A i j j , 1, 2,
Bước 3 : Xác định các nhóm quan hệ mờ.
Bước 4 : Dự báo và giải mờ dựa vào 3 nguyên tắc sau:
- Nguyên tắc 1: Nếu A i là giá trị mờ hóa tại thời điểm t và chỉ có quan hệ mờ duy nhất là A i A j thì giá trị dự báo tại thời điểm t+1 là m j (m j là điểm giữa của đoạn U j ).
- Nguyên tắc 2: Nếu A i là giá trị mờ hóa tại thời điểm t và có nhóm mối quan hệ làA i A A A j , k , l
,… thì giá trị dự báo tại thời điểm t+1 là trung bình cộng của m j , m k , m l … (m j , m k , m l là điểm giữa của đoạn U j , U k , U l , …).
- Nguyên tắc 3: Nếu A i là giá trị mờ hóa tại thời điểm t và không tồn tại mối quan hệ mờ nào thì giá trị dự báo tại thời điểm t+1 là m i (m i là điểm giữa b) Mô hình Singh Đây là mô hình được đề xuất bởi Shiva Raj Shing, khoa toán, Đại học Banaras Hindu, Ấn Độ Công trình này được đăng trên “Mathematics and Computers in Simulation” năm 2008 Mô hình này được xây dựng dựa trên thuật toán gồm 5 bước như sau:
Bước 1 : Xác định giá trị tập nền U trên các giá trị lịch sử của chuỗi thời gian.
Bước 2 : chia tập U thành các đoạn đều nhau như U 1 , U 2 ,…, U n
Bước 3 : Sử dụng hàm thuộc tam giác để xác định các tập mờ và mờ hóa các giá trị lịch sử của chuỗi thời gian.
Bước 4 : Xác định các quan hệ mờ.
Bước 5 : Dự báo và giải mờ như sau:
Mối quan hệ mờ của phần tử k và k+1 là A i → A j
Tính các giá trị sau:
E i, E i-1, E i-2 lần lượt là các giá trị tại thời điểm t, t 1, t 2,
A i, A j lần lượt là các giá trị mờ tại thời điểm t, t+1,
F j là giá trị dự báo tại thời điểm t+1. c) Mô hình Heuristic Đây là thuật toán của Kunhuang Huarng, khoa tài chính, Đại học Công nghệ Chao yang, Đài Loan, được đăng trên tạp chí “Fuzzy Sets and System” năm 2001.
Mô hình gồm có 5 bước:
Bước 1 : Xác định tập nền U trên các giá trị lịch sử của chuỗi thời gian Chia tập U thành các đoạn đều nhau.
Bước 3 : Xác định các mối quan hệ mờ và các nhóm quan hệ mờ.
Bước 4 : Xác định nhóm quan hệ logic mờ như sau:
Ta có giá trị mờ F(t) có nhóm quan hệ mờ A j A A A A p , , , , q r s và hàm heuristic h x A A A A ; p , , , , q r s A p 1 , A p 2 , , A pk với x X t X t 1
Tiêu chuẩn đánh giá và vấn đề tính toán
2.4.1 Một số tiêu chuẩn đánh giá mức độ chính xác của dự báo
- Tiêu chuẩn thông tin Akaike (AIC)
- Sai số tuyệt đối trung bình
- Bình phương sai số trung bình
Bình phương sai số trung bình (Mean Square Error) có tác dụng phóng đại các sai số dự báo có trị tuyệt đối lớn, do đó chú trọng tới các quan sát đặc biệt (vượt trội) trong mẫu, tuy nhiên nó không có cùng đơn vị đo của các quan sát. Trong đó, n: là số lượng quan sát, y i : Giá trị quan sát tại thời điểm thứ i, ˆ i y : Giá trị dự báo tại thời điểm thứ i, z: Số tham số ước lượng của mô hình dự báo.
2.4.2 Vấn đề tính toán a) Xử lý dữ liệu mờ và trơn
- Làm trơn: Trong package “TTR” dùng hàm SMA, CMA và SES để làm trơn số liệu.
- Làm mờ: Trong package “AnalyzeTS” dùng Gfuzzy1.ts(x, ) làm mờ chuỗi thời gian theo các mô hình Chen, Singh, Heuristic và Chen-Hsu b) Các bước xây dựng mô hình dự báo
Bước 1: Nhận dạng mô hình.
- Dùng hàm ts.plot( ) để vẽ đồ thị cho chuỗi
- Dùng hàm print(adf.test(x)) trong library("tseries") để nhận dạng tính dừng hoặc xu hướng của chuỗi.
- Dùng hàm diff( ) để lấy sai phân.
Bước 2: Chọn và ước lượng hệ số mô hình tối ưu
- Dùng hàm PrintAIC(x, ) trong package “AnalyzeTS” để xác định một mô hình tối ưu.
- Dùng hàm arima( ) để ước lượng hệ số cho mô hình tối ưu tìm được.
Bước 3: Kiểm định mô hình
- Dùng hàm Box.test(x, ) kiểm định sai số của mô hình.
Bước 4: Dự báo tương lai.
- Dùng hàm predict( ) để thực hiện công việc này. c) Mô hình Abbasov – Mamedova
- Dùng hàm Gfuzzy.ts2( ) (nằm trong package AnalyzeTS) để mờ hóa và dự báo.
Tổng quan của việc dự báo
3.1.1 Đặc điểm của dự báo
Không có cách nào để xác định tương lai là gì một cách chắc chắn (tính không chính xác của dự báo) Dù phương pháp chúng ta sử dụng là gì thì luôn tồn tại yếu tố không chắc chắn cho đến khi thực tế diễn ra.
Luôn có điểm mù trong các dự báo Chúng ta không thể dự báo một cách chính xác hoàn toàn điều gì sẽ xảy ra trong tương lai Hay nói cách khác, không phải cái gì cũng có thể dự báo được nếu chúng ta thiếu hiểu biết về vấn đề cần dự báo.
Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính sách trong việc đề xuất các chính sách phát triển kinh tế, xã hội Chính sách mới sẽ ảnh hưởng đến tương lai, vì thế cũng sẽ ảnh hưởng đến độ chính xác của dự báo.
Có nhiều học giả có cách phân loại phương pháp dự báo khác nhau Tuy nhiên theo học giả Gordon, trong 2 thập kỷ gần đây, có 8 phương pháp dự báo được áp dụng rộng rãi trên thế giới (Bảng 3.1).
Bảng 3 1 Tổng hợp một số phương pháp dự báo thường dùng trên thế giới
2 Ngoại suy xu hướng/Trend extrapolation
3 Phương pháp chuyên gia/Consensus methods (có người gọi đây là phương pháp đồng thuận).
4 Phương pháp mô phỏng (mô hình hóa)/Stimulation
5 Phương pháp ma trận tác động qua lại/Cross-impact matrix method
6 Phương pháp kịch bản/Scenario
7 Phương pháp cây quyết định/Decision trees
8 Phương pháp dự báo tổng hợp/Combining methods
Bảng 3.1, đề cập đến 8 phương pháp được sử dụng phổ biến trên thế giới trong dự báo Tuy nhiên, theo cách phân loại tại Việt Nam các phương pháp dự báo thường chia thành 2 nhóm chính là phương pháp định tính và phương pháp định lượng. a) Phương pháp dự báo định tính
Phương pháp này dựa trên cơ sở nhận xét của những yếu tố liên quan, dựa trên những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong tương lai Phương pháp định tính có liên quan đến mức độ phức tạp khác nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết các sự kiện tương lai hay ý kiến phản hồi của một nhóm đối tượng hưởng lợi (chịu tác động) nào đó. b) Phương pháp dự báo định lượng
Mô hình dự báo định lượng dựa trên số liệu quá khứ, những số liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được Tất cả các mô hình dự báo theo định lượng có thể sử dụng thông qua chuổi thời gian và các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi.
Tuy nhiên hiện nay thông thường khi dự báo người ta thường hay kết hợp cả phương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo. Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua một phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mô tả đúng bản chất sự việc cần dự báo.
3.1.3 Tình hình dự báo của Việt Nam
Việt Nam hiện chủ yếu sử dụng 3 phương pháp (trong một phương pháp có thể có nhiều mô hình khác nhau) dự báo sau đây. a) Phương pháp nội suy
Bản chất của phương pháp nội suy là kéo dài quy luật đã hình thành trong quá khứ để làm dự báo cho tương lai Giả thiết cơ bản của phương pháp này là sự bảo toàn nhịp điệu, quan hệ và những quy luật phát triển của đối tượng dự báo trong quá khứ cho tương lai Thông tin cung cấp cho phương pháp nội suy là số liệu và động thái của đối tượng dự báo trong quá khứ qua một số năm nhất định,thông thường yêu cầu thời khoảng quá khứ có số liệu phải lớn hơn nhiều lần thời khoảng làm dự báo Phương pháp này thích hợp để dự báo những đối tượng phát triển theo kiểu tiệm tiến Phương pháp nội suy có ưu điểm là đơn giản, tuy nhiên,nhược điểm chính là không tính được ảnh hưởng của các yếu tố khách quan đến kết quả dự báo. b) Phương pháp chuyên gia
Bản chất của các phương pháp chuyên gia là lấy ý kiến của các chuyên gia để làm kết quả dự báo Phương pháp này được triển khai theo một quy trình chặt chẻ bao gồm nhiều khâu: thành lập nhóm chuyên gia, đánh giá năng lực chuyên gia, lập biểu câu hỏi và xữ lý toán học kết quả thu được từ ý kiến chuyên gia Khó khăn của phương pháp này là việc tuyển chọn và đánh giá khả năng của các chuyên gia Phương pháp này được áp dụng có hiệu quả cho những đối tượng thiếu (hoặc chưa đủ) số liệu thống kê, phát triển có độ bất ổn lớn hoặc đối tượng của dự báo phức tạp không có số liệu nền Kết quả của phương pháp dự báo này chủ yếu phục vụ cho nhu cầu định hướng, quản lý vì thế kết hợp (trong trường hợp có thể) với các phương pháp định lượng khác. c) Phương pháp mô hình hóa
Bản chất của phương pháp này là kế thừa hai phương pháp nói trên Cách thức tiếp cận của phương pháp này là dùng hệ thức toán học để mô tả mối liên hệ giữa đối tượng dự báo với các yếu tố có liên quan Khó khăn của phương pháp này là phải viết được chính xác hệ thức toán học nói trên Phương pháp mô hình hóa áp dụng cho nghiên cứu kinh tế, tài nguyên-môi trường sẽ phải sử dụng nhiều phương trình của mô hình kinh tế lượng vì đối tượng dự báo (mối liên hệ giữa hoạt động kinh tế và chất lượng môi trường, sử dụng tài nguyên) có số liệu liên quan đến nhiều yếu tố kinh tế ví dụ GDP, giá cả,… Phương pháp này yêu cầu số liệu của nhiều yếu tố hữu quan trong quá khứ Trong khi đó, phương pháp ngoại suy chỉ yêu cầu một loại số hiệu Tuy nhiên, phương pháp này cũng có ưu điểm, đó là có thể giải thích được kết quả dự báo và có thể phân tích ảnh hưởng của các yếu tố liên quan đến kết quả dự báo.
Tổng quan vấn đề thực hiện
3.2.1 Ý nghĩa của việc dự báo thời tiết
Trong thời đại công nghệ thông tin và toàn cầu hóa, nhu cầu về thông tin thị trường, tình hình phát triển tại thời điểm nào đó trong tương lai rất cần thiết Dự báo được sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một yêu cầu về dự báo riêng.
Việt Nam là một trong các quốc gia có tiềm năng đáng kể về năng lượng mặt trời Các số liệu khảo sát về lượng bức xạ mặt trời cho thấy các địa phương phía bắc bình quân có khoảng từ 1800-2100 giờ nắng trong một năm, còn các tỉnh phía nam, trong đó có Cần Thơ, có khoảng 2000-2600 giờ nắng trong một năm Để đánh giá, dự báo ngắn hạn và dài hạn về tiềm năng khai thác năng lượng mặt trời, đòi hỏi cần có những nghiên cứu về sự biến đổi và sự phân bố của các dãy bức xạ tổng hàng ngày đo được trên mặt đất, hay một dạng vô hướng tương đương dãy chỉ số sáng Nhằm mô hình hoá sự biến đổi của dãy chỉ số sáng, sau đó sử dụng mô hình để tạo ra lượng lớn dữ liệu mô phỏng dùng để ước lượng phân bố thực nghiệm cho dãy chỉ số sáng trong một chu kỳ thời gian Các tham số của mô hình sẽ được ước lượng từ dữ liệu thực Kết quả của đề tài sẽ được áp dụng thử nghiệm trên các dữ liệu đo được tại thành phố Cần Thơ Bên cạnh đó dữ liệu này cũng góp một phần vào việc minh họa cho các phương pháp dự báo, từ đó ứng dụng cho nhiều lĩnh vực khác nhau của xã hội.
3.2.2 Tổng quan việc thực hiện a) Mục tiêu
Sử dụng số liệu của quá khứ giai đoạn 1/2002- 12/2014 của chỉ số giờ nắng tại thành phố Cần Thơ, tìm mô hình chuỗi thời gian thích hợp nhất, từ đó dự báo được nhiệt độ cho những 12 tháng tiếp theo. b) Số liệu
Số liệu được cung cấp từ Tổng cục Thống kê Thành phố Cần Thơ Cụ thể tại mỗi trạm đo chúng ta sử dụng số liệu chỉ số sáng (giai đoạn tháng 1 năm 2002 – tháng 12 năm 2014). c) Phương pháp thực hiện
Tìm mô hình tối ưu nhất cho dự báo và tiến hành dự báo cho chỉ số 24 tháng tiếp theo Cụ thể các bước sau được thực hiện:
Làm mờ hóa và trơnvhóa dữ liệu gốc Sử dụng tiêu chuẩn sai số trung bình bé nhất để chọn bộ số liệu tối ưu.
Xây dựng mô hình của chuỗi thời gian từ bộ số liệu gốc, sử dụng tiêu chuẩn AIC để lựa chọn mô hình tốt nhất cho dự báo.
Kết quả xử lý được thực hiện trên phần mềm thống kê R, các kiểm định thực hiện với mức ý nghĩa 5%.
Dự báo từ dữ liệu gốc
3.3.1 Kiểm tra tính dừng của chuỗi
Hình 3 1 Biểu đồ thống kê mô tả chuỗi số giờ nắng tại TP Cần Thơ
Từ đồ thị trên ta có thể thấy chuỗi là chuỗi dừng phương sai thay đổi Ta sử dụng kiểm định Dickey Filler và có kết quả
Bảng 3 2 Kiểm định Dickey-Fuller Test
Từ kết quả bảng 3.1, ta thấy giá trị P_value = 0,01 < 0,05 nên khẳng định rằng chuỗi dữ liệu đã cho có tính dừng.
3.3.2 Xác định mô hình SARIMA tối ưu
Căn cứu vào tiêu chuaant AIC ta tìm bậc của mô hình ARIMA tối ưu như sau:
Bảng 3 3 Bảng chỉ số AIC các mô hình
STT Mô hình AIC Sort by AIC
Từ kết quả trên ta thấy mô hình SARIMA(1,0,1)*(0,1,1),s có AIC nhỏ nhất nên mô hình tối ưu nhất Sau khi ước lược ta được mô hình sau:
Bảng 3 4 Kết quả ước lượng mô hình
3.3.3 Kiểm định phần dư của mô hình
Từ ước lượng mô hình SARIMA(1,0,1)*(0,1,1),s Ta tiến hành kiểm định tính dừng phần dữ của chuỗi.
Biểu đồ chuỗi sai số dao động quanh giá trị 0, nhìn vào biểu đồ Histogram chúng ta thấy chuỗi sai số có dạng phân bố chuẩn
Bảng 3 5 Kiểm định Box-Ljung test
Kiểm định Ljung-Box cho giá trị p-value = 0,1803 > 0,05 Vậy mô hình là đầy đủ và có thể dùng để dự báo cho tương lai.
3.3.4 Dự báo cho 12 tháng tiếp theo
Sử dụng mô hình SARIMA(1,0,1)*(0,1,1),s dự báo cho 12 tháng tiếp theo ta được kết quả:
Hình 3 3 Biểu đồ dự báo của mô hình cho 12 tháng tiếp theo
Bảng 3 6 Kết quả dự báo cho 12 tháng tiếp theo
Kết quả dự báo của mô hình cho thấy, chỉ số giờ nắng có xu hướng tăng cao vào giai đoạn 6 tháng cuối năm Đỉnh điểm số giờ nắng cao nhất rơi vào tháng 07/2015 đạt chỉ số 144,37 (giờ).
3.4 Dự báo từ dữ liệu làm trơn hóa
Chúng ta tiến hành làm trơn bộ dữ liệu và sau đó dùng bô dữ liệu làm trơn để phân tích Ở đây ta sẽ chọn khoảng trượt là 3.
Hình 3 4 Biểu đồ làm trơn của 9 phương pháp làm trơn dữ liệu
Ta tiến hành so sánh và chọn chuỗi làm trơn có sai số nhỏ nhất.
Bảng 3 7 Kết quả trơn hóa dữ liệu
Thực tế sma.3 ema.3 dema
01/2002 69 NA NA NA NA NA NA NA 107.2
02/2002 43 NA NA NA NA NA NA 59.3 94.4
Dựa vào kết quả làm trơn của các phương pháp Ta thấy sai số MSE của phương pháp DEMA.3 có sai số nhỏ nhất Nên ta tiến hành phân tích chuỗi thời gian trên dữ liệu làm trơn này.
3.4.2 Kiểm tra tính dừng của chuỗi trơn hóa DEMA.3
Hình 3 5 Biểu đồ thống kê mô tả chuỗi trơn hóa bằng phương pháp DEMA.3
Từ đồ thị trên ta có thể thấy chuỗi là chuỗi dừng phương sai thay đổi Ta sử dụng kiểm định Dickey Filler và có kết quả
Bảng 3 8 Kiểm định Dickey-Fuller Test
Từ kết quả bảng 3.1, ta thấy giá trị P_value = 0,01 < 0,05 nên khẳng định rằng chuỗi dữ liệu đã cho có tính dừng.
3.4.3 Xác định mô hình SARIMA tối ưu
Căn cứu vào tiêu chuaant AIC ta tìm bậc của mô hình ARIMA tối ưu như sau:
Bảng 3 9 Bảng chỉ số AIC các mô hình
STT Mô hình AIC Sort by AIC
Từ kết quả trên ta thấy mô hình SARIMA(2,0,2)*(2,1,0),s có AIC nhỏ nhất nên mô hình tối ưu nhất Sau khi ước lược ta được mô hình sau:
Bảng 3 10 Kết quả ước lượng mô hình
Variable ar1 ma1 ma2 sar1 sar2
3.4.4 Kiểm định phần dư của mô hình
Từ ước lượng mô hình SARIMA(2,0,2)*(2,1,0),s Ta tiến hành kiểm định tính dừng phần dữ của chuỗi.
Hình 3 6 Biểu đồ thống kê mô tả phần dư của chuỗi dự báo
Biểu đồ chuỗi sai số dao động quanh giá trị 0, nhìn vào biểu đồ Histogram chúng ta thấy chuỗi sai số có dạng phân bố chuẩn
Bảng 3 11 Kiểm định Box-Ljung test
Kiểm định Ljung-Box cho giá trị p-value = 0,7336> 0,05 Vậy mô hình là đầy đủ và có thể dùng để dự báo cho tương lai.
3.4.5 Dự báo cho 12 tháng tiếp theo
Sử dụng mô hình SARIMA(2,0,2)*(2,1,0),s dự báo cho 12 tháng tiếp theo ta được kết quả
Hình 3 7 Biểu đồ dự báo của mô hình cho 12 tháng tiếp theo Bảng 3 12 Kết quả dự báo cho 12 tháng tiếp theo
Kết quả dự báo của mô hình cho thấy, chỉ số giờ nắng có xu hướng tăng cao đến tháng 08/2015 và giảm dần đến cuối năm Đỉnh điểm số giờ nắng cao nhất rơi vào tháng 08/2015 đạt chỉ số 142,66 (giờ) Giai đoạn từ tháng 06/2015 –10/2015 là giai đoạn có số thời nắng cao nhất trong năm, giai đoạn này rơi vào mùa hè.
Dự báo từ dữ liệu làm mờ hóa
Lấy số liệu đã được lấy như trên
Mờ hóa từ dữ liệu gốc theo mô hình của Chen, Singh, Heuristic và Chen- Hsu, Abbasov-Mamedova với 25 tập mờ Ta có:
Bảng 3 13 Kết quả mờ hóa dữ liệu
Tháng Thực tế Chen25 Singh25 Heuristic25 Chen.hsu2
Dựa vào kết quả làm trơn của các phương pháp Ta thấy sai số MSE của phương pháp Chen.Hsu25 có sai số nhỏ nhất Nên ta tiến hành phân tích chuỗi thời gian trên dữ liệu làm trơn này.
Hình 3 8 Biểu đồ mô hình Chen, Singh, Heuristic và Chen-Hsu, Abbasov-
3.5.2 Kiểm tra tính dừng của chuỗi
Hình 3 9 Biểu đồ thống kê mô tả chuỗi trơn hóa bằng phương pháp Chen- Hsu
Từ đồ thị trên ta có thể thấy chuỗi là chuỗi dừng phương sai thay đổi Ta sử dụng kiểm định Dickey Filler và có kết quả.
Bảng 3 14 Kiểm định Dickey-Fuller Test
Từ kết quả bảng 3.13, ta thấy giá trị P_value = 0,01 < 0,05 nên khẳng định rằng chuỗi dữ liệu đã cho có tính dừng.
3.5.3 Xác định mô hình SARIMA tối ưu
Căn cứu vào tiêu chuẩn AIC ta tìm bậc của mô hình ARIMA tối ưu như sau:
Bảng 3 15 Bảng chỉ số AIC các mô hình
STT Mô hình AIC Sort by AIC
Từ kết quả trên ta thấy mô hình SARIMA(1,0,1)*(0,1,1),s có AIC nhỏ nhất nên mô hình tối ưu nhất Sau khi ước lược ta được mô hình sau:
Bảng 3 16 Kết quả ước lượng mô hình
3.5.4 Kiểm định phần dư của mô hình
Từ ước lượng mô hình SARIMA(1,0,1)*(0,1,1),s Ta tiến hành kiểm định tính dừng phần dữ của chuỗi.
Hình 3 10 Biểu đồ thống kê mô tả phần dư của chuỗi dự báo
Biểu đồ chuỗi sai số dao động quanh giá trị 0, nhìn vào biểu đồ Histogram chúng ta thấy chuỗi sai số có dạng phân bố chuẩn
Bảng 3 17 Kiểm định Box-Ljung test
Kiểm định Ljung-Box cho giá trị p-value = 0,2162 > 0,05 Vậy mô hình là đầy đủ và có thể dùng để dự báo cho tương lai.
3.5.5 Dự báo cho 12 tháng tiếp theo
Sử dụng mô hình SARIMA(1,0,1)*(0,1,1),s dự báo cho 12 tháng tiếp theo ta được kết quả:
Hình 3 11 Biểu đồ dự báo của mô hình cho 12 tháng tiếp theo
Bảng 3 18 Kết quả dự báo cho 12 tháng tiếp theo
Kết quả dự báo của mô hình cho thấy, chỉ số giờ nắng có xu hướng tăng cao đến tháng 08/2015 và giảm dần đến cuối năm Đỉnh điểm số giờ nắng cao
Dự báo
Từ các mô hình tối ưu đã được lựa chọn ở phần trên, ta tiến hành dự báo số lượng giờ nắng của thành phố Cần Thơ.
Bảng 3 19 Số lượng giờ nắng của Cần Thơ giai đoạn 01/2015 – 12/2015
Dựa vào kết quả trên cho thấy mô hình SARIMADEMA(2,0,2)*(2,1,0),s cho kết quả dự báo tốt nhất.
Hình 3 12 Biểu đồ dự báo của 3 mô hình tối ưu
- Kết quả cho thấy cả 3 mô hình dự báo điều có xu hướng số giờ nắng giảm từ tháng 01/2015 – 03/2015, tiếp đó tăng dần từ thàng 04/2015 – 09/2015 và sau đó có xu hướng giảm đến cuối năm Đỉnh điểm số giờ năng tập trung ở các tháng 05/2015 – 8/2015.
- Dự vào kết quả AIC ta thấy mô hình SARIMADEMA(2,0,2)*(2,1,0),s có chỉ sốAIC nhỏ nhất nên ta có thể sử dụng kết quả dự báo của mô hình này.
Kết luận
Trong những năm gần đây các công cụ toán học về thống kê nói chung và hồi qui, chuỗi thời gian,…nói riêng được sử dụng rộng rải trong khí tượng thủy văn Cơ sở của điều này là ý tưởng xây dựng mô hình và dự báo cho những giá trị tiếp theo.
Quá trình xây dựng mô hình để tìm mối liên hệ giữa các biến thì luôn xuất hiện nguyên nhân làm cho mô hình thiếu chính xác Sự phụ thuộc của khí tượng thủy văn vào biến thời gian t khá phức tạp và không rõ nét Đề tài trình bài tương đối chi tiết về lý thuyết và một số mô hình dự báo chuỗi thời gian cũng như các vấn đề liên quan. Ứng dụng trong dữ liệu thực: làm mờ và dự báo bằng các mô hình Chen, Singh, Heuristic, Chen-Hsu, Abbasov-Mamedova và ARIMA Tất cả đều được thực hiện bằng phần mềm R.
Và kết quả đạt được sau thời gian thực hiện luận văn như sau:
- Tổng kết nột cách có hệ thống các mô hình chuỗi thời gian Trình bày các phương pháp xử lý số liệu ban đầu cho các mô hình Khảo sát các mô hình chỉ số sáng trung bình, từ đó lựa chọn mô hình tối ưu và tiến hành dự báo cho các thời điểm khác nhau.
-Việc hoàn thành luận văn, tôi đã bắt đầu là quen với việc nghiên cứu một cách có hệ thống, có phương pháp và có định hướng rõ ràng Các kinh nghiệm thu được trong việc xác định phương hướng của đề tài, tìm kiếm tài liệu, đọc và tổng hợp kiến thức cũng như trình bài theo hướng riêng,… là kinh nghiệm rất quí báo đối với tôi trong suốt quá trình học tập.
Định hướng
Trong những năm tới, chúng tôi sẽ tiếp tục những nghiên cứu: i) Kiểm tra tính chính xác của mô hình dự báo qua các số liệu số giờ nắng những năm tiếp theo Bổ sung thêm số liệu thực tế để điều chỉnh mô hình. ii) Cập nhật các mô hình dự báo được công bố, đặc biệt là các mô hình chuỗi thời gian mờ để tìm kiếm các mô hình dự báo tốt hơn. iii) Áp dụng các mô hình dự báo cho các lĩnh vực khác nhau của thực tế có nhu cầu.