Các bước phát triển mô hỡnh ARIMA

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phát hiện tri thức từ cơ sở dữ liệu chuỗi thời gian (Trang 26 - 30)

Cỏch tiếp cận ARIMA được Box và Jenkins phổ biến đầu tiên nên mô hỡnh ARIMA thường được coi là mô hỡnh Box-Jenkins.

Tiến trỡnh xõy dựng mụ hỡnh Box-Jenkins gồm 4 pha sau đây:

- Pha nhận dạng mụ hỡnh (Identification): Cỏc tham số phải được thiết lập.

Chuỗi thời gian được nhận dạng bởi giỏ trị trung bỡnh của cỏc phộp thống kờ khỏc nhau được tính từ dữ liệu gốc.

- Pha ước lượng mô hỡnh (Estimation): giỏ trị của cỏc tham số phải được ước lượng để tổng bỡnh phương phần dư là nhỏ nhất

- Pha thẩm định mô hỡnh (Validation): chuẩn đoán được thực hiện để kiểm định mô hỡnh cú hợp lý hay khụng và cú thể gợi ý cỏc mụ hỡnh khỏc

- Pha dự bỏo mụ hỡnh (Forecasting): Mụ hỡnh đó ước lượng được sử dụng để đưa ra dự báo và giới hạn khoảng tin cậy của dự báo

Trong thực hành, các pha này thường được lặp đi lặp lại. Để hoàn thiện, bất kỳ một tiến trỡnh xõy dựng mụ hỡnh cũng phải cú pha thứ 5 là theo dừi và cập nhật cỏc dự bỏo chớnh xỏc và xem chỳng như các dữ liệu mới vốn có sẵn để dùng.

*) Dự báo đạt được

Sau khi ước lượng và thẩm định một mô hỡnh Box-Jenkins, việc đạt được dự báo là rất có khả năng. Thành phần sai số ngẫu nhiên được xem là bằng 0 ở mọi thời điểm dự báo. Việc sử dụng một dự báo trong bất kỳ quá trỡnh đưa ra quyết định khiến chúng ta quan tâm đến mức độ sai số của dự báo, chẳng hạn chúng ta có thể đánh giá được độ chính xác của dự báo. Một phương án đó là giới hạn khoảng tin cậy của dự báo. Một cách khác đó là bắt đầu sinh ra dự báo từ mô hỡnh ở một số thời điểm trước khi kết thúc chuỗi. Dự báo sau thực tế cho thời điểm cuối có thể được so sánh với dữ liệu thực đó biết ở thời điểm này. Thời điểm bắt đầu dự báo được gọi là "dự báo gốc". Khi dự báo gốc được di chuyển đến thời điểm sớm hơn, giá trị chuỗi thực theo dự báo gốc không tham gia vào việc đưa ra dự báo cho thời điểm đó. Phép thống kê phù hợp cho sai số dự báo sau thực tế này có thể được tính giống như tính phần dư. Sai số chuẩn phần dư được sử dụng để tính giới hạn tin cậy dự báo. 95% mức tin cậy là mức thường được sử dụng nhất. Chú ý rằng sai số trong cỏc tham số sẽ khụng ảnh hưởng nghiêm trọng đến dự báo trừ khi số lượng điểm dữ liệu được sử dụng để làm thích hợp mô hỡnh là nhỏ. (Box-Jenkins, 1976). [10]

Cú thể chỉ ra rằng giỏ trị của dự bỏo ở thời gian t gốc và thời gian "tiến"(lead) l, được biểu thị bởi zˆ t ( l ) , bỡnh phương tối thiểu của sai số dự báo là kỳ vọng điều kiện của z t l

ở thời điểm t, trung bỡnh kỳ vọng của z t l khi biết tất cả kỳ vọng của các z đến thời điểm t, được biểu thị bởi t l

t z

E :

1 

t 1 t t

t ( ) E z

l l l a l a

trong đó zˆ t ( l ) được xem là là hàm của l với t cố định t, và được gọi là hàm dự báo cho thời gian gốc t. Cũng có thể chỉ ra sai số dự báo e t ( l ) z t l zˆ t ( l ) cho thời gian tiến l

1 t 1 1

t 1 t t ( )

e l a l a ll a

Khi E e t ( ) 0

t l , có thể chỉ ra rằng phương sai của sai số dự báo là:

2 2 2

2 )

1 ( ) l (

var e

(1.2.9)

(1.2.10)

(1.2.11)

Từ phương trỡnh (1.2.10), dự bỏo trước một bước là:

1 t t 1 t

t ( 1 ) z zˆ ( 1 )

e a

Vỡ vậy, cỏc "sốc" (shock) ngẫu nhiờn sinh ra tiến trỡnh trở thành sai số dự bỏo trước một bước (tuân theo dự báo sai số bỡnh phương trung bỡnh nhỏ nhất). Dự bỏo trước một bước phải không có tính tương quan. Mặc dù sai số dự báo tốt nhất ở thời gian tiến l là không tương quan thỡ sai số dự bỏo ở thời gian tiến lớn hơn vẫn thể hiện tương quan. Mặc dự một mụ hỡnh chuỗi thời gian cú thể thể hiện ở 3 dạng khỏc nhau cụ thể là dạng phương trỡnh sai phõn, dạng "sốc" ngẫu nhiờn và dạng nghịch đảo. Cách tính toán dự báo dễ nhất là sử dụng dạng phương trỡnh sai phõn.

Khi tớnh toỏn dự bỏo, cỏc giỏ trị a không biết được gán bằng các giá trị kỳ vọng không điều kiện của chúng và bằng 0. Thông thường, toán tử MA bậc q, phương trỡnh dự bỏo cho zˆ t ( 1 ), zˆ t ( 2 ),  , zˆ t ( q ) sẽ phụ thuộc trực tiếp vào các phần tử a nhưng đối với dự báo thời gian dài thỡ khụng đúng.

Từ phương trỡnh (1.2.10), ta thấy rằng để đạt được giới hạn xác suất cho dự báo ở các thời gian tiến 1,2,…,L, các trọng số 1 , 2 , …, L-1 phải được tính toán. Điều này có thể được thức hiện bởi việc thừa nhận phương trỡnh ( B ) ( B ) ( B ) . Thụng tin đưa ra cho đến thời điểm t, phân phối xác suất có điều kiện của giá trị tương lai z t l của tiến trỡnh sẽ là phõn phối "thường" (normal) với trung bỡnh zˆ t ( l ) và phương sai

2

1

1 j

2

1 j

)

( a

l

l V

và khi số cỏc theo dừi trong chuỗi tối thiểu là 50, ước lượng S 2 a , của phương sai 2 a , có thể đạt được từ dữ liệu chuỗi. Vỡ vậy, giới hạn xỏc suất cú thể biểu diễn như sau:

1 / 2 l 1

2

t l t / 2 j a

j 1

z ( ) z (l) ˆ u 1 S

trong đó

(1.2.12)

(1.2.13)

(1.2.14)

2

u / là độ lệch được làm trội bởi tỉ lệ thức / 2 của phân phối thường (Normal) . Khi đưa ra các thông tin có sẵn ở thời gian gốc t, có một xác suất của 1 , đó là các giá trị thực z t l . Xỏc suất này áp dụng cho các dự báo riêng lẻ, không chung cho các dự báo ở tất cả các thời gian tiến khác nhau. Ví dụ: nó đúng với xác suất 95%, giới hạn cho thời gian tiến 10 là nói đến giá trị z t 10 khi nú diễn ra. Tuy nhiờn, nú khụng cú giới hạn đồng thời cho phần dư của chuỗi ở mức xác suất này .

1.2.5.1 Nhận dạng mụ hỡnh (Model identification)

Nhận dạng là giai đoạn đầu tiên và quan trọng nhất. Ba số nguyên p,d,q trong ARIMA(p,d,q) trong quá trỡnh sinh chuỗi phải được xác định. Ngoài ra, mụ hỡnh ARIMA cú thể được mở rộng khi só sự tham gia của các các tham số thay đổi theo mùa, đó là các hạng thức tự hồi quy theo mùa và trung bỡnh trượt theo mùa. Mô hỡnh này tuy phức tạp trong ký hiệu và phộp toỏn nhưng các khái niệm cơ sở cho các hạng thức tự hồi quy và trung bỡnh trượt theo mùa vụ cũng tương tự như cho các hạng thức tự hồi quy và trung bỡnh trượt không theo mùa vụ.

Các phương pháp nhận dạng là các thủ tục thô được áp dụng cho một tập dữ liệu để chỉ ra dạng mô hỡnh thể hiện cú ý nghĩa cho việc nghiên cứu tiếp sau và để đạt được các giá trị p,d,q cần thiết cho mô hỡnh ARIMA tuyến tớnh tổng quỏt, bước đầu đạt được phỏng đoán cho các tham số.

Nhận dạng và ước lượng mô hỡnh là 2 giai đoạn thường phải gối lên nhau trong quá trỡnh xõy dựng mụ hỡnh.

Giai đoạn nhận dạng không có sẵn một công thức chính xác. Vỡ vậy cỏc phương pháp thống kê kém hiệu quả như kỹ thuật đồ thị và đánh giá vẫn được sử dụng.

Nhận dạng trong cách tiếp cận Box-Jenkins tiến hành bước đầu tiên là sai phân chuỗi một số lần để chuỗi đạt được tính dừng. Bước tiếp theo là xác định tiến trỡnh ARMA kết quả bằng việc sử dụng tương quan đồ của AC và PAC. ACF ước lượng cũng đưa ra các tham số ước lượng xấp xỉ. Kết quả xấp xỉ này rất có ích cho giai đoạn ước lượng để đưa ra giá trị ban đầu cho các thủ tục lặp dùng trong giai đoạn

đó. Tương quan đồ của AC là công cụ chính giúp chúng ta quyết định bậc sai phân thường.

Sau khi đạt được tính dừng, tương quan đồ của AC và ACF có thể đưa ra manh mối về việc lựa chọn bậc của toán tử AR và MA bằng việc tính toán các đặc tính của chúng với đặc tính của các ACF và PACF của AR và MA lý thuyết hay tiến trỡnh hỗn hợp.

Khi dùng ACF ước lượng như một công cụ để nhận dạng, nó cũn cú thể được dùng để xác định các đặc trưng chung.

1.2.5.2 Ước lượng mụ hỡnh (Model estimation):

Sau khi chọn được một tập các tham số phù hợp, bước tiếp theo là tính các giá trị cụ thể cho các tham số này từ dữ liệu chuỗi.

Hệ số của mụ hỡnh ARIMA được đánh giá cùng với sai số của mô hỡnh (phần dư- residual). Những đánh giá này được đi kèm với các tham số thống kê giống như các giới hạn tin cậy, các sai số chuẩn của hệ số, tầm quan trọng của các hệ số.

Quỏ trỡnh này cú thể lặp lại cho cỏc p,d,q khỏc nhau nếu giai đoạn xác định của mô hỡnh khụng chắc chắn. Vỡ giai đoạn xác định p,d,q là bước quan trọng nhất nên nhiều giá trị khác của p,q,d có thể được sử dụng.

Khi chuỗi thời gian chỉ là một mẫu của tiến trỡnh nú thể hiện, chỳng ta cần tớnh toỏn xấp xỉ hoặc ước lượng giá trị tham số thực. Vỡ vậy bước này được xem như

"ước lượng mô hỡnh"

Có 3 vấn đề trong khi ước lượng một mô hỡnh Box-Jenkins cụ thể cho chuỗi đưa ra:

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Phát hiện tri thức từ cơ sở dữ liệu chuỗi thời gian (Trang 26 - 30)

Tải bản đầy đủ (PDF)

(118 trang)