Một trong nhưng cách tiếp cận khác, có thể coi là phổ biến nhất, là các thuật toán thời gian truyền thống. Có thể thấy rằng, Đặc tính của dữ liệu chuỗi thời gian là không được sinh ra một cách độc lập, sự phân tán của dữ liệu thay đổi theo thời gian [19] . Đối với phương pháp này, người ta thường quan tâm quan tâm đến bốn thành phần như sau:
• Thành phần xu hướng dài hạn (long – term trend component): thành phần này dùng để chỉ xu hướng tăng hay giảm của đại lượng quan sát trong thời gian dài.
• Thành phần mùa (seasonal component) : thành phần này dùng để chỉ xu hướng tăng hay giảm của đại lượng quan sát tính theo mùa trong năm.
• Thành phần chu kỳ (cyclical component): thành phần này chỉ sự thay đổi của đại lượng quan sát theo chu kỳ. Thành phần này khác thành phần mùa ở chỗ chu kỳ của đại lượng quan sát có thể kéo dài hơn 1 năm.
• Thành phần bất thường (irregular component) : thành phần này dùng để chỉ sự thay đổi bất thường của các giá trị trong chuỗi thời gian. Sự thay đổi này không thể dự đoán bằng các số liệu kinh nghiệm trong quá khứ.
Có rất nhiều mô hình chuỗi thời gian khác nhau. Trong luận văn này, em sử dụng hai loại mô hình là mô hình trung bình trượt tích hợp (Autoregressive integrated moving average - ARRIMA) và mô hình trung bình trượt tích hợp mùa (Seasonal autoregressive integrated moving average - SARRIMA), được mô tả như dưới đây.
Mô hình trung bình trượt tích hợp
Mô hình trung bình trượt tích hợp (ARIMA) là một trong những mô hình phân tích chuỗi thời gian quan trọng và phổ biến nhất [8]. Sự phổ biến của mô hình là do tính chất thống kê và phương pháp luận Box-Jenkin [8] nổi tiếng trong quá trình xây dựng mô hình. Mô hình ARIMA là sự tích hợp của hai mô hình là tự hồi quy (autoregressive - AR) và trung bình trượt (moving average - MA). Dạng tổng quát của mô hình như sau:
yt =a0+a1yt1+...+apyt p+et+b1et1+b2et2+...+bqetq (2.2) Trong đó:
• yt là quan sát tại thời điểmt.
• et là nhiễu ngẫu nhiên tại thời điểmt.
• a0,a1, ...,ap,b1,b2, ...,bq là các tham số mô hình. • p,qlà bậc của mô hình.
Mô hình trung bình trượt tích hợp có yếu tố mùa
Mô hình trung bình trượt tích hợp có yếu tố mùa (SARIMA), được kế thừa từ mô hình ARIMA và thêm vào các yếu tố mùa, với mục đích dự đoán được các yếu tố vụ mùa khác nhau. Khi đó, mô hình tổng quát có dạng
SARIMA(p,d,q)(P,D,Q), (với p và Q lần lượt là bậc của thành phần mùa AR và MA, D là bậc sai phân có tính mùa, L là số thời đoạn trong một vòng chu kỳ).
Biến ngoại sinh và các mô hình chuỗi thời gian
Với mô hình ARIMA hoặc SARIMA, đầu vào là một chuỗi thời gian của dữ liệu cần xét. Tuy nhiên trong một số bài toán, trường dữ liệu cần dự
đoán còn phụ thuộc vào rất nhiều trường dữ liệu khác, là các trường dữ liệu ngoai sinh. Khi thêm các biến này vào mô hình, mô hình sẽ biến đổi thành ARIMAX, SARIMAX tương ứng, có thể coi như một mô hình hồi quy đã biến theo nhiều chuỗi độc lập [29] Cụ thể, trong quá trình nghiên cứu, các biến hóa học của sống được thêm vào quá trình này, ví dụ như NH3-N, NO3- N,PO4-P, T-N, T-P. Các biến này được thêm vào với kỳ vọng giúp thu được một hàm hồi quy tốt hơn. Một trong những vấn đề của mô hình là chọn các hệ số cho mô hình chuỗi thời gian. Trong quá trình thực nghiệm, kết quả tốt nhất cho bộ 3 (d,p,q) là (1,3,2)