a. Khái niệm
Hồi quy tự động là một kỹ thuật trong việc xử lý dãy thời gian. Một quá trình hồi quy tự động là một quá trình mà các giá trị x và thời gian (xt) là một hàm của các giá trị của x tại thời gian trước. Ví dụ:
Xt = f(Xt-1 , Xt-2, Xt-3, …, Xt-n) + 𝜺t
Trong đó xt là một dãy thời gian và n là thứ tự của hồi quy tự động, n thường nhỏ hơn độ dài dãy thời gian. Thành phần cuối cùng 𝜺 miêu tả độ nhiễu (noise). [23]
b. Thuật toán Microsoft Time Series
Một dãy thời gian bao gồm một chuỗi các dữ liệu được thu thập một cách liên tiếp theo trục tăng của thời gian hay theo một trật tự nào đó. Sự tăng về mặt thời gian trong một dãy thời gian có thể là rời rạc hoặc liên tục. Mục đích của việc thu thập dữ liệu theo thời gian là để dự báo trước, hoặc đưa ra các dự đoán về các giá trị trong tương lai
Thuật toán Microsoft Time Series cung cấp các thuật toán hồi quy được tối ưu hóa cho việc dự báo các giá trị liên tục theo thời gian, giống như doanh số bán hàng theo từng năm. Mô hình Microsoft Time Series có thể dự đoán xu hướng dựa trên bộ dữ liệu lịch sử. Trong Sql Server 2008 thuật toán Microsoft Time Series sử dụng cả thuật toán ARTXP và ARIMA. ARTXP là viết tắt của “Auto Regression Trees with Cross Predict”, được dùng như cây hồi quy tự động để dự đoán tương lai dựa trên dữ liệu lịch sử bao gồm lịch sử từ các giai đoạn khác nhau. Còn ARIMA là viết tắt của “Auto Regressive Integrated Moving Average”, được hiểu như thuật toán hồi quy tự động có tiềm năng cho tính không ổn định trong các dự đoán có chu kỳ dài. Vậy bạn sẽ phải quyết định chọn thuật toán nào cho chu kỳ ngắn, thuật toán toán nào cho chu kỳ dài thiếu ổn định? Câu trả lời là không. Thuật toán Time Series trong Sql Server 2008 mặc định được xây dựng dùng cả hai mô hình với hai thuật toán. Thuật toán này tạo ra những mô hình được sử dụng để dự đoán các biến tiếp theo. Ví dụ sử dụng thuật toán này để dự đoán bán hàng và lợi nhuận của năm tiếp theo dựa vào dữ liệu quá khứ.
Các tham số trong thuật toán Microsoft Time Series:
Minimum_Support: được sử dụng để xác định số lượng các trường hợp nhỏ nhất của mỗi node lá
Complaxity_Penalty: Được sử dụng để điều khiển sự lớn lên của cây. Nó giá trị trong khoảng [0,1]. Giá trị này càng nhỏ, cây thu được càng lớn.
21
Historical_Model_Gap: được sử dụng để xác định khoảng thời gian giữa các mô hình lịch sử
Periodicity_Hint: cung cấp gợi ý cho thuật toán về thông tin chu kỳ của dữ liệu Auto_Detect_Periodicity: nó là một số thực trong khoảng [0,1] để xác định chu kỳ. Maximum_Series_Value: xác định giới hạn trên của các giá trị được dự báo
Minimum_Series_Value: xác định giới hạn dưới của các giá trị được dự báo. Missing_Value_Substitution: xác định phương thức để lấp đầy các giá trị còn thiếu
trong tập dữ liệu lịch sử