Chƣơng 2 Các khái niệm liên quan đến Business Intelligence
2.3. Một số kỹ thuật khai phá dữ liệu
2.3.1. Thuật tốn hồi quy tự động (Auto Regression Algorithm)
a. Khái niệm
Hồi quy tự động là một kỹ thuật trong việc xử lý dãy thời gian. Một quá trình hồi quy tự động là một quá trình mà các giá trị x và thời gian (xt) là một hàm của các giá trị của x tại thời gian trước. Ví dụ:
Xt = f(Xt-1 , Xt-2, Xt-3, …, Xt-n) + 𝜺t
Trong đĩ xt là một dãy thời gian và n là thứ tự của hồi quy tự động, n thường nhỏ hơn độ dài dãy thời gian. Thành phần cuối cùng 𝜺 miêu tả độ nhiễu (noise). [23]
b. Thuật tốnMicrosoft Time Series
Một dãy thời gian bao gồm một chuỗi các dữ liệu được thu thập một cách liên tiếp theo trục tăng của thời gian hay theo một trật tự nào đĩ. Sự tăng về mặt thời gian trong một dãy thời gian cĩ thể là rời rạc hoặc liên tục. Mục đích của việc thu thập dữ liệu theo thời gian là để dự báo trước, hoặc đưa ra các dự đốn về các giá trị trong tương lai
Thuật tốn Microsoft Time Series cung cấp các thuật tốn hồi quy được tối ưu hĩa cho việc dự báo các giá trị liên tục theo thời gian, giống như doanh số bán hàng theo từng năm. Mơ hình Microsoft Time Series cĩ thể dự đốn xu hướng dựa trên bộ dữ liệu lịch sử. Trong Sql Server 2008 thuật tốn Microsoft Time Series sử dụng cả thuật tốn ARTXP và ARIMA. ARTXP là viết tắt của “Auto Regression Trees with Cross Predict”, được dùng như cây hồi quy tự động để dự đốn tương lai dựa trên dữ liệu lịch sử bao gồm lịch sử từ các giai đoạn khác nhau. Cịn ARIMA là viết tắt của “Auto Regressive Integrated Moving
Average”, được hiểu như thuật tốn hồi quy tự động cĩ tiềm năng cho tính khơng ổn định
trong các dự đốn cĩ chu kỳ dài. Vậy bạn sẽ phải quyết định chọn thuật tốn nào cho chu kỳ ngắn, thuật tốn tốn nào cho chu kỳ dài thiếu ổn định? Câu trả lời là khơng. Thuật tốn Time Series trong Sql Server 2008 mặc định được xây dựng dùng cả hai mơ hình với hai thuật tốn. Thuật tốn này tạo ra những mơ hình được sử dụng để dự đốn các biến tiếp theo. Ví dụ sử dụng thuật tốn này để dự đốn bán hàng và lợi nhuận của năm tiếp theo dựa vào dữ liệu quá khứ.
Các tham số trong thuật tốn Microsoft Time Series:
Minimum_Support: được sử dụng để xác định số lượng các trường hợp nhỏ nhất của mỗi node lá
Complaxity_Penalty: Được sử dụng để điều khiển sự lớn lên của cây. Nĩ giá trị trong khoảng [0,1]. Giá trị này càng nhỏ, cây thu được càng lớn.
Historical_Model_Gap: được sử dụng để xác định khoảng thời gian giữa các mơ hình lịch sử
Periodicity_Hint: cung cấp gợi ý cho thuật tốn về thơng tin chu kỳ của dữ liệu Auto_Detect_Periodicity: nĩ là một số thực trong khoảng [0,1] để xác định chu kỳ. Maximum_Series_Value: xác định giới hạn trên của các giá trị được dự báo
Minimum_Series_Value: xác định giới hạn dưới của các giá trị được dự báo. Missing_Value_Substitution: xác định phương thức để lấp đầy các giá trị cịn thiếu
trong tập dữ liệu lịch sử