Được sử dụng để dự đoán (giá trị, xu hướng) tương lai dựa vào dữ liệu lịch sử, Microsoft Time Series là phương pháp điển hình dùng để dự đoán giá trị của biến liên tục theo thời gian. Để tạo một mô hình sử dụng thuật toán Microsoft Time Series, các bước thực hiện như sau:
Tạo một Mining model structure. Hiệu chỉnh Mining model.
Sử dụng Mining model.
Trong Time Series Charts, cả dữ liệu lịch sử và dữ liệu dự đoán tương lai đều được thể hiện. Phần bên trái đường phân cách (đường thẳng đứng) là dữ liệu lịch sử và hiện tại, phần bên phải là time series dự đoán.
Dữ liệu training là dữ liệu của 4 năm ở cửa hàng: 2009, 2010, 2011, 2012.
Thuật toán Microsoft Time Series cung cấp các biến (parameters) làm ảnh hưởng tới mô hình, dữ liệu thời gian đã phân tích. Thay đổi các thuộc tính này có thể tác động đáng kể cách mô hình khai phá tạo các dự đoán
Tham số Giá trị
mặc định Giá trị dùng Mô tả
Periodicity_hint 1 12 Tham số cung cấp cho thuật toán các giai đoạn thời gian chúng ta mong đợi sẽ thể hiện trong dữ liệu. Do chúng ta cần dự đoán theo tháng, 12 tháng trong năm nên thiết lập PERIODICITY_HINT =12 để chỉ có 12 tháng để tạo nên một chu trình bán hàng
Forecasting Method None MIXED Dùng để quyết định sử dụng thuật toán hồi quy nào, ARIMA hay ARTXP hoặc MIXED nếu muốn cả hai, hệ thống sẽ tự động đưa ra kết quả tốt dự trên cả 2 thuật toán Missing_value_substitution None 0 Giá trị 0 sẽ lấp đầy các vị trí bị
41
a. Dự đoán xu hƣớng doanh số bán hàng trong thời gian tiếp theo
Một view được truy vấn từ kho dữ liệu cho dữ diệu huấn luyện như bên dưới:
Hình 3.18. Dữ liệu huấn luyện mô hình dự đoán xu hướng kinh doanh
Dữ liệu huấn luyện cho mô hình là từ tháng 1/2009 đến tháng 9/2012. Tập dữ liệu test là các tháng 10,11,12 năm 2012. Ta có kết quả sau khi chạy mô hình như bên dưới
Hình 3.19. Biểu đồ dự đoán xu hướng kinh doanh
Đường dự đoán cho từ tháng 10/2012 đến năm sau là đường nét đứt bên phải sau đường đứng thứ nhất, bắt đầu mốc thời gian là 25/10/2012. Dựa vào chart ta có thể thấy
42
ba tháng cuối năm 2012 doanh thu của cửa hàng rất tốt và năm 2013 cũng sẽ là năm kinh doanh tốt cho cửa hàng, tổng doanh thu sẽ cao hơn các năm trước. Ngoài ra nhìn vào mô hình của dữ liệu lịch sử, bên trái đường dự đoán, ta thấy một số quy luật bán hàng: Doanh số của cửa hàng nhiều nhất vào các tháng cuối năm và tháng đầu năm như tháng 11, tháng 12 và tháng 1 năm tiếp theo. Vì những tháng này có nhiều sự kiện đặc biệt ví dụ như Hallowen, giáng sinh, năm mới …. Điều đó có thể giúp các nhà phân tích thị trường nắm bắt được nhu cầu mua sản phẩm của cửa hàng, đưa ra các chiến lược kinh doanh
Sử dụng dữ liệu test tức dữ liệu bán hàng thật sự từ 1/2009 đến tháng 12/2012 để tạo một biểu đồ thể hiện doanh thu của cửa hàng theo tứng tháng nhằm so sánh với biểu đồ được đưa ra từ mô hình như bên dưới:
Hình 3.20. Biểu đồ doanh số kinh doanh
Đây là các giá trị thật của doanh số kinh doanh qua 4 năm. Ba tháng 10,11,12/2012 là phía bên tay phải của đường ngăn cách đứng. Kết quả cho thấy 3 tháng cuối năm 2012 doanh số tăng một cách rõ rệt. Chứng tỏ mô hình đã đưa ra xu hướng dự đoán rất tốt. Để dễ dàng đối chiếu, tôi đã ghép hai biểu đồ gần nhau như bên dưới
43
Kết quả từ mô hình Giá trị thật
Hình 3.21. So sánh kết quả dự báo và giá trị thật sự
b. Dự đoán doanh số bán hàng trên từng thể loại DVD ở các quốc gia
Dữ liệu training là dữ liệu từ tháng 1- 2009 đến tháng 6-2012. Tôi giữ lại dữ liệu 6 tháng năm 2012 cho việc kiểm tra độ tin cậy của mô hình dự đoán. Một View được query từ kho dữ liệu cho mô hình như bên dưới:
44
Hình 3.23. Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực
Tại mỗi quốc gia số lượng tiêu thụ sản phẩm mỗi tháng là khác nhau. Điều này có giải thích do hành vi mua, văn hóa đất nước, chiến lược marketing, …
Hình trên cho ta thông tin DVD loại Action được bán nhiều nhất tại Australia, vào tháng 3,4,5 số lượng thấp hơn so với các tháng. Pháp cũng là quốc gia tiêu thụ thể loại Action cao của cửa hàng. Hiên tại Đức đang có doanh số thấp hơn cả, điều đó cho thấy chủ cửa hàng nên đưa ra một vài chiến lược quảng bá tại nước này hoặc có thể cư dân Đức không chuộng các thể loại DVD của cửa hàng.
Đƣa ra kết dự đoán time series bằng truy vấn
Một mô hình khai phá theo thuật toán Microsoft Time series đã được tạo, bạn có thể view kết quả thông qua chart. Ngoài ra bằng cách viết các câu truy vấn chúng ta có kết quả dự báo dưới dạng bảng:
45
Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng
Để tìm mô hình tốt nhất tôi đã thay đổi các giá trị tham số, bên dưới là các giá trị tham số của một số lần thay đổi.
Missing_value _substitution Periodicity_hint Prediction _Smoothing Auto_detect _periodicity Complexity _penalty 1st 0 12 0.5 0.6 0.1 2nd Mean 6 0.5 0.6 0.1 3rd Mean 12 0.5 0.6 0.1 4th 0 6 0.5 0.6 0.1 5th 0 6 0.5 0.8 0.1 6th 0 6 0.5 0.3 0.1 7th 0 6 0.5 0.6 0.5 8th 0 6 0.8 0.6 0.5
46
Hình dưới là kết quả dự đoán sau các lần thay đổi tham số trên được so sánh với kết quả thực tế được liệt kê bên dưới. Đây là kết quả dự đoán cho thể loại DVD Action được bán từ tháng 7/2012 đến 12/2012. Cột “Actual value” là giá trị thật sự, dùng để so sánh với kết quả dự đoán.
Hình 3.25. So sánh kết quả dự đoán và thực tế cho thể loại Action
Nhìn vào bảng có thể thấy giá trị tham số của lần 3, lần 7 có xác suất dự đoán gần với kết quả thực tế nhất