TH TIEN_NO (t-2) TIEN_NO (t-1) TIEN_NO (t0) SOKH (t-2) SOKH (t-1) SOKH t0 1 250 222 367 724 068 661 064 321 755 627 12 866 586 2 724 068 661 064 321 755 000 964 078 12 866 586 632 3 064 321 755 000 964 078 898 600 384 586 632 591 4 000 964 078 898 600 384 655 452 039 632 591 607 5 898 600 384 655 452 039 729 377 873 591 607 2 609 …
39
Mục tiêu của giải thuật chuỗi thời gian ART là đi tìm hàm f. Nếu f là một hàm tuyến tính, chúng ta cĩ:
Xt = a1Xt-1 + a2Xt-2 + a3Xt-3 + … + anXt-n + εt
Mơ hình này thường được gọi một cách đơn giản là lặp tự động hay AR, được đề xuất và giải quyết bởi Yule vào năm 1927. Theo cách này, giá trị hiện tại của chuỗi thời gian cĩ thể được ước lượng bởi tổng tuyến tính cĩ trọng số của các giá trị trước đĩ trong chuỗi; các trọng số chính là các hệ số lặp.
Cĩ một số cách để giải quyết vấn đề hệ số lặp. Phương pháp phổ dụng nhất là điều chỉnh dần các hệ số lặp bằng cách cực tiểu hố độ lệch trung bình giữa chuỗi thời gian mơ hình hố Xnmodel và chuỗi thời gian quan sát thực Xn. Các kết quả của quá trình cực tiểu hố trong một hệ tuyến tính với hệ số điều chỉnh an được thể hiện qua cơng thức Yule-Walker dưới đây:
Hình 2.8 Cơng thức Yule-Walker tính hệ số điều chỉnh tại bước lặp thứ n Cơng thức này cho phép chúng ta tính tốn các hệ số cho thuật tốn ART
Sử dụng nhiều chuỗi thời gian: Trong thuật ngữ của DMX, mỗi chuỗi thời gian là một trường hợp riêng. Số lượng điện thương phẩm theo từng tháng mà cơng ty điện lực bán cho khách hàng trong cả năm trước tạo thành 1 trường hợp trong chuỗi thời gian, mặc dù cĩ cả thảy 12 điểm dữ liệu. Một mơ hình dự đốn cĩ thể cĩ nhiều chuỗi thời gian. Ví dụ, một mơ hình cĩ thể chứa tất cả các chuỗi thời gian về sản phẩm, bao gồm tổng số khách hàng nợ tiền điện, số tiền khách hàng nợ, số lượng điện năng tổn thất, sản lượng điện thương phẩm, .v.v. Chuỗi thời gian khơng phải luơn luơn độc lập. Tổng số khách hàng nợ tiền điện số lượng điện năng tổn thất cĩ thể liên quan mật thiết với nhau; ART cũng nhận ra các quan hệ chéo nếu như chúng tồn tại. Đây là đặc trưng của thuật tốn này.
1 6 168 671 6 067 023 6 004 193 2 6 067 023 6 004 193 6 999 256 3 6 004 193 6 999 256 7 302 728 …
Tính chất mùa, vùng của chuỗi thời gian: Phần lớn chuỗi thời gian đều cĩ các mẫu mang đặc trưng mùa. Ví dụ, số tiền nợ của khách hàng đạt đỉnh vào tháng 2, hay quý 1 của năm. Trữ lượng nước vào mùa mưa sẽ lớn hơn mùa khơ nên sản lượng điện sản xuất vào mùa mưa sẽ lớn hơn, khả năng thiếu điện vào mùa mưa là thấp hơn nhiều so với mùa khơ. Với tính chất vùng, mức đỉnh nợ, số khách hàng nợ, sản lượng điện tiêu thụ tập trung ở thành thị, nơi cĩ mật độ dân cư lớn, nhiều khu cơng nghiệp. Trong cùng thành phố, khu vực trung tâm cĩ mức tiêu thụ điện năng cao hơn các khu vực khác. Trong các khu vực ngoại thành, nơi tập trung nhiều khu chế xuất mức tiêu thụ điện năng lớn hơn nhiều so với khu dân cư…
Cĩ nhiều kỹ thuật để giải quyết vấn đề mùa. Phần lớn các thuật tốn chuỗi thời gian đều phân tách các chuỗi thời gian và xử lý vấn đề mùa một cách độc lập. ART giải quyết vấn đề này rất dễ dàng. Trong suốt quá trình chuyển đổi, ART thêm vào các điểm dữ liệu lịch sử cho các mùa thơng qua tham số Periodicity_Hint với 8 lát cắt thời gian trước đĩ. Ví dụ, với số khách hàng nợ tiền điện từng tháng, tham số này được đặt là 12, do một năm cĩ 12 tháng. ART sẽ đưa vào quan sát cho các mẫu SOKH_NO (t-12), SOKH_NO (t-24), SOKH_NO (t-36), …, SOKH_NO (t-8*12), TIEN_NO (t-12), TIEN_NO (t-24), TIEN_NO (t-36), …., TIEN_NO (t-8*12) trong bảng. Nếu cĩ các mẫu dữ liệu theo năm trong dữ liệu, cây hồi qui sẽ sử dụng các quan sát với các lát cắt tương ứng với cơng thức hồi qui tại các nút trên cây.
Một chuỗi thời gian cĩ thể cĩ nhiều Periodicity_Hint. Ví dụ, sản lượng điện tiêu thụ của cơng ty điện lực đạt đỉnh vào tháng 7 của quý 3. Đây là tháng nĩng nhất trong cao điểm hè. Muốn ART thực hiện quan sát mẫu theo quý, cần đặt Periodicity_Hint = {3, 12}.
Phần tiếp theo mơ tả lớp các mơ hình cây hồi qui tự động (ART model). Biểu diễn các biến chuỗi thời gian bởi Y = (Y1, Y2, …, YT), dữ liệu chuỗi thời gian của các biến tương ứng là y = (y1, y2, …, yT). Chúng ta giới hạn các mơ hình chuỗi thời gian theo xác suất hậu nghiệm, khơng cĩ biến động bất thường. Theo đĩ, cơng thức của mơ hình như sau:
p(yt|y1, …, yt-1, ) = f(yt, yt-p, …, yt-1, ), p < t T (1)
Trong đĩ, f(.|., ) là họ các phân bố xác suất cĩ điều kiện đại diện cho cơng thức của mơ hình, là tập các tham số của mơ hình; yt độc lập với các biến y1, …, yt-1 tại các thời điểm phía trước và khơng thay đổi theo thời gian.
Giả thiết “p-oder Markov”: với p quan sát tại các thời điểm phía trước, yt độc lập với tất cả các quan sát đĩ. Hàm f(yt, yt-p, …, yt-1, ) được gọi là hàm hồi qui, yt là biến đích, (yt-p, …, yt-1) là các biến hồi qui.
41
2.2.1 Mơ hình ART
Mơ hình thơng dụng nhất được sử dụng để phân tích dữ liệu chuỗi thời gian là mơ hình hồi qui tuyến tính (AR). Mơ hình hồi qui tuyến tính với độ dài p, ký hiệu là AR(p), được xác định theo cơng thức:
f(yt, yt-p, …, yt-1, ) = N (m + ,
1 j t p j jy b 2) (2)
Với N (,2) là phân bố xác suất cĩ giá trị trung bình và phương sai 2,
= (m, b1, ..bp) các tham số của mơ hình.
Mơ hình hồi qui ART là mơ hình hồi qui tuyến tính trong đĩ các cận biên được định nghĩa bởi một cây quyết định, các nút lá của cây quyết định chứa các mơ hình hồi qui tuyến tính. Hình 2.8 là một ví dụ về mơ hình ART cĩ 03 mức được định nghĩa bởi biến Yt-1. Mỗi nút lá cĩ một mơ hình AR(1) được mơ tả bởi cơng thức đại diện cho nút.