Ở đây, chúng ta đặc biệt quan tâm tới tập các mơ hình ART cĩ độ dài p, ký hiệu là ART(p). Mơ hình ART(p) là mơ hình ART mà mỗi nút lá trên cây quyết định là một mơ hình AR(p). Các biến phân nút trên cây quyết định được chọn ra từ p biến trước đĩ trong chuỗi thời gian.
Trong mơ hình ART(p), mỗi nút trung gian trên cây quyết định liên kết với một cơng thức đại số logic, đĩ là một hàm của p biến Yt-p, …, Yt-1. Ví dụ, nút gốc của mơ hình ART trong hình 2.9 thực hiện kiểm tra Yt-1 < -337. Thực hiện kết nạp mỗi cạnh trên cây vào cơng thức của nút cha nếu nhãn trên cạnh là “true” (“false” thì khơng kết nạp). Mỗi nút lá li được gán một hàm chỉ thị i , i trả về giá trị bằng 1 khi hội của tất cả các cơng thức ứng với các cạnh dọc theo đường đi từ nút gốc tới nút lá li cĩ
giá trị “true”, i = 0 trong các trường hợp cịn lại. Ví dụ, hàm chỉ thị ứng với nút trung gian trong hình 2.9 trả về giá trị 1 khi (yi-1 < -337) ^ (yi-1 0) và trả về giá trị 0 với các trường hợp khơng thoả mãn điều kiện. Khi đĩ, mơ hình ART(p) trong cơng thức (1) trở thành: f(yt, yt-p, …, yt-1, ) = L i 1 fi(yt, yt-p, …, yt-1, i)i = L i 1 N (mi + , 1 j t p j ijy b 2 i )i (3) Với L là số lượng các nút lá, = ( 1, …, L), i = (mi, bi1, …, bip, i2) là các tham số mơ hình hồi qui tuyến tính tại nút lá li, i = 1, …, L.
Mơ hình ART(p) là tổng quát hố của mơ hình AR bởi vì mơ hình ART(p) với cây quyết định cĩ duy nhất một nút lá ứng với mơ hình AR(p). Mơ hình ART(p) biểu diễn tốt hơn mơ hình AR(p) bởi vì nĩ cĩ thể mơ hình hố cả những quan hệ phi tuyến trong dữ liệu chuỗi thời gian. Hơn thế nữa, mơ hình ART(p) cĩ thể biểu diễn dữ liệu chuỗi thời gian cĩ tính chất chu kỳ, tuần hồn. Đồ thị dưới đây thể hiện sự so sánh mơ hình ART với mơ hình AR trên cùng một tập dữ liệu chuỗi thời gian.
Hình 2.10 So sánh hai mơ hình: AR(1) và ART(1) trên cùng tập dữ liệu học Ở đây, dữ liệu được hiển thị dưới dạng đồ thị điểm của yt đối với yt-1. Trên đồ Ở đây, dữ liệu được hiển thị dưới dạng đồ thị điểm của yt đối với yt-1. Trên đồ thị là các mơ hình AR(1) và ART(1) với cùng một tập dữ liệu học. Chúng ta cĩ thể
43
thấy mơ hình ART cĩ đường xấp xỉ tuyến tính gần với dữ liệu thật hơn so với mơ hình AR.
2.2.2 Học và dự đốn với mơ hình ART
2.2.2.1 Hƣớng tiếp cận Bayes cho mơ hình học từ dữ liệu
Theo hướng tiếp cận này, chúng ta cĩ một tập các cấu trúc mơ hình thay đổi s1,..., ss với các tham số tương ứng chưa được xác định:
1 s , 2 s , …, ss. Biểu diễn các tham số và cấu trúc chưa biết bằng các phân phối xác suất p(s), p(s |s). Sử dụng quy tắc Bayes trong các liên kết với tập dữ liệu học d để tính các xác suất hậu nghiệm p(s|d) và p(|d,s). Trong phần lớn các trường hợp chúng ta thực hiện các dự đốn bằng cách tính trung bình các phân bố dữ liệu. Tuy nhiên, với hướng tiếp cận này thì các tính tốn truyền thống khơng thực hiện được. Bởi vậy, chúng ta sử dụng hướng tiếp cận chọn theo mơ hình Bayes để chọn ra cấu trúc s cĩ xác suất hậu nghiệm p(s|d) lớn nhất và thực hiện dự đốn theo p(|d,s) với cấu trúc s.
Chìa khố trong hướng tiếp cận Bayes chính là xác suất hậu nghiệm p(s|d) của cấu trúc mơ hình. Với quy tắc Bayes, xác suất hậu nghiệm này được xác định bởi p(s|d) = p(s) * p(d|s)/p(d). Do p(d) là hằng số, chúng ta cĩ thể căn cứ vào tích p(s)* p(d|s) để chọn mơ hình tốt nhất. Tích này được gọi là điểm số Bayes (Bayesian score) của mơ hình. Thành phần đầu tiên (p(s)) trong cơng thức chính là xác suất của cấu trúc mơ hình trước mơ hình s. Thành phần thứ hai (p(d|s)) được gọi là cận biên khả năng và bằng p(d |,s)p(|s)d.
Một trong những điểm đáng chú ý là: khi sử dụng cách chọn mơ hình, đường cận biên khả năng của cấu trúc mơ hình tương ứng với dữ liệu học tỷ lệ với độ phức tạp của mơ hình. Nĩi cách khác, khi số lượng các trường hợp (N) lớn, giá trị cận biên khả năng cĩ thể tính xấp xỉ bằng p(d| s _ , s) - 2 | | logN. Trong đĩ, s _ là ước lượng cận biên cực đại của dữ liệu với mơ hình s. Đại lượng đầu tiên trong cơng thức diễn tả mức độ phù hợp giữa mơ hình và dữ liệu, nĩ tăng lên khi độ phức tạp của mơ hình tăng. Ngược lại, đại lượng thứ hai làm giảm độ phức tạp của mơ hình.
Quay trở lại hướng tiếp cận Bayes cho việc học từ mơ hình. Theo cơng thức (1), khả năng của mơ hình dữ liệu là:
p(yp+1, …,yT|y1, …, yp, , s) = T p t 1 f(yt|yt-p, …, yt-1, , s) (4)
Trong đĩ, biến số s tương ứng với mơ hình cần học cấu trúc và tham số. Khả năng mơ hình s được chọn được tính thơng qua (4). Theo cơng thức, p quan sát đầu tiên được bỏ qua bởi vì mơ hình p-order markov khơng dự đốn được với những quan sát này. Tiếp theo, chúng ta sử dụng phương pháp “cửa sổ trượt” để chuyển đổi từ chuỗi
thời gian y = (y1, …, yT) sang tập các trường hợp x1, …,xT-p
. Cơng thức chuyển đổi là xi = (xi
1, …, xi
p1), với 1< i < T-p và xi
j= yi+j-1. Chúng ta gọi tập dữ liệu chuyển đổi này là tập dữ liệu chuỗi thời gian cĩ độ dài chuyển đổi p. Ví dụ: với chuỗi thời gian y = (1, 3, 2, 4), khi đĩ phép chuyển đổi độ dài 2 cho kết quả là x1 = (1,3), x2 = (3,2), x3 = (2,1). Phép chuyển đổi độ dài 3 cho kết quả x1 = (1,2,3), x2 = (2,3,4).
Với cách chuyển đổi này, khả năng mơ hình được chọn theo cơng thức (4) được viết lại như sau:
p(yp+1, …,yT|y1, …, yp, , s) = T p t 1 f(xt p1|xt 1, …., xt p,, s) (5)
Đây là cơng thức tính khả năng chọn chính xác cho các mơ hình hồi qui thơng thường với biến đích là xp+1 và các biến lặp là x1, …, xp. Từ đĩ, chúng ta cĩ thể thực hiện việc học cho mơ hình chuỗi thời gian sử dụng bất kỳ kỹ thuật hồi qui thơng thường nào bao gồm cả kỹ thuật hồi qui sử dụng cây quyết định.
2.2.2.2 Điểm số Bayes trong mơ hình ART
Để chọn ra mơ hình dự đốn phù hợp và đánh giá được chất lượng dự đốn của mơ hình cần cĩ một độ đo tốt. Độ đo được đưa ra ở đây là điểm số Bayes (Bayesian score) cho mơ hình. Với các mơ hình ART(p), ta đi tính điểm số Bayes của từng mơ hình, chọn ra mơ hình cĩ điểm số Bayes cao nhất. Cơng thức tính điểm số Bayes dựa trên việc tính điểm các nút lá (l) trên cây quyết định tương ứng với mơ hình dự đốn, kết hợp với các tham số điều chỉnh ( ). Chúng ta cĩ hai giả định sau: (i) khả năng ưu tiên của các cấu trúc mơ hình s, xác định bởi p(s) = k||
, 0 k 1, || là số lượng các tham số của mơ hình. Qua các kiểm tra thực nghiệm k thường được chọn là 0.1; (ii) Các tham số 1, 2, …, L tương ứng với các nút lá trên cây quyết định là độc lập từng cặp. Từ hai giả định trên chúng ta cĩ cơng thức tính điểm số Bayes như sau:
Score(s) =
L
i 1
LeafScore(li) (6), với LeafScore(li) được tính theo cơng thức(7)
LeafScore(li) = kp+2 i tl x, fi(xt p1|xt 1, …., xt p,i, s) p(i|s) di (7)
Trong đĩ, fi là phân phối chuẩn tương ứng với phép hồi qui tuyến tính tại nút lá li được mơ tả trong cơng thức (3). LeafScore(li) là tích các xác xuất tiên nghiệm của các nút lá trong cấu trúc (tại mỗi nút lá cĩ p+2 tham số). Các thành phần cịn lại trong cơng thức tính điểm số Bayes là các tham số ưu tiên. Độ phức tạp của cơng thức tính điểm số Bayes là O(p3 + p2Ci), với Ci là số các trường hợp đi được tới nút lá li.
45
2.2.2.3 Dự đốn với mơ hình ART
Mơ hình ART thu được qua quá trình học được sử dụng để dự đốn các dữ liệu kế tiếp trong chuỗi thời gian {YT}. Với một chuỗi các quan sát được đưa ra, cơng việc dự đốn được đưa về việc tính tốn các phân phối trong các quan sát tương lai trong chuỗi thời gian. Chúng ta phân biệt 2 loại dự đốn quan trọng là: (i) Dự đốn một bước và (ii) Dự đốn nhiều bước. Lý thuyết và thực nghiệm đều cho thấy: dự đốn một bước cĩ độ chính xác cao hơn dự đốn nhiều bước.
Trong dự đốn một bước, yêu cầu đặt ra là dự đốn yT+1 khi biết trước y1, …, yT. Trong tình huống này, phân phối xác xuất của biến yT+1 là một hàm của nút lá trên cây quyết định. Mỗi nút lá trên cây quyết định xác định một phân phối tuyến tính cĩ điều kiện với biến thời gian tương ứng yT-i (1 i p). Để tính giá trị của tham số i, chúng ta sử dụng cơng thức phân phối chuẩn fi(yt|yt-p, …, yt-1, i) và chọn ra giá trị lớn nhất theo cơng thức sau:
i _ = argmax i tl x, fi(xt p1|xt 1, …., xt p,i, s) p(i|s) (8)
Trong dự đốn nhiều bước: chúng ta quan tâm đến các kết quả dự đốn cho các biến tại nhiều thời điểm trong tương lai. Khi dự đốn nhiều hơn một bước trong tương lai, cách tìm kiếm đơn giản khơng đáp ứng được bởi vì tính phi tuyến trên cây AR. Ví dụ, với mơ hình ART trong hình 2.9, yêu cầu dự đốn y4, y5 và y6 trong khi chỉ biết các giá trị y1 và y2. Dự đốn y4 khơng tương ứng với nút lá nào trên cây quyết định vì chúng ta chưa biết giá trị của y3. Trong tình huống này, chúng ta cần tính tốn theo hướng tiếp cận như sau: dự đốn yT+1 từ y1, …, yT; dự đốn yT+2 từ y1, …, yT+1 và cứ tiếp tục như vậy cho đến đến biến cần dự đốn cuối cùng.
2.3. Tìm kiếm tƣơng tự trên dữ liệu chuỗi thời gian
Đối với bài tốn tìm kiếm tương tự trên dữ liệu chuỗi thời gian thì dữ liệu được biểu diễn thành những dãy số thực, thí dụ T = t
1,…t
n. Cho hai chuỗi thời gian X = x
1, x 2,…,x n và Y = y 1,y 2,…,y
n. Ta cần phải tính độ tương tự SIM (X, Y) của hai chuỗi thời gian này.
2.3.1 Các độ đo tương tự
Đã cĩ nhiều độ đo tương tự đã được sử dụng. Việc chọn một độ đo tương tự là tùy thuộc rất nhiều vào miền ứng dụng và trong nhiều trường hợp thì một độ đo thuộc chuẩn L
pđơn giản như độ đo Euclide là đủ tốt để dùng. Tuy nhiên trong nhiều trường hợp thì độ đo Euclide tỏ ra quá cứng nhắc vì khơng thích nghi được với những phép biến đổi như tịnh tiến, co giãn biên độ hay xoắn trục thời gian. Nhiều
phương pháp tìm kiếm tương tự mới hơn dựa vào những độ đo tương tự mềm dẻo và vững chắc hơn như độ đo xoắn thời gian động, chuỗi con chung dài nhất.
2.3.1.1 Độ đo Euclide
Trong phương pháp này, việc tính tốn được thực hiện trực tiếp trên các chuỗi thời gian cĩ độ dài bằng nhau. Mỗi chuỗi thời gian Q = (q1, q2, … qn) được xem như một điểm trong khơng gian Euclide n-chiều.
Cho hai chuỗi thời gian Q = (q1, q2, …, qn) và C = (c1, c2, …, cn) độ đo khoảng cách Euclid giữa hai chuỗi thời gian này được cho bởi cơng thức:
D (Q, C) =
Theo cơng thức trên, độ đo khoảng cách giữa Q và C chính là độ dài đoạn thẳng QC trong khơng gian Rn