Xác định điểm chuyển đổi trong một chuỗi dữ liệu là việc ước tính các vị trí (nếu có) mà tại đó các đặc tính thống kê của chuỗi dữ liệu thay đổi. Việc xác định điểm chuyển đổi là một trong những công việc quan trọng trong nhiều lĩnh vực như y học, tài chính…
Giả sử với một chuỗi dữ liệu theo thứ tự 𝑦1:𝑛 = (𝑦1, … , 𝑦𝑛). Một điểm chuyển đổi được cho là tồn tại trong chuỗi khi tồn tại 𝜏 ∈ {1, … , 𝑛 − 1} mà tại điểm này, các đặc điểm thống kê của {𝑦1, … , 𝑦𝜏} và {𝑦𝜏+1, … , 𝑦𝑛} khác nhau theo một số cách nào đó. Còn đối với các chuỗi dữ liệu có nhiều hơn một điểm chuyển đổi 𝜏1:𝑚 = (𝜏1, … , 𝜏𝑚) thì việc xác định cũng tương tự cho các phân vùng dữ liệu mà các phân vùng này có các đặc điểm thống kê khác nhau.
Giả định rằng 𝜏0 = 0 và 𝜏𝑚+1 = 𝑛 và các điểm chuyển đổi được sắp xếp theo thứ tự 𝜏𝑖 < 𝜏𝑗 khi và chỉ khi 𝑖 < 𝑗. Như vậy nếu có 𝑚 điểm chuyển đổi thì chuỗi dữ liệu sẽ được chia ra làm (𝑚 + 1) phân vùng, trong đó, phân vùng thứ 𝑖 sẽ chứa các quan sát 𝑦(𝜏𝑖−1+1):𝜏𝑖 = (𝑦𝜏𝑖−1+1, … , 𝑦𝜏𝑖). Mỗi phân vùng sẽ được tóm tắt bằng một tập hợp tham số. Tập hợp tham số của phân vùng thứ 𝑖 được đại diện bằng {𝜃𝑖, ∅𝑖}, trong
đó, ∅𝑖 là tập hợp các tham số nhiễu và 𝜃𝑖 là tập hợp các tham số mà chúng ta tin rằng có thể chứa các thay đổi.
Việc xác định điểm chuyển đổi tức là chúng ta muốn kiểm tra xem có bao nhiêu phân vùng trong dữ liệu, đồng nghĩa với có bao nhiêu điểm chuyển đổi và ước tính giá trị các tham số {𝜃𝑖, ∅𝑖} của mỗi phân vùng. Trước khi đi vào xem xét các vấn đề của quá trình xác định vị trí các điểm chuyển đổi 𝜏1:𝑚, chúng ta sẽ đề cập đến cách xác định điểm chuyển đổi của chuỗi dữ liệu có một điểm chuyển đổi. Công việc này có thể được thực hiện dưới dạng một kiểm định giả thiết. Trong đó, Giả thiết Không,
𝐻0, tương ứng với việc chuỗi dữ liệu không tồn tại điểm chuyển đổi nào (𝑚 = 0) và giả thiết thay thế, 𝐻1, tồn tại một điểm chuyển đổi (𝑚 = 1).
Trước tiên, chúng ta sẽ giới thiệu về tỉ số likelihood áp dụng cho kiểm định này. Tỷ số này đã được sử dụng để tìm kiếm điểm chuyển đổi dao động lần đầu tiên bởi Hinkley (1970). Phương pháp dùng tỷ số likelihood để kiểm định yêu cầu phải tính toán giá trị log-likelihood cực đại (max log-likelihood) cho cả 2 giả thiết nêu trên.
Đối với giả thiết 𝑯𝟎, giá trị log-likelihood cực đại = 𝐥𝐨𝐠 𝒑(𝒚𝟏:𝒏|𝜽̂𝟏), trong đó,
𝒑(∙) là hàm mật độ xác suất và 𝜽̂ là giá trị ước lượng likelihood cực đại của các tham số.
Đối với giả thiết 𝑯𝟏, xem xét một mô hình có một điểm chuyển đổi tại vị trí 𝝉𝟏, trong đó, 𝝉𝟏 ∈ {𝟏, 𝟐, … , 𝒏 − 𝟏} thì giá trị log-likelihood đối với 𝑴𝑳(𝝉𝟏) = 𝐥𝐨𝐠 𝒑(𝒚𝟏:𝝉𝟏|𝜽̂𝟏) + 𝐥𝐨𝐠 𝒑(𝒚(𝝉𝟏+𝟏):𝒏|𝜽̂𝟐). Khi đó, giá trị log-likelihood cực đại là
𝒎𝒂𝒙𝝉𝟏𝑴𝑳(𝝉𝟏).
Như vậy, trị thống kê kiểm định là: 𝜆 = 2 [max
𝜏1 𝑀𝐿(𝜏1) − log 𝑝(𝑦1:𝑛|𝜃̂1)]. Tiếp theo, trị thống kê 𝜆 sẽ được so sánh với một tham số chặn 𝑐, nếu 𝜆 > 𝑐 thì Giả thiết Không bị bác bỏ. Khi đó, vị trí ước tính của điểm chuyển đổi 𝜏̂1 là điểm mà tại đó 𝑀𝐿(𝜏1)
Đối với các chuỗi dữ liệu có nhiều hơn một điểm chuyển đổi thì công việc tìm kiếm những điểm này sẽ được thực hiện bằng cách mở rộng mô hình trên. Hiện nay, phần lớn các nghiên cứu áp dụng các xác định tập hợp điểm chuyển đổi bằng tiến trình cực tiểu hàm sau:
∑ [∁(𝑦𝜏𝑖−1+1, … , 𝑦𝜏𝑖) + 𝛽𝑓(𝑚)]
𝑚+1
𝑖=1
Trong đó, ∁ là hàm chi phí (cost function) của một phân vùng (hàm ∁ có cùng giá trị nhưng ngược dấu với giá trị log-likelihood). Hàm số 𝛽𝑓(𝑚) đóng vai trò là một hàm chặn (là 𝑐 trong trường hợp điểm chuỗi dữ liệu có một điểm chuyển đổi).
Hiện nay, việc xác định điểm chuyển đổi dao động được thực hiện bằng hai thuật toán phổ biến bao gồm thuật toán phân vùng nhị phân (binary segmentation algorithm) được phát triển bởi các nghiên cứu của Edwards và Cavalli-Sforza (1965),
Scott và Knott (1974), Sen và Srivastava (1975) và thuật toán phân vùng lân cận
(segment neighborhood algorithm) được phát triển bởi Auger and Lawrence (1989).
Trong đó, thuật toán phân vùng nhị phân được đánh giá có mức độ chính xác hạn chế trong việc xác định điểm chuyển đổi nhưng đổi lại, thuật toán này có lợi thế về quy trình tính toán khi nó có khối lượng các tính toán thấp hơn và thời gian tính toán ngắn hơn. Trong khi đó, thuật toán phân vùng lân cận được đánh giá cao về mức độ chính xác nhưng lại có một nhược điểm lớn là chiếm dụng khối lượng tính toán. Do đó, Killick và cộng sự (2012) đã đề xuất một thuật toán mới gọi là PELT (Pruned Exact
Linear Time method) để khắc phục các nhược điểm của hai thuật toán nêu trên. Thuật
toán PELT được đánh giá có thể cho kết quả chính xác với mức độ tương đương và thậm chí tốt hơn thuật toán phân vùng lân cận nhưng lại có hiệu quả về mặt tính toán hơn nhiều.
Thuật toán PELT có nền tảng từ phương pháp phân tách tối ưu (optimal partitioning method) được phát triển bởi Yao (1984), Jackson và cộng sự (2005). Nếu
đặt: 𝜏𝑠 = {𝜏: 0 < 𝜏1 < 𝜏2 < ⋯ < 𝜏𝑚+1 < 𝑠} là tập hợp các điểm chuyển đổi tiềm năng. Khi đó: 𝐹(𝑠) = min 𝜏∈𝜏𝑠 { ∑ [∁(𝑦𝜏𝑖−1+1, … , 𝑦𝜏𝑖) + 𝛽] 𝑚+1 𝑖=1 } = min 𝑡 {min 𝜏∈𝜏𝑠[∑ ∁(𝑦𝜏𝑖−1+1, … , 𝑦𝜏𝑖) + 𝛽 𝑚 𝑖=1 ] + ∁(𝑦𝑡+1, … , 𝑦𝑛) + 𝛽} = min 𝑡 {𝐹(𝑡) + ∁(𝑦𝑡+1, … , 𝑦𝑛) + 𝛽}
Hàm số trên biến đổi công thức tối thiểu hóa tổng quát thành một quá trình lặp đệ quy. Hàm đệ quy này chạy với các giá trị 𝑠 = 1,2, … , 𝑛. Chúng ta sẽ bắt đầu bằng việc tính 𝐹(1) và sau đó đệ quy lặp lại để tính 𝐹(2),…, 𝐹(𝑛). Tại mỗi bước, thuật toán sẽ ghi lại địa chỉ của phân vùng tối ưu cho tới 𝜏𝑚+1. Khi đệ quy lặp tới 𝐹(𝑛) thì phân vùng tối ưu của toàn bộ dữ liệu đã được xác định và vị trí các điểm chuyển đổi đã được ghi nhận. Bản chất của việc cắt giảm khối lượng tính toán của thuật toán PELT so với phương pháp phân tách tối ưu nêu trên là PELT là gỡ bỏ các giá trị 𝜏
không thể cực tiểu (tức là những vị trí không thể là một điểm chuyển đổi tiềm năng) với giả định rằng khi thêm một điểm vào tập hợp các điểm chuyển đổi thì sẽ làm giảm hàm chi phí tổng thể. Điều này đồng nghĩa với việc tồn tại một hằng số 𝐾 với 𝑡 < 𝑠 < 𝑇, sao cho:
∁(𝑦𝑡+1, … , 𝑦𝑠) + ∁(𝑦𝑠+1, … , 𝑦𝑇) + 𝐾 ≤ ∁(𝑦𝑡+1, … , 𝑦𝑇)
khi đó, nếu 𝐹(𝑡) + ∁(𝑦𝑡+1, … , 𝑦𝑠) + 𝐾 ≥ 𝐹(𝑠) thì tại mọi thời điểm 𝑇 > 𝑠, 𝑡 không thể nào là điểm chuyển đổi dao động ngay liền trước 𝑇. Khi đó, quá trình lặp đệ quy sẽ không lặp lại từ đầu cho đến cuối mà sẽ lượt bỏ các điểm đã bị gỡ bỏ bởi thuật toán. Chính nhờ những ưu điểm nêu trên, nghiên cứu này sẽ sử dụng thuật toán PELT để xác định các điểm chuyển đổi dao động cho các chuỗi dữ liệu trong nghiên cứu.