Cán bộ chấm nhận xét 2: TS Phạm Văn Chung
5. Uỷ viên: PGS TS Dương Tuấn Anh
2.3 Phương pháp rời rạc hoá xấp xỉ gộp ký hiệu SAX
Lin, Keogh và các cộng sự [3] đã đề xuất một phương pháp rời rạc hóa có tên là xấp
xỉ gộp ký hiệu hóa (Symbolic Aggregate Approximation – SAX) mà dựa trên
phương pháp thu giảm số chiều PAA và giả sử dữ liệu thu giảm số chiều đã được
chuẩn hóa. SAX là q trình ánh xạ biểu diễn PAA của chuỗi thời gian thành một chuỗi ký tự rời rạc.
Một dữ liệu chuỗi thời gian có thể được chuyển đổi sang dạng PAA. Sau đó, áp dụng phương pháp SAX lên dạng PAA này để thu được một sự biểu diễn rời rạc hoá. Điều này có thể thực hiện được vì chuỗi thời gian đã được chuẩn hố có sự
phân bố Gauss. Điều này có thể được minh hoạ như sau, tiến hành rút trích một
chuỗi con chiều dài 128 từ 8 chuỗi thời gian khác nhau và được đồ thị hoá bằng đồ
thị phân bố xác suất chuẩn như Hình 2.5.
Hình 2.5 Biểu đồ phân bố xác suất chuẩn của sự phân bố giá trị từ các chuỗi con có chiều dài 128 từ 8 tập dữ liệu khác nhau. Đường tuyến tính của đồ thị chỉ ra rằng dữ liệu có được là từ sự phân bố Gauss [1]
Cho một chuỗi thời gian được chuẩn hoá với phân bố Gauss cao, các điểm
cắt (breakpoint) được xác định sẽ sinh ra các khu vực có kích thước bằng nhau theo
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 12
Định nghĩa:Các điểm cắt: là một danh sách được sắp xếp của các số B = β1, …, βa-1 như vậy một khu vực dưới đường cong Gauss a N(0,1) từ βi đến βi+1 = 1/a (β0 và βa
được định nghĩa tương ứng là -∞ và ∞).
Những điểm cắt này có thể được xác định bằng cách tìm chúng trong bảng
thống kê. Ví dụ, Hình 2.6 đưa ra các điểm cắt đối với giá trị a từ 3 tới 10.
a βi 3 4 5 6 7 8 9 10 β1 -0.43 -0.67 -0.84 -0.97 -1.07 -1.15 -1.22 -1.28 β2 0.43 0 -0.25 -0.43 -0.57 -0.67 -0.76 -0.84 β3 0.67 0.25 0 -0.18 -0.32 -0.43 -0.52 β4 0.84 0.43 0.18 0 -0.14 -0.25 β5 0.97 0.57 0.32 0.14 0 β6 1.07 0.67 0.43 0.25 β7 1.15 0.76 0.52 β8 1.22 0.84 β9 1.28
Hình 2.6 Bảng tìm kiếm chứa các điểm cắt mà được chia theo phân bố Gauss của vùng từ 3 tới 10 [1]
Lưu ý rằng, trong ví dụ này 3 ký hiệu ‘a’, ‘b’, ‘c’ có xác suất xuất hiện xấp xỉ nhau. Dãy các ký hiệu biểu diễn một dãy con được gọi là một từ (word). Khi các điểm cắt đã được xác định, một chuỗi thời gian có thể được rời rạc hoá theo cách
sau đây. Đầu tiên, chuyển đổi chuỗi thời gian sang dạng biểu diễn PAA. Tất cả hệ số của dạng PAA mà dưới điểm cắt nhỏ nhất được ánh xạ sang ký hiệu ‘a’, tất cả hệ số lớn hơn hay bằng điểm cắt nhỏ nhất và nhỏ hơn điểm cắt nhỏ nhất thứ 2 được
Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh
Nguyễn Văn Nhất_10070490 Trang 13
Hình 2.7 Một chuỗi thời gian được rời rạc hoá bằng cách đầu tiên chuyển chuỗi thời gian sang dạng
PAA tương ứng và sau đó dùng các điểm cắt xác định trước để ánh xạ các hệ số PAA vào các ký hiệu. Trong ví dụ trên, với n = 128, w = 8 và a = 3, chuỗi thời gian được ánh xạ thành từ baabccbc [1]
Định nghĩa: Từ: một chuỗi con C có chiều dài n có thể được biểu diễn như một từ
% = ̂1,… ̂w như sau. Gọi alphai là thành phần thứ i của bảng ký tự, ví dụ, alpha1= a
và alpha2 = b. Thì sự ánh xạ từ dạng PAA sang một từ % như sau ̂i = alphai, nếu và chỉ nếu βj-1< + ≤βj (2.4)