Phương pháp rời rạc hoá xấp xỉ gộp ký hiệu SAX

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 27 - 29)

Cán bộ chấm nhận xét 2: TS Phạm Văn Chung

5. Uỷ viên: PGS TS Dương Tuấn Anh

2.3 Phương pháp rời rạc hoá xấp xỉ gộp ký hiệu SAX

Lin, Keogh và các cộng sự [3] đã đề xuất một phương pháp rời rạc hóa có tên là xấp

xỉ gộp ký hiệu hóa (Symbolic Aggregate Approximation – SAX) mà dựa trên

phương pháp thu giảm số chiều PAA và giả sử dữ liệu thu giảm số chiều đã được

chuẩn hóa. SAX là q trình ánh xạ biểu diễn PAA của chuỗi thời gian thành một chuỗi ký tự rời rạc.

Một dữ liệu chuỗi thời gian có thể được chuyển đổi sang dạng PAA. Sau đó, áp dụng phương pháp SAX lên dạng PAA này để thu được một sự biểu diễn rời rạc hoá. Điều này có thể thực hiện được vì chuỗi thời gian đã được chuẩn hố có sự

phân bố Gauss. Điều này có thể được minh hoạ như sau, tiến hành rút trích một

chuỗi con chiều dài 128 từ 8 chuỗi thời gian khác nhau và được đồ thị hoá bằng đồ

thị phân bố xác suất chuẩn như Hình 2.5.

Hình 2.5 Biểu đồ phân bố xác suất chuẩn của sự phân bố giá trị từ các chuỗi con có chiều dài 128 từ 8 tập dữ liệu khác nhau. Đường tuyến tính của đồ thị chỉ ra rằng dữ liệu có được là từ sự phân bố Gauss [1]

Cho một chuỗi thời gian được chuẩn hoá với phân bố Gauss cao, các điểm

cắt (breakpoint) được xác định sẽ sinh ra các khu vực có kích thước bằng nhau theo

Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 12

Định nghĩa:Các điểm cắt: là một danh sách được sắp xếp của các số B = β1, …, βa-1 như vậy một khu vực dưới đường cong Gauss a N(0,1) từ βi đến βi+1 = 1/a (β0 và βa

được định nghĩa tương ứng là -∞ và ∞).

Những điểm cắt này có thể được xác định bằng cách tìm chúng trong bảng

thống kê. Ví dụ, Hình 2.6 đưa ra các điểm cắt đối với giá trị a từ 3 tới 10.

a βi 3 4 5 6 7 8 9 10 β1 -0.43 -0.67 -0.84 -0.97 -1.07 -1.15 -1.22 -1.28 β2 0.43 0 -0.25 -0.43 -0.57 -0.67 -0.76 -0.84 β3 0.67 0.25 0 -0.18 -0.32 -0.43 -0.52 β4 0.84 0.43 0.18 0 -0.14 -0.25 β5 0.97 0.57 0.32 0.14 0 β6 1.07 0.67 0.43 0.25 β7 1.15 0.76 0.52 β8 1.22 0.84 β9 1.28

Hình 2.6 Bảng tìm kiếm chứa các điểm cắt mà được chia theo phân bố Gauss của vùng từ 3 tới 10 [1]

Lưu ý rằng, trong ví dụ này 3 ký hiệu ‘a’, ‘b’, ‘c’ có xác suất xuất hiện xấp xỉ nhau. Dãy các ký hiệu biểu diễn một dãy con được gọi là một từ (word). Khi các điểm cắt đã được xác định, một chuỗi thời gian có thể được rời rạc hoá theo cách

sau đây. Đầu tiên, chuyển đổi chuỗi thời gian sang dạng biểu diễn PAA. Tất cả hệ số của dạng PAA mà dưới điểm cắt nhỏ nhất được ánh xạ sang ký hiệu ‘a’, tất cả hệ số lớn hơn hay bằng điểm cắt nhỏ nhất và nhỏ hơn điểm cắt nhỏ nhất thứ 2 được

Chương 2: Cơ sở lý thuyết và các cơng trình liên quan GVHD: PSG. TS. Dương Tuấn Anh

Nguyễn Văn Nhất_10070490 Trang 13

Hình 2.7 Một chuỗi thời gian được rời rạc hoá bằng cách đầu tiên chuyển chuỗi thời gian sang dạng

PAA tương ứng và sau đó dùng các điểm cắt xác định trước để ánh xạ các hệ số PAA vào các ký hiệu. Trong ví dụ trên, với n = 128, w = 8 và a = 3, chuỗi thời gian được ánh xạ thành từ baabccbc [1]

Định nghĩa: Từ: một chuỗi con C có chiều dài n có thể được biểu diễn như một từ

% = ̂1,… ̂w như sau. Gọi alphai là thành phần thứ i của bảng ký tự, ví dụ, alpha1= a

và alpha2 = b. Thì sự ánh xạ từ dạng PAA sang một từ % như sau ̂i = alphai, nếu và chỉ nếu βj-1< + ≤βj (2.4)

Một phần của tài liệu Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài (Trang 27 - 29)

Tải bản đầy đủ (PDF)

(112 trang)