Rời rạc hóa dữ liệu

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 33 - 36)

2.

3.3 Rời rạc hóa dữ liệu

Dữ liệu sau khi thu giảm số chiều sẽ được rời rạc hóa (discretization) để dễ dàng xử lý. Để rời rạc hóa thì dữ liệu ban đầu được chia thành những đoạn dữ liệu nhỏ hơn. Sau đó, mỗi đoạn nhỏ này sẽ được mã hóa dựa vào những đặc trưng của đoạn và tập hợp những đặc trưng của những đoạn nhỏ này sẽ làm thành một chuỗi ký hiệu biểu diễn cho dữ liệu ban đầu.

Lợi ích quan trọng của việc rời rạc hóa dữ liệu chuỗi thời gian là đưa dữ liệu về một dạng rời rạc để có thể xử lý bằng cách sử dụng những cấu trúc dữ liệu và giải

thuật vốn có trong lãnh vực xử lý chuỗi ký tự như cây hậu tố, kỹ thuật băm, mô hình xích Markov…

Hiện tại trên thế giới có nhiều phương pháp rời rạc hóa đã được đề xuất như xấp xỉ gộp ký hiệu hóa (SAX), ESAX, và iSAX. Chúng tôi sẽ sử dụng giải thuật SAX để thực hiện rời rạc hóa chuỗi thời gian sau khi đã được thu giảm số chiều bằng giải thuật PAA.

Giải thuật xấp xỉ gộp ký hiệu hóa hay còn gọi là SAX (symbolic aggregate approximation) được nêu ra bởi Eamonn Keogh và Jessica Lin vào năm 2002 [1]. SAX hoạt động trên dữ liệu đã được thu giảm số chiều bằng phương pháp PAA và đã được chuẩn hóa. SAX là quá trình ánh xạ biểu diễn PAA của chuỗi thời gian thành một chuỗi ký tự rời rạc.

Gọi a là kích thước của bộ ký hiệu mà được dùng để rời rạc hóa chuỗi thời gian. Giải thuật thực hiện chuẩn hóa dựa vào đặc điểm dữ liệu chuỗi thời gian chuẩn hóa thường có phân bố xác suất Gauss. Hình 3-5 cho thấy sự phân bố xác suất của một chuỗi con chiều dài 128 có dạng phân bố Gauss.

Hình 3-6: Sự phân bố xác suất của một chuỗi con chiều dài 128 có dạng phân bố Gauss (nguồn [5]). -10 0 10 0.001 0.003 0.01 0.02 0.05 0.10 0.25 0.50 0.75 0.90 0.95 0.98 0.99 0.997 0.999 Pro ba bi lit y

Để ký hiệu hóa chuỗi thời gian chúng ta phải tìm thấy các điểm ngắt. Điều này được thực hiện dựa vào phân bố Gauss. Để hiểu rõ hơn, chúng ta xem xét định nghĩa của điểm ngắt.

Định nghĩa 8: Điểm ngắt

Điểm ngắt là một danh dách có thứ tự các số β = β1,…,βa-1 sao cho diện tích trong đường cong Gauss N(0,1) từ βi đến βi+1 bằng 1/a (β0 và βa được xem như có giá trị lần lượt là -∞ và ∞).

Định nghĩa trên đảm bảo xác xuất bằng nhau (1/a) cho mỗi ký hiệu trong tập ký hiệu. Các điểm ngắt βi sẽ được chọn dựa vào bảng tra xác suất của phân bố Gauss. Bảng tra này được thể hiện như bảng 3-1. Bảng ký hiệu có kích thước a từ 3 đến 10.

Bảng 3-1: Bảng tra các điểm ngắt chia phân bố Gauss thành các vùng bằng nhau. Bảng ký hiệu có kích thước a từ 3 đến 10.

Bằng cách tra bảng các điểm ngắt, chuỗi thời gian thu được từ giải thuật PAA sẽ được rời rạc hóa. Sau khi được rời rạc hóa bằng giải thuật SAX thì các chuỗi con ban đầu sẽ được biểu diễn dưới dạng các chuỗi ký tự hay còn gọi là các từ.

Định nghĩa 9: Từ

Một từ là cách thể hiện chuỗi thời gian ̅ = ̅1,…, n̅ dưới dạng một chuỗi ký tự

̂i= alphaalpha1 a c ci > βi ≤βa-11

alphaj βj-1< ci ≤ βj

alphaj là ký tự thứ j trong bảng ký hiệu có kích thước a. Trong đó, ta giả sử các ký tự được sắp xếp có thứ tự không đổi. Ví dụ alpha1 = a, alpha2 = b… Hình 3-6 cho thấy chuỗi kết quả sau khi chuỗi thời gian được rời rạc hóa sử dụng phương pháp SAX.

Hình 3-7: Chuỗi thời gian được rời rạc hóa sử dụng PAA và SAX. Từ thu được là

baabccbc (nguồn [5]).

Sau giai đoạn mã hóa SAX, bài toán so trùng chuỗi thời gian trở thành bài toán so trùng chuỗi ký tự. Phương pháp mã hóa SAX hiện tại đang được sử dụng nhiều vì tính đơn giản của nó so với các phương pháp khác. Với phương pháp mã hóa SAX, ta có thể sử dụng những cấu trúc dữ liệu và giải thuật có sẵn về xử lý chuỗi ký tự như trong lãnh vực xử lý dòng ký tự và xử lý trình tự sinh học.

Bên cạnh những ưu điểm, SAX cũng có những nhược điểm. Nhược điểm chính của SAX là dữ liệu chuỗi thời gian được giả định là phải thỏa phân bố xác suất Gauss. Rất may là phần lớn dữ liệu chuỗi thời gian thực tế thỏa mãn điều kiện này. Một nhược điểm khác của SAX là phương pháp này không hỗ trợ tốt việc tính khoảng cách Euclid. Do đó, chúng ta phải xây dựng phương pháp tính khoảng cách Euclid mở rộng cho hai chuỗi ký tự để tính độ tương tự giữa chúng.

Một phần của tài liệu Phát hiện mô típ với chiều dài khác nhau trên dữ liệu chuỗi thời gian (Trang 33 - 36)

Tải bản đầy đủ (PDF)

(82 trang)