Dữ liệu chuỗi thời gian

CHƯƠNG 2 DỮ LIỆU CHUỖI THỜI GIAN

2.2. Dữ liệu chuỗi thời gian

Phần lớn nguồn cung cấp dữ liệu của thế giới là ở dạng chuỗi thời gian. Kích thước của dữ liệu chuỗi thời gian tăng theo cấp số nhân. Chẳng hạn như trong lĩnh vực y tế, các dữ liệu về gen, điện tâm đồ, điện não đồ, phân tích dáng đi, bảng xếp hạng tăng trưởng chiều cao liên tục được tạo ra. Bên cạnh đó, dữ liệu của các ngành công nghiệp, giải trí, tài chính, khí tượng và hầu hết các lĩnh vực của đời sống con người cũng liên tục được hình thành [14]. Đây chính là điều đã dẫn đến việc bùng nổ về khai thác dữ liệu chuỗi thời gian nhằm đưa ra các dự báo hữu ích phục vụ cho cộng đồng như dự báo thời tiết, dự báo giá cổ phiếu, dự báo sản lượng kinh doanh,….

2.2.1. Khái niệm dữ liệu chuỗi thời gian

Một chuỗi thời gian là một tập hợp các quan sát được ghi nhận tại thời điểm cụ thể t. Chuỗi thời gian được phân ra thành hai loại: (1) Chuỗi thời gian rời rạc là tập các thời điểm quan sát được thực hiện tại các khoảng thời gian cố định; (2) Chuỗi thời gian liên tục là tập các thời điểm quan sát được ghi nhận liên tục qua một số khoảng thời gian. Một chuỗi thời gian T là một dãy có thứ tự của n giá trị thực

1 2

( , ,..., )n

T  t t t với tiR [26].

2.2.2. Biểu diễn dữ liệu chuỗi thời gian

Một trong những lý do chủ yếu của việc biểu diễn chuỗi thời gian là nhằm giảm kích thước của dữ liệu gốc. Phương pháp đơn giản nhất là lấy mẫu. Trong phương pháp này, một tỷ lệ /m n được sử dụng với m là chiều dài của chuỗi dữ liệu

P và n là số chiều sau khi giảm kích thước (Hình 2.1).

Tuy nhiên, phương pháp này có nhược điểm là bóp méo hình dạng của chuỗi thời gian khi tỉ lệ lấy mẫu quá thấp.

Hình 2.1. Giảm số chiều của chuỗi thời gian bằng cách lấy mẫu [8]

Phương pháp PAAA (Piecewise Aggregate Approximation) sử dụng các giá trị trung bình của mỗi đoạn để biểu diễn tập điểm dữ liệu tương ứng. Với chuỗi thời gian P( ,...,p1 pn) và 𝑛 là số chiều đã giảm kích thước.

Chuỗi thời gian nén P (p1,...,pn)

  

 có thể chứa bởi 1

k i

k k i s

p p

e s





    với

sk là ký hiệu cho các điểm dữ liệu bắt đầu, ek là ký hiệu cho các điểm dữ liệu kết thúc của phân đoạn thứ 𝑘 trong chuỗi thời gian P (Hình 2.2).

Hình 2.2. Giảm số chiều của chuỗi thời gian bằng PAAA [8]

Một đề xuất mở rộng của phương pháp PAAA là APCA (Adaptive Piecewise Constant Approximation). Với phương pháp này thì chiều dài của mỗi phân đoạn là không cố định nhưng phù hợp với hình dạng của chuỗi.

Nhằm giảm số chiều của dữ liệu chuỗi, phương pháp PLR (Piecewise Linear Representation) đề xuất xấp xỉ chuỗi thời gian tương đương với một đường thẳng.

Đường thẳng xấp xỉ của chuỗi con ( ,...,P pi pj) chỉ đơn giản là một đường thẳng kết nối điểm dữ liệu p pi, j.

Thuật toán PLR tạo một xấp xỉ của chuỗi thời gian, vì vậy m/ 2 phân đoạn được sử dụng để xấp xỉ với m là chiều dài chuỗi thời gian và lặp lại phép gộp sao cho chi phí của phân đoạn là thấp nhất. Thực hiện tạo xấp xỉ như vậy cho đến khi đủ số phân đoạn theo yêu cầu thì dừng lại. Khi phân đoạn mới được tạo ra bằng cách gộp phân đoạn Si và Si1 lại với nhau thì giá trị của phân đoạn mới gộp với phân đoạn bên phải của nó Si1 phải được tính toán.

Phương pháp PIP (Perceptually Important Points) thực hiện giảm số chiều bằng cách giữ lại các điểm nổi bật. Phương pháp này thích hợp để sử dụng cho các mẫu phân tích trong các ứng dụng tài chính. Cho chuỗi thời gian P với n điểm dữ liệu P P1, ,...,2 Pn. Tất cả các điểm dữ liệu trong P có thể được sắp xếp dựa vào độ quan trọng của nó thông qua quá trình xử lý định danh PIP. Điểm dữ liệu thứ nhất P1 trong chuỗi dữ liệu tương ứng với PIP đầu tiên và điểm dữ liệu cuối cùng Pn tương ứng với PIP thứ hai. PIP tiếp theo được tìm thấy là một điểm trong P có khoảng cách lớn nhất so với hai PIP đầu tiên. PIP thứ tư cũng là một điểm trong P có khoảng cách theo chiều dọc lớn nhất đến đường thẳng nối hai PIP liền kề, giữa PIP đầu tiên và thứ hai hoặc là giữa PIP thứ hai và PIP cuối cùng. Xử lý PIP tại vị trí tiếp theo cho đến khi tất cả các điểm trong P được đưa vào một danh sách có thứ tự L hoặc là đủ số lượng PIP được yêu cầu. PIP thứ bảy được xác định trong ví dụ về chuỗi thời gian tại Hình 2.3.

Hình 2.3. Giảm chuỗi thời gian bằng cách giữ lại các điểm quan trọng [8]

Một số phương pháp biểu diễn khác như phương pháp CPM (Critical Point Model) và phương pháp biểu diễn cấp độ cao dựa trên một chuỗi các điểm tới hạn được đề xuất để phân tích dữ liệu tài chính. Phương pháp SAX (Symbolic Aggregate Approximation) thực hiện chuyển đổi kết quả thu được từ phương pháp PAA thành chuỗi ký tự. Phương pháp PCA (Principal Component Analysis) là một kỹ thuật đa chiều phổ biến dùng để xử lý việc thống kê đa chiều bằng phương pháp định lượng và nó được sử dụng để phân tích dữ liệu tài chính.

Các đối tượng nghiên cứu

Mô tả kết quả thực nghiệm