CÁC BÀI TOÁN LIÊN QUAN ĐẾN DỮ LIỆU CHUỖI THỜI GIAN Phân lớp Classification Cho trước một chuỗi thời gian ? chưa gán nhãn unlabeled và ? lớp, mỗi lớp chứa ? chuỗi thời gian có cùng mộ
TỔNG QUAN VỀ ĐỀ TÀI
KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN
Trong thời đại ngày nay, với sự ra đời và phát triển của máy tính và các thiết bị kỹ thuật số có hỗ trợ thu thập dữ liệu, những dữ liệu mà con người dùng để phục vụ cuộc sống của mình gần như đã được số hóa toàn bộ Chúng được chuyển thành các đối tượng dữ liệu có nghĩa và lưu trữ trong máy tính mà con người có thể dễ dàng truy vấn khi cần thiết Tuy nhiên, các loại dữ liệu ngày càng tăng nhanh tạo nên khối lượng dữ liệu lớn (big data) Do đó, công tác khai phá dữ liệu (data mining) càng trở nên quan trọng và thu hút được nhiều nghiên cứu trên thế giới nhằm đáp ứng yêu cầu truy hồi thông tin (information retrieval) đúng lúc và đầy đủ khi cần thiết
“Lấy mẫu ngẫu nhiên 4000 bức hình từ 15 tờ báo và tạp chí trên thế giới xuất bản trong giai đoạn 1974 – 1989 cho thấy có hơn 75% là các hình biểu diễn dữ liệu chuỗi thời gian.”
Theo khảo sát của tác giả Tufte, E R [13]
Một trong những loại kể trên là dữ liệu chuỗi thời gian (time series data) Dữ liệu chuỗi thời gian tồn tại trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau như: kinh tế, tài chính, y tế, giáo dục, môi trường, địa lý, và sinh học, vân vân Việc hiểu và dẫn xuất được thông tin ẩn trong các dữ liệu chuỗi thời gian có một ý nghĩa lớn góp phần quyết định đến sự phát triển của lĩnh vực Do đó, khai phá dữ liệu chuỗi thời gian (time series data mining) đóng vai trò quan trọng và nhận được sự quan tâm từ rất nhiều nhà nghiên cứu trên thế giới Các bài toán liên quan đến dữ liệu chuỗi thời gian có thể kể đến như: phân lớp, gom cụm, dự báo, phát hiện mô-típ, phát hiện bất thường, khai phá luật kết hợp và nhiều bài toán cơ bản khác
Để làm việc hiệu quả với các bài toán chuỗi thời gian, trước tiên cần nắm rõ một số khái niệm cơ bản.
1.1.2 Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian 1 𝑋 là một tập hợp nhiều mẫu dữ liệu (data samples), mỗi mẫu là một bộ (𝑇, 𝑉) biểu diễn các giá trị được ghi nhận từ một tín hiệu liên tục qua thời gian Trong đó, 𝑇 là thời điểm tiến hành quan sát, 𝑉 là giá trị quan sát Ký hiệu chuỗi thời gian có dạng:
Với 𝑛 là số lần đo đạt lấy mẫu, 𝑇 𝑖+1 > 𝑇 1 , ∀𝑖 Phần tử 𝑋 𝑖 là một véc-tơ trong không gian 𝑘 chiều có dạng:
Nếu 𝑘 = 1 thì 𝑋 được gọi là chuỗi thời gian đơn biến (uni-variate time series) Dữ liệu loại này có thể là các giá trị về thị trường tài chính (giá chứng khoán, tỷ giá hối đoái, tỷ lệ lãi suất), dữ liệu về y tế (tín hiệu điện tâm đồ hoặc điện não đồ của bệnh nhân), dữ liệu về giáo dục (số lượng sinh viên tốt nghiệp có việc làm qua các năm), thời tiết (lượng mưa, độ ẩm), năng lượng (nhu cầu điện năng), âm nhạc
Chuỗi thời gian là tập dữ liệu được sắp xếp theo thời gian, biểu diễn sự thay đổi của biến quan tâm theo thời gian Chuỗi thời gian có thể là tín hiệu âm thanh (tần số âm thanh được tạo bởi các nốt nhạc) hoặc dữ liệu ghi lại chuyển động của một đối tượng qua thời gian Ví dụ về chuỗi thời gian gồm có dữ liệu doanh số bán hàng theo tháng, giá cổ phiếu theo ngày và nhiệt độ theo giờ.
1 Trong tài liệu này dữ liệu chuỗi thời gian được gọi ngắn gọn là chuỗi thời gian về giá chứng khoán trên thị trường của công ty Apple Inc 2 với khoảng thời gian quan sát hơn sáu năm
Hình 1.1 Dữ liệu chuỗi thời gian đơn biến ghi nhận giá chứng khoán
Khi số chiều k lớn hơn 1, tập dữ liệu được gọi là chuỗi thời gian đa biến Dạng dữ liệu này thường gặp trong các ứng dụng ghi lại vị trí hoặc chuyển động của vật thể trong không gian ba chiều Ví dụ minh họa trong Hình 1.2 là dữ liệu chuỗi thời gian ghi nhận vị trí chuyển động của vật thể trong không gian ba chiều.
Hình 1.2 Dữ liệu chuỗi thời gian đa biến ghi nhận vị trí đối tượng trong không gian ba chiều (nguồn [16])
2 Nguồn: http://www.google.com/finance, từ khóa: Apple Inc
Chuỗi thời gian đồng nhất
Nếu thời điểm xác định các giá trị 𝑉 trong 𝑋 là cách đều nhau thì chuỗi thời gian 𝑋 được gọi là đồng nhất (uniform) Khi đó, ứng dụng có thể không quan tâm đến 𝑇 và xem 𝑋 như một véc-tơ giá trị (vector-valued) trong không gian 𝑘 ∗ 𝑛 chiều và ký hiệu:
Với 𝑇 𝑜 là thời điểm bắt đầu lấy mẫu, 𝑡 là khoảng thời gian giữa hai lần lấy mẫu liền kề nhau Trong luận văn này, chúng tôi tập trung nghiên cứu chuỗi thời gian đơn biến đồng nhất Tức là, chuỗi thời gian 𝑋 được biểu diễn dưới dạng vec-tơ giá trị 𝑛 chiều (𝑘 = 1, 𝑡 cách đều nhau)
Cho một chuỗi thời gian bất kỳ 𝑇 = (𝑡 1 , 𝑡 2 , … , 𝑡 𝑛 ), chuỗi thời gian 𝑆 có độ dài 𝑚 ≤ 𝑛 được gọi là chuỗi con (subseries/subsequence) của 𝑇 nếu 𝑆 chứa những giá trị liên tiếp sao cho:
Tập hợp tất cả chuỗi con của 𝑇 có cùng độ dài 𝑚 được ký hiệu là 𝑆 𝑇 𝑚
Trong giải tích chuỗi thời gian, đại diện của một chuỗi thời gian T = (t1, t2, , tn) là một mô hình Tx với kích thước thu gọn từ n về d (d