Một vài hướng tiếp cận dựa trên cấu trúc chỉ mục như R*-Tree, M-Tree,… tuy nhiên cấu trúc chỉ mục này thể hiện nhược điểm khi ứng dụng trong dữ liệu chuỗi thời gian với độ đo xoắn thời g
GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Giới thiệu đề tài
Trong thời đại bùng nổ công nghệ thông tin hiện nay, với sự phát triển mạnh mẽ của máy tính, thiết bị lưu trữ và các thiết bị hỗ trợ thu thập dữ liệu Các thông tin, dữ liệu liên quan đến các sự vật sự việc được số hóa và lưu trên các thiết bị điện tử để truy vấn khi cần thiết Sự tích tụ dữ liệu này diễn ra với một tốc độ ngày càng nhanh chóng tạo nên khối dữ liệu lớn Cùng với sự bùng nổ của dữ liệu thì lĩnh vực khai phá dữ liệu (data mining) càng trở nên quan trọng và phát triển mạnh mẽ để đáp ứng các yêu cầu truy hồi thông tin (information retrieval) ngày càng đa dạng từ các khối dữ liệu đó Một trong những đối tượng nghiên cứu quan trọng trong lĩnh vực khai phá dữ liệu là dữ liệu chuỗi thời gian (time series data) Dữ liệu chuỗi thời gian tồn tại trong rất nhiều lĩnh vực khác nhau như: xã hội, kinh tế, tài chính, y tế, giáo dục, môi trường, địa lý, sinh học, v.v… Hình 1.1 là một dữ liệu chuỗi thời gian mô tả về điểm của thị trường chứng khoán Việt Nam qua các năm [19]
Hình 1.1 Dữ liệu chuỗi thời gian về điểm của thị trường chứng khoán Việt Nam –
Việc hiểu và trích xuất được thông tin tiềm ẩn trong các dữ liệu chuỗi thời gian có ý nghĩa quan trọng và góp phần vào sự phát triển của lĩnh vực Do đó, khai
2 phá dữ liệu chuỗi thời gian đóng vai trò quan trọng và nhận được sự quan tâm từ rất nhiều nhà khoa học trên thế giới Những bài toán liên quan đến khai phá dữ liệu chuỗi thời gian như: phân lớp, gom cụm, khai phá luật kết hợp, phát hiện bất thường, phát hiện motif, kết chuỗi con và các bài toán khác
Trong đó bài toán kết chuỗi con (sub-sequence join) giữa hai dữ liệu chuỗi thời gian khác nhau là một trong các bài toán đặc trưng phổ biến trong lĩnh vực khai phá dữ liệu chuỗi thời gian Những ứng dụng thực tiễn của bài toán kết chuỗi con trên dữ liệu chuỗi thời gian như: Dựa vào tỉ giá hối đoái của đồng tiền Việt Nam so với đồng đô la Mỹ, và tỉ giá của đồng tiền Việt Nam so với đồng Yên của Nhật ta sẽ thu được hai dữ liệu chuỗi thời gian Từ đó thực hiện việc kết chuỗi con sẽ tìm ra được giai đoạn nào tỉ giá đồng tiền Việt Nam so với đồng Yên Nhật biến thiên rất giống so với tỉ giá đồng Việt Nam so với đồng đô la Mỹ Từ đó nhà nước sẽ có những chính sách phù hợp cho tương lai; Một ví dụ khác về bài toàn kết chuỗi con là: Dựa vào doanh thu bán hàng hàng ngày của một siêu thị và giá vàng để tìm ra được giai đoạn nào doanh số bán hàng của siêu thị phụ thuộc vào giá vàng để nhà quản lý siêu thị có chiến lược kinh doanh hiệu quả hơn.
Mục tiêu của đề tài
Mục tiêu của nghiên cứu là tập trung vào các vấn đề sau:
- Nghiên cứu dữ liệu chuỗi thời gian và bài toán kết chuỗi con trên dữ liệu chuỗi thời gian
- Nghiên cứu các phương pháp phân đoạn để áp dụng vào quá trình phân đoạn chuỗi thời gian thành các chuỗi con có ý nghĩa
- Nghiên cứu các độ đo tương tự cho các chuỗi thời gian để áp dụng vào việc tính toán độ tương tự giữa hai chuỗi con trong quá trình tìm chuỗi con tương tự
- Nghiên cứu cấu trúc cây chỉ mục TS-Tree để áp dụng vào quá trình kết chuỗi con để làm tăng hiệu quả của bài toán kết chuỗi con thông qua việc rút ngắn thời gian tìm kiếm chuỗi con tương tự.
Những Kết quả đạt được
Trong thời gian thực hiện đề tài kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cấu trúc chỉ mục TS-Tree Chúng tôi đã đạt được những kết quả sau:
- Tìm hiểu về chuỗi dữ liệu thời gian và đặc điễm của loại dữ liệu này Hơn nữa, được hiểu rỏ hơn về các ứng dụng thực tế mà loại dữ liệu này đan tồn tại
- Tìm hiểu sâu vào một trong những lĩnh vực nghiên cứu lớn trên dữ liệu chuỗi thời gian là bài toán kết chuỗi con trên dữ liệu chuỗi thời gian
- Về phân đoạn chuỗi thời gian, trong thời gian luận văn chúng tôi đã tìm hiểu về các phương pháp phân đoạn chuỗi thời gian thành các chuỗi thời gian con có ý nghĩa Và đã áp dụng phương pháp phân đoạn với điểm cực trị quan trọng vào bài toán kết chuỗi con trên dữ liệu chuỗi thời gian
- Cấu trúc chỉ mục TS-Tree được nghiên cứu và tìm hiểu để áp dụng vào bài toán kết chuỗi con để nhằm tăng tốc độ tìm kiếm chuỗi con tương tự trong quá trình so trùng chuỗi con với độ chính xác cao
- Ngoài ra, độ đo tương tự được sử dụng để tính toán khoảng cách giữa hai chuỗi con là độ đo xoắn thời gian động (DTW) với độ chính xác cao hơn so với độ đo Euclid.
Cấu trúc của luận văn
Luận văn được chia làm sáu chương
CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI
Chương này giới thiệu tổng quan về đề tài, mục tiêu, giới hạn của đề tài và cấu trúc tổng thể của đề cương.
CƠ SỞ LÝ THUYẾT
Dữ liệu chuỗi thời gian
Dữ liệu chuỗi thời gian X là một tập các mẫu dữ liệu (data sample), mỗi mẫu là một bộ biển diễn các giá trị quan sát trong khoảng thời gian liên tục Trong đó, t là thời điểm ghi nhận, v là giá trị tại thời điểm t quan sát được Dữ liệu chuỗi thời gian X có dạng:
Với n là số lần quan sát được và t i > t i-1 Nếu chúng ta xem xét các giá trị quan sát trong những thời điểm t i cách đều nhau thì khi đó X được gọi là chuỗi thời gian đồng nhất (uniform), và được biểu diển như:
Nếu mỗi phần tử v i trong chuỗi thời gian là một giá trị thì X được gọi là chuỗi thời gian đơn biến (uni-variate time series) Ví dụ về chuỗi thời gian đơn biến có thể kể đến như: dữ liệu về tài chính (chứng khoán, tỉ giá), dữ liệu về y tế (điện não đồ, điện tâm đồ của bênh nhân), thời tiết (lượng mưa, độ ẩm), năng lượng (điện năng tiêu thụ từng ngày), âm nhạc (tần số âm thanh được tạo nên bởi các nốt nhạc trong bài hát) Hình 2.1 minh họa chuỗi thời gian đơn biến biểu diễn cho giá chứng khoán của tập đoàn Hoàng Anh Gia Lai trong sáu tháng gần đây
Hình 2.1 Dữ liệu chuỗi thời gian đơn biến ghi nhận giá cổ phiếu
Nếu mỗi phần tử v i trong chuỗi thời gian là một vector k chiều, với k > 1 có dạng: v i = (v i1 , v i2 ,… v ik )
6 thì X được gọi là chuỗi thời gian đa biến (multi-variate time series) Ví dụ của loại dữ liệu này như việc ghi nhận về sự chuyển động của một đối tượng trong không gian 3 chiều Hình 2.2 là dữ liệu chuỗi thời gian ghi nhận vị trí khi di chuyển của đối tượng trong không gian 3 chiều
Hình 2.2 Dữ liệu chuỗi thời gian đa biến biểu diễn vị trí của đối tượng trong không gian 3 chiều khi di chuyển[6]
Trong bài nghiên cứu này sẽ tập trung nghiên cứu trên dữ liệu chuỗi thời gian đơn biến đồng nhất Ở các phần sau của đề cương này, dữ liệu chuỗi thời gian được gọi ngắn gọn là chuỗi thời gian.
Bài toán kết chuỗi con trên dữ liệu chuỗi thời gian
Chuỗi con: Cho chuỗi thời gian X, với X = (x 1 , x 2 ,…,x n ), một chuỗi thời gian X ’ có độ dài k với k ≤ n được gọi là chuỗi con (subseries) của X nếu X ’ chứa những giá trị liên tiếpsao cho
2.2.1 Bài toán kết chuỗi con giữa hai chuỗi dữ liệu thời gian
Cho 2 dữ liệu chuỗi thời gian X và Y Kết quả của bài toán kết chuỗi con trên dữ liệu chuỗi thời gian là một tập chứa tất cả các cặp (X i,k , Y j,l ) thỏa mãn đồng thời hai điều kiện sau:
- X i là chuỗi con của chuỗi X Y j là chuỗi con của chuỗi Y sao cho D(X i , Y j ) < 𝜀.
- Không tồn tại một chuỗi thời gian X ii nào sao cho X i là con của chuỗi X ii , và
7 không tồn tại bất kỳ một chuỗi thời gian Y jj nào sao cho Y j là chuỗi con của Y jj và thỏa mãn một trong các điều kiện sau: D(X ii , Y jj ) < 𝜀, D(X ii , Y j ) < 𝜀, D(X i , Y jj ) < 𝜀
2.2.2 Bài toán tìm chuỗi con tương quan nhất giữa hai dữ liệu chuỗi thời gian (MaxCorrelation Join)
Bài toán được giới thiệu trong công trình của Mueen [2] năm 2014 như sau:
Cho 2 dữ liệu chuỗi thời gian X và Y với chiều dài dữ liệu chuỗi thời gian X và Y lần lượt là n và m với n > m và giá trị minlength là giá trị ràng buộc về chiều dài tối thiểu của các chuỗi con trong quá trình kết chuỗi Bài toán tìm chuỗi con tương quan nhất giữa X và Y là tìm ra một cặp (X ’ , Y ’ )đồng thời thỏa mãn các điều kiện sao:
- X ’ là chuỗi con của chuỗi X Y ’ là chuỗi con của chuỗi Y
- Distance(X ’ , Y ’ ) = Min(Distance(X i , Y i )), với X i là chuỗi con của X, Y i là chuỗi con của Y và length(X i ) = length(Y i ) = k và k > minlength
Hình 2.3 được trích từ công trình của Mueen [2] mô tả về bài toán tìm chuỗi con tương quan nhất giữa hai dữ liệu chuỗi thời gian là nhiệt độ và độ mặn được đo tại trạm ALOHA trên biển Thái Bình Dương ngày 12 tháng 10 năm 2003
Hình 2.3 Chuỗi con tương quan nhất giữa 2 chuỗi thời gian
Độ đo tương tự
Độ tương tự (similarity measure) của hai đối tượng là mức độ sai khác của đối tượng dữ liệu này với đối tượng dữ liệu còn lại Độ sai khác này được tính dựa trên một hàm gọi là hàm khoảng cách (distance fucntion) Có rất nhiều tác giả đề nghị nhiều độ đo tương tự dựa trên các hàm khoảng cách khac nhau Trong bài này
8 sẽ giới thiệu hai độ đo được dùng phổ biến trong các nghiên cứu trên dữ liệu chuỗi thời gian là độ đo Euclid và độ đo xoắn thời gian động (Dynamic Time Warping)
Khoảng cách Euclid là một dạng phổ biến của khoảng cách Minkowski
Khoảng cách Minkowski được định nghĩa như sau:
Sim(X,Y) = 𝑝 √∑ 𝑛 𝑖=1 (xi−yi) 𝑝 , với p = 1 … ∞ Với p = 2, hàm khoảng cách trên là hàm tính khoảng cách Euclid Phương pháp này yêu cầu tính toán trên hai chuỗi thời gian có độ dài bằng nhau Giả sử có hai chuỗi thời gian X = {x 1, x 2, x 3, …, x n } và Y = {y 1, y 2, y 3 …, y n } là hai điểm trong không gian n chiều Độ tương tự giữa hai chuỗi thời ian X và Y được định nghĩa bởi hàm tính khoảng cách Euclid giữa hai điểm trong không gian n chiều bởi công thức:
Hình 2.3 mô tả việc tính độ tương tự giữa hai chuỗi thời gian bởi hàm tính khoảng cách Euclid
Hình 2.3 Độ tương tự của hai chuỗi thời gian áp dụng độ đo Euclid Ưu điểm của độ đo khoảng cách Euclid là dễ hiểu, quá trình tính toán đơn giản, dễ cài đặt và dễ mở rộng cho nhiều bái toán khai phá dữ liệu chuỗi thời gian
Tuy nhiên, độ đo này có nhược điểm là nhạy cảm với nhiễu, khá cứng nhắc và không phù hợp với dữ liệu được đo với nhiều thang đo khác nhau
2.3.2 Độ đo xoắn thời gian động Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) [16] cũng tương tự như độ đo khoảng cách Euclid, là một độ đo phổ biến trong các bài toán khai phá dữ liệu chuỗi thời gian Phương pháp tính khoảng cách xoắn thời gian động cũng tương tự như cách tính khoảng cách Euclid nhưng thay vì so trùng hai chuỗi dữ liệu bằng cách tính khoảng cách từng cặp 1 – 1(điểm thứ i của chuỗi thứ
9 nhất so với điểm thứ i của chuỗi thứ hai) thì một điểm có thể ánh xạ với nhiều điểm và ánh xạ này không tuyến tính Hình 2.4 minh họa cách ánh xạ điểm trong phương pháp tính khoảng cách xoắn thời gian động giữa hai chuỗi thời gian
Hình 2.4 Khoảng cách xoắn thời gian động giữa hai chuỗi thời gian
Giả sử cho hai chuỗi thời gian Q và C có chiều dài lần lượt là n và m như sau:
Q = q 1 , q 2 , … , q i ,…, q n C = c 1 , c 2 , …, c i , …, c m Để tính khoảng cách xoắn thời gian động giữa hai chuỗi thời gian Q và C ta xây dựng một ma trận kích thước n × m với mỗi phần từ (i,j) của ma trận chứa khoảng cách d(q i , c j ) của từ điểm q i của chuỗi thời gian Q tới điểm cj của chuỗi thời gian C
Một đường xoắn (warping path) W là một tập hợp các phần tử liên tục của ma trận định nghĩa một ánh xạ giữa Q và C Hình 2.5 mô tả đường xoắn W được tính từ hai chuỗi thời gian Q và C như sau:
Hình 2.5 Ma trận chứa khoảng cách d(q i ,c i ) và đường xoắn W
Ta có khoảng cách xoắn thời gian động được tính bằng công thức: Đường xoắn
Với các ràng buộc trong quá trình tính toán khoảng cách xoắn thời gian động như sau:
- Điều kiện biên: 𝑤 1 = (1, 1) và 𝑤 𝑘 = (𝑚, 𝑛) Ràng buộc này yêu cầu đường xoắn phải bắt đầu và kết thúc ở hai góc đối diện của ma trận xoắn
- Tính liên tục: với 𝑤 𝑘 = (𝑎, 𝑏), thì 𝑤 𝑘−1 = (𝑎 ′ , 𝑏 ′ ) trong đó 𝑎– 𝑎 ′ ≤ 1 và 𝑏 − 𝑏’ ≤ 1 Ràng buộc này yêu cầu đường xoắn phải di chuyển giữa những ô liền kề kể cả đường chéo
- Tính đơn điệu tăng: với 𝑤 𝑘 = (𝑎, 𝑏), thì 𝑤 𝑘−1 = (𝑎 ′ , 𝑏 ′ ) với 𝑎– 𝑎 ′ ≥ 0
Ràng buộc này yêu cầu các điểm trong W phải có tính đơn điệu tăng theo thời gian Ưu điểm của phương pháp này là cho kết quả chính xác hơn so với độ đo Euclid và cho phép nhận dạng các mẫu có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời gian có thể khác nhau Phương pháp DWT hiệu quả hơn so với phương pháp tính toán khoảng cách theo Euclid, đặc biệt trong các bài toàn phân lớp, gom cụm hay trong các ứng dụng nhận dạng giọng nói Tuy nhiên, phương pháp này có nhược điểm là thời gian tính toán lâu với độ phức tạp là
O(mn), với m là chiều dài cửa sổ xoắn, n là chiều dài chuỗi Để khắc phục nhược điểm trên, một số tác giả đã đưa ra những phương pháp làm tăng tốc quá trình tính toán khoảng cách DTW trong những trường hợp cụ thể như sau:
- Sakoe, H và Chiba, S (1978) [16] đã đưa ra ràng buộc gọi là dải SakoeChiaba Itakura, F (1975) [17] đã đưa ra ràng buộc hình bình hành Itakura, đây là những ràng buộc đường xoắn khi tính khoảng cách xoắn thời gian động
- Keogh, E và các cộng sự (2002) [15] đề xuất phương pháp tính chặn dưới gọi là chặn dưới LB_Keogh Phương pháp này nhằm giải quyết vấn đề so sánh độ tương tự trong quá trình tìm kiếm Nếu giá trị của chặn dưới lớn hơn khoảng cách tốt nhất hiện tại thì ta không cần tính khoảng cách thực
- Ratanamahatana, C A và Keogh, E (2012) [18] đề xuất kỹ thuật tăng tốc độ tính khoảng cách xoắn thời gian động gọi là từ bỏ sớm (Early Abandon) Trong quá
11 trình tính khoảng cách xoắn thời gian động, nếu giá trị đang tính đã lớn hơn khoảng cách tốt nhất hiện tại thì ứng dụng không cần phải tính tiếp khoảng cách này Hình
2.6 minh họa việc từ bỏ sớm khi tính khoảng cách xoắn thời gian động
Hình 2.6 Kỹ thuật từ bỏ sớm trong tính khoảng cách DTW
CÁC CÔNG TRÌNH LIÊN QUAN
Các công trình liên quan
3.1.1 Các điểm cực trị quan trọng của dữ liệu chuỗi thời gian
Trong công trình của mình [4], Fink và Gandhi đã đưa ra các định nghĩa về các điểm cực trị (extreme points) và các điểm cực trị quan trọng (important extreme points) Trong đó tác giả giới thiệu bốn loại cực trị là: cực trị nghiêm cách, cực trị bên trái, cực trị bên phải và cực trị phẳng Và tiếp theo đó, các cực trị thỏa mãn một số yếu tố để trở thành cực trị quan trọng Trong phần này sẽ giới thiệu định nghĩa về các điểm cực tiểu, và các định nghĩa về các điểm cực đại cũng tương tự như vậy
3.1.1.1 Điểm cực trị (extreme points)
Cho chuỗi thời gian 𝐴 = 𝑎 1 , 𝑎 2 , … , 𝑎 𝑛 Điểm 𝑎 𝑖 (1 < 𝑖 < 𝑛) được gọi là:
- Cực tiểu nghiêm cách (strict minimum) nếu 𝑎 𝑖 < 𝑎 𝑖−1 và 𝑎 𝑖 < 𝑎 𝑖+1
- Cực tiểu bên trái (left minimum) nếu 𝑎 𝑖 < 𝑎 𝑖−1 và tồn tại một chỉ số 𝑟𝑖𝑔ℎ𝑡 > 𝑖 sao cho 𝑎 𝑖 = 𝑎 𝑖+1 = = 𝑎 𝑟𝑖𝑔ℎ𝑡 < 𝑎 𝑟𝑖𝑔ℎ𝑡+1
- Cực tiểu phải (right minimum) nếu 𝑎 𝑖 < 𝑎 𝑖+1 và tồn tại một chỉ số 𝑙𝑒𝑓𝑡 < 𝑖 sao cho 𝑎 𝑙𝑒𝑓𝑡−1 > 𝑎 𝑙𝑒𝑓𝑡 = … = 𝑎 𝑖−1 = 𝑎 𝑖
- Cực tiểu phẳng (flat minimum) nếu tồn tại đồng thời chỉ số 𝑙𝑒𝑓𝑡 < 𝑖 và 𝑟𝑖𝑔ℎ𝑡 > 𝑖 sao cho 𝑎 𝑙𝑒𝑓𝑡−1 > 𝑎 𝑙𝑒𝑓𝑡 = = 𝑎 𝑖 = = 𝑎 𝑟𝑖𝑔ℎ𝑡 < 𝑎 𝑟𝑖𝑔ℎ𝑡 + 1
Hình 3.1 Cực tiểu nghiêm cách (a), cực tiểu bên trái và phải (b), cực tiểu phẳng (c)
Tương tự như định nghĩa về các điểm cực tiểu, ta có các định nghĩa cực đại nghiêm cách (strict maximum), cực đại bên trái (left maximun), cực đại bên phải (right maximun) và cực đại phẳng (flat maximun) Hình 3.2 mô tả về các loại cực đại
Hình 3.2 Cực đại nghiêm cách (a), cực đại trái - phải (b), cực đại phẳng (c)
Từ những định nghĩa nêu trên, ta có thể dễ dàng tìm được các điểm cực trị của một dữ liệu chuỗi thời gian Tuy nhiên, các điểm cực trị trong một vài trường hợp lại không có ý nghĩa cho bài toán ứng dụng Như Hình 3.3 tất cả các điểm dữ liệu trong chuỗi thời gian đều là điểm cực trị
Hình 3.3 Tất cả các điểm dữ liệu đều là cực trị
Từ đó nhóm tác giả cũng đề xuất các khái niệm về các điểm cực trị quan trọng (important extreme)
3.1.1.2 Điểm cực trị quan trọng
Cho trước một hàm khoảng cách dist và một giá trị R với R > 0, một điểm a i
14 của chuỗi thời gian A = a 1, a 2 ,…a n được gọi là cực tiểu quan trọng (important minimum) nếu và chỉ nếu tồn tại đồng thời các chỉ số il và ir (il < i < ir) sao cho tất cả các điều kiện sao đây được thỏa mãn:
- a i là cực tiểu trong khoảng a il ,…,a ir
Cực tiểu quan trọng nghiêm cách (strict important minimum): Điểm 𝑎 𝑖 thuộc chuỗi thời gian 𝐴 = 𝑎 1 , , 𝑎 𝑛 được gọi là cực tiểu quan trọng nghiêm cách nếu tồn tại đồng thời các chỉ số 𝑖𝑙 và 𝑖𝑟 (𝑖𝑙 < 𝑖 < 𝑖𝑟) sao cho các điều kiện sao đây được thỏa:
- 𝑎 𝑖 là cực tiểu nghiêm cách trong khoảng 𝑎 𝑖𝑙 , , 𝑎 𝑖−1 và 𝑎 𝑖+1 , , 𝑎 𝑖𝑟
Cực tiểu quan trọng bên trái (left important minimum): Điểm 𝑎 𝑖 thuộc chuỗi thời gian 𝐴 = 𝑎 1 , , 𝑎 𝑛 được gọi là cực tiểu quan trọng bên trái nếu nó không là cực tiểu quan trọng nghiêm cách và tồn tại đồng thời các chỉ số 𝑖𝑙 và 𝑖𝑟 (𝑖𝑙 < 𝑖