1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree

77 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Tác giả Lê Nhựt Trường
Người hướng dẫn PGS. TS. Dương Tuấn Anh
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học Máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2017
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 77
Dung lượng 2,28 MB

Cấu trúc

  • CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI (13)
    • 1.1 Giới thiệu đề tài (13)
    • 1.2 Mục tiêu của đề tài (14)
    • 1.3 Những Kết quả đạt được (14)
    • 1.4 Cấu trúc của luận văn (15)
  • CHƯƠNG 2: CƠ SỞ LÝ THUYẾT (15)
    • 2.1. Dữ liệu chuỗi thời gian (17)
    • 2.2. Bài toán kết chuỗi con trên dữ liệu chuỗi thời gian (18)
      • 2.2.1. Bài toán kết chuỗi con giữa hai chuỗi dữ liệu thời gian (18)
      • 2.2.2. Bài toán tìm chuỗi con tương quan nhất giữa hai dữ liệu chuỗi thời gian (MaxCorrelation Join) (19)
    • 2.3. Độ đo tương tự (19)
      • 2.3.1. Độ đo Euclid (20)
      • 2.3.2. Độ đo xoắn thời gian động (20)
    • 2.4 Phép vị tự (Homothetic transformation) (23)
  • CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN (15)
    • 3.1 Các công trình liên quan (24)
      • 3.1.1. Các điểm cực trị quan trọng của dữ liệu chuỗi thời gian (24)
        • 3.1.1.1. Điểm cực trị (extreme points) (24)
        • 3.1.1.2. Điểm cực trị quan trọng (25)
        • 3.1.1.3. Giải thuật tìm các điểm cực trị quan trọng (27)
      • 3.1.2. Cấu trúc chỉ mục TS-tree cho dữ liệu chuỗi thời gian với độ đo xoắn thời (29)
        • 3.1.2.1. Tổng quan về cấu trúc chỉ mục (30)
        • 3.1.2.2. Các khái niệm chính trong TS-Tree (31)
        • 3.1.2.3. Các thành phần trong cấu trúc chỉ mục TS-Tree (32)
        • 3.1.2.4. Các thao tác trong cấu trúc chỉ mục TS-Tree (34)
        • 3.1.2.5 Cấu trúc chỉ mục TS-Tree làm việc với độ đo DTW (37)
      • 3.1.3. Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ do xoắn thời gian động (40)
        • 3.1.3.1. Chuẩn hóa dữ liệu (40)
        • 3.1.3.2. Ước lượng giá trị hệ số nén R (42)
        • 3.1.3.3. Phân đoạn chuỗi thời gian (42)
        • 3.1.3.4. Thực hiện quá trình kết chuỗi (43)
      • 3.1.4. Phương pháp kết chuỗi con trên dữ liệu đã lập chỉ mục (43)
      • 3.1.5 Phương pháp kết chuỗi con dựa trên các phân đoạn không đồng nhất (non-uniform segment) (44)
    • 3.2 Phương pháp đề nghị (45)
  • CHƯƠNG 4: PHƯƠNG PHÁP ĐỀ NGHỊ (16)
    • 4.1. Tổng quan về bài toán kết chuỗi con (47)
    • 4.2. Mô hình đề nghị cho bài toán kết chuỗi con (48)
    • 4.3 Chuẩn hóa dữ liệu (49)
    • 4.4 Quá trình phân đoạn chuỗi thời gian (51)
    • 4.5 Quá trình lập chỉ mục (52)
    • 4.6 Quá trình kết chuỗi con (52)
  • CHƯƠNG 5: THỰC NGHIỆM (16)
    • 5.1 Môi trường thực nghiệm (57)
    • 5.2 Dữ liệu thực nghiệm (57)
    • 5.3 Các tham số ước lượng (58)
    • 5.4 Phương pháp thực nghiệm (59)
    • 5.5 Thực nghiệm so sánh giải thuật kết chuỗi con trực tiếp và giải thuật kết chuỗi (59)
      • 5.5.1 Thực nghiệm với dữ liệu Chromosome_1 (60)
      • 5.5.2 Thực nghiệm với dữ liệu Runoff (60)
      • 5.5.3 Thực nghiệm với dữ liệu Power_Italy (61)
      • 5.5.4 Thực nghiệm với dữ liệu Chromosome_2 (62)
      • 5.5.5 Thực nghiệm với dữ liệu Currency (63)
      • 5.5.6 Thực nghiệm với dữ liệu RW-1 (64)
      • 5.5.7 Thực nghiệm với dữ liệu Stock (65)
      • 5.5.8 Thực nghiệm với dữ liệu RW-2 (66)
  • CHƯƠNG 6: TỔNG KẾT (16)
    • 6.1 Tổng kết nội dung luận văn (70)
    • 6.2 Kết quả đạt được (70)
    • 6.3 Hướng phát triển (71)
  • gian 3 chiều khi di chuyển[6] (0)

Nội dung

Một vài hướng tiếp cận dựa trên cấu trúc chỉ mục như R*-Tree, M-Tree,… tuy nhiên cấu trúc chỉ mục này thể hiện nhược điểm khi ứng dụng trong dữ liệu chuỗi thời gian với độ đo xoắn thời g

GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

Giới thiệu đề tài

Trong thời đại bùng nổ công nghệ thông tin hiện nay, với sự phát triển mạnh mẽ của máy tính, thiết bị lưu trữ và các thiết bị hỗ trợ thu thập dữ liệu Các thông tin, dữ liệu liên quan đến các sự vật sự việc được số hóa và lưu trên các thiết bị điện tử để truy vấn khi cần thiết Sự tích tụ dữ liệu này diễn ra với một tốc độ ngày càng nhanh chóng tạo nên khối dữ liệu lớn Cùng với sự bùng nổ của dữ liệu thì lĩnh vực khai phá dữ liệu (data mining) càng trở nên quan trọng và phát triển mạnh mẽ để đáp ứng các yêu cầu truy hồi thông tin (information retrieval) ngày càng đa dạng từ các khối dữ liệu đó Một trong những đối tượng nghiên cứu quan trọng trong lĩnh vực khai phá dữ liệu là dữ liệu chuỗi thời gian (time series data) Dữ liệu chuỗi thời gian tồn tại trong rất nhiều lĩnh vực khác nhau như: xã hội, kinh tế, tài chính, y tế, giáo dục, môi trường, địa lý, sinh học, v.v… Hình 1.1 là một dữ liệu chuỗi thời gian mô tả về điểm của thị trường chứng khoán Việt Nam qua các năm [19]

Hình 1.1 Dữ liệu chuỗi thời gian về điểm của thị trường chứng khoán Việt Nam –

Việc hiểu và trích xuất được thông tin tiềm ẩn trong các dữ liệu chuỗi thời gian có ý nghĩa quan trọng và góp phần vào sự phát triển của lĩnh vực Do đó, khai

2 phá dữ liệu chuỗi thời gian đóng vai trò quan trọng và nhận được sự quan tâm từ rất nhiều nhà khoa học trên thế giới Những bài toán liên quan đến khai phá dữ liệu chuỗi thời gian như: phân lớp, gom cụm, khai phá luật kết hợp, phát hiện bất thường, phát hiện motif, kết chuỗi con và các bài toán khác

Trong đó bài toán kết chuỗi con (sub-sequence join) giữa hai dữ liệu chuỗi thời gian khác nhau là một trong các bài toán đặc trưng phổ biến trong lĩnh vực khai phá dữ liệu chuỗi thời gian Những ứng dụng thực tiễn của bài toán kết chuỗi con trên dữ liệu chuỗi thời gian như: Dựa vào tỉ giá hối đoái của đồng tiền Việt Nam so với đồng đô la Mỹ, và tỉ giá của đồng tiền Việt Nam so với đồng Yên của Nhật ta sẽ thu được hai dữ liệu chuỗi thời gian Từ đó thực hiện việc kết chuỗi con sẽ tìm ra được giai đoạn nào tỉ giá đồng tiền Việt Nam so với đồng Yên Nhật biến thiên rất giống so với tỉ giá đồng Việt Nam so với đồng đô la Mỹ Từ đó nhà nước sẽ có những chính sách phù hợp cho tương lai; Một ví dụ khác về bài toàn kết chuỗi con là: Dựa vào doanh thu bán hàng hàng ngày của một siêu thị và giá vàng để tìm ra được giai đoạn nào doanh số bán hàng của siêu thị phụ thuộc vào giá vàng để nhà quản lý siêu thị có chiến lược kinh doanh hiệu quả hơn.

Mục tiêu của đề tài

Mục tiêu của nghiên cứu là tập trung vào các vấn đề sau:

- Nghiên cứu dữ liệu chuỗi thời gian và bài toán kết chuỗi con trên dữ liệu chuỗi thời gian

- Nghiên cứu các phương pháp phân đoạn để áp dụng vào quá trình phân đoạn chuỗi thời gian thành các chuỗi con có ý nghĩa

- Nghiên cứu các độ đo tương tự cho các chuỗi thời gian để áp dụng vào việc tính toán độ tương tự giữa hai chuỗi con trong quá trình tìm chuỗi con tương tự

- Nghiên cứu cấu trúc cây chỉ mục TS-Tree để áp dụng vào quá trình kết chuỗi con để làm tăng hiệu quả của bài toán kết chuỗi con thông qua việc rút ngắn thời gian tìm kiếm chuỗi con tương tự.

Những Kết quả đạt được

Trong thời gian thực hiện đề tài kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cấu trúc chỉ mục TS-Tree Chúng tôi đã đạt được những kết quả sau:

- Tìm hiểu về chuỗi dữ liệu thời gian và đặc điễm của loại dữ liệu này Hơn nữa, được hiểu rỏ hơn về các ứng dụng thực tế mà loại dữ liệu này đan tồn tại

- Tìm hiểu sâu vào một trong những lĩnh vực nghiên cứu lớn trên dữ liệu chuỗi thời gian là bài toán kết chuỗi con trên dữ liệu chuỗi thời gian

- Về phân đoạn chuỗi thời gian, trong thời gian luận văn chúng tôi đã tìm hiểu về các phương pháp phân đoạn chuỗi thời gian thành các chuỗi thời gian con có ý nghĩa Và đã áp dụng phương pháp phân đoạn với điểm cực trị quan trọng vào bài toán kết chuỗi con trên dữ liệu chuỗi thời gian

- Cấu trúc chỉ mục TS-Tree được nghiên cứu và tìm hiểu để áp dụng vào bài toán kết chuỗi con để nhằm tăng tốc độ tìm kiếm chuỗi con tương tự trong quá trình so trùng chuỗi con với độ chính xác cao

- Ngoài ra, độ đo tương tự được sử dụng để tính toán khoảng cách giữa hai chuỗi con là độ đo xoắn thời gian động (DTW) với độ chính xác cao hơn so với độ đo Euclid.

Cấu trúc của luận văn

Luận văn được chia làm sáu chương

CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

Chương này giới thiệu tổng quan về đề tài, mục tiêu, giới hạn của đề tài và cấu trúc tổng thể của đề cương.

CƠ SỞ LÝ THUYẾT

Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian X là một tập các mẫu dữ liệu (data sample), mỗi mẫu là một bộ biển diễn các giá trị quan sát trong khoảng thời gian liên tục Trong đó, t là thời điểm ghi nhận, v là giá trị tại thời điểm t quan sát được Dữ liệu chuỗi thời gian X có dạng:

Với n là số lần quan sát được và t i > t i-1 Nếu chúng ta xem xét các giá trị quan sát trong những thời điểm t i cách đều nhau thì khi đó X được gọi là chuỗi thời gian đồng nhất (uniform), và được biểu diển như:

Nếu mỗi phần tử v i trong chuỗi thời gian là một giá trị thì X được gọi là chuỗi thời gian đơn biến (uni-variate time series) Ví dụ về chuỗi thời gian đơn biến có thể kể đến như: dữ liệu về tài chính (chứng khoán, tỉ giá), dữ liệu về y tế (điện não đồ, điện tâm đồ của bênh nhân), thời tiết (lượng mưa, độ ẩm), năng lượng (điện năng tiêu thụ từng ngày), âm nhạc (tần số âm thanh được tạo nên bởi các nốt nhạc trong bài hát) Hình 2.1 minh họa chuỗi thời gian đơn biến biểu diễn cho giá chứng khoán của tập đoàn Hoàng Anh Gia Lai trong sáu tháng gần đây

Hình 2.1 Dữ liệu chuỗi thời gian đơn biến ghi nhận giá cổ phiếu

Nếu mỗi phần tử v i trong chuỗi thời gian là một vector k chiều, với k > 1 có dạng: v i = (v i1 , v i2 ,… v ik )

6 thì X được gọi là chuỗi thời gian đa biến (multi-variate time series) Ví dụ của loại dữ liệu này như việc ghi nhận về sự chuyển động của một đối tượng trong không gian 3 chiều Hình 2.2 là dữ liệu chuỗi thời gian ghi nhận vị trí khi di chuyển của đối tượng trong không gian 3 chiều

Hình 2.2 Dữ liệu chuỗi thời gian đa biến biểu diễn vị trí của đối tượng trong không gian 3 chiều khi di chuyển[6]

Trong bài nghiên cứu này sẽ tập trung nghiên cứu trên dữ liệu chuỗi thời gian đơn biến đồng nhất Ở các phần sau của đề cương này, dữ liệu chuỗi thời gian được gọi ngắn gọn là chuỗi thời gian.

Bài toán kết chuỗi con trên dữ liệu chuỗi thời gian

Chuỗi con: Cho chuỗi thời gian X, với X = (x 1 , x 2 ,…,x n ), một chuỗi thời gian X ’ có độ dài k với k ≤ n được gọi là chuỗi con (subseries) của X nếu X ’ chứa những giá trị liên tiếpsao cho

2.2.1 Bài toán kết chuỗi con giữa hai chuỗi dữ liệu thời gian

Cho 2 dữ liệu chuỗi thời gian X và Y Kết quả của bài toán kết chuỗi con trên dữ liệu chuỗi thời gian là một tập chứa tất cả các cặp (X i,k , Y j,l ) thỏa mãn đồng thời hai điều kiện sau:

- X i là chuỗi con của chuỗi X Y j là chuỗi con của chuỗi Y sao cho D(X i , Y j ) < 𝜀.

- Không tồn tại một chuỗi thời gian X ii nào sao cho X i là con của chuỗi X ii , và

7 không tồn tại bất kỳ một chuỗi thời gian Y jj nào sao cho Y j là chuỗi con của Y jj và thỏa mãn một trong các điều kiện sau: D(X ii , Y jj ) < 𝜀, D(X ii , Y j ) < 𝜀, D(X i , Y jj ) < 𝜀

2.2.2 Bài toán tìm chuỗi con tương quan nhất giữa hai dữ liệu chuỗi thời gian (MaxCorrelation Join)

Bài toán được giới thiệu trong công trình của Mueen [2] năm 2014 như sau:

Cho 2 dữ liệu chuỗi thời gian X và Y với chiều dài dữ liệu chuỗi thời gian X và Y lần lượt là n và m với n > m và giá trị minlength là giá trị ràng buộc về chiều dài tối thiểu của các chuỗi con trong quá trình kết chuỗi Bài toán tìm chuỗi con tương quan nhất giữa X và Y là tìm ra một cặp (X ’ , Y ’ )đồng thời thỏa mãn các điều kiện sao:

- X ’ là chuỗi con của chuỗi X Y ’ là chuỗi con của chuỗi Y

- Distance(X ’ , Y ’ ) = Min(Distance(X i , Y i )), với X i là chuỗi con của X, Y i là chuỗi con của Y và length(X i ) = length(Y i ) = k và k > minlength

Hình 2.3 được trích từ công trình của Mueen [2] mô tả về bài toán tìm chuỗi con tương quan nhất giữa hai dữ liệu chuỗi thời gian là nhiệt độ và độ mặn được đo tại trạm ALOHA trên biển Thái Bình Dương ngày 12 tháng 10 năm 2003

Hình 2.3 Chuỗi con tương quan nhất giữa 2 chuỗi thời gian

Độ đo tương tự

Độ tương tự (similarity measure) của hai đối tượng là mức độ sai khác của đối tượng dữ liệu này với đối tượng dữ liệu còn lại Độ sai khác này được tính dựa trên một hàm gọi là hàm khoảng cách (distance fucntion) Có rất nhiều tác giả đề nghị nhiều độ đo tương tự dựa trên các hàm khoảng cách khac nhau Trong bài này

8 sẽ giới thiệu hai độ đo được dùng phổ biến trong các nghiên cứu trên dữ liệu chuỗi thời gian là độ đo Euclid và độ đo xoắn thời gian động (Dynamic Time Warping)

Khoảng cách Euclid là một dạng phổ biến của khoảng cách Minkowski

Khoảng cách Minkowski được định nghĩa như sau:

Sim(X,Y) = 𝑝 √∑ 𝑛 𝑖=1 (xi−yi) 𝑝 , với p = 1 … ∞ Với p = 2, hàm khoảng cách trên là hàm tính khoảng cách Euclid Phương pháp này yêu cầu tính toán trên hai chuỗi thời gian có độ dài bằng nhau Giả sử có hai chuỗi thời gian X = {x 1, x 2, x 3, …, x n } và Y = {y 1, y 2, y 3 …, y n } là hai điểm trong không gian n chiều Độ tương tự giữa hai chuỗi thời ian X và Y được định nghĩa bởi hàm tính khoảng cách Euclid giữa hai điểm trong không gian n chiều bởi công thức:

Hình 2.3 mô tả việc tính độ tương tự giữa hai chuỗi thời gian bởi hàm tính khoảng cách Euclid

Hình 2.3 Độ tương tự của hai chuỗi thời gian áp dụng độ đo Euclid Ưu điểm của độ đo khoảng cách Euclid là dễ hiểu, quá trình tính toán đơn giản, dễ cài đặt và dễ mở rộng cho nhiều bái toán khai phá dữ liệu chuỗi thời gian

Tuy nhiên, độ đo này có nhược điểm là nhạy cảm với nhiễu, khá cứng nhắc và không phù hợp với dữ liệu được đo với nhiều thang đo khác nhau

2.3.2 Độ đo xoắn thời gian động Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) [16] cũng tương tự như độ đo khoảng cách Euclid, là một độ đo phổ biến trong các bài toán khai phá dữ liệu chuỗi thời gian Phương pháp tính khoảng cách xoắn thời gian động cũng tương tự như cách tính khoảng cách Euclid nhưng thay vì so trùng hai chuỗi dữ liệu bằng cách tính khoảng cách từng cặp 1 – 1(điểm thứ i của chuỗi thứ

9 nhất so với điểm thứ i của chuỗi thứ hai) thì một điểm có thể ánh xạ với nhiều điểm và ánh xạ này không tuyến tính Hình 2.4 minh họa cách ánh xạ điểm trong phương pháp tính khoảng cách xoắn thời gian động giữa hai chuỗi thời gian

Hình 2.4 Khoảng cách xoắn thời gian động giữa hai chuỗi thời gian

Giả sử cho hai chuỗi thời gian Q và C có chiều dài lần lượt là n và m như sau:

Q = q 1 , q 2 , … , q i ,…, q n C = c 1 , c 2 , …, c i , …, c m Để tính khoảng cách xoắn thời gian động giữa hai chuỗi thời gian Q và C ta xây dựng một ma trận kích thước n × m với mỗi phần từ (i,j) của ma trận chứa khoảng cách d(q i , c j ) của từ điểm q i của chuỗi thời gian Q tới điểm cj của chuỗi thời gian C

Một đường xoắn (warping path) W là một tập hợp các phần tử liên tục của ma trận định nghĩa một ánh xạ giữa Q và C Hình 2.5 mô tả đường xoắn W được tính từ hai chuỗi thời gian Q và C như sau:

Hình 2.5 Ma trận chứa khoảng cách d(q i ,c i ) và đường xoắn W

Ta có khoảng cách xoắn thời gian động được tính bằng công thức: Đường xoắn

Với các ràng buộc trong quá trình tính toán khoảng cách xoắn thời gian động như sau:

- Điều kiện biên: 𝑤 1 = (1, 1) và 𝑤 𝑘 = (𝑚, 𝑛) Ràng buộc này yêu cầu đường xoắn phải bắt đầu và kết thúc ở hai góc đối diện của ma trận xoắn

- Tính liên tục: với 𝑤 𝑘 = (𝑎, 𝑏), thì 𝑤 𝑘−1 = (𝑎 ′ , 𝑏 ′ ) trong đó 𝑎– 𝑎 ′ ≤ 1 và 𝑏 − 𝑏’ ≤ 1 Ràng buộc này yêu cầu đường xoắn phải di chuyển giữa những ô liền kề kể cả đường chéo

- Tính đơn điệu tăng: với 𝑤 𝑘 = (𝑎, 𝑏), thì 𝑤 𝑘−1 = (𝑎 ′ , 𝑏 ′ ) với 𝑎– 𝑎 ′ ≥ 0

Ràng buộc này yêu cầu các điểm trong W phải có tính đơn điệu tăng theo thời gian Ưu điểm của phương pháp này là cho kết quả chính xác hơn so với độ đo Euclid và cho phép nhận dạng các mẫu có hình dạng giống nhau nhưng chiều dài hình dạng về mặt thời gian có thể khác nhau Phương pháp DWT hiệu quả hơn so với phương pháp tính toán khoảng cách theo Euclid, đặc biệt trong các bài toàn phân lớp, gom cụm hay trong các ứng dụng nhận dạng giọng nói Tuy nhiên, phương pháp này có nhược điểm là thời gian tính toán lâu với độ phức tạp là

O(mn), với m là chiều dài cửa sổ xoắn, n là chiều dài chuỗi Để khắc phục nhược điểm trên, một số tác giả đã đưa ra những phương pháp làm tăng tốc quá trình tính toán khoảng cách DTW trong những trường hợp cụ thể như sau:

- Sakoe, H và Chiba, S (1978) [16] đã đưa ra ràng buộc gọi là dải SakoeChiaba Itakura, F (1975) [17] đã đưa ra ràng buộc hình bình hành Itakura, đây là những ràng buộc đường xoắn khi tính khoảng cách xoắn thời gian động

- Keogh, E và các cộng sự (2002) [15] đề xuất phương pháp tính chặn dưới gọi là chặn dưới LB_Keogh Phương pháp này nhằm giải quyết vấn đề so sánh độ tương tự trong quá trình tìm kiếm Nếu giá trị của chặn dưới lớn hơn khoảng cách tốt nhất hiện tại thì ta không cần tính khoảng cách thực

- Ratanamahatana, C A và Keogh, E (2012) [18] đề xuất kỹ thuật tăng tốc độ tính khoảng cách xoắn thời gian động gọi là từ bỏ sớm (Early Abandon) Trong quá

11 trình tính khoảng cách xoắn thời gian động, nếu giá trị đang tính đã lớn hơn khoảng cách tốt nhất hiện tại thì ứng dụng không cần phải tính tiếp khoảng cách này Hình

2.6 minh họa việc từ bỏ sớm khi tính khoảng cách xoắn thời gian động

Hình 2.6 Kỹ thuật từ bỏ sớm trong tính khoảng cách DTW

CÁC CÔNG TRÌNH LIÊN QUAN

Các công trình liên quan

3.1.1 Các điểm cực trị quan trọng của dữ liệu chuỗi thời gian

Trong công trình của mình [4], Fink và Gandhi đã đưa ra các định nghĩa về các điểm cực trị (extreme points) và các điểm cực trị quan trọng (important extreme points) Trong đó tác giả giới thiệu bốn loại cực trị là: cực trị nghiêm cách, cực trị bên trái, cực trị bên phải và cực trị phẳng Và tiếp theo đó, các cực trị thỏa mãn một số yếu tố để trở thành cực trị quan trọng Trong phần này sẽ giới thiệu định nghĩa về các điểm cực tiểu, và các định nghĩa về các điểm cực đại cũng tương tự như vậy

3.1.1.1 Điểm cực trị (extreme points)

Cho chuỗi thời gian 𝐴 = 𝑎 1 , 𝑎 2 , … , 𝑎 𝑛 Điểm 𝑎 𝑖 (1 < 𝑖 < 𝑛) được gọi là:

- Cực tiểu nghiêm cách (strict minimum) nếu 𝑎 𝑖 < 𝑎 𝑖−1 và 𝑎 𝑖 < 𝑎 𝑖+1

- Cực tiểu bên trái (left minimum) nếu 𝑎 𝑖 < 𝑎 𝑖−1 và tồn tại một chỉ số 𝑟𝑖𝑔ℎ𝑡 > 𝑖 sao cho 𝑎 𝑖 = 𝑎 𝑖+1 = = 𝑎 𝑟𝑖𝑔ℎ𝑡 < 𝑎 𝑟𝑖𝑔ℎ𝑡+1

- Cực tiểu phải (right minimum) nếu 𝑎 𝑖 < 𝑎 𝑖+1 và tồn tại một chỉ số 𝑙𝑒𝑓𝑡 < 𝑖 sao cho 𝑎 𝑙𝑒𝑓𝑡−1 > 𝑎 𝑙𝑒𝑓𝑡 = … = 𝑎 𝑖−1 = 𝑎 𝑖

- Cực tiểu phẳng (flat minimum) nếu tồn tại đồng thời chỉ số 𝑙𝑒𝑓𝑡 < 𝑖 và 𝑟𝑖𝑔ℎ𝑡 > 𝑖 sao cho 𝑎 𝑙𝑒𝑓𝑡−1 > 𝑎 𝑙𝑒𝑓𝑡 = = 𝑎 𝑖 = = 𝑎 𝑟𝑖𝑔ℎ𝑡 < 𝑎 𝑟𝑖𝑔ℎ𝑡 + 1

Hình 3.1 Cực tiểu nghiêm cách (a), cực tiểu bên trái và phải (b), cực tiểu phẳng (c)

Tương tự như định nghĩa về các điểm cực tiểu, ta có các định nghĩa cực đại nghiêm cách (strict maximum), cực đại bên trái (left maximun), cực đại bên phải (right maximun) và cực đại phẳng (flat maximun) Hình 3.2 mô tả về các loại cực đại

Hình 3.2 Cực đại nghiêm cách (a), cực đại trái - phải (b), cực đại phẳng (c)

Từ những định nghĩa nêu trên, ta có thể dễ dàng tìm được các điểm cực trị của một dữ liệu chuỗi thời gian Tuy nhiên, các điểm cực trị trong một vài trường hợp lại không có ý nghĩa cho bài toán ứng dụng Như Hình 3.3 tất cả các điểm dữ liệu trong chuỗi thời gian đều là điểm cực trị

Hình 3.3 Tất cả các điểm dữ liệu đều là cực trị

Từ đó nhóm tác giả cũng đề xuất các khái niệm về các điểm cực trị quan trọng (important extreme)

3.1.1.2 Điểm cực trị quan trọng

Cho trước một hàm khoảng cách dist và một giá trị R với R > 0, một điểm a i

14 của chuỗi thời gian A = a 1, a 2 ,…a n được gọi là cực tiểu quan trọng (important minimum) nếu và chỉ nếu tồn tại đồng thời các chỉ số il và ir (il < i < ir) sao cho tất cả các điều kiện sao đây được thỏa mãn:

- a i là cực tiểu trong khoảng a il ,…,a ir

 Cực tiểu quan trọng nghiêm cách (strict important minimum): Điểm 𝑎 𝑖 thuộc chuỗi thời gian 𝐴 = 𝑎 1 , , 𝑎 𝑛 được gọi là cực tiểu quan trọng nghiêm cách nếu tồn tại đồng thời các chỉ số 𝑖𝑙 và 𝑖𝑟 (𝑖𝑙 < 𝑖 < 𝑖𝑟) sao cho các điều kiện sao đây được thỏa:

- 𝑎 𝑖 là cực tiểu nghiêm cách trong khoảng 𝑎 𝑖𝑙 , , 𝑎 𝑖−1 và 𝑎 𝑖+1 , , 𝑎 𝑖𝑟

 Cực tiểu quan trọng bên trái (left important minimum): Điểm 𝑎 𝑖 thuộc chuỗi thời gian 𝐴 = 𝑎 1 , , 𝑎 𝑛 được gọi là cực tiểu quan trọng bên trái nếu nó không là cực tiểu quan trọng nghiêm cách và tồn tại đồng thời các chỉ số 𝑖𝑙 và 𝑖𝑟 (𝑖𝑙 < 𝑖

Ngày đăng: 09/09/2024, 03:31

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Fink, E., and Gandhi, H. S.. Compression of Time Series by Extracting Major Extrema. Journal of Experimental &amp; Theoretical Artificial Intelligence. Vol. 23, No. 2, pp. 255-270, 2011 Sách, tạp chí
Tiêu đề: Journal of Experimental & Theoretical Artificial Intelligence
[2] Mueen, A., Hamooni, H., Estrada, T.: Time series join on subsequence correlation. Proc. ICDM 2014, pp. 450–459, 2014 Sách, tạp chí
Tiêu đề: Proc. ICDM 2014
[3] Rakthanmanon, T., Campana, B., Mueen, A., Batista, G., Westover, B., Zhu, Q., Zakaria, J., Keogh, E.: Searching and mining trillions of time series subsequences under dynamic time warping. In: Proceedings. of SIGKDD, 2012 Sách, tạp chí
Tiêu đề: In: Proceedings. of SIGKDD
[4] Fink, E., and Gandhi, H. S. Important Extrema of Time Series. Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, Montreal, QC, Canada, pp. 366-372, 2007 Sách, tạp chí
Tiêu đề: Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, Montreal
[5] Vo D. V and Duong T. A.. Efficient Subsequence Join over Time Series under Dynamic Time Warping. Recent Developments in Intelligent Information and Database Systems. Studies in Computational Intelligence, Vol 642, Springer, pp. 41-52, 2016 Sách, tạp chí
Tiêu đề: Recent Developments in Intelligent Information and Database Systems. Studies in Computational Intelligence", Vol 642, Springer, pp
[7] Esling, P. and Agon, C.. Time Series Overview. In Proceedings of 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2004, California, USA, pp. 30-39, 2004 Sách, tạp chí
Tiêu đề: In Proceedings of 9th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover
[8] Huang, Y.W., Jing N., and Rundensteiner, E.A.. Spatial Joins Using R-Trees: Breadth-First Traversal with Global Optimizations. Proc. 23rd Int’l Conf.Very Large Data Bases (VLDB). 1997 Sách, tạp chí
Tiêu đề: Proc. 23rd Int’l Conf
[9] Assent, I., Krieger R., Afschari, F., Seidl T.. The TS-Tree: Efficient Time Series Search and Retrieval, Proc of EDBT’08, Nantes, France, March 25- 30, 2008 Sách, tạp chí
Tiêu đề: Proc of EDBT’08
[11] Ferragina, P. and Grossi, R.. The string b-tree: A new data structure for string search in external memory and its applications. J. ACM, 46(2):236–280, 1999 Sách, tạp chí
Tiêu đề: J. ACM
[13] Ciaccia, P., Patella, M. and Zezula, P.. M-tree An Efficient Acces Method for Similarity Search in Metric Spaces. Proceedings of the 23rd VLDB Conference Athens, Greece, 1997 Sách, tạp chí
Tiêu đề: Proceedings of the 23rd VLDB Conference Athens
[14] Beckmann, N., Kriegel, H.-P., Schneider, R. and Seeger, B.. The R*-tree: an efficient and robust access method for points and rectangles. In Proc.SIGMOD, pages 322–331, 1990 Sách, tạp chí
Tiêu đề: In Proc. "SIGMOD
[15] Keogh, E.. Exact indexing of dynamic time warping. Knowledge and Information Systems. Vol. 7, Issue 3, pp. 358–386, 2005 Sách, tạp chí
Tiêu đề: Knowledge and Information Systems
[16] Sakoe, H. and Chiba, S.. Dynamic programming algorithm optimization for spoken word recognition. In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. 26, pp. 43-49. 1978 Sách, tạp chí
Tiêu đề: IEEE Transactions on Acoustics, Speech, and Signal Processing
[17] Itakura, F.. Minimum prediction residual principle applied to speech recognition. In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-23, No.1, pp. 67-72. 1975 Sách, tạp chí
Tiêu đề: IEEE Transactions on Acoustics, Speech, and Signal Processing
[18] Ratanamahatana, C. A. and Keogh, E.. Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping. SIGKDD, August 12 - 16, 2012, Beijing, China. 2012 Sách, tạp chí
Tiêu đề: SIGKDD, August 12 - 16, 2012, Beijing, China
[20] Brinkhoff, T. Kriegel, H. P., and Seeger, B.. Efficient Processing of Spatial Joins Using R-Trees. Proc. ACM SIGMOD, 1993 Sách, tạp chí
Tiêu đề: Proc. ACM SIGMOD
[21] Keogh, E. (2008). The UCR Time Series Classification/Clustering Homepage: http://www.cs.ucr.edu/~eamonn/time_series_data/ Link
[6] Lin, Y.. Subseries Join and Compression of Time Series Data Based on Non- uniform Segmentation. PhD Thesis, Waterloo, Ontario, Canada. 2008 Khác
[10] Guttman, A.. R-Trees: A Dynamic Index Structure for Spatial Searching. Proceedings of the 1984 ACM SIGMOD international conference on Management of data – SIGMOD '84. p. 47, 1984 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Dữ liệu chuỗi thời gian về điểm của thị trường chứng khoán Việt Nam – - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 1.1. Dữ liệu chuỗi thời gian về điểm của thị trường chứng khoán Việt Nam – (Trang 13)
Hình 2.2. Dữ liệu chuỗi thời gian đa biến biểu diễn vị trí của đối tượng trong không - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 2.2. Dữ liệu chuỗi thời gian đa biến biểu diễn vị trí của đối tượng trong không (Trang 18)
Hình 2.3 được trích từ công trình của Mueen [2] mô tả về bài toán tìm chuỗi con - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 2.3 được trích từ công trình của Mueen [2] mô tả về bài toán tìm chuỗi con (Trang 19)
Hình 2.5. Ma trận chứa khoảng cách d(q i ,c i ) và đường xoắn W - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 2.5. Ma trận chứa khoảng cách d(q i ,c i ) và đường xoắn W (Trang 21)
Hình 3.1. Cực tiểu nghiêm cách (a), cực tiểu bên trái và phải (b), cực tiểu phẳng (c) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.1. Cực tiểu nghiêm cách (a), cực tiểu bên trái và phải (b), cực tiểu phẳng (c) (Trang 25)
Hình 3.4. Các loại cực tiểu quan trọng: cực tiểu quan trọng nghiêm cách (a), cực - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.4. Các loại cực tiểu quan trọng: cực tiểu quan trọng nghiêm cách (a), cực (Trang 27)
Hình 3.6. Các thành phần phân tách trong nút trong của cây TS-Tree - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.6. Các thành phần phân tách trong nút trong của cây TS-Tree (Trang 32)
Hình 3.8. Cấu trúc của một nút trong cây chỉ mục TS-Tree [9] - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.8. Cấu trúc của một nút trong cây chỉ mục TS-Tree [9] (Trang 34)
Hình 3.9. Miêu tả các bước trong quá trình thêm nút mới - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.9. Miêu tả các bước trong quá trình thêm nút mới (Trang 34)
Hình 3.11. Quá trình tìm kiếm phần tử trong cây - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.11. Quá trình tìm kiếm phần tử trong cây (Trang 36)
Hình 3.13 trích từ [22] mô tả việc tính toán từ 1 đối tượng dữ liệu chuỗi thời gian Q - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.13 trích từ [22] mô tả việc tính toán từ 1 đối tượng dữ liệu chuỗi thời gian Q (Trang 38)
Hình 3.13. Cấu trúc framwork giải quyết bài toán kết chuỗi con trên chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.13. Cấu trúc framwork giải quyết bài toán kết chuỗi con trên chuỗi thời gian (Trang 40)
Hình 3.15. Dữ liệu chuỗi thời gian sau khi được chuẩn hóa với phương pháp chuẩn - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.15. Dữ liệu chuỗi thời gian sau khi được chuẩn hóa với phương pháp chuẩn (Trang 41)
Hình 3.14. Dữ liệu chuỗi thời gian chưa được chuẩn hóa với đường căn bản bất kỳ - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.14. Dữ liệu chuỗi thời gian chưa được chuẩn hóa với đường căn bản bất kỳ (Trang 41)
Hình 3.12 mô tả tổng quan về mô hình kết chuỗi con dựa trên các phân đoạn không - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.12 mô tả tổng quan về mô hình kết chuỗi con dựa trên các phân đoạn không (Trang 44)
Hình 3.18. Cây thứ bậc của quá trình phân đoạn không đồng nhất - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 3.18. Cây thứ bậc của quá trình phân đoạn không đồng nhất (Trang 45)
Hình 4.1 Mô hình bài toán kết chuỗi con dựa trên cấu trúc chỉ mục TS-Tree - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 4.1 Mô hình bài toán kết chuỗi con dựa trên cấu trúc chỉ mục TS-Tree (Trang 49)
Bảng 5.1 Các loại dữ liệu thực nghiệm - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Bảng 5.1 Các loại dữ liệu thực nghiệm (Trang 58)
Hình 5.1 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Chromosome_1  5.5.2 Thực nghiệm với dữ liệu Runoff - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.1 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Chromosome_1 5.5.2 Thực nghiệm với dữ liệu Runoff (Trang 60)
Hình 5.4 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Power_Italy - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.4 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Power_Italy (Trang 62)
Hình 5.5 Chuỗi con tìm thấy với dữ liêu Power_Italy. - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.5 Chuỗi con tìm thấy với dữ liêu Power_Italy (Trang 62)
Hình 5.6 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Chromosome_2 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.6 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Chromosome_2 (Trang 63)
Hình 5.7 Kết quả chuỗi con tìm thấy của một phân đoạn với dữ liệu Chromosome_2 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.7 Kết quả chuỗi con tìm thấy của một phân đoạn với dữ liệu Chromosome_2 (Trang 63)
Hình 5.8 Kết quả kết chuỗi con của hai phương pháp trên bộ dữ liệu Currency - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.8 Kết quả kết chuỗi con của hai phương pháp trên bộ dữ liệu Currency (Trang 64)
Hình 5.10 Kết quả kết chuỗi con của hai phương pháp trên bộ dữ liệu RW-1 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.10 Kết quả kết chuỗi con của hai phương pháp trên bộ dữ liệu RW-1 (Trang 65)
Hình 5.12 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Stock - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.12 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu Stock (Trang 66)
Hình 5.14 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu RW-2 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.14 Kết quả kết chuỗi con của hai phương pháp trên dữ liệu RW-2 (Trang 67)
Hình 5.15 Kết quả chuỗi con tìm thấy của một phân đoạn với bộ dữ liệu RW-2 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
Hình 5.15 Kết quả chuỗi con tìm thấy của một phân đoạn với bộ dữ liệu RW-2 (Trang 67)
PHỤ LỤC 1: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian với sự hỗ trợ của cây chỉ mục TS-Tree
1 BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT (Trang 75)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN