1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động

87 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN VỀ ĐỀ TÀI (15)
    • 1.1. KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN (15)
      • 1.1.1. Dữ liệu lớn (15)
      • 1.1.2. Dữ liệu chuỗi thời gian (16)
    • 1.2. CÁC BÀI TOÁN LIÊN QUAN ĐẾN DỮ LIỆU CHUỖI THỜI GIAN (19)
    • 1.3. BÀI TOÁN KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN (23)
    • 1.4. Ý NGHĨA BÀI TOÁN KẾT CHUỖI CON (0)
    • 1.5. MỤC TIÊU VÀ NHIỆM VỤ CỦA ĐỀ TÀI (24)
    • 1.6. CÁC KẾT QUẢ ĐẠT ĐƯỢC (24)
    • 1.7. BỐ CỤC LUẬN VĂN (25)
  • CHƯƠNG 2. CÁC CÔNG TRÌNH LIÊN QUAN (26)
    • 2.1. CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN ĐỘ ĐO TƯƠNG TỰ (28)
      • 2.1.1. Độ đo Minkowski (29)
      • 2.1.2. Phương pháp xoắn thời gian động (Dynamic Time Warping) (31)
      • 2.1.3. Phương pháp chuỗi con chung dài nhất (32)
    • 2.2. CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN KẾT CHUỖI CON (33)
      • 2.2.1. Phân đoạn chuỗi thời gian nhờ các điểm cực trị quan trọng (33)
      • 2.2.2. Phương pháp kết chuỗi con trực tiếp (nested loop join) (34)
      • 2.2.3. Phương pháp kết chuỗi con trên dữ liệu đã lập chỉ mục (indexing) (34)
      • 2.2.4. Phương pháp kết chuỗi con dựa trên các phân đoạn không đồng nhất (non-uniform segment) (35)
      • 2.2.5. Phương pháp đề nghị cho bài toán kết chuỗi con (37)
  • CHƯƠNG 3. CƠ SỞ LÝ THUYẾT (26)
    • 3.1. ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG (38)
    • 3.2. RÀNG BUỘC ĐƯỜNG XOẮN ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG (42)
      • 3.2.1. Ràng buộc Sakoe-Chiba (42)
      • 3.2.2. Ràng buộc hình bình hành Itakura (43)
    • 3.3. KỸ THUẬT TỪ BỎ SỚM KHI TÍNH KHOẢNG CÁCH DTW (44)
    • 3.4. CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG (45)
      • 3.4.1. Điểm cực trị thông thường (extreme points) (45)
      • 3.4.2. Điểm cực trị quan trọng (important extrema) (48)
  • CHƯƠNG 4. PHƯƠNG PHÁP ĐỀ NGHỊ (26)
    • 4.1. KHÁI QUÁT BÀI TOÁN KẾT CHUỖI CON (52)
    • 4.2. HỆ THỐNG ĐỀ NGHỊ CHO BÀI TOÁN KẾT CHUỖI CON (54)
    • 4.3. QUÁ TRÌNH CHUẨN HÓA DỮ LIỆU (54)
    • 4.4. THAM SỐ R (58)
    • 4.5. QUÁ TRÌNH PHÂN ĐOẠN CHUỖI THỜI GIAN (60)
    • 4.6. QUÁ TRÌNH KẾT CHUỖI CON (61)
  • CHƯƠNG 5. THỰC NGHIỆM (26)
    • 5.1. MÔI TRƯỜNG THỰC NGHIỆM (63)
    • 5.2. DỮ LIỆU THỰC NGHIỆM (63)
    • 5.3. CÁC THAM SỐ ƯỚC LƯỢNG (64)
    • 5.4. PHƯƠNG PHÁP THỰC NGHIỆM (65)
    • 5.5. THỰC NGHIỆM VỀ CÁC CỰC TRỊ QUAN TRỌNG (65)
    • 5.6. THỰC NGHIỆM VỀ BÀI TOÁN SO TRÙNG CHUỖI CON (70)
    • 5.7. THỰC NGHIỆM SO SÁNH GIẢI THUẬT KẾT CHUỖI CON DÙNG CỬA SỔ TRƯỢT TỪNG ĐIỂM VỚI CỬA SỔ TRƯỢT TỪNG ĐOẠN (74)
  • CHƯƠNG 6. TỔNG KẾT (27)
    • 6.1. TỔNG KẾT NỘI DUNG CỦA LUẬN VĂN (78)
    • 6.2. NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI (79)
    • 6.3. HƯỚNG PHÁT TRIỂN (80)

Nội dung

CÁC BÀI TOÁN LIÊN QUAN ĐẾN DỮ LIỆU CHUỖI THỜI GIAN  Phân lớp Classification Cho trước một chuỗi thời gian ? chưa gán nhãn unlabeled và ? lớp, mỗi lớp chứa ? chuỗi thời gian có cùng mộ

TỔNG QUAN VỀ ĐỀ TÀI

KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN

Trong thời đại ngày nay, với sự ra đời và phát triển của máy tính và các thiết bị kỹ thuật số có hỗ trợ thu thập dữ liệu, những dữ liệu mà con người dùng để phục vụ cuộc sống của mình gần như đã được số hóa toàn bộ Chúng được chuyển thành các đối tượng dữ liệu có nghĩa và lưu trữ trong máy tính mà con người có thể dễ dàng truy vấn khi cần thiết Tuy nhiên, các loại dữ liệu ngày càng tăng nhanh tạo nên khối lượng dữ liệu lớn (big data) Do đó, công tác khai phá dữ liệu (data mining) càng trở nên quan trọng và thu hút được nhiều nghiên cứu trên thế giới nhằm đáp ứng yêu cầu truy hồi thông tin (information retrieval) đúng lúc và đầy đủ khi cần thiết

“Lấy mẫu ngẫu nhiên 4000 bức hình từ 15 tờ báo và tạp chí trên thế giới xuất bản trong giai đoạn 1974 – 1989 cho thấy có hơn 75% là các hình biểu diễn dữ liệu chuỗi thời gian.”

Theo khảo sát của tác giả Tufte, E R [13]

Một trong những loại kể trên là dữ liệu chuỗi thời gian (time series data) Dữ liệu chuỗi thời gian tồn tại trong nhiều ứng dụng thuộc nhiều lĩnh vực khác nhau như: kinh tế, tài chính, y tế, giáo dục, môi trường, địa lý, và sinh học, vân vân Việc hiểu và dẫn xuất được thông tin ẩn trong các dữ liệu chuỗi thời gian có một ý nghĩa lớn góp phần quyết định đến sự phát triển của lĩnh vực Do đó, khai phá dữ liệu chuỗi thời gian (time series data mining) đóng vai trò quan trọng và nhận được sự quan tâm từ rất nhiều nhà nghiên cứu trên thế giới Các bài toán liên quan đến dữ liệu chuỗi thời gian có thể kể đến như: phân lớp, gom cụm, dự báo, phát hiện mô-típ, phát hiện bất thường, khai phá luật kết hợp và nhiều bài toán cơ bản khác

Để làm việc hiệu quả với các bài toán chuỗi thời gian, trước tiên cần nắm rõ một số khái niệm cơ bản.

1.1.2 Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian 1 𝑋 là một tập hợp nhiều mẫu dữ liệu (data samples), mỗi mẫu là một bộ (𝑇, 𝑉) biểu diễn các giá trị được ghi nhận từ một tín hiệu liên tục qua thời gian Trong đó, 𝑇 là thời điểm tiến hành quan sát, 𝑉 là giá trị quan sát Ký hiệu chuỗi thời gian có dạng:

Với 𝑛 là số lần đo đạt lấy mẫu, 𝑇 𝑖+1 > 𝑇 1 , ∀𝑖 Phần tử 𝑋 𝑖 là một véc-tơ trong không gian 𝑘 chiều có dạng:

Nếu 𝑘 = 1 thì 𝑋 được gọi là chuỗi thời gian đơn biến (uni-variate time series) Dữ liệu loại này có thể là các giá trị về thị trường tài chính (giá chứng khoán, tỷ giá hối đoái, tỷ lệ lãi suất), dữ liệu về y tế (tín hiệu điện tâm đồ hoặc điện não đồ của bệnh nhân), dữ liệu về giáo dục (số lượng sinh viên tốt nghiệp có việc làm qua các năm), thời tiết (lượng mưa, độ ẩm), năng lượng (nhu cầu điện năng), âm nhạc

Chuỗi thời gian là tập dữ liệu được sắp xếp theo thời gian, biểu diễn sự thay đổi của biến quan tâm theo thời gian Chuỗi thời gian có thể là tín hiệu âm thanh (tần số âm thanh được tạo bởi các nốt nhạc) hoặc dữ liệu ghi lại chuyển động của một đối tượng qua thời gian Ví dụ về chuỗi thời gian gồm có dữ liệu doanh số bán hàng theo tháng, giá cổ phiếu theo ngày và nhiệt độ theo giờ.

1 Trong tài liệu này dữ liệu chuỗi thời gian được gọi ngắn gọn là chuỗi thời gian về giá chứng khoán trên thị trường của công ty Apple Inc 2 với khoảng thời gian quan sát hơn sáu năm

Hình 1.1 Dữ liệu chuỗi thời gian đơn biến ghi nhận giá chứng khoán

Khi số chiều k lớn hơn 1, tập dữ liệu được gọi là chuỗi thời gian đa biến Dạng dữ liệu này thường gặp trong các ứng dụng ghi lại vị trí hoặc chuyển động của vật thể trong không gian ba chiều Ví dụ minh họa trong Hình 1.2 là dữ liệu chuỗi thời gian ghi nhận vị trí chuyển động của vật thể trong không gian ba chiều.

Hình 1.2 Dữ liệu chuỗi thời gian đa biến ghi nhận vị trí đối tượng trong không gian ba chiều (nguồn [16])

2 Nguồn: http://www.google.com/finance, từ khóa: Apple Inc

Chuỗi thời gian đồng nhất

Nếu thời điểm xác định các giá trị 𝑉 trong 𝑋 là cách đều nhau thì chuỗi thời gian 𝑋 được gọi là đồng nhất (uniform) Khi đó, ứng dụng có thể không quan tâm đến 𝑇 và xem 𝑋 như một véc-tơ giá trị (vector-valued) trong không gian 𝑘 ∗ 𝑛 chiều và ký hiệu:

Với 𝑇 𝑜 là thời điểm bắt đầu lấy mẫu, 𝑡 là khoảng thời gian giữa hai lần lấy mẫu liền kề nhau Trong luận văn này, chúng tôi tập trung nghiên cứu chuỗi thời gian đơn biến đồng nhất Tức là, chuỗi thời gian 𝑋 được biểu diễn dưới dạng vec-tơ giá trị 𝑛 chiều (𝑘 = 1, 𝑡 cách đều nhau)

Cho một chuỗi thời gian bất kỳ 𝑇 = (𝑡 1 , 𝑡 2 , … , 𝑡 𝑛 ), chuỗi thời gian 𝑆 có độ dài 𝑚 ≤ 𝑛 được gọi là chuỗi con (subseries/subsequence) của 𝑇 nếu 𝑆 chứa những giá trị liên tiếp sao cho:

Tập hợp tất cả chuỗi con của 𝑇 có cùng độ dài 𝑚 được ký hiệu là 𝑆 𝑇 𝑚

Trong giải tích chuỗi thời gian, đại diện của một chuỗi thời gian T = (t1, t2, , tn) là một mô hình Tx với kích thước thu gọn từ n về d (d

Ngày đăng: 24/09/2024, 03:59

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Dữ liệu chuỗi thời gian đơn biến ghi nhận giá chứng khoán - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 1.1. Dữ liệu chuỗi thời gian đơn biến ghi nhận giá chứng khoán (Trang 17)
Hình 1.2. Dữ liệu chuỗi thời gian đa biến ghi nhận vị trí  đối tượng trong không gian ba chiều (nguồn [16]) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 1.2. Dữ liệu chuỗi thời gian đa biến ghi nhận vị trí đối tượng trong không gian ba chiều (nguồn [16]) (Trang 17)
Hình 2.1. Một số độ đo Minkowski phổ biến (nguồn [23]) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 2.1. Một số độ đo Minkowski phổ biến (nguồn [23]) (Trang 30)
Hình 2.5. Các loại cực trị: nghiêm cách (hình bên trái), trái và phải (hình giữa), - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 2.5. Các loại cực trị: nghiêm cách (hình bên trái), trái và phải (hình giữa), (Trang 34)
Hình 2.6 mô tả tổng quan toàn bộ công trình của của Yi. Lin. - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 2.6 mô tả tổng quan toàn bộ công trình của của Yi. Lin (Trang 35)
Hình 2.7. Cây thứ bậc của quá trình phân đoạn không đồng nhất (nguồn [16]) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 2.7. Cây thứ bậc của quá trình phân đoạn không đồng nhất (nguồn [16]) (Trang 36)
Hình 3.2. Đồ thị biểu diễn hai chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 3.2. Đồ thị biểu diễn hai chuỗi thời gian (Trang 40)
Hình 3.8. Các loại cực trị: nghiêm cách (trái), trái và phải (giữa), và cực trị - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 3.8. Các loại cực trị: nghiêm cách (trái), trái và phải (giữa), và cực trị (Trang 46)
Hình 3.9. Các cực trị thông thường tìm được theo Mã giả 1 (nguồn [18]) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 3.9. Các cực trị thông thường tìm được theo Mã giả 1 (nguồn [18]) (Trang 46)
Hình 3.10. Khuyết điểm của điểm cực trị thông thường  3.4.2. Điểm cực trị quan trọng (important extrema) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 3.10. Khuyết điểm của điểm cực trị thông thường 3.4.2. Điểm cực trị quan trọng (important extrema) (Trang 48)
Hình 4.1. Kiến trúc bài toán kết chuỗi con - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 4.1. Kiến trúc bài toán kết chuỗi con (Trang 54)
Hình 4.4. Sơ đồ tổng hợp quá trình chuẩn hóa dữ liệu - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 4.4. Sơ đồ tổng hợp quá trình chuẩn hóa dữ liệu (Trang 57)
Hình 4.8. Các điểm cực trị quan trọng (nguồn [18]) - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 4.8. Các điểm cực trị quan trọng (nguồn [18]) (Trang 60)
Hình 5.1. Các cực trị được xác định trên dữ liệu Chromosome độ dài 128 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.1. Các cực trị được xác định trên dữ liệu Chromosome độ dài 128 (Trang 66)
Hình 5.2. Các cực trị được xác định trên dữ liệu Runoff độ dài 204 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.2. Các cực trị được xác định trên dữ liệu Runoff độ dài 204 (Trang 66)
Hình 5.3. Các cực trị được xác định trên dữ liệu Chromosome độ dài 1000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.3. Các cực trị được xác định trên dữ liệu Chromosome độ dài 1000 (Trang 67)
Hình 5.4. Các điểm cực trị được xác định trên dữ liệu Eeg độ dài 15000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.4. Các điểm cực trị được xác định trên dữ liệu Eeg độ dài 15000 (Trang 67)
Hình 5.5. Các điểm cực trị được xác định trên dữ liệu Stock độ dài 500 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.5. Các điểm cực trị được xác định trên dữ liệu Stock độ dài 500 (Trang 68)
Hình 5.7. Các điểm cực trị được xác định trên dữ liệu Koski độ dài 120000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.7. Các điểm cực trị được xác định trên dữ liệu Koski độ dài 120000 (Trang 69)
Hình 5.10. Kết quả so trùng chuỗi con trên dữ liệu Runoff chiều dài 204 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.10. Kết quả so trùng chuỗi con trên dữ liệu Runoff chiều dài 204 (Trang 70)
Hình 5.11. Kết quả so trùng chuỗi con trên dữ liệu Memory - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.11. Kết quả so trùng chuỗi con trên dữ liệu Memory (Trang 71)
Hình 5.14. Kết quả so trùng chuỗi con trên dữ liệu Chormosome độ dài 10000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.14. Kết quả so trùng chuỗi con trên dữ liệu Chormosome độ dài 10000 (Trang 72)
Hình 5.16. Kết quả so trùng chuỗi con trên dữ liệu Chromosome_1 độ dài 128 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.16. Kết quả so trùng chuỗi con trên dữ liệu Chromosome_1 độ dài 128 (Trang 72)
Hình 5.15. Kết quả so trùng chuỗi con trên dữ liệu Power độ dài 10000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.15. Kết quả so trùng chuỗi con trên dữ liệu Power độ dài 10000 (Trang 72)
Hình 5.17. Kết quả so trùng chuỗi con trên dữ liệu Koski_ecg độ dài 10000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.17. Kết quả so trùng chuỗi con trên dữ liệu Koski_ecg độ dài 10000 (Trang 73)
Hình 5.19. Kết quả kết chuỗi con trên dữ liệu Chromosome_1 chiều dài 128 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.19. Kết quả kết chuỗi con trên dữ liệu Chromosome_1 chiều dài 128 (Trang 76)
Hình 5.18. Kết quả kết chuỗi con trên dữ liệu Runoff - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.18. Kết quả kết chuỗi con trên dữ liệu Runoff (Trang 76)
Hình 5.20. Kết quả kết chuỗi con trên dữ liệu Power chiều dài 5000 - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
Hình 5.20. Kết quả kết chuỗi con trên dữ liệu Power chiều dài 5000 (Trang 77)
BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT - Luận văn thạc sĩ Khoa học máy tính: Kết chuỗi con trên dữ liệu chuỗi thời gian dùng độ đo xoắn thời gian động
BẢNG THUẬT NGỮ ANH - VIỆT VÀ TỪ VIẾT TẮT (Trang 84)

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN