1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian

121 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Tác giả Đỗ Duy Quốc
Người hướng dẫn PGS. TS. Dương Tuấn Anh
Trường học Trường Đại học Bách Khoa
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2016
Thành phố Tp. Hồ Chí Minh
Định dạng
Số trang 121
Dung lượng 3,14 MB

Cấu trúc

  • CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI (18)
    • 1.1 GIỚI THIỆU ĐỀ TÀI (18)
    • 1.2 MỤC TIÊU VÀ GIỚI HẠN ĐỀ TÀI (20)
    • 1.3 NHỮNG KẾT QUẢ ĐẠT ĐƯỢC (20)
    • 1.4 CẤU TRÚC CỦA LUẬN VĂN (21)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (21)
    • 2.1 DỮ LIỆU CHUỖI THỜI GIAN (23)
    • 2.2 CÂY HẬU TỐ (23)
    • 2.3 MẢNG HẬU TỐ (27)
    • 2.4 MẢNG TIỀN TỐ CHUNG DÀI NHẤT (29)
    • 2.5 XÂY DỰNG MẢNG HẬU TỐ (30)
    • 2.6 MẢNG HẬU TỐ NÂNG CAO (31)
    • 2.7 XÂY DỰNG CÂY HẬU TỐ (34)
    • 2.8 MÃ HÓA DỮ LIỆU THÀNH XU HƯỚNG (39)
    • 2.9 XẤP XỈ DỮ LIỆU CHUỖI THỜI GIAN BẰNG PHƯƠNG PHÁP GỘP TỪNG ĐOẠN (Piecewise Aggregate Approximation - PAA) (39)
    • 2.10 RỜI RẠC HÓA DỮ LIỆU CHUỖI THỜI GIAN BẰNG PHƯƠNG PHẤP XẤP XỈ GỘP KÝ HIỆU HÓA (Symbolic Aggregate approximation - SAX) (41)
    • 2.11 PHƯƠNG PHÁP XẤP XI TUYẾN TÍNH TỪNG ĐOẠN (PLA) (43)
  • CHƯƠNG 3. NHỮNG CÔNG TRÌNH LIÊN QUAN (21)
    • 3.1 PHÁT HIỆN TẤT CẢ CÁC XU HƯỚNG THƯỜNG XUYÊN TRONG DỮ LIỆU CHUỖI THỜI GIAN (45)
      • 3.1.1 Định nghĩa (45)
      • 3.1.2 Mã hóa dữ liệu xu hướng (47)
      • 3.1.3 Xác định các xu hướng thường xuyên (48)
    • 3.2 PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO GIẢI THUẬT BRUTE FORCE (49)
    • 3.3 PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO GIẢI THUẬT CHIẾU NGẪU NHIÊN (51)
      • 3.3.1 Định nghĩa (51)
      • 3.3.2 Rời rạc hóa dữ liệu chuỗi thời gian (52)
      • 3.3.3 Thuật toán chiếu ngẫu nhiên (53)
    • 3.4 TRUY VẤN HÌNH DẠNG DỮ LIỆU CỦA CHUỖI THỜI GIAN (55)
      • 3.4.1 Giới thiệu truy vấn hình dạng (55)
      • 3.4.2 Cú pháp (56)
  • CHƯƠNG 4. PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ (21)
    • 4.1. ÁP DỤNG PHƯƠNG PHÁP XẤP XỈ TUYẾN TÍNH TỪNG ĐOẠN (59)
      • 4.1.1. Mô hình tìm tất cả các xu hướng thường xuyên sử dụng mảng hậu tố nâng cao và phương pháp xấp xỉ tuyến tính từng đoạn (60)
      • 4.1.2. Giải thuật chi tiết (62)
    • 4.2. ÁP DỤNG PHƯƠNG PHÁP XẤP XỈ GỘP TỪNG ĐOẠN ĐỂ PHÁT HIỆN (63)
      • 4.2.1. Mô hình tìm tất cả các xu hướng thường xuyên sử dụng mảng hậu tố nâng cao và phương pháp xấp xỉ tuyến tính từng đoạn (64)
      • 4.2.2. Giải thuật chi tiết (66)
  • CHƯƠNG 5. HIỆN THỰC VÀ THỬ NGHIỆM (68)
    • 5.1. MÔI TRƯỜNG PHÁT TRIỂN (68)
    • 5.2. KẾT QUẢ THỰC NGHIỆM CỦA CÁC GIẢI THUẬT (68)
      • 5.2.2 Nhận diện motif bằng mảng hậu tố nâng cao (90)
      • 5.2.3 Nhận xét chung về phát hiện tất cả các xu hướng thường xuyên của dữ liệu thời gian 96 CHƯƠNG 6. KẾT LUẬN (113)
    • 6.1. ĐÁNH GIÁ KẾT QUẢ (114)
    • 6.2. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI (115)

Nội dung

- Nghiên cứu việc áp dụng mảng hậu tố nâng cao để tìm tất cả các xu hướng thường xuyên và motif trong dữ liệu chuỗi thời gian.. Cây hậu tố, giải thuật được nghiên cứu trong rất nhiều đề

GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

GIỚI THIỆU ĐỀ TÀI

Trong thời đại bùng nổ thông tin hiện nay, rất nhiều lĩnh vực kinh tế, xã hội như giáo dục, y tế, thương mại… đều sử dụng công nghệ thông tin nhằm đáp ứng việc khai thác và quản lý các thông tin, dữ liệu một cách hiệu quả Việc dự báo và đưa ra các quyết định từ một khối dữ liệu đã được lưu trữ ngày càng được quan tâm và tập trung nghiên cứu, từ đó các ứng dụng công nghệ thông tin hỗ trợ việc dự báo và đưa ra quyết định trong thời gian cho phép đã ra đời và đang ngày càng phát triển không ngừng nhằm tăng độ chính xác và tốc độ xử lý Điển hình trong các ứng dụng là những ứng dụng trong khai phá dữ liệu chuỗi thời gian (Time series Data mining) Chuỗi thời gian là một dãy số của các số thực, biểu diễn các giá trị của một đại lượng nào đó được ghi nhận theo tuần tự thời gian Ví dụ: số lượng sản phẩm bán ra của một công ty hằng năm, tỉ lệ bệnh nhân mắc bệnh HIV trong những thập niên gần đây, giá vàng hăng năm (hình 1-1), lượng mưa hay hạn hán hằng năm

Hình 1-1 Dữ liệu về giá vàng từ năm 2009 đến 2013

Trong những năm gần đây, có rất nhiều công trình nghiên cứu về việc phát hiện ra xu hướng thường xuyên (frequent trend), tức là một đoạn trong một chuỗi thời gian xuất hiện lặp đi lặp lại (hình 1-2) Việc phát hiện ra xu hướng thường xuyên như vậy có rất nhiều ứng dụng trong thực tiễn như dự đoán tăng giảm giá vàng hay giá cổ phiếu

Ví dụ: trong trường hợp dự báo lượng mưa quan sát được trong hằng năm ở miền nam bộ, vào những tháng đầu của năm hầu như không có mưa, và có mưa to vào những tháng 7, 8, 9 và kết thúc vào tháng 10

Hình 1-2 Xu hướng thường xuyên (repeateing trend) cuả chuỗi thời gian

Trang 3 Hiện nay có nhiều thuật toán để phát hiện xu hướng trong chuỗi thời gian như Indyk [1] nghiên cứu các vấn đề xác định xu hướng trong chuỗi thời gian, Qu [2] trình bày một cách tiếp cận để hỗ trợ tìm kiếm xu hướng trong dữ liệu chuỗi thời gian và giải thuật chiếu ngẫu nhiên để phát hiện motif trên dữ liệu chuỗi thời gian dựa vào xác xuất

Cậy hậu tố (suffix tree) là một trong những cấu trúc dữ liệu biểu diễn các hậu tố của một chuỗi ký tự, là một trong những phương pháp giúp tìm kiếm tất cả các chuỗi con trong một chuỗi và được ứng dụng để tìm kiếm tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian bằng cách mã hóa sự tăng giảm giá trị của dữ liệu trong từng điểm thời gian thành một chuỗi ký tự.

MỤC TIÊU VÀ GIỚI HẠN ĐỀ TÀI

Mục tiêu nghiên cứu đề tài tập trung vào các vấn đề sau:

 Nghiên cứu dữ liệu chuỗi thời gian

 Nghiên cứu về cách mã hóa xu hướng của dữ liệu thành ký tự

 Nghiên cứu về cây hậu tố, mảng hậu tố và các vấn đề liên quan

 Nghiên cứu việc áp dụng mảng hậu tố nâng cao để tìm tất cả các xu hướng thường xuyên và motif trong dữ liệu chuỗi thời gian

 So sánh kết quả của phương pháp nêu trên với kết quả của cây hậu tố và giải thuật brute force

NHỮNG KẾT QUẢ ĐẠT ĐƯỢC

Thông qua quá trình nghiên cứu và thực nghiệm chúng tôi đã có được một số kết quả mong đợi như sau:

 Mảng hậu tố nâng cao và cây hậu tố rất hữu hiệu cho việc tìm kiếm tất cả các mẫu xu hướng thường xuyên và motif trong dữ liệu chuỗi thời gian mà không xác đinh độ dài của chúng

 Thiết lập mối liên hệ giữa bài toán “phát hiện mẫu xu hướng thường xuyên” trên dữ liệu chuỗi thời gian với bài toán “phát hiện motif” trên dữ liệu chuỗi thời gian

 Chúng tôi cũng đã xây dựng được sự kết hợp mảng hậu tố nâng cao, cây hậu tố với phương xấp xỉ tuyến tính từng đoạn (PLA) để phát hiện tất cả các mẫu xu hướng thường xuyên và phương pháp xấp xỉ gộp từng đoạn (PAA) để phát hiện tất cả các motif với độ dài khác nhau trên dữ liệu chuỗi thời gian.

CẤU TRÚC CỦA LUẬN VĂN

Đề cương được chia thành 6 phần chính như sau:

CHƯƠNG 1 GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI

Chương này giới thiệu sơ lược về đề tài, mục tiêu và phạm vi nghiên cứu cũng như cấu trúc của đề tài.

CƠ SỞ LÝ THUYẾT

DỮ LIỆU CHUỖI THỜI GIAN

Một chuỗi thời gian (Time Series) chiều dài 𝑚 là một tập hợp có thứ tự gồm 𝑚 giá trị thực Ta ký hiệu chuỗi thời gian là 𝑇 = 𝑥 1 , 𝑥 2 , … , 𝑥 𝑚 với 𝑥 𝑖 là các số thực, 𝑚 là một số nguyên

Việc xác định các xu hướng thường xuyên của một chuỗi thời rất quan trọng trong bài toán dự báo chuỗi thời gian Nó giúp ta lựa chọn được mô hình dự báo phù hợp hay giúp cải tiến mô hình đã có chính xác hơn Và các mẫu quan sát được theo thời gian dựa trên các chuỗi thời gian chính là cơ sở để hiểu được đặc tính cũng như là dự báo các hành vi tương lai của đối tượng đó

Chuỗi con (𝑠𝑢𝑏𝑠𝑒𝑞𝑢𝑒𝑛𝑐𝑒) 𝐶 có chiều dài 𝑛 của một chuỗi thời gian 𝑇 có chiều dài 𝑚 (𝑚 ≤ 𝑛) là một đoạn các giá trị liên tục nằm trong T Ta ký hiệu

CÂY HẬU TỐ

Cho ∑ là một tập hữu hạn các phần tử, với mỗi phần tử là một ký tự trong tập ký tự (𝑎𝑙𝑝ℎ𝑎𝑏𝑒𝑡), các phần tử thuộc ∑ gọi là ký tự ∑* là một tập hợp con của ∑ mà không chứa chuỗi rỗng (∈) Ta có:

Chiều dài của một chuỗi 𝑥 ký hiệu là |𝑥|, là số ký tự trong chuỗi 𝑥 Các ký trong chuỗi 𝑥 được đánh số từ 0 đến|𝑥| – 1:=𝑥 = 𝑥 0 𝑥 1 𝑥 2 … 𝑥 |𝑥|−1

Trang 7 Gọi chuỗi 𝑤 là tiền tố của chuỗi 𝑥, ký hiệu 𝑤 ⊏ 𝑥, nếu tồn tại chuỗi 𝑎 để 𝑥 = 𝑤𝑎, chuỗi 𝑤 là hậu tố của chuỗi 𝑥, ký hiệu 𝑤 ⊐ 𝑥, nếu tồn tại chuỗi 𝑎 để 𝑥 = 𝑎𝑤 Một chuỗi vừa có thể là tiền tố vừa là hậu tố của một chuỗi khác Ví dụ chuỗi XYX vừa là tiền tố vừa là hậu tố của chuỗi XYXYX Chuỗi rỗng (∈) vừa là tiền tố vừa là hậu tố của tất cả các chuỗi

Cho 𝑆 là một tập hợp gồm 𝑛 chuỗi, các chuỗi này không là tiền tố của nhau Trie là một cấu trúc dữ liệu dạng cây (hình 2-1) biểu diễn các chuỗi của 𝑆 Trie có các tính chất sau:

 Mỗi cạnh của Trie có nhãn là một ký tự Các cạnh đi từ một nút xuống các nút con có nhãn khác nhau

 Mỗi nút trên Trie cũng có một nhãn, ký hiệu 𝑣̅ là chuỗi tạo thành bằng cách nối các ký tự nhãn của cạnh trên đường đi trừ nút gốc xuống nút con Chiều dài của chuỗi 𝑣̅ được gọi là độ sâu của nút, ký hiệu: 𝑑𝑒𝑝𝑡ℎ(𝑣)

 Hai nút khác nhau có nhãn khác nhau Ví dụ Trie hậu tố: 𝑆 = {𝐵𝐸𝐴𝑅, 𝐵𝐸𝐿𝐿, 𝐵𝐼𝐷, 𝐵𝑈𝐿𝐿, 𝐵𝑈𝑌, 𝑆𝐸𝐿𝐿, 𝑆𝑇𝑂𝐶𝐾, 𝑆𝑇𝑂𝑃}

Trang 8 Các chuỗi trong tập 𝑆 phải thỏa mãn tính chất phi tiền tố (prefix-free): tức là không có chuỗi nào là tiền tố của một chuỗi khác trong 𝑆 Không thể xây dựng được cây không thỏa mãn tính chất trên Ví du: 𝑆 = {ABC, AB}, ta không thể xây dựng được trie hậu tố vì từ nút góc đến các nút lá của Trie ta lần lượt đi qua các nút có nhãn A, AB, ABC Vì AB

∈ 𝑆 nên ta phải có nút lá của Trie mang nhãn AB, mà ta đã có nhánh của Trie có nhãn AB, nên không thể xây dựng được nút lá có nhãn AB (hình 2.-2)

Hình 2-2 Không thể xây dựng được Trie với nút lá có nhãn AB

Tính chất phi tiền tố là một tính chất quan trọng của cây Trie Để đảm bảo ta luôn có thể xây dựng được cây Trie, ta dùng một kỹ thuật là bổ sung vào mỗi chuỗi của 𝑆 một ký tự $ ở cuối mỗi chuỗi (hình 2-3)

Cho 𝑆 là một tập chứa các hậu tố của 1 chuỗi 𝑇 (𝑇 ∈ ∑ ∗ ) được gọi là Trie hậu tố của T (hình 2-4) Để thỏa mãn tính chất phi tiền tố, ta thêm vào cuối mỗi phần tử của S ký tự $ Ví dụ: 𝑇 = BANANA$, ta có tập S gồm 7 chuỗi:

𝑆 = {BANANA$, ANANA$, NANA$, ANA$, NA$, A$, $}

Hình 2-3 Thêm ký tự $ ở cuối mỗi chuỗi

Cây hậu tố (suffix tree) là một cấu trúc dữ liệu biểu diễn các hậu tố của một chuỗi khác rỗng tương tự như Trie Cây hậu tố được tạo thành từ Trie hậu tố bằng cách

Trang 10 ghép các nút con đơn nhánh lại với nhau Cây hậu tố cho chuỗi 𝑆 có chiều dài 𝑚 có các tính chất sau:

Mỗi cạnh của cây có nhãn là một chuỗi thuộc ∑ ∗ Các cạnh đi từ một nút xuống các nút con của nó phải có nhãn là các chuỗi có ký tự đầu tiên khác nhau

Mỗi nút 𝑣 trên cây cũng mang một nhãn, nhãn của nút 𝑣, ký hiệu 𝑣̅ là một chuỗi tạo thành bằng các nối tiếp các nhãn cạnh trên đường đi xuống nút 𝑣 Chiều dài của chuỗi 𝑣̅ : 𝑣̅ được gọi là độ sâu của nút 𝑣, ký hiệu: 𝑑𝑒𝑝𝑡ℎ(𝑣)

Ngoại trừ nút góc, các nút phải có nhiều hơn một con

Với mỗi cạnh được gán nhãn bằng một chuỗi con khác rỗng của 𝑆

Mỗi chuỗi con 𝑎 của chuỗi 𝑆 xuất hiện trên một lối đi duy nhất nào đó từ nút gốc

Ví dụ cây hậu tố: 𝑆 = xabxa$

Hình 2-5 Cây hậu tố cho chuỗi xabxa$

MẢNG HẬU TỐ

Cho một chuỗi 𝑆 = 𝑥 1 , 𝑥 2 , 𝑥 3 , … 𝑥 𝑚 ∈ ∑ ∗ , có duy nhất 𝑥 𝑚 = $ Mảng hậu tố (suffix array) của 𝑆 ký hiệu SA(T) là thứ tự từ điển của tất cả các hậu tố của 𝑆

Trang 11 Mảng hậu tố có thể được biểu diễn theo thứ tự từ điển (hình 2-6) Ví dụ:

𝑆= BANANA$, các hậu tố của 𝑆 và mảng hậu tố của 𝑆 theo thứ tự từ điển

Hình 2-6 Mảng hậu tố theo thứ tự từ điển

Mảng hậu tố được đề xuất bởi Manber và Myer [3] như một sự thay thế cho cây hậu tố trong một số bài toán xử lý chuỗi Mảng hậu tố có ưu điểm là có cấu trúc đơn giản và tiết kiệm bộ nhớ trong lúc hiện thực Manber và Mayer cũng đề xuất thuật toán xây dựng mảng hậu tố trực tiếp mà không phải sử dụng cây hậu tố gọi là thuật toán nhân đôi tiền tố (𝑑𝑜𝑢𝑏𝑙𝑖𝑛𝑔 𝑝𝑟𝑒𝑓𝑖𝑥) Thuật toán có độ phức tạp là Ω(𝑛𝑙𝑜𝑔𝑛) trong trường hợp xấu nhất và 𝑂(𝑛) trong trường hợp trung bình để xử lý chuỗi có độ dài 𝑛 Năm 2003, hai nghiên cứu độc lập của Kọrkkọinen [4] và Ko [5] đó tỡm ra được hai thuật toỏn tuyến tớnh xõy dựng mảng hậu tố Một điểm đỏng chỳ ý trong cỏc thuật toỏn của Kọrkkọinen [4] là chỳng đều dựa trên những nhận định rất tinh tế về tính chất của các hậu tố và mối quan hệ giữa các vị trí trong chuỗi

MẢNG TIỀN TỐ CHUNG DÀI NHẤT

Tiền tố chung dài nhất (longest common prefix) của hai chuỗi (𝑥, 𝑦) là chuỗi 𝑧 sao cho 𝑧 vừa là tiền tố của 𝑥, vừa là tiền tố của 𝑦 và 𝑧 có độ dài lớn nhất Ví dụ:

TIền tố chung của sâu banana và bank là ban

Mảng tiền tố chung dài nhất (LCP) là một mảng có kích thước n (giống như suffix array) sao cho giá trị thứ 𝑖 (𝑙𝑐𝑝[𝑖]) là tiền tố chung dài nhất của hậu tố thứ 𝑖 và 𝑖 + 1

Cho T= t 0 t 1 … t n-1 𝑆𝐴(𝑇) = a 0 , a 1 ,…., a n-1 là mảng hậu tố của T Mảng tiền tố chung dài nhất 𝐿𝐶𝑃(𝑇) là dãy số nguyên ( l 0 , l 1 ,…., l n-1 ) định nghĩa như sau:

 ∀𝑖 >=0: là độ dài tiền tố chung dài nhất giữa hậu tố tại vị trí a i và hậu tố tại vị trí a i trong chuỗi

Ví dụ với chuỗi T = 𝐵𝐴𝑁𝐴𝑁𝐴, mảng hậu tố của T (hình 2-6), ta có mảng tiền tố chung dài nhất như sau: l 0 = 0; l 1 = 0 (độ dài tiền tố chung dài nhất của A$ và $) l 2 = 1 (độ dài tiền tố chung dài nhất của ANA$ và A$) l 3 = 3 (độ dài tiền tố chung dài nhất của ANANA$ và ANA$) l 4 = 0 (độ dài tiền tố chung dài nhất của BANANA$ và ANANA$) l 5 = 0 (độ dài tiền tố chung dài nhất của NA$ và BANANA$) l 6 = 2 (độ dài tiền tố chung dài nhất của NANA$ và NA$)

Trên cây hậu tố, có rất nhiều thuật toán 𝐿𝐶𝐴 có thể áp dụng để tìm nút tiền bối chung gần nhất của hai nút, mỗi truy vấn 𝐿𝐶𝐴 được thực hiện trong thời gian 𝑂(1) và vì thế có thể xây dựng mảng tiền tố chung dài nhất trong thời gian 𝑂(𝑛) Mặc dù vậy, Kasai [6] đã đề xuất được thuật toán tuyến tính hết sức đơn giản và hiệu quả để xây dựng mảng tiền tố chung dài nhất từ mảng hậu tố

XÂY DỰNG MẢNG HẬU TỐ

Cho chuỗi T = t 0 t 1 … t n-1 ta cần xây dựng mảng hậu tố 𝑆𝐴(𝑇) = a 0 , a 1 ,…., a n-1

.Việc xây dựng mảng hậu tố bằng cách so sánh và sắp xếp chuỗi là một phương pháp đơn giản, nhưng đây không phải là một phương pháp hay, vì độ phức tạp của thuật toán so sánh sẽ tỉ lệ thuận với chiều dài của chuỗi Vì thế ta cần tìm một phương pháp khác để xử lý sắp xếp hiệu quả các chuỗi con của mảng hậu tố

Thuật toán nhân đôi tiền tố

Phương pháp nhân đôi tiền tố (prefix doubling) được đề xuất bởi Manber và Myers [3] là một trong những phương pháp cổ điển nhất thường được dùng để xây dựng mảng hậu tố Thuật toán này thường được sử dụng nhiều vì việc cài đặt chương trình khá đơn giản, thích hợp với việc lập trình đòi hỏi thời gian ngắn Thuật có có độ phức tạp là 𝑂(𝑛𝑙𝑜𝑔𝑛), tuy nhiên trung bình thuật toán chỉ cần thời gian 𝑂(𝑛) để thực hiện nếu dữ liệu phân bố ngẫu nhiên trong một bảng chữ cái lớn Thuật toán được xây dựng như sau:

Trước hết coi văn bản đầu vào 𝑇[1,2,…,n] có chiều dài vô hạn bằng cách thêm vào cuối văn bản 𝑇 vô hạn ký tự $ Gọi văn bản vô hạn là 𝑇∞ Chú ý là $ là ký tự nhỏ hơn ( theo thứ tự từ điển) tất cả các ký tự khác trong bảng chữ cái 𝛴 và chỉ xuất hiện trong văn bản 𝑇[1,2,…,𝑛] đúng một lần tại vị trí cuối cùng Do 𝑇∞ vô hạn, với mỗi số 0 ≤ 𝑘 ≤

⌈𝑙𝑜𝑔2𝑛⌉ ta có đúng 𝑛 chuỗi con của 𝑇∞ chiều dài 2𝑘, mỗi chuỗi bắt đầu bằng một ký tự của 𝑇[1,2,…,𝑛] Thuật toán thực hiện theo 𝑙𝑜𝑔2𝑛 bước như sau:

Sắp xếp 𝑛 chuỗi con của 𝑇∞ độ dài 1 theo thứ tự từ điển

Sắp xếp 𝑛 chuỗi con của 𝑇∞ độ dài 2 theo thứ tự từ điển

Sắp xếp 𝑛 chuỗi con của 𝑇∞ độ dài 4 theo thứ tự từ điển

… Sắp xếp 𝑛 chuỗi con của 𝑇∞ độ dài 2𝑘 theo thứ tự từ điển

… Sắp xếp 𝑛 chuỗi con của 𝑇∞ độ dài 2[𝑙𝑜𝑔2𝑛] theo thứ tự từ điển

Nhận xét: Thứ tự của các chuỗi con thu được sau bước cuối cùng chính là thứ tự đã sắp xếp của các hậu tố bắt đầu bằng ký tự đầu tiên của các chuỗi con đó

Thời gian thực hiện giải thuật phụ thuộc vào thuật toán sắp xếp theo hai dãy khóa số tại mỗi bước Có thể dùng các thuật toán sắp xếp so sánh, chẳng hạn như QuickSort

Tuy nhiên vì tập các giá trị khóa là các số nguyên nằm trong phạm vi từ 1 tới 𝑛, ta có thể áp dụng các thuật toán sắp thứ tự cơ số (Radix Sort) hoặc sắp thứ tự đếm (Counting Sort) để đạt tốc độ cao hơn với thời gian thực hiện giải thuật sắp xếp là 𝑂(𝑛) Từ đó thuật toán nhân đôi tiền tố có thể thực hiện trong thời gian 𝑂(𝑛)

For 𝑖 =1 to 𝑛 lkey(𝑆[𝑖]) ← index of 𝑇[𝑖] in ∑ rkey(𝑆[𝑖]) ← index key(𝑆[𝑖]) 𝑙 ← 1

MẢNG HẬU TỐ NÂNG CAO

Mảng hậu tố nâng cao (enhanced suffix array) là một cấu trúc dữ liệu bao gồm mảng hậu tố và một bảng bổ sung (hình 2-7) Đây cũng là 1 thuật toán dựa trên cấu trúc cây hậu tố

Hình 2-7 Mảng hậu tố nâng cao của chuỗi S = acaaacatat$

Suffix array suftab là một mảng các số từ 0 đến 𝑛, với 𝑛 ∈ 𝑁 + , nhằm để xác định vị trí của các hậu tố của chuỗi 𝑆 Suffix array suftab có thể xây dựng trong thời gian 𝑂(𝑛) Ví dụ:

Ssuftab[0] = aaacatat$  subtab[0] = 2 Chuỗi con aaacatat$ nằm ở vị trí thứ 2 trong chuỗi S = acaaaacatat$

Nó là 1 bảng có 𝑛+1 phần tử mà với mỗi 𝑖, 𝑖 ≤ 𝑞 ≤ 𝑛, bwttab[𝑖] = S[suftab[𝑖] − 1] nếu suftab[𝑖] ≠ 0 bwttab[𝑖] không được định nghĩa nếu suftab[𝑖] = 0 Bảng bwttab được xây dựng trong thời gian 𝑂(𝑛) bằng cách duyệt qua các phần tử trong mảng hậu tố 1 lần

Interval[𝑖 𝑗], 0 ≤ 𝑖 < 𝑗 ≤ 𝑛, là một lcp-interval of lcp-value 𝑙 nếu 1 lcptab[𝑖] < l

2 lcptab[𝑘] ≥ l cho tất cả 𝑘 mà 𝑖 + 1 ≤ 𝑘 ≤ 𝑗

Trang 16 3 lcptab[𝑘] = ít nhất một k với 𝑖 + 1 ≤ 𝑘 ≤ 𝑗

Hình 2-8 là 1-interval bởi vì lcptab[0] = 0 𝑅 và 𝑞 < 𝑞’ < 𝑝 hoặc 𝑝 < 𝑞’ < 𝑞 (hình 3-5)

Hình 3-5 Trùng khớp tầm thường của chuỗi con C

K-Motif (𝑛, 𝑅): Cho chuỗi thời gian 𝑇, một chuỗi con có độ dài n và range 𝑅 là chuỗi con 𝐶 có số lần xuất hiện nhiều nhất khác những trùng khớp tầm thường Motif bậc 𝑘 quan trọng nhất trong 𝑇 là chuỗi con 𝐶 𝑘 có số lần xuất hiện cao nhất khác những trùng khớp tầm thường và 𝐷(𝐶 𝑘 , 𝐶 𝑖 ) > 2𝑅 cho tất cả 1 ≤ 𝑖 < 𝐾

3.3.2 Rời rạc hóa dữ liệu chuỗi thời gian Để mã hóa dữ liệu thành chuỗi ký tự, trước tiên ta dùng phương pháp PAA (xấp xỉ gộp từng đoạn – piecewise aggregate approximation) do E Keogh và cộng sự đề nghị năm 2001 [13] để biến dữ liệu thành những đường thẳng có dạng bậc thang, với từng giá trị trung bình tương ứng với từng phân đoạn Sau đó áp dụng phương pháp rời rạc hóa SAX (xấp xỉ gộp ký hiệu hóa - symbolic aggregate approximation) [13] để chuyển chuỗi số thực PAA thành tràng ký tự

Hình 3-6 Dữ liệu sau khi xử lý qua phương pháp PPA và SAX

Trong hình 3-6 với chuỗi dữ liệu giá trị có độ dài 𝑛 = 128 ta biến đổi thành chuỗi ký tự “cbccbaab” với độ dài 𝑤 = 8 và số ký tự 𝑎 = 3

3.3.3 Thuật toán chiếu ngẫu nhiên Để tìm ra những thể hiện motif có độ dài 𝑛 của chuỗi dữ liệu thời gian có độ dài 𝑚, ý tưởng của thuật toán là biến đổi những chuỗi con có độ dài 𝑛 thành những chuỗi ký tự và sau đó lưu vào bảng 𝑆̂, sau đó chọn ngẫu nhiên các cột trong bảng 𝑆̂ làm mặt nạ và tìm các giá trị giống nhau lưu vào ma trận đụng độ (collision matrix)

Ví dụ: Một dữ liệu chuỗi thời gian 𝑇 với 1000 điểm dữ liệu, bao gồm 2 motif với độ dài 16 tại thời điểm 𝑇 1 và thời điểm 𝑇 58 (hình 3-7)

Hình 3-7 Mã hóa dữ liệu chuỗi thời gian

E Keogh và cộng sự sử dụng cửa sổ trượt để rút trích và mã hóa dữ liệu đước rút trích thành những ký tự và lưu chúng vào bảng 𝑆̂ (hình 3-7), với mỗi dòng của bảng ứng với một chuỗi con được rút trích

Hình 3-8 Kết quả ma trận đụng độ khi chon cột {1, 2} làm mặt nạ

Sau khi bảng được xây dựng, ví dụ ta chọn ngẫu nhiên 2 cột trong 𝑆̂ làm mặt nạ (mask) Trong hình 3-8 cột {1, 2} được chọn làm mặt nạ, giá trị trong cột {1, 2} được sử dụng để lưu vào ma trận đụng độ Nếu 2 ký tự tương với chuỗi con 𝑖 và 𝑗 giống nhau, ta tăng giá trị ô (𝑖, 𝑗) trong ma trận va chạm lên một đơn vị (ma trận đơn vị ban đầu được khởi tạo với tất cả các giá trị đều bằng 0) Trong hình 3-9 (𝑖 = 58, 𝑗 = 1) và (𝑖 = 958, 𝑗 = 2) Để tìm chính xác những motif, quá trình lựa chọn mặt nạ được lặp lại 𝑖 lần Trong hình 3-9 là kết quả ngẫu nhiên cột {2,4} làm mặt nạ

Hình 3-9 Kết quả ma trận đụng độ khi chọn cột {2, 4} làm mặt nạ

Sau khi quá trình chọn ngẫu nhiên được lặp lại với số lần thích hợp, kết quả cần tìm là dòng chứa ô có giá trị cao nhất, tức là chuỗi con ứng viên của motif bậc nhất Sau đó chuỗi con ứng viên sẽ được hậu kiểm trên chuỗi thời gian ban đầu để tìm ra các thể hiện motif bậc nhất

Trang 38 Lưu ý: giải thuật chiếu ngẫu nhiên chỉ tìm ra được motif bậc nhất với chiều dài cố định

PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ

ÁP DỤNG PHƯƠNG PHÁP XẤP XỈ TUYẾN TÍNH TỪNG ĐOẠN

Như đã được đề cập trong chương 2, cây hậu tố và mảng hậu tố có thể giúp tìm được tất cả maximal repeat trong thời gian 𝑂(𝑛) nhưng cây hậu tố tốn không gian lưu trữ dữ liệu khá nhiều và việc xây dựng cây hậu tố khá phức tạp, việc truy xuất các node của cây hậu tố bằng đệ qui làm giảm tốc độ xử lý truy xuất đáng kể, bên cạnh đó trong thực tế mảng hậu tố nâng cao có thời gian thực hiện nhanh hơn, dễ dàng dùng xây dựng hơn rất nhiều lần so với cây hậu tố Vì thế trong luận văn này chúng tôi dùng mảng hậu tố nâng cao để phát hiện tất cả các xu hướng thường xuyên của dữ liệu chuỗi thời gian Do có những xu hướng thường xuyên có độ dài quá ngắn, không đáng kể trong một bộ dữ liệu lớn và nhằm để xác định xu hướng tăng giảm của dữ liệu trong một thời gian dài hơn, chúng tôi áp dụng phương pháp xấp xỉ tuyến tính từng đoạn để làm nhẵn (𝑠𝑚𝑜𝑜𝑡ℎ𝑖𝑛𝑔).Ví dụ: hình 4-1 chứa những đoạn dữ liệu có tính tăng giảm không đáng kể trong một bộ dữ liệu lớn Việc áp dụng phương pháp xấp xỉ tuyến tính từng đoạn làm tăng rõ rệt độ dài mẫu xu hương thường xuyên đồng thời không ảnh hưởng đến thời gian thực hiện thuật toán vì phương pháp xấp xỉ tuyến tính từng đoạn tốn thời gian 𝑂(𝑛)

Hình 4-1 Dữ liệu sau khi làm nhẵn

Ngoài ra do mảng hậu tố nâng cao chỉ xử lý được các ký tự nên ta cần phải mã hóa những dữ liệu xu hướng thành chuỗi ký tự Việc mã dữ liệu xu hướng trong chuỗi thời gian thành những ký tự là vô cùng quan trọng vì nó ảnh hưởng đến sự phát hiện tất cả các xu hướng thường xuyên Trong luận văn này chúng tôi sử dụng phương pháp tính gốc chênh lệch giữa hai điểm trong dữ liệu chuỗi thời gian sau đó mã hóa thành một ký tự alphabet (hình 3-6), việc mã hóa này tốn thời gian 𝑂(𝑛) Sau khi dữ liệu được mã hóa thành chuỗi ký tự việc xây dựng mảng hậu tố nâng cao và tìm tất cả các maximal repeat tốn thời gian 𝑂(𝑛), nên giải thuật tốn thời gian 𝑂(𝑛) để xử lý, việc xác định chiều dài các xu hướng không phải là vấn đề đơn giản, và đối với các giải thuật thông thường cần rất nhiều lần thử để xác định chiều dài đó, mảng hậu tố nâng cao đã giúp giải quyết vấn đề đó rất hiệu quả và chính xác bằng cách xác định tất cả các maximal repeat

4.1.1 Mô hình tìm tất cả các xu hướng thường xuyên sử dụng mảng hậu tố nâng cao và phương pháp xấp xỉ tuyến tính từng đoạn

Hình 4-2 trình bày mô hình tìm kiếm tất cả các xu hướng thường xuyên trên dữ liệu chuỗi thời gian với sự hỗ trợ của mảng hậu tố và phương pháp PLA

Hình 4-2 Mô hình tìm kiếm tất cả các xu hướng thuường xuyên trong dữ liệu chuỗi thời gian

Giải thuật chi tiết được trình bày như sau:

1 Xác định thông số error (sai số làm trơn dữ liêu)

2 Khởi tạo mảng chứa dữ liệu đầu vào

3 Khởi tạo mảng chứa dữ liệu đầu ra

4 Loop until phần tử cuối cùng của mảng

For each mỗi mẫu trong tập dữ liệu, do Khởi tạo vị trí hiện tại

Khởi tạo mảng tạm chứa dữ liệu làm nhẵn

Nếu khoảng cách của các phần tử trong mảng tạm bé hơn thông số error, thêm phần tử ở vị trí hiện tại vào mảng tạm Ngược lại thêm các phần tử từ mảng tạm vào mảng kết quả

Khởi tạo lại mảng tạm Vị trí hiện tai = vị trí hiện tại + 1

5 Mã hóa dữ liệu thành tràng ký tự

For each mỗi mẫu trong tập dữ liệu sau khi sư lý, do

Dựa vào tính tăng giảm của hai điểm dữ liệu liền kề mã hóa thành ký tự tương ứng Ví dụ: giảm = a, tăng = b, không đổi = c

End for 6 Xây dựng mảng hậu tố nâng cao

7 Tìm tất cả các maximal repeat với vị trí và độ dài của chúng.

ÁP DỤNG PHƯƠNG PHÁP XẤP XỈ GỘP TỪNG ĐOẠN ĐỂ PHÁT HIỆN

Ngoài việc dùng mảng hậu tố nâng cao để xác định các xu hướng thường xuyên trong dữ liệu, trong luận văn này, chúng tôi đã thiết lập được mối liên hệ giữa bài toán

“phát hiện mẫu xu hướng thường xuyên” trên dữ liệu chuỗi thời gian với bài toán

“phát hiện motif” trên dữ liệu chuỗi thời gian, việc mã hóa chuỗi dữ liệu ban đầu thành chuỗi ký tự phù hợp có thể giúp phát hiện được tất cả các motif trong dữ liệu chuỗi thời gian Chúng tôi sử dụng mảng hậu tố nâng cao và áp dụng phương pháp xấp xỉ gộp từng đoạn (PAA) để xác định tất cả các motif trong dữ liệu chuỗi thời, việc này bước đầu tiên cần rời rạc hóa bộ dữ liệu thành những đoạn thẳng rời rạc (hình 4-3)

Hình 4-3 Xấp xỉ bằng PAA

Sau khi rời rạc hóa dữ liệu thành những đoạn tiếp theo chúng tôi mã hóa dữ liệu những đoạn thẳng đó thành chuỗi ký tự Trong phần này chúng tôi mã hóa dữ liệu thành ký tự bằng phương pháp SAX (hình 4-4) Đối với những bộ dữ liệu lớn việc thu giảm số chiều giúp làm cải thiện tốc độ xử lý rõ rệt so với dữ liệu ban đầu đồng thời vẫn đảm bảo được độ chính xác so với dữ liệu ban đầu

Trang 47 Việc xấp xỉ gộp từng đoạn tốn thời gian 𝑂(𝑛) để duyệt tất cả các phần tử trong tập dữ liệu, mã hóa chuỗi ký tự bằng phương pháp SAX cũng tốn thời gian 𝑂(𝑛) vì thế việc tìm kiếm motif bằng mảng hậu tố nâng cao tốn thời gian 𝑂(𝑛) So với các phương pháp tìm kiếm truyền thống như brute force, hay giải thuật chiếu ngẫu nhiên việc tìm kiếm tất cả motif đòi hỏi một thời gian rất lớn để tìm các motif với chiều dài khác nhau và việc xác đinh chiều dài các motif sao cho hợp lý cũng không phải là một vấn đề đơn giản, vì thế chúng tôi chọn mảng hậu tố nâng cao thực hiện luận văn này nhằm giải quyết việc xác định độ dài các motif và đồng thời thời gian xử lý là vô cùng nhanh chóng

4.2.1 Mô hình tìm tất cả các xu hướng thường xuyên sử dụng mảng hậu tố nâng cao và phương pháp xấp xỉ tuyến tính từng đoạn

Hình 4-5 trình bày sơ đồ của quá trình tìm kiếm tất cả các motif trên dữ liệu chuỗi thời gian với sự hỗ trợ của mảng hậu tố và phương pháp rời rạc hóa SAX

Hình 4-4 Rời rạc hóa dữ liệu bằng SAX

Hình 4-5 Sơ đồ của quá trình tìm kiếm tất cả các motif trên dữ liệu chuỗi thời gian

Giải thuật chi tiết được trình bày như sau:

1 Xác định thông số m của phương pháp xấp xỉ gộp từng đoạn

2 Khởi tạo mảng chứa dữ liệu đầu ra

3 Loop until phần tử cuối cùng của mảng

For each mỗi mẫu trong tập dữ liệu, do Avg_value =0;

Avg_value+= giá trị của mẫu dữ liệu

Avg_value = Avg_value /m Thêm phần tử Avg_value vào mảng chứa dữ liệu đầu ra

End for 4 Sử dụng phương pháp SAX để biến dữ liệu thành chuỗi ký tự

5 Xây dựng cây mảng hậu tố nâng cao

6 Tìm tất cả các maximal repeate với vị trí và độ dài của chúng

Kết luận: Chúng tôi đã đề xuất phương pháp sử dụng mảng hậu tố nâng cao cùng với phương pháp xấp xỉ tuyến tính từng đoạn và phương pháp xấp xỉ gộp dữ liệu từng đoạn để cho phép người dùng có thể chọn một trong hai phương pháp tìm các mẫu xu hướng thường xuyên hoặc tìm các motif trong dữ liệu chuỗi thời gian Mảng hậu tố nâng cao giúp tìm được tất cả các xu hướng thường xuyên và tất cả các motif trong dữ

Trang 50 liệu chuỗi thời gian với nhiều độ dài khác nhau, đồng thời với thời gian xử lý 𝑂(𝑛) việc tìm kiếm thực hiện trong thời gian rất nhanh

HIỆN THỰC VÀ THỬ NGHIỆM

MÔI TRƯỜNG PHÁT TRIỂN

Chương trình demo này được phát triển dựa trên những môi trường sau:

 Hệ điều hành : Window 8.1 Pro

 Ngôn ngữ C# trong Visual Studio 2015

 Thư viện System.Linq để hỗ trợ việc sắp xếp các hậu tố trong mảng hậu tố

 Thử nghiệm phương pháp nêu trên trên một số bộ dữ liệu mẫu

 Cấu hình máy: Core(TM) i7-4510U CPU @2.00GHz (4 CPUs), 8G Ram (533MHz)

KẾT QUẢ THỰC NGHIỆM CỦA CÁC GIẢI THUẬT

Trong đề tài này, chúng tôi đã thực hiện năm giải thuật để tìm kiếm motif và các mẫu xu hướng thường xuyên:

1 Giải thuật mảng hậu tố nâng cao 2 Gải thuật mảng hậu tố nâng cao áp dụng phương pháp PLA 3 Gải thuật cây hậu tố áp dụng phương pháp PLA

4 Gải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA

Trang 52 5 Gải thuật cây hậu tố áp dụng phương pháp PAA

Thời gian để so sánh sẽ được quan sát là milliseconds (ms) và chỉ so sánh khi thực hiện thuật toán xây dựng mảng hậu tố, cây hâu tố và việc tìm kiếm tất cả các xu hướng thường xuyên cùng với motif, không tính thời gian tiền xử lý dữ liệu (như đọc, ghi tập tin, vv.) Kết quả tìm kiếm motif sẽ được kiểm tra độ chính xác bằng cách so sánh với kết quả tìm kiếm motif của giải thuật Brute Force với cùng chiều dài motif và ngưỡng sai số

Chúng tôi sử dụng kết quả tìm kiếm motif của giải thuật Brute Force để làm chuẩn đối chiếu vì giải thuật này vét cạn tất cả các chuỗi con có thể là motif, và đây cũng là chuẩn đối chiếu để kiểm tra kết quả của các giải thuật chiếu ngẫu nhiên hiện nay

Luận văn sử dụng 6 bộ dữ liệu để chạy thử nghiệm, các bộ dữ liệu được lấy từ trang web của Eamonn Keogh (http://www.cs.ucr.edu/~eamonn/time_series_data/)

1 ECG (2500 điểm dữ liệu) 2 ECG (10000 điểm dữ liệu) 3 Memory (6783 điểm dữ liệu) 4 Power (7926 điểm dữ liệu) 5 Koshi (9125 điểm dữ liệu)

Các thực nghiệm đều được chạy với máy tính có cấu hình: Ram 8GB, CPU Core i7

2.0 GHz, cài đặt hệ điều hành Window 8 professional 64bits và Net framework 4.6 Hai mô hình chúng tôi đều hiện thực trên ngôn ngữ lập trình C#

5.2.1 Nhận diện xu hướng thường xuyên bằng mảng hậu tố nâng cao hoặc cây hậu tố

Trong phần này chúng tôi sử dụng 3 phương pháp: mảng hậu tố nâng cao, mảng hậu tố nâng cao áp dụng phương pháp PLA và cây hậu tố áp dụng phương pháp PLA

Trang 53 Bảng 5-1 trình bày tóm tắt các thông số đầu vào cho các bộ dữ liệu:

Bảng 5-1 Tóm tắt các thông số đầu vào cho các bộ dữ liệu

Bộ dữ liệu Cấu hình

Sai số trong phương pháp PLA: 1500 Số ký tự mã hóa: 7 ký tự

Sai số trong phương pháp PLA: 1 Số ký tự mã hóa: 7 ký tự

Sai số trong phương pháp PLA: 15 Số ký tự mã hóa: 7 ký tự

Sai số trong phương pháp PLA: 500 Số ký tự mã hóa: 7 ký tự

Sai số trong phương pháp PLA: 1500 Số ký tự mã hóa: 7 ký tự

5.2.1.1 Dữ liệu ECG (điện tâm đồ) với kích thước 2500 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-1 và bảng 5-2

Hình 5-1 Dữ liệu ECG (điện tâm đồ) với kích thước 2500 điểm

Bảng 5-2 Các thông số của bộ dữ liệu ECG 2500 điểm

Mảng hậu tố nâng cao, áp dung phương pháp PLA

Sai số trong phương pháp PLA: 1500 Mã hóa góc xu hướng thành 7 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn (hình 5-2)

Hình 5-2 Dữ liệu ECG sau khi làm nhẵn

Kết quả tìm kiếm mẫu xu hướng thường xuyên trên bộ dữ liệu ECG bằng giải thuật mảng hậu tố nâng cao (hình 5-3)

Hình 5-3 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm các mẫu xu hướng bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-4)

Hình 5-4 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-3 Kết quả các mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu ECG (2500 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 12897 mili giây 13004 mili giây 60758 mili giây Bộ nhớ 6537528 (bytes) 6537528 (bytes) 14290480 (bytes)

Trang 56 Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

2 2 2 Độ dài trung bình xu hướng thường xuyên

Dựa vào hình hình 5-4 và bảng 5-3 ta có nhận xét như sau:

 Hình dạng mẫu xu hướng của giải thuật rất giống nhau

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

5.2.1.2 Dữ liệu ECG (điện tâm đồ) với kích thước 10000 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-5 và bảng 5-4

Hình 5-5 Dữ liệu ECG với kích thước 10000 điểm Bảng 5-4 Các thông số của bộ dữ liệu ECG 10000 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PLA

Sai số trong phương pháp PLA: 1 Mã hóa góc xu hướng thành 7 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn (hình 5-6)

Hình 5-6 Dữ liệu ECG sau khi làm nhẵn

Trang 58 Kết quả tìm kiếm mẫu xu hướng trên bộ dữ liệu ECG bằng giải thuật mảng hậu tố nâng cao (hình 5-7)

Hình 5-7 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-

Hình 5-8 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-5 Kết quả mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu ECG (10000 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 850678 mili giây 1136379 mili giây 2103585 mili giây Bộ nhớ 101172104 (bytes) 101172104 (bytes) 206022536 (bytes)

Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

2 2 2 Độ dài trung bình xu hướng thường xuyên

Dựa vào hình hình 5-8 và bảng 5-5 ta có nhận xét như sau:

 Hình dạng mẫu xu hướng của mảng hậu tố nâng cao thuần túy bị trùng lắp lên nhau.

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

5.2.1.3 Dữ liệu Memory với kích thước 6873 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-9 và bảng 5-6

Hình 5-9 Dữ liệu Memory với kích thước 6873 điểm Bảng 5-6 Các thông số của bộ dữ liệu Memory 6873 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PLA

Sai số trong phương pháp PLA: 15 Mã hóa góc xu hướng thành 7 ký tự

Mảng hậu tố nâng cao

Mã hóa góc xu hướng thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn (hình 5-10)

Hình 5-10 Dữ liệu Memory sau khi làm nhẵn

Trang 61 Kết quả tìm kiếm mẫu xu hướng trên bộ dữ liệu Memory bằng giải thuật mảng hậu tố nâng cao (hình 5-11)

Hình 5-11 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-

Hình 5-12 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-7 Kết quả mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu Memory (6873 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 284822 mili giây 351325 mili giây 1211325 mili giây Bộ nhớ 48033336 (bytes) 48033336 (bytes) 99868192 (bytes)

Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

2 2 2 Độ dài trung bình xu hướng thường xuyên

Dựa vào hình hình 5-12 và bảng 5-7 ta có nhận xét như sau:

 Hình dạng mẫu xu hướng của mảng hậu tố nâng cao thuần túy bị trùng lắp lên nhau

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

5.2.1.4 Dữ liệu power_data với kích thước 7926 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-13 và bảng 5-8

Hình 5-13 Dữ liệu power_data với kích thước 7926 điểm

Bảng 5-8 Các thông số của bộ dữ liệu power_data

Mảng hậu tố nâng cao, áp dụng phương pháp PLA

Sai số trong phương pháp PLA: 500 Mã hóa góc xu hướng thành 7 ký tự

Mảng hậu tố nâng cao

Mã hóa góc xu hướng thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn (hình 5-14)

Hình 5-14 Dữ liệu power_data sau khi làm nhẵn

Kết quả tìm kiếm mẫu xu hướng trên bộ dữ liệu ECG bằng giải thuật mảng hậu tố nâng cao (hình 5-15)

Hình 5-15 Sau khi thực hiện mảng hậu tố nâng cao

Trang 65 Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-

Hình 5-16 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-9 Kết quả mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu power_data (6873 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 315481 mili giây 325927 mili giây 1347254 mili giây Bộ nhớ 63728304 (bytes) 63728304 (bytes) 130705264 (bytes)

Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

Trang 66 Độ dài trung bình xu hướng thường xuyên

Dựa vào hình hình 5-16 và bảng 5-9 ta có nhận xét như sau:

 Hình dạng mẫu xu hướng của giải thuật rất giống nhau

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

5.2.1.5 Dữ liệu koski_ecg (điện tâm đồ) với kích thước 9125 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-17 và bảng 5-10

Hình 5-17 Dữ liệu koski_ecg (Điện tâm đồ) với kích thước 9125 điểm Bảng 5-10 Các thông số của bộ dữ liệu koski_ecg

Mảng hậu tố nâng cao, áp dụng phương pháp PLA

Sai số trong phương pháp PLA: 1500 Mã hóa góc xu hướng thành 7 ký tự

Trang 67 Mảng hậu tố nâng cao

Mã hóa góc xu hướng thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn (hình 5-18)

Hình 5-18 Dữ liệu koski_ecg sau khi làm nhẵn

Kết quả tìm kiếm mẫu xu hướng trên bộ dữ liệu koski_ecg bằng giải thuật mảng hậu tố nâng cao (hình 5-19)

Hình 5-19 Sau khi thực hiện mảng hậu tố nâng cao

Trang 68 Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-

Hình 5-20 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-11 Kết quả mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu koski_ecg (9125 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 394809 mili giây 420120 mili giây 3229420 mili giây Bộ nhớ 84328376 (bytes) 84328376 (bytes) 172108440 (bytes)

Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

Trang 69 Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

Dựa vào hình hình 5-12 và bảng 5-11 ta có nhận xét như sau:

 Hình dạng mẫu xu hướng của giải thuật rất giống nhau

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

5.2.1.6 Dữ liệu eeg (điện não đồ) với kích thước 2477 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-13 và bảng 5-12

Hình 5-21 Dữ liệu eeg (điện não đồ) với kích thước 2477 điểm

Bảng 5-12 Các thông số của bộ dữ liệu eeg

Mảng hậu tố nâng cao, áp dụng phương pháp PLA

Sai số trong phương pháp PLA: 30 Mã hóa góc xu hướng thành 7 ký tự

Mảng hậu tố nâng cao

Mã hóa góc xu hướng thành 7 ký tự

Kết quả dữ liệu sau khi làm nhẵn hình 5-22

Hình 5-22 Dữ liệu eeg sau khi làm nhẵn

Kết quả tìm kiếm mẫu xu hướng trên bộ dữ liệu eeg bằng giải thuật mảng hậu tố nâng cao (hình 5-23)

Hình 5-23 Sau khi thực hiện mảng hậu tố

Trang 71 Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PLA (hình 5-

Hình 5-24 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA

Bảng 5-13 Kết quả mẫu xu hướng tìm được và thời gian chạy bộ dữ liệu eeg (2477 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

Thời gian chạy 13297 mili giây 14072 mili giây 38023 mili giây Bộ nhớ 6411768 (bytes) 6411768 (bytes) 14013648 (bytes)

Tổng số xu hướng thường xuyên

Xu hướng thường xuyên có độ dài dài nhất

Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

Trang 72 Số lần xuất hiện xu hướng thường xuyên có độ dài dài nhất

Dựa vào hình 5-12 và bảng 5-13 ta có nhận xét như sau:

 Số lượng mẫu xu hướng của mảng hậu tố nâng cao nhiều hơn mảng hậu tố nâng cao áp dụng phương pháp PLA nhưng độ dài mẫu xu hướng ngắn hơn

 Thời gian chạy giải thuật mảng hậu tố nâng cao nhanh hơn so với giải thuật cây hậu tố.

 Cây hậu tố tốn bộ nhớ hơn rất nhiều so với mảng hậu tố nâng cao

Bảng 5-14 trình bày tóm tắt kết quả tìm kiếm tất cả các xu hướng thường xuyên:

Bảng 5-14 Tóm tắt kết quả tìm kiếm tất cả các xu hướng thường xuyên

Bộ dữ liệu Mảng hậu tố nâng cao Mảng hậu tố nâng cao áp dụng phương pháp PLA

Cây hậu tố áp dụng phương pháp PLA

ECG 2500 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 10 Bộ nhớ: 6537528 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 72 Bộ nhớ: 6537528 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 72

ECG 10000 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 8 Bộ nhớ: 101172104 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 64 Bộ nhớ: 101172104 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 64 Bộ nhớ: 206022536 (bytes)

Memory 6873 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 13 Bộ nhớ: 48033336 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 86 Bộ nhớ: 48033336 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 86

Bộ nhớ: 99868192 (bytes) Power_data

7926 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 9 Độ dài trung bình mẫu xu hướng thường xuyên: 43 Độ dài trung bình mẫu xu hướng thường xuyên: 43

Trang 73 Bộ nhớ: 63728304 (bytes) Bộ nhớ: 63728304 (bytes) Bộ nhớ: 130705264 (bytes) koski_ecg

9125 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 12 Bộ nhớ: 84328376 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 94 Bộ nhớ: 84328376 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 94

Bộ nhớ: 172108440 (bytes) eeg 2477 điểm Độ dài trung bình mẫu xu hướng thường xuyên: 7 Bộ nhớ: 6411768 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 10 Bộ nhớ: 6411768 (bytes) Độ dài trung bình mẫu xu hướng thường xuyên: 10 Bộ nhớ: 14013648 (bytes)

5.2.2 Nhận diện motif bằng mảng hậu tố nâng cao

Trong phần này chúng tôi sử dụng 3 phương pháp: mảng hậu tố nâng cao, mảng hậu tố nâng cao áp dụng phương pháp PAA và Brute force

Bảng 5-14 trình bày tóm tắt các thông số đầu vào cho các bộ dữ liệu:

Bảng 5-15 Tóm tắt các thông số đầu vào cho các bộ dữ liệu

Bộ dữ liệu Cấu hình

Số ký điểm trong một đoạn PAA: 15 Số ký tự mã hóa: 4 ký tự

Số ký điểm trong một đoạn PAA: 15 Số ký tự mã hóa: 4 ký tự

Số ký điểm trong một đoạn PAA: 5 Số ký tự mã hóa: 4 ký tự

Số ký điểm trong một đoạn PAA: 8 Số ký tự mã hóa: 4 ký tự

Trang 74 Koshi (9125 điểm dữ liệu)

Số ký điểm trong một đoạn PAA: 15 Số ký tự mã hóa: 4 ký tự

5.2.2.1 Dữ liệu ECG (điện tâm đồ) với kích thước 2500 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-25 và bảng 5-16

Hình 5-25 Dữ liệu ECG (điện tâm đồ) với kích thước 2500 điểm Bảng 5-16 Các thông số của bộ dữ liệu ECG

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 15

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-26)

Hình 5-26 Dữ liệu ECG sau khi làm xấp xỉ gộp từng đoạn

Kết quả tìm kiếm motif trên bộ dữ liệu ECG bằng giải thuật mảng hậu tố nâng cao (hình 5-27)

Hình 5-27 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-28 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Hình 5-29 Sau khi thực hiện với phương pháp brute force Bảng 5-17 Kết quả motif tìm được và thời gian chạy bộ dữ liệu ECG (2500 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 12109 mili giây 162 mili giây 4501 mili giây

Tổng số motif với chiều dài khác nhau

Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

0, 726 75, 1170 75, 1170 Độ dài trung bình của motif

Trang 77 Dựa vào hình 5-28, hình 5-29 và bảng 5-17 ta có nhận xét như sau:

 Hình dạng motif của các giải thuật rất giống nhau

 Số lượng thể hiện của motif bằng nhau

 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

 Độ dài trung bình motif của mảng hậu tố nâng cao áp dụng phương pháp PAA dài hơn so với giải thuật mảng hậu tố nâng cao

 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn 100 lần so với giải thuật mảng hậu tố nâng cao.

5.2.2.1 Dữ liệu ECG (điện tâm đồ) với kích thước 10000 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-30 và bảng 5-18

Hình 5-30 Dữ liệu ECG (điện tâm đồ) với kích thước 10000 điểm

Bảng 5-18 Các thông số của bộ dữ liệu ECG 10000 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 15 Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Trang 78 Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-31)

Hình 5-31 Dữ liệu ECG sau khi xấp xỉ gộp từng đoạn

Kết quả tìm kiếm motif trên bộ dữ liệu ECG bằng giải thuật mảng hậu tố nâng cao (hình 5-32)

Hình 5-32 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-33 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Kết quả tìm kiếm motif trên bộ dữ liệu ECG bằng giải thuật Brute force (hình 5-34)

Hình 5-34 Sau khi thực hiện với phương pháp brute force Bảng 5-19 Kết quả motif tìm được và thời gian chạy bộ dữ liệu ECG (10000 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 708552 mili giây 984 mili giây 74364 mili giây Bộ nhớ 101172104 (bytes) 52352 (bytes)

Tổng số motif với chiều dài khác nhau

Trang 80 Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

8906, 9294 6625, 7035 6625, 7035 Độ dài trung bình của motif

Dựa vào hình 5-33, hình 5-34 và bảng 5-19 ta có nhận xét như sau:

 Số lượng thể hiện của motif bằng nhau

 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

 Độ dài trung bình motif của mảng hậu tố nâng cao áp dụng phương pháp PAA dài hơn so với giải thuật mảng hậu tố nâng cao

 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn nhiều lần so với giải thuật mảng hậu tố nâng cao.

5.2.2.2 Dữ liệu Memory với kích thước 6873 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-35 và bảng 5-20

Hình 5-35 Dữ liệu Memory với kích thước 6873 điểm

Bảng 5-20 Các thông số của bộ dữ liệu Memory 6873 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 5

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-36)

Hình 5-36 Dữ liệu Memory sau khi xấp xỉ gộp từng đoạn

Trang 82 Kết quả tìm kiếm motif trên bộ dữ liệu Memory bằng giải thuật mảng hậu tố nâng cao (hình 5-37)

Hình 5-37 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-38 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Kết quả tìm kiếm motif trên bộ dữ liệu Memory bằng giải thuật Brute force (hình 5-

Hình 5-39 Sau khi thực hiện với phương pháp brute force Bảng 5-21 Kết quả motif tìm được và thời gian chạy bộ dữ liệu Memory (6873 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 208663 mili giây 2476 mili giây 56391 mili giây Bộ nhớ 48033336 (bytes) 2052728 (bytes)

Tổng số motif với chiều dài khác nhau

Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

3194, 4181 3190, 4185 3190, 4185 Độ dài trung bình của motif

Trang 84 Dựa vào hình 5-38, hình 5-39 và bảng 5-21 ta có nhận xét như sau:

 Hình dạng motif của các giải thuật rất giống nhau

 Số lượng thể hiện của motif bằng nhau

 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

 Độ dài trung bình motif của mảng hậu tố nâng cao áp dụng phương pháp PAA dài hơn so với giải thuật mảng hậu tố nâng cao

 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn so với giải thuật mảng hậu tố nâng cao

5.2.2.3 Dữ liệu power_data với kích thước 7926 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-40 và bảng 5-22

Hình 5-40 Dữ liệu power_data với kích thước 7926 điểm Bảng 5-22 Các thông số của bộ dữ liệu power_data

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 8

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-41)

Hình 5-41 Dữ liệu power_data sau khi xấp xỉ gộp từng đoạn

Kết quả tìm kiếm motif trên bộ dữ liệu power_data bằng giải thuật mảng hậu tố nâng cao (hình 5-42)

Hình 5-42 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-43 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Kết quả tìm kiếm motif trên bộ dữ liệu power_data bằng giải thuật Brute force (hình

Hình 5-44 Sau khi thực hiện với phương pháp brute force

Bảng 5-23 Kết quả motif tìm được và thời gian chạy bộ dữ liệu power_data (7926 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 343661 mili giây 2206 mili giây 173278 mili giây Bộ nhớ 63728304 (bytes) 1095288 (bytes)

Trang 87 Tổng số motif với chiều dài khác nhau

Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

6309, 6981 2088, 2760 2825, 3500 Độ dài trung bình của motif

Dựa vào hình 5-43, hình 5-44 và bảng 5-23 ta có nhận xét như sau:

 Hình dạng motif của các giải thuật brute force và mảng hậu tố nâng cao có áp dụng phương pháp PAA rất giống nhau

 Số lượng thể hiện của motif bằng nhau

 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn so với giải thuật mảng hậu tố nâng cao

5.2.2.4 Dữ liệu koski_ecg với kích thước 9125 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-45 và bảng 5-24

Hình 5-45 Dữ liệu koski_ecg với kích thước 9125 điểm Bảng 5-24 Các thông số của bộ dữ liệu Memory 6873 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 10

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-46)

Hình 5-46 Dữ liệu koski_ecg sau khi xấp xỉ gộp từng đoạn

Kết quả tìm kiếm motif trên bộ dữ liệu koski_ecg bằng giải thuật mảng hậu tố nâng cao (hình 5-37)

Hình 5-47 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-48 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Trang 90 Kết quả tìm kiếm motif trên bộ dữ liệu koski_ecg bằng giải thuật Brute force (hình

Hình 5-49 Sau khi thực hiện với phương pháp brute force Bảng 5-25 Kết quả motif tìm được và thời gian chạy bộ dữ liệu koski_ecg (9125 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 503353 mili giây 1023 mili giây 115209 mili giây Bộ nhớ 84328376 (bytes) 443592 (bytes)

Tổng số motif với chiều dài khác nhau

Trang 91 Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

2989, 6694 2980, 7060 2980, 7060 Độ dài trung bình của motif

Dựa vào hình 5-48, hình 5-49 và bảng 5-25 ta có nhận xét như sau:

1 Hình dạng motif của các giải thuật rất giống nhau 2 Số lượng thể hiện của motif bằng nhau

3 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

4 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn so với giải thuật mảng hậu tố nâng cao.

5.2.2.5 Dữ liệu eeg (điện não đồ) với kích thước 2477 điểm

Dữ liệu và thông số đầu vào được mô tả chi tiết trong hình 5-50 và bảng 5-26

Hình 5-50 Dữ liệu eeg với kích thước 2477 điểm Bảng 5-26 Các thông số của bộ dữ liệu eeg 2477 điểm

Mảng hậu tố nâng cao, áp dụng phương pháp PAA

Số ký điểm trong một đoạn PAA: 15

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Mảng hậu tố nâng cao

Sử dụng SAX để mã hóa chuỗi dữ liệu thời gian thành 4 ký tự

Kết quả dữ liệu sau khi làm xấp xỉ gộp từng đoạn (hình 5-51)

Hình 5-51 Dữ liệu eeg sau khi xấp xỉ gộp từng đoạn

Trang 93 Kết quả tìm kiếm motif trên bộ dữ liệu eeg bằng giải thuật mảng hậu tố nâng cao (hình 5-52)

Hình 5-52 Sau khi thực hiện mảng hậu tố nâng cao

Kết quả tìm kiếm bằng mảng hậu tố nâng cao áp dụng phương pháp PAA (hình 5-

Hình 5-53 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA

Kết quả tìm kiếm motif trên bộ dữ liệu eeg bằng giải thuật Brute force (hình 5-54)

Hình 5-54 Sau khi thực hiện với phương pháp brute force Bảng 5-27 Kết quả motif tìm được và thời gian chạy bộ dữ liệu eeg (2477 điểm)

Thuộc tính Mảng hậu tố nâng cao

Mảng hậu tố nâng cao áp dụng phương pháp PAA

Thời gian chạy 16120 mili giây 162 mili giây 4217 mili giây Bộ nhớ 6411768 (bytes) 48336 (bytes)

Tổng số motif với chiều dài khác nhau

Motif có độ dài dài nhất

Số lần xuất hiện motif có độ dài dài nhất

Vị trí thể hiện motif dài nhất

1900, 1963 1380, 1860 1380, 1591 Độ dài trung bình của motif

Trang 95 Dựa vào hình 5-53, hình 5-54 và bảng 5-27 ta có nhận xét như sau:

 Hình dạng motif của các giải thuật rất giống nhau

 Số lượng thể hiện của motif bằng nhau

 Vị trí xuất hiện motif ở giải thuật mảng hậu tố nâng cao giống với giải thuật brute force

 Thời gian chạy giải thuật mảng hậu tố nâng cao áp dụng phương pháp PAA nhanh hơn so với giải thuật mảng hậu tố nâng cao

Bảng 5-28 trình bày tóm tắt kết quả tìm kiếm tất cả các motif:

Bảng 5-28 Tóm tắt kết quả tìm kiếm tất cả motif

Mảng hậu tố nâng cao Mảng hậu tố nâng cao áp dụng phương pháp PAA

ECG 2500 điểm Bộ nhớ: 6537528 (bytes)

Thời gian: 162 ms Thời gian: 4501 ms

ECG 10000 điểm Bộ nhớ: 101172104 (bytes)

Thời gian: 984 ms Thời gian: 74364 ms Memory

Bộ nhớ: 48033336 (bytes) Thời gian: 208663 ms

Bộ nhớ: 2052728 (bytes) Thời gian: 2476 ms

Thời gian: 56391 ms Power_data

Bộ nhớ: 63728304 (bytes) Thời gian: 343661 ms

Thời gian: 2206 ms Thời gian: 173278ms koski_ecg

Bộ nhớ: 6537528 (bytes) Thời gian: 503353 ms

Thời gian: 1023 ms Thời gian: 115209 ms eeg 2477 điểm

Bộ nhớ: 6537528 (bytes) Thời gian: 16120 ms

Bộ nhớ: 6537528 (bytes) Thời gian: 162 ms Thời gian: 4217 ms

5.2.3 Nhận xét chung về phát hiện tất cả các xu hướng thường xuyên của dữ liệu thời gian

ĐÁNH GIÁ KẾT QUẢ

Trong đề tài này chúng tôi đã giải quyết được các vấn đề cơ bản như sau: thiết lập mối liên hệ giữa bài toán “phát hiện mẫu xu hướng thường xuyên” trên dữ liệu chuỗi thời gian với bài toán “phát hiện motif” trên dữ liệu chuỗi thời gian Bên cạnh đó chúng tôi đã xây dựng được ứng dụng hiện thực mảng hậu tố nâng cao, cây hậu tố cùng các phương xấp xỉ tuyến tính từng đoạn (PLA) để phát hiện tất cả các mẫu thường xuyên và phương pháp xấp xỉ gộp từng đoạn (PAA) để phát hiện tất cả các motif với độ dài khác nhau trên dữ liệu chuỗi thời gian, so sánh tốc độ xử lý của mảng hậu tố nâng cao với tốc độ xử lý của cây hậu tố, so sánh độ chính xác của mảng hậu tố nâng cao và brute force trong việc tìm kiếm tất cả các motif Chúng tôi đã thử nghiệm trên một số bộ dữ liệu mẫu để kiểm chứng và đánh giá tính đúng đắn của cơ sở lý thuyết cũng như khả năng hiểu biết của bản thân đối với quá trình hiện thực

Trang 98 Sau khi thực nghiệm trên các bộ dữ liệu mẫu chúng tôi nhận thấy rằng việc xử dụng phương pháp xấp xỉ tuyến tính từng đoạn để làm nhẵn dữ liệu vô cùng quan trọng cho việc phát hiện tất cả các mẫu xu hướng thường xuyên trong thời gian dài, đặc biệt là đối với bộ dữ liệu có tính tăng giảm không đáng kể trong dữ liệu chuỗi thời gian Đồng thời việc áp dụng phương pháp xấp xỉ gộp từng đoạn vào mảng hậu tố nâng cao để phát hiện các motif đã cải thiện đáng kể tốc độ xây dựng và tìm kiếm motif trong dữ liệu chuỗi thời gian, nhưng bên cạnh đó vẫn đảm bảo được tính chính xác cao.

HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI

Chúng tôi sẽ cải thiện các ước lượng thông số cho phương pháp PAA bằng gải thuật điểm cực trị quan trọng và giải thuật phân đoạn SWAB để giảm thời gian ước lượng cũng như độ hiệu quả các các thông số này Cải tiến giải thuật cây hậu tố giúp giải thuật có thể chạy trực tuyến, phù hợp với yêu cầu mới

[1] P Indyk , N Koudas and S Muthukrishnan, "Identifying Representative Trends in Massive Time Series Data Sets Using Sketches,"

Proceedings of the 26th International Conference on Very Large Data Bases, pp 363-372, 2000

[2] Y Qu, C Wang and X S Wang, "Supporting fast search in time series for movement patterns in multiple scales," Proceedings of the seventh International Conference on Information and Knowledge management, pp

[3] U Manber and G Myers, "Suffix arrays: a new method for on-line string searches," Proceedings of the first annual ACM-SIAM symposium on discrete algorithms, pp 319-327, 1990

[4] J Kọrkkọinen, P Sanders and S Burkhardt, "Simple linear work suffix array," Proceedings of the 13th international conference on automata, languages and programming, pp 943-955, 2003

[5] P Ko and S Aluru, "Space efficient linear time construction of suffix,"

Proceedings of the 14th annual symposium on combinatorial pattern, pp 200-

[6] T Kasai, G Lee, H Arimura, S Arikawa and K Park, "Linear- time longest-common-prefix computation in suffix arrays and its applications," in Proceedings of the 12th Annual Symposium on Combinatorial, London, 2001

[7] E McCreight, "Suffix tree construction," Journal of the ACM, pp 262-272, 1976

Trang 100 [8] R Agrawal, G Psaila, M ZaIt and E L Wimmers, "Querying Shapes of Histories," Proceedings of the 21th International Conference on Very Large Data Bases, pp 502-514, 1995

[9] E Keogh, S Chu, D Hart and M Pazzani, "An online algorithm for segmenting time series," Proceedings of the IEEE International Conference on Data Mining, California,USA, pp 289-296, 2001

[10] A Udechukwu, K Barker and R Alhajj, "Discovering All Frequent Trends in Time Series," Proceedings of the winter international synposium on

Information and Communication Technologies, pp 1-6, 2004

[11] J Lin, E Keogh, P Patel and S Lonardi, "Mining motifs in massive time series databases," Proceedings of the 2002 IEEE International Conference on Data Mining , p 370

[12] B Chiu, E Keogh and S Lonardi, "Probabilistic discovery of time series motifs," Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 493-498, 2003

[13] E Keogh and M Pazzani, "An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback," Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York,NY, pp 239-241, 27-31 Aug 1998

[14] G Roberto and G F Italiano, "Suffix trees and their applications in string algorithms," Proceedings of the 1st South American Workshop on String

[15] A T Dương, "An overview of similarity search in time series data,"

Tạp chí phát triển khoa học và Công nghệ - Đại học Quốc Gia, vol 14, no k2, pp 71-79, 2011

Trang 101 [16] S Tata, R A Hankins and J M Patel, "Practical Suffix Tree

Construction," Tata, Sandeep, Richard A Hankins, and Jignesh M Patel

"Practical suffix tree construction." Proceedings of the Thirtieth International Conference on Very large Data Bases, vol Volume 30, 2004, August

[17] R S Kosaraju, "Real-time pattern matching and quasi-real-time,"

Proceedings of the 26th annual ACM symposium on theory of computing, pp

[18] J Lin, E Keogh, S Lonardi and B Chiu, "A Symbolic Representation of Time Series, with Implications for Streaming Algorithms," Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pp 2-11, 2003

[19] M Barsky, U Stege and A Thomo, "A survey of practical algorithms for suffix tree construction in external memory," Software—Practice &

[20] A Moffat and S J Puglisi , "Reducing Space Requirements for Disk Resident Suffix Arrays," Proceedings of the 14th International Conference on

Database Systems for Advanced Applications, pp 730 - 744, 2009

[21] A Turpin and S J Puglisi, "Space-Time Tradeoffs for Longest- Common-Prefix Array Computation," School of Computer Science and Information Technology, RMIT University, Melbourne, Australia

[22] R Sinha, S Puglisi, A Moffat and A Turpin, "Improving suffix array locality for fast pattern matching on disk," Proceedings of the 2008 ACM SIGMOD international conference on Management of data , pp 661-672 , 2008

PHỤ LỤC A BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT

Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt

Time series Data mining Khai phá dữ liệu chuỗi thời gian

Repeateing trend Xu hướng thường xuyên

Suffix tree Cậy hậu tố

Time Series Một chuỗi thời gian

Depth(𝑣) Chiều dài của chuỗi 𝑣

Suffix array Mảng hậu tố

Enhanced suffix array Mảng hậu tố nâng ao

Longest common prefix Tiền tố chung dài nhất

Prefix doubling Nhân đôi tiền tố

Radix Sort Sắp thứ tự cơ số

Counting Sort Sắp thứ tự đếm

Inverse suffix array Mảng hậu tố ngươc

Pathlabel(𝑣) Độ dài chữ ký tự từ nút gốc đến nút 𝑣

Parent(𝑤) Nút cha của nút 𝑤

Maximum pair Cặp chuỗi con tối đa

Maximal repeat Chuỗi con lăp tối đa

Left character Kí tự bên trái

Ngày đăng: 09/09/2024, 05:56

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] P. Indyk , N. Koudas and . S. Muthukrishnan, "Identifying Representative Trends in Massive Time Series Data Sets Using Sketches,"Proceedings of the 26th International Conference on Very Large Data Bases, pp. 363-372, 2000 Sách, tạp chí
Tiêu đề: Identifying Representative Trends in Massive Time Series Data Sets Using Sketches
[2] Y. Qu, C. Wang and X. S. Wang, "Supporting fast search in time series for movement patterns in multiple scales," Proceedings of the seventh International Conference on Information and Knowledge management, pp.251-258, 1998 Sách, tạp chí
Tiêu đề: Supporting fast search in time series for movement patterns in multiple scales
[3] U. Manber and G. Myers, "Suffix arrays: a new method for on-line string searches," Proceedings of the first annual ACM-SIAM symposium on discrete algorithms, pp. 319-327, 1990 Sách, tạp chí
Tiêu đề: Suffix arrays: a new method for on-line string searches
[4] J. Kọrkkọinen, P. Sanders and S. Burkhardt, "Simple linear work suffix array," Proceedings of the 13th international conference on automata, languages and programming, pp. 943-955, 2003 Sách, tạp chí
Tiêu đề: Simple linear work suffix array
[5] P. Ko and S. Aluru, "Space efficient linear time construction of suffix," Proceedings of the 14th annual symposium on combinatorial pattern, pp. 200- 210, 2003 Sách, tạp chí
Tiêu đề: Space efficient linear time construction of suffix
[6] T. Kasai, . G. Lee, . H. Arimura, . S. Arikawa and K. Park, "Linear- time longest-common-prefix computation in suffix arrays and its applications," in Proceedings of the 12th Annual Symposium on Combinatorial, London, 2001 Sách, tạp chí
Tiêu đề: Linear-time longest-common-prefix computation in suffix arrays and its applications
[9] E. Keogh, S. Chu, D. Hart and M. Pazzani, "An online algorithm for segmenting time series," Proceedings of the IEEE International Conference on Data Mining, California,USA, pp. 289-296, 2001 Sách, tạp chí
Tiêu đề: An online algorithm for segmenting time series
[10] A. Udechukwu, K. Barker and R. Alhajj, "Discovering All Frequent Trends in Time Series," Proceedings of the winter international synposium on Information and Communication Technologies, pp. 1-6, 2004 Sách, tạp chí
Tiêu đề: Discovering All Frequent Trends in Time Series
[11] J. Lin, E. Keogh, P. Patel and S. Lonardi, "Mining motifs in massive time series databases," Proceedings of the 2002 IEEE International Conference on Data Mining , p. 370 Sách, tạp chí
Tiêu đề: Mining motifs in massive time series databases
[12] B. Chiu, E. Keogh and S. Lonardi, "Probabilistic discovery of time series motifs," Proceedings of the ninth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 493-498, 2003 Sách, tạp chí
Tiêu đề: Probabilistic discovery of time series motifs
[13] E. Keogh and M. Pazzani, "An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback," Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York,NY, pp. 239-241, 27-31 Aug 1998 Sách, tạp chí
Tiêu đề: An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback
[14] G. Roberto and G. F. Italiano, "Suffix trees and their applications in string algorithms," Proceedings of the 1st South American Workshop on String Processing, pp. 57-76, 1993 Sách, tạp chí
Tiêu đề: Suffix trees and their applications in string algorithms
[15] A. T. Dương, "An overview of similarity search in time series data," Tạp chí phát triển khoa học và Công nghệ - Đại học Quốc Gia, vol. 14, no.k2, pp. 71-79, 2011 Sách, tạp chí
Tiêu đề: An overview of similarity search in time series data
[17] R. S. Kosaraju, "Real-time pattern matching and quasi-real-time," Proceedings of the 26th annual ACM symposium on theory of computing, pp.310-316, 1994 Sách, tạp chí
Tiêu đề: Real-time pattern matching and quasi-real-time
[18] J. Lin, E. Keogh, S. Lonardi and B. Chiu, "A Symbolic Representation of Time Series, with Implications for Streaming Algorithms," Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pp. 2-11, 2003 Sách, tạp chí
Tiêu đề: A Symbolic Representation of Time Series, with Implications for Streaming Algorithms
[19] M. Barsky, U. Stege and A. Thomo, "A survey of practical algorithms for suffix tree construction in external memory," Software—Practice &amp;Experience, vol. 40, pp. 965-988, 2010 Sách, tạp chí
Tiêu đề: A survey of practical algorithms for suffix tree construction in external memory
[20] A. Moffat and S. J. Puglisi , "Reducing Space Requirements for Disk Resident Suffix Arrays," Proceedings of the 14th International Conference on Database Systems for Advanced Applications, pp. 730 - 744, 2009 Sách, tạp chí
Tiêu đề: Reducing Space Requirements for Disk Resident Suffix Arrays
[21] A. Turpin and S. J. Puglisi, "Space-Time Tradeoffs for Longest- Common-Prefix Array Computation," School of Computer Science and Information Technology, RMIT University, Melbourne, Australia Sách, tạp chí
Tiêu đề: Space-Time Tradeoffs for Longest-Common-Prefix Array Computation
[22] R. Sinha, S. Puglisi, A. Moffat and A. Turpin, "Improving suffix array locality for fast pattern matching on disk," Proceedings of the 2008 ACM SIGMOD international conference on Management of data , pp. 661-672 , 2008 Sách, tạp chí
Tiêu đề: Improving suffix array locality for fast pattern matching on disk

HÌNH ẢNH LIÊN QUAN

Hình 1-1 Dữ liệu về giá vàng từ năm 2009 đến 2013 - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 1 1 Dữ liệu về giá vàng từ năm 2009 đến 2013 (Trang 19)
Hình 2-7 Mảng hậu tố nâng cao của chuỗi S = acaaacatat$ - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 7 Mảng hậu tố nâng cao của chuỗi S = acaaacatat$ (Trang 32)
Hình 2-15. Cây hậu tố đầy đủ của chuỗi S - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 15. Cây hậu tố đầy đủ của chuỗi S (Trang 37)
Hình 2-18. S = xbxacxfs - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 18. S = xbxacxfs (Trang 39)
Hình 2-20 Một chuỗi thời gian được biến đổi PAA rồi mã hóa thành các ký hiệu SAX. - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 20 Một chuỗi thời gian được biến đổi PAA rồi mã hóa thành các ký hiệu SAX (Trang 42)
Hình 2-21 Dữ liệu ECG (điện tâm đồ) - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 21 Dữ liệu ECG (điện tâm đồ) (Trang 43)
Hình 2-22 Dữ liệu ECG sau khi làm nhẵn. - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 2 22 Dữ liệu ECG sau khi làm nhẵn (Trang 44)
Hình 3-7. Mã hóa dữ liệu chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 3 7. Mã hóa dữ liệu chuỗi thời gian (Trang 53)
Hình 3-10. Dữ liệu chuỗi thời gian - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 3 10. Dữ liệu chuỗi thời gian (Trang 55)
Hình 4-1 Dữ liệu sau khi làm nhẵn. - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 4 1 Dữ liệu sau khi làm nhẵn (Trang 60)
Hình 5-3 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 3 Sau khi thực hiện mảng hậu tố nâng cao (Trang 72)
Hình 5-7 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 7 Sau khi thực hiện mảng hậu tố nâng cao (Trang 75)
Hình 5-8 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 8 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA (Trang 75)
Hình 5-11 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 11 Sau khi thực hiện mảng hậu tố nâng cao (Trang 78)
Hình 5-12 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 12 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA (Trang 78)
Hình 5-14 Dữ liệu power_data sau khi làm nhẵn - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 14 Dữ liệu power_data sau khi làm nhẵn (Trang 81)
Hình 5-15 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 15 Sau khi thực hiện mảng hậu tố nâng cao (Trang 81)
Hình 5-24 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 24 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PLA (Trang 88)
Hình 5-33 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 33 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA (Trang 96)
Hình 5-35 Dữ liệu Memory với kích thước 6873 điểm - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 35 Dữ liệu Memory với kích thước 6873 điểm (Trang 98)
Hình 5-37 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 37 Sau khi thực hiện mảng hậu tố nâng cao (Trang 99)
Hình 5-38 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 38 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA (Trang 99)
Hình 5-41 Dữ liệu power_data sau khi xấp xỉ gộp từng đoạn - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 41 Dữ liệu power_data sau khi xấp xỉ gộp từng đoạn (Trang 102)
Hình 5-42 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 42 Sau khi thực hiện mảng hậu tố nâng cao (Trang 102)
Hình 5-43 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 43 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA (Trang 103)
Hình 5-44 Sau khi thực hiện với phương pháp brute force - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 44 Sau khi thực hiện với phương pháp brute force (Trang 103)
Hình 5-47 Sau khi thực hiện mảng hậu tố nâng cao - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 47 Sau khi thực hiện mảng hậu tố nâng cao (Trang 106)
Hình 5-48 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 48 Sau khi thực hiện mảng hậu tố nâng cao với phương pháp PAA (Trang 106)
Hình 5-50 Dữ liệu eeg với kích thước 2477 điểm  Bảng 5-26 Các thông số của bộ dữ liệu eeg 2477 điểm - Luận văn thạc sĩ Khoa học máy tính: Phát hiện tất cả các xu hướng thường xuyên trong dữ liệu chuỗi thời gian
Hình 5 50 Dữ liệu eeg với kích thước 2477 điểm Bảng 5-26 Các thông số của bộ dữ liệu eeg 2477 điểm (Trang 109)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN