1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện motif trên chuỗi thời gian dựa vào cấu trúc chỉ mục đa chiều và ý tưởng từ bỏ sớm việc tính khoảng cách euclid

22 1,1K 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 2,8 MB

Nội dung

Hình 3.1 Các kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật toán trên tập dữ liệu Stock với chiều dài motif khác nhau và kích thước tập dữ liệu được chọn cố định

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÀNH PHỐ HỒ CHÍ MINH

CÔNG TRÌNH NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG

PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ

Ý TƯỞNG TỪ BỎ SỚM

MÃ SỐ: T2014-20TĐ

S 0 9

S KC 0 0 4 7 8 9

Trang 2

ĐỀ TÀI KH&CN CẤP TRƯỜNG TRỌNG ĐIỂM

Chủ nhiệm đề tài: Nguyễn Thành Sơn

PHÁT HIỆN MOTIF TRÊN CHUỖI THỜI GIAN DỰA VÀO CẤU TRÚC CHỈ MỤC ĐA CHIỀU VÀ

Ý TƯỞNG TỪ BỎ SỚM

Mã số: T2014-20TĐ

TP HCM, 12/2014

Trang 3

MỤC LỤC

DANH MỤC CÁC HÌNH ẢNH 1

DANH MỤC CÁC TỪ VIẾT TẮT 3

PHẦN MỞ ĐẦU 7

PHẦN NỘI DUNG 10

CHƯƠNG 1.Các kiến thức cơ sở 10

1.1 Tổng quan về đề tài 10

1.2 Các công trình liên quan 12

1.2.1Các độ đo tương tự 12

 Độ đo Minkowski 13

 Độ đo xoắn thời gian động 14

1.2.2Thu giảm số chiều chuỗi thời gian 15

 Điều kiện chặn dưới 16

1.2.3Các phương pháp thu giảm số chiều dựa vào rút trích đặc trưng 16

1.3 Rời rạc hóa chuỗi thời gian 22

1.4 Cấu trúc chỉ mục R-tree 23

1.5 Phát hiện motif trên dữ liệu chuỗi thời gian 24

1.5.1Các khái niệm cơ bản về motif 24

1.5.2Tổng quan về một số phương pháp phát hiện motif tiêu biểu 28

CHƯƠNG 2.Phương pháp đề xuất 35

2.1 Độ đo khoảng cách 35

2.2 Kỹ thuật từ bỏ sớm 38

2.3 Mô tả giải thuật 38

CHƯƠNG 3.Kết quả thực nghiệm 41

CHƯƠNG 4.Kết luận và hướng phát triển 45

 Đóng góp của đề tài 45

 Hạn chế của đề tài 45

 Hướng phát triển 45

TÀI LIỆU THAM KHẢO 46

Trang 4

DANH MỤC CÁC HÌNH ẢNH

Hình 1.1 Đường biểu diễn một chuỗi thời gian 10

Hình 1.2 Ví dụ về motif là chuỗi con xuất hiện ba lần trong chuỗi thời gian dài hơn 11 Hình 1.3 Minh họa hai chuỗi thời gian giống nhau 13

Hình 1.4 Khoảng cách giữa hai đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian 14

Hình 1.5 Minh họa cách tính khoảng cách theo DTW 15

Hình 1.6 Minh họa phương pháp DFT 17

Hình 1.7 Minh họa phương pháp Haar Wavelet 18

Hình 1.8 Minh họa phương pháp PAA 19

Hình 1.9 Các trường hợp hai đoạn có cùng giá trị trung bình nhưng khoảng cách Euclid khác nhau 19

Hình 1.10 Minh họa quá trình nhận dạng các điểm PIP 21

Hình 1.11 Minh họa kỹ thuật xén dữ liệu một chuỗi thời gian có chiều dài 64 21

Hình 1.12 Minh họa phương pháp SAX với a = 3 23

Hình 1.13 Minh họa R-tree 24

Hình 1.14 Một ví dụ về các chuỗi tương tự tầm thường 25

Hình 1.15 A) Một ví dụ về hai motif có chung một số đối tượng và (B) minh họa hai motif thỏa DISTANCE(Ci, Ck) > 2R 26

Hình 1.16 Giải thuật brute-force dùng phát hiện motif bậc nhất theo định nghĩa căn bản 28

Hình 1.17 Ví dụ minh họa một chuỗi thời gian T và biểu diễn SAX của các chuỗi con của T 30

Hình 1.18 Ví dụ minh họa lần lặp thứ nhất của giải thuật chiếu ngẫu nhiên 30

Hình 1.19 Một ví dụ minh họa ý tưởng sử dụng điểm tham chiếu 32

Hình 2.1 Một ví dụ về cách tính Dregion(s, R) 36

Hình 2.2 Minh họa trực quan ý tưởng của kỹ thuật từ bỏ sớm 38

Hình 2.3 Thuật toán phát hiện những motif bậc k hàng đầu (theo Định nghĩa 1.5) với sự hỗ trợ của R*-tree 39

Hình 2.4 Minh họa thuật toán tính khoảng cách Euclid kết hợp với ý tưởng từ bỏ sớm 40

Trang 5

Hình 3.1 Các kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật

toán trên tập dữ liệu Stock với chiều dài motif khác nhau và kích thước tập

dữ liệu được chọn cố định (10000 chuỗi) 42 Hình 3.2 Các kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật

toán trên tập dữ liệu Stock với kích thước khác nhau và chiều dài motif cố định là 512 43 Hình 3.3 Các kết quả thực nghiệm về thời gian thực hiện và độ hữu hiệu của ba thuật

toán trên các tập dữ liệu khác nhau với kích thước cố định (10000 chuỗi) và chiều dài motif cố định là 512 44

Trang 6

DANH MỤC CÁC TỪ VIẾT TẮT

k-NN k-Nearest Neighbors

MrMotif Multi-resolution Motif

Trang 7

TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

- Tên đề tài: Phát hiện motif trên chuỗi thời gian dựa vào cấu trúc chỉ mục đa chiều

và ý tưởng từ bỏ sớm việc tính khoảng cách Euclid

- Mã số: T2014-20TĐ

- Chủ nhiệm: Nguyễn Thành Sơn

- Cơ quan chủ trì: Trường Đại học SPKT Tp HCM

- Thời gian thực hiện: 6/2013- 10/2014

2 Mục tiêu:

Đề xuất một phương pháp mới cho bài toán phát hiện motif trong chuỗi thời gian

có thể phân tích trực tiếp trên dữ liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời rạc hóa như một số phương pháp phát hiện motif đã được giới thiệu và

phương pháp này đạt hiệu quả về mặt thời gian lẫn không gian lưu trữ

3 Tính mới và sáng tạo:

Phương pháp phát hiện motif dựa vào cấu trúc chỉ mục đa chiều và ý tưởng từ bỏ sớm việc tính khoảng cách Euclid sẽ giúp thực hiện bài toán phát hiện motif đạt hiệu quả về mặt thời gian lẫn không gian lưu trữ Ngoài ra, phương pháp này có thể phân tích trực tiếp trên dữ liệu chuỗi thời gian dạng số mà không cần phải qua giai đoạn rời

rạc hóa dữ liệu

4 Kết quả nghiên cứu:

Đề xuất được một phương pháp mới cho bài toán phát hiện motif trên dữ liệu chuỗi thời gian dựa vào cấu trúc chỉ mục đa chiều và ý tưởng từ bỏ sớm việc tính khoảng cách Euclid

5 Sản phẩm:

Một bài báo đăng trên tạp chí Khoa học Công nghệ, báo cáo và chương trình demo

Trang 8

6 Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:

Có thể áp dụng trong giảng dạy sau đại học về chuyên đề chuỗi thời gian, sử

dụng làm cơ sở cho việc phát triển các ứng dụng trong các lĩnh vực liên quan khác

Trưởng Đơn vị

(ký, họ và tên) Chủ nhiệm đề tài (ký, họ và tên)

Trang 9

INFORMATION ON RESEARCH RESULTS

1 General information:

Project title: Discovering approximate k-motifs in a long time series with the

support of R*-tree and the idea of early abandoning

Code number: T2014-20TĐ

Coordinator: Nguyen Thanh Son

Implementing institution: HCM City University of Technical Education

Duration: from 6/2013 to 10/2014

2 Objective(s):

Propose a new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This method can work directly on numerical time series data but without applying some discretization process and be disk efficient

3 Creativeness and innovativeness:

A new method for discovering time series motif with the support of R*-tree and the idea of early abandoning This approach employs the index structure to speed up the search for matching neighbors of a subsequence and is disk efficient It can work di-rectly on numerical time series data but without applying some discretization process

6 Effects, transfer alternatives of reserach results and applicability:

It can be used to lecture for the major course of time series at postgraduate level or

as a base for developing application softwares in some other relevant areas

Trang 10

PHẦN MỞ ĐẦU

1 Tình hình nghiên cứu trong và ngoài nước

Từ khi được hình thức hóa vào năm 2002, phát hiện motif trong dữ liệu chuỗi thời gian đã và đang được dùng để giải quyết các bài toán trong nhiều lĩnh vực ứng dụng khác nhau ví dụ như dùng motif để kiểm tra chữ ký [14], dùng motif để phát hiện những hình ảnh lặp trong cơ sở dữ liệu hình dạng [42], dùng motif để dự báo giá chứng khoán [18], và cũng được dùng như bước tiền xử lý trong nhiều công việc khai phá dữ liệu cao cấp hơn, ví dụ như gom cụm chuỗi thời gian [33], phân lớp chuỗi thời gian [3]

Hiển nhiên, độ phức tạp của phương pháp phát hiện chính xác motif theo kiểu brute-force là bậc hai theo số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra Vì lý do đó, có nhiều thuật toán phát hiện motif xấp xỉ đã được giới thiệu ([6], [2], [28], [29], [36], [43]) Các

cách tiếp cận này thường có độ phức tạp tính toán là O(n) hay O(nlogn), với n là số

chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra Độ phức tạp của các giải thuật này giảm hơn so với phương pháp tìm kiếm chính xác Tuy nhiên, chúng yêu cầu một số lớn các tham số cần xác định trước

Một số thuật toán phát hiện motif xấp xỉ thường dựa trên các kỹ thuật xử lý chuỗi

ký tự Điều này đã khuyến khích các nhà nghiên cứu tìm kiếm các phương pháp biến đổi khác nhau để chuyển chuỗi thời gian thành chuỗi ký tự, sau đó sử dụng các kỹ thuật xử lý chuỗi đã có để phát hiện motif Trong số các thuật toán đã được đề xuất,

thuật toán thông dụng là phương pháp chiếu ngẫu nhiên do Chiu và các cộng sự giới

thiệu [6] Thuật toán này có thể phát hiện motif trong thời gian tuyến tính Đây là thuật toán được trích dẫn nhiều và là cơ sở cho nhiều cách tiếp cận hiện nay trong việc giải bài toán phát hiện motif trên dữ liệu chuỗi thời gian ([43], [39]) Tuy nhiên, các kỹ thuật xử lý chuỗi ký tự chưa thật sự hữu hiệu khi làm việc trên chuỗi thời gian dạng số

2 Tính cấp thiết của đề tài

Dữ liệu chuỗi thời gian là loại dữ liệu được sử dụng phổ biến trong các lĩnh vực khoa học, công nghệ, y học và thương mại Chẳng hạn, trong y khoa người ta có thể sử

Trang 11

dụng các bài toán về chuỗi thời gian để xây dựng chương trình dò tìm tự động trên điện não đồ của bệnh nhân để phát hiện bệnh, hoặc trong lĩnh vực chứng khoán ta có thể ứng dụng các bài toán về chuỗi thời gian để xây dựng chương trình dự báo xu thế biến động của chứng khoán trong thời gian sắp tới, v.v… Từ khi được hình thức hóa vào năm 2002, bài toán phát hiện motif trên dữ liệu chuỗi thời gian đã nhận được nhiều quan tâm nghiên cứu vì tầm quan trọng của nó trong nhiều ứng dụng của các lĩnh vực khác nhau như dùng motif để kiểm tra chữ ký, dùng motif để phát hiện những hình ảnh lặp trong cơ sở dữ liệu hình dạng, dùng motif để dự báo giá chứng khoán, và cũng được dùng như bước tiền xử lý trong nhiều công việc khai phá dữ liệu cao cấp hơn, ví dụ như gom cụm chuỗi thời gian, phân lớp chuỗi thời gian., …

3 Ý nghĩa lý luận và thực tiễn

3.2 Ý nghĩa thực tiễn

Nghiên cứu này sẽ là nền tảng cho những nghiên cứu tiếp theo về các bài toán khác trong khai phá dữ liệu chuỗi thời gian Ngoài ra, còn có thể áp dụng giảng dạy như một chuyên đề cho sinh viên sau đại học

4 Các đối tượng nghiên cứu

Dữ liệu chuỗi thời gian, motif trên dữ liệu chuỗi thời gian và các kết quả nghiên cứu đã công bố về phát hiện motif trên dữ liệu chuỗi thời gian

5 Phạm vi và các phương pháp nghiên cứu

5.1 Phạm vi nghiên cứu

 Cấu trúc chỉ mục đa chiều sử dụng cho bài toán tìm kiếm tương tự

 Phương pháp tìm kiếm motif trên dữ liệu chuỗi thời gian

Trang 12

5.2 Các phương pháp nghiên cứu

 Tổng kết các kết quả nghiên cứu liên quan trước đây Đánh giá hiệu quả của các phương pháp Thực nghiệm để kiểm tra kết quả

 Nghiên cứu tài liệu, ứng dụng mô hình lý thuyết và chứng minh bằng thực nghiệm

Trang 13

PHẦN NỘI DUNG

CHƯƠNG 1 Các kiến thức cơ sở.

1.1 Tổng quan về đề tài

Một chuỗi thời gian (time series) là một chuỗi các điểm dữ liệu được đo theo

từng khoảng thời gian liền nhau theo một tần suất thời gian thống nhất Hình 1.1 minh họa một ví dụ về chuỗi thời gian biểu diễn tỉ giá chuyển đổi trung bình hàng tháng giữa đô la Úc và đô la Mỹ (đơn vị đô la Úc) từ 7/1969 đến 8/1995

Hình 1.1 Đường biểu diễn một chuỗi thời gian ([16])

Các bài toán thường được nghiên cứu trong khai phá dữ liệu chuỗi thời gian gồm

tìm kiếm tương tự (similarity search), gom cụm (clustering), phân lớp (classification), phát hiện motif (motif discovery), khai phá luật (rule discovery), phát hiện bất thường

(anomaly detection), trực quan hóa (visualization), dự báo (forecast)

Những khó khăn và thách thức khi nghiên cứu về dữ liệu chuỗi thời gian [19]:

- Dữ liệu thường rất lớn Chẳng hạn, trong 1 giờ, dữ liệu điện tâm đồ (ECG) có thể lên đến 1GB

- Phụ thuộc nhiều vào yếu tố chủ quan của người dùng và tập dữ liệu khi đánh giá mức độ tương tự giữa các chuỗi thời gian

- Dữ liệu không đồng nhất: định dạng của dữ liệu khác nhau, tần số lấy mẫu khác nhau Ngoài ra, dữ liệu có thể bị nhiễu, thiếu một vài giá trị hoặc không sạch

Trang 14

Bài toán tìm kiếm tương tự (so trùng) trong cơ sở dữ liệu chuỗi thời gian đã được

nhiều nhà nghiên cứu quan tâm trong những năm qua vì đây là bài toán cơ bản và là

một thành phần nền tảng của nhiều bài toán khác trong khai phá dữ liệu chuỗi thời gian Đây là bài toán khó vì kích thước dữ liệu chuỗi thời gian thường lớn và vì chúng

ta không thể lập chỉ mục dữ liệu chuỗi thời gian một cách dễ dàng như trong hệ thống

cơ sở dữ liệu truyền thống Một vài thí dụ về ứng dụng của tìm kiếm tương tự trên chuỗi thời gian có thể nêu ra như sau:

- Tìm trong quá khứ, những giai đoạn mà số lượng sản phẩm bán được như tháng vừa rồi

- Tìm những sản phẩm có chu kỳ doanh số giống nhau

- Tìm những đoạn nhạc trong một bài hát giống một đoạn nhạc đã có bản quyền

- Tìm những tháng trong quá khứ mà có lượng mưa giống như tháng vừa rồi

- Tìm những năm khô hạn mà mực nước các sông đều ở mức thấp

Motif trong chuỗi thời gian là mẫu xuất hiện với tần suất cao nhất Hình 1.2 minh họa ví dụ về motif là chuỗi con xuất hiện ba lần trong chuỗi thời gian dài hơn

Hình 1.2 Ví dụ về motif là chuỗi con xuất hiện ba lần trong chuỗi thời gian dài hơn ([6])

Từ khi được hình thức hóa vào năm 2002, phát hiện motif trong dữ liệu chuỗi thời gian đã và đang được dùng để giải quyết các bài toán trong nhiều lĩnh vực ứng dụng khác nhau ví dụ như dùng motif để kiểm tra chữ ký [14], dùng motif để phát hiện những hình ảnh lặp trong cơ sở dữ liệu hình dạng [42], dùng motif để dự báo giá chứng khoán [18], và cũng được dùng như bước tiền xử lý trong nhiều công việc khai phá dữ liệu cao cấp hơn, ví dụ như gom cụm chuỗi thời gian [33], phân lớp chuỗi thời gian [3]

Trang 15

Hiển nhiên, độ phức tạp của phương pháp phát hiện chính xác motif theo kiểu brute-force là bậc hai theo số chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra Vì lý do đó, có nhiều thuật toán phát hiện motif xấp xỉ đã được giới thiệu ([6], [2], [28], [29], [36], [43]) Các

cách tiếp cận này thường có độ phức tạp tính toán là O(n) hay O(nlogn), với n là số

chuỗi trong cơ sở dữ liệu chuỗi thời gian hay chiều dài của chuỗi thời gian mà từ đó các chuỗi con được trích ra Độ phức tạp của các giải thuật này giảm hơn so với phương pháp tìm kiếm chính xác Tuy nhiên, chúng yêu cầu một số lớn các tham số cần xác định trước

Một số thuật toán phát hiện motif xấp xỉ thường dựa trên các kỹ thuật xử lý chuỗi

ký tự Điều này đã khuyến khích các nhà nghiên cứu tìm kiếm các phương pháp biến đổi khác nhau để chuyển chuỗi thời gian thành chuỗi ký tự, sau đó sử dụng các kỹ thuật xử lý chuỗi đã có để phát hiện motif Trong số các thuật toán đã được đề xuất,

thuật toán thông dụng là phương pháp chiếu ngẫu nhiên do Chiu và các cộng sự giới

thiệu [6] Thuật toán này có thể phát hiện motif trong thời gian tuyến tính Đây là thuật toán được trích dẫn nhiều và là cơ sở cho nhiều cách tiếp cận hiện nay trong việc giải bài toán phát hiện motif trên dữ liệu chuỗi thời gian ([43], [39]) Tuy nhiên, các kỹ thuật xử lý chuỗi ký tự chưa thật sự hữu hiệu khi làm việc trên chuỗi thời gian dạng số

1.2 Các công trình liên quan

Trong phần này, chúng tôi giới thiệu tóm tắt cơ sở lý thuyết về các độ đo tương

tự, các phương pháp thu giảm số chiều, các cấu trúc chỉ mục thường dùng và các công trình liên quan tới bài toán được nghiên cứu

1.2.1 Các độ đo tương tự

Trong các bài toán về chuỗi thời gian, để so sánh 2 chuỗi người ta sử dụng các

độ đo tương tự Hai đối tượng được xem là giống nhau khi độ đo tương tự giữa chúng bằng 0, được xem là tương tự nếu độ đo tương tự giữa chúng nhỏ hơn một giá trị 

được qui ước trước đó Để có thể tính toán và so sánh, độ đo này được biểu diễn thành các số thực và phải thỏa các tính chất sau:

- D(x,y) = 0 nếu và chỉ nếu x = y

- D(x, y) = D(y, x)

Ngày đăng: 06/09/2016, 19:20

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w