.2 Giao diện chính

Bảng 4.1 Các thành phần chính của giao diện

Thành phần

Mô tả chức năng

1 Nút lệnh đọc dữ liệu từ file .txt.

2 Vùng hiển thị cho chọn các chỉ số để thực thi, của thuật toán Sequitur.

3 Vùng hiển thị cho chọn các chỉ số để thực thi, của thuật toán Hashing.

4 Vùng hiển thị chuỗi thời gian ban đầu của thuật toán Sequitur

5 Vùng hiển thị kết quả của giải thuật Hashing gồm: Thời gian thực thi, đợ hiệu quả, số lần gọi hàm tính khoảng cách Euclid, vị trí motif tìm được (nếu có) của giải thuật.

6 Vùng hiển thị trực quan đường biểu diễn chuỗi thời gian ban đầu.

7 Vùng hiển thị và biểu diễn motif được tìm thấy của thuật tốn Sequitur

8 Vùng hiển thị hình ảnh motif tìm được của giải thuật Hashing.

4.3.1 Thực nghiêm trên bộ dữ liệu freezer.txt

4.3.1.1 Chiều dài chuổi dữ liệu là 10.000 điểm

Tại bước này lần lượt thực hiện so sánh các giải thuật là: giải thuật sequitur ESAX, SAX với giải thuật Hashing, chiều dài motif (gọi tắt là chiều dài) lần lượt là 128 , 256, 512 alphabatsize = 6, breakpoints = 3.

Hình 4.3 Sequitur ESAX và Hashing với chiều dài 128

Hình 4.4 Sequitur Sax và Hashing với chiều dài 128

Hình 4.6 SAX và Hashing chiều dài 256

Hình 4.8 SAX và Hashing chiều dài 512

Bảng 4.2 Kết quả khi thực thi trên dữ liệu 10000 điểm

STT Kích thước Chiều dài Giải thuật Tập Freezer.txt

Thời gian(s) Số lượng Motif

1 10000 128 Sequitur Sax 0.754 22 2 10000 256 0.682 19 3 10000 512 0.284 10 4 10000 128 Sequitur Esax 2.808 37 5 10000 256 2.788 33 6 10000 512 0.683 12 7 10000 128 Hashing 0.2695 21 8 10000 256 0.2969 17 9 10000 512 0.5156 10

Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ

thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài motif, cho thấy thuật tốn Sequitur có thời gian thực thi giảm dần, như thế có thể thấy đợ thích nghi dữ liệu của thuật tốn này là rất tốt. Ngược lại, Hashing lại có xu hướng

tăng thời gian khi chiều dài tăng. Tuy nhiên ta có thể thấy hiệu quả của Hashing trên đợ dài của bộ dữ liệu này là khá phù hợp.

4.3.1.2 Chiều dài chuổi dữ liệu là 15.000 điểm

Tại bước này lần lượt thực hiện so sánh các giải thuật là: giải thuật sequitur ESAX, SAX với giải thuật Hashing, chiều dài motif lần lượt là 128 , 256, 512 alphabatsize = 6, breakpoints = 3.

Hình 4.9 SAX và Hashing chiều dài 128

Hình 4.11 SAX và Hashing chiều dài 256

Hình 4.13 SAX và Hashing chiều dài 512

Bảng 4.3 Kết quả khi thực thi trên dữ liệu 10000 điểm

STT Kích thước chiều dài Giải thuật Tập Freezer.txt

Thời gian(s) Số lượng motif

1 15000 128 Sequitur Sax 5.198 49 2 15000 256 0.692 25 3 15000 512 0.695 15 4 15000 128 Sequitur Esax 39.924 151 5 15000 256 2.786 100 6 15000 512 2.755 89 7 15000 128 Hashing 0.4844 53 8 15000 256 0.499 23 9 15000 512 0.7656 19

Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ

thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại Hashing lại có xu hướng biến đợng thời gian khi chiều dài tăng. Tuy nhiên ta có thể thấy thuật tốn Sequitur thích nghi dữ liệu tốt hơn Hashing do những lần tăng chiều dài motif, thời gian thực thi có xu hướng giảm.

4.3.2 Thực nghiêm trên bộ dữ liệu HumanY

4.3.2.1 Chiều dài chuổi dữ liệu là 10.000 điểm

Trên bộ dữ liệu thứ hai này, vẫn giữ nguyên và thay đổi các thông số tương tự như bộ đầu tiên và thực thi trên chuỗi dữ liệu 10.000 điểm.

Các thông số sẽ lần lượt là: sequitur SAX và ESAX với giải thuật Hashing, chiều dài lần lượt là 128, 256, 512 alphabatsize = 6, breakpoints = 3.

Hình 4.15 SAX và Hashing chiều dài 128

Hình 4.17 SAX và Hashing chiều dài 256

Hình 4.19 SAX và Hashing chiều dài 512

Bảng 4.4 Kết quả khi thực thi trên dữ liệu 10000 điểm

STT Kích thước Chiều dài Giải thuật

Tập HumanY.txt

Thời gian(s) Số lượng motif

1 10000 128 Sequitur Sax 1.1 34 2 10000 256 0.965 33 3 10000 512 0.983 25 4 10000 128 Sequitur Esax 9.424 100 5 10000 256 9.487 101 6 10000 512 9.407 80 7 10000 128 Hashing 0.2188 36 8 10000 256 0.2969 34 9 10000 512 0.4844 28

Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài thì cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại Hashing lại có xu hướng tăng thời gian khi chiều dài tăng.

Ngoài ra sự khác biệt rõ ràng của thuật toán Sequitur khi áp dụng phương pháp rời rạc khác nhau. Cũng cho ra kết quả chạy khác nhau và cho thấy được giải thuật áp dụng phương pháp rời rạc SAX tối ưu được thời gian hơn. Có thể thấy đợ thích nghi dữ liệu của Sequitur là tốt hơn Hashing.

4.3.2.2 Chiều dài chuổi dữ liệu là 15.000 điểm

Lần thứ hai này sẽ thực thi trên chuỗi dữ liệu 15.000 điểm. Các thông số sẽ lần lượt là: sequitur SAX và ESAX với giải thuật Hashing, chiều dài lần lượt là 128, 256, 512 alphabatsize = 6, breakpoints = 3.

Hình 4.21 SAX và Hashing chiều dài 128

Hình 4.23 SAX và Hashing chiều dài 256

Hình 4.25 SAX và Hashing chiều dài 512

Bảng 4.4 Kết quả khi thực thi trên dữ liệu 15000 điểm

STT Kích thước Chiều dài Giải thuật

Tập HumanY.txt

Thời gian(s) Số lượng motif

1 15000 128 Sequitur Sax 0.727 55 2 15000 256 0.681 47 3 15000 512 0.685 41 4 15000 128 Sequitur Esax 0.747 139 5 15000 256 0.75 99 6 15000 512 0.748 75 7 15000 128 Hashing 0.4219 54 8 15000 256 0.5 48 9 15000 512 0.7812 38

Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài thì cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại hashing lại có xu hướng tăng thời gian khi chiều dài tăng.

Nhận xét tổng quan:

Qua cả hai lần thực nghiệm trên hai bộ dữ liệu, kết quả đạt được, luận văn đưa ra được một số nhận xét như sau:

- Thuật tốn có thời gian thực thi nhanh nhất là Hashing. Đặc biệt chi tiêt hơn, trên thuật toán này, áp dụng giải thuật Hashing mở rợng có thời gian cho ra kết quả nhanh hơn thuật tốn Sequitur. Ngay luận điểm này, tơi nhận thấy rằng nó rất phù hợp và có thể xem đây là một kiểm chứng cho thuật toán này. Kết quả tôi nhận được trùng khớp với nghiên cứu trước đó [12].

- Về độ phù hợp với dữ liệu có đợ dài lớn, thuật toán Sequitur phù hợp hơn Hashing. Vì thực nghiệm cho thấy đợ thích nghi dữ liệu của Sequitur là tốt hơn. Nguyên do, có thể thấy rõ trên kết quả rằng, khi đợ dài càng dài thì thời gian cũng càng ngắn. Tuy nhiên, khi xét về mặt thời gian trên các bộ dữ liệu này, thì đợ hiệu quả của Hashing lại đạt được hiệu quả rất tốt.

- Đối với chất lượng motif tìm được, thơng qua các hình dạng trực quan thì có thể thấy chất lượng motif là tương đối chính xác vì nó đã được thực nghiệm, kiểm chứng như những cơng trình nghiên cứu trước đó [9, 12].

KẾT LUẬN

Luận văn đã trình bày được tổng quan về tìm kiếm motif trên chuỗi dữ liệu thời gian: sử dụng giải thuật Sequitur và Hashing đã mở rợng. Trong đó luận văn tập trung vào việc sử dụng giải thuật tìm kiếm xấp xỉ Sequitur và Hashing để tìm kiếm tất cả motif trên một số bộ dữ liệu chuỗi thời gian.

Luận văn cũng trình bày các lý thuyết về dữ liệu chuỗi thời gian và đã áp dụng những cơ sở nghiên cứu lý thuyết trên dữ liệu chuỗi thời gian thu giảm.

Luận văn cũng đã so sánh thời gian và hiệu quả với hai thuật tốn tìm kiếm tất cả motif trên một số chuỗi dữ liệu thời gian khác nhau.

Những đóng góp của luận văn

X́t phát từ giải thuật Hashing tìm kiếm được mợt motif với mợt chiều dài cố định của motif trên dữ liệu chuỗi thời gian, luận văn đã mở rộng phương pháp để tìm kiếm motif với tất cả chiều dài của motif thay đổi. Tuy nhiên giải thuật này chưa thể thích nghi với dữ liệu có kích thước lớn.

Luận văn này cũng đã hiện thực được 2 giải thuật tìm kiếm tất cả motif, sau khi so sánh các kết quả đạt được, đề xuất sử dụng giải thuật Sequitur cho những bộ dữ liệu có kích thước lớn.

Hướng phát triển của đề tài:

Tìm kiếm tất cả motif trên ch̃i dữ liệu thời gian có đợ lớn hàng triệu điểm.

Ứng dụng vấn đề tìm kiếm phát hiện motif vào các lĩnh vực khác trong đời sống xã hội.

TÀI LIỆU THAM KHẢO

[1] A. Mueen and N. Chavoshi. “Enumeration of time series motifs of all lengths,” Knowledge and Information Systems. Vol. 45, no. 01, pp. 105–132,

Oct. 2015.

[2] M. Kontaki et al. “Similarity search in time series database,” Data Engineering Lab, Department of Informatics, Aristotle University, Greece, 2005.

[3] Yi Lin et al. “Motif and Anomaly Discovery of Time Series Based on

Subseries Join,” Proceedings of the International MultiConference of Engineers

and Computer Scientists 2010, Hong Kong, 2010, pp. 481-486.

[4] E. Keogh et al. “Dimensionality Reduction for Fast Similarity Search in

Large Time Series Databases,” Knowledge and Information System, Vol.3, no.

3, pp. 263-286, Aug. 2001.

[5] J. Lin et al. “Finding Motifs in Time Series,” Proceedings of 2thWorkshop on Temporal Data Mining, The 8th ACM SIGKDD International Conference on

Knowledge Discovery and Data Mining, 2002.

[6] E. Keogh et al. “Dimensionality reduction for fast similarity search in large time series databases,” Journal of Knowledge and Information Systems. Vol. 3, no. 3, pp. 263-286, 2001.

[7] M. Tompa and J. Buhler. “Finding Motifs Using Random Projections,” present at Proceedings of 5th Int’1 Conference on Computational Biology - RECOMB’01, Montreal, Canada, 2001, pp. 67-74.

[8] A.Mueen et al. “Exact Discovery of Time Series Motifs,” present at

Proceedings of the 2009 SIAM International Conference on Data Mining (SDM09), 2009, pp. 473-484.

[9] Nguyễn Đương Thời. “Nhận dạng motif trên dữ liệu chuỗi thời gian dựa vào kỹ thuật băm,” Luận văn thạc sĩ Khoa học máy tính, Đại học Cơng nghiệp, Tp. HCM, 2017.

in Time Series" Entropy. [Online]. 21 (6), pp. 566. Available:

https://doi.org/10.3390/e21060566.

[11] Jessica Lin et al. “A symbolic representation of time series, with

implications for streaming algorithms,” present at Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery (DMKD '03). Association for Computing Machinery, New York, NY, USA, 2–

11, 2003.

[12] Nguyễn Ngọc Phiên. “Phát hiện motif trên dữ liệu chuỗi thời gian dựa vào giải thuật sequitur,” luận văn thạc sĩ Khoa học máy tính, Đại học Bách khoa Thành phố Hồ Chí Minh, 2017.

[13] P. Patel et al. "Mining motifs in massive time series databases," present at The 2002 IEEE International Conference on Data Mining, 2002. Proceedings,

2002, pp. 370-377.

[14] N. Cherniavsky and R. Ladner. “Grammar-based Compression of DNA Sequences,” UW CSE Technical Report, 2007.

[15] E. Keogh and S. Kasetty. “On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration.” present at The Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. July 23 - 26, 2002. Edmonton, Alberta, Canada,

pp. 102-111.

LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I. LÝ LỊCH SƠ LƯỢC:

Họ và tên: Nguyễn Minh Tú .................................. Giới tính: Nam............................. Ngày, tháng, năm sinh: 30/09/1988 ....................... Nơi sinh: Kiên Giang .................. Email: tunm.ttgdtxct@kiengiang.edu.vn ................ Điện thoại: 0948833336 ..............

II. QUÁ TRÌNH ĐÀO TẠO:

Từ năm 2006 đến 2010: Học đại học tại Khoa Công nghệ Thông - trường đại học Cửu Long

Từ năm 2017 đến 2021: Học cao học tại Khoa Công nghệ Thông tin – Trường đại học Cơng nghiệp thành phố Hồ Chí Minh.

III. Q TRÌNH CƠNG TÁC CHUN MƠN:

Thời gian Nơi cơng tác Công việc đảm nhiệm

2010-2014 Công ty cổ phần viễn thông FPT miền nam Chi nhánh Kiên Giang

Nhân viên kinh doanh

2014-2021 Trung tâm GDNN-GDTX Huyện Châu Thành Kiên Giang

Giáo viên dạy tin học

Tp. HCM, ngày tháng năm 2021

Người khai

.3 Giải thuật Sequitur [5] trong tìm kiếm motif