39
Bảng 4.1 Các thành phần chính của giao diện
Thành phần
Mô tả chức năng
1 Nút lệnh đọc dữ liệu từ file .txt.
2 Vùng hiển thị cho chọn các chỉ số để thực thi, của thuật toán Sequitur.
3 Vùng hiển thị cho chọn các chỉ số để thực thi, của thuật toán Hashing.
4 Vùng hiển thị chuỗi thời gian ban đầu của thuật toán Sequitur
5 Vùng hiển thị kết quả của giải thuật Hashing gồm: Thời gian thực thi, đợ hiệu quả, số lần gọi hàm tính khoảng cách Euclid, vị trí motif tìm được (nếu có) của giải thuật.
6 Vùng hiển thị trực quan đường biểu diễn chuỗi thời gian ban đầu.
7 Vùng hiển thị và biểu diễn motif được tìm thấy của thuật tốn Sequitur
8 Vùng hiển thị hình ảnh motif tìm được của giải thuật Hashing.
4.3.1 Thực nghiêm trên bộ dữ liệu freezer.txt
4.3.1.1 Chiều dài chuổi dữ liệu là 10.000 điểm
Tại bước này lần lượt thực hiện so sánh các giải thuật là: giải thuật sequitur ESAX, SAX với giải thuật Hashing, chiều dài motif (gọi tắt là chiều dài) lần lượt là 128 , 256, 512 alphabatsize = 6, breakpoints = 3.
40
Hình 4.3 Sequitur ESAX và Hashing với chiều dài 128
Hình 4.4 Sequitur Sax và Hashing với chiều dài 128
41
Hình 4.6 SAX và Hashing chiều dài 256
42
Hình 4.8 SAX và Hashing chiều dài 512
Bảng 4.2 Kết quả khi thực thi trên dữ liệu 10000 điểm
STT Kích thước Chiều dài Giải thuật Tập Freezer.txt
Thời gian(s) Số lượng Motif
1 10000 128 Sequitur Sax 0.754 22 2 10000 256 0.682 19 3 10000 512 0.284 10 4 10000 128 Sequitur Esax 2.808 37 5 10000 256 2.788 33 6 10000 512 0.683 12 7 10000 128 Hashing 0.2695 21 8 10000 256 0.2969 17 9 10000 512 0.5156 10
Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ
thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài motif, cho thấy thuật tốn Sequitur có thời gian thực thi giảm dần, như thế có thể thấy đợ thích nghi dữ liệu của thuật tốn này là rất tốt. Ngược lại, Hashing lại có xu hướng
43
tăng thời gian khi chiều dài tăng. Tuy nhiên ta có thể thấy hiệu quả của Hashing trên đợ dài của bộ dữ liệu này là khá phù hợp.
4.3.1.2 Chiều dài chuổi dữ liệu là 15.000 điểm
Tại bước này lần lượt thực hiện so sánh các giải thuật là: giải thuật sequitur ESAX, SAX với giải thuật Hashing, chiều dài motif lần lượt là 128 , 256, 512 alphabatsize = 6, breakpoints = 3.
Hình 4.9 SAX và Hashing chiều dài 128
44
Hình 4.11 SAX và Hashing chiều dài 256
45
Hình 4.13 SAX và Hashing chiều dài 512
46
Bảng 4.3 Kết quả khi thực thi trên dữ liệu 10000 điểm
STT Kích thước chiều dài Giải thuật Tập Freezer.txt
Thời gian(s) Số lượng motif
1 15000 128 Sequitur Sax 5.198 49 2 15000 256 0.692 25 3 15000 512 0.695 15 4 15000 128 Sequitur Esax 39.924 151 5 15000 256 2.786 100 6 15000 512 2.755 89 7 15000 128 Hashing 0.4844 53 8 15000 256 0.499 23 9 15000 512 0.7656 19
Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ
thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại Hashing lại có xu hướng biến đợng thời gian khi chiều dài tăng. Tuy nhiên ta có thể thấy thuật tốn Sequitur thích nghi dữ liệu tốt hơn Hashing do những lần tăng chiều dài motif, thời gian thực thi có xu hướng giảm.
4.3.2 Thực nghiêm trên bộ dữ liệu HumanY
4.3.2.1 Chiều dài chuổi dữ liệu là 10.000 điểm
Trên bộ dữ liệu thứ hai này, vẫn giữ nguyên và thay đổi các thông số tương tự như bộ đầu tiên và thực thi trên chuỗi dữ liệu 10.000 điểm.
Các thông số sẽ lần lượt là: sequitur SAX và ESAX với giải thuật Hashing, chiều dài lần lượt là 128, 256, 512 alphabatsize = 6, breakpoints = 3.
47
Hình 4.15 SAX và Hashing chiều dài 128
48
Hình 4.17 SAX và Hashing chiều dài 256
49
Hình 4.19 SAX và Hashing chiều dài 512
50
Bảng 4.4 Kết quả khi thực thi trên dữ liệu 10000 điểm
STT Kích thước Chiều dài Giải thuật
Tập HumanY.txt
Thời gian(s) Số lượng motif
1 10000 128 Sequitur Sax 1.1 34 2 10000 256 0.965 33 3 10000 512 0.983 25 4 10000 128 Sequitur Esax 9.424 100 5 10000 256 9.487 101 6 10000 512 9.407 80 7 10000 128 Hashing 0.2188 36 8 10000 256 0.2969 34 9 10000 512 0.4844 28
Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài thì cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại Hashing lại có xu hướng tăng thời gian khi chiều dài tăng.
Ngoài ra sự khác biệt rõ ràng của thuật toán Sequitur khi áp dụng phương pháp rời rạc khác nhau. Cũng cho ra kết quả chạy khác nhau và cho thấy được giải thuật áp dụng phương pháp rời rạc SAX tối ưu được thời gian hơn. Có thể thấy đợ thích nghi dữ liệu của Sequitur là tốt hơn Hashing.
4.3.2.2 Chiều dài chuổi dữ liệu là 15.000 điểm
Lần thứ hai này sẽ thực thi trên chuỗi dữ liệu 15.000 điểm. Các thông số sẽ lần lượt là: sequitur SAX và ESAX với giải thuật Hashing, chiều dài lần lượt là 128, 256, 512 alphabatsize = 6, breakpoints = 3.
51
Hình 4.21 SAX và Hashing chiều dài 128
52
Hình 4.23 SAX và Hashing chiều dài 256
53
Hình 4.25 SAX và Hashing chiều dài 512
54
Bảng 4.4 Kết quả khi thực thi trên dữ liệu 15000 điểm
STT Kích thước Chiều dài Giải thuật
Tập HumanY.txt
Thời gian(s) Số lượng motif
1 15000 128 Sequitur Sax 0.727 55 2 15000 256 0.681 47 3 15000 512 0.685 41 4 15000 128 Sequitur Esax 0.747 139 5 15000 256 0.75 99 6 15000 512 0.748 75 7 15000 128 Hashing 0.4219 54 8 15000 256 0.5 48 9 15000 512 0.7812 38
Nhận xét: qua những lần thử nghiệm trên dữ liệu với các chỉ số không thay đổi, chỉ thay đổi chiều dài. Cho ra kết quả có thể nhận thấy rõ rằng, thời gian thực thi của thuật toán Hashing nhanh hơn Sequitur. Qua những lần tăng thêm chiều dài thì cho thấy thuật tốn Sequitur có thời gian giảm dần, Ngược lại hashing lại có xu hướng tăng thời gian khi chiều dài tăng.
Ngoài ra sự khác biệt rõ ràng của thuật toán Sequitur khi áp dụng phương pháp rời rạc khác nhau. Cũng cho ra kết quả chạy khác nhau và cho thấy được giải thuật áp dụng phương pháp rời rạc SAX cho ra kết quả nhanh hơn.
Nhận xét tổng quan:
Qua cả hai lần thực nghiệm trên hai bộ dữ liệu, kết quả đạt được, luận văn đưa ra được một số nhận xét như sau:
- Thuật tốn có thời gian thực thi nhanh nhất là Hashing. Đặc biệt chi tiêt hơn, trên thuật toán này, áp dụng giải thuật Hashing mở rợng có thời gian cho ra kết quả nhanh hơn thuật tốn Sequitur. Ngay luận điểm này, tơi nhận thấy rằng nó rất phù hợp và có thể xem đây là một kiểm chứng cho thuật toán này. Kết quả tôi nhận được trùng khớp với nghiên cứu trước đó [12].
55
- Về độ phù hợp với dữ liệu có đợ dài lớn, thuật toán Sequitur phù hợp hơn Hashing. Vì thực nghiệm cho thấy đợ thích nghi dữ liệu của Sequitur là tốt hơn. Nguyên do, có thể thấy rõ trên kết quả rằng, khi đợ dài càng dài thì thời gian cũng càng ngắn. Tuy nhiên, khi xét về mặt thời gian trên các bộ dữ liệu này, thì đợ hiệu quả của Hashing lại đạt được hiệu quả rất tốt.
- Đối với chất lượng motif tìm được, thơng qua các hình dạng trực quan thì có thể thấy chất lượng motif là tương đối chính xác vì nó đã được thực nghiệm, kiểm chứng như những cơng trình nghiên cứu trước đó [9, 12].
56
KẾT LUẬN
Luận văn đã trình bày được tổng quan về tìm kiếm motif trên chuỗi dữ liệu thời gian: sử dụng giải thuật Sequitur và Hashing đã mở rợng. Trong đó luận văn tập trung vào việc sử dụng giải thuật tìm kiếm xấp xỉ Sequitur và Hashing để tìm kiếm tất cả motif trên một số bộ dữ liệu chuỗi thời gian.
Luận văn cũng trình bày các lý thuyết về dữ liệu chuỗi thời gian và đã áp dụng những cơ sở nghiên cứu lý thuyết trên dữ liệu chuỗi thời gian thu giảm.
Luận văn cũng đã so sánh thời gian và hiệu quả với hai thuật tốn tìm kiếm tất cả motif trên một số chuỗi dữ liệu thời gian khác nhau.
Những đóng góp của luận văn
X́t phát từ giải thuật Hashing tìm kiếm được mợt motif với mợt chiều dài cố định của motif trên dữ liệu chuỗi thời gian, luận văn đã mở rộng phương pháp để tìm kiếm motif với tất cả chiều dài của motif thay đổi. Tuy nhiên giải thuật này chưa thể thích nghi với dữ liệu có kích thước lớn.
Luận văn này cũng đã hiện thực được 2 giải thuật tìm kiếm tất cả motif, sau khi so sánh các kết quả đạt được, đề xuất sử dụng giải thuật Sequitur cho những bộ dữ liệu có kích thước lớn.
Hướng phát triển của đề tài:
Tìm kiếm tất cả motif trên ch̃i dữ liệu thời gian có đợ lớn hàng triệu điểm.
Ứng dụng vấn đề tìm kiếm phát hiện motif vào các lĩnh vực khác trong đời sống xã hội.
57
TÀI LIỆU THAM KHẢO
[1] A. Mueen and N. Chavoshi. “Enumeration of time series motifs of all lengths,” Knowledge and Information Systems. Vol. 45, no. 01, pp. 105–132,
Oct. 2015.
[2] M. Kontaki et al. “Similarity search in time series database,” Data Engineering Lab, Department of Informatics, Aristotle University, Greece, 2005.
[3] Yi Lin et al. “Motif and Anomaly Discovery of Time Series Based on
Subseries Join,” Proceedings of the International MultiConference of Engineers
and Computer Scientists 2010, Hong Kong, 2010, pp. 481-486.
[4] E. Keogh et al. “Dimensionality Reduction for Fast Similarity Search in
Large Time Series Databases,” Knowledge and Information System, Vol.3, no.
3, pp. 263-286, Aug. 2001.
[5] J. Lin et al. “Finding Motifs in Time Series,” Proceedings of 2thWorkshop on Temporal Data Mining, The 8th ACM SIGKDD International Conference on
Knowledge Discovery and Data Mining, 2002.
[6] E. Keogh et al. “Dimensionality reduction for fast similarity search in large time series databases,” Journal of Knowledge and Information Systems. Vol. 3, no. 3, pp. 263-286, 2001.
[7] M. Tompa and J. Buhler. “Finding Motifs Using Random Projections,” present at Proceedings of 5th Int’1 Conference on Computational Biology - RECOMB’01, Montreal, Canada, 2001, pp. 67-74.
[8] A.Mueen et al. “Exact Discovery of Time Series Motifs,” present at
Proceedings of the 2009 SIAM International Conference on Data Mining (SDM09), 2009, pp. 473-484.
[9] Nguyễn Đương Thời. “Nhận dạng motif trên dữ liệu chuỗi thời gian dựa vào kỹ thuật băm,” Luận văn thạc sĩ Khoa học máy tính, Đại học Cơng nghiệp, Tp. HCM, 2017.
58
in Time Series" Entropy. [Online]. 21 (6), pp. 566. Available:
https://doi.org/10.3390/e21060566.
[11] Jessica Lin et al. “A symbolic representation of time series, with
implications for streaming algorithms,” present at Proceedings of the 8th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery (DMKD '03). Association for Computing Machinery, New York, NY, USA, 2–
11, 2003.
[12] Nguyễn Ngọc Phiên. “Phát hiện motif trên dữ liệu chuỗi thời gian dựa vào giải thuật sequitur,” luận văn thạc sĩ Khoa học máy tính, Đại học Bách khoa Thành phố Hồ Chí Minh, 2017.
[13] P. Patel et al. "Mining motifs in massive time series databases," present at The 2002 IEEE International Conference on Data Mining, 2002. Proceedings,
2002, pp. 370-377.
[14] N. Cherniavsky and R. Ladner. “Grammar-based Compression of DNA Sequences,” UW CSE Technical Report, 2007.
[15] E. Keogh and S. Kasetty. “On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration.” present at The Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. July 23 - 26, 2002. Edmonton, Alberta, Canada,
pp. 102-111.
59
LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN I. LÝ LỊCH SƠ LƯỢC:
Họ và tên: Nguyễn Minh Tú .................................. Giới tính: Nam............................. Ngày, tháng, năm sinh: 30/09/1988 ....................... Nơi sinh: Kiên Giang .................. Email: tunm.ttgdtxct@kiengiang.edu.vn ................ Điện thoại: 0948833336 ..............
II. QUÁ TRÌNH ĐÀO TẠO:
Từ năm 2006 đến 2010: Học đại học tại Khoa Công nghệ Thông - trường đại học Cửu Long
Từ năm 2017 đến 2021: Học cao học tại Khoa Công nghệ Thông tin – Trường đại học Cơng nghiệp thành phố Hồ Chí Minh.
III. Q TRÌNH CƠNG TÁC CHUN MƠN:
Thời gian Nơi cơng tác Công việc đảm nhiệm
2010-2014 Công ty cổ phần viễn thông FPT miền nam Chi nhánh Kiên Giang
Nhân viên kinh doanh
2014-2021 Trung tâm GDNN-GDTX Huyện Châu Thành Kiên Giang
Giáo viên dạy tin học
Tp. HCM, ngày tháng năm 2021
Người khai