Để đánh giá độ chính xác phân lớp của giải thuật, chúng ta có một số phương pháp thông dụng dựa trên sự phân vùng ngẫu nhiên trên tập dữ liệu mẫu như: tập ngẫu nhiên (random subsampling), kiểm tra chéo (cross-validation), bẫy dữ liệu
(bootstrap), … Trong luận văn này chúng tôi dùng phương pháp kiểm tra chéo.
Trong phương pháp kiểm tra chéo, tập dữ liệu mẫu ban đầu được chia ra làm k tập
con D1, D2,…, Dk có kích thước bằng nhau, quá trình huấn luyện và kiểm tra được thực
hiện trong k lần, tại lần lặp thứ i, tập con Di sẽ được dùng làm tập kiểm tra, các tập con còn lại sẽ được dùng làm tập huấn luyện. Như vậy, mỗi mẫu trong tập dữ liệu sẽ được dùng để huấn luyện cùng một số lần như nhau và được dùng một lần để kiểm tra. Độ chính xác phân lớp được tính bằng tổng số mẫu được phân lớp chính xác trong
k lần lặp chia cho tổng số mẫu trong tập dữ liệu ban đầu.
4.2.5.1. Tập dữ liệu TwoPat
Dựa vào phương pháp kiểm tra chéo, chúng ta thực hiện đánh giá phương pháp phân lớp chuỗi dữ liệu thời gian có sử dụng thông tin motif trên tập dữ liệu TwoPat. Tập dữ liệu có 5000 mẫu đã được phân lớp sẵn, chúng tôi chia làm 5 tập con riêng biệt: mỗi tập gồm 1000 mẫu, được đặt tên theo thứ tự D1, D2,…, D5. Kết quả số mẫu phân lớp chính xác sau khi thực hiện 5 lần, mỗi lần dùng một tập con để kiểm tra được thể hiện trong Bảng 4-4.
Subset Without Motif With Motif D1 987 974 D2 991 950 D3 972 972 D4 989 961 D5 976 948
Bảng 4-4 Số lượng mẫu phân lớp chính xác trên tập dữ liệu TwoPat
Bảng 4-5 thể hiện chất lượng phân lớp giữa hai giải thuật phân lớp có sử dụng thông tin motif và không sử dụng thông tin motif
Without Motif With Motif
98,30 % 96,10 %
Bảng 4-5 Độ chính xác phân lớp của giải thuật phân lớp có sử dụng thông tin motif và không sử dụng thông tin motif trên tập dữ liệu TwoPat
Hình 4-10 thể hiện kết quả số mẫu phân lớp của hai giải thuật có sử dụng thông tin motif so với giải thuật không sử dụng thông tin motif.
Dựa vào kết quả Bảng 4-4 và Hình 4-10 ta thấy độ chính xác phân lớp của giải thuật phân lớp có thời gian thực thi tuỳ chọn sử dụng thông tin motif có độ chính xác thấp hơn giải thuật phân lớp có thời gian thực thi tuỳ chọn không sử dụng thông tin motif, tuy nhiên sự khác biệt này không đáng kể và ta có thể xem là cả hai giải thuật có độ chính xác tương đương nhau.
Hình 4-10 kết quả số mẫu phân lớp trên tập dữ liệu TwoPat
4.2.5.2. Tập dữ liệu Clustered
Tập dữ liệu có 1000 mẫu, chúng tôi chia làm 5 tập con riêng biệt: mỗi tập gồm 200 mẫu, được đặt tên theo thứ tự D1, D2,…, D5. Kết quả số mẫu phân lớp chính xác sau khi thực hiện 5 lần, mỗi lần dùng một tập con để kiểm tra được thể hiện trong Bảng 4-6.
Subset Without Motif With Motif
D1 199 186
D2 199 196
D3 195 184
D4 191 189
D5 194 191
Bảng 4-7 thể hiện chất lượng phân lớp giữa hai giải thuật phân lớp có sử dụng thông tin motif và không sử dụng thông tin motif trên tập Clustered
Without Motif With Motif
97,80 % 94,60 %
Bảng 4-7 Độ chính xác phân lớp của giải thuật phân lớp có sử dụng thông tin motif và không sử dụng thông tin motif trên tập dữ liệu Clustered
Hình 4-11 thể hiện kết quả số mẫu phân lớp của hai giải thuật có sử dụng thông tin motif so với giải thuật không sử dụng thông tin motif.
Dựa vào kết quả Bảng 4-6 và Hình 4-11 ta thấy độ chính xác phân lớp của giải thuật phân lớp có thời gian thực thi tuỳ chọn sử dụng thông tin motif có độ chính xác thấp hơn giải thuật phân lớp có thời gian thực thi tuỳ chọn không sử dụng thông tin motif, tuy nhiên sự khác biệt này không đáng kể và ta có thể xem là cả hai giải thuật có độ chính xác tương đương nhau.
CHƯƠNG 5: KẾT LUẬN 5.1. Tổng kết
Đề tài này đã trình bày giải thuật phân lớp có thời gian thực thi tùy chọn cho dữ liệu chuỗi thời gian. Đề tài đã giải quyết được các vấn đề cơ bản là xây dựng dựng được giải thuật phân lớp có thời gian thực thi tùy chọn, sử dụng khoảng cách DTW trong việc tính khoảng cách giữa các chuỗi, kết hợp giải thuật tìm kiếm motif dựa vào điểm cực trị quan trọng để cải thiện thời gian tính toán trong giai đoạn huấn luyện. Việc tính DTW có áp dụng chặn dưới để rút ngắn thời gian xử lý.
Thứ nhất, đề tài đã trình bày giải thuật phân lớp có thời gian thực thi tùy chọn. Giải thuật này có hai giai đoạn: Giai đoạn huấn luyện và giai đoạn phân lớp. Trong giai đoạn huấn luyện, giải thuật thực hiện việc sắp xếp tập huấn luyện dựa trên chiến lược sắp xếp đơn giản (Simple Rank). Giai đoạn phân lớp thực hiện việc so sánh khoảng cách giữa chuỗi mục tiêu và các chuỗi trong tập huấn luyện. Thứ tự so sánh là thứ tự đã được sắp xếp ở giai đoạn huấn luyện.
Thứ hai, đề tài đã trình bày hai độ đo khoảng cách thông dụng trong lĩnh vực dữ liệu chuỗi thời gian là khoảng cách Euclid và khoảng cách DTW. Dựa trên những đặc điểm của hai độ đo khoảng cách và các phân tích đánh giá của các công trình nghiên cứu gần đây, đề tài đã sử dụng độ đo khoảng cách DTW. Việc tính khoảng cách DTW có chi phí rất lớn, nên đề đề tài đã sử dụng kỹ thuật tính chặn dưới LowerBound Keogh cho DTW nhằm rút ngắn thời gian xử lý.
Cuối cùng, đề tài trình bày giải thuật tìm kiếm motif dựa vào điểm cực trị quan trọng. Dựa vào thông tin motif tìm được của các thể hiện chuỗi thời gian trong tập huấn luyện, đề tài xây dựng giải thuật huấn luyện trên thông tin motif tìm được để cải thiện thời gian huấn luyện.
5.2. Những đóng góp của đề tài
Hiện thực chi tiết hóa giải thuật phân lớp có thời gian thực thi tùy chọn cho dữ liệu chuỗi thời gian. Giải thuật này có ưu điểm thời gian thực thi của giải thuật do người dùng quyết định. Nếu thời gian thực thi càng lâu, độ chính xác của việc phân lớp càng cao.
Cải tiến giai đoạn huấn luyện của giải thuật phân lớp có thời gian thực thi tuỳ chọn bằng cách sử dụng thông tin motif tìm được trên các thể hiện chuỗi thời gian trong tập huấn luyện thay vì sử dụng chuỗi thời gian gốc ban đầu, qua đó cải thiện đáng kể thời gian huấn luyện mà không làm giảm độ chuẩn xác của giải thuật.
Cải tiến giải thuật phân lớp có thời gian thực thi tùy chọn bằng cách áp dụng kỹ
thuật tính chặn dưới LowerBound Keogh cho khoảng cách DTW để rút ngắn thời gian
xử lý. Kỹ thuật tính chặn dưới này được áp dụng vào cả hai giai đoạn huấn luyện và phân lớp.
Thực nghiệm để so sánh, đánh giá ưu điểm và nhược điểm của giải thuật phân lớp dữ liệu chuỗi thời gian có thực thi tuỳ chọn cải tiến sử dụng thông tin motif. Dựa trên kết quả thực nghiệm, đề tài đã kết luận giải thuật phân lớp dữ liệu chuỗi thời gian có thực thi tuỳ chọn cải tiến sử dụng thông tin motif có thời gian thực hiện nhanh hơn giải thuật gốc ban đầu rất nhiều, và không làm giảm độ chính xác của giải thuật trong quá trình phân lớp.
5.3. Hướng phát triển
Đề tài đã giải quyết được bài toán cải tiến giải thuật phân lớp dữ liệu chuỗi thời gian có thời gian thực thi tùy chọn sử dụng thông tin motif. Tuy nhiên, vẫn còn một số vấn đề khác cần nghiên cứu thêm để hoàn thiện hơn.
- Đề tài này giới hạn lại tập dữ liệu chuỗi thời gian được xử lý phải có chiều
liệu chuỗi thời gian có chiều dài không bằng nhau có cần thiết hay không và nếu cần thiết thì cách giải quyết là như thế nào.
- Các tập dữ liệu chuỗi thời gian được sử dụng để thực nghiệm trong đề tài
này có kích thước nhỏ và chiều dài chuỗi dữ liệu không lớn. Nên cần phải thực nghiệm trên các tập dữ liệu chuỗi thời gian lớn hơn và chiều dài của mỗi chuỗi lớn hơn để đưa ra kết luận về thời gian thực thi và độ chính xác của giải thuật cải tiến.
- Đề tài chỉ mới thực nghiệm trên hai tập dữ liệu mẫu, trong đó tập dữ liệu
TwoPat là tập dữ liệu nhân tạo. Vì vậy, cần phải thực nghiệm trên nhiều loại dữ liệu mẫu hơn nữa, đặc biệt là các tập dữ liệu thu được từ thực tế. Các lĩnh vực cần thực nghiệm thêm có thể là dữ liệu tài chính, y học, thời tiết hoặc nhận dạng hình ảnh.
TÀI LIỆU THAM KHẢO
[1]Lin, J., Keogh, E., Lonardi, S., Patel, P., 2002, “Finding Motif in Time Series”. University of Califonia – Riverside Computer Science & Engineering Department Riverside, CA 93521, USA.
[2]Keogh, E. (2002). “Exact indexing of dynamic time warping”. In 28th International Conference on Very Large Data Bases, (pp. 406-417). Hong Kong.
[3]Keogh, E., Chakrabarti, K., Pazzani, M., & Mehrot, S. (2001). “Locally adaptive dimensionality reduction for indexing large time series databases”. Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, (pp. 151-162).
[4]Ratanamahatana, C. A., & Keogh, E. (2004). “Making Time-series Classification More Accurate Using Learned Constraints”. In Proceedings of SIAM International Conference on Data Mining (SDM '04), (pp. 11-22). Lake Buena Vista, Florida.
[5]Ratanamahatana, C. A., & Keogh, E. (2005). “Three Myths about Dynamic Time Warping”. In Proceedings of SIAM International Conference on Data Mining (SDM '05), (pp. 506-510). Newport Beach, CA.
[6]Sakoe, H., & Chiba, S. (1978). “Dynamic programming algorithm optimization for spoken word recognition”. IEEE Trans. Acoustics, Speech, and Signal Proc., Vol. ASSP-26, (pp. 43-49).
[7]Ueno, K., Xi, X., Keogh, E., & Lee, D.-J. (2006). “Anytime Classification Using the Nearest Neighbor Algorithm with Applications to Stream Mining”. In Proceedings of ICDM 2006.
[8]Itakura, F. (1975). “Minimum prediction residual principle applied to speech recognition”. IEEE Transactions on Acoustics, Speech, and Signal Processing 23, (pp. 67-72).
[9]Geurts, P. (2002). “Contributions to Decision Tree Induction:
Department of Electrical Engineering and Computer Science, University of Leige, Belgium.
[10] Gruber,C., M Coduro, Sick,B., “Signature Verification With
Dynamic RBF Network and Time Seried Motif” , The 10th International Workshop on Frontiers in Hand Writing Recognition 2006. [11] Chiu,B., Keogh, E., S.Lonardi, “Probabilistic Discovery of Time
Series Motifs”, ACM SIGKDD 2003, (pp 493-498).
[12] Pratt, K.B., Fink, E., “Search for pattern in compressed time series”, in International Journal of Image and Graphics, 2002.
[13] Vo Le Quy Nhon, Duong Tuan Anh, “A BIRCH-Based Clustering
Method for Large Time Series Databases”. PAKDD Workshops 2011, (pp. 148-159).
[14] Mueen, A., Keogh, E., Zhu, Q., Westoever,B., 2009 ”Exact
Discovery Of Time Series Motifs”, In the Proceedings of SIAM International Conference on Data Mining, (pp. 473-484).
[15] Le Phu, Duong Tuan Anh, “Motif-Based Method for Initialization
the K-Means Clustering for Time Series Data”, Australasian Conference on Artificial Intelligence 2011 (pp. 11-20)
[16] Huynh Nguyen Tin, 2012 “Finding Motif base on Important
BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH – VIỆT
Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt
Accuracy Độ chính xác
Anytime classification
algorithm Giải thuật phân lớp có thời gian thực thi tùy chọn
Backward Tìm kiếm lùi
Best so far distance Khoảng cách tốt nhất hiện tại
Classification Phân lớp
Cumulative distance Khoảng cách tích lũy
Dynamic programming Quy hoạch động
Dynamic Time Warping Xoắn thời gian động DTW
Envelope Đường bao
Euclidean Distance Khoảng cách Euclid
False dismissal Lỗi so trùng sót
Forward Tìm kiếm tiến
Instance-based learning Học dựa trên mẫu
Itakura Parallelogram Hình bình hành Itakura
Keogh’s Lower Bounding Chặn dưới Keogh LB_Keogh
K-Nearest-Neighbor K-Láng giềng gần nhất k-NN
Lazy learning Học lười
Match Chuỗi con trùng khớp
Non-trivial match Chuỗi con trùng khớp không tầm thường
Rank Thứ hạng
Test set Tập kiểm tra
Training set Tập huấn luyện
Trivial match Chuỗi con trùng khớp tầm thường
Warping path Đường xoắn W