Phân lớp bán giám sát dữ liệu chuỗi thời gian

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA VÕ THÀNH VINH PHÂN LỚP BÁN GIÁM SÁT DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 1: TS Võ Đình Bảy (Ghi rõ họ, tên, học hàm, học vị chữ ký) Cán chấm nhận xét 2: TS Phạm Văn Chung (Ghi rõ họ, tên, học hàm, học vị chữ ký) Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 14 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị Hội đồng chấm bảo vệ luận văn thạc sĩ) TS Nguyễn Văn Minh Mẫn (Chủ tịch) TS Huỳnh Tường Nguyên (Thư ký) TS Võ Đình Bảy (Phản biện 1) TS Phạm Văn Chung (Phản biện 2) PGS TS Dương Tuấn Anh (Ủy viên) Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TS Nguyễn Văn Minh Mẫn TRƯỞNG KHOA KH & KT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Võ Thành Vinh MSHV: 12073138 Ngày, tháng, năm sinh: 09/06/1989 Nơi sinh: Tp Hồ Chí Minh Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01 I TÊN ĐỀ TÀI: PHÂN LỚP BÁN GIÁM SÁT DỮ LIỆU CHUỖI THỜI GIAN NHIỆM VỤ LUẬN VĂN: II NGÀY GIAO NHIỆM VỤ: 10/02/2014 III NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014 IV CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS TS Dương Tuấn Anh Tp HCM, ngày … tháng … năm 2014 TRƯỞNG KHOA KH & KT MÁY TÍNH (Họ tên chữ ký) i LỜI CẢM ƠN Tôi xin chân thành cảm ơn PGS TS Dương Tuấn Anh, người Thầy tận tình hướng dẫn tơi suốt q trình từ đại học tới cao học tạo điều kiện tốt để tơi hồn thành luận văn Tơi xin cảm ơn q Thầy Cơ, người tận tình hướng dẫn truyền đạt cho tơi kiến thức q báu suốt q trình học tập Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập, nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà có thành ngày hơm Qua đây, xin chân thành cảm ơn anh chị bạn giúp đỡ, góp ý cho tơi q trình thực luận văn ii TĨM TẮT LUẬN VĂN Trong lĩnh vực khai phá liệu chuỗi thời gian, phân lớp vấn đề quan trọng, thu hút nhiều nghiên cứu thập kỷ vừa qua Tuy nhiên, hầu hết phương pháp phân lớp giả định tập huấn luyện chứa số lượng lớn mẫu gán nhãn Giả định không phù hợp với thực tế, nơi mà số lượng mẫu gán nhãn Trong hồn cảnh này, phân lớp bán giám sát mơ hình thích hợp để giải vấn đề Trong đề tài này, đề nghị hai cải tiến cho phân lớp bán giám sát liệu chuỗi thời gian: kỹ thuật cải tiến cho tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ (Minimum Description Length) đề nghị thêm bước tinh chế (Refinement step) vào mơ hình phân lớp bán giám sát trước đó, giúp cho phân lớp xác Cải tiến thứ áp dụng ánh xạ khơng tuyến tính (nonlinear alignment) cặp điểm hai chuỗi thời gian tính tốn Chiều dài Mơ tả Thu giảm (Reduced Description Length) Cải tiến thứ hai bước hậu xử lý, q trình cố gắng phát mẫu có nhãn sai khoảng biên tập mẫu âm tập mẫu dương, sau phân loại lại mẫu cho Các kết thực nghiệm cho thấy cải tiến đề xuất giúp cho việc xây dựng phân lớp bán giám sát liệu chuỗi thời gian xác phương pháp trước iii ABSTRACT In time series data mining, classification is a crucial problem which has attracted lots of researches in the last decade However, most of the current methods assume that the training set contains a great number of positive/labeled data Such an assumption is unrealistic in the real world where we have a small set of labeled data, in addition to abundant unlabeled data In such circumstances, semi-supervised classification is a suitable paradigm In this work, we propose two novel improvements for semi-supervised classification of time series: an improvement technique for Minimum Description Length-based stopping criterion and a refinement step to make the classifier more accurate Our first improvement applies the non-linear alignment between two time series when we compute Reduced Description Length of one time series exploiting the information from the other The second improvement is a post-processing step that aims to identify the class boundary between positive and negative instances accurately Experimental results show that our two improvements can construct more accurate semi-supervised time series classifiers iv LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 20 tháng 06 năm 2014 Võ Thành Vinh v MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN .ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH MỤC HÌNH ix DANH MỤC BẢNG xii CHƯƠNG GIỚI THIỆU TỔNG QUAN VỀ ĐỀ TÀI 1.1 GIỚI THIỆU ĐỀ TÀI .1 1.1.1 Dữ liệu chuỗi thời gian .1 1.1.2 Bài toán phân lớp liệu chuỗi thời gian 1.1.3 Bài toán phân lớp bán giám sát liệu chuỗi thời gian .4 1.2 MỤC TIÊU VÀ GIỚI HẠN ĐỀ TÀI .4 1.3 CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC 1.4 CẤU TRÚC CỦA LUẬN VĂN .6 CHƯƠNG NHỮNG CƠNG TRÌNH LIÊN QUAN 2.1 NHỮNG CƠNG TRÌNH VỀ ĐỘ ĐO TƯƠNG TỰ 2.1.1 Độ đo Minkowski .9 2.1.2 Phương pháp xoắn thời gian động 10 2.1.3 Phương pháp chuỗi chung dài 12 2.2 NHỮNG CƠNG TRÌNH LIÊN QUAN ĐẾN THU GIẢM SỐ CHIỀU DỮ LIỆU CHUỖI THỜI GIAN 13 vi 2.3 NHỮNG CƠNG TRÌNH LIÊN QUAN ĐẾN BÀI TOÁN GOM CỤM 15 2.3.1 Giải thuật gom cụm K-means 15 2.3.2 Giải thuật gom cụm X-means 16 2.3.3 Gom cụm phân cấp 17 2.4 NHỮNG CƠNG TRÌNH LIÊN QUAN ĐẾN BÀI TỐN PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN 18 2.4.1 Phương pháp phân lớp có giám sát dựa tìm kiếm k-láng giềng-gần .18 2.4.2 Phương pháp phân lớp bán giám sát liệu chuỗi thời gian Wei Keogh 18 2.4.3 Tiêu chuẩn dừng phương pháp phân lớp bán giám sát liệu chuỗi thời gian Wei Keogh .19 2.4.4 Tiêu chuẩn dừng Ratanamahatana Wanichsan cho mơ hình Wei Keogh .19 2.4.5 Phương pháp phân lớp bán giám sát liệu chuỗi thời gian LCLC EnLCLC 20 2.4.6 Phương pháp phân lớp bán giám sát liệu chuỗi thời gian dựa vào gom cụm phân cấp Marussy Buza 20 2.4.7 Tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ Begum cho mô hình Wei Keogh .21 CHƯƠNG CƠ SỞ LÝ THUYẾT 22 3.1 ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG .22 3.2 RÀNG BUỘC ĐƯỜNG XOẮN TRONG ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG 26 3.2.1 Ràng buộc Sakoe-Chiba 27 3.2.2 Ràng buộc hình bình hành Itakura 27 vii 3.3 THU GIẢM SỐ CHIỀU DỮ LIỆU BẰNG PHƯƠNG PHÁP XẤP XỈ GỘP TỪNG ĐOẠN 28 3.4 GIẢI THUẬT GOM CỤM X-MEANS 29 3.4.1 Chỉ số BIC giải thuật X-Means .31 3.4.2 Các phương pháp tăng tốc giải thuật X-means 32 3.5 PHÂN LỚP CÓ GIÁM SÁT DỰA TRÊN TÌM KIẾM K-LÁNG GIỀNGGẦN NHẤT 35 3.6 PHÂN LỚP BÁN GIÁM SÁT DỮ LIỆU CHUỖI THỜI GIAN 37 3.6.1 Sơ lược học bán giám sát .37 3.6.2 Phương pháp phân lớp bán giám sát liệu chuỗi thời gian Wei Keogh 39 3.6.3 Phương pháp phân lớp bán giám sát liệu chuỗi thời gian dựa vào gom cụm phân cấp Marussy Buza 42 3.7 TIÊU CHUẨN DỪNG TRONG PHÂN LỚP BÁN GIÁM SÁT DỮ LIỆU CHUỖI THỜI GIAN THEO MƠ HÌNH CỦA WEI VÀ KEOGH .44 3.7.1 Tiêu chuẩn dừng Wei Keogh 44 3.7.2 Tiêu chuẩn dừng Ratanamahatana Wanichsan .45 3.7.3 Tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ .47 CHƯƠNG PHƯƠNG PHÁP ĐỀ NGHỊ 54 4.1 MƠ HÌNH PHÂN LỚP BÁN GIÁM SÁT .54 4.2 TIÊU CHUẨN DỪNG DỰA TRÊN NGUYÊN LÝ CHIỀU DÀI MÔ TẢ NHỎ NHẤT 55 4.3 QUÁ TRÌNH TINH CHẾ .60 CHƯƠNG THỰC NGHIỆM 63 5.1 MÔI TRƯỜNG THỰC HIỆN 63 76 CHƯƠNG TỔNG KẾT Chương điểm qua tồn cơng việc luận văn bao gồm tổng kết phân lớp bán giám sát liệu chuỗi thời gian, tổng kết phương pháp đề nghị, đóng góp hướng mở rộng đề tài 6.1 TỔNG KẾT Phân lớp vấn đề quan trọng khai phá liệu Tuy nhiên, giới thực, số lượng mẫu liệu gán nhãn trước so với mẫu liệu chưa gán nhãn Do đó, phân lớp bán giám sát phương pháp thích hợp để giải vấn đề Cho đến thời điểm tại, hầu hết cơng trình phân lớp bán giám sát liệu chuỗi thời gian có hai hướng tiếp cận: hướng thứ dựa vào mơ hình Wei Keogh với cải tiến tiêu chuẩn dừng, hướng thứ hai dựa gom cụm Theo hướng thứ nhất, tất cơng trình cố gắng cải tiến tiêu chuẩn dừng mơ hình Wei Keogh như: Tiêu chuẩn dừng dựa thay đổi khoảng cách nhỏ Wei Keogh, Tiêu chuẩn dừng SCC Ratanamahatana Wanichsan, Tiêu chuẩn dừng dựa Nguyên lý Chiều dài Mô tả Nhỏ Begum cộng Tiêu chuẩn dừng ban đầu Wei Keogh khơng xác tiêu chuẩn dừng SCC sinh nhiều mẫu sai Theo chúng tôi, cách tiếp cận phụ thuộc nhiều vào tiêu chuẩn dừng Bên cạnh đó, tiêu chuẩn dừng tính đến thời điểm tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ Begum không hiệu chuỗi thời gian có lệch trục thời gian Theo hướng tiếp cận dựa gom cụm có phương pháp sau: Phương pháp phân lớp bán giám sát liệu chuỗi thời gian LCLC En-LCLC, Phương pháp phân lớp bán giám sát liệu chuỗi thời gian dựa vào gom cụm phân cấp Marussy 77 Buza Phương pháp LCLC dựa vào gom cụm K-means En-LCLC chạy K-means nhiều lần để tìm xác suất đối tượng thuộc cụm Phương pháp LCLC En-LCLC Begum cộng sinh nhiều mẫu âm sai phải thiết lập nhiều thông số đầu vào Phương pháp Marussy Buza dựa việc tìm Cây khung Nhỏ lý thuyết đồ thị cách tiếp cận dựa vào gom cụm Theo chúng tôi, phương pháp Marussy Buza áp dụng tất loại nhãn tập huấn luyện biết trước Nghĩa tập liệu gán nhãn ban đầu phải chứa tất loại nhãn toàn tập huấn luyện Semi-Supervised Time Series Classification Clustering One Nearest Neighbor (1-NN) Wei and Keogh (SIGKDD, 2006) Ratanamahatana and Wanichsan (2008) Nhut, et.al (IJCAI, 2011) Begum, et.al (IRI, 2013) Marussy and Buza (ICAISC, 2013) Nhut, et.al (DASFAA, 2012) Proposed Method Improved MDL-based Stopping Criterion + Refinement step Hình 6.1 Tổng thuật cơng trình phân lớp bán giám sát liệu chuỗi thời gian với phương pháp đề nghị đề tài Từ phân tích nêu trên, chúng tơi đề xuất mơ hình cho phân lớp bán giám sát liệu chuỗi thời gian Mô hình kết hợp mơ hình học bán giám sát Wei Keogh với bước tinh chế chúng tơi đề xuất Trong đó, 78 tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ chúng tơi cải tiến để áp dụng trường hợp chuỗi thời gian có lệch trục thời gian Bước tinh chế trình hậu kiểm, trình cố gắng tìm mẫu có nhãn sai từ phân loại lại cho Hình 6.1 tổng thuật phương pháp cho phân lớp bán giám sát liệu chuỗi thời gian tính đến thời điểm với phương pháp đề xuất Bên cạnh đó, chúng tơi sử dụng giải thuật gom cụm X-means, cải tiến K-means, để tạo phương pháp phân lớp bán giám sát dựa vào gom cụm Xmeans gọi X-means-Classifier X-means-Classifier sử dụng để hỗ trợ cho trình tinh chế nêu Về độ đo tương tự, sử dụng độ đo xoắn thời gian động cho phân lớp bán giám sát kết hợp với ràng buộc Sakoe-Chiba nhằm tăng tốc q trình tính tốn giảm thiểu tính tốn đường xoắn khơng có ý nghĩa độ đo 6.2 NHỮNG ĐÓNG GÓP CỦA ĐỀ TÀI Trong đề tài này, đề nghị số phương pháp cải tiến cho phân lớp bán giám sát liệu chuỗi thời gian  Thứ nhất, đề xuất tiêu chuẩn dừng dựa nguyên lý Chiều dài Mô tả Nhỏ Trong tiêu chuẩn dừng này, việc tìm điểm khơng trùng khớp hai chuỗi thời gian sử dụng ánh xạ khơng tuyến tính cặp điểm hai chuỗi thời gian  Thứ hai, đề xuất trình tinh chế nhằm phát mẫu bị phân loại sai, từ phân loại lại cho đúng, góp phần làm tăng tính xác tập huấn luyện  Thứ ba, cho thấy giải thuật gom cụm X-means áp dụng để hỗ trợ phân lớp bán giám sát liệu chuỗi thời gian  Thứ tư, phương pháp chúng tơi đề xuất có độ xác tương đương với phương pháp SUCCESS Marussy Buza có ưu điểm phương pháp Marussy Buza cần số lượng mẫu 79 dương ban đầu, phương pháp SUCCESS đòi hỏi phải biết tất loại nhãn từ đầu khơng phương pháp khơng xác Những cải tiến góp phần làm cho tập huấn luyện tốt cách rõ rệt, cụ thể độ đo F thực nghiệm tăng cao so với phương pháp trước 6.3 HƯỚNG PHÁT TRIỂN Đề tài có đóng góp đáng kể việc xây dựng phân lớp bán giám sát, tính đến thời điểm tại, phương pháp đề nghị đề tài phương pháp trước tập trung giải toán phân loại hai lớp: âm, dương Bên cạnh đó, liệu áp dụng cho toán liệu ngoại tuyến (offline data) Hướng phát triển đề tài tập trung vào vấn đề sau đây:  Mở rộng phương pháp cho phù hợp với liệu chuỗi thời gian dạng luồng (streaming time series)  Tổng quát hóa phương pháp cho vấn đề phân loại nhiều lớp thực độ đo tương tự khác độ đo Complexity-Invariant Distance [35] 80 DANH MỤC CƠNG TRÌNH KHOA HỌC CƠNG BỐ Vo Thanh Vinh, Duong Tuan Anh Some Novel Improvements for SemiSupervised Classification of Time Series Data In Proceedings of the 6th International Conference on Computational Collective Intelligence Technologies and Applications, ICCCI 2014, Springer-Verlag, 24th-26th September 2014, Seoul, Korea, pp 483 – 493 (to appear) 81 TÀI LIỆU THAM KHẢO [1] Das, G., Gunopulos, D., Mannila, H (1997) Finding similar time series In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD '97, Springer-Verlag, June 24-27, Trondheim, Norway, pp 88-100 [2] Rafiei, D and Mendelzon, A O (1998) Efficient retrieval of similar time sequences using DFT In Proceedings of the 5th International Conference on Foundations of Data Organization and Algorithms, FODO '98, Kobe, Japan, pp 249-257 [3] Chan, K and Fu, A W (1999) Efficient time series matching by wavelets In Proceedings of the 15th IEEE International Conference on Data Engineering, March 23-26, Sydney, Australia, pp 126-133 [4] Agrawal, R., Lin, K., Sawhney, H S., and Shim, K (1995) Fast similarity search in the presence of noise, scaling, and translation in time-series databases In Proceedings of the 21st International Conference on Very Large Databases, VLDB '95, Zurich, Switzerland, pp 490-501 [5] Wei, L and Keogh, E (2006) Semi-Supervised Time Series Classification In Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD '06, pp 748-753 [6] Ratanamahatana, C A and Keogh, E (2004) Everything you know about Dynamic Time Warping is Wrong Third Workshop on Mining Temporal and Sequential Data, in conjunction with the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD-2004, August 22-25, Seattle, WA 82 [7] Ratanamahatana, C A and Keogh, E (2005) Three Myths about Dynamic Time Warping In Proceedings of SIAM International Conference on Data Mining, SDM '05, Newport Beach, CA, pp 506-510 [8] Ratanamahatana, C A and Wanichsan, D (2008) Stopping criterion selection for efficient semi-supervised time series classication In: Lee, R Y (ed.) Software Engineering, Articial Intelligence, Networking and Parallel/Distributed Computing, Studies in Computational Intelligence, Springer-Verlag, Vol 149, pp 1-14 [9] Sakoe, H and Chiba, S (1978) Dynamic programming algorithm optimization for spoken word recognition In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol 26, pp 43-49 [10] Itakura, F (1975) Minimum prediction residual principle applied to speech recognition In IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol ASSP-23, No.1, pp 67-72 [11] Keogh, E (2002) Exact indexing of dynamic time warping In Proceedings of the 28th International Conference on Very Large Data Bases, VLDB '02, Hong Kong, pp 406-417 [12] Begum, N., Hu, B., Rakthanmanon, T and Keogh, E (2013) Towards a minimum description length based stopping criterion for semi-supervised time series classification In Proceedings of 2013 IEEE 14th International Conference on Information Reuse and Integration, IRI 2013, August 14-16, San Francisco, California, USA, pp 333-340 [13] Xi, X., Keogh, E., Shelton, C and Wei, L (2006) Fast Time Series Classification Using Numerosity Reduction In Proceedings of the 23rd International Conference on Machine Learning, ICML '06, pp 1033-1040 [14] Nigam, K., Mccallum, A K., Thrun, S and Mitchell, T (2000) Text classification from labeled and unlabeled documents using EM Journal of Machine Learning, Vol 39, Issue 2-3, pp 103-134 83 [15] Baluja, S (1998) Probabilistic modeling for face orientation discrimination: learning from labeled and unlabeled data In Neural Information and Processing Systems, pp 854-860 [16] Keogh, E and Kasetty, S (2002) On the need for time series data mining benchmarks: A survey and empirical demonstration In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp 102-111 [17] Blum, A and Mitchell, T (1998) Combining labeled and unlabeled data with co-training In Proceedings of the 11th annual conference on Computational learning theory, COLT' 98, Morgan Kaufmann, pp 92-100 [18] Blum, A and Chawla, S (2001) Learning from labeled and unlabeled data using graph mincuts In Proceedings of 18th International Conference on Machine Learning, ICML '01, Morgan Kaufmann, pp 19-26 [19] Belkin, M., Niyogi, P and Sindhwani, V (2006) Manifold Regularization: A Geometric Framework for Learning from Labeled and Unlabeled Examples Journal of Machine Learning Research, Vol 7, pp 2399-2434 [20] Belkin, M., Matveeva, I and Niyogi, P (2004) Regularization and semisupervised learning on large graphs In Processdings of the 17th Annual Conference on Learning Theory, COLT 2004, Springer-Verlag, July 1-4, Banff, Canada, pp 624-638 [21] Junkui, L and Yuanzhen, W (2009) Early Abandon to Accelerate Exact Dynamic Time Warping The International Arab Journal of Information Technology, Vol 6, No pp 144-152 [22] Begum, N (2013) Website on Semi-supervised Time Series Classification: http://www.cs.ucr.edu/~nbegu001/SSL_myMDL.htm [23] Keogh, E (2008) The UCR Time Series Classification/Clustering Homepage: http://www.cs.ucr.edu/~eamonn/time_series_data/ 84 [24] Pelleg, D and Moore, A (2000) X-means: Extending K-means with Efficient Estimation of the Number of Clusters In Proceedings of the 17th International Conference on Machine Learning, ICML '00, pp 727-734 [25] Pelleg, D and Moore, A (1999) Accelerating Exact K-means Algorithms with Geometric Reasoning In Proceedings of the 5th International Conference on Knowledge Discovery in Databases, AAAI, pp 277-281 [26] Nhut, N M., Li, X L., Ng, S K (2011) Positive Unlabeled Learning for Time Series Classification In Proceedings of the 22nd international joint conference on Artificial Intelligence, IJCAI '11, AAAI, Vol 2, pp 1421-1426 [27] Nhut, N M., Li, X L., Ng, S K (2012) Ensemble Based Positive Unlabeled Learning for Time Series Classification In Proceedings of the 17th International Conference on Database Systems for Advanced Applications, DASFAA 2012, Springer-Verlag, April 15-18, Busan, South Korea, Part I, pp 243-257 [28] Kass, R and Wasserman, L (1995) A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion Journal of the American Statistical Association, Vol 90, Issue 431, pp 928-934 [29] Keogh, E., Chakrabarti, K., Pazzani,M and Mehrotra, S (2001) Dimensionality reduction for fast similarity search in large time series databases Journal of Knowledge and Information Systems, August 2001, Springer-Verlag, Vol 3, Issue 3, pp 263-286 [30] Keogh, E., Chakrabarti, K., Pazzani, M and Mehrotra, S (2001) Locally adaptive dimensionality reduction for indexing large time series databases In Proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, pp 151-162 [31] Keogh, E and Pazzani, M (1998) An enhanced representation of time series which allows fast and accurate classification, clustering and relevance 85 feedback In Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, KDD '98, August 27-31, pp 239-241 [32] Agrawal, R., Faloutsos, C and Swami, A N (1993) Efficient Similarity Search in Sequence Databases In Proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms, FODO '93, October 13-15, Chicago, Illinois, USA, pp 69-84 [33] Greenwald, S D., Patil, R S., and Mark R G (1990) Improved Detection and Classification of Arrhythmias in Noisecorrupted Electrocardiograms using Contextual Information In Proceedings of IEEE Conference on Computing in Cardiology, September 23-26, Chicago, IL, USA, pp 461-464 [34] Goldberger, A L., et al ( 2000) PhysioBank, PhysioToolkit, and PhysioNet: Components of a New Research Resource for Complex Physiologic Signals Circulation, Vol 101, No 23, pp 215-220 [35] Batista, G., Wang, X and Keogh, E (2011) A Complexity-Invariant Distance Measure for Time Series In Proceedings of the 2011 SIAM International Conference on Data Mining, SDM 2011, pp 699-710 [36] Han, J., Kamber, M and Pei, J (2012) Data Mining: Concepts and Techniques, 3rd ed., Waltham, MA 02451, USA: Morgan Kaufmann [37] Weka website: http://www.cs.waikato.ac.nz/ml/weka [38] Bentley, J L (1975) Multidimensional Binary Search Trees Used for Associative Searching In Communications of the ACM, Vol 19, No 9, pp 509-517 [39] Marussy, K and Buza, K (2013) SUCCESS: A New Approach for Semisupervised Classification of Time-Series In Proceedings of the 12th International Conference on Artificial Intelligence and Soft Computing, ICAISC 2013, Springer-Verlag, June 9-13, Zakopane, Poland, pp 437-447 86 [40] Tufte, E R (2001) The Visual Display of Quantitative Information, 2nd ed., Cheshire, CT 06410, USA: Graphics Press [41] Cormen, T H., Leiserson, C E., Rivest, R L., Stein, C (2009) Introduction to Algorithms, 3rd ed., MIT Press [42] Bramer, M (2013) Principles of Data Mining, 2nd ed., London, WC1X 8HB, UK: Springer A–1 PHỤ LỤC A BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Adaptive Piecewise Constant Xấp xỉ số đoạn Approximation thích nghi Ambiguous instance Mẫu nghi ngờ Artificial Neural Networks Mạng Nơ-ron nhân tạo ANN Bayesian Information Criterion Chỉ số BIC BIC Centroid Trung tâm cụm Classification Phân lớp Compression Nén Clustering Gom cụm Co-training methods Phương pháp đồng huấn luyện Cumulative Distance Khoảng cách tích lũy Criterion function converges Hàm tiêu chuẩn hội tụ Data Mining Khai phá liệu Decision trees Cây định Description Length Chiều dài Mô tả Difference vector Véc-tơ hiệu Discrete Fourier Tranform Phép biến đổi Fourier rời rạc DFT Discrete Normalization Function Hàm chuẩn hóa rời rạc Dis_Norm Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc DWT Dimensionality reduction Thu giảm số chiều Dynamic Programming Quy hoạch động Dynamic Time Warping Xoắn thời gian động DTW Euclidean Distance Khoảng cách Euclid ED False dismissal Lỗi so trùng sót APCA DL A–2 F-measure Độ đo F Generative models Mô hình sinh Graph-based methods Phương pháp dựa vào đồ thị Hypothesis Giả thuyết Hierarchical Clustering Gom cụm phân cấp k-Nearest Neighbor k-láng giềng-gần k-NN Longest Common Subsequence Chuỗi chung dài LCS Low density separation Phân định mật độ thấp Maximum Likelihood Estimate Ước lượng hợp lẽ cực đại MLE Minimum Description Length Chiều dài Mô tả Nhỏ MDL Mismatches Điểm không trùng khớp Non-linear alignment Ánh xạ khơng tuyến tính Offline data Dữ liệu ngoại tuyến One Nearest Neighbor Một láng giềng gần 1-NN Xấp xỉ gộp đoạn PAA Piecewise Linear Approximation Xấp xỉ tuyến tính đoạn PLA Precision Độ xác p Recall Độ đầy đủ r Reduced Description Length Chiều dài mơ tả thu giảm Refinement step Q trình tinh chế Self-training methods Phương pháp tự huấn luyện Semi-Supervised Classification Phân lớp bán giám sát Semi-Supervised Learning Học bán giám sát SSL Standard Deviation Độ lệch chuẩn Std Stopping criterion Tiêu chuẩn dừng Stopping Criterion Confidence Tiêu chuẩn dừng SCC Streaming time series Dữ liệu chuỗi thời gian luồng Piecewise Aggregate Approximation F H SCC A–3 Support Vector Machine Véc-tơ hỗ trợ Test set Tập kiểm tra Time series Chuỗi thời gian Training Data Dữ liệu huấn luyện Training set Tập huấn luyện Warping Path Đường xoắn SVM PHẦN LÝ LỊCH TRÍCH NGANG  Họ tên: VÕ THÀNH VINH  Ngày, tháng, năm sinh: 09/06/1989 Nơi sinh: Tp Hồ Chí Minh  Địa liên lạc: 87 Trung An, xã Trung An, huyện Củ Chi, Tp Hồ Chí Minh QUÁ TRÌNH ĐÀO TẠO Thời gian Nơi đào tạo Chuyên ngành Bậc 2007 – 2012 Đại học Bách Khoa – ĐHQG-TP HCM Khoa Học Máy Kỹ sư Tính 2012 – 2014 Đại học Bách Khoa – ĐHQG-TP HCM Khoa Học Máy Thạc sĩ Tính Q TRÌNH CƠNG TÁC Thời gian Nơi làm việc 2012 – Khoa Công Nghệ Thông Tin, Đại học Tôn Đức Thắng ... bán giám sát liệu chuỗi thời gian Wei Keogh, Các tiêu chuẩn dừng phân lớp bán giám sát liệu chuỗi thời gian cho mô hình Wei Keogh, phương pháp phân lớp bán giám sát liệu chuỗi thời gian SUCCESS... nhất, phân lớp bán giám sát liệu chuỗi thời gian với mơ hình Wei Keogh với cơng trình tiêu chuẩn dừng phân lớp bán giám sát liệu chuỗi thời gian theo mơ hình Wei Keogh, phương pháp phân lớp bán giám. .. pháp phân lớp bán giám sát liệu chuỗi thời gian cơng trình điều kiện dừng phân lớp bán giám sát liệu chuỗi thời gian theo mô hình Wei Keogh 3.1 ĐỘ ĐO XOẮN THỜI GIAN ĐỘNG Độ đo xoắn thời gian

Định dạng
Số trang	105
Dung lượng	2,67 MB