Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 83 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
83
Dung lượng
2,52 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HUY KHA PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO ĐIỂM CỰC TRỊ QUAN TRỌNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH: 60.48.01 LUẬN VĂN THẠC SĨ Tp.HCM, tháng năm 2014 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN HUY KHA PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO ĐIỂM CỰC TRỊ QUAN TRỌNG CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ CHUYÊN NGÀNH: 60.48.01 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS DƯƠNG TUẤN ANH Tp.HCM, tháng năm 2014 i CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG – HCM Cán hướng dẫn khoa học : PGS.TS DƯƠNG TUẤN ANH Cán chấm nhận xét : Cán chấm nhận xét : Luận văn Thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH&KT MÁY TÍNH ii ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: NGUYỄN HUY KHA MSHV:12070514 Ngày, tháng, năm sinh: 01/7/1989 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa học Máy tính Mã số : 604801 I TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO ĐIỂM CỰC TRỊ QUAN TRỌNG II NHIỆM VỤ VÀ NỘI DUNG: III NGÀY GIAO NHIỆM VỤ : IV NGÀY HOÀN THÀNH NHIỆM VỤ: V CÁN BỘ HƯỚNG DẪN: PGS.TS DƯƠNG TUẤN ANH Nội dung đề cương Luận văn Thạc sĩ Hội đồng chuyên ngành thông qua Tp HCM, ngày tháng năm 2014 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) PGS.TS DƯƠNG TUẤN ANH TRƯỞNG KHOA KH&KT MÁY TÍNH (Họ tên chữ ký) iii LỜI CÁM ƠN Tôi xin gửi lời cám ơn chân thành sâu sắc đến PGS.TS Dương Tuấn Anh, người Thầy tận tình bảo, hướng dẫn tơi suốt thời gian thực đề tài, giúp rút nhiều học kinh nghiệm quý báu gặp phải khó khăn tạo điều kiện tốt để hồn thành luận văn Tơi xin cám ơn quý Thầy Cô, anh chị bạn – người giúp đỡ góp ý cho tơi có kiến thức cần thiết để thực luận văn Con trân trọng cám ơn đến gia đình, Ba Mẹ ln nguồn động viên to lớn, ủng hộ vượt qua khó khăn suốt trình học tập làm việc Một lần nữa, tơi xin chân thành cảm ơn tất cả! iv TĨM TẮT LUẬN VĂN Tìm kiếm bất thường lĩnh vực nghiên cứu quan trọng khai phá liệu Bất thường tập liệu, định nghĩa đơn giản, kết quan sát khác biệt so với phần lại tập liệu Tìm kiếm bất thường áp dụng nhiều ứng dụng phát thẻ tín dụng giả mạo, hoạt động phi pháp thương mại điện tử, dự báo thời tiết Trong đề tài này, chúng tơi trình bày cách tiếp cận việc tìm kiếm chuỗi bất thường tập chuỗi liệu thời gian Bước đầu phương pháp xác định ứng viên dựa vào điểm cực trị quan trọng, sau đồng chiều dài ứng viên phép biến hình vị tự, rời rạc hóa chúng đưa vào giải thuật gom cụm phù hợp Cuối chúng tơi tính tốn độ đo hệ số bất thường cục theo cụm (CBLDF) để xác định ứng viên bất thường Từ kết đạt thực nghiệm nhiều tập liệu khác nhau, chúng tơi thu kết có độ hiệu cao thời gian, mức độ xác khả quan so với phương pháp HOT SAX v ABSTRACT Searching for anomalies is an important area of research in the world of data mining An anomaly in a dataset is defined informally as an observation that is considerably different from the remainders Anomaly detection has many uses in numerous applications, including credit card fraud detection, discovery of criminal activities in electronic commerce, weather prediction In this work, we present a new approach of finding anomalies in time series dataset First of all, so-called time series candidates, which represent characteristic subsequences of the time series, are extracted from the time series using important extreme points These candidates afterwards are transformed into the same length by using homothetic transformation After being discretized by SAX method, they become input for the appropriate clustering algorithm Finally, we identify discords by a measure, which is called cluster-based local discord factor (CBLDF) We evaluate our work with a comprehensive set of experiments The experimental results show that our approach produces better time efficiency and the same accuracy as HOT SAX algorithm vi LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dụng luận văn nộp để lấy cấp trường trường khác Ngày 20 tháng năm 2014 Nguyễn Huy Kha vii MỤC LỤC LỜI CÁM ƠN iv TÓM TẮT LUẬN VĂN v ABSTRACT vi LỜI CAM ĐOAN vii MỤC LỤC viii DANH MỤC HÌNH x DANH MỤC BẢNG xii Chương GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian 1.2 Phát bất thường liệu chuỗi thời gian .3 1.3 Mục tiêu giới hạn đề tài 1.4 Tóm lược kết đạt .5 1.5 Cấu trúc luận văn .6 Chương TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Độ đo tương tự 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Các phương pháp thu giảm số chiều 12 2.2.1 Phương pháp khơng thích nghi liệu .12 2.2.2 Phương pháp thích nghi liệu 15 2.3 Rời rạc hóa liệu phương pháp xấp xỉ gộp ký hiệu hóa SAX .17 2.3.1 Chuẩn hóa liệu .18 2.3.2 Thu giảm số chiều qua PAA (Mục 2.2.1) 19 2.3.3 Ký hiệu hóa chuỗi thời gian 19 2.3.4 Hàm tính độ đo tương tự 20 2.4 Phát motif liệu chuỗi thời gian 22 2.5 Giải thuật phát bất thường HOT SAX giải thuật liên quan 23 2.5.1 Giải thuật BFDD (Brute Force Discord Discovery) 23 2.5.2 Giải thuật HDD (Heuristic Discord Discovery) 25 2.5.3 Giải thuật HOT SAX .26 viii 2.6 Kết luận 29 Chương CƠ SỞ LÝ THUYẾT VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 30 3.1 Điểm cực trị quan trọng (Important Extreme Points) 30 3.2 Phương pháp phát motif chuỗi bất thường dựa vào điểm cực trị quan trọng 33 3.3 Phương pháp biến hình vị tự ứng viên .34 3.3.1 Khái niệm phép biến hình vị tự 36 3.3.2 Lấy mẫu ứng viên phép vị tự .37 3.4 Phát điểm ngoại biên cục theo cụm 38 3.4.1 Điểm ngoại biên cục theo cụm (cluster-based local outlier) .39 3.4.2 Giải thuật phát điểm ngoại biên cục theo cụm .41 3.5 Từ giải thuật FindCBLOF đến giải thuật phát chuỗi bất thường cục theo cụm 45 3.6 Kết luận 48 Chương HIỆN THỰC VÀ THỬ NGHIỆM 49 4.1 Kết thực nghiệm 49 4.1.1 Dữ liệu ECG 49 4.1.2 Dữ liệu AEM .52 4.1.3 Dữ liệu ERP 54 4.1.4 Dữ liệu STOCK 56 4.1.5 Dữ liệu POWER 58 4.2 Bảng tổng kết nhận xét 61 Chương KẾT LUẬN .63 5.1 Tổng kết 63 5.2 Những đóng góp đề tài 64 5.3 Những hạn chế đề tài 64 5.4 Hướng phát triển 65 TÀI LIỆU THAM KHẢO .66 PHỤ LỤC A LÝ LỊCH TRÍCH NGANG C ix Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Hình - Kết giải thuật HOTSAX chạy với liệu ERP 25000 điểm Vị trí bất thường: 23699 Thời gian chạy: 584,384 giây Như vậy, với liệu, cách tiếp cận tìm bất thường với kết gần giống xác với giải thuật HOT SAX, thời gian nhanh (27 miligiây so với 584 giây) 4.1.4 Dữ liệu STOCK Hình 4-10 mơ tả đồ thị biểu diễn liệu chuỗi thời gian STOCK gồm 20000 điểm Hình - 10 Dữ liệu STOCK 20000 điểm Nguyễn Huy Kha - 12070514 -56- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Dữ liệu STOCK 20000 điểm chạy với phương pháp FindCBLDF Chúng thực nghiệm cách tiếp cận với thông số bảng 4-7: Thông số Giá trị Hệ số nén R (ratio) Chiều dài ứng viên mẫu Chiều dài ứng viên mẫu tối thiểu w (chiều dài chuỗi SAX) a (số lượng ký tự SAX) Ngưỡng tương tự s giải thuật Squeezer Tham số 𝛼 phương pháp FindCBLDF Tham số 𝛽 phương pháp FindCBLDF 1.03 500 50 20 20 15 0.9 Bảng - Bảng thông số phương pháp FindCBLDF với liệu STOCK 20000 điểm Kết chuỗi bất thường thu được thể hình 4-11: Hình - 11 Kết phương pháp FindCBLDF chạy với liệu STOCK 20000 điểm Vị trí bất thường: 18744 đến 19353 Thời gian chạy: 24,0785miligiây 0,024 giây Nguyễn Huy Kha - 12070514 -57- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Dữ liệu STOCK 20000 điểm chạy giải thuật HOT SAX Chúng thực nghiệm giải thuật HOT SAX với thông số 4-8: Thông số w (chiều dài chuỗi SAX) a (số lượng ký tự SAX) Discord length (chiều dài chuỗi bất thường) Giá trị 20 20 600 Bảng - Bảng thông số giải thuật HOTSAX với liệu STOCK 20000 điểm Kết chuỗi bất thường thu được thể hình 4-12: Hình - 12 Kết giải thuật HOTSAX chạy với liệu STOCK 20000 điểm Vị trí bất thường: 18376 Thời gian chạy: 150,6754 giây Như vậy, với liệu, cách tiếp cận chúng tơi tìm bất thường với kết gần giống xác với giải thuật HOT SAX, thời gian nhanh (24 miligiây so với 150 giây) 4.1.5 Dữ liệu POWER Hình 4-13 mơ tả đồ thị biểu diễn liệu chuỗi thời gian POWER gồm 20000 điểm Nguyễn Huy Kha - 12070514 -58- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Hình - 13 Dữ liệu POWER 20000 điểm Dữ liệu POWER 20000 điểm chạy với phương pháp FindCBLDF Chúng thực nghiệm cách tiếp cận với thông số bảng 4-9: Thông số Hệ số nén R (ratio) Chiều dài ứng viên mẫu Chiều dài ứng viên mẫu tối thiểu w (chiều dài chuỗi SAX) a (số lượng ký tự SAX) Ngưỡng tương tự s giải thuật Squeezer Tham số 𝛼 phương pháp FindCBLDF Tham số 𝛽 phương pháp FindCBLDF Giá trị 1.15 200 50 20 20 12 0.9 Bảng - Bảng thông số phương pháp FindCBLDF với liệu POWER 20000 điểm Kết chuỗi bất thường thu được thể hình 4-14: Hình - 14 Kết phương pháp FindCBLDF chạy với liệu POWER 20000 điểm Nguyễn Huy Kha - 12070514 -59- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Vị trí bất thường: 6263 đến 7122 Thời gian chạy: 52,9984miligiây 0,052 giây Dữ liệu POWER 20000 điểm chạy giải thuật HOT SAX Chúng thực nghiệm giải thuật HOT SAX với thông số bảng 410: Thông số w (chiều dài chuỗi SAX) a (số lượng ký tự SAX) Discord length (chiều dài chuỗi bất thường) Giá trị 20 20 800 Bảng - 10 Bảng thông số giải thuật HOTSAX với liệu POWER 20000 điểm Kết chuỗi bất thường thu được thể hình 4-15: Hình - 15 Kết giải thuật HOTSAX chạy với liệu POWER 20000 điểm Vị trí bất thường: 6244 Thời gian chạy: 147.3346 giây Như vậy, với liệu, cách tiếp cận chúng tơi tìm bất thường với kết gần giống xác với giải thuật HOT SAX, thời gian nhanh (52 miligiây so với 166 giây) Nguyễn Huy Kha - 12070514 -60- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 4.2 Bảng tổng kết nhận xét Các số liệu bên thống kê thời gian thực thi phương pháp so với giải thuật phát bất thường HOT SAX, chạy liệu ECG, AEM, ERP, STOCK POWER Bảng 4-11 tổng kết thời gian thực thi phương pháp Dữ liệu Kích thước ECG 20000 AEM 20000 ERP 25000 STOCK 20000 POWER 20000 Phương pháp Thời gian chạy FindCBLDF 0,041s HOT SAX 98s FindCBLDF 0,016s HOT SAX 260s FindCBLDF 0,027s HOT SAX 584s FindCBLDF 0,024s HOT SAX 150s FindCBLDF 0,052s HOT SAX 166s Trung bình Nhanh 2390 lần 16250 lần 21629 lần 6250 lần 3192 lần 9942,2 lần Bảng - 11 Bảng tổng kết thời gian thực thi phương pháp Trung bình, FindCBLDF chạy nhanh HOT SAX gần 10000 lần Hình 4-16 mơ tả biểu đồ so sánh thời gian thực thi phương pháp tập liệu khác Nguyễn Huy Kha - 12070514 -61- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 600 500 400 300 200 100 ECG AEM ERP FindCBLDF STOCK POWER HOT SAX Hình - 16 Biểu đồ so sánh thời gian thực thi phương pháp tập liệu khác Từ kết thu thời gian chạy độ xác chuỗi bất thường nhận từ phương pháp trên, thấy cách tiếp cận cho thời gian thực thi nhanh kết có độ xác với giải thuật HOT SAX Nguyễn Huy Kha - 12070514 -62- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Chương KẾT LUẬN Chương tổng kết việc làm được, đóng góp luận văn trình bày hướng mở rộng cho nghiên cứu sau 5.1 Tổng kết Tìm kiếm nhận diện bất thường liệu chuỗi thời gian lĩnh vực nghiên cứu quan tâm khai phá liệu Kết công việc mang lại áp dụng rộng rãi hữu ích sống Luận văn trình bày giới thiệu, dẫn giải việc tìm kiếm bất thường tập liệu nói chung, tìm kiếm chuỗi bất thường liệu chuỗi thời gian nói riêng Bài tốn đối ngẫu kinh điển tìm kiếm motif liệu chuỗi thời gian đóng vai trị quan trọng ý tưởng liên quan đến việc giải vấn đề Luận văn học hỏi vận dụng ưu điểm bật tốn motif để áp dụng việc tìm kiếm chuỗi bất thường Bên cạnh đó, phân tích điểm yếu gây nên hạn chế giải thuật phát bất thường có đóng góp phần không nhỏ với phương pháp nêu luận văn Cụ thể, ngồi việc tóm lược khái niệm cơng trình liên quan, luận văn vận dụng ưu điểm phương pháp phát motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng để lựa chọn nên ứng viên, dùng phương pháp gom cụm để giải tốn bất thường Phương pháp khơng đem lại hiệu mặt tiếp cận mà hạn chế nhược điểm phương pháp dựa vào cửa sổ trượt (sliding window) giải thuật HOT SAX phát bất thường Phương pháp đề xuất kết hợp nhiều yếu tố tạo nên như: dựa vào điểm cực trị quan trọng để lấy ứng viên, dùng phép biến hình vị tự để đồng ứng viên, sau rời rạc hóa phương pháp SAX để đưa vào giải thuật gom cụm phù hợp Ngồi ra, luận văn cịn đề xuất độ đo tính tốn cụ thể để xác định mức độ bất thường ứng viên phép Nguyễn Huy Kha - 12070514 -63- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng gom cụm, gọi độ đo bất thường cục theo cụm (CBLDF), từ tìm lời giải tốn Các kết thực nghiệm cho thấy tính hiệu phương pháp nói việc tìm kiếm phát chuỗi bất thường liệu chuỗi thời gian 5.2 Những đóng góp đề tài - Luận văn nêu số nhận xét ưu điểm nhược điểm giải thuật tìm kiếm phát bất thường Ngồi luận văn cịn vận dụng ý tưởng từ phương pháp phát motif để tìm cách giải vấn đề bất thường liệu chuỗi thời gian - Đề xuất phương pháp tiếp cận để nhận diện chuỗi bất thường Vận dụng phương pháp tìm kiếm ứng viên nhờ vào điểm cực trị quan trọng, biến đổi phù hợp để tính tốn bất thường theo gom cụm dựa vào độ đo bất thường cục theo cụm CBLDF để nhận diện chuỗi bất thường chuỗi liệu thời gian - Tiến hành thực thực nghiệm hệ thống để so sánh độ hiệu với giải thuật phát bất thường HOT SAX, áp dụng nhiều liệu khác với chiều dài khác thông số khác Kết cho thấy phương pháp đề xuất chạy nhanh có kết độ xác với giải thuật HOT SAX 5.3 Những hạn chế đề tài - Vì vận dụng kết hợp nhiều giải thuật khác nên phương pháp đề xuất FindCBLDF đòi hỏi thiết lập nhiều thông số để chạy việc phát chuỗi bất thường liệu chuỗi thời gian Nguyễn Huy Kha - 12070514 -64- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng 5.4 Hướng phát triển Đề tài nêu lên vấn đề khai phá liệu chuỗi thời gian tốn tìm kiếm chuỗi bất thường Từ đó, đề tài đề xuất cách tiếp cận để giải toán phát chuỗi bất thường liệu chuỗi thời gian Tuy nhiên nhiều điểm khác cần phải nghiên cứu thêm để đề tài hoàn thiện - Đề tài thực nghiệm liệu mẫu ECG, AEM, ERP, STOCK POWER Do cần phải thu thập thực nghiệm nhiều liệu khác để có kết luận xác đánh giá tốt - Có thể vận dụng phương pháp để tìm kiếm motif liệu chuỗi thời gian - Cần tích hợp phương pháp FindCBLDF chặt chẽ với giải thuật gom cụm Squeezer để giúp cho trình phát bất thường đạt hiệu cao - Cần mở rộng phương pháp để tìm kiếm bất thường liệu chuỗi thời gian dạng luồng (streaming time series) việc phát bất thường thời gian thực Nguyễn Huy Kha - 12070514 -65- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng TÀI LIỆU THAM KHẢO [1] Huỳnh Nguyễn Tín, “Nhận diện motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng”, Luận văn Thạc sĩ, Đại học Bách Khoa Thành phố Hồ Chí Minh 2012 [2] Gruber C., Coduro M., Sick B., “Signature Verification With Dynamic RBF Network and Time Seried Motif” , The 10th International Workshop on Frontiers in Hand Writing Recognition 2006 [3] Keogh E., Chakrabarti K., Pazzani M & Mehrotra S “Dimensionality reduction for fast similarity search in large time series database” Journal of Knowledge and Information Systems, 2000, pp 263-286 [4] Lin J., Keogh E., Lonardi S., and Chiu B , “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover (DMKD 2003), June 13, 2003, pp 2-11 [5] Pratt K.B., Fink E., “Search for pattern in compressed time series”, in International Journal of Image and Graphics, 2002 [6] He Z., Xu X and Deng S., “Discovering cluster-based Local Outliers”, Pattern Recognition Letters, Volume 24, Issue 9-10, June 2003, pp 1641 – 1650 [7] Keogh E., Lin J and Fu A., 2005, “HOT SAX: Finding the Most Unusual Time Series Subsequence” In Proc of the 5th IEEE International Conference on Data Mining (ICDM 2005), pp 226 - 233, Nov 27-30, 2005, Houston, Texas [8] Gunopulos D., et al., “Finding similar time series” In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, 1997, pp 88-100 [9] Berndt D., Clifford J., “Finding patterns in time series: a dynamic programming approach”, Advances in Knowledge Discovery and Data Mining, AAA/MIT Press, Menlo Park, CA, 1996, pp 229-248 Nguyễn Huy Kha - 12070514 -66- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng [10] Keogh E., “A Fast and Robust Method for Pattern Matching in Time Series Databases” In Proceedings of 9th International Conference on Tools with Artificial Intelligence (ICTAI ‘97), November 3-8, 1997, pp 578-584 [11] Chan K., Fu A W., “Efficient time series matching by wavelets” In proceedings of the 15th IEEE International Conference on Data Engineering, Sydney, Australia, 1999, pp 126-133 [12] Keogh E., Xi X., Wei L., & Ratanamahatana C.A (2006) The UCR Time series Classification/Clustering Homepage: www.cs.ucr.edu/~eamonn/time_series_data [13] Huỳnh Trần Quốc Bửu, “Nghiên cứu phương pháp biểu diễn chuỗi thời gian iSAX ứng dụng phương pháp vào toán nhận dạng chuỗi bất thường liệu chuỗi thời gian”, Luận văn Thạc sĩ, Đại học Bách Khoa Thành phố Hồ Chí Minh 2010 [14] Keogh E and Kasetty S “On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration” In proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 [15] Keogh E “Mining shape and time series databases with symbolic representations” Tutorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining, August 12-15, 2007 Nguyễn Huy Kha - 12070514 -67- PHỤ LỤC BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT Thuật ngữ tiếng Anh Thuật Ngữ Tiếng Việt Viết tắt Augmented Trie Cây gia tố Anomaly Detection Phát bất thường Brute Force Discord Discovery Phát chuỗi bất thường BFDD Brute Force Cluster-Based Local Outlier Factor Hệ số ngoại biên cục theo CBLOF cụm Cluster-Based Local Discord Factor Hệ số bất thường cục theo CBLDF cụm Classification Phân lớp Clustering Gom cụm Data Time Series Dữ liệu chuỗi thời gian Data Set Tập liệu Dimensionality Số chiều Discrete Fourier Transform Biến đổi Fourier rời rạc DFT Discrete Wavelet Transform Biến đổi Wavelet rời rạc DWT Dynamic Time Wraping Xoắn thời gian động DTW Extreme Point and Clustering Điểm cực trị gom cụm EP_C Heuristic Discord Discovery Phát chuỗi bất thường HDD dựa vào kinh nghiệm Hierarchical Bottom-Up Phân cấp từ lên High-dimensional data Dữ liệu nhiều chiều Homothetic Transformation Phép biến hình vị tự Important Extreme Point Điểm cực trị quan trọng Motif Chuỗi xuất nhiều chuỗi liệu thời gian A Non-trivial Match So trùng không tầm thường Outliers Chuỗi xuất chuỗi liệu thời gian (Phần tử ngoại biên) Symbolic Aggregate approXimation Xấp xỉ gộp ký hiệu hóa Similarity Search Tìm kiếm tương tự Time Series Discord Chuỗi bất thường SAX B LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Huy Kha Ngày sinh: 01/7/1989 Nơi sinh: Quảng Ngãi Địa liên lạc: Công ty NetPower Việt Nam, Bạch Đằng, Tân Bình, TPHCM Email: iamnguyenhuykha@yahoo.com Q TRÌNH ĐÀO TẠO Thời gian Trường Chuyên ngành Trình độ 2007 – 2012 Trường Đại học Khoa học Máy tính Kỹ sư Khoa học Máy tính Cao học Bách Khoa TPHCM 2012 – 2014 Trường Đại học Bách Khoa TPHCM QUÁ TRÌNH CƠNG TÁC Thời gian Đơn vị cơng tác Vị trí 2012 – 2014 Cơng ty Harvey Nash Vietnam Lập trình viên 2014 – Cơng ty NetPower Vietnam Lập trình viên C ... 3-2 mơ tả điểm cực đại cực tiểu quan trọng Hình - Điểm cực đại điểm cực tiểu quan trọng Nguyễn Huy Kha - 12070514 -31- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng i =... điểm cực trị quan trọng Nguyễn Huy Kha - 12070514 -32- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Dễ dàng thấy giải thuật tìm điểm cực đại cực tiểu quan trọng thực thời. .. motif / chuỗi bất thường Nguyễn Huy Kha - 12070514 -33- Phát bất thường liệu chuỗi thời gian dựa vào điểm cực trị quan trọng Đầu tiên, phương pháp trích lược điểm cực trị quan trọng chuỗi thời gian