Nghiên cứu phương pháp biểu diễn chuỗi thời gian isax và ứng dụng phương pháp này vào bài toán nhận dạng chuỗi con bất thường nhất trong dữ liệu chuỗi thời gian

Đại Học Quốc Gia Tp Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH TRẦN QUỐC BỬU NGHIÊN CỨU PHƯƠNG PHÁP BIỂU DIỄN CHUỖI THỜI GIAN iSAX VÀ ỨNG DỤNG PHƯƠNG PHÁP NÀY VÀO BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT THƯỜNG NHẤT TRONG DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: KHOA HỌC MÁY TÍNH LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 07 năm 2010 CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: PGS TS Đỗ Phúc Cán chấm nhận xét 2: TS Quản Thành Thơ Luận văn thạc sĩ ñược bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp.HCM ngày 30 tháng năm 2010 Thành phần Hội ñồng ñánh giá luận văn thạc sĩ gồm: TS Nguyễn Văn Minh Mẫn PGS TS Đỗ Phúc TS Quản Thành Thơ PGS TS Dương Tuấn Anh TS Phạm Văn Chung Xác nhận Chủ tịch Hội ñồng ñánh giá LV Bộ môn quản lý chuyên ngành sau luận văn ñã ñược sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Bộ mơn quản lý chuyên ngành TRƯỜNG ĐẠI HỌC BÁCH KHOA KHOA CÔNG NGHỆ THÔNG TIN CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM Độc Lập - Tự Do - Hạnh Phúc -oOo Tp HCM, ngày tháng năm NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: HUỲNH TRẦN QUỐC BỬU Phái: Nam Ngày, tháng, năm sinh: 02 / 11 / 1985 Nơi sinh: Long Xuyên-An Giang Chuyên ngành: Khoa Học Máy Tính MSHV: 00708187 1- TÊN ĐỀ TÀI: NGHIÊN CỨU PHƯƠNG PHÁP BIỂU DIỄN CHUỖI THỜI GIAN iSAX VÀ ỨNG DỤNG PHƯƠNG PHÁP NÀY VÀO BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT THƯỜNG NHẤT TRONG DỮ LIỆU CHUỖI THỜI GIAN 2- NHIỆM VỤ LUẬN VĂN: Nghiên cứu so sánh hiệu hai phương pháp rời rạc hóa SAX iSAX áp dụng vào giải thuật nhận dạng chuỗi bất ñồng liệu chuỗi thời gian 3- NGÀY GIAO NHIỆM VỤ: 4- NGÀY HOÀN THÀNH NHIỆM VỤ: 5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Nội dung ñề cương Luận văn thạc sĩ ñã ñược Hội Đồng Chuyên Ngành thông qua CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) KHOA QL CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tơi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn ñược nộp ñể lấy cấp trường trường khác Ngày……….tháng…………năm………… Huỳnh Trần Quốc Bửu i LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc ñến PGS TS Dương Tuấn Anh, người thầy tận tình hướng dẫn tơi suốt q trình học Cao học tạo điều kiện để tơi hồn thành luận văn Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện tốt để tơi tiếp tục theo ñuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành luận văn cho Cha Mẹ Nhờ công lao dưỡng dục Người mà chúng có thành ngày hôm Con xin hứa tiếp tục cố gắng phấn ñấu ñể vươn cao ii TÓM TẮT LUẬN VĂN Biểu diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng tốn khai phá liệu chuỗi thời gian Vì liệu chuỗi thời gian lớn, lĩnh vực ứng dụng ngày phát triển, nên địi hỏi cần có phương pháp biểu diễn chuỗi thời gian hợp lý cho loại liệu loại ứng dụng cụ thể nhằm cải thiện tốc độ độ xác hồn thành tốn Đề tài tìm hiểu phương pháp rời rạc hóa liệu mức bit iSAX (phương pháp xấp xỉ gộp ký hiệu hóa khả mục), qua ñó ñề cách ứng dụng phương pháp vào tốn tìm chuỗi bất đồng Thơng qua hai giải thuật HOT SAX EHOT (hai giải thuật ñã thành công ứng dụng phương pháp rời rạc hóa liệu khác, phương pháp xấp xỉ gộp ký hiệu hóa SAX), chúng tơi so sánh độ hiệu iSAX SAX giải tốn tìm chuỗi bất đồng Chúng tơi tận dụng tính đa mức phân giải phương pháp iSAX (một ưu mà phương pháp SAX khơng có được) để lập mục chuỗi rút ngắn thời gian tìm kiếm chuỗi bất đồng làm giảm số lần gọi hàm tính độ tương tự hai chuỗi Qua thực nghiệm cho thấy, phương pháp iSAX hiệu nhiều lần so với phương pháp SAX ứng dụng vào tốn tìm kiếm chuỗi bất ñồng iii ABSTRACT The representation of time series plays more and more important role in time series data mining problems Since time series data has very big size, with many growing applications of time series data, it is necessary to have a suitable representation method for each kind of datasets and each kind of application which aims to improve the speed and the accuracy of the data mining solutions This thesis studies a bit level representation of time series data iSAX (indexable Symbolic Aggregate approXimation), then applies this representation to discord discovery problem By applying iSAX to HOT SAX algorithm and EHOT algorithm (which were successful with another representation SAX, Symbolic Aggregate approXimation, for solving discord discovery problem), we compare the efficiency of iSAX and SAX We take advantage of multi-resolution feature of iSAX (which SAX does not have) to index time series and to shorten CPU time used for finding discords as well as to decrease raw time series data retrieval times (distance function calls) Through experiments, we find out that iSAX is more effective than SAX iv MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii TÓM TẮT LUẬN VĂN iii ABSTRACT iv MỤC LỤC v DANH MỤC HÌNH ix DANH MỤC BẢNG xii Chương 1: Phát biểu vấn ñề 1.1 Dữ liệu chuỗi thời gian 1.2 Phát bất thường 1.3 Mục tiêu giới hạn ñề tài 1.4 Tóm lược kết ñạt ñược 1.5 Cấu trúc luận văn Chương 2: Tổng thuật cơng trình liên quan 2.1 Các cơng trình độ đo tương tự 2.1.1 Độ ño Minkowski 10 2.1.2 Độ ño xoắn thời gian ñộng 11 2.1.3 Phương pháp chuỗi chung dài 14 2.2 Các cơng trình biểu diễn chuỗi thời gian 15 2.2.1 Phương pháp biến ñổi Fourier rời rạc DFT 17 2.2.2 Phương pháp biến ñổi Wavelet rời rạc DWT 19 2.2.3 Phương pháp xấp xỉ gộp ñoạn PAA 20 2.2.4 Phương pháp xấp xỉ đoạn thích nghi APCA 21 2.2.5 Phương pháp xấp xỉ tuyến tính đoạn PLA 22 v 2.2.6 Phương pháp xấp xỉ gộp ký hiệu hóa SAX 23 2.2.7 Phương pháp ESAX 24 2.2.8 Phương pháp xén liệu 25 2.2.9 Phương pháp SAX khả mục iSAX 26 2.3 Các cấu trúc mục 27 2.3.1 Cấu trúc mục hậu tố 28 2.3.2 Cấu trúc mục R-tree 28 2.3.3 Framework GEMINI 29 2.4 Các giải thuật phát bất thường 30 2.4.1 Giải thuật hệ miễn nhiễm nhân tạo IMM (Immunology) 30 2.4.2 Giải thuật dựa TSA (TSA-tree) 31 2.4.3 Giải thuật Tarzan 31 Chương 3: Những sở lý thuyết tảng 34 3.1 Phương pháp SAX 34 3.1.1 Chuẩn hóa liệu 34 3.1.2 Thu giảm số chiều phương pháp PAA 35 3.1.3 Ký hiệu hóa chuỗi thời gian 35 3.1.4 Hàm tính độ tương tự 37 3.2 Phương pháp iSAX 38 3.2.1 Mã hóa ký tự có sau áp dụng phương pháp SAX 39 3.2.2 Hàm tính độ tương tự không gian thu giảm 39 3.2.3 Cấu trúc mục 40 3.2.4 Truy vấn liệu 44 3.3 Giải thuật phát chuỗi bất ñồng BFDD 47 3.4 Giải thuật phát chuỗi bất ñồng dựa vào heuristic HDD 48 vi 3.5 Giải thuật phát chuỗi bất ñồng HOT SAX 50 3.5.1 Heuristic vòng lặp 52 3.5.2 Heuristic vòng lặp 52 3.6 Giải thuật phát chuỗi bất ñồng EHOT 53 3.6.1 Heuristic vịng lặp ngồi 53 3.6.2 Heuristic vòng lặp 56 Chương 4: Phương pháp giải vấn ñề hệ thống ứng dụng 58 4.1 Đặt vấn ñề 58 4.2 Phương pháp giải vấn ñề 59 4.2.1 Giải thuật HOTiSAX 59 4.2.2 Giải thuật EHOTiSAX 69 4.3 Hệ thống phát chuỗi bất thường 69 4.3.1 Khối tạo liệu 69 4.3.2 Khối tìm kiếm chuỗi bất ñồng 71 4.3.3 Khối biểu diễn liệu 72 4.3.4 Khối cấu trúc liệu 72 Chương 5: Thực nghiệm 73 5.1 Tinh chỉnh thơng số xác định heuristic 73 5.1.1 Tinh chỉnh thông số cho HOTiSAX 74 5.1.2 Tinh chỉnh thơng số xác định heuristic cho EHOTiSAX 76 5.2 Kết thực nghiệm so sánh HOT SAX với HOTiSAX 79 5.2.1 Thực nghiệm tập liệu dự báo kiện ERP 79 5.2.2 Thực nghiệm liệu ñiện não ñồ EEG 80 vii 5.3.4 Thực nghiệm liệu lượng POWER Hình 5.25: Số lần gọi hàm tính khoảng cách EHOT EHOTiSAX liệu POWER Hình 5.26: Thời gian chạy EHOT EHOTiSAX liệu POWER 88 5.3.5 Thực nghiệm liệu chứng khốn STOCK Hình 5.27: Số lần gọi hàm tính khoảng cách EHOT EHOTiSAX liệu STOCK Hình 5.28: Thời gian chạy EHOT EHOTiSAX liệu STOCK 89 Nhận xét: • Với liệu ERP, POWER, KOSKI, STOCK: phương pháp iSAX hiệu nhiều lần so với phương pháp SAX Chiều dài chuỗi liệu tăng chênh lệch ñộ hiệu iSAX so với SAX tăng Vì chiều dài chuỗi liệu tăng số chuỗi ánh xạ vào từ SAX nhiều, hàm MINDIST_PAA_iSAX cho giá trị chặn chặt so với hàm Euclid không gian nguyên thủy, giải thuật tìm kiếm xác so trùng khơng-tầm-thường thu giảm khơng gian tìm kiếm nhiều • Riêng với liệu EEG: phương pháp iSAX hiệu phương pháp SAX chiều dài chuỗi tăng chênh lệch không nhiều thực nghiệm với liệu ERP, POWER, KOSKI, STOCK Lý với liệu EEG, hàm MINDIST_PAA_iSAX cho giá trị chặn không chặt so với hàm Euclid, nên số khơng gian thu giảm tìm kiếm khơng nhiều Dẫn đến, độ hiệu cải thiện khơng ñáng kể Như vậy, qua thực nghiệm ta thấy, nhìn chung phương pháp rời rạc hóa iSAX có hiệu phương pháp rời rạc SAX áp dụng vào tốn tìm kiếm chuỗi bất đồng nhiều phụ thuộc vào liệu Do áp dụng iSAX cho loại liệu khác, ta phải tinh chỉnh thông số phù hợp với loại liệu để iSAX hoạt động hiệu 90 Chương 6: Kết luận Chương tổng kết việc ñã làm ñược, đóng góp luận văn trình bày hướng mở rộng cho nghiên cứu sau 6.1 Tổng kết Luận văn trình bày nhiều phương pháp biểu diễn liệu chuỗi thời gian, hàm tính ñộ tương tự, cấu trúc mục, ñịnh nghĩa chuỗi thời gian, chuỗi bất ñồng giải thuật phát chuỗi bất ñồng Qua đó, chọn phương pháp biểu diễn, hàm tính ñộ tương tự giải thuật thích hợp ñể giải tốn tìm kiếm chuỗi bất đồng Chúng tơi chọn hàm Euclid để đo khoảng cách khơng gian ngun thủy hàm dễ tính tốn, hỗ trợ nhiều phương pháp biểu diễn liệu, ñồng thời ñược ứng dụng nhiều tốn khai phá chuỗi thời gian tìm kiếm tương tự, gom cụm, phân lớp, phát chuỗi bất đồng Mặc dù có hàm tính khoảng cách cho kết xác hàm Euclid (ví dụ hàm tính độ xoắn thời gian) chúng thích hợp cho loại liệu định khơng áp dụng ñược cho loại liệu khác Mặt khác, hàm Euclid lại áp dụng phổ biến cho nhiều loại liệu khác mà độ xác chấp nhận Hơn nữa, số hàm tính khoảng cách khác địi hỏi phải tinh chỉnh thơng số trước áp dụng vào tính tốn thực tế (ví dụ hàm tính độ xoắn thời gian phải tinh chỉnh kích thước cửa sổ xoắn), áp dụng hàm Euclid, ta cần chuẩn hóa chuỗi thời gian mà khơng cần quan tâm đến thơng số khác Các giải thuật tìm kiếm chuỗi bất đồng chọn HOT SAX EHOT Chúng tơi chọn giải thuật để giải tốn tìm kiếm chuỗi bất đồng chúng dễ sử dụng, cho kết xác, địi hỏi thơng số chiều dài chuỗi bất ñồng, chúng chạy thực nghiệm mà khơng cần phải 91 huấn luyện trước số giải thuật khác (ví dụ giải thuật Tarzan) Sau tìm hiểu phương pháp rời rạc hóa iSAX, chúng tơi đề cách ứng dụng đặc tính đa mức phân giải, quy tắc chuyển ñổi ñộ phân giải, cấu trúc mục, giải thuật tìm kiếm cấu trúc mục iSAX vào tốn tìm kiếm chuỗi bất đồng Qua đó, số giải thuật đề xuất (như giải thuật xếp chuỗi bất ñồng, giải thuật tìm kiếm xấp xỉ so trùng khơng-tầm-thường, giải thuật tìm kiếm xác so trùng khơng-tầm-thường, giải thuật HOTiSAX, giải thuật EHOTiSAX) nhằm ứng dụng iSAX vào giải thuật cụ thể HOT SAX EHOT Sau ñề cách ứng dụng iSAX vào giải thuật HOT SAX EHOT, thực thành hệ thống chung cho tốn tìm kiếm chuỗi bất đồng Cụ thể, chúng tơi thực giải thuật: HOT SAX, EHOT, HOTiSAX, EHOTiSAX Hệ thống ñã chạy thực nghiệm tập liệu: ERP, EEG, KOSKI, POWER, STOCK với chiều dài khác nhau: 5000, 10000, 15000, 20000, so sánh ñộ hiệu dựa tiêu chí: số lần gọi hàm tính khoảng cách không gian nguyên thủy (hàm Euclid) thời gian chạy (CPU runtime) giải thuật Qua thực nghiệm, chúng tơi thấy HOTiSAX hoạt động hữu hiệu nhiều so với HOTSAX EHOTiSAX hoạt ñộng hữu hiệu EHOT 6.2 Những đóng góp đề tài • Luận văn ñã nêu số nhận xét ưu ñiểm nhược ñiểm giải thuật phát bất thường ñề cách ứng dụng phương pháp rời rạc hóa iSAX vào tốn tìm kiếm chuỗi bất đồng • Đề xuất số giải thuật hỗ trợ cho cơng tác nói giải thuật xếp chuỗi bất ñồng, giải thuật tìm kiếm xấp xỉ so trùng khơng-tầm-thường, giải thuật tìm kiếm xác so trùng khơng-tầm-thường 92 • Đề xuất giải thuật tìm kiếm chuỗi bất đồng cải tiến HOTiSAX EHOTiSAX Giải thuật HOTiSAX cải tiến cách sinh heuristic vịng lặp ngồi so với giải thuật HOT SAX cách quan tâm ñến thứ tự duyệt chuỗi từ SAX ñược chọn, ñồng thời khắc phục nhược ñiểm cách sinh heuristic vòng lặp cách sử dụng giải thuật tìm kiếm xác so trùng khơng-tầm-thường mục iSAX Tương tự, giải thuật EHOTiSAX cải tiến cách sinh heuristic vịng lặp ngồi kiểu HOT so với giải thuật EHOT giải thuật xếp chuỗi bất đồng, đồng thời sử dụng chế tìm kiếm xác so trùng khơng-tầm-thường để tránh trường hợp xấu cách sinh heuristic vòng lặp giải thuật EHOT • Để kiểm nghiệm độ hiệu giải thuật HOTiSAX EHOTiSAX, chúng tơi thực thành hệ thống tổng qt cho tốn tìm kiếm chuỗi bất ñồng thử nghiệm liệu khác với thông số khác Kết cho thấy, HOTiSAX hiệu HOT SAX nhiều lần EHOTiSAX hiệu EHOT 6.3 Hướng phát triển Đề tài đề cập đến tốn khai phá liệu chuỗi thời gian toán biểu diễn liệu chuỗi thời gian, toán lập mục liệu chuỗi thời gian, tốn tìm kiếm chuỗi bất đồng Từ ñó, ñề tài ñề cách tiếp cận khác để giải tốn tìm kiếm chuỗi bất ñồng Tuy nhiên, ñề tài nhiều ñiểm cần phải nghiên cứu để hồn thiện Đề tài thực nghiệm với tập liệu: ERP, EEG, POWER, KOSKI, STOCK, nên khơng tránh khỏi thiếu sót Bên cạnh chiều dài chuỗi liệu thời gian ban ñầu chưa đủ lớn (chúng tơi thực nghiệm với chiều dài tối ña 20000) nên chưa ñánh giá hết ñộ hiệu phương pháp iSAX áp dụng vào tốn tìm chuỗi bất đồng Do đó, cần phải kiểm nghiệm nhiều tập liệu 93 kiểm nghiệm với chiều dài chuỗi liệu thật lớn ñể kết ñề tài ñược xác Các ñề xuất mở rộng ñề tài sau: • Chúng tơi cải thiện cách sinh heuristic vịng lặp ngồi kiểu HOT EHOT cịn kiểu sinh heuristic vịng lặp ngồi cịn lại (SORT, SORT REV, SELECT, PAR, PAR REV, HOT LIKE, SEQ, SEQ REV) chưa có điều kiện khảo sát Chúng nghĩ xếp chuỗi dựa vào mức phân giải cao thứ tự duyệt chuỗi cho vịng lặp ngồi hữu hiệu Thời gian tới, thực ý tưởng kiểm nghiệm ñộ hiệu • Giải thuật HOT SAX đạt hiệu tốt với giá trị α (mức phân giải) nhỏ (3 4) Lý α lớn số từ SAX mà chuỗi ánh xạ nhiều từ SAX biểu diễn cho chuỗi Dẫn đến, cách sinh heuristic vịng lặp khơng đạt hiệu (vì khả tìm thấy chuỗi so trùng khơng-tầm-thường nút có từ SAX biểu diễn với chuỗi xét vịng lặp ngồi thấp) Chúng tơi nghĩ với α lớn (lớn ñến mức ñộ ñịnh), với cách sinh heuristic vậy, thứ tự duyệt chuỗi tốt Hiệu cách sinh heuristic vòng lặp α lớn cải thiện cách tìm ngược lên nút cha có độ phân giải thấp (nhờ cấu trúc mục iSAX) khơng tìm thấy chuỗi so trùng không-tầm-thường nút Thời gian tới thực ý tưởng kiểm nghiệm độ hiệu 94 Tài liệu tham khảo [1] A Guttman (1984) R-tree: A dynamic index structure for spatial searching In SIGMOD '84, Proceedings of 20th International Conference on Very Large Data Bases Morgan Kaufmann [2] B Lkhagva, Y Suzuki and K Kawagoe (2006) New Time Series Data Representation ESAX for Financial Applications In proceedings of the International Special Workshop on Databases for Next-Generation Researchers (SWOD 2006) in conjunction with International Conference on Data Engineering, ICDE 2006, Georgia, USA, pp 17-22 [3] B Whitehead and W A Hoyt (1993) A function approximation approach to anomaly detection in propulsion system test data In Proc AIAA/ SAE/ASME/ASEE 29th Joint Propulsion Conference, Monterey, CA, June 1993 [4] C Faloutsos, A.M Ranganathan, and Y Manolopoulos (1994) Fast Subsequence Matching in Time-Series Databases Proc ACM-SIGMOD Conf., pp 419-429, May 1994 [5] C Faloutsos, M Ranganathan & Y Manolopoulos (1994) Fast Subsequence Matching in Time-Series Databases In proceedings of the ACM SIGMOD Int’l Conference on Management of Data May 24-27, Minneapolis, MN pp 419-429 [6] C Faloutsos, M Ranganathan & Y Manolopoulos (1994) Fast Subsequence Matching in Time-Series Databases In proceedings of the ACM SIGMOD Int’l Conference on Management of Data May 24-27, Minneapolis, MN pp 419-429 [7] C Shahabi, X Tian, and W Zhao (2000) Tsa-tree: A wavelet-based approach to improve the efficiency of multi-level surprise and trend queries In Proc 12th International Conference on Scientific and Statistical Database Management 95 [8] C.A Ratanamahatana, E Keogh, A.J Bagnall, S Lonardi (2005) A novel bit level time series representation with implications for similarity search and clustering In proceedings of advances in knowledge discovery and data mining, 9th Pacific-Asia conference, Hanoi Vietnam, May 18-20, pp 771-777 [9] [10] Colors of noise at http://en.wikipedia.org/wiki/Colors_of_noise D Berndt and J Clifford (1994) Using dynamic time warping to find patterns in time series In proceedings of AAAI Workshop on Knowledge Discovery in Databases, KDD-94, Seattle, Washington, USA, pp 359-370 [11] D Dasgupta and S Forrest (1999) Novelty detection in time series data using ideas from immunology In proceedings of The International Conference on Intelligent Systems [12] E Keogh (2006) A Tutorial on Indexing and Mining Time Series Data In Proceedings of the 32th International Conference on Very Large Databases, VLDB2006, Seoul, Korea [13] E Keogh (2007) Mining shape and time series databases with symbolic representations Tutorial of the 13rd ACM Interantional Conference on Knowledge Discovery and Data Mining, August 12-15, 2007 [14] E Keogh and M Pazzani (1998) An enhanced representation of time series which allows fast and accurate classification, clustering and relevance feedback In proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, New York, NY, Aug 27-31 pp 239-241 [15] E Keogh and S Kasetty (2002) On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration In proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 96 [16] E Keogh et al (2001) An online algorithm for segmenting time series In proceedings of the IEEE International Conference on Data Mining, California, USA, pp 289-296 [17] E Keogh, J Lin and A Fu (2005) HOT SAX: Efficiently Finding the Most Unusual Time Series Subsequence In Proc of the 5th IEEE International Conference on Data Mining (ICDM 2005), pp 226 - 233, Houston, Texas, Nov 27-30, 2005 [18] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra (2001) Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, Vol 3, No 3, 2000, pp 263-286 [19] E Keogh, K Chakrabarti, M Pazzani and S Mehrotra (2001) Locally adaptive dimensionality reduction for indexing large time series databases In proceedings of the 2001 ACM SIGMOD Conference on Management of Data, May 21-24, 2001, pp 151-162 [20] E Keogh, K Chakrabarti, M.J Pazzani and S Mehrotra (2001) Dimensionality Reduction for Fast Similarity Search in Large Time Series Databases KAIS 3(3), 263–286 [21] E Keogh, S Lonardi, and W Chiu (2002) Finding Surprising Patterns in a Time Series Database In Linear Time and Space In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 26, 2002 Edmonton, Alberta, Canada pp 550-556 [22] E Keogh, S Lonardi, and W Chiu (2002) Finding Surprising Patterns in a Time Series Database in Linear Time and Space In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 26, 2002 Edmonton, Alberta, Canada pp 550-556 97 [23] E Ouatik, A Elkharraz, I Daoudi, D Aboutajdine (2007) Vector Approximation Databases based Information Indexing and for High-Dimensional Communication Technologies Multimedia International Symposium, ICTIS’07, Fes, Morocco, 2007 [24] J Lin, E Keogh, S Lonardi, & B Chiu (2003) A Symbolic Representation of Time Series, with Implications for Streaming Algorithms In proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13 [25] J Shieh and E Keogh (2008) ISAX: Indexing and Mining Terabyte Sized Time Series SIGKDD 2008 [26] K Chan & A W Fu (1999) Efficient Time Series Matching by Wavelets In proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26 pp 126-133 [27] M Vlachos, D Gunopulos, G Das (2004) Indexing Time Series under Condition of Noise In M Last, A Kandel & H Bunke (Eds.), Data Mining in Time Series Databases, World Scientific Publishing [28] Mai Thai Son, Duong Tuan Anh (2010) Some Novel Heuristics for Finding the Most Unusual Time Series Subsequences In Advances in Intelligent Information and Database Systems, Ngoc Thanh Nguyen, R Katarzyniak, S.M Chen (Eds.), Studies in Computational Intelligence, No 283, Springer-Verlag, pp 229-240 [29] Q Chen, L Chen, X Lian, Y Liu & J Yu (2007) Indexable PLA for effienct similarity search In Proc of the VLDB 2007 Vienna, Austria September 2328 98 [30] Q Chen, L Chen, X Lian, Y Liu, and J.X Yu (2007) Indexable PLA for Efficient Similarity Search Proc 33rd Int'l Conf Very Large Data Bases (VLDB), 2007 [31] R Agrawal, C Faloutsos, A N Swami (1993) Efficient Similarity Search In Sequence Databases In proceedings of the 4th International Conference on Foundations of Data Organization and Algorithms, p.69-84, October 13-15, 1993 [32] R Popivanov, Miller (2002) Similarity Search Over Time Series Data Using Wavelets, ICDE 2002, San Jose, CA, 26/2/2002 - 1/3/2002 [33] R.J Larsen and M.L Marx (1986) An Introduction to Mathematical Statistics and Its Applications Prentice Hall, Englewood, Cliffs, N.J 2nd Edition [34] S Chakrabarti, S Sarawagi, and B Dom (1998) Mining surprising patterns using temporal description length In proceedings of the 24th Int Conf Very Large Data Bases, pages 606-617 [35] S Park, W.W Chu, J Yoon, and C Hsu (2000) Efficient Searches for Similar Subsequences of Different Lengths in Sequence Databases Proc Int'l Conf Data Eng., Feb 2000 [36] T Yairi, Y Kato, and K Hori (2001) Fault detection by mining association rules from house-keeping data In Proc of International Symposium on Artificial Intelligence, Robotics and Automation in Space [37] W Feller (1968) An introduction to Probability Theory and its Applications Wiley, New York [38] E Keogh, X Xi, L Wei, & C.A Ratanamahatana (2006) The UCR Time series Classification/Clustering Homepage: www.cs.ucr.edu/~eamonn/time_series_data 99 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Ad hoc query Adaptive piecewise constant approximation Amplitude scale Approximate search Augmented trie Base cardinality Base line Brand-and-bound search Breakpoint Categorization Classification Clipped data Clustering Codeword Continuity Data adaptive Data dictated Data normalization Deletion Deviation Dimensionality reduction Discord Discrete Fourier transform Discrete Wavelet transform Discretizeation Distance Dynamic time warping Extended SAX Feature Hidden Markov model Hierarchical tree Indexable SAX Indexing Insertion Interesting behavior Truy vấn ngẫu nhiên Xấp xỉ số đoạn thích nghi Co giãn biên độ Tìm kiếm xấp xỉ Cây gia tố Lượng số Đường Tìm kiếm nhánh cận Điểm ngắt Phân loại liệu Phân loại Xén liệu Gom cụm Từ mã Tính liên tục Thích nghi liệu Điều khiển liệu Chuẩn hóa liệu Xóa nút Độ lệch Thu giảm số chiều Chuỗi bất ñồng Phép biến ñổi Fourier rời rạc Phép biến ñổi Wavelet rời rạc Rời rạc hóa Khoảng cách Xoắn thời gian động Phương pháp SAX mở rộng Đặc trưng Mơ hình Markov Ẩn Cây phân cấp Phương pháp SAX khả mục Lập mục Chèn nút Hành vi quan tâm Viết tắt APCA DFT DWT DTW HMM iSAX A1 Internal Node Longest common subsequence Lower bound Minimum bounding rectangles Minimum-Cut Monotonicity Multiresolution Neighborhood Non data adaptive Non-self match Normal behavior Novel behavior Novelty detection Overlapping region Percentage of disk I/Os Piecewise aggregate approximation Piecewise linear approximation Query data processing Representation of data Root Node Segment Shifting Similarity measure Similarity search Sliding window Split policy Subsequence Subsequence matching Sufix tree Summarization Surprising behavior Symbolic Aggregate Approximation Terminal Node Time series Time warping Trail Upper bound Warping window Word Zero-Mean normalization Nút trung gian Chuỗi chung dài Chặn Hình chữ nhật bao đóng nhỏ Nhát cắt nhỏ Tính đơn điệu Đa mức phân giải Nhóm liền kề Khơng thích nghi liệu So trùng khơng tầm thường Hành vi bình thường Hành vi lạ thường Phát ñiểm bất thường Vùng phủ lấp Tỉ lệ phần trăm số lần truy xuất ñĩa Xấp xỉ gộp ñoạn Xấp xỉ tuyến tính ñoạn Truy vấn liệu Biểu diễn liệu Nút gốc Phân ñoạn liệu Tịnh tiến Độ ño tương tự Tìm kiếm tương tự Cửa sổ trượt Chiến lược phân tách Chuỗi So trùng chuỗi Cây hậu tố Tóm tắt Hành vi gây ngạc nhiên Xấp xỉ gộp ký hiệu hóa Nút Chuỗi thời gian Xoắn thời gian Vết Chặn Cửa sổ xoắn Từ Chuẩn hóa trung bình zero LCSS MBR PAA PLA SAX A2 PHỤ LỤC B: LÝ LỊCH TRÍCH NGANG Họ tên: Huỳnh Trần Quốc Bửu Ngày, tháng, năm sinh: 02 – 11 – 1985 Nơi sinh: An Giang Địa liên lạc: 416/13 Âu Cơ, Phường 10, Quận Tân Bình, TP.HCM Số điện thoại: 0919 173 305 Q TRÌNH ĐÀO TẠO Năm 2003 – 2008: Sinh viên Đại học trường ĐH Bách Khoa Tp HCM, Khoa Công Nghệ Thông Tin Năm 2008 – nay: Học viên Cao học trường ĐH Bách Khoa Tp HCM, Khoa Khoa Học Máy Tính QUÁ TRÌNH CƠNG TÁC 2008 – nay: Lập trình viên cơng ty TMA, Quận Phú Nhuận, Tp Hồ Chí Minh A3 ... NGHIÊN CỨU PHƯƠNG PHÁP BIỂU DIỄN CHUỖI THỜI GIAN iSAX VÀ ỨNG DỤNG PHƯƠNG PHÁP NÀY VÀO BÀI TOÁN NHẬN DẠNG CHUỖI CON BẤT THƯỜNG NHẤT TRONG DỮ LIỆU CHUỖI THỜI GIAN ... diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng toán khai phá liệu chuỗi thời gian Vì liệu chuỗi thời gian lớn, lĩnh vực ứng dụng ngày phát triển, nên địi hỏi cần có phương pháp biểu diễn. .. phương pháp biểu diễn liệu chuỗi thời gian giải thuật tìm kiếm chuỗi bất ñồng ñược chọn Trong số phương pháp biểu diễn liệu chuỗi thời gian, phương pháp SAX iSAX phương pháp rời rạc hóa định

Định dạng
Số trang	117
Dung lượng	1,94 MB