Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
3 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - VŨ THỊ THÁI LINH PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO PHÉP BIẾN ĐỔI ESAX CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SỸ TP HỐ HỒ CHÍ MINH, tháng 06 năm 2014 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA - VŨ THỊ THÁI LINH PHÁT HIỆN MOTIF TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO PHÉP BIẾN ĐỔI ESAX CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01 LUẬN VĂN THẠC SĨ HƯỚNG DẪN KHOA HỌC: PGS TP HỐ HỒ CHÍ MINH, tháng 06 năm 2014 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG TP HCM Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn thạc sĩ bảo vệ tại: Trường đại học Bách Khoa – ĐHQG TP.HCM, ngày………tháng………năm……… Thành phần hội đồng đánh giá luận văn thạc sỹ gồm: Xác nhận chủ tịch hội đồng đánh giá luận văn Trưởng khoa quản lý chuyên ngành sau luận văn sữa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: VŨ THỊ THÁI LINH MSHV: 12070516 Ngày, tháng, năm sinh: 12/02/1982 Nơi sinh:TP.HCM Chuyên ngành: Khoa học máy tính Mã số : 60.48.01 I TÊN ĐỀ TÀI: Phát motif liệu chuỗi thời gian dựa vào phép biến đổi ESAX II NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu so sánh hiệu hai phương pháp rời rạc hóa SAX ESAX áp dụng vào giải thuật phát motif liệu chuỗi thời gian III NGÀY GIAO NHIỆM VỤ : IV NGÀY HOÀN THÀNH NHIỆM VỤ : V CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuấn Anh Tp HCM, ngày tháng năm 20 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) PGS TS Dương Tuấn Anh TRƯỞNG KHOA (Họ tên chữ ký) LỜI CẢM ƠN Trước tiên xin gửi lời cảm ơn sâu sắc chân thành đến PGS.TS Dương Tuấn Anh, người thầy tận tình bảo tơi suốt q trình thực luận văn cao học tạo điều kiện tốt để tơi hồn thành luận văn Tơi xin cảm ơn quý thầy cô trực tiếp gián tiếp truyền đạt kiến thức cần thiết q trình học tập trường Tơi xin cảm ơn gia đình, bạn bè động viên tạo điều kiện thuận lợi để tơi tiếp tục theo đuổi việc học tập nghiên cứu Một lần chân thành cảm ơn tất người i TÓM TẮT LUẬN VĂN Biểu diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng toán khai phá liệu chuỗi thời gian Hiện liệu chuỗi thời gian lớn, lĩnh vực ứng dụng ngày phát triển nên phương pháp biểu diễn chuỗi thời gian hợp lý cho loại liệu loại ứng dụng cụ thể nhằm cải thiện tốc độ độ xác hồn thành tốn địi hỏi cần thiết Đề tài tìm hiểu phương pháp rời rạc hóa liệu ESAX (phương pháp xấp xỉ gộp ký hiệu hóa mở rộng), so sánh mức hiệu dụng hai phép rời rạc hoá liệu SAX (phương pháp xấp xỉ gộp ký hiệu hoá) áp dụng vào toán phát motif tận dụng tính tìm kiếm xác phương pháp ESAX (một ưu mà phương pháp SAX được) để rút ngắn thời gian việc phát chuỗi motif Sau đề xuất cách ứng dụng phương pháp ESAX vào giải thuật Random Projection để phát motif Thực nghiệm so sánh, nhận thấy phương pháp đề xuất phát motif phép biến đổi ESAX xác giải thuật Random Projection phép biến đổi SAX với thời gian thực thi tương đương ii ABSTRACT The representation of time series plays more and more important role in time series data mining problems Since time series data have very big size, with many growing applications of time series data, it is necessary to have a suitable representation method for each kind of datasets and each kind of application which aims to improve the speed and the accuracy of the data mining solutions This thesis studies ESAX (Extended SAX) then applies this representation to motif discovery problem After that, we compare the efficiency of ESAX and SAX on the algorithm to discover motif We take advantage of desirable feature of ESAX (which SAX does not have) to shorten CPU time used for finding motif by using Random Projection Algorithm with ESAX representation The experimental results show that the proposed algorithm has the accuracy than the Random Projection algorithm on SAX representation in motif discovery problem while the execution time is equivalent iii LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày……….tháng…………năm…… Vũ Thị Thái Linh iv MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii LỜI CAM ĐOAN iv CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian 1.2 Khai phá motif chuỗi liệu thời gian 1.3 Mục tiêu giới hạn đề tài 1.4 Những kết đạt 1.5 Cấu trúc luận văn CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Một số khái niệm 2.1.1 Chuỗi (Subsequence) 2.1.2 Cửa sổ trượt (Slide window) 2.1.3 Trùng khớp (Match) 2.1.4 Trùng khớp không tầm thường (Non-Self Match) .9 2.1.5 K-motif 2.2 Các cơng trình độ đo tương tự 10 2.2.1 Độ đo Minkowski 10 2.2.2 Độ đo xoắn thời gian động (Dynamic Time Warping- DTW) 11 2.3 Các cơng trình biểu diễn chuỗi thời gian 14 2.3.1 Phép biến đổi Fourier rời rạc DFT 14 2.3.2 Phép biến đổi Wavelet rời rạc DWT 16 2.3.3 Phép xấp xỉ gộp đoạn PAA 17 v 2.3.4 Phép xấp xỉ gộp đoạn mở rộng EPAA (Extended PAA) 18 2.3.5 Phép xấp xỉ gộp ký hiệu hóa SAX 20 2.3.4.1 Chuẩn hóa liệu 20 2.3.4.2 Thu giảm số chiều qua PAA (xem 2.3.3) 21 2.3.4.3 Ký hiệu hóa chuỗi thời gian 21 2.3.4.4 Hàm tính độ đo tương tự 22 2.3.6 Phương pháp xấp xỉ gộp ký hiệu hoá mở rộng ESAX (Extended SAX) 24 2.4.Kết luận 27 CHƯƠNG 3: TỔNG THUẬT CÁC CƠNG TRÌNH LIÊN QUAN 28 3.1 Phát 1-Motif dựa vào giải thuật Brute Force 28 3.2 Phát Motif dựa vào giải thuật Random Projecttion 29 3.3 Kết luận 31 CHƯƠNG 4: PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ 33 4.1 Dùng cửa sổ trượt rút trích chuỗi 33 4.2 Thu giảm số chiều chuỗi theo phép biến đổi EPAA (xem 2.3.4) 33 4.3 Rời rạc hoá liệu chuỗi theo phép biến đổi ESAX (xem 2.3.6) 34 4.4 Xây dựng giải thuật Random Projection theo phép biến đổi ESAX 34 CHƯƠNG 5: THỰC NGHIỆM 38 5.1 Thực nghiệm giải thuật thực tập liệu 39 5.1.1 Dữ liệu điện tâm đồ (ECG) 7.000 điểm 42 5.1.2 Dữ liệu điện tâm đồ (ECG) 10.000 điểm 43 5.1.3 Dữ liệu điện não đồ (EEG) 12.137 điểm 44 5.1.4 Dữ liệu doanh nghiệp (ERP) 10.120 điểm .45 5.1.5 Dữ liệu MEMORY 12.000 điểm 46 5.1.6 Dữ liệu lượng (POWER) 12.000 điểm 47 5.1.7 Dữ liệu chứng khoán (STOCK) 5.056 điểm 48 vi ... 1: PHÁT BIỂU VẤN ĐỀ 1.1 Dữ liệu chuỗi thời gian Dữ liệu chuỗi thời gian liệu đo đạc cách theo thời gian Đối tượng liệu có hai hay nhiều chiều phải có chiều thời gian Có nhiều liệu có yếu tố thời. .. (anomaly) tìm chuỗi khác biệt với tất chuỗi khác liệu chuỗi thời gian Phát Motif (Motif detection) cho chuỗi thời gian Q, Motif chuỗi chưa biết trước xuất nhiều lần chuỗi liệu chuỗi thời gian dài... diễn liệu chuỗi thời gian ngày đóng vai trị quan trọng tốn khai phá liệu chuỗi thời gian Hiện liệu chuỗi thời gian lớn, lĩnh vực ứng dụng ngày phát triển nên phương pháp biểu diễn chuỗi thời gian