Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài

112 8 0
Nhận dạng motif trên dữ liệu chuỗi thời gian không cần xác định thông số chiều dài

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN VĂN NHẤT NHẬN DẠNG G MOTIFS TRÊN DỮ LIỆU CH CHUỖI THỜI GIAN KHÔNG G CẦN XÁC ĐỊNH THÔNG SỐ Ố CHIỀU DÀI Chuyên ngành: Khoaa hhọc máy tính Mã số: 60.48.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 06 năm 2013 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS TS Dương Tuấn Anh Cán chấm nhận xét : TS Võ Thị Ngọc Châu Cán chấm nhận xét : TS Phạm Văn Chung Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 23 tháng 07 năm 2013 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: TS Huỳnh Tường Nguyên…………………….………….…… Thư ký: TS Lê Thanh Vân………………………………………….…… Giáo viên phản biện 1: TS Phạm Văn Chung…………………………… Giáo viên phản biện 1: TS Võ Thị Ngọc Châu…………………… …… Uỷ viên: PGS TS Dương Tuấn Anh………………… Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) Chủ tịch hội đồng đánh giá LV Bộ môn quản lý chuyên ngành ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Văn Nhất MSHV:10070490 Ngày, tháng, năm sinh: 26/12/1984 Nơi sinh: Bình Định Chuyên ngành: Khoa Học Kỹ Thuật Máy Tính Mã số : 60.48.01… I TÊN ĐỀ TÀI: Nhận dạng motifs liệu chuỗi thời gian không cần xác định thông số chiều dài II NHIỆM VỤ VÀ NỘI DUNG: Hiện thực giải thuật phát motif liệu chuỗi thời gian mà không cần xác định trước thông số chiều dài motif Giải thuật cho phép phát motif có chiều dài khác Đồng thời luận văn đưa kỹ thuật cải tiến áp dụng phép vị tự liệu chuỗi thời gian kết hợp với độ đo tương tự Euclid để tăng hiệu suất thời gian thực thi giải thuật III NGÀY GIAO NHIỆM VỤ: 02/07/2012 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2013 V CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh Tp HCM, ngày 21 tháng 06 năm 2013 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA (Họ tên chữ ký) GVHD: PSG TS Dương Tuấn Anh LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chưa có phần nội dung luận văn nộp để lấy cấp trường trường khác Ngày 10 tháng 06 năm 2013 Nguyễn Văn Nhất Nguyễn Văn Nhất_10070490 Trang i GVHD: PSG TS Dương Tuấn Anh LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến PGS TS Dương Tuấn Anh tận tình hướng dẫn, giúp đỡ tơi suốt trình làm luận văn tạo điều kiện để tơi hồn thành luận văn Xin chân thành cảm ơn đến quý Thầy Cô khoa Khoa học Kỹ Thuật Máy Tính truyền đạt cho kiến thức quý báu suốt q trình học tập trường Cuối cùng, tơi cảm ơn gia đình, người thân bạn bè động viên tạo điều kiện tốt để hồn thành luận văn Qua tơi xin cảm ơn anh chị bạn nhóm nghiên cứu giúp đỡ, góp ý cho tơi suốt trình thực luận văn Nguyễn Văn Nhất_10070490 Trang ii GVHD: PSG TS Dương Tuấn Anh TÓM TẮT LUẬN VĂN Gần đây, việc nghiên cứu rút trích hữu hiệu mẫu khơng biết trước, mẫu thường xuyên xuất liệu chuỗi thời gian, thu hút nhiều quan tâm nhà nghiên cứu Các mẫu gọi motif Các motif hữu ích cho công việc khai phá liệu chuỗi thời gian khác Do đó, việc tìm kiếm motif liệu chuỗi thời gian kỹ thuật phổ biến việc khai phá liệu chuỗi thời gian Một giải thuật phát motif áp dụng phổ biến phương pháp chiếu ngẫu nhiên (Random Projection Algorithm – RP) Phương pháp chiếu ngẫu nhiên thực đơn giản dễ tiếp cận Tuy nhiên phương pháp chạy lâu với liệu chuỗi thời gian có kích thước lớn, đồng thời thông số giải thuật phải xác định cách ‘thử sửa sai’ Ngoài ra, hầu hết giải thuật phát motif đòi hỏi phải cung cấp trước chiều dài motif cần tìm Và trở ngại lớn sử dụng giải thuật phát motif Luận văn dựa vào tiếp cận để phát motif mà không cần xác định trước thông số chiều dài motif Cách tiếp cận dựa nguyên lý chiều dài mô tả tối thiểu (Minimum Description Length - MDL) Nguyên lý MDL cho phép xác định cách động chiều dài tối ưu motif Cách tiếp cận Tanaka, Iwamoto Uehara đề xuất năm 2005 Luận văn áp dụng kỹ thuật để cải tiến giải thuật việc tính độ tương tự hai chuỗi thời gian có độ dài khác Đó áp dụng phép vị tự (Homothetic Transformation) chuỗi thời gian, sau dùng phương pháp tính độ tương tự Euclid Cải tiến làm tăng hiệu suất thời gian thực thi giải thuật lên nhiều so với đề xuất ban đầu tác giả dùng phương pháp xoắn thời gian động (Dynamic Time Warping - DTW) để tính độ tương tự hai chuỗi thời gian Nguyễn Văn Nhất_10070490 Trang iii GVHD: PSG TS Dương Tuấn Anh ABSTRACT Recently, the research on efficent extraction of previously unknown, frequently appearing patterns in a time-series data, has received much attention These patterns are called ‘motifs’ Motifs are useful for various time-series data mining Therefore, motif discovery in a time-series is one of the popular techniques for data mining One of the most popular motif discovery algorithm is Random Projection Algorithm The algorithm is implemented simply and easily to understand However, it takes this algorimthm a long time to apply for large time-series In addition, its parameters are determined by ‘try and correct mistake’ Almost motif discovery algorithms require to pass the motif length parameter to them And this is one of inconveniences when using the algorithms The thesis based on a new approach to discover motif without motif length is Minimum Description Length (MDL) principle MDL principle dynamically determines an optimal length of a motif candidate This approach is proposed by Tanaka, Iwamoto and Uehara in 2005 In this thesis, we also apply an technique to improve the algorithm in calculating of measure of every two different length time-series It’s an association between homothetic transformation for time-series and Euclidean measure This improvement speeds up our algorithm And run-time of our algorithm is faster many times than the algorithm associcated with Dynamic Time Warping measure Nguyễn Văn Nhất_10070490 Trang iv GVHD: PSG TS Dương Tuấn Anh MỤC LỤC MỤC LỤC v DANH MỤC HÌNH ix CHƯƠNG PHÁT BIỂU VẤN ĐỀ 1.1 Giới thiệu đề tài 1.2 Mục đích nghiên cứu 1.3 Những kết đạt 1.4 Cấu trúc luận văn CHƯƠNG CƠ SỞ LÝ THUYẾT VÀ CÁC CƠNG TRÌNH LIÊN QUAN 2.1 Các độ đo tương tự 2.1.1 Độ đo Euclid .5 2.1.2 Độ đo xoắn thời gian động 2.2 Phương pháp thu giảm số chiều xấp xỉ gộp đoạn PAA 2.3 Phương pháp rời rạc hoá xấp xỉ gộp ký hiệu SAX 11 2.4 Một số định nghĩa 13 2.4.1 Chuỗi thời gian 13 2.4.2 Chuỗi 14 2.4.3 Chuỗi so trùng 14 2.4.4 Chuỗi so trùng tầm thường 15 2.4.5 Motif bậc K .15 2.5 Giải thuật Brute-Force 16 2.6 Các cơng trình liên quan 18 2.6.1 Giải thuật phát motif dựa vào phương pháp chiếu ngẫu nhiên 18 2.6.2 Giải thuật phát motif MK 20 Nguyễn Văn Nhất_10070490 Trang v GVHD: PSG TS Dương Tuấn Anh 2.6.3 Giới thiệu sơ lược giải thuật phát motif Tanaka, Iwamoto Uehara 26 2.7 Kết luận 28 CHƯƠNG PHƯƠNG PHÁP THỰC HIỆN 29 3.1 Phương pháp giải vấn đề 29 3.2 Phương pháp phát motif không cần xác định chiều dài dựa nguyên lý MDL 31 3.2.1 Sơ đồ giải thuật MD 31 3.2.2 Chuyển đổi chuỗi thời gian sang dạng ký hiệu .33 3.2.3 Đánh giá ứng viên motif dựa nguyên lý MDL 34 3.2.4 Rút trích motif từ chuỗi ký hiệu hành vi BS 35 3.3 Mở rộng cải tiến giải thuật 38 3.3.1 Chỉnh sửa liệu thời gian dạng ký hiệu hành vi BS 38 3.3.2 Phép vị tự liệu thời gian .41 3.3.3 Định nghĩa chiều dài mô tả cho chuỗi thời gian 43 3.3.4 Sơ đồ giải thuật phát motif EMD|DTW 46 3.3.5 Sơ đồ giải thuật phát motif EMD|HT .48 3.3.6 Hiện thực giải thuật mở rộng EMD|DTW 48 3.3.7 Hiện thực giải thuật mở rộng EMD|HT 50 CHƯƠNG HIỆN THỰC VÀ THỬ NGHIỆM 53 4.1 Thực nghiệm liệu ECG 512 điểm 55 4.1.1 Thực nghiệm giải thuật Brute-Force 55 4.1.2 Thực nghiệm giải thuật chiếu ngẫu nhiên 56 4.1.3 Thực nghiệm giải thuật MD 57 Nguyễn Văn Nhất_10070490 Trang vi GVHD: PSG TS Dương Tuấn Anh 4.1.4 Thực nghiệm giải thuật EMD|DTW 58 4.1.5 Thực nghiệm giải thuật EMD|HT 59 4.2 Thực nghiệm liệu ECG 8000 điểm 60 4.2.1 Thực nghiệm giải thuật Brute-Force 61 4.2.2 Thực nghiệm giải thuật chiếu ngẫu nhiên 62 4.2.3 Thực nghiệm giải thuật EMD|DTW 63 4.2.4 Thực nghiệm giải thuật EMD|HT 64 4.3 Thực nghiệm liệu ECG 144000 điểm 65 4.3.1 Thực nghiệm giải thuật Brute-Force 65 4.3.2 Thực nghiệm giải thuật chiếu ngẫu nhiên 65 4.3.3 Thực nghiệm giải thuật EMD|DTW 66 4.3.4 Thực nghiệm giải thuật EMD|HT 66 4.4 Thực nghiệm liệu Power 35040 điểm 67 4.4.1 Thực nghiệm giải thuật Brute-Force 68 4.4.2 Thực nghiệm giải thuật chiếu ngẫu nhiên 68 4.4.3 Thực nghiệm giải thuật EMD|DTW 68 4.4.4 Thực nghiệm giải thuật EMD|HT 69 4.5 Thực nghiệm liệu Memory 6875 điểm 70 4.5.1 Thực nghiệm giải thuật Brute-Force 71 4.5.2 Thực nghiệm giải thuật chiếu ngẫu nhiên 72 4.5.3 Thực nghiệm giải thuật EMD|DTW 73 4.5.4 Thực nghiệm giải thuật EMD|HT 74 4.6 Thực nghiệm liệu EEG 512 điểm 75 4.6.1 Thực nghiệm giải thuật Brute-Force 75 Nguyễn Văn Nhất_10070490 Trang vii Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh 4.7.3 Thực nghiệm giải thuật EMD|DTW Chúng thực nghiệm giải thuật EMD|DTW liệu ERP 6400 điểm với thông số sau Thông số Giá trị Ý nghĩa Window Size 96 Chiều dài cửa sổ trượt phép biến đổi PAA Segment Số segment cửa sổ trượt Alphabet Số ký tự alphabet khác Window Analysis Chiều dài cửa sổ phân tích Thời gian thực thi giải thuật 2,013 giây cho kết giống Hình 4.31 Hình 4.31 Motif phát giải thuật EMD|DTW với liệu ERP 6400 điểm Kết Hình 4.31 cho thấy số lượng thể motif 6, chiều dài thể motif 128, 192, 128, 144, 128, 128 điểm Nguyễn Văn Nhất_10070490 Trang 82 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh 4.7.4 Thực nghiệm giải thuật EMD|HT Chúng thực nghiệm giải thuật EMD|HT liệu ERP 6400 điểm với thông số sau Thông số Giá trị Ý nghĩa Window Size 96 Chiều dài cửa sổ trượt phép biến đổi PAA Segment Số segment cửa sổ trượt Alphabet Số ký tự alphabet khác Window Analysis Chiều dài cửa sổ phân tích Thời gian thực thi giải thuật 0,048 giây cho kết giống Hình 4.32 Hình 4.32 Motif phát giải thuật EMD|HT với liệu ERP 6400 điểm Kết Hình 4.32 cho thấy số lượng thể motif 8, chiều dài thể motif 160, 224, 160, 176, 160, 160, 160, 160 điểm Nhận xét Nguyễn Văn Nhất_10070490 Trang 83 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh Kết thực nghiệm thu hình: Hình 4.29, Hình 4.30, Hình 4.31 Hình 4.32 cho thấy ưu điểm giải thuật phát motif cải tiến sử dụng phép vị tự EMD|HT so với giải thuật chiếu ngẫu nhiên giải thuật sử dụng độ đo xoắn thời gian động EMD|DTW sau • Thời gian thực thi nhanh • Độ xác motif thu xác 4.2 Tổng kết nhận xét kết thực nghiệm thu tập liệu khác Hình 4.33 thể kết thực nghiệm giải thuật: Brute-Force (BF) giải thuật chiếu ngẫu nhiên (RP), EMD|DTW, EMD|HT tập liệu khác • Dữ liệu ECG 512 điểm • Dữ liệu ECG 8000 điểm • Dữ liệu ECG 144000 điểm • Dữ liệu Power 35040 điểm • Dữ liệu Memory 6875 điểm • Dữ liệu EEG 512 điểm • Dữ liệu ERP 6400 điểm Đối với tập liệu Power 35040 điểm ECG 144000 điểm khơng giải thuật chiếu ngẫu nhiên thời gian thực thi lâu so với giải thuật khác Đối với liệu ECG 144000 điểm giải thuật EMD|DTW khơng thời gian thực thi lâu Kết thực nghiệm thu từ ba giải thuật chiếu ngẫu nhiên, EMD|DTW EMD|HT cho thấy giải thuật phát motif mở rộng cải tiến EMD|HT cho kết xác thời gian thực thi nhanh nhiều so với hai giải thuật chiếu ngẫu nhiên giải thuật EMD|DTW Ngồi ra, giải thuật EMD|HT cịn Nguyễn Văn Nhất_10070490 Trang 84 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh khám phá motif có chiều dài khác giải thuật chiếu ngẫu nhiên lại không thực điều Tập liệu thời gian Chiều dài (điểm) ECG 512 ECG 8000 ECG Power 144000 35040 Memory 6875 EEG 512 ERP 6400 Giải thuật BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT BF RP EMD|DTW EMD|HT 2 22 21 14 21 Thời gian thực thi (giây) 0,557 0,030 0,034 0,003 409,916 24,387 56,067 0,113 Không xác định Không xác định Không xác định Không xác định Không xác định Không xác định 49 9,037 Không xác định Không xác định Không xác định Không xác định 33 420,175 30 1,160 34 22 10 2 39 31 236,726 0,420 1,211 0,071 0,478 0,027 0,025 0.001 135,911 0,155 2,013 0.048 Số lượng thể motif Hình 4.33 Kết thực nghiệm ba giải thuật tập liệu thời gian khác Nguyễn Văn Nhất_10070490 Trang 85 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh Hình 4.34 thể tính hữu hiệu giải thuật EMD|HT tập liệu thời gian khác í∗ℎ ℎữθ ℎ9ệθ 1ố Φầ∗ Ηọ9 ℎàϕ φí∗ℎ 5ℎΓả∗Η ℎ ψθ Φ9= ủ{ ψΘ |} 1ố Φầ∗ Ηọ9 ℎàϕ φí∗ℎ 5ℎΓả∗Η ℎ ψθ Φ9= ủ{ ∼?θφ≅ − •Γ? ≅ Kết Hình 4.34 cho thấy tốc độ giải thuật EMD|HT tăng nhiều lần so với giải thuật Brute-Force ECG 8000 Tập liệu Tính hữu hiệu ERP 6400 Memory 6875 Power 35000 ECG 144000 0.0001822 0.0000339 0.0000133 0.0001337 0.0000162 Hình 4.34 Tính hữu hiệu giải thuật EMD|HT tập liệu khác 4.3 Tính hiệu giải thuật 4.3.1 Tính hiệu nguyên lý MDL giải thuật phát motif không cần xác định thông số chiều dài Hình 4.35 motif phát từ chuỗi thời gian Cả hai chuỗi thời gian có mẫu có đặc điểm giống (đường in đậm) Tuy nhiên, chiều dài xuất đỉnh khác Hình 4.35 Motif phát từ liệu chuỗi thời gian [5] Nguyễn Văn Nhất_10070490 Trang 86 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh Ở ta thấy rằng, motif Hình 4.35(b) mẫu xuất thường xuyên Bởi vì, số lần xuất mẫu mà có đỉnh thấp mũi tên lớn số lần xuất motif Tuy nhiên, dựa ngun lý MDL, motif mơ tả chuỗi thời gian cho với chiều dài mô tả ngắn Đó nhờ ngun lý MDL khơng quan tâm đến số lần xuất mẫu mà cịn quan tâm đến chiều dài mơ tả liệu chuỗi thời gian cho Vì vậy, nói nguyên lý MDL hữu dụng cho việc phát motif liệu chuỗi thời gian 4.3.2 Tính hiệu giải thuật mở rộng EMD Hình 4.36(a) ví dụ motif phát giải thuật mở rộng EMD Trong Hình 4.36(b), chiều dài chuỗi khác Hình 4.36 Motif phát từ chuỗi thời gian (a) Motif phát giải thuật mở rộng EMD (b) Hình ảnh phóng lớn ba chuỗi motif (c) Motif rút trích giải thuật MD [5] Nguyễn Văn Nhất_10070490 Trang 87 Chương 4: Hiện thực thử nghiệm GVHD: PSG TS Dương Tuấn Anh Để so sánh giải thuật mở rộng EMD với giải thuật MD, xét motif phát giải thuật MD Hình 4.36(c) Hai chuỗi motif chứa thung lũng (valley) Tuy nhiên, thung lũng thứ ba mũi tên khơng phát motif Hiện tượng xuất giải thuật MD dị tìm mẫu có chiều dài giống Mặc khác, giải thuật mở rộng EMD xem chuỗi có thung lũng thứ ba motif dị tìm mẫu có chiều dài khác Vì vậy, giải thuật EMD hiệu so với giải thuật MD Do đó, giải thuật mở rộng EMD hữu dụng việc rút trích motif từ liệu chuỗi thời gian 4.3.2 Tính hiệu phép vị tự giải thuật EMD|HT Việc áp dụng phép vị tự giải thuật mở rộng làm tăng hiệu suất thời gian thực thi giải thuật lý sau Khi giải thuật mở rộng EMD áp dụng phép vị tự chuỗi để làm cho hai chuỗi có chiều dài khác trở thành hai chuỗi có chiều dài Khi đó, hàm tính khoảng cách Euclid sử dụng để tính tốn khoảng cách chúng thay dùng hàm tính khoảng cách xoắn thời gian động Vì độ phức tạp hàm tính tốn khoảng cách Euclid đơn giản nhiều so với hàm tính khoảng cách phương pháp xoắn thời gian động nên giải thuật EMD|HT tăng hiệu suất mặt thời gian thực thi đáng kể mà chất lượng motif tìm được cải thiện so với giải thuật EMD|DTW Điều dễ dàng thấy qua phần thực nghiệm tập liệu thời gian khác nhau, trình bày phần 4.1 Nguyễn Văn Nhất_10070490 Trang 88 Chương 5: Kết luận GVHD: PSG TS Dương Tuấn Anh CHƯƠNG KẾT LUẬN Chương trình bày kết đạt luận văn hướng phát triển đề tài tương lai 5.1 Kết đạt Luận văn thực thành công giải thuật khám phá motif không cần xác định thông số chiều dài MD EMD|DTW Giải thuật MD phát motif có chiều dài Trong đó, giải thuật EMD|DTW phát motif có chiều dài khác Tuy nhiên, vấn đề đặt cho giải thuật EMD|DTW thời gian thực thi giải thuật phương pháp xoắn thời gian động dùng để tính độ tương tự hai chuỗi có độ phức tạp lớn, tốn nhiều thời gian Do luận văn đưa cải tiến cho giải thuật EMD|DTW việc tính độ tương tự hai chuỗi thời gian phép vị tự kết hợp với độ đo Euclid Giải thuật EMD|HT áp dụng phép vị tự chuỗi thời gian để làm cho hai chuỗi thời gian ban đầu có độ dài khác thành hai chuỗi thời gian có chiều dài Sau dùng phương pháp tính độ tương tự Euclid để tính khoảng cách hai chuỗi Kết thực nghiệm cho thấy, giải thuật cải tiến EMD|HT cho kết xác thời gian chạy nhanh nhiều so với giải thuật EMD|DTW Tóm lại, luận văn thực thành công ba giải thuật: MD, EMD|DTW, EMD|HT tiến hành thực nghiệm giải thuật lên tập liệu thời gian khác 5.2 Hướng phát triển Luận văn đưa cải tiến cho giải thuật EMD cách áp dụng phép vị tự ứng viên motif để tăng thời gian thực thi giải thuật Nguyễn Văn Nhất_10070490 Trang 89 Chương 5: Kết luận GVHD: PSG TS Dương Tuấn Anh Tuy nhiên, để cải thiện hướng nghiên cứu cần tiếp cận nghiên cứu tương lai sau • Xác định cách động vài thông số giải thuật phát motif Những thơng số số phân đoạn, số ký hiệu SAX ngưỡng khoảng cách R • Khắc phục nhược điểm rút trích mẫu có chiều dài khác Giải thuật khơng thể rút trích chuỗi mà chiều dài chúng khác lớn chúng có hành vi giống Hình 5.1 minh hoạ điều Tất ba chuỗi có hành vi với chiều dài khác Ví dụ, chuỗi (a) chuyển đổi sang ‘AABCD’ chuỗi (b) chuyển đổi sang ‘ABCD’ Tuy nhiên, chuyển đổi chuỗi BS (a) sang ‘ABCD’, chúng hồn tồn giống Mặc khác, chuỗi (c) có chiều dài lớn so với chuỗi (b) Trong Hình 5.1, chuỗi BS (c) hoàn toàn khác so với chuỗi BS (b) hành vi chúng giống Hình 5.1 Các chuỗi BS có chiều dài khác [5] Nguyễn Văn Nhất_10070490 Trang 90 Phụ lục GVHD: PSG TS Dương Tuấn Anh TÀI LIỆU THAM KHẢO [1] Jessica Lin, Eamonn Keogh, Stefano Lonardi, Pranav Patel, 2002, “Finding Motifs in Time Series”,2nd Workshop on Temporal Data Mining (KDD’02) [2] Bill Chiu, Eamonn Keogh, Stefano Lonardi, “Probabilistic Discovery of Time Series Motifs”, ACM SIGKDD 2003, pp 493 – 498 [3] Lin J., Keogh, E., Lonardi, S., and Chiu, B., A Symbolic Representation of Time Series, with Implications for Streaming Algorithms, In Proceedings of 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discover, DMKD 2003, California, USA, pp 2-11 [4] Yoshiki Tanaka, Kuniaki Uehara, “Discover Motifs in Multi Dimensional Time Series Using the Principal Component Analysis and the MDL Principle”, Third International Conference, MLDM 2003 Leipzig, Germany, July 5–7, 2003 Proceedings, pp 252-265 [5] Yoshiki Tanaka, Kazuhisa Iwamoto, Kuniaki Uehara (2005), “Discovery of Time-Series Motif from Multi-Dimensional Data Based on MDL Principle”, Journal Machine Learning, Volume 58, Issue 2-3, pp 269-300 [6] Mueen, A., Keogh, E.,Zhu, Q (2009), Westoeve, B., “Extract Discovery Of Time Series Motifs”, In the Proceedings of SIAM International Conference on Data Minning, pp 473-484 [7] Dragomir Yankov, Eamonn Keogh, Jose Medina, Bill Chiu, Victor Zordan, “Detecting Time Series Motifs Under Uniform Scaling”, Proceeding KDD '07 Proceedings of the 13th ACM SIGKDD international conference on Knowledge discovery and data mining, pp 844-853 Nguyễn Văn Nhất_10070490 A Phụ lục GVHD: PSG TS Dương Tuấn Anh [8] Keogh, E., Chakrabarti, K., Pazzani,M and Mehrotra, S (2001), Dimensionality reduction for fast similarity search in large time series databases, Journal of Knowledge and Information Systems, Vol 3, No 3, pp 263-286 [9] Berndt D., J Clifford (1996), Finding patterns in time series: a dynamic programming approach, Journal of advandces in Knowledge Discovery and Data Mining, AAA/MIT Press, Menlo Park, CA, , pp 229-248 [10] Agrawal, R., Faloutsos, C.& Swami, A (1993) Efficient similarity search in sequence databases In proceedings of the 4th Int'l Conference on Foundations of Data Organization and Algorithms Chicago, IL, Oct 13-15 pp 69-84 [11] Chan, K & Fu, A W (1999) Efficient time series matching by wavelets In proceedings of the 15th IEEE Int'l Conference on Data Engineering Sydney, Australia, Mar 23-26 pp 126-133 [12] Ge, X & Smyth, P (2000) Deformable Markov model templates for timeseries pattern matching In proceedings of the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining Boston, MA, Aug 20-23 pp 81-90 [13] Kalpakis, K., Gada, D & Puttagunta, V (2001) Distance measures for effective clustering of ARIMA time-series In proceedings of the 2001 IEEE International Conference on Data Mining, San Jose, CA, Nov 29-Dec pp 273280 [14] Keogh, E., Chakrabarti, K., Pazzani, M & Mehrotra, S (2001) Locally adaptive dimensionality reduction for indexing large time series databases In proceedings of ACM SIGMOD Conference on Management of Data Santa Barbara, CA, May 21-24 pp 151-162 [15] Struzik, Z R & Siebes, A (1999) Measuring time series similarity through large singularfeatures revealed with wavelet transformation In proceedings of the Nguyễn Văn Nhất_10070490 B Phụ lục GVHD: PSG TS Dương Tuấn Anh 10th International Workshop on Database & Expert Systems Applications pp 162166 [16] Yi, B, K., & Faloutsos, C (2000) Fast time sequence indexing for arbitrary Lpnorms In proceedings of the 26st Intl Conference on Very Large Databases pp 385-394 [17] Durbin, R., Eddy, S., Krogh, A & Mitchison, G (1998) Biological sequence analysis: probabilistic models of proteins and nucleic acids Cambridge University Press [18] Hertz, G & Stormo, G (1999) Identifying DNA and protein patterns with statistically significant alignments of multiple sequences Bioinformatics, Vol 15, pp 563-577 [19] Pevzner, P A & Sze,S H (2000) Combinatorial approaches to finding subtle signals in DNA sequences In proceedings of the 8th International Conference on Intelligent Systems for Molecular Biology La Jolla, CA, Aug 19-23 pp 269-278 [20] Staden, R (1989) Methods for discovering novel motifs in nucleic acid sequences Comput Appl Biosci., Vol 5(5) pp 293-298 [21] Tompa, M & Buhler, J (2001) Finding motifs using random projections In proceedings of the 5th Int’l Conference on Computational Molecular Biology Montreal, Canada, Apr 22-25 pp 67-74 [22]http://www.physionet.org/physiobank/database [23] Keogh, E., Folias, T.: The UCR Time Series Data Mining Archive (2002), http://www.cs.ucr.edu/~eamonn/TSDMA/index.html [24]http://en.wikipedia.org/wiki/Homothetic_transformation [25] Huỳnh Nguyễn Tín, ‘Nhận dạng motif liệu chuỗi thời gian dựa vào điểm cực trị quan trọng’, Luận văn thạc sĩ, Khoa Khoa Học Kỹ Thuật Máy Tính, Trường Đại Học Bách Khoa TP Hồ Chí Minh, 7/2012 Nguyễn Văn Nhất_10070490 C Phụ lục GVHD: PSG TS Dương Tuấn Anh PHỤ LỤC: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH VIỆT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Behavior constraint Ràng buộc hành vi Behavior Symbol Ký hiệu hành vi BS Behavior Symbol subsequence Chuỗi ký hiệu hành vi BSS Breakpoint Điểm cắt Center of the pattern Trung tâm mẫu Classification Phân loại Clustering Gom cụm Different Length pattern Mẫu có chiều dài khác Dimensionality Số chiều Distance constraint Ràng buộc khoảng cách Efficiency Tính hiệu Dynamic Time Warping Xoắn thời gian động Frame Khung Homothetic Transformation Phép vị tự Match Chuỗi so trùng Measure Độ đo tương tự Minimum Description Principle Nguyên lý chiều dài mô tả tối thiểu Motif Chuỗi xuất thường xuyên liệu chuỗi thời gian Non-overlapping constraint Ràng buộc không chồng lấp lên Nguyễn Văn Nhất_10070490 DL pattern DTW MDL D Phụ lục GVHD: PSG TS Dương Tuấn Anh Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Non-trivial match Chuỗi so trùng không tầm thường Pattern Mẫu Piecewise Aggregate Approximation Phương pháp xấp xỉ gộp đoạn PAA Random Projection Phép chiếu ngẫu nhiên RP Same Length pattern Mẫu có chiều dài SL pattern Scaling Co giãn Segment Phân đoạn Shifting Phép tịnh tiến Stochastic model Mơ hình xác xuất Subsequence Chuỗi Symbolic Aggregate Approximation Phương pháp xấp xỉ gộp ký hiệu SAX Time-series Dữ liệu chuỗi thời gian TSS Time-series subsequence Chuỗi Triangular inequality Bất đẳng thức tam giác Trivial match Chuỗi so trùng tầm thường Nguyễn Văn Nhất_10070490 Viết tắt E Lý lịch trích ngang GVHD: PSG TS Dương Tuấn Anh LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Văn Nhất Nơi sinh: Bình Định Ngày sinh: 26/12/1984 Địa liên hệ: 1/17/14 Đường số 10, Phường 8, Quận Gò Vấp, Tp.HCM Email: nhatbk@gmail.com Điện thoại: 0983 778645 QUÁ TRÌNH ĐÀO TẠO Thời gian Trường đào tạo Chuyên ngành Trình độ đào tạo 2010 – 2013 Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa học Kỹ Thuật Máy Tính Thạc sĩ 2002 – 2007 Trường Đại Học Bách Khoa Tp Hồ Chí Minh Khoa học Kỹ Thuật Máy Tính Kỹ sư Q TRÌNH CƠNG TÁC Thời gian Đơn vị công tác 2007 – 2013 Công ty TNHH Augen Việt Nam Nguyễn Văn Nhất_10070490 Vị trí Kỹ sư phát triển phần mềm F ... phát motif liệu chuỗi thời gian mà không cần xác định trước thông số chiều dài motif Giải thuật cho phép phát motif có chiều dài khác Đồng thời luận văn đưa kỹ thuật cải tiến áp dụng phép vị tự liệu. .. giải vấn đề ? ?Nhận dạng motifs liệu chuỗi thời gian không cần xác định thông số chiều dài? ?? 1.3 Những kết đạt Luận văn đạt số kết sau • Hiện thực thành cơng giải thuật phát motif (motif discovery... Nơi sinh: Bình Định Chuyên ngành: Khoa Học Kỹ Thuật Máy Tính Mã số : 60.48.01… I TÊN ĐỀ TÀI: Nhận dạng motifs liệu chuỗi thời gian không cần xác định thông số chiều dài II NHIỆM

Ngày đăng: 20/03/2022, 01:20