1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kết chuỗi con trên dữ liệu chuỗi thời gian dựa vào việc tìm chuỗi con chung dài nhất của hai chuỗi, sử dụng cây hậu tố

99 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN TRỌNG NHÂN KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO VIỆC TÌM CHUỖI CON CHUNG DÀI NHẤT CỦA HAI CHUỖI, SỬ DỤNG CÂY HẬU TỐ Ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2018 CƠNG TRÌNH ĐƢỢC HỒN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM Cán hƣớng dẫn khoa học: PGS TS Dƣơng Tuấn Anh Cán chấm nhận xét 1: Cán chấm nhận xét 2: Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 18 tháng năm 2018 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: Chủ tịch: Thƣ ký: Phản biện 1: Phản biện 2: Ủy viên: Xác nhận Chủ tịch Hội đồng đánh giá LV Trƣởng Khoa quản lý chuyên ngành sau luận văn đƣợc sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA KH & KT MÁY TÍNH ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Nguyễn Trọng Nhân MSHV: 1670229 Ngày, tháng, năm sinh: 16/05/1993 Nơi sinh: Quảng Ngãi Chuyên ngành: Khoa Học Máy Tính Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO VIỆC TÌM CHUỖI CON CHUNG DÀI NHẤT CỦA HAI CHUỖI, SỬ DỤNG CÂY HẬU TỐ II NHIỆM VỤ LUẬN VĂN: III NGÀY GIAO NHIỆM VỤ: 03/07/2017 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 18/06/2018 V CÁN BỘ HƢỚNG DẪN: PGS TS Dƣơng Tuấn Anh Tp HCM, ngày … tháng … năm 2018 CÁN BỘ HƢỚNG DẪN (Họ tên chữ ký) PGS TS Dƣơng Tuấn Anh TRƢỞNG KHOA KH & KTMT (Họ tên chữ ký) i LỜI CẢM ƠN Tôi trân trọng gửi lòng tri ân chân thành đến PGS TS Dƣơng Tuấn Anh Thầy hƣớng dẫn, động viên tơi q trình học làm việc với thái độ ân cần, bao dung, tận tụy nhà giáo chân Khơng mặt kiến thức chun mơn, mà Thầy cịn gián tiếp truyền đạt cho tơi nhiều học bổ ích sống Tơi chân thành cảm ơn q Thầy, q Cơ tận tình truyền đạt cho tơi nhiều tri thức hay q Những tri thức hữu ích với tơi suốt trình học tập trƣờng nhƣ tƣơng lai Tơi chân thành tri ân gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập, nghiên cứu Tôi trân trọng dâng tặng thành luận văn đến Cha Mẹ Nhờ công nuôi nấng, dạy dỗ Ngƣời mà đƣợc thừa hƣởng lợi ích nhƣ ngày hơm Qua đây, gửi lời cảm ơn chân thành đến anh, chị bạn hữu, đồng nghiệp tƣ vấn, góp ý đến tơi q trình thực luận văn ii TÓM TẮT LUẬN VĂN Dữ liệu chuỗi thời gian tồn nhiều ứng dụng thực tế, từ lĩnh vực khoa học kỹ thuật kinh tế, tài chủ đề quan trọng lãnh vực khai phá liệu Trong đó, so trùng chuỗi toán đƣợc quan tâm, nghiên cứu nhiều Kết chuỗi toán tổng quát toán so trùng chuỗi Đa phần nghiên cứu tiếp cận tốn kết chuỗi có hai hƣớng Hƣớng thứ kết chuỗi cách phân đoạn chuỗi thời gian sau dựa vào đoạn tìm đƣợc thực thao tác tìm kiếm chuỗi tƣơng tự Hƣớng thứ hai kết chuỗi cách chuyển hai chuỗi thời gian thành hai dòng ký tự tìm chuỗi chung dài hai dịng ký tự Trong đề tài này, chúng tơi thực theo hƣớng tìm chuỗi chung dài hai chuỗi đề nghị hƣớng tiếp cận cho toán việc sử dụng hậu tố (suffix tree) Về tiền xử lý liệu, luận văn sử dụng giải thuật trung bình zero để chuẩn hóa liệu Dựa vào kết đạt đƣợc áp dụng phƣơng pháp xấp xỉ gộp đoạn (PAA) Phép xấp xỉ gộp ký hiệu hóa (SAX) để chuyển chuỗi liệu số dạng dòng ký tự Về tốn tìm chuỗi chung dài nhất, luận văn sử dụng giải thuật hậu tố mảng hậu tố Ƣu điểm hƣớng tiếp cận thời gian xử lý nhanh có độ phức tạp tuyến tính Kết thực nghiệm cho thấy giải thuật chấp nhận đƣợc liệu lên đến hàng nghìn điểm với độ xác cao Ngồi ra, sau q trình tìm chuỗi chung dài nhất, luận văn sử dụng phƣơng pháp Jocor (Join on Correlation) để tính tƣơng quan chuỗi vừa tìm đƣợc để kiểm tra xem chuỗi chung dài tìm thấy có tƣơng ứng với chuỗi tƣơng quan hai chuỗi thời gian iii ABSTRACT Time series data exists in a wide range of practical applications, from the fields of science and technology to economics and finance, and is an important topic in data mining In that, the subsequence matching is a very basic problem that is interested, and being researched a lot The subsequence join between two time series is the more general problem of the subsequence matching Most of the research approaches to address the subsequence join problem has two directions The first approach segmenting the time series and then based on the extracted segments, it performs the subsequence matching Second direction converts the two time series into two strings and then find the longest common substring of the two strings In this topic, we follow the latter approach and propose a new approach to the problem by using the suffix tree For data preprocessing, the thesis uses a zero-mean normalization and then applies PAA and SAX transformations to convert the time series into character strings On the problem of finding the longest common subsequence of the two strings, the thesis uses either the suffix tree or the suffix array Advantages of this approach are fast processing time and linear complexity Experimental results show that this algorithm can work on datasets of the lengths up to thousands of data points with high accuracy In addition, after finding the longest common subsequence, the thesis uses the Join on Correlation (Jocor) method to calculate the Pearson’s correlation coefficient of the substring found in order to check if the longest common subsequence corresponds to the most correlated subsequence between the two time series iv LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình khác nhƣ ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Ngày 18 tháng 06 năm 2018 Nguyễn Trọng Nhân v MỤC LỤC LỜI CẢM ƠN i TÓM TẮT LUẬN VĂN ii ABSTRACT iii LỜI CAM ĐOAN iv MỤC LỤC v DANH SÁCH HÌNH ẢNH viii DANH SÁCH BẢNG x CHƢƠNG GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 1.1 Giới thiệu đề tài 1.1.1 Dữ liệu chuỗi thời gian 1.1.2 Bài toán kết chuỗi chuỗi liệu thời gian 1.2 Mục tiêu nhiệm vụ đề tài 1.3 Phƣơng pháp nghiên cứu 1.4 Ý nghĩa luận văn 1.5 Những kết đạt đƣợc luận văn 1.6 Bố cục luận văn CHƢƠNG CƠ SỞ LÝ THUYẾT 2.1 Độ đo khoảng cách 2.1.1 Độ đo Minkowski 2.1.2 Độ đo xoắn thời gian động 2.2 Các cơng trình biểu diễn chuỗi thời gian 10 2.2.1 Phƣơng pháp xấp xỉ gộp đoạn (PAA) 10 2.2.2 Phép xấp xỉ gộp ký hiệu hóa SAX 12 2.3 Chuỗi thời gian (Time series) 18 2.4 Chuỗi (Subsequence) 18 2.5 Lập trình song song hệ thống đa nhân (multi-core) 18 2.5.1 Xử lý song song 18 2.5.2 Parallel Extensions Net Framework 19 2.6 Kết luận chƣơng 20 vi CHƢƠNG CÁC CƠNG TRÌNH LIÊN QUAN 21 3.1 Cây hậu tố 21 3.1.1 Định nghĩa hậu tố 21 3.1.2 Xây dựng hậu tố giải thuật đơn giản 23 3.1.3 Giải thuật Ukkonen 25 3.1.4 Tìm chuỗi chung dài hậu tố 42 3.2 Mảng hậu tố: 45 3.2.1 Định nghĩa mảng hậu tố: 45 3.2.2 Tìm chuỗi chung dài mảng hậu tố 46 3.2.3 Xử lý song song mảng hậu tố 48 3.3 Các cơng trình liên quan đến kết chuỗi liệu chuỗi thời gian 49 3.3.1 Phƣơng pháp kết dựa hệ số độ tƣơng quan (Join on Correlation) 49 3.3.2 Phƣơng pháp kết hai vòng lặp lồng (Nested Loop Join) 50 3.3.3 Phƣơng pháp lập mục liệu chuỗi thời gian (Indexing) 50 3.3.4 Phƣơng pháp dựa vào phân đoạn không đồng (nonuniform segmentation) 51 3.3.5 Phƣơng pháp dựa độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 53 3.4 Kết luận chƣơng 53 CHƢƠNG PHƢƠNG PHÁP ĐỀ NGHỊ VÀ KẾT QUẢ THỰC NGHIỆM 54 4.1 Phƣơng pháp đề nghị 54 4.1.1 Khái quát toán kết chuỗi 54 4.1.2 Mơ hình đề nghị cho tốn kết chuỗi chung dài 55 4.2 Kết thực nghiệm 56 4.2.1 Môi trƣờng thực nghiệm 56 4.2.2 Dữ liệu thực nghiệm 56 4.2.3 Giao diện chƣơng trình Demo 56 4.2.4 Thực nghiệm độ tƣơng quan phƣơng pháp kết chuỗi đề xuất 58 4.2.4.1 Thực nghiệm với liệu Currency 59 vii 4.2.4.2 Thực nghiệm với liệu Wafer 61 4.2.4.3 Thực nghiệm với liệu ECG5000 63 4.2.4.4 Thực nghiệm với liệu LSF5 LSF6 65 4.2.4.5 Thực nghiệm với liệu LightCurve 67 4.2.4.6 Nhận xét 68 4.2.5 Thực nghiệm so sánh thời gian thực thi ba giải thuật hậu tố, mảng hậu tố, xử lý song song mảng hậu tố 69 4.2.5.1 So sánh thời gian thực thi tập liệu Currency 70 4.2.5.2 So sánh thời gian thực thi tập liệu Wafer 71 4.2.5.3 So sánh thời gian thực thi tập liệu ECG5000 72 4.2.5.4 So sánh thời gian thực thi tập liệu LSF5 LSF6 74 4.2.5.5 So sánh thời gian thực thi tập liệu LightCurve 75 4.2.5.6 Nhận xét 77 4.2.6 Nhận xét chung 77 CHƢƠNG TỔNG KẾT 79 5.1 Tổng kết nội dung luận văn 79 5.2 Những kết đạt đƣợc đề tài 79 5.3 Hƣớng phát triển 80 TÀI LIỆU THAM KHẢO 81 BẢNG THUẬT NGỮ ANH – VIỆT VÀ TỪ VIẾT TẮT A PHẦN LÝ LỊCH TRÍCH NGANG C 72 Thời gian xử lý dựa Số điểm Thời gian xử lý dựa Thời gian xử lý dựa ngắt hậu tố (s) mảng hậu tố (s) 0.366 0.262 0.186 0.326 0.259 0.175 0.311 0.255 0.180 0.316 0.256 0.173 0.295 0.286 0.174 0.346 0.325 0.183 0.291 0.310 0.196 10 0.302 0.251 0.175 11 0.283 0.294 0.167 12 0.318 0.354 0.178 13 0.303 0.249 0.182 14 0.300 0.251 0.167 15 0.287 0.248 0.198 16 0.284 0.251 0.169 17 0.328 0.276 0.193 18 0.279 0.256 0.172 xử lý song song mảng hậu tố (s) Bảng 4.15 Kết thực nghiệm tập liệu Wafer 4.2.5.3 So sánh thời gian thực thi tập liệu ECG5000 Dữ liệu đầu vào giải thuật Jocor : - Chuỗi liệu thời gian thứ nhất: từ chuỗi ECG5000 thứ ban đầu lấy điểm thời gian từ vị trí 144230 đến 146390 Chiều dài 2160 - Chuỗi liệu thời gian thứ hai: từ chuỗi ECG5000 thứ hai ban đầu lấy điểm thời gian từ vị trí 101000 đến 103160 Chiều dài 2160 - Chiều dài chuỗi chung tối thiểu cần tìm 160 73 Kết chuỗi chung có độ tƣơng quan dài tìm đƣợc giải thuật Jocor dài 162 điểm liệu Điểm bắt đầu chuỗi liệu ECG5000 thứ ban đầu vị trí 145234 Điểm bắt đầu chuỗi liệu ECG5000 thứ hai ban đầu từ vị trí 102004 Với độ tƣơng quan tìm đƣợc 0.9946 Thời gian thực thi 25.83s Thời gian xử lý dựa Số điểm Thời gian xử lý dựa Thời gian xử lý dựa ngắt hậu tố (s) mảng hậu tố (s) 0.405 0.320 0.211 0.476 0.322 0.242 0.390 0.366 0.216 0.383 0.328 0.211 0.391 0.373 0.252 0.403 0.309 0.224 0.401 0.370 0.220 10 0.396 0.356 0.235 11 0.364 0.340 0.222 12 0.372 0.314 0.210 13 0.429 0.321 0.213 14 0.386 0.312 0.210 15 0.372 0.312 0.209 16 0.343 0.332 0.201 17 0.360 0.307 0.205 18 0.372 0.349 0.223 xử lý song song mảng hậu tố (s) Bảng 4.16 Kết thực nghiệm tập liệu ECG5000  Nhận xét:  Thời gian tìm chuỗi chung dài giải thuật nhƣ sau  Xử lý song song mảng hậu tố: thời gian trung bình 0.219 s  Mảng hậu tố: thời gian trung bình 0.333 s 74  Cây hậu tố: thời gian trung bình 0.390 s  Jocor: thời gian thực thi 25.83 s 4.2.5.4 So sánh thời gian thực thi tập liệu LSF5 LSF6 Dữ liệu đầu vào giải thuật Jocor : - Chuỗi liệu thời gian thứ nhất: từ chuỗi LSF5 ban đầu lấy điểm thời gian từ vị trí 24150 đến 26300 Chiều dài 2150 - Chuỗi liệu thời gian thứ hai: từ chuỗi LSF6 ban đầu lấy điểm thời gian từ vị trí 24150 đến 26300 Chiều dài 2150 - Chiều dài chuỗi chung tối thiểu cần tìm 150 Thời gian xử lý dựa Số điểm Thời gian xử lý dựa Thời gian xử lý dựa ngắt hậu tố (s) mảng hậu tố (s) 0.471 0.388 0.231 0.373 0.338 0.240 0.393 0.372 0.207 0.425 0.307 0.206 0.373 0.366 0.219 0.396 0.423 0.232 0.379 0.332 0.241 10 0.404 0.320 0.205 11 0.358 0.312 0.195 12 0.335 0.329 0.218 13 0.338 0.328 0.221 14 0.337 0.317 0.232 15 0.327 0.336 0.207 16 0.341 0.484 0.237 17 0.321 0.461 0.255 18 0.350 0.388 0.215 xử lý song song mảng hậu tố (s) Bảng 4.17 Kết thực nghiệm tập liệu LSF5 LSF6 75 Kết chuỗi chung có độ tƣơng quan dài tìm đƣợc giải thuật Jocor dài 151 điểm liệu Điểm bắt đầu chuỗi liệu LSF5 ban đầu vị trí 25149 Điểm bắt đầu chuỗi liệu LSF6 ban đầu từ vị trí 25149 Với độ tƣơng quan tìm đƣợc 0.9970 Thời gian thực thi 21.505s  Nhận xét:  Thời gian tìm chuỗi chung dài giải thuật nhƣ sau  Xử lý song song mảng hậu tố: thời gian trung bình 0.223 s  Mảng hậu tố: thời gian trung bình 0.363 s  Cây hậu tố: thời gian trung bình 0.370 s  Jocor: thời gian thực thi 21.505 s 4.2.5.5 So sánh thời gian thực thi tập liệu LightCurve Dữ liệu đầu vào giải thuật Jocor : - Chuỗi liệu thời gian thứ nhất: từ chuỗi LightCurve thứ ban đầu lấy điểm thời gian từ vị trí 72990 đến 75440 Chiều dài 2450 - Chuỗi liệu thời gian thứ hai: từ chuỗi LightCurve thứ hai ban đầu lấy điểm thời gian từ vị trí 469320 đến 471770 Chiều dài 2450 - Chiều dài chuỗi chung tối thiểu cần tìm 450 Kết chuỗi chung có độ tƣơng quan dài tìm đƣợc giải thuật Jocor dài 450 điểm liệu Điểm bắt đầu chuỗi liệu LightCurve thứ ban đầu vị trí 73996 Điểm bắt đầu chuỗi liệu LightCurve thứ hai ban đầu từ vị trí 470325 Với độ tƣơng quan tìm đƣợc 0.9996 Thời gian thực thi 13.109s 76 Thời gian xử lý dựa Số điểm Thời gian xử lý dựa Thời gian xử lý dựa ngắt hậu tố (s) mảng hậu tố (s) 1.258 1.827 0.955 1.275 1.620 0.950 1.199 1.634 0.937 1.238 1.884 0.945 1.263 1.667 0.942 1.194 1.640 0.958 1.165 1.608 0.928 10 1.190 1.599 0.949 11 1.192 1.964 0.951 12 1.149 2.072 0.927 13 1.186 1.613 0.937 14 1.153 1.635 0.956 15 1.192 1.623 0.964 16 1.182 1.899 0.954 17 1.215 1.605 0.929 18 1.179 1.633 0.967 xử lý song song mảng hậu tố (s) Bảng 4.18 Kết thực nghiệm tập liệu LightCurve  Nhận xét:  Thời gian tìm chuỗi chung dài giải thuật nhƣ sau  Xử lý song song mảng hậu tố: thời gian trung bình 0.947 s  Mảng hậu tố: thời gian trung bình 1.720 s  Cây hậu tố: thời gian trung bình 1.202 s  Jocor: thời gian thực thi 13.109 s 77 4.2.5.6 Nhận xét Sau trình thực nghiệm so sánh tốc độ giải thuật theo phƣơng pháp đề xuất Tốc độ xử lý giải thuật xử lý song song mảng hậu tố trung bình nhanh 174% so với giải thuật Cây hậu tố 160% so với giải thuật mảng hậu tố Điểm bắt Điểm bắt đầu chuỗi đầu chuỗi 2529 23769 Wafer 226 ECG5000 Tên tập Chiều dài Độ tƣơng Thời gian liệu chuỗi quan thực thi (s) Currency 19235 0.9854 14.233 50089 135769 0.9986 87.07 162 145234 102004 0.9946 25.83 LSF5 151 25149 25149 0.9970 21.505 LightCurve 450 73996 470325 0.9996 13.109 Bảng 4.19 Kết thực nghiệm tập liệu với giải thuật Jocor Về việc so sánh thời gian thực thi với giải thuật Jocor giá trị đầu vào giải thuật Jocor tất đƣợc giảm từ hàng chục hàng trăm ngàn điểm liệu khoản hai đến bốn ngàn điểm liệu nhƣng thời gian thực thi lại cao 30 lần so với phƣơng pháp đề xuất, chuỗi chung dài tìm đƣợc cao so với phƣơng pháp đề xuất vài điểm liệu độ tƣơng quan tăng lên khơng đáng kể chí với độ tƣơng quan phƣơng pháp đề xuất 4.2.6 Nhận xét chung Qua trình thực nghiệm liệu đạt đƣợc kết khả quan cụ thể nhƣ sau: Với liệu Currency gồm tập liệu 44850 điểm liệu Với phƣơng pháp đề tìm đƣợc chuỗi chung dài với chiều dài 2380 điểm liệu, độ tƣơng quan đạt 0.9649 thời gian xử lý theo giải thuật xử lý song song mảng hậu tố 0.048 s 78 Với liệu Wafer gồm tập liệu 153000 điểm liệu Với phƣơng pháp đề tìm đƣợc chuỗi chung dài với chiều dài 220 điểm liệu, độ tƣơng quan đạt 0.9986 thời gian xử lý theo giải thuật xử lý song song mảng hậu tố 0.172 s Với liệu ECG5000 gồm tập liệu 180000 điểm liệu Với phƣơng pháp đề tìm đƣợc chuỗi chung dài với chiều dài 160 điểm liệu, độ tƣơng quan đạt 0.9940 thời gian xử lý theo giải thuật xử lý song song mảng hậu tố 0.201 s Với liệu LSF5 LSF6 gồm tập liệu 180000 điểm liệu Với phƣơng pháp đề tìm đƣợc chuỗi chung dài với chiều dài 150 điểm liệu, độ tƣơng quan đạt 0.9970 thời gian xử lý theo giải thuật xử lý song song mảng hậu tố 0.207 s Với liệu LightCurve gồm tập liệu 512000 điểm liệu Với phƣơng pháp đề tìm đƣợc chuỗi chung dài với chiều dài 450 điểm liệu, độ tƣơng quan đạt 0.9996 thời gian xử lý theo giải thuật xử lý song song mảng hậu tố 0.927 s 79 CHƢƠNG TỔNG KẾT Chƣơng điểm lại toàn công việc luận văn bao gồm: tổng kết toán kết chuỗi chuỗi liệu thời gian dựa vào việc tìm chuỗi chung dài hai chuỗi ký tự, đóng góp đề tài hƣớng phát triển tƣơng lai 5.1 Tổng kết nội dung luận văn Điểm qua cơng trình liên quan, tốn kết chuỗi đƣợc chia thành hai giai đoạn: tiền xử lý liệu chuỗi thời gian việc thu giảm số chiều thông qua phƣơng pháp xấp xỉ gộp đoạn (PAA), biến đổi chuỗi thời gian thành tràn ký tự phƣơng pháp xấp xỉ gộp ký hiệu hóa (SAX) Sau dựa vào việc tìm chuỗi chung dài hai chuỗi ký tự để xác định chuỗi chung tƣơng quan hai chuỗi thời gian Hiện thực thực nghiệm liệu chuỗi thời gian thực tế 5.2 Những kết đạt đƣợc đề tài Thứ nhất, giải tốn tìm chuỗi chung dài hai chuỗi ký tự phƣơng pháp: Cây hậu tố, mảng hậu tố xử lý song song mảng hậu tố Đối với phƣơng pháp sử dụng hậu tố sử dụng giải thuật Ukkonen để xây dựng hậu tố thời gian tuyến tính Đối với phƣơng pháp mảng hậu tố áp dụng việc xử lý song song trình tìm kiếm chuỗi chung dài hai chuỗi Thứ hai, giải tốn tìm chuỗi tƣơng quan hai chuỗi thời gian Cụ thể biến đổi liệu chuỗi thời gian thành tràng ký tự kết hợp với phƣơng pháp tìm chuỗi chung dài hai chuỗi ký tự để giải toán Kết thực nghiệm năm cặp liệu chuỗi thời gian mẫu cho thấy việc áp dụng toán phát chuỗi chung dài hai chuỗi ký tự dựa vào hậu tố, mảng hậu tố xử lý song son mảng hậu tố vào cơng tác tìm 80 phân đoạn tƣơng quan với hai chuỗi thời gian hiệu có độ phức tạp tính tốn thấp 5.3 Hƣớng phát triển Kết thực nghiệm nhiều liệu xác Tuy nhiên, liệu áp dụng cho toán liệu ngoại tuyến (offline data) Do đó, hƣớng phát triển đề tài tập trung vào vấn đề sau đây:  Hƣớng đến việc cải thiện giải thuật đƣợc sử dụng cấu trúc liệu hậu tố mảng hậu tố Bên cạnh nghiên cứu thêm giải thuật sử dụng cấu trúc hậu tố mảng hậu tố có sử dụng nhớ phụ  Chúng cải thiện hiệu suất giải thuật nhằm mục đích tối ƣu thời gian thực thi, đồng thời mở rộng toán phân tích nhiều chuỗi thời gian khác  Mở rộng phƣơng pháp kết chuỗi chung dài cho phù hợp với liệu chuỗi thời gian dạng luồng (streaming time series) đề cập cơng trình Lian Chan [12]  Hƣớng đến sử dụng kỹ thuật GPU (Graphics Processing Unit) để giúp việc tính tốn tốt hơn, xử lí đƣợc nhiều thơng tin đa luồng, song song nhớ tốc độ cao tƣơng lai 81 TÀI LIỆU THAM KHẢO [1] Gunopulos, D., Das, G and Mannila, H (1997), “Finding similar time series” In Proceedings of the 1st European Symposium on Principles of Data Mining and Knowledge Discovery, PKDD97, Trondheim, Norway, pp 88-100 [2] Lin, Y (2008) “Subseries Join and Compression of Time Series Data Based on Non-uniform Segmentation” PhD Thesis, University of Waterloo, Ontario, Canada [3] Mcreight, E.M (1976) “A space-economical suffix tree construction algorithm” Journal of the ACM , 23, (Apr 1976), pp 262-272 [4] “The UCR Time Series Classification/Clustering” Homepage: http://www.cs.ucr.edu/~eamonn/time_series_data/ [5] Lin, J., Keogh, E., Lonardi, S and Chiu, B (2003) “A Symbolic Representation of Time Series, with Implications for Streaming Algorithms” In Proceedings of the 8th ACM SIGMOD Workshop on Research Issues in Data Mining and Knowledge Discovery San Diego, CA June 13, 2003 [6] Keogh, E and Kasetty, S (2002) “On the Need for Time Series Data Mining Benchmarks: A Survey and Empirical Demonstration” In Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining July 23 - 26, 2002 Edmonton, Alberta, Canada pp 102-111 [7] “Physionet ATM” Homepage: https://physionet.org/cgi-bin/atm/ATM [8] Morrison, D.R (1968) “PATRICIA - Practical algorithm to retrieve information coded in alphanumeric” Journal of the ACM , 15, 4, pp 514-534 82 [9] Weiner, P (1973) “Linear pattern matching algorithms” In Proceedings of the 14th Annual Symposium on Switching and Automata Theory (Washington, DC, USA 1973), IEEE Computer Society, pp 1-11 [10] Bockenhauer, H.J and Bongartz, D (1998) “Algorithmic Aspects of Bioinformatics” ACM Computing Classification, pp 58-79 [11] Karkkainen, J., Sanders, P and Burkhardt, S (2006) “Linear Work Suffix Array Construction” Journal of the ACM, Vol 53, No 6, November 2006, pp 918–936 [12] Lian, X., and Chen, L (2009) “Efficient Similarity Join over Multiple Stream Time Series” IEEE Transactions on Knowledge and Data Engineering, Vol 20, No 11, November [13] Brinkhoff, T., Kriegel, H.P and Seeger, B (1993) “Efficient Processing of Spatial Joins Using R-Trees” Proc ACM SIGMOD [14] Guttman, A (1984) “R-trees: A Dynamic Index Structure for Spatial Searching” Proc ACM SIGMOD [15] Lo, M.L and Ravishankar, C.V (1996) “Spatial Hash-Joins” Proc ACM SIGMOD [16] Huang, Y.W., Jing, N., and Rundensteiner, E.A (1997) “Spatial Joins Using R-Trees: Breadth-First Traversal with Global Optimizations” Proc 23rd Int’l Conf Very Large Data Bases (VLDB) [17] Keogh, E (2002) “Exact indexing of dynamic time warping” In 28th International Conference on Very Large Data Bases, (pp 406-417) Hong Kong [18] Mueen, A., Hamooni, H and Estrada, T (2014) “Time Series Join on Subsequence Correlation” In Data Mining (ICDM), 2014 IEEE International Conference on pp 450-459 [19] Slissenko, A.O (1983) “Detection of periodicities and string-matching in real time” Journal of Soviet Mathematics, 22, 3, pp 1316-1386 83 [20] Kosaraju, S.R (1994) “Real-time pattern matching and quasi-real-time construction of suffix trees” In Proceedings of the 26th annual ACM symposium on theory of computing, ACM, pp 310-316 [21] Dan, G (1997) “Algorithms on Strings, Trees, and Sequences” University of California, Davis Cambridge University Press, pp 94-107 [22] Vinh, V.D and Anh, D.T (2016) “Efficient subsequence join over time series under dynamic time warping” Recent Developments in Intelligent Information and Database Systems, Studies in Computational Intelligence, Studies in Computational Intelligence 642 D.Krol, L Madeyski, N.T Nguyen (Eds.), Springer, 41-52 [23] Do, L.V and Anh, D.T (2017) “Time series motif discovery based on subsequence join under Dynamic Time Warping” DMICT’17, Phuket, Thailand, 25-27 [24] Ratanamahatana, C A and Keogh, E (2012) “Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping” SIGKDD, August 12-16, 2012, Beijing, China [25] Ukkonen, E (1995) “On-line construction of suffix trees” Algorithmica Springer-Verlag New York Inc 1995 14: 249-260 A BẢNG THUẬT NGỮ ANH – VIỆT VÀ TỪ VIẾT TẮT Thuật ngữ tiếng Anh Thuật ngữ tiếng Việt Viết tắt Piecewise Aggregate Approximation Xấp xỉ gộp đoạn PAA Symbolic Aggregate Approximation Xấp xỉ gộp ký hiệu hóa SAX Suffix Tree Cây hậu tố Suffix Array Mảng hậu tố Join on Correlation Kết dựa độ tƣơng quan Time series data Dữ liệu chuỗi thời gian Subsequence Chuỗi Nested Loop Join Kết hai vòng lặp lồng Indexing Lập mục Non-uniform segmentation Phân đoạn không đồng Dynamic Time Warping Xoắn thời gian động DTW Time series data mining Khai phá liệu chuỗi thời gian EA Euclidean Distance Khoảng cách Euclid ED Subsequence join Kết chuỗi Sliding window Cửa sổ trƣợt Offline/ static data Dữ liệu ngoại tuyến Streaming data Dữ liệu luồng Classfication Phân loại Clustering Gôm cụm Dimensionality reduction Thu giảm số chiều Discretization Rời rạc hóa False dismissal Lỗi tìm sót Vector Approximation File Tập tin xấp xỉ hóa Vector Raw data Dữ liệu thô Jocor B Noise values Giá trị nhiễu Data normalization Chuẩn hóa liệu Zeno-mean Normalization Chuẩn hóa zero Base line Đƣờng Offset Độ dịch chuyển Amplitude Biên độ Break point Điểm ngắt Word Từ Feature Đặc trƣng Implicit suffix tree Cây hậu tố ngầm Suffix link Liên kết hậu tố Inverse suffix array Mảng hậu tố nghịch đảo Depth-first-search Duyệt theo chiều sâu DFS Breadth-first-search Duyệt theo chiều rộng BFS Minimal polynomial envelope Đa thức bao nhỏ University California Riverside Đại học California Riverside Correlation Độ tƣơng quan Parallel Xử lý song song Message Passing Interface Mơ hình lập trình truyền thông điệp Data parallelism Song song liệu Control parallelism Song song lệnh Multi-Core Vi xử lý đa nhân Graphics Processing Unit Đơn vị xử lý đồ họa UCR MPI GPU C PHẦN LÝ LỊCH TRÍCH NGANG Họ tên: Nguyễn Trọng Nhân Ngày, tháng, năm sinh: 16 – 05 – 1993 Nơi sinh: Quảng Ngãi Địa liên lạc: 2009a/9 Phạm Thế Hiển Phƣờng Quận Tp Hồ Chí Minh Q TRÌNH ĐÀO TẠO 2011 – 2015: Học đại học Đại học Tôn Đức Thắng 2016 – 2018: Học sau đại học Đại học Bách Khoa Q TRÌNH CƠNG TÁC 2014 – 2015 : Làm IT-Help Desk cơng ty kiểm tốn Grant Thornton 2015 – 2016 : Làm Developer công ty FPT 2016 – đến : Làm viên chức giảng dạy Đại học Tôn Đức Thắng ... Mã số: 60.48.01.01 I TÊN ĐỀ TÀI: KẾT CHUỖI CON TRÊN DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO VIỆC TÌM CHUỖI CON CHUNG DÀI NHẤT CỦA HAI CHUỖI, SỬ DỤNG CÂY HẬU TỐ ... gian Có hai cách định nghĩa tốn kết chuỗi (Subsequence join) liệu chuỗi thời gian Định nghĩa 1: kết chuỗi tìm cặp chuỗi tƣơng tự hai chuỗi thời gian dài Hai chuỗi liệu thời gian đƣợc kết hợp... chiều dài tuỳ ý Kết minh hoạ việc kết chuỗi hai chuỗi liệu thời gian (Hình 1-2) [23] Hình 1-2 Hai chuỗi liệu thời gian kết hợp để hiển thị số cặp chuỗi khớp Định nghĩa 2: Kết chuỗi kết hai chuỗi liệu

Ngày đăng: 18/04/2021, 19:59

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w