Tóm tắt luận án Tiến sĩ Khoa học máy tính: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng

28 41 0
Tóm tắt luận án Tiến sĩ Khoa học máy tính: Tìm kiếm tương tự trên chuỗi thời gian dạng luồng

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Mục tiêu nghiên cứu của luận án nhằm xây dựng các phương pháp tìm kiếm tương tự trên chuỗi thời gian dạng luồng bằng độ đo Euclid có vận dụng các phép biến đổi thu giảm số chiều và cấu trúc chỉ mục đa mức phân giải. Ứng dụng các phương pháp tìm kiếm tương tự trên chuỗi thời gian dạng luồng để giải quyết một số bài toán.

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÙI CƠNG GIAO TÌM KIẾM TƯƠNG TỰ TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG Chuyên ngành: Khoa học máy tính Mã số chun ngành: 62.48.01.01 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT TP HỒ CHÍ MINH NĂM 2019 Cơng trình hồn thành Trường Đại học Bách Khoa – ĐHQG-HCM Người hướng dẫn khoa học 1: PGS TS Dương Tuấn Anh Phản biện độc lập 1: Phản biện độc lập 2: Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng chấm luận án họp vào lúc ngày tháng năm Có thể tìm hiểu luận án thư viện: - Thư viện Khoa học Tổng hợp Tp HCM - Thư viện Trường Đại học Bách Khoa – ĐHQG-HCM DANH MỤC CƠNG TRÌNH ĐÃ CÔNG BỐ [CT1] B C Giao and D T Anh, "Efficient search for top-k discords in streaming time series," International Journal of Business Intelligence and Data Mining, (Scopus) 2018, InderScience (in press), DOI: 10.1504/IJBIDM.2018.10010853 [CT2] B C Giao and D T Anh, "An application of similarity search in streaming time series under DTW: online forecasting," in Proceedings of the Eighth Symposium on Information and Communication Technology (SoICT 2017), Nha Trang City, Vietnam, Dec 7-8, 2017, pp 10-17, ACM [CT3] B C Giao and D T Anh, "Improving SPRING method in similarity search over time series streams by data normalization," in Proceedings of Nature of Computation and Communication ICTCC 2016 Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 168, pp 189-202, 2016, Springer [CT4] B C Giao and D T Anh, "Similarity search for numerous patterns over multiple time series streams under dynamic time warping which supports data normalization," Vietnam Journal of Computer Science, vol 3, no 3, pp 181-196, 2016, Springer [CT5] B C Giao and D T Anh, "Similarity search for numerous patterns in multiple high-speed time-series streams," in Proceedings of 2015 Seventh International Conference on Knowledge and Systems Engineering (KSE), Ho Chi Minh City, Vietnam, Oct 8-10, 2015, pp 314-317, IEEE [CT6] B C Giao and D T Anh, "Similarity search in multiple high speed time series streams under Dynamic Time Warping," in Proceedings of 2015 Second National Foundation for Science and Technology Development Conference on Information and Computer Science (NICS), Ho Chi Minh City, Vietnam, Sep 16-18, 2015, pp 82-87, IEEE [CT7] B C Giao and D T Anh, "Improving Sort-Tile-Recursive Algorithm for R-tree packing in indexing time series," in Proceeding of the 2015 IEEE RIVF International Conference on Computing & Communication Technologies - Research, Innovation, and Vision for Future (RIVF), Can Tho City, Vietnam, Jan 25-28, 2015, pp 117-122, IEEE [CT8] B C Giao and D T Anh, "Efficient k-nearest neighbor search for static queries over high speed time-series streams," in Proceedings of Nature of Computation and Communication ICTCC 2014 Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 144, pp 83-97, 2015, Springer [CT9] B C Giao and D T Anh, "Efficient similarity search for static queries in streaming time series," in Proceedings of International Conference on Green and Human Information Technology (ICGHIT) 2014, Ho Chi Minh City, Vietnam, Feb 12-14, 2014, pp 259-265 CHƯƠNG 1.1 GIỚI THIỆU Chuỗi thời gian dạng luồng thách thức xử lý chuỗi thời gian dạng luồng Chuỗi thời gian dạng luồng chuỗi thời gian có giá trị tới ghi nhận cách liên tục nối vào cuối chuỗi theo thứ tự thời gian tới Chuỗi thời gian dạng luồng có tần suất lấy mẫu cao Như vậy, để xử lý nhanh liệu chuỗi thời gian dạng luồng thời gian thực, phương pháp xử lý phải có độ phức tạp thời gian thấp cần quét liệu lần Hai yêu cầu tạo thách thức to lớn cho phương pháp xử lý chuỗi thời gian tĩnh ta muốn làm cho phương pháp thích nghi với việc xử lý chuỗi thời gian dạng luồng Vì cần phải có kỹ thuật hay cải tiến từ kỹ thuật có để đảm bảo việc xử lý chuỗi thời gian dạng luồng có hiệu theo hai tiêu chí đánh giá chất lượng kết trả thời gian thực 1.2 Mục tiêu, đối tượng phạm vi nghiên cứu Trong khai phá liệu chuỗi thời gian, có tốn thường nghiên cứu tìm kiếm tương tự, phát bất thường, phát mơ típ, dự báo, kết chuỗi con, v.v Trong toán quan trọng này, giải pháp cho tìm kiếm tương tự thường sở tảng cho giải pháp toán khác Thơng thường, tìm kiếm liệu sở liệu truyền thống so trùng xác tìm kiếm tương tự chuỗi thời gian so trùng xấp xỉ; nghĩa khoảng cách hai chuỗi thời gian tính độ đo khoảng cách phải nhỏ ngưỡng khoảng cách cho trước hai chuỗi thời gian xem tương tự Theo nhận xét chúng tôi, công trình nghiên cứu tìm kiếm tương tự chuỗi thời gian dạng luồng thường đưa phương pháp tìm kiếm tương tự có chi phí tính tốn cao khơng chuẩn hố liệu nên kết trả chưa xác Nhằm khắc phục khuyết điểm kể trên, chúng tơi xác định tốn tìm kiếm tương tự chuỗi thời gian dạng luồng đối tượng nghiên cứu luận án Luận án bao gồm hai nhiệm vụ nghiên cứu mục tiêu nhiệm vụ Nhiệm vụ 1: Xây dựng phương pháp tìm kiếm tương tự chuỗi thời gian dạng luồng • Độ đo Euclid có vận dụng phép biến đổi thu giảm số chiều cấu trúc mục đa mức phân giải • Độ đo DTW (độ đo xoắn thời gian động) kỹ thuật tăng tốc cho độ đo Nhiệm vụ 2: Ứng dụng phương pháp tìm kiếm tương tự chuỗi thời gian dạng luồng để giải tốn sau • Dự báo trực tuyến chuỗi thời gian dạng luồng có xu hướng tính mùa độ đo DTW • Phát k chuỗi bất thường chuỗi thời gian dạng luồng độ đo Euclid 1.3 Tóm tắt kết đạt Từ nhiệm vụ nghiên cứu đầu tiên, luận án đề xuất giải pháp hiệu cho mục tiêu nhiệm vụ sau 1.3.1 Tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo Euclid Luận án trình bày mơ hình hệ thống tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo Euclid sau đề xuất phương pháp tìm kiếm vùng để thực mơ hình hệ thống Hệ thống tìm kiếm tương tự sử dụng kỹ thuật đa luồng để thực đồng thời việc tìm kiếm tương tự nhiều chuỗi thời gian dạng luồng Việc tìm kiếm tương tự hỗ trợ cấu trúc mục đa mức phân giải xây dựng từ mảng R*-tree Ngoài ra, phương pháp đề xuất sử dụng phép biến đổi thu giảm số chiều chuỗi thời gian biến đổi DFT, biến đổi Haar walet, biến đổi PAA Phương pháp đề xuất công bố hai công trình nghiên cứu [CT9] [CT5] Luận án đề xuất phương pháp tìm kiếm k lân cận gần chuỗi thời gian dạng luồng Phương pháp đề xuất dựa phương pháp tìm kiếm vùng báo [CT9] có thêm tính chất khác để phục vụ tìm kiếm k lân cận gần Ngồi ra, phương pháp tìm kiếm k lân cận gần phải giải tình xung đột tiến trình luồng cập nhật đồng thời tập hợp k lân cận gần chuỗi truy vấn Phương pháp đề xuất cơng bố cơng trình nghiên cứu [CT8] Luận án cải tiến kỹ thuật STR để tối ưu cấu trúc liệu R-tree nhằm tăng tốc cho nhiệm vụ tìm kiếm tương tự chuỗi thời gian Kỹ thuật STR cải tiến hai chiến lược kết nối điểm đặc trưng chuỗi thời gian nút R-tree Hai chiến lược cải tiến kỹ thuật STR công bố cơng trình nghiên cứu [CT7] 1.3.2 Tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW Luận án trình bày mơ hình hệ thống tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW sau đề xuất phương pháp để thực mơ hình hệ thống Phương pháp đề xuất cải tiến từ kỹ thuật UCR-DTW nhằm thích ứng với mơi trường luồng Hai cải tiến đáng kể phương pháp sử dụng kỹ thuật đa luồng cập nhật hình bao chuỗi chuỗi thời gian dạng luồng theo cách thức tính tốn gia tăng để giảm chi phí tính tốn Tuy nhiên giống UCR-DTW, phương pháp đề xuất làm việc hai chuỗi thời gian có chiều dài Phương pháp đề xuất công bố [CT6] Phương pháp SPRING cải tiến để có chuẩn hóa liệu trước tìm kiếm tương tự chuỗi thời gian dạng luồng SPRING cải tiến sử dụng chuẩn hóa min-max gia tăng trước tính tốn khoảng cách DTW hai chuỗi thời gian có chiều dài khác Phương pháp SPRING cải tiến công bố [CT3] Luận án tiếp tục phát triển phương pháp tìm kiếm tương tự cho hai chuỗi thời gian có chiều dài chuỗi thời gian dạng luồng độ đo DTW [CT6] Phương pháp đề xuất thực tìm kiếm tương tự cho hai chuỗi thờ gian có chiều dài khác Phương pháp đề xuất công bố [CT4] Từ nhiệm vụ nghiên cứu thứ hai, luận án đề xuất giải pháp cho toán ứng dụng sau 1.3.3 Dự báo trực tuyến chuỗi thời gian dạng luồng Luận án đề xuất phương pháp dự báo trực tuyến chuỗi thời gian dạng luồng có xu hướng tính mùa dựa tìm kiếm k lân cận gần độ đo DTW Bởi phương pháp đề xuất sử dụng tìm kiếm k lân cận gần nhất, phương pháp thích hợp với cách học trì hỗn Phương pháp dự báo trực tuyến lai với phương pháp làm trơn hàm mũ đơn giản để kết dự báo xác Phương pháp đề xuất cơng bố [CT2] 1.3.4 Phát k chuỗi bất thường chuỗi thời gian dạng luồng Luận án đề xuất phương pháp phát k chuỗi bất thường chuỗi thời gian dạng luồng độ đo Euclid Phương pháp sử dụng ngưỡng chặn dưới, hàm chặn sử dụng phép biến đổi thu giảm số chiều chuỗi thời gian, kỹ thuật UCR-ED để loại bỏ sớm chuỗi không bất thường Phương pháp đề xuất công bố [CT1] 1.4 Cấu trúc luận án Phần lại luận án trình bày sáu chương Chương trình bày sở lý thuyết tảng cho đề xuất luận án Chương trình bày ba đề xuất tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo Euclid Chương trình bày ba đề xuất tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW Chương trình bày đề xuất dự báo trực tuyến chuỗi thời gian dạng luồng Chương trình bày đề xuất phát k chuỗi bất thường chuỗi thời gian dạng luồng Chương kết luận phương pháp đề xuất, đóng góp luận án, nêu số hạn chế luận án với hướng nghiên cứu tương lai CHƯƠNG CƠ SỞ LÝ THUYẾT NỀN TẢNG Chương giới thiệu tổng quan độ đo tương tự, cách chuẩn hóa liệu, định nghĩa nhiệm vụ tìm kiếm tương tự chuỗi thời gian, kỹ thuật tăng tốc việc tính tốn độ đo tương tự, phép biến đổi thu giảm số chiều chuỗi thời gian, R-tree Sau định nghĩa tìm kiếm tương tự chuỗi thời gian dạng luồng Cho X chuỗi thời gian dạng luồng thể dãy số thực x1, x2,…, xn… với xn giá trị ghi nhận mốc thời gian n Đặt X[xs : xe] chuỗi bắt đầu mốc thời gian s kết thúc mốc thời gian e, NX[nxs : nxe] chuỗi chuẩn hóa X[xs : xe] Đặt Y[y1 : ym] chuỗi truy vấn (mẫu) có chiều dài m, NY[ny1 : nym] chuỗi chuẩn hóa Y Ba nhiệm vụ thơng thường tìm kiếm tương tự cho Y chuỗi thời gian X dạng luồng Định nghĩa 2.3: Tìm kiếm chuỗi tốt Tìm chuỗi X[xs : xe] có chuỗi chuẩn hóa NX gần NY Điều có nghĩa khoảng cách D(NX, NY) nhỏ Khoảng cách nhỏ giá trị tốt ghi nhận mốc thời gian n X[xs : xe] chuỗi tương tự với Y Khoảng cách nhỏ gọi giá trị bsf Y Định nghĩa 2.4: Tìm kiếm k lân cận gần Tìm tập hợp k lân cận gần chứa k chuỗi X[xs : xe] mà có chuỗi chuẩn hóa NX tương tự với NY Gọi k-NN tập hợp k lân cận gần chứa k chuỗi Nếu có chuỗi 𝑋 ′ ∉ 𝑘-𝑁𝑁 ∀𝑋 ∈ 𝑘-𝑁𝑁 ta có D(NX, NY) ≤ D(NX’, NY) Nhận xét k = 1, tìm kiếm k lân cận gần trở thành tìm kiếm chuỗi tốt Định nghĩa 2.5: Tìm kiếm vùng Cho trước ngưỡng khoảng cách ε, tìm chuỗi X[xs : xe] mà chuỗi chuẩn hóa NX thỏa D(NX, NY) ≤ ε Các chuỗi tương tự tìm thấy chồng lấp lên nhau, tìm kiếm vùng sửa đổi thành truy vấn tách rời Điều có nghĩa với tất chuỗi tương tự tìm thấy mà chồng lấp lên nhau, truy vấn tách rời giữ lại chuỗi mà có giá trị D(NX, NY) nhỏ CHƯƠNG TÌM KIẾM TƯƠNG TỰ TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG BẰNG ĐỘ ĐO EUCLID Tìm kiếm vùng chuỗi thời gian dạng luồng độ đo Euclid 3.1 3.1.1 Các cơng trình liên quan Có năm cơng trình tiêu biểu tìm kiếm vùng chuỗi thời gian dạng luồng độ đo Euclid: Babu Widom vào năm 2001 định nghĩa truy vấn liên tục chuỗi truy vấn tạo lần chạy liên tục chuỗi thời gian dạng luồng Gao Wang vào năm 2002 thực phương pháp truy vấn liên tiếp có dự đoán cho chuỗi thời gian dạng luồng độ đo Euclid có trọng số Bulut Singh vào năm 2002 đưa khung thức Stardust để hợp nhiệm vụ giám sát luồng liệu thời gian thực gọi hoạt động tóm tắt lập mục cho nhiều luồng liệu Để khám phá mẫu chuỗi thời gian dạng luồng có tốc độ cao, Lian cộng vào năm 2007 2008 đề xuất cách biểu diễn cho chuỗi thời gian dạng luồng gọi trung bình phân đoạn đa mức lọc với kỹ thuật trung bình phân đoạn lọc nhiều bước Kontaki cộng vào năm 2007 đề xuất phương pháp tìm kiếm tương tự thích nghi chuỗi thời gian dạng luồng Nhận xét phương pháp đề xuất cơng trình vừa nêu khơng có chuẩn hố liệu trước tìm kiếm tương phương pháp trả kết khơng xác 3.1.2 Bài tốn tìm kiếm tương tự chuỗi thời gian dạng luồng Trước tốn phát biểu luận án xin giới thiệu định nghĩa sau Định nghĩa 3.1: Chuỗi tới Cho chuỗi thời gian X dạng luồng chuỗi truy vấn q có chiều dài l Chuỗi c tới X mà tương ứng với q tạo có điểm liệu tới xn X Nghĩa c có chiều dài l, có điểm liệu cuối xn Bài toán định nghĩa sau Cho trước tập hợp chuỗi truy vấn xác định, nhiều chuỗi thời gian dạng luồng hoạt động độc lập với (không phụ thuộc nhau) Nhiệm vụ cần giải cho tốn có điểm liệu tới chuỗi thời gian dạng luồng phải xác định tức thời chuỗi truy vấn tương tự với chuỗi tới Việc xác định tương tự phải tuân theo định nghĩa tìm kiếm tương tự chuỗi thời gian dạng luồng Chương 2, với độ đo tương tự thường sử dụng khai phá liệu chuỗi thời gian; độ đo Euclid độ đo DTW Thêm nữa, tốc độ liệu tới chuỗi thời gian dạng luồng cao, u cầu đặt thêm cho toán phương pháp giải cần phải xử lý nhanh liệu chuỗi thời gian dạng luồng đảm bảo kết trả có độ xác cao Các kỹ thuật hỗ trợ phương pháp đề xuất 3.1.3 3.1.3.1 Chuẩn hóa z-score gia tăng Hệ số chuẩn hóa z-score chuỗi thời gian dạng luồng mốc thời gian n + tính từ hệ số chuẩn hóa z-score tính từ mốc thời gian n thay phải tính lại từ đầu; điều làm giảm chi phí tính tốn 3.1.3.2 Cấu trúc mục đa mức phân giải Các phương pháp đề xuất thực tìm kiếm vùng cho nhiều chuỗi truy vấn có chiều dài khác nghiên cứu sử dụng cấu trúc mục đa mức phân giải để thích ứng với việc tìm kiếm chuỗi truy vấn mà tương tự với chuỗi tới (của chuỗi thời gian dạng luồng) qua mức phân giải Một lý khác để phương pháp đề xuất sử dụng cấu trúc mục đa mức phân giải phương pháp thiết kế theo tinh thần giải thuật có thời gian thực thi tuỳ chọn Việc lọc chuỗi truy vấn thực từ mức lọc thô đến mức lọc tinh Nếu tới mức lọc mà khơng chuỗi truy vấn việc tìm kiếm tương tự chấm dứt; chuỗi truy vấn người sử dụng khơng muốn tốn thêm thời gian cho việc lọc kết trả chuỗi truy vấn tới mức lọc Nhận xét chuỗi truy vấn tương tự với chuỗi tới 3.1.3.3 Tiền xử lý chuỗi truy vấn Trước thực tìm kiếm vùng cho chuỗi thời gian dạng luồng, chuỗi truy vấn xử lý qua ba bước: i Phân đoạn chuỗi truy vấn Chuỗi truy vấn chia thành phân đoạn chuỗi truy vấn Các phân đoạn lọc liên tiếp qua mức lọc trình tìm kiếm vùng Có hai cách phân đoạn chuỗi truy vấn phân đoạn chuỗi truy vấn không chồng lấp phân đoạn chuỗi truy vấn chồng lấp ii Rút trích hệ số đặc trưng phân đoạn pháp RangeSearch biến đổi thành phương pháp k-NNSearch • Xử lý việc tranh chấp tài nguyên dùng chung môi trường luồng Ký hiệu q.kNN tập hợp k lân cận gần chuỗi truy vấn q Do xảy tình nhiều tiến trình luồng tranh chấp việc cập nhật tập hợp q.kNN thời điểm nên tiến trình luồng phải cố gắng khoá q.kNN trước cập nhật tập hợp • Gọi dung sai q khoảng cách thứ k q.kNN Phương pháp k-NNSearch cần giảm số chuỗi ứng viên lân cận với q khơng để xảy lỗi tìm sót cách giảm dung sai cập nhật q.kNN Phương pháp k-NNSearch có hai pha thực pha tiền xử lý cho tất chuỗi truy vấn để tạo cấu trúc mục đa mức phân giải (giống Pha mục 3.1.5) pha tìm kiếm k lân cận gần thực có điểm liệu tới chuỗi thời gian dạng luồng 3.2.3 Đánh giá phương pháp k-NNSearch Phương pháp k-NNSearch so sánh với SUCR-ED theo độ xác hiệu thời gian thực Vì SUCR-ED biến đổi để tìm kiếm k lân cận gần Giá trị k thay đổi từ đến 10 k-NNSearch thực với ba phép biến đổi thu giảm số chiều Kết thực nghiệm thể phương pháp k-NNSearch cho kết tìm kiếm xác SUCR-ED k-NNSearch thích hợp để xử lý chuỗi thời gian dạng luồng có tốc độ cao 3.3 3.3.1 Cải tiến cách tạo R-tree Giới thiệu tốn Cho trước tập hợp đối tượng khơng gian, R-tree xây dựng cách thêm lần đối tượng vào R-tree Chúng ta có cảm nhận trực quan hoạt động lặp lặp lại thêm đối tượng vào R-tree chậm nạp tất đối tượng vào R-tree lúc Cách thức xây dựng R-tree lần phương pháp nạp hàng loạt Một ví dụ điển hình kỹ thuật nạp hàng loạt dựa thứ tự đối tượng kỹ thuật STR (Sort-Tile-Recursive) Giải thuật STR cải tiến vài chỗ Thứ nhất, thay xếp MBR (hình chữ nhật bao tối thiểu) theo tọa độ điểm trung tâm MBR, ta chọn tọa độ "dài nhất" mà có hai trung tâm hai MBR có khoảng cách xa Bằng cách này, ta mong chờ nút tạo tách nhiều hơn, tức nút có phân vùng tốt Thứ hai, nghiên cứu xem xét làm để kết nối đầu cuối đường chạy lát cắt liên tiếp để tạo đường cong lấp đầy 10 khơng gian có tính chất tối ưu cục nhằm mục đích làm cho R-tree giảm thiểu diện tích MBR nút Luận án đề xuất hai chiến lược heuristic thực hai điều sau: Chiến lược kết nối đường chạy thứ nhất: Các trục toạ độ xếp theo thứ tự giảm dần khoảng cách hai trung tâm xa MBR trục Các đầu cuối hai đường chạy hai lát cắt liên tiếp trục xét kết nối theo quy tắc hai đầu gần kết nối với Chiến lược ký hiệu ISTR1 Chiến lược kết nối đường chạy thứ hai: Lúc bắt đầu, toạ độ "dài nhất" chọn Sau lát cắt tạo trục lát cắt có tọa độ "dài nhất" riêng từ tọa độ lại Do đường chạy lát cắt trục khác Vì lý này, đường chạy kết nối với theo khoảng cách nhỏ đầu cuối đường chạy Lưu ý khoảng cách tính tất trục, không trục chiến lược Chiến lược thứ hai ký hiệu ISTR2 3.3.2 Đánh giá phương pháp đề xuất Thực nghiệm sử dụng phương pháp RangeSearch để đánh giá phương pháp đề xuất thực chiến lược ISTR1 ISTR2 Phương pháp RangeSearch sử dụng cấu trúc mục đa mức phân giải mảng R-tree Các R-tree tạo từ ISTR1 ISTR2 so sánh với R-tree tạo từ Quadratic R-tree, R*-tree, kỹ thuật STR Các cách tạo R-tree so sánh theo bốn tiêu chí thời gian tạo R-tree, khơng gian lưu trữ R-tree, độ xác kết tìm kiếm, chồng lấp nút Rtree Tiêu chí đánh giá cuối thể kiện thời gian truy vấn vùng mảng R-tree có nhanh hay khơng Kết thực nghiệm thể rằng: • Thời gian tạo R-tree kỹ thuật STR nhất, tạo R-tree cách R*-tree lâu Thời gian tạo R-tree ISTR1 ISTR2 tương đương với STR • Khơng gian lưu trữ R-tree tạo từ ISTR1, ISTR2, STR thấp nhiều so với khơng gian lưu trữ R-tree tạo từ Quadratic R-tree R*-tree • Tất R-tree tạo từ năm cách tạo R-tree cho kết tìm kiếm tương tự giống • Thời gian phản hồi RangeSearch sử dụng ISTR1 thấp Kế đến ISTR2, STR, R*-tree, Quadratic R-tree Như ISTR1 tạo R-tree có tổ chức tối ưu 11 CHƯƠNG TÌM KIẾM TƯƠNG TỰ TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG BẰNG ĐỘ ĐO DTW Tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW 4.1 4.1.1 Các cơng trình liên quan Có cơng trình tiêu biểu tìm kiếm tương tự chuỗi thời gian tĩnh độ đo DTW Cơng trình Rakthanmanon cộng thực vào năm 2012 Nhóm tác giả giới thiệu kỹ thuật UCR-DTW kỹ thuật UCR nhằm tìm kiếm chuỗi tốt chuỗi thời gian tĩnh Có ba cơng trình tiêu biểu tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW sau: Sakurai cộng vào năm 2007 giới thiệu phương pháp SPRING có thời gian phản hồi nhanh cho việc tìm kiếm chuỗi tốt Rodpongpun cộng vào năm 2011 giới thiệu hàm chặn dưới, gọi LB_GUN, có đặc điểm ràng buộc tồn cục hỗ trợ chuẩn hố z-score LB_GUN mở rộng LB_Keogh để xử lý biến đổi đồng cho chuỗi thời gian trước tính giá trị hàm chặn Gong cộng vào năm 2016 giới thiệu NSPRING mở rộng SPRING để hỗ trợ chuẩn hoá z-score, nhiên phương pháp khơng xác 4.1.2 Mơ hình hệ thống tìm kiếm tương tự độ đo DTW Luận án giới thiệu mơ hình hệ thống tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW Mơ hình hệ thống gần giống mơ hình hệ thống tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo Euclid (xem mục 3.1.4) Điểm khác biệt mơ hình hệ thống tìm kiếm tương tự sử dụng độ đo DTW không sử dụng cấu trúc mục đa mức phân giải mà thay vào sử dụng kỹ thuật tăng tốc chuyên biệt cho độ đo DTW Luận án đề xuất phương pháp SUCR-DTW để thực mơ hình hệ thống tìm kiếm tương tự độ đo DTW 4.1.3 Phương pháp SUCR-DTW Phương pháp SUCR-DTW thực việc tìm kiếm vùng cho nhiều chuỗi truy vấn nhiều chuỗi thời gian dạng luồng độ đo DTW Phương pháp có hai pha thực hiện: Pha 1: Các chuỗi truy vấn chuẩn hoá hình bao chuỗi tạo Pha 2: Từng tiến trình luồng phụ trách nhiệm vụ tìm kiếm vùng cho chuỗi truy vấn chuỗi thời gian dạng luồng Khi có điểm liệu tới chuỗi thời gian 12 dạng luồng, chuỗi truy vấn có chuỗi tới tương ứng Thủ tục so trùng cần xác định khoảng cách DTW chuỗi truy vấn chuẩn hoá chuỗi tới chuẩn hố có nhỏ ngưỡng khoảng cách chuỗi truy vấn hay không Các kỹ thuật chặn LB_Kim, LB_Keogh, LB_Keogh nghịch, tính tốn DTW chân phương có từ bỏ sớm gọi theo kiểu xếp tầng nhằm loại bỏ sớm chuỗi ứng viên Nhận xét SUCR-DTW cải tiến UCR-DTW nhằm thích ứng với mơi trường luồng Ngồi ra, SUCR-DTW có thêm tính chất khác với UCR-DTW sau: • Cập nhật gia tăng hình bao chuỗi tới • Tìm kiếm tương tự cho nhiều chuỗi truy vấn nhiều chuỗi thời gian dạng luồng • Giải trường hợp chuỗi tương tự chồng lấp lên 4.1.4 Đánh giá phương pháp SUCR-DTW Để đánh giá độ xác thời gian thực phương pháp đề xuất UCR-DTW SUCR-DTW điều chỉnh nhằm thực nhiệm vụ tìm kiếm vùng cho nhiều chuỗi truy vấn chuỗi truy vấn có ngưỡng khoảng cách Đánh giá qua thực nghiệm SUCR-DTW UCR-DTW năm chuỗi thời gian dạng luồng cho thấy: • SUCR-DTW có độ xác UCR-DTW • SUCR-DTW cập nhật gia tăng hình bao chuỗi tới UCR-DTW tạo hình bao phân đoạn lớn chuỗi thời gian lần Cách làm SUCR-DTW làm cho hình bao chặt LB_Keogh nghịch SUCR-DTW có khả cắt tỉa cao LB_Keogh nghịch UCR-DTW Cải tiến phương pháp SPRING 4.2 Nghiên cứu cải tiến phương pháp SPRING thành ISPRING để việc tìm kiếm tương tự có kết xác việc chuẩn hoá liệu chuỗi thời gian trước thực tìm kiếm tương tự 4.2.1 Phương pháp ISPRING Giống phương pháp SUCR-DTW, phương pháp ISPRING thực mơ hình tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW Phương pháp ISPRING sử dụng chuẩn hố min-max gia tăng để giảm chi phí tính tốn Về mặt ý tưởng, ISPRING có hai điểm khác so với SPRING: • Mỗi chuỗi truy vấn có cửa sổ giám sát neo đầu vào chuỗi thời 13 gian dạng luồng để theo dõi hệ số min-max ISPRING tính tốn gia tăng khoảng cách DTW chuỗi chuẩn hóa chuỗi truy vấn chuẩn hóa Hình 4.5 (a) cho thấy chuỗi thời gian dạng luồng tiến triển, cửa sổ giám sát phải kiểm tra giá trị cực tiểu cực đại điểm liệu giám sát • Với chuỗi truy vấn có chiều dài m, ISPRING sử dụng hai cột có kích thước m + để lưu khoảng cách DTW tính tốn gia tăng Hình 4.5 (b) minh hoạ hoạt động tính tốn khoảng cách DTW lưu hai cột Do khoảng cách DTW ô thứ m cột khoảng cách DTW tối thiểu từ mốc thời gian bắt đầu tới mốc thời gian n Tiếp theo, khoảng cách DTW so sánh với giá trị bfs chuỗi truy vấn để xác định chuỗi tương tự 4.2.2 Đánh giá phương pháp ISPRING ISPRING so sánh với SUCR-DTW độ xác thời gian thực Lưu ý SUCR-DTW điều chỉnh để thực tìm kiếm chuỗi tốt sử dụng chuẩn hoá min-max gia tăng Kết thực nghiệm hai phương pháp (a) (b) Hình 4.5 (a) Cửa sổ trượt giám sát hệ số min-max (b) Khoảng cách DTW tính tốn gia tăng từ lên theo hai cột 14 chuỗi thời gian dạng luồng 20 chuỗi truy vấn có chiều dài thể rằng: • Chuỗi tương tự tìm thấy ISPRING tốt chuỗi tương tự tìm SUCR-DTW Thêm nữa, ISPRING trả chuỗi tương tự mà chiều dài khác với chuỗi truy vấn • Trong ISPRING, kích thước cửa sổ giám sát hệ số min-max nên với chiều dài chuỗi truy vấn Bất hệ số min-max cửa sổ giám sát thay đổi, khoảng cách DTW cần tính lại hai cột Do đó, thời gian thực ISPRING nhiều so với SUCR-DTW 4.3 4.3.1 Phương pháp ESUCR-DTW Giới thiệu phương pháp ESUCR-DTW Phương pháp mở rộng SUCR-DTW từ quan sát sau Cho trước chuỗi truy vấn q có chiều dài l, chuỗi đầu vào chuỗi thời gian dạng luồng so trùng với q độ đo DTW dải Sakoe-Chiba có độ rộng w với điều kiện chiều dài chuỗi nằm miền giá trị [l – β : l + α] với 𝛼, 𝛽 ∈ 𝑁 𝛼, 𝛽 ≤ 𝑤 Để phương pháp ESUCR-DTW hoạt động, hàm chặn LB_Keogh cần mở rộng sau 4.3.2 Mở rộng hàm chặn LB_Keogh Cho hai chuỗi thời gian C, Q, độ rộng w dải Sakoe-Chiba, đặt n = |C|, m = |Q|, k = |n - m| ≤ w Với trường hợp n > m, mở rộng LB_Keogh theo công thức (4.2) Với trường hợp m > n, mở rộng LB_Keogh theo công thức (4.3) 𝑛 𝐿𝐵_𝐾𝑒𝑜𝑔ℎ_𝑒𝑥𝑡𝑒𝑛𝑒𝑑 (𝐶, 𝑄) = (𝑐𝑖 − 𝑢1 )2 if 𝑖 ≤ 𝑘 and 𝑐𝑖 > 𝑢1 (𝑙1 − 𝑐𝑖 )2 if 𝑖 ≤ 𝑘 and 𝑐𝑖 < 𝑙1 ∑ (𝑐𝑖 − 𝑢𝑖+1−𝑘 )2 if 𝑖 > 𝑘 and 𝑐𝑖 > 𝑢𝑖+1−𝑘 (4.2) 𝑖=1 (𝑙𝑖+1−𝑘 − 𝑐𝑖 )2 { √ 𝑛 𝐿𝐵_𝐾𝑒𝑜𝑔ℎ_𝑒𝑥𝑡𝑒𝑛𝑑𝑒𝑑 (𝐶, 𝑄) = ∑ if 𝑖 > 𝑘 and 𝑐𝑖 < 𝑙𝑖+1−𝑘 otherwise (𝑐𝑖 − 𝑢𝑖+1−𝑘 )2 if 𝑐𝑖 > 𝑢𝑖+1−𝑘 (𝑙𝑖+1−𝑘 − 𝑐𝑖 )2 if 𝑐𝑖 < 𝑙𝑖+1−𝑘 (4.3) 𝑖=1 √ 4.3.3 {0 otherwise Đánh giá phương pháp ESUCR-DTW Nghiên cứu thực nghiệm EUCR-DTW, SUCR-DTW, ISPRING để so sánh ba phương 15 pháp độ xác thời gian thực Sau thống kê kết thu từ phương pháp, nghiên cứu có vài kết luận quan trọng sau: • Chuỗi tương tự tìm thấy ESUCR-DTW thường có chất lượng tốt SUCRDTW; nghĩa ESUCR-DTW trả chuỗi tương tự chuỗi truy vấn có chiều dài khác Tuy nhiên, thời gian thực ESUCR-DTW lâu SUCR-DTW • ISPRING có xu hướng tìm chuỗi tương tự có chiều dài ngắn chuỗi truy vấn, ESUCR-DTW ngược lại • Xét chuỗi truy vấn, giá trị bsf đạt từ ISPRING nhỏ giá trị bsf đạt từ ESUCR-DTW Tuy nhiên ISPRING thường trả chuỗi tương tự có chiều dài khơng cân chiều dài chuỗi truy vấn Ví dụ chuỗi tương tự tìm thấy ISPRING ngắn so với chuỗi truy vấn Năm phương pháp tìm kiếm tương tự độ đo DTW so sánh với Bảng 4.13 Bảng 4.13 Tính chất phương pháp tìm kiếm tương tự độ đo DTW Chuỗi thời gian tĩnh UCR-DTW Dải Sakoeluồng z-score min-max Chiba v Chuẩn hoá v v v SUCR-DTW v v v v ESUCR-DTW v v v v SPRING v ISPRING v CHƯƠNG 5.1 So trùng hai chuỗi có chiều dài khác v v v v DỰ BÁO TRỰC TUYẾN TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG Giới thiệu toán Dự báo chuỗi thời gian q trình đưa dự đốn giá trị liệu tương lai dựa liệu chuỗi thời gian khứ Chuỗi thời gian có xu hướng tính mùa tồn tốn quan trọng dự báo doanh thu, nhiệt độ, lưu lượng nước sơng ngòi Luận án trình bày kết nghiên cứu vấn đề phương 16 pháp dự báo trực tuyến chuỗi thời gian dạng luồng có xu hướng tính mùa dựa tìm kiếm tương tự độ đo DTW 5.2 Định nghĩa toán Định nghĩa 5.1: Dự báo trực tuyến Cho X chuỗi thời gian dạng luồng, X = x1, x2,…, xn–m+1,…, xn… với xn điểm liệu quan sát ≤ m ≤ n Cho p ≥ 1, dự báo trực tuyến X dự đoán xn+1, xn+2,…, xn+p từ m quan sát ghi nhận 5.3 Tiêu chí đo độ xác dự báo Ba tiêu chí đo độ xác dự báo thường sử dụng MAPE (phần trăm sai số tuyệt đối trung bình), MAD (độ lệch tuyệt đối trung bình ), MSE (sai số bình phương trung bình) Với ba tiêu chí đo này, giá trị nhỏ phương pháp dự báo tốt 5.4 Làm trơn hàm mũ đơn giản Phương pháp gọi phương pháp SES lớp mơ hình tuyến tính bắt tính chất tuyến tính chuỗi thời gian Phương pháp dự báo phù hợp với chuỗi thời gian khơng có xu hướng 5.5 Các điểm cực trị cục chuỗi thời gian Phân đoạn chuỗi thời gian bước tiền xử lý quan trọng cho nhiều công tác khai phá liệu chuỗi thời gian Nghiên cứu có sử dụng kỹ thuật phân đoạn chuỗi thời gian dựa vào điểm cực trị quan trọng phương pháp đề xuất Điểm cực trị chuỗi thời gian điểm liệu cực tiểu cực đại cục chuỗi thời gian Fink Gandhi định nghĩa cực trị nghiêm ngặt, cực trị bên trái, cực trị bên phải, cực trị phẳng 5.6 Các cơng trình liên quan Có bốn cơng trình tiêu biểu dự báo chuỗi thời gian tĩnh dựa tìm kiếm tương tự sau: Álvarez cộng vào năm 2011 giới thiệu phương pháp để dự đoán hành vi chuỗi thời gian dựa giống chuỗi mẫu Son cộng vào năm 2013 đề xuất phương pháp dự báo sử dụng tìm kiếm k lân cận gần chuỗi thời gian có xu hướng tính mùa độ đo Euclid Tsinaslanidis Kugiumtzis vào năm 2014 đưa phương pháp dự báo chuỗi thời gian tài độ đo DTW kỹ thuật phân đoạn dựa vào điểm quan trọng cảm nhận (PIP) Tuy nhiên, việc xây dựng PIP 17 mở rộng để làm việc chuỗi thời gian dạng luồng Lai cộng vào năm 2006 đề xuất mơ hình dự báo lai kết hợp phương pháp SES mạng nơ ron nhân tạo để dự báo chuỗi thời gian tài 5.7 Phương pháp đề xuất Cho trước X chuỗi thời gian dạng luồng điểm liệu tới xn X Mục đích phương pháp đề xuất dự đốn xn+p với p  Phần định nghĩa giúp mô tả hoạt động phương pháp đề xuất Một phân đoạn chuỗi thời gian chuỗi xác định hai điểm cực đại quan trọng liên tiếp hai điểm cực tiểu quan trọng liên tiếp Định nghĩa 5.4: Chuỗi đích Một chuỗi đích chuỗi tới mà đầu bên trái chuỗi phân đoạn Định nghĩa 5.5: Chuỗi nguồn Cho chuỗi đích C, chuỗi nguồn S cho C phải thoả ba điều kiện sau: (i) Tất điểm liệu S phải nằm nhớ đệm lưu điểm liệu X (ii) Đầu bên trái S điểm cực trị quan trọng có kiểu với điểm cực trị quan trọng đầu bên trái C; nghĩa hai điểm điểm cực đại quan trọng điểm cực tiểu quan trọng (iii) S C có chiều dài Dựa điểm cực trị quan trọng, lúc đầu S C có chiều dài khác nhau, phương pháp đề xuất điều chỉnh đầu bên phải S cho S có chiều dài giống C Hình 5.3 thể mơi trường làm việc phương pháp đề xuất Trong hình này, chuỗi đích C có đầu bên trái phân đoạn xác định hai điểm cực tiểu quan trọng đầu bên phải điểm liệu tới xn Có năm điểm cực tiểu quan trong đệm có năm chuỗi nguồn cho chuỗi đích C Hình 5.3 Mơi trường hoạt động phương pháp đề xuất 18 Phương pháp đề xuất có hai pha thực sau: Pha lấy mẫu Đầu tiên, tất điểm liệu có sẵn X nạp vào đệm xoay vòng có kích thước lớn Tiếp theo, điểm cực trị quan trọng xác định X phương pháp đề xuất Fink Gandhi Rồi phân đoạn (chuỗi con) X xác định từ điểm cực trị quan trọng Cuối cùng, chuỗi đích tạo theo Định nghĩa 5.4 chuỗi nguồn tương ứng chuỗi đích tạo theo Định nghĩa 5.5 Sau đó, chuỗi chuẩn hố z-score Pha dự báo Có hai trường hợp xảy ra: (i) Nếu điểm liệu tới xn tạo điểm cực trị quan trọng chuỗi đích cần định nghĩa lại cách sử dụng phân đoạn xn Sau đó, chuỗi nguồn cho chuỗi đích xác định lại Rồi chuỗi đích chuỗi nguồn chuẩn hoá Để phục vụ cho việc tìm kiếm tương tự SUCRDTW hình bao chuỗi đích chuỗi nguồn tạo (ii) Nếu khơng chuỗi đích chuỗi nguồn mở rộng điểm liệu bên phải Tiếp theo, chuẩn hóa z-score gia tăng áp dụng cho chuỗi Các hình bao chuỗi đích chuỗi nguồn cập nhật gia tăng Sau có chuỗi đích chuỗi nguồn nó, SUCR-DTW sử dụng để tìm k chuỗi lân cận gần chuỗi đích từ chuỗi nguồn Giá trị dự báo xn+p tính từ điểm liệu phía trước chuỗi tìm thấy sau Cho Si chuỗi lân cận gần xsi điểm liệu cuối Si Như thế, xsi+p điểm liệu phía trước Si cách Si p mốc thời gian Kế tiếp, xsi+p chuẩn hóa thành ysi+p cách sử dụng hệ số z-score Si Giá trị chuẩn hóa yn+p xn+p tính từ hai cách: Lấy trung bình k giá trị chuẩn hóa: 𝑘 𝑦𝑛+𝑝 = ∑ 𝑦𝑠𝑖+𝑝 𝑘 (5.6) 𝑖=1 Lấy trung bình có trọng số k giá trị chuẩn hóa: 𝑘 𝑦𝑛+𝑝 = ∑ 𝑖 ∗ 𝑦𝑠𝑖+𝑝 𝑘 ∗ (𝑘 + 1) (5.7) 𝑖=1 Có yn+p, ta tính xn+p từ hệ số z-score chuỗi đích Cơng thức (5.7) hàm ý giống với chuỗi đích trọng số chuỗi lân cận gần lớn Như phương pháp đề xuất có hai phiên kNN-Av cho công thức (5.6) kNN-WAv cho công thức (5.7) 19 Thêm nữa, phương pháp đề xuất lai với phương pháp SES sau: 𝐻𝑦𝑏𝑟𝑖𝑑 𝑦𝑛+𝑝 𝑆𝐸𝑆 = 𝜔𝑦𝑛+𝑝 + (1 − 𝜔)𝑦𝑛+𝑝 (5.8) 𝑆𝐸𝑆 với 𝑦𝑛+𝑝 giá trị chuẩn hố tính kNN-Av kNN-WAv, 𝑦𝑛+𝑝 giá trị chuẩn hố tính phương pháp SES, < 𝜔 < Giá trị trọng số 𝜔 xác định cách giải toán tối ưu giảm thiểu lỗi dự báo tiêu chí đo MSE 5.8 Đánh giá phương pháp đề xuất Đánh giá phương pháp đề xuất qua thực nghiệm bốn chuỗi thời gian dạng luồng có xu hướng tính mùa thể phương pháp cho kết dự báo có độ xác cao thời gian phản hồi nhanh CHƯƠNG 6.1 PHÁT HIỆN K CHUỖI CON BẤT THƯỜNG NHẤT TRONG CHUỖI THỜI GIAN DẠNG LUỒNG Giới thiệu toán Phát bất thường chuỗi thời gian dạng luồng toán thách thức cho nhà nghiên cứu khai phá liệu chuỗi thời gian Nhiệm vụ cụ thể cho tốn tìm chuỗi bất thường chuỗi thời gian dạng luồng 6.2 Định nghĩa toán Cho chuỗi thời gian X dạng luồng xn điểm liệu quan sát gần Định nghĩa 6.1: Khớp không tầm thường Cho hai chuỗi C Q có chiều dài l, C = {xp, xp + 1, , xp + l − 1}và Q = {xq, xq + 1,…, xq + l − 1}, C khớp không tầm thường với Q khoảng cách D(C, Q) |p − q| ≥ l Định nghĩa 6.2: Chuỗi bất thường Cho chuỗi C có chiều dài l, C chuỗi bất thường X C có khoảng cách lớn tới chuỗi NC chuỗi lân cận gần C NC khớp không tầm thường với C Nghĩa với chuỗi Q có chiều dài l NQ chuỗi lân cận gần khớp không tầm thường với Q, chuỗi C thoả bất đẳng thức D(C, NC) > min(D(Q, NQ)) Định nghĩa 6.3: Chuỗi bất thường thứ i Chuỗi C có chiều dài l bắt đầu vị trí p chuỗi bất thường thứ i X C có khoảng cách lớn thứ i tới chuỗi lân cận gần chuỗi khớp không tầm thường với C Thêm nữa, C phần chồng lấp với chuỗi bất thường thứ j mà bắt đầu vị trí 20 pj, Nghĩa là: ∀j, ≤ j < i |p – pj| ≥ l Bài tốn tìm kiếm k chuỗi có chiều dài l mà bất thường X có xuất chuỗi tới có chiều dài l Điều hàm ý việc phát bất thường thực có điểm liệu tới X 6.3 Các cơng trình liên quan Có năm cơng trình điển hình phát bất thường chuỗi thời gian tĩnh: Keogh cộng vào năm 2005 đưa giải thuật HOT SAX để tìm kiếm chuỗi bất thường chuỗi thời gian Bu cộng vào năm 2007 đề xuất giải thuật WAT để tìm kiếm k chuỗi bất thường chuỗi thời gian Buu Anh vào năm 2011 giới thiệu HOTiSAX phương pháp mở rộng HOT SAX để làm việc với mục iSAX Chỉ mục thể nhị phân tối ưu cho SAX Li cộng vào năm 2013 giới thiệu giải thuật BitClusterDiscord để phát bất thường dựa vào kỹ thuật gom cụm cho chuỗi bit thể chuỗi chuỗi thời gian Kha Anh vào năm 2015 giới thiệu phương pháp phát bất thường dựa vào kỹ thuật gom cụm cho chuỗi xác định điểm cực trị cục Phương pháp đề xuất 6.4 Luận án đề xuất phương pháp SKDIS phát k chuỗi bất thường chuỗi thời gian dạng luồng dựa tìm kiếm tương tự độ đo Euclid 6.4.1 Môi trường hoạt động cho phương pháp SKDIS Cho trước chuỗi thời gian X dạng luồng xn điểm liệu tới Nhiệm vụ SKDIS tìm k chuỗi bất thường có chiều dài l sau xuất xn Bối cảnh làm việc phương pháp SKDIS minh họa Hình 6.1 Để mơ tả phương pháp SKDIS phần sau, nghiên cứu có giả định sau: • Cho l chiều dài chuỗi bất thường Một đệm B xoay vòng có kích thước bsize >> l sử dụng để lưu số lượng lớn điểm liệu đến X • Cho chuỗi C tới có chiều dài l, C = {xn – l + 1, , xn - 1, xn}, chuỗi S có độ dài l trước C hợp lệ S thỏa hai điều kiện: (i) Tất điểm liệu S phải nằm nhớ đệm B, (ii) S khớp khơng tầm thường với C 21 Hình 6.1 Bối cảnh làm việc SKDIS • Gọi VS tập hợp chuỗi hợp lệ trước C • Khoảng cách gần chuỗi khoảng cách chuỗi chuỗi lân cận gần tạm thời thời điểm xét Gọi LD danh sách chuỗi xếp theo thứ tự giảm dần khoảng cách gần 6.4.2 Ý tưởng cho phương pháp SKDIS Đặt s số lượng chuỗi có chiều dài l lấy mẫu; để trả lời truy vấn k chuỗi bất thường SKDIS cần thực hai pha sau: Pha 1: Lấy mẫu s chuỗi tới sớm để tìm k chuỗi bất thường tạm thời Khoảng cách gần chuỗi bất thường thứ k sử dụng ngưỡng chặn ε Pha 2: Khi có chuỗi tới, hai khoảng cách gần chuỗi tới chuỗi hợp lệ xét tập hợp VS lớn ε, SKDIS kiểm tra xem liệu chuỗi chuỗi lân cận gần chuỗi hay không Nếu khoảng cách gần hai chuỗi thay đổi danh sách LD cần cập nhật Kết thực Pha Pha danh sách LD xếp Nếu có truy vấn tìm kiếm k chuỗi bất thường nhất, phương pháp SKDIS tìm kiếm LD để trả chuỗi bất thường chuỗi bất thường thứ k Lưu ý k chuỗi bất thường không chồng lấp lên 6.5 Đánh giá phương pháp SKDIS Nghiên cứu điều chỉnh giải thuật HOT SAX để thực tìm kiếm k chuỗi bất thường môi trường tĩnh Thêm nữa, phiên khác HOT SAX SHOT SAX (Streaming HOT SAX) tạo để thực tìm kiếm k chuỗi bất thường môi trường luồng 22 Đánh giá qua thực nghiệm sáu chuỗi thời gian dạng luồng thể SKDIS SHOT SAX phát chuỗi bất thường có vị trí giống SKDIS thể thời gian thực nhanh nhiều SHOT SAX Khi SKDIS so sánh với HOT SAX, hai phương pháp trả chuỗi bất thường có vị trí gần giống vị trí với nhau; nhiên, SKDIS làm việc với chuỗi thời gian có tính chu kỳ CHƯƠNG KẾT LUẬN Các kết nghiên cứu thể luận án giải thành công hai nhiệm vụ đặt đề xuất phương pháp hiệu cho việc tìm kiếm tương tự chuỗi thời gian dạng luồng ứng dụng phương pháp hai toán thực tế 7.1 Các đóng góp luận án Bảng 7.1 Tổng kết phương pháp đề xuất cho tìm kiếm tương tự STT Phương pháp Chức Cơng trình cơng bố Đặc điểm RangeSearch Tìm kiếm vùng độ đo Phương pháp Euclid Sử dụng cấu trúc CT9, CT5 mục đa mức phân giải k-NNSearch Tìm kiếm k lân cận gần Biến đổi độ đo Euclid RangeSearch ISTR1 ISTR2 Tạo cấu trúc mục R- Cải tiến kỹ thuật STR tree có tổ chức tốt CT7 SUCR-DTW Tìm kiếm tương tự độ Cải tiến kỹ thuật đo DTW UCR-DTW để thích ứng ngữ cảnh luồng CT6 ESUCR-DTW Tìm kiếm tương tự độ Mở rộng đo DTW chuỗi DTW tương tự có chiều dài khác với chuỗi truy vấn CT4 ISPRING Tìm kiếm tương tự độ đo DTW chuỗi tương tự có chiều dài khác với chuỗi truy vấn 23 từ CT8 SUCR- Cải tiến phương pháp SPRING để có chuẩn hố liệu CT3 Bảng 7.2 Tổng kết phương pháp đề xuất để giải toán thực tế STT Phương pháp Chức Sử dụng Dự báo trực SUCR-DTW kỹ kNN-Av, kNN- tuyến thuật phân đoạn chuỗi Wav, thời gian dạng luồng Hybrid dựa vào điểm cực trị quan trọng Phát k Các kỹ thuật tăng tốc SKDIS chuỗi bất tính tốn độ đo thường Euclid Đặc điểm Cơng trình cơng bố Phương pháp CT2 Phương pháp CT1 Kết đạt từ nghiên cứu thể luận án có hai đóng góp chính: Đề xuất phương pháp hiệu cho nhiệm vụ tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo Euclid độ đo DTW Các phương pháp khơng gây lỗi tìm sót, xử lý tức thời có điểm liệu chuỗi thời gian vừa tới, phản hồi kết nhanh chóng Bảng 7.1 tổng kết sáu phương pháp đề xuất Sử dụng có hiệu phương pháp kỹ thuật tìm kiếm tương tự chuỗi thời gian dạng luồng để giải toán dự báo trực tuyến toán phát k chuỗi bất thường chuỗi thời gian dạng luồng Nhờ việc sử dụng mà phương pháp đề xuất để giải hai toán trả kết tìm kiếm có chất lượng tốt thời gian thực thi nhanh chóng Bảng 7.2 tổng kết hai phương pháp đề xuất 7.2 Hạn chế luận án • Các thực nghiệm phương pháp đề xuất tiến hành hệ thống máy tính bình thường khơng phải máy chủ • Chưa đánh giá hiệu thời gian thực phương pháp đề xuất theo giá trị khác tham số sử dụng phương pháp 7.3 Hướng phát triển Từ hạn chế nêu, nghiên cứu sinh xem động lực để nghiên cứu thêm tốn tìm kiếm tương tự chuỗi thời gian dạng luồng, đặc biệt môi trường phân tán Ngoài ra, để phương pháp đề xuất hoàn thiện hơn, phương pháp cần bổ sung đặc tính nâng cao hiệu thời gian thực so sánh với phương pháp tiên tiến khác Trong tương lai nghiên cứu sinh muốn ứng dụng phương pháp tìm kiếm tương tự cho tốn đặc biệt khác kết chuỗi hay tìm mơ típ chuỗi thời gian dạng luồng 24 ... THIỆU Chuỗi thời gian dạng luồng thách thức xử lý chuỗi thời gian dạng luồng Chuỗi thời gian dạng luồng chuỗi thời gian có giá trị tới ghi nhận cách liên tục nối vào cuối chuỗi theo thứ tự thời gian. .. tiến trình luồng đảm trách tìm kiếm tương tự chuỗi thời gian dạng luồng Tiến trình luồng thu Hình 3.6 Mơ hình hệ thống tìm kiếm tương tự độ đo Euclid nhận điểm liệu tới chuỗi thời gian dạng luồng. .. TRÊN CHUỖI THỜI GIAN DẠNG LUỒNG BẰNG ĐỘ ĐO DTW Tìm kiếm tương tự chuỗi thời gian dạng luồng độ đo DTW 4.1 4.1.1 Các cơng trình liên quan Có cơng trình tiêu biểu tìm kiếm tương tự chuỗi thời gian

Ngày đăng: 03/03/2020, 20:36

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan