5. Ý nghĩa thực tiễn của đề tài
3.2 Các công trình nghiên cứu về phát hiện bất thường trên dữ liệu chuỗi thời gian
trong thời gian qua.
E. Keogh và các cộng sự [2] đã đề nghị một phương pháp dựa trên kĩ thuật Heuristic gọi là HOT SAX để xén nhanh chóng những không gian dữ liệu - là một trong số những giải thuật khám phá chuỗi con bất thường phổ biến nhất để mà xén nhanh chóng những không gian dữ liệu để khai thác dữ liệu tối ưu.
Hình 3.1 Hot Sax sử dụng 3 ký tự a, b, c [2] Tuy nhiên kỹ thuật này cũng có một số nhược điểm:
• Cần xác định chiều dài của chuỗi con bất thường. • Cần biết trước chiều dài từ (wordlength).
• Cần biết số kí tự cần sử dụng (alphabet-size). • Chi phí tính toán cao.
• Vị trí chuỗi con bất thường tìm được vẫn chưa chính xác.
Năm 2006 Ada Wai-chee Fu và các cộng sự [22] đề xuất đề xuất một thuật toán có thể tự động xác định kích thước từ trong việc nén các chuỗi con thay vì phải chọn trước kích thước từ trong việc nén các chuỗi con như thuật toán HOT SAX. Phương pháp của tác giả dựa trên một số tính chất của sự biến đổi Haar wavelet – kỹ thuật này được sử dụng để xấp xỉ chuỗi thời gian bất thường vì kết quả của phép biến đổi wavelet có thể đại diện cho hình dạng chung của một chuỗi thời gian. Các thí nghiệm của tác giả cho thấy rằng phương pháp này có hiệu quả cao.
+ Ưu điểm của phương pháp này là có thể tự động xác định kích thước từ nén thay vì phải chọn chọn kích thước từ nén cho chuỗi con như thuật toán HOT SAX.
Theo Jessica Lin và các cộng sự (2003) [19] giới thiệu phương pháp đại diện kí tự mới trên chuỗi thời gian (SAX), nó cho phép giảm số chiều (kích thước, số lượng), và nó cũng cho phép các độ đo khoảng cách được xác định trên phương pháp tiếp cận dựa trên
kí tự, mà các phép đo khoảng cách tương ứng ít hơn trong chuỗi gốc vì thế thuật toán hiệu quả hơn, trong khi mang lại kết quả tương tự với các thuật toán trên dữ liệu gốc. Cuối cùng, biểu diễn của tác giả cho phép dữ liệu có giá trị thực được chuyển đổi theo kiểu streaming, chỉ với thời gian rất nhỏ.
Năm 2007 Y. Bu và các cộng sự đã đề xuất phương pháp gọi là WAT [23] dựa trên nền thuật toán cơ bản Haar wavelet và cây gia tố (Augmented trie) để khai thác các bất thường cơ sở dữ liệu chuỗi thời gian có thể tự động xác định kích thước nén của từ do đặc tính của biến đổi Haar wavelet, thuật toán của tác giả và các cộng sự cắt tỉa hiệu quả hơn các phương pháp tiếp cận trước đó.
Năm 2010 Cheboli [24] giới thiệu cấu trúc và tổng quan những thuật toán khác nhau theo các lĩnh vực nghiên cứu, ứng dụng và đặc tính dữ liệu. Các thuật toán khác nhau khai phá bất thường chuỗi thời gian đã được đề xuất như HOT SAX của Keogh ... Năm 2013, W. Luo và các cộng sự đề suất một phương pháp [25] phát hiện bất thường dữ liệu chuỗi thời gian trực tiếp dựa trên việc phát họa lại những tái hiện cho thấy hiệu quả nhanh và không cần tham số. Tuy nhiên thuật toán phát hiện bất thường trên dữ liệu chuỗi thời gian phải dựa vào chu kì tuần hoàn trong chuỗi thời gian đầu vào, một giả định giới hạn khả năng áp dụng của thuật toán. Trong phương pháp đề xuất tác giả loại bỏ các giả định tuần hoàn. Phương pháp đã đề xuất một hàm tham chiếu cho các chuỗi con và một chiến lược lấy mẫu mới dựa trên hàm tham chiếu. Những biện pháp này dẫn đến một thuật toán mới với hiệu quả được cải thiện mạnh mẽ, và đã được chứng minh bằng đánh giá thực nghiệm.
Phương pháp gồm hai thành phần chính:
Một thành phần của phương pháp này là một bộ các mô hình cho mỗi chiều của chuỗi dữ liệu đa chiều. Những mô hình này được học từ các dữ liệu huấn luyện bình thường mà không có bất thường, gồm một bộ các ví dụ, mỗi ví dụ là một tính năng mô tả một cửa sổ mẫu của chuỗi thời gian.
Thành phần thứ hai của mô hình là một bộ các hàm phi tuyến dự đoán giá trị của một chiều của chuỗi thời gian bằng cách sử dụng một cửa sổ từ chiều liên quan.
Một tập các hàm phi tuyến như vậy được huấn luyện để mọi chiều có liên quan đến một chiều khác xuất hiện trong ít nhất một hàm phi tuyến. Dựa trên những thành phần này thuật toán phát hiện một loạt các bất thường trên một loạt các chuỗi thời gian đa chiều. Năm 2013, Yan QiuYan và Chen Xiongtao [26] đề xuất một phương pháp mới kết hợp dò tìm Top-K Discord với bảng xếp hạng chưa xác thực để lưu K bất thường chưa xác thực đầu tiên. Thay đổi các khoảng thời gian bất thường thỏa phân phối Gaussian, phương pháp mới có thể sắp thứ tự dữ liệu chuỗi thời gian với phân phối tùy ý.
Năm 2014 M. Jones và các cộng sự [27] đã đề xuất một thuật toán mới phát hiện các bất thường trên giá trị thực của chuỗi thời gian đa chiều. Thuật toán sử dụng một mô hình dựa trên mẫu để phát hiện các bất thường trong chuỗi thời gian một chiều và một hàm dự đoán một chiều từ một quan hệ có liên quan để phát hiện các bất thường dữ liệu đa chiều.
Năm 2015 Nguyễn Huy Kha và Dương Tuấn Anh [8] đã đề xuất một cách tiếp cận mới khám phá ra sự bất thường dựa trên phát hiện cụm bất thường. Trong cách tiếp cận này, đầu tiên, các ứng viên phụ được trích ra từ chuỗi thời gian sử dụng phương pháp phân đoạn, sau đó các ứng cử viên này được chuyển đổi thành cùng một chiều dài và là đầu vào cho một thuật toán phân cụm thích hợp và cuối cùng xác định các bất thường bằng cách sử dụng một phép đo phát hiện bất thường trên dữ liệu chuỗi thời gian dựa trên cụm được đề xuất bởi He et al. 2003. Kết quả thực nghiệm cho thấy hiệu quả hơn thuật toán HOT SAX.
Huỳnh Thị Thu Thủy và cộng sự (2016) [28] đã đề nghị 2 kỹ thuật cải thiện hiệu quả của giải thuật HOT SAX để phát hiện bất thường trên dữ liệu chuỗi thời gian hiệu quả hơn: 1. Áp dụng hai phương pháp phân đoạn dữ liệu để xấp xỉ các tham số cho giải thuật HOT SAX:
Sử dụng phương pháp phân đoạn xấp xỉ tuyến tính từng đoạn: xác định chiều dài PAA → xác định wordlength.
Sử dụng phương pháp phân đoạn dựa vào điểm cực trị quan trọng → xấp xỉ chiều dài chuỗi con bất thường.
Áp dụng cách trượt cửa sổ mới, mỗi lần trượt cửa sổ 1 phân đoạn PAA
Ưu điểm của phương pháp:
- Sử dụng cửa sổ trượt mỗi lần sẽ trượt một đoạn bằng chiều dài đoạn xấp xỉ (đã được xác định ở kỹ thuật thứ nhất) thay vì trượt từng điểm như giải thuật HOT SAX gốc do đó giúp cải thiện được tốc độ phát hiện chuỗi con bất thường.
- Sử dụng bảng băm làm cấu trúc dữ liệu hỗ trợ việc phát hiện chuỗi con bất thường thay vì sử dụng cây gia tố (augmented trie) như trong giải thuật HOT SAX gốc.
- Nhiều nhà nghiên cứu cũng đã xem xét chuyển các giá trị chuỗi thời gian thực thành các kí hiệu, để có thể nghiên cứu tận dụng được sự phong phú của các cấu trúc dữ liệu và các thuật toán từ các cộng đồng xử lý văn bản nhưng tất cả đều bị ba lỗi nghiêm trọng:
- Thứ nhất, số chiều của kí tự đại diện giống như dữ liệu gốc, và hầu như tất cả các thuật toán khai thác dữ liệu giảm số chiều không hiệu quả.
- Thứ hai, mặc dù các biện pháp về khoảng cách có thể được xác định trên những kí tự đại diện, các phép đo khoảng cách này có ít mối quan hệ với các phép đo khoảng cách được xác định trong chuỗi thời gian ban đầu.
- Cuối cùng, các phương pháp tiếp cận đòi hỏi người ta phải có quyền truy cập vào tất cả các dữ liệu, trước khi tạo kí tự đại diện. Tính năng cuối cùng này cản trở nỗ lực sử dụng các đại diện với thuật toán trực tuyến.