1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (tt)

33 543 6

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 33
Dung lượng 1,03 MB

Nội dung

Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)Phát hiện chuỗi bất thường trên dữ liệu chuỗi thời gian (Luận văn thạc sĩ)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Huỳnh Cẩm PHÁT HIỆN CHUỖI BẤT THƯỜNG TRÊN DỮ LIỆU CHUỖI THỜI GIAN Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8480104 TĨM TẮT LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH – 2018 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Dương Thị Thuỳ Vân Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: ngày tháng 01 năm 2018 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Dữ liệu chuỗi thời gian liệu đo đạc cách theo thời gian Có nhiều loại liệu có yếu tố thời gian vậy, ví dụ liệu điện tâm đồ, liệu thiên văn, thời tiết, mực nước, liệu tài chính, giá chứng khoán, … Một nghiên cứu khảo sát hướng nghiên cứu quan trọng thách thức lĩnh vực khai phá liệu học máy thực vào năm 2006 Yang Wu [1] cho kết 10 hướng nghiên cứu Trong đó, hướng nghiên cứu khai phá liệu chuỗi thời gian xếp thứ 10 hướng nghiên cứu quan trọng thách thức Do đó, việc khai phá liệu chuỗi thời gian thu hút nhiều quan tâm nghiên cứu giới Các tốn điển hình khai phá liệu chuỗi thời gian bao gồm: Lập mục (Indexing), Gom cụm (Clustering), Phân lớp (Classificaition), Tổng hợp (Summarization), Phát Motif (Motif detection), Phát chuỗi bất thường (Anomaly detection) Khai phá liệu chuỗi thời gian ứng dụng rộng rãi nhiều lĩnh vực y học, kinh tế, tài chính, chứng khốn, quản lý mạng truyền thông, … Các lĩnh vực nghiên cứu y học dịch vụ tài chính, … thường cần độ xác cao Trong đó, chuỗi bất thường liệu chuỗi thời gian thường ảnh hưởng nhiều đến kết khai phá liệu Vì việc xác định chuỗi bất thường liệu chuỗi thời gian đóng vai trò quan trọng thường dùng bước tiền xử lý cho toán khai phá liệu chuỗi thời gian Sau số ứng dụng quan trọng toán phát chuỗi bất thường liệu chuỗi thời gian [2]: - Phát bất thường xung nhịp tim liệu điện tim ECG [3], [4]: thông thường liệu điện tim ECG chuỗi thời gian tuần hoàn ghi lại biến thiên điện lực tim phát hoạt động co Một bất thường liệu mẫu khơng phù hợp (non-conforming pattern) mặt chu kỳ biên độ, điều có vấn đề sức khỏe - Phát công hệ thống tư vấn (recommender system): cơng Shilling, kẻ công đưa xếp hạng, đánh giá có thiên vị để ảnh hưởng đến tư vấn, gợi ý tương lai [5] - Phát bất thường chuyến bay sử dụng liệu cảm biến từ máy báy: hành vi hệ thống chuyến bay thể liệu cảm biến thông qua thơng số khác Các thơng số có giá trị thay đổi suốt trình bay Nếu liệu cảm biến có chuỗi bất thường hành vi hệ thống chuyến bay có sai lệch, cần cảnh báo [6] - Phát bất thường hình dạng: Tìm hình dạng khác biệt với hình dạng khác, với hình dạng chuyển thành chuỗi thời gian [7], [8], [9] Trong lĩnh vực khai phá liệu y học, cho hình dạng số chủng loại, hình dạng khác với hình dạng lại cho thấy bất thường biến đổi gen tạo - Phát đường cong ánh sáng bất thường danh mục ngơi có độ sáng biến đổi tuần hoàn: phát bất thường ngơi có độ sáng biến đổi tuần hoàn Các bất thường tương ứng với số khác biệt vật lý bên trong, chẳng hạn thay đổi chu kỳ biên độ, thể qua độ nhiễu đường cong ánh sáng [10], [11] - Phát thay đổi hệ sinh thái cách sử dụng liệu khoa học trái đất sinh trưởng thực vật hay nhiệt độ [12] Với phân tích trên, tốn phát chuỗi bất thường thu hút quan tâm đáng kể cộng đồng nghiên cứu từ thập niên 1980 Các nhóm nghiên cứu [13], [14], [1], [15], [16], [17], [3], [4] định nghĩa nhiều loại chuỗi bất thường khác outlier, anomaly, unusual, discord, … đề xuất nhiều phương pháp phát chuỗi bất thường Trong đó, phương pháp phát chuỗi bất thường discord (discord discovery) Keogh et al [14] giới thiệu từ năm 2005 gần nhóm [18], [19], [20], [17], [21], [22] tập trung nghiên cứu Luận văn tập trung nghiên cứu phương pháp phát chuỗi bất thường liệu chuỗi thời gian Từ đó, luận văn đề xuất phương pháp phát chuỗi bất thường discord dựa vào cửa sổ trượt (Window) Nội dung luận văn bên cạnh phần mở đầu kết luận trình bày 03 chương, bao gồm: Chương 1: Tổng quan Chương giới thiệu khảo sát liệu chuỗi thời gian, toán phát chuỗi bất thường liệu chuỗi thời gian, mục tiêu nghiên cứu, đối tượng nghiên cứu phạm vi nghiên cứu, phương pháp nghiên cứu ý nghĩa khoa học thực tiễn đề tài Chương 2: Cơ sở lý thuyết Chương trình bày sở lý thuyết đề tài liên quan đến toán phát chuỗi bất thường liệu chuỗi thời gian bao gồm thu giảm số chiều chuỗi thời gian, rời rạc hóa chuỗi thời gian, kỹ thuật phát chuỗi bất thường Chương 3: Đề xuất giải thuật thực nghiệm đánh giá Chương đề xuất giải thuật phát chuỗi bất thường dựa vào phương pháp cửa sổ trượt, cài đặt giải thuật, xây dựng tập liệu kiểm thử, chạy thực nghiệm đánh giá kết thực nghiệm, so sánh kết thực nghiệm giải thuật đề xuất với công trình liên quan Kết luận hướng phát triển Tổng kết kết đạt hạn chế luận văn, đề xuất hướng phát triển tương lai đề tài CHƯƠNG – TỔNG QUAN 1.1 Giới thiệu 1.1.1 Dữ liệu chuỗi thời gian Dữ liệu chuỗi thời gian tập hợp giá trị, đo theo khoảng thời gian liền theo trình tự thời gian định Ví dụ chuỗi thời gian là: lưu lượng mưa hàng năm Việt Nam, kết điện tâm đồ, thời tiết… Hình 1.1 minh họa ví dụ chuỗi thời gian biểu diễn giá vàng giới ngày 05/07/2014 Hình 1.1: Đường biểu diễn chuỗi thời gian [22] 1.1.2 Các loại liệu chuỗi thời gian Hầu hết kỹ thuật phát chuỗi bất thường sử dụng liệu chuỗi thời gian huấn luyện để học mô hình gán số điểm bất thường cho chuỗi thời gian thử nghiệm dựa mơ hình Hiệu suất kỹ thuật phát chuỗi bất thường phụ thuộc vào đặc tính liệu chuỗi thời gian Chúng ta thảo luận hai đặc tính liệu chuỗi thời gian, bao gồm (1) tính tuần hồn (2) tính đồng Sự kết hợp hai đặc tính cho bốn loại chuỗi thời gian khác - Tuần hoàn đồng - Khơng tuần hồn đồng - Tuần hồn khơng đồng - Khơng tuần hồn khơng đồng 1.1.3 Các toán liệu chuỗi thời gian Lập mục (Indexing): tìm kiếm chuỗi thời gian, kết hiển thị chuỗi thời gian tương tự lưu trữ sở liệu Gom cụm (Clustering): dựa vào hàm tính độ đo tương tự, ta gom cụm liệu vào nhóm phù hợp, cụm liệu thuộc nhóm Phân lớp (Classificaition): đưa liệu chuỗi thời gian chưa gán nhãn vào nhóm gán nhãn trước Tổng hợp (Summarization): rút trích, tóm tắt nội dung quan trọng thành chuỗi ngắn gọn, cô đọng giữ nguyên chất Phát Motif (Motif detection): tìm chuỗi xuất nhiều lần liệu chuỗi thời gian Phát bất thường (Anomaly detection): tìm chuỗi khác biệt liệu chuỗi thời gian 1.2 Tổng quan toán phát chuỗi bất thường Dữ liệu chuỗi thời gian tồn nhiều ứng dụng thực tế, từ lĩnh vực khoa học kỹ thuật kinh tế, y tế, tài Trong ứng dụng này, việc tìm kiếm chuỗi bất thường xuất sở liệu chuỗi thời gian công việc cần thiết Từ thập niên 1980, nhóm nghiên cứu đề xuất nhiều phương pháp phát chuỗi bất thường liệu chuỗi thời gian Nhìn chung, phương pháp dựa vào năm kỹ thuật sau đây:  Dựa vào cửa sổ trượt (Window based)  Dựa vào tương tự (Proximity based)  Dựa vào dự đoán (Prediction Based)  Dựa vào mơ hình Markov ẩn (Hidden Markow Models Based)  Dựa vào phân đoạn (Segmentation Based) 1.3 Những khó khăn thách thức 1.3.1 Những thách thức nghiên cứu liệu chuỗi thời gianDữ liệu thường lớn Chẳng hạn, giờ, liệu điện tâm đồ (ECG) lên đến 1GB  Phụ thuộc nhiều vào yếu tố chủ quan người dùng tập liệu đánh giá mức độ tương tự chuỗi thời gianDữ liệu không đồng nhất: định dạng liệu khác nhau, tần số lấy mẫu khác Ngoài ra, liệu bị nhiễu, thiếu vài giá trị không 1.3.2 Những thách thức tốn phát chuỗi bất thường  Có nhiều loại bất thường liệu chuỗi thời gian, bao gồm: phần chuỗi thời gian bất thường toàn chuỗi thời gian bất thường  Khó xác định xác độ dài chuỗi toán phát chuỗi bất thường  Các chuỗi thời gian kiểm thử chuỗi thời gian huấn luyện có độ dài khác  Khó xác định độ đo tương tự/khoảng cách tốt sử dụng cho loại chuỗi thời gian khác Các độ đo đơn giản khoảng cách Euclid ln ln khơng hoạt động tốt chúng nhạy với giá trị ngoại lệ chúng sử dụng chuỗi thời gian có độ dài khác  Hiệu suất nhiều thuật toán phát bất thường liệu chuỗi thời gian có nhiễu thường thấp, độ nhiễu liệu chuỗi thời gian thách thức lớn toán phát chuỗi bất thườngChuỗi thời gian ứng dụng thực tế thường dài độ dài tăng độ phức tạp tính tốn tăng lên 1.4 Mục tiêu nghiên cứu Mục tiêu luận văn nghiên cứu phương pháp phát chuỗi bất thường liệu chuỗi thời gian Đề tài dựa nghiên cứu X Zhao cộng đề xuất năm 2014 giải thuật HOTSAX E Keogh cộng đề xuất năm 2005 [14] Mục tiêu đặt phương pháp phát bất thường đề xuất luận văn có chi phí thời gian thực thi chi phí nhớ chạy giải thuật giảm so với giải thuật HOTSAX 1.5 Đối tượng phạm vi nghiên cứu 1.5.1 Đối tượng nghiên cứu: Đối tượng nghiên cứu luận văn nghiên cứu phương pháp phát bất thường liệu chuỗi thời gian Để đạt kết nghiên cứu, tiến hành thực nội dung nghiên cứu sau:  Nghiên cứu phương pháp thu giảm số chiều chuỗi thời gian  Nghiên cứu phương pháp rời rạc hóa liệu chuỗi thời gian  Nghiên cứu kỹ thuật phát chuỗi bất thường liệu chuỗi thời gian  Đề xuất phương pháp phát chuỗi bất thường liệu chuỗi thời gian dựa vào cửa sổ trượt  Thực nghiệm nhiều tập liệu, so sánh đánh giá kết thực nghiệm giải thuật đề xuất với giải thuật HOTSAX 1.5.2 Phạm vi nghiên cứu: Dữ liệu chuỗi thời gian có hai hay nhiều chiều Phạm vi nghiên cứu luận văn liệu chuỗi thời gian có hai chiều, có chiều thời gian Theo đó, chuỗi thời gian định nghĩa chuỗi số thực X =x1, x2, x3, …, xn với xi giá trị đo thời điểm thứ i 1.6  Phương pháp nghiên cứu Nghiên cứu phương pháp phát bất thường liệu chuỗi thời gian công bố từ trước đến để từ cải tiến đề xuất phương pháp cho toán phát bất thường dựa cửa sổ trượt  Cài đặt phương pháp đề xuất sử dụng Matlab  Xây dựng liệu thực nghiệm  Thực nghiệm đánh giá, so sánh phương pháp đề xuất luận văn với phương pháp công bố CHƯƠNG - CƠ SỞ LÝ THUYẾT 2.1 Thu giảm số chiều chuỗi thời gian Các chuỗi thời gian thực tế thường có số điểm liệu lớn, thực việc tìm kiếm chuỗi bất thường trực tiếp chuỗi thời gian gốc gặp khó khăn lưu trữ tốc độ tính tốn Do đó, nhóm nghiên cứu đề xuất phương pháp thu giảm số chiều để thu giảm độ lớn liệu mà giữ đặc trưng liệu Một số phương pháp thu giảm số chiều điển biến đổi Fourier rời rạc, biến đổi Wavelet rời rạc, phương pháp xấp xỉ gộp đoạn (PAA), phương pháp xấp xỉ tuyến tính đoạn (PLA), … Trong đó, phương pháp xấp xỉ gộp đoạn (PAA) thường nhóm nghiên cứu đề xuất sử dụng đơn giản dễ thực 2.2 Rời rạc hóa chuỗi thời gian Rời rạc hóa (discretization) chuỗi thời gian trình biến đổi chuỗi thời gian thành chuỗi ký tự để áp dụng kỹ thuật xử lý liệu chuỗi ký tự để thực xử lý, phân tích liệu chuỗi thời gian Trong phương pháp rời rạc hóa chuỗi thời gian đề xuất, phương pháp xấp xỉ gộp ký hiệu hoá (Symbolic Aggregate approXimation – SAX) thường sử dụng toán phát motif phát bất thường chuỗi thời gian 2.3 Các kỹ thuật phát bất thường Qui trình phát chuỗi bất thường bao gồm bước sau đây:  Tính điểm bất thường (anomaly score) chuỗi rút trích từ chuỗi thời gian ban đầu  Tổng hợp điểm bất thường chuỗi để tính điểm bất thường chuỗi thời gian ban đầu Cách tổng hợp thực nhiều phương pháp khác nhau, ví dụ (1) lấy trung bình điểm bất thường chuỗi con, (2) lấy trung bình k điểm bất thường k chuỗi đầu tiên, …  Đánh dấu chuỗi bất thường cho chuỗi thời gian có điểm bất thường lớn ngưỡng thiết lập 2.3.1 Dựa vào cửa sổ trượt (Window based) Giả thiết kỹ thuật bất thường chuỗi thời gian nhiều chuỗi bất thường gây Do đó, kỹ thuật dùng cửa sổ trượt để chia chuỗi thời gian thành cửa sổ có kích thước xác định (gọi chuỗi - subsequences) 17 Bảng 3.2: Giải thuật phát chuỗi bất thường dựa Heuristics Function [dist, loc]= Heuristics_Search(T, n, Outer, Inner) best_so_far_dist = best_so_far_loc = NaN For Each p in T ordered by heuristic Outer nearest_neighbor_dist = infinity For Each q in T ordered by heuristic Inner IF | p-q|  n //Begin Outer Loop //Begin Inner Loop //non-self match? IF Dist(tp,…,tp+n-1, tq,…,tq+n-1) < best_so_far_dist Break //Break out of Inner Loop 10 End 11 IF Dist(tp,…,tp+n-1, tq,…,tq+n-1)< nearest_neighbor_dist nearest_neighbor_dist = Dist(tp,…,tp+n-1, tq,…,tq+n-1) 12 13 14 15 End End End //End non-self match test //End Inner Loop 16 IF nearest_neighbor_dist > best_so_far_dist 17 best_so_far_dist = nearest_neighbor_dist 18 best_so_far_loc = p 19 20 21 End End //End Outer Loop Return[ best_so_far_dist, best_so_far_loc ] Heuristic vòng lặp ngồi (Outer Loop Heuristic): thứ tự chuỗi dự tuyển cho vòng lặp ngồi xếp sau: chuỗi xi có giá trị WDen(xi) nhỏ xét đầu tiên, sau chuỗi lại xét theo thứ tự ngẫu nhiên Ý tưởng Heuristic chuỗi xi có giá trị WDen(xi) nhỏ chuỗi xi có khả chuỗi bất thường cao Heuristic vòng lặp (Inner Loop Heuristic): Giả sử chuỗi xét vòng lặp ngồi xi, tác giả tìm chuỗi xj có giá trị mật độ với chuỗi xi, nghĩa WDen(xj) = WDen(xi), để chọn xét trước vòng lặp Sau đó, chuỗi lại xét theo thứ tự ngẫu nhiên Ý tưởng Heuristic hai chuỗi 18 có giá trị mật độ có trọng số khả giống nên khoảng cách chúng có khả nhỏ nên chọn xét chúng trước vòng lặp để sớm dừng vòng lặp tìm thấy chuỗi bất thường Trong giải thuật này, chuỗi ký tự sau phép rời rạc hóa sử dụng để xét Heuristic cho vòng lặp ngồi vòng lặp Đối với việc tính khoảng cách, tác giả tính khoảng cách Euclidean hai chuỗi gốc để tìm xác chuỗi bất thường 3.3 Dữ liệu thực nghiệm Trong luận văn này, tác giả tiến hành thực nghiệm năm tập liệu chuẩn lấy từ trang web khai phá liệu chuỗi thời gian UCR [33] Các tập liệu lấy từ nhiều lĩnh vực khác liệu y khoa, liệu doanh nghiệp, công nghiệp, … với chiều dài khác Trong tất kịch thực nghiệm, chiều dài chuỗi bất thường cho tập liệu kiểm thử chọn cố định theo gợi ý chuyên gia Chi tiết tập liệu thực nghiệm trình bày Bảng 3.3 Bảng 3.3: Đặc điểm tập liệu thực nghiệm Data set 3.4 Time series length Discord length Video 5000 200 ECG 20000 255 Power 20000 750 Patient 4000 150 Space Shuttle 5000 100 Thiết lập thực nghiệm Luận văn tiến hành cài đặt thuật toán đề xuất IDD thuật toán dùng để so sánh HOTSAX ngơn ngữ lập trình MATLAB Tất kịch thực nghiệm thực máy tính có cấu hình Core i3 2.53GHz, 4GB RAM, Windows 64-bit Giải thuật HOTSAX giải thuật IDD có ba tham số cần thiết lập trước chạy giải thuật, bao gồm: 19 - Chiều dài chuỗi bất thường (discord length), n; - Kích thước từ (word size), w; - Kích thước bảng ký tự (alphabe size), a Trong tham số này, w a không ảnh hưởng đến tính đắn hai giải thuật chúng ảnh hưởng đến hiệu hai giải thuật Về lý thuyết, hầu hết cơng trình trước đánh giá hiệu giải thuật phát chuỗi bất thường dựa số lần gọi hàm tính khoảng cách với tham số thiết lập giá trị tốt Phương pháp đánh khơng cơng cho giải thuật có thời gian thấp việc xác định Heuristic chọn giá trị cho tham số Do đó, luận văn đề xuất đánh giá độ hiệu giải thuật phát chuỗi bất thường dựa hai tiêu chí với giá trị khác tham số: (1) Số lần gọi hàm tính khoảng cách Euclidean giải thuật; (2) Thời gian chạy (CPU runtime) giải thuật Để đánh giá ảnh hưởng tham số a w đến hiệu hai giải thuật IDD HOTSAX, luận văn tiến hành thực nghiệm theo hai nhóm sau: Nhóm 1: Tác giả thiết lập w = cho tập liệu Video, ECG, Power, Patient w = 10 cho tập liệu Space Shuttle Giá trị w cố định, giá trị a thay đổi để khảo sát mức độ ảnh hưởng tham số a hiệu thuật tốn Nhóm 2: Giá trị tham số a cố định (dựa vào kết thực nghiệm Nhóm 1, a chọn giá trị cho giải thuật HOTSAX 21 cho giải thuật IDD), giá trị tham số w thay đổi để khảo sát mức độ ảnh hưởng tham số w hiệu giải thuật 3.5 Kết thực nghiệm đánh giá Ứng với kịch thực nghiệm Nhóm Nhóm 2, kết thực nghiệm ghi nhận để so sánh độ hiệu giải thuật dựa tiêu chí sau đây:  Thời gian chạy (CPU runtime) giải thuật  Số lần gọi hàm tính khoảng cách Euclidean giải thuật Kết thực nghiệm Nhóm 1: Lần lượt thực nghiệm 05 tập liệu kiểm thử trình bày phần 3.3, kết thời gian chạy số lần gọi hàm khoảng cách hai giải thuật HOTSAX IDD trình bày bảng từ Bảng 3.4 đến Bảng 3.8 chuỗi bất thường tìm trình bày hình từ Hình 3.2 đến Hình 3.6 20 Các kết thực nghiệm Nhóm cho thấy hai giải thuật HOTSAX IDD trả chuỗi bất thường giải thuật IDD có thời gian chạy nhanh đáng kể so với giải thuật HOTSAX số lần gọi hàm khoảng cách giải thuật IDD cao so với giải thuật HOTSAX số trường hợp Giải thuật IDD chạy nhanh giải thuật HOTSAX giải thuật IDD có ưu điểm tính tốn nhanh độ đo thơng tin WDen, giải thuật HOTSAX phí cho việc xây dựng mảng để tạo Heuristic cho hai vòng lặp bước giải thuật Ngoài ra, kết thực nghiệm Nhóm cho thấy giải thuật IDD có hiệu ổn định giải thuật HOTSAX chạy tập liệu kiểm thử khác Nhìn chung, hầu hết thực nghiệm cho thấy giải thuật HOTSAX có hiệu cao a = giải thuật IDD có hiệu cao a = 21 Do đó, thực nghiệm Nhóm sau đây, tác giả thiết lập cố định a = cho giải thuật HOTSAX a = 21 cho giải thuật IDD 21 Bảng 3.4: Cố định giá trị w = 5, thay đổi giá trị a tập liệu VIDEO Tập liệu VIDEO, chiều dài discord n = 200, Kích thước từ w = Running Time (s) Distance function calls Alphabet size (a) HOTSAX IDD HOTSAX IDD 169 109 799.163 1.098.983 148 74 363.384 856.316 141 59 322.863 594.373 12 155 52 308.173 531.289 15 154 48 445.538 493.074 18 158 45 529.700 465.488 21 179 43 716.054 472.678 Hình 3.2: Chuỗi bất thường tập liệu VIDEO 22 Bảng 3.5: Cố định giá trị w=5, thay đổi giá trị a tập liệu ECG Tập liệu ECG, chiều dài discord n = 256, kích thước từ w = Alphabet size (a) Running Time (s) Distance function calls HOTSAX IDD HOTSAX 2.625 1.128 2.115.030 4.173.756 2.165 806 2.035.393 3.215.225 2.315 691 1.807.239 3.329.775 12 2.126 554 2.367.130 2.845.442 15 2.186 552 2.458.820 2.472.502 18 2.215 495 3.359.932 2.703.755 21 2.221 459 3.687.119 2.713.265 Hình 3.3: Chuỗi bất thường tập liệu ECG IDD 23 Bảng 3.6: Cố định giá trị w=5, thay đổi giá trị a tập liệu POWER Tập liệu POWER, chiều dài discord n = 750, kích thước từ w = Running Time (s) Distance function calls Alphabet size (a) HOTSAX IDD HOTSAX IDD 2.343 1.508 7.338.545 10.203.248 2.312 1.581 4.890.053 7.566.715 2.117 938 2.700.775 7.363.209 12 2.279 1.001 2.119.408 9.615.270 15 2.061 901 1.566.813 7.770.451 18 2.005 867 1.778.374 7.911.583 21 2.011 725 1.483.770 6.676.988 Hình 3.4: Chuỗi bất thường tập liệu POWER 24 Bảng 3.7: Cố định giá trị w=5 thay đổi giá trị a tập liệu PATIENT Tập liệu PATIENT, chiều dài discord n = 150, kích thước từ w = Running Time (s) Distance function calls Alphabet size (a) 12 15 18 21 HOTSAX 100 95 113 101 107 116 116 IDD HOTSAX 69 513,458 50 423,480 42 340,365 37 491,117 37 626,552 34 784,931 33 990,942 IDD 571,752 506,449 447,809 407,768 469,552 469,123 451,602 Hình 3.5: Chuỗi bất thường tập liệu PATIENT 25 Bảng 3.8: Cố định giá trị w=10, thay đổi giá trị a tập liệu SpaceShuttle Tập liệu SpaceShuttle, chiều dài discord n = 100, kích thước từ w = 10 Running Time (s) Distance function calls Alphabet size (a) HOTSAX IDD HOTSAX IDD 162 158 403,986 424,596 148 110 227,257 153,840 154 92 429,210 238,469 12 155 73 564,910 134,071 15 164 72 875,894 227,979 18 165 63 983,927 168,667 21 183 64 1,264,173 165,303 Hình 3.6: Chuỗi bất thường tập liệu SpaceShuttle 26 Kết thực nghiệm Nhóm 2: Tương tự phương pháp thực nghiệm Nhóm 1, thực nghiệm 05 tập liệu kiểm thử trình bày phần 3.3, kết thời gian chạy số lần gọi hàm khoảng cách hai giải thuật HOTSAX IDD trình bày bảng từ Bảng 3.9 đến Bảng 3.13 Kết thực nghiệm Nhóm cho thấy giải thuật IDD có thời gian chạy đáng kể so với giải thuật HOTSAX, đặc biệt tham số w có giá trị nhỏ Kết thực nghiệm tập liệu cho thấy tham số w có giá trị tăng thời gian chạy giải thuật đề xuất IDD tăng theo Trong đó, giải thuật HOTSAX có thời gian chạy khơng tăng tuyến tính theo giá trị tăng tham số w Điều giải thích sau: dòng lệnh từ dòng đến dòng giải thuật IDD trình bày Bảng 3.1 cho thấy chi phí thời gian chạy giải thuật IDD phụ thuộc vào giá trị tham số w, giá trị tham số w nhỏ thời gian chạy giải thuật nhỏ Bảng 3.9: Cố định giá trị a, thay đổi giá trị w tập liệu VIDEO Tập liệu VIDEO, chiều dài discord n = 200 Running Time (s) Distance function calls Word size PosStart PosEnd (w) HOTSAX IDD HOTSAX IDD 2.093 2.293 169 43 799.163 472.678 10 2.093 2.293 129 92 310.425 522.219 15 2.093 2.293 139 110 375.217 662.279 20 2.093 2.293 173 118 505.380 756.721 25 2.093 2.293 226 143 503.848 783.678 27 Bảng 3.10: Cố định giá trị a, thay đổi giá trị w tập liệu ECG Word size (w) 10 15 25 Tập liệu ECG, chiều dài discord n = 256 Running Time (s) Distance function calls PosStart PosEnd HOTSAX IDD HOTSAX IDD 9,722 9,978 2,625 459 2,115,030 2,713,265 9,722 9,978 2,242 837 2,338,959 2,385,067 9,722 9,978 2,174 799 3,210,908 2,385,067 9,722 9,978 2,290 1,409 4,367,491 2,580,544 9,722 9,978 2,381 1,767 5,303,408 2,604,745 Bảng 3.11: Cố định giá trị a, thay đổi giá trị w tập liệu POWER Word size (w) 10 15 20 25 Tập liệu POWER, chiều dài discord n = 750 Running Time (s) Distance function calls PosStart PosEnd HOTSAX IDD HOTSAX IDD 6,101 6,851 2,343 725 7,338,545 6,676,988 6,101 6,851 2,597 1,251 2,537,857 8,978,958 6,101 6,851 2,131 1,409 1,653,447 6,474,467 6,101 6,851 2,247 1,742 1,666,488 5,577,241 6,101 6,851 2,299 2,134 3,075,539 5,359,777 28 Bảng 3.12: Cố định giá trị a, thay đổi giá trị w tập liệu PATIENT Word size (w) 10 15 20 25 Tập liệu PATIENT, chiều dài discord n = 150 Running Time (s) Distance function calls PosStart PosEnd HOTSAX IDD HOTSAX IDD 3,315 3,465 100 37 513,458 451,602 3,315 3,465 93 51 305,235 267,888 3,315 3,465 122 72 618,564 250,389 3,315 3,465 133 94 851,674 282,096 3,315 3,465 118 124 1,166,504 314,168 Bảng 3.13: Cố định giá trị a, thay đổi giá trị w tập liệu SpaceShuttle Word size (w) 10 15 20 25 Tập liệu SpaceShuttle, chiều dài discord n = 100 Running Time (s) Distance function calls PosStart PosEnd HOTSAX IDD HOTSAX IDD 4,246 4,346 166 48 708,873 223,817 4,246 4,346 162 64 403,986 165,303 4,246 4,346 153 105 488,066 181,313 4,246 4,346 153 106 422,168 180,911 4,246 4,346 164 131 533,487 257,547 29 Ngồi ra, xét chi phí nhớ giải thuật đề xuất IDD có hiệu so với giải thuật HOTSAX Như trình bày Bảng 3.1, giải thuật đề xuất IDD sử dụng 04 mảng để lưu trữ giá trị E(Ci), W(Ci), DenCj(xi) WDen(xi) để tạo Heuristic cho hai vòng lặp bước giải thuật Trong 04 mảng trên, 03 mảng có kích thước w 01 mảng lại có kích thước (m - n + 1), số lượng chuỗi dự tuyển Vì tham số w thường có giá trị nhỏ so với m nên tồn khơng gian nhớ sử dụng để chạy thuật toán (m - n + 1) Trong đó, giải thuật HOTSAX có chi phí nhớ lớn sử dụng mảng để xét chuỗi hai vòng lặp lồng Chi phí nhớ cho giải thuật HOTSAX (m - n + 1)*w Do đó, giải thuật đề xuất IDD giảm chi phí nhớ so với giải thuật HOTSAX w lần 30 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN  Kết luận văn Luận văn khảo sát khai phá liệu chuỗi thời gian, nghiên cứu đề xuất phương pháp giải toán phát chuỗi bất thường liệu chuỗi thời gian, bao gồm:  Đề xuất giải thuật phát chuỗi bất thường  Đề xuất phương pháp đánh giá hiệu giải thuật phát chuỗi bất thường, kết hợp đánh giá dựa số lần gọi hàm tính khoảng cách thời gian chạy giải thuật Luận văn tiến hành thực giải thuật phát chuỗi bất thường đề xuất IDD, bao gồm bước sau:  Thu giảm số chiều theo phép biến đổi PAA  Rời rạc hóa liệu theo phép biến đổi SAX  Giải thuật phát chuỗi bất thường dựa vào giải thuật HOTSAX độ đo thông tin WDen Nhờ vào cách tiếp cận sử dụng độ đo thông tin WDen để xây dựng Heuristic thay xây dựng mảng HOTSAX nên giải thuật đề xuất IDD có thời gian chạy nhanh đáng kể so với giải thuật HOTSAX Bên cạnh đó, giải thuật đề xuất IDD có hiệu chạy ổn định đáng kể so với HOTSAX thực nghiệm nhiều tập liệu khác Ngoài ra, giải thuật đề xuất IDD cải thiện chi phí nhớ đáng kể so với giải thuật HOTSAX khơng sử dụng cấu trúc mục để thiết lập Heuristic cho hai vòng lặp lồng Luận văn cài đặt giải thuật đề xuất IDD giải thuật HOTSAX để tiến hành kịch thực nghiện, so sánh đánh giá kết thực nghiệm Các kết thực nghiệm 05 tập liệu kiểm thử lần khẳng định hiệu chi phí thời gian chạy, chi phí nhớ độ ổn định giải thuật đề xuất IDD so với giải thuật HOTSAX 31  Ứng dụng tiềm  Ứng dụng đo điện tim cho người bệnh điều trị tích cực, cần theo dõi liên tục điều trị dài ngày Dữ liệu kết đo điện tim đưa vào ứng dụng cài đặt giải thuật phát chuỗi bất thường đề xuất luận văn, có giá trị bất thường liệu điện tim ứng dụng cảnh báo, giúp bác sĩ kịp thời theo dõi bất thường số đo điện tim cho bệnh nhân  Ứng dụng hệ thống cảnh báo mực nước hồ chứa nước: mực nước đo liên tục liệu kết đo đưa vào ứng dụng cài đặt giải thuật phát chuỗi bất thường đề xuất luận văn Nếu liệu đo mực nước có giá trị bất thường ứng dụng cảnh báo đến chuyên gia, giúp chuyên gia kịp thời kiểm tra, xử lý  Hướng phát triển  Khảo sát phân tích đặc điểm tập liệu thực nghiệm tiến hành thực nghiệm nhiều tập liệu có đặc tính khác để rút nhiều kết luận giải thuật đề xuất  Nghiên cứu nhiều độ đo thông tin khác cải tiến giải thuật đề xuất IDD để giảm số lần gọi hàm tính khoảng cách ... thường liệu chuỗi thời gian, bao gồm: phần chuỗi thời gian bất thường toàn chuỗi thời gian bất thường  Khó xác định xác độ dài chuỗi toán phát chuỗi bất thường  Các chuỗi thời gian kiểm thử chuỗi. .. detection): tìm chuỗi xuất nhiều lần liệu chuỗi thời gian Phát bất thường (Anomaly detection): tìm chuỗi khác biệt liệu chuỗi thời gian 1.2 Tổng quan toán phát chuỗi bất thường Dữ liệu chuỗi thời gian tồn... diễn chuỗi thời gian [22] 1.1.2 Các loại liệu chuỗi thời gian Hầu hết kỹ thuật phát chuỗi bất thường sử dụng liệu chuỗi thời gian huấn luyện để học mơ hình gán số điểm bất thường cho chuỗi thời gian

Ngày đăng: 24/08/2018, 16:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN