Phát hiện bất thường dữ liệu chuỗi thời gian sử dụng support vector machine

52 10 0
Phát hiện bất thường dữ liệu chuỗi thời gian sử dụng support vector machine

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đại học quốc gia TP Hồ Chí Minh TRƢỜNG ĐẠI HỌC BÁCH KHOA VÕ ĐÌNH QUANG PHÁT HIỆN BẤT THƢỜNG DỮ LIỆU CHUỖI THỜI GIAN SỬ DỤNG SUPPORT VECTOR MACHINE Chuyên ngành: Khoa học máy tính LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng năm 2011 CƠNG TRÌNH ĐƢỢC HOÀN THÀNH TẠI TRƢỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán hƣớng dẫn khoa học: T.S Quản Thành Thơ Cán chấm nhận xét 1: TS Phạm Văn Chung Cán chấm nhận xét 2: PGS TS Dƣơng Tuấn Anh Luận văn thạc sĩ đƣợc bảo vệ Trƣờng Đại học Bách Khoa, ĐHQG Tp HCM ngày 27 tháng 01 năm 2011 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS TS Đỗ Phúc TS Bùi Hoàng Thắng TS Quản Thành Thơ PGS TS Dƣơng Tuấn Anh TS Phạm Văn Chung Xác nhận Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành sau luận văn đƣợc sữa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV Bộ môn quản lý chuyên ngành Võ Đình Quang Trang TRƢỜNG ĐH BÁCH KHOA TP HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG ĐÀO TẠO SĐH Độc lập – Tự – Hạnh phúc Tp HCM ngày 27 tháng 01 năm 2011 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Võ Đình Quang Phái: Nam Ngày, tháng, năm sinh: 29/03/1984 Nơi sinh: Nghệ An Chuyên ngành: Khoa học máy tính MSHV: 00708207 I- TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG DỮ LIỆU CHUỖI THỜI GIAN SỬ DỤNG SUPPORT VECTOR MACHINE II- NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu phương pháp phát bất thường cho liệu chuỗi thời gian tác giả J Ma S.Perkins - Nghiên cứu đề nghị phương pháp cải tiến cho phương pháp phát bất thường J Ma S Perkins III- NGÀY GIAO NHIỆM VỤ: 25/01/2010 IV- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/12/2010 V- CÁN BỘ HƢỚNG DẪN: TS Quản Thành Thơ CÁN BỘ HƢỚNG DẪN CN BỘ MÔN QL CHUYÊN NGÀNH Trang Võ Đình Quang LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ kết tham khảo từ cơng trình nghiên cứu khác nhƣ ghi rõ luận văn, cơng việc trình bày luận văn tơi thực chƣa có phần nội dung luận văn đƣợc nộp để lấy cấp trƣờng trƣờng khác Ngày 01 tháng 12 năm 2010 Võ Đình Quang Trang Võ Đình Quang LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành sâu sắc đến TS Quản Thành Thơ, ngƣời thầy tận tình hƣớng dẫn tạo điều kiện để tơi hồn thành tốt luận văn Tơi xin cảm ơn gia đình động viên tạo điều kiện tốt để tơi tiếp tục theo đuổi việc học tập nghiên cứu Tôi trân trọng dành tặng thành cho cha, mẹ Nhờ công lao dƣỡng dục cha, mẹ mà có đƣợc thành ngày hơm Trang Võ Đình Quang TĨM TẮT LUẬN VĂN Phát bất thƣờng cho liệu chuỗi thời gian ứng dụng có tính thực tế cao Phát bất thƣờng cho liệu chuỗi thời gian sử dụng Support Vector Machine (SVM) phƣơng pháp có tốc độ phát nhanh Luận văn nghiên cứu việc áp dụng phƣơng pháp Support Vector Machine để phát bất thƣờng cho chuỗi liệu thời gian, mà cụ thể phƣơng pháp SVM lớp Luận văn nghiên cứu nhằm cải tiến phƣơng pháp phát bất thƣờng J Ma S Perkins việc áp dụng phƣơng pháp thu giảm số chiều APCA, tìm kiếm tham số tốt tập tham số phƣơng pháp SVM lớp Nghiên cứu thực nghiệm cho thấy việc áp dụng phƣơng pháp thu giảm số chiều APCA không đạt hiệu tốt nhiều tập liệu, việc tìm kiếm tham số địi hỏi lựa chọn tập liệu huấn luyện cẩn thận kết phân loại đạt hiệu tốt Trang Võ Đình Quang MỤC LỤC CHƢƠNG GIỚI THIỆU ĐỀ TÀI 1.1 Dữ liệu chuỗi thời gian .1 1.2 Phát bất thƣờng cho liệu chuỗi thời gian 1.3 Nội dung giới hạn đề tài 1.4 Tóm tắt kết đạt đƣợc .4 1.5 Cấu trúc luận văn CHƢƠNG NHỮNG CƠNG TRÌNH LIÊN QUAN .6 2.1 Phát bất thƣờng với Support Vector Machine lớp 2.1.1 Phƣơng pháp Support Vector Machine lớp 2.1.2 Phát bất thƣờng với SVM lớp .6 2.2 Phát bất thƣờng liệu chuỗi thời gian với SVM lớp 2.3 Rời rạc hóa biểu diễn liệu chuỗi thời gian .7 2.3.1 Phƣơng pháp biến đối Furier rời rạc (DFT) .8 2.3.2 Phƣơng pháp biến đổi Wavelet rời rạc (DWT) 2.3.3 Phƣơng pháp phân rã giá trị riêng (SVD) 2.3.4 Phƣơng pháp xấp xỉ gộp đoạn (PAA) 10 2.3.5 Phƣơng pháp xấp xỉ đoạn thích nghi (APCA) 10 2.3.6 Phƣơng pháp xấp xỉ tuyến tính đoạn (PLA) 11 2.3.7 Phƣơng pháp xấp xỉ gộp kí hiệu hóa (SAX) 12 2.3.8 Phƣơng pháp hậu tố (Suffix Tree) .12 2.3.9 Phƣơng pháp vector lƣợng tử (VQ) 13 2.4 Kết luận 13 CHƢƠNG CƠ SỞ LÝ THUYẾT NỀN TẢNG 14 3.1 Biểu diễn liệu chuỗi thời gian .14 3.2 Phát bất thƣờng liệu chuỗi thời gian với SVM lớp 14 3.2.1 Vector hóa liệu chuỗi thời gian 15 Trang Võ Đình Quang 3.2.2 Phƣơng pháp SVM lớp .16 3.2.3 Phát bất thƣờng .18 3.2.4 Lựa chọn tham số .20 CHƢƠNG HỆ THỐNG PHÁT HIỆN BẤT THƢỜNG 22 4.1 Giới thiệu 22 4.2 Quy trình thực 22 4.3 Lựa chọn tham số .24 4.4 Thu giảm số chiều liệu 25 4.5 Vector hóa liệu 27 4.6 Phát bất thƣờng .27 CHƢƠNG THỰC NGHIỆM 29 5.1 Các tiêu chuẩn thực nghiệm .29 5.2 Đánh giá kết thực nghiệm 29 5.2.1 Áp dụng phƣơng pháp APCA vào phát bất thƣờng 30 5.2.2 Áp dụng phƣơng pháp chiếu liệu 32 5.2.3 Lựa chọn tham số .34 5.3 Kết luận 36 CHƢƠNG KẾT LUẬN 37 6.1 Tổng kết 37 6.2 Những đóng góp luận văn 37 6.3 Hƣớng phát triển 38 Trang Võ Đình Quang DANH SÁCH HÌNH ẢNH Hình 1.1: Đƣờng cong biểu diễn liệu chuỗi thời gian chuỗi thời gian có chứa bất thƣờng x2(t) Hình 2.1: Các phƣơng pháp biểu diễn liệu DFT, DWT, SVD 10 Hình 2.2: Các phƣơng pháp biểu diễn liệu APCA, PAA, PLA 12 Hình 3.1: Chuỗi liệu thời gian vector không gian pha chiếu với kích thƣớc nhúng E=3 16 Hình 3.2: Áp dụng phƣơng pháp SVM lớp thực tế 16 Hình 4.1: Quy trình thực hệ thống 23 Trang 10 Võ Đình Quang DANH SÁCH CÁC BẢNG Bảng 5.1 Bảng so sánh độ xác (R) thời gian (T) theo giây phƣơng pháp không sử dụng APCA sử dụng APCA kích thƣớc thu giảm cịn lại 800, 400 31 Bảng 5.2 Bảng so sánh độ xác(R) thời gian (T) theo giây sử dụng chiếu không sử dụng chiếu lên không gian vng góc với đƣờng chéo đơn vị 33 Bảng 5.3 Bảng so sánh độ xác (R) phƣơng pháp phát bất thƣờng với tham số thu đƣợc từ phƣơng pháp lựa chọn tham số 35 Trang 28 Võ Đình Quang Các điểm bất thƣờng đƣợc xác định nhƣ phƣơng pháp J Ma S Perkins đề nghị Tập kích thƣớc nhúng tập số nguyên tố giới hạn định nghĩa trƣớc Phƣơng pháp tổng hợp xác định điểm bất thƣờng cho liệu chuỗi thời gian từ kết bất thƣờng liệu vector kích thƣớc nhúng khác đƣợc nêu phần trƣớc Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 29 Võ Đình Quang CHƢƠNG THỰC NGHIỆM Hệ thống phát bất thƣờng đƣợc xây dựng ngôn ngữ C# Chƣơng trình bày kết thực nghiệm hệ thống phát bất thƣờng với máy tính xách tay cấu hình Core duo 2.2 Ghz, RAM 2.5 GB, liệu lấy từ liệu tổng hợp Dipankar Dasgupta, FedEx Fellow, giáo sƣ khoa học máy tính, giám đốc phịng nghiên cứu hệ thống bảo mật thông minh, trƣờng đại học Memphis Các thực nghiệm nhằm đánh giá mức độ hiệu việc áp dụng phƣơng pháp SVM lớp phát bất thƣờng cho chuỗi liệu thời gian Hệ thống cho phép sử dụng phƣơng pháp nhƣ tác giả J Ma S Perkins đề nghị nhƣ áp dụng thêm phƣơng pháp APCA cho liệu, tìm kiếm lựa chọn tham số thích hợp cho phƣơng pháp SVM lớp 5.1 Các tiêu chuẩn thực nghiệm Hệ thống sử dụng kết hợp nhiều phƣơng pháp để phát bất thƣờng, nên khó xác định độ phức tạp hệ thống Hệ thống xác định so sánh thời gian thực thi (mili giây – ms) độ xác (căn vào tỉ lệ xác định đúng, tỉ lệ sai) Hệ thống chạy tập liệu từ liệu nhân tạo nói Mỗi tập liệu liệu 2D (dữ liệu gồm chiều, không kể chiều thời gian), gồm phần: phần 1000 điểm liệu huấn luyện, chƣa đƣợc phân loại; phần 1000 điểm liệu kiểm tra đƣợc phân loại Tập liệu huấn luyện chứa gần nhƣ tồn liệu bình thƣờng 5.2 Đánh giá kết thực nghiệm Sau đây, lần lƣợt đánh giá kết thực nghiệm hệ thống phát bất thƣờng Việc đánh giá dựa tiêu chí độ xác thời gian chạy Độ xác đƣợc xác định tỉ lệ tổng số điểm liệu phân loại (bao gồm bình thƣờng bất thƣờng) tổng số điểm liệu Thời gian chạy thời gian thực máy tính thử nghiệm, tính theo giây, độ xác đến mili giây Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Võ Đình Quang Trang 30 Ngồi ra, phƣơng pháp chiếu liệu, so sánh thêm mức độ phát sai điểm bất thƣờng (một điểm đƣợc xác định bất thƣờng thực tế không phải) 5.2.1 Áp dụng phương pháp APCA vào phát bất thường Tham số cho phƣơng pháp SVM lớp đƣợc lựa chọn ứng với tập liệu cho kết phát gần với tập liệu cần phân loại Tất tập liệu sử dụng tập không gian nhúng S {1, 2, 3, 5, 7, 9, 11, 13, 17, 19, 23, 29}, Khi vector hóa liệu khơng thực chiếu liệu lên khơng gian vng góc với đƣờng chéo đơn vị Khi thu giảm số chiều với APCA, lần lƣợt sử dụng số chiều sau thu giảm lại 800, 400 Kết phân loại với tham số tƣơng ứng (tham số cho kernel RBF cho tập liệu) tập liệu nhân tạo nhƣ bảng dƣới: Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Võ Đình Quang Trang 31 Bảng 5.1 Bảng so sánh độ xác (R) thời gian (T) theo giây phương pháp không sử dụng APCA sử dụng APCA kích thước thu giảm cịn lại 800, 400 với tham số Tập liệu Intersection-thick cho RBF lựa chọn trước APCA (size=800) R T(s) R T(s) 64 0.0006 0.999 7.380 0.954 6.481 w/o APCA APCA (size=400) R T(s) 0.928 5.268 Stripe-thin 0.0086 0.999 6.668 0.895 5.334 0.876 4.305 Pentagram-mid 0.0796 0.998 5.990 0.902 5.498 0.861 4.492 Triangle-small 16 0.0016 0.998 8.571 0.935 6.950 0.906 5.668 Pentagram-small 0.1161 0.997 8.756 0.935 7.837 0.913 6.650 Ring-thin 0.0001 0.996 6.926 0.907 6.438 0.870 5.167 Triangle-mid 16 0.0041 0.996 8.496 0.878 7.422 0.859 5.963 Intersection-mid 32 0.0006 0.994 7.955 0.913 7.115 0.864 5.842 Pentagram-big 16 0.0531 0.994 8.000 0.800 7.351 0.774 6.199 0.0091 0.994 5.998 0.781 5.543 0.699 4.379 16 0.0226 0.993 9.690 0.827 7.429 0.810 6.278 Cross-thin 0.0181 0.992 7.739 0.856 7.509 0.826 6.235 Ring-mid 0.0006 0.992 5.565 0.831 5.162 0.757 3.752 Triangle-big 0.0141 0.986 7.798 0.781 7.437 0.707 6.140 Intersection-thin 16 0.0546 0.985 8.064 0.832 7.240 0.815 6.101 Stripe-thickneg 0.0211 0.984 8.048 0.668 7.523 0.646 6.532 Cross-midneg 16 0.0006 0.983 7.224 0.700 7.200 0.680 5.901 Ring-thickneg 16 0.0046 0.981 8.110 0.811 7.316 0.781 6.383 Stripe-thick 0.0026 0.981 7.707 0.665 7.149 0.647 6.027 Cross-mid 0.0451 0.978 6.800 0.588 6.763 0.581 5.624 Stripe-midneg 0.0021 0.971 7.509 0.527 6.917 0.521 5.716 Ring-thick 0.0011 0.969 5.447 0.465 4.920 0.464 3.738 16 0.0811 0.957 8.550 0.750 7.608 0.734 6.382 0.0006 0.957 7.153 0.408 6.754 0.463 5.547 Stripe-mid Cross-thickneg Comb Ring-midneg Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 32 Võ Đình Quang Theo kết phát bất thƣờng, thời gian phát bất thƣờng giảm thu giảm số chiều liệu chuỗi thời gian với phƣơng pháp APCA, theo kích thƣớc sau thu giảm Theo kết thu đƣợc, độ xác (R) giảm nhanh theo việc thu giảm số chiều Thu giảm số chiều theo phƣơng pháp APCA làm thay đổi đặc điểm tập liệu, làm điểm bất thƣờng hay phát sinh điểm bất thƣờng tập liệu chuỗi thời gian ban đầu Một đoạn liệu thu giảm đƣợc xác định bất thƣờng toàn điểm liệu đoạn đƣợc xác định bất thƣờng Vì thế, thu giảm số APCA chiều dẫn đến phát sai nhiều điểm liệu Thời gian phát bất thƣờng phƣơng pháp sử dụng SVM lớp xác định đƣợc tham số cho tập huấn luyện tƣơng đối nhỏ Vì thế, việc áp dụng phƣơng pháp APCA tập liệu khơng hiệu Có thể tập liệu khác, bất thƣờng đoạn việc áp dụng phƣơng pháp APCA hiệu 5.2.2 Áp dụng phương pháp chiếu liệu Tham số đƣợc sử dụng cho phƣơng pháp SVM lớp giống với tham số đƣợc sử dụng phần trƣớc (5.2.1) Ở đây, ta không sử dụng phƣơng pháp APCA Kết phân loại thu đƣợc nhƣ bảng dƣới: Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Võ Đình Quang Trang 33 Bảng 5.2 Bảng so sánh độ xác(R) thời gian (T) theo giây sử dụng chiếu không sử dụng chiếu lên không gian vng góc với đường chéo đơn vị với tham số Name Comb Combneg Cross-mid Cross-midneg Cross-thick Cross-thickneg Cross-thin Cross-thinneg Intersection-mid Intersection-midneg Intersection-thick Intersection-thickneg Intersection-thin Intersection-thinneg Pentagram-big Pentagram-bigneg Pentagram-mid Pentagram-midneg Pentagram-small Pentagram-smallneg Ring-mid Ring-midneg Ring-thick Ring-thickneg Ring-thin Ring-thinneg Stripe-mid Stripe-midneg Stripe-thick Stripe-thickneg Stripe-thin Stripe-thinneg Triangle-big 16 32 16 16 32 32 64 0.5 16 16 16 4 8 16 8 4 16 0.0811 0.0006 0.0451 0.0006 0.0201 0.0226 0.0181 0.0491 0.0006 0.0011 0.0006 0.0001 0.0546 0.0036 0.0531 0.0091 0.0796 0.0021 0.1161 0.0001 0.0006 0.0006 0.0011 0.0046 0.0001 0.0041 0.0091 0.0021 0.0026 0.0211 0.0086 0.0756 0.0141 cho RBF lựa chọn trước w/o Project R F T(s) 0.957 0.024 8.550 0.887 0.086 8.362 0.978 0.015 6.800 0.983 0.011 7.224 0.951 0.039 7.583 0.993 0.005 9.690 0.992 0.004 7.739 0.837 0.151 8.743 0.994 0.004 7.955 0.872 0.034 6.701 0.999 0.001 7.380 0.948 0.001 4.347 0.985 0.012 8.064 0.933 0.036 7.296 0.994 0.005 8.000 0.905 0.051 8.072 0.998 0.002 5.990 0.882 0.017 7.744 0.997 0.003 8.756 0.873 0.001 5.131 0.992 0.004 5.565 0.957 0.037 7.153 0.969 0.005 5.447 0.981 0.014 8.110 0.996 0.004 6.926 0.884 0.043 7.680 0.994 0.001 5.998 0.971 0.024 7.509 0.981 0.013 7.707 0.984 0.010 8.048 0.999 0.000 6.668 0.869 0.114 8.571 0.986 0.009 7.798 R 0.433 0.468 0.602 0.352 0.728 0.569 0.358 0.641 0.475 0.779 0.696 0.949 0.479 0.626 0.395 0.567 0.557 0.755 0.660 0.871 0.457 0.577 0.674 0.290 0.395 0.723 0.632 0.476 0.516 0.322 0.926 0.754 0.435 Project F 0.021 0.085 0.015 0.046 0.007 0.008 0.002 0.104 0.009 0.004 0.000 0.000 0.010 0.016 0.010 0.028 0.002 0.002 0.005 0.002 0.001 0.037 0.006 0.021 0.002 0.012 0.004 0.018 0.003 0.007 0.002 0.077 0.006 T(s) 9.307 8.397 6.559 7.694 7.612 7.970 7.823 13.864 7.949 7.349 7.715 4.531 7.881 7.083 7.337 7.800 5.294 7.338 8.020 4.641 5.677 7.437 4.931 8.120 6.519 7.852 5.319 7.110 7.107 7.311 5.881 8.472 7.470 Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Võ Đình Quang Trang 34 Từ bảng kết ta thấy đƣợc, thời gian phát bất thƣờng thay đổi nhỏ, nhƣng độ xác giảm đáng kể Tuy nhiên, nhìn chung tỉ lệ phát sai giảm Nguyên nhân phát bất thƣờng, liệu vector hóa đƣợc chiếu vào khơng gian vng góc với vector đƣờng chéo đơn vị, nên thời gian phát bất thƣờng tăng thêm chút Khi sử dụng chiếu lên đƣờng chéo đơn vị, tỉ lệ phát sai giảm, nhƣng tỉ lệ bất thƣờng bị từ chối (tỉ lệ điểm bất thƣờng nhƣng đƣợc xác định bình thƣờng) lại tăng đáng kể, nên độ xác chung giảm 5.2.3 Lựa chọn tham số Với tập liệu huấn luyện liệu kiểm tra, ta xác định giá trị tham số lần, nên ta không so sánh thời gian thực thi mà so sánh độ xác Tập liệu huấn luyện đƣợc thêm 200 điểm tập liệu cần phân loại so với liệu gốc, 200 điểm đƣợc làm liệu kiểm tra trƣờng hợp phƣơng pháp sử dụng tập liệu kiểm tra Sau huấn luyện, tập liệu kết cần phân loại đƣợc sử dụng để phân loại đánh giá độ xác Các tham số đƣợc lựa chọn lƣới tham số: Khi lựa chọn lƣới tham số cần lƣu ý, Kernel RBF, tập huấn luyện chứa hầu hết liệu liệu bình thƣờng, với giá trị lớn kết phân loại sử dụng SVM lớp cho vùng liệu bình thƣờng “nhỏ” Kết thu đƣợc nhƣ bảng dƣới: Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Võ Đình Quang Trang 35 Bảng 5.3 Bảng so sánh độ xác (R) phương pháp phát bất thường với tham số thu từ phương pháp lựa chọn tham số (tham số cho RBF ) Name Stripe-thin Triangle-small Triangle-mid Ring-thin Pentagram-small Intersection-mid Pentagram-mid Pentagram-big Cross-thickneg Stripe-mid Ring-mid Cross-thin Intersection-thick Stripe-thickneg Triangle-big Stripe-thick Intersection-thin Ring-thickneg Cross-midneg Stripe-midneg Ring-thick Cross-mid Intersection-thickneg Triangle-bigneg Comb Triangle-midneg Cross-thick Intersection-thinneg Ring-midneg Pentagram-bigneg Combneg Pentagram-smallneg Pentagram-midneg Train Validate R 0.997 0.996 0.996 0.994 0.994 0.994 0.993 0.993 0.992 0.992 0.992 0.990 0.989 0.984 0.984 0.981 0.980 0.978 0.978 0.971 0.969 0.960 0.948 0.948 0.948 0.937 0.935 0.933 0.916 0.905 0.887 0.885 0.885 32 32 32 16 16 8 4 16 32 8 0.25 16 32 8 16 32 16 0.001 0.001 0.001 0.001 0.001 0.001 0.001 0.051 0.001 0.031 0.001 0.021 0.001 0.031 0.011 0.001 0.001 0.006 0.046 0.006 0.001 0.031 0.001 0.011 0.086 0.011 0.056 0.006 0.036 0.006 0.011 0.001 0.091 Train Cross-Validate R 0.986 0.186 0.966 0.25 0.136 0.952 0.25 0.136 0.995 0.126 0.975 0.141 0.888 0.126 0.927 0.121 0.815 0.106 0.992 16 0.011 0.969 0.131 0.862 0.5 0.121 0.974 16 0.141 0.993 0.156 0.981 0.006 0.968 0.126 0.964 0.116 0.860 0.5 0.136 0.979 16 0.036 0.765 0.006 0.477 0.25 0.001 0.793 0.5 0.041 0.635 0.25 0.036 0.948 0.25 0.001 0.905 0.006 0.860 0.111 0.760 0.25 0.001 0.784 0.25 0.026 0.626 0.25 0.001 0.598 0.25 0.001 0.569 0.25 0.001 0.441 0.5 0.001 0.873 0.25 0.001 0.757 0.25 0.001 Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 36 Võ Đình Quang Theo kết thu đƣợc, sử dụng tập liệu huấn luyện có liệu kiểm tra cho kết có độ xác cao Nguyên nhân liệu kiểm tra đƣợc lấy từ phần tập liệu cần phân loại (lấy 200 điểm đầu tiên) Do đó, tham số thu đƣợc có xu hƣớng phù hợp với tập liệu kiểm tra Vì độ xác sử dụng tham số với tập liệu cần phân loại tƣơng tối cao Tuy nhiên, sử dụng phƣơng pháp huấn luyện thực kiểm tra chéo, tập huấn luyện tập kiểm tra đƣợc chọn ngẫu nhiên từ tập huấn luyện ban đầu Nhƣ vậy, kết thu đƣợc có tính tổng qt hơn, tránh trƣờng hợp kết khớp với tập liệu huấn luyện 5.3 Kết luận Khi áp dụng phƣơng pháp phát bất thƣờng sử dụng SVM lớp tác giả J Ma S Perkins cho tập liệu chiều, không kể chiều thời gian, thực nghiệm này, việc áp dụng chiếu liệu vector hóa, thu giảm số chiều theo APCA khơng hiệu Việc áp dụng phƣơng pháp thu giảm số chiều bị ảnh hƣởng tập liệu (cả huấn luyện kết quả) Áp dụng phƣơng pháp thu giảm số chiều không hợp lý làm giảm hiệu phƣơng pháp phát bất thƣờng Khi xác định tham số cho phƣơng pháp phát bất thƣờng sử dụng SVM lớp, tùy thuộc vào tập liệu huấn luyện, ta lựa chọn phƣơng pháp huấn luyện, tìm kiếm tham số hợp lý Việc kiểm tra chéo tập huấn luyện chứa liệu bình thƣờng bất thƣờng cho kết tổng quát cho tập liệu “bình thƣờng” Khi tập liệu bình thƣờng “lớn” Thực kiểm tra xác nhận tập liệu kiểm tra cho kết phân loại sát với tập kiểm tra Phƣơng pháp tìm kiếm tham số phƣơng pháp đơn giản, chƣa thể áp dụng cho nhiều tập liệu khác Khi áp dụng phƣơng pháp tìm kiếm tham số này, việc chuẩn bị tập liệu kiểm tra quan trọng Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 37 Võ Đình Quang CHƢƠNG KẾT LUẬN Chƣơng nêu kết đạt đƣợc luận văn, đóng góp nhƣ hƣớng nghiên cứu sau 6.1 Tổng kết Phát bất thƣờng cho liệu chuỗi thời gian ứng dụng có ý nghĩa nhiều toán thực tế Phƣơng pháp sử dụng Support Vector Machine lớp để phát bất thƣờng liệu chuỗi thời gian cho tốc độ cao Độ xác phƣơng pháp phát bất thƣờng phụ thuộc lớn vào tham số sử dụng cho SVM lớp Tham số bao gồm tham số chận phần ngoại biên kernel cho SVM lớp (bao gồm loại kernel tham số tƣơng ứng) Phƣơng pháp xác định tham số thích hợp cho tập liệu huấn luyện chƣa đạt hiệu tốt Khi áp dụng phƣơng pháp APCA lên tập liệu thử nghiệm nêu phần trƣớc khơng đạt hiệu Tuy thời gian phát bất thƣờng giảm đáng kể, nhƣng độ xác giảm nhiều Việc chiếu liệu lên khơng gian vng góc với đƣờng chéo đơn vị không đem lại hiệu tập liệu thử nghiệm Độ xác giảm rõ rệt 6.2 Những đóng góp luận văn Các kết đạt đƣợc đề tài bao gồm:  Hiện thực hệ thống phát bất thƣờng sử dụng SVM lớp cho liệu chuỗi thời gian hay nhiều chiều, không kể chiều thời gian  Hiện thực phƣơng pháp thu giảm số chiều liệu APCA cho liệu chuỗi thời gian nhiều chiều, không kể chiều thời gian  Hiện thực phƣơng pháp tìm kiếm tham số đơn giản cho phƣơng pháp SVM lớp với số kernel mặc định Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 38 Võ Đình Quang  Nghiên cứu thực nghiệm cho thấy việc áp dụng thu giảm số chiều khơng hợp lý làm giảm độ xác kết phát bất thƣờng  Nghiên cứu thực nghiệm cho thấy, việc chiếu liệu vector hóa lên khơng gian vng góc với vector đƣờng chéo đơn vị làm giảm độ xác phƣơng pháp phân loại số tập liệu 6.3 Hƣớng phát triển Đề tài nghiên cứu áp dụng phƣơng pháp phát bất thƣờng sử dụng SVM lớp cho liệu nhiều chiều, áp dụng phƣơng pháp chiếu liệu vector hóa lên khơng gian vng góc với vector đƣờng chéo đơn vị Ngồi áp dụng phƣơng pháp thu giảm số chiều APCA trƣớc thực phát bất thƣờng Tuy nhiên, đề tài cịn nhiều điểm cần nghiên cứu thêm để hồn thiện, nhƣ mở vấn đề cần nghiên cứu thêm:  Việc tìm kiếm lựa chọn tham số cho phƣơng pháp SVM lớp ứng với tập liệu huấn luyện xác định chƣa đạt hiệu Do đó, cần phải nghiên cứu thêm để có đƣợc phƣơng pháp tìm kiếm, lựa chọn tham số tối ƣu cho phƣơng pháp SVM lớp ứng với tập liệu huấn luyện xác định  Việc thu giảm số chiều theo phƣơng pháp APCA tập liệu không hiệu Tuy nhiên, điều chƣa thể khẳng định việc áp dụng phƣơng pháp thu giảm số chiều liệu trƣớc tìm kiếm bất thƣờng không đem lại hiệu Cần nghiên cứu thêm để xác định phƣơng pháp thu giảm số chiều thích hợp cho tập liệu xác định, nhƣ phƣơng pháp thu giảm số chiều không nên áp dụng cho tập liệu việc phát bất thƣờng cho liệu chuỗi thời gian  Khi áp dụng phƣơng pháp SVM lớp, liệu lần lƣợt đƣợc vector hóa cách đƣa liệu chuỗi thời gian vào không gian pha sử dụng nhúng trễ thời gian với kích thƣớc nhúng khác Tuy nhiên việc xác định tập kích thƣớc nhúng chƣa thật tốt Có thể nghiên cứu thêm để lựa chọn tập Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 39 Võ Đình Quang kích thƣớc nhúng thích hợp Hay, nghiên cứu để đƣa phƣơng pháp vector hóa liệu khác cho liệu chuỗi thời gian Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 40 Võ Đình Quang Tài liệu tham khảo [1] J Ma S Perkins, 2003, Time-series novelty detection using one-class support vector machines, in Neural Networks, 2003, Proceedings of the International Joint Conference on, Vol (2003), pp 1741-1745 [2] D Dasgupta, S Forrest, Novelty Detection in Time Series Data using Ideas from Immunology, in NIPS 95 conference, May 22, 1995 [3] R Kozma, M Kitamura, M Sakuma, Y Yokoyama, Anomaly Detection by Neural Network Models and Statistical Time Series Analysis, in Proceedings of IEEE International Conference of Neural Networks, Orlando, Florida, June 27-29, 1994 [4] C M Bishop, Novelty Detection and Neural Network Validation, IEEE Proceedings – Vision, Image and Signal Processing, vol 141, no 4, pp 217-222, August, 1994 [5] S Roberts, L Tarassenko, A Probabilistic Resource Allocating Network for Novelty Detection, Neural Computation, vol 6, pp 270-284, 1994 [6] B Scholkopf, R.C Williamson, A.J Smola, J Shawe-Taylor, J Platt Support Vector Method for Novelty Detection, in Neural Information Processing Systems, 2000 [7] N Cristianini, J Shawe-Taylor, 2000, Linear Learning Machines, in An Introduction to Support Vector Machines and Other Kernel-Based Methods, Cambridge University Press publishing 2000 [8] N Cristianini, J Shawe-Taylor, 2000, Generalisation Theory, in An Introduction to Support Vector Machines and Other Kernel-Based Methods, Cambridge University Press publishing 2000 [9] N Cristianini, J Shawe-Taylor, 2000, Optimisation Theory, in An Introduction to Support Vector Machines and Other Kernel-Based Methods, Cambridge University Press publishing 2000 Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 41 [10] Võ Đình Quang N Cristianini, J Shawe-Taylor, 2000, Support Vector Machines, in An Introduction to Support Vector Machines and Other Kernel-Based Methods, Cambridge University Press publishing 2000 [11] C Campbell, K P Bennett, A Linear Programming Approach to Novelty Detection, in Advances in Neural Information Processing Systems, Vol 14, 2001 [12] Dƣơng Tuấn Anh, Tổng quan tìm kiếm tƣơng tự liệu chuỗi thời gian [13] Phạm Đăng Ninh, Biểu diễn chuỗi liệu thời gian mức bit ứng dụng [14] E Keogh, S Chu, D Hart, M Pazzani, 2001, An Online Algorithm for Segmenting Time-series, in Data mining, 2001, ICDM 2001, Proceedings IEEE International Conference on [15] R Agrawal, C Faloutsos, & A Swami (1993) Efficient similarity search in sequence databases In proceedings of the 4th Int'l Conference on Foundations of Data Organization and Algorithms Chicago, IL, Oct 1315 pp 69-84 [16] H Sakoe & S Chiba (1978) Dynamic programming algorithm optimization for spoken word recognition IEEE Trans Acoustics, Speech, and Signal Proc., Vol ASSP-26 [17] L Zhuang & H Dai, (2006) Parameter Optimization of Kernel-based One-class Classifier on Imbalance Learning [18] R Isermann, Process Fault Detection Based on Modeling and Estimation Method – A survey, Automatica, vol 20, pp 387-404 , 1984 [19] C Shahabi, X Tian, W Zhao, TSA-tree: A Wavelet-based Approach to Improve the Efficiency of Multi-level Surprise and Trend Queries In Proceedings of 12th International Conference on Scientific and Database Management, 2000 Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang 42 [20] Võ Đình Quang E Keogh, S Lonardi, W Chiu, Finding Surprising Patterns in a Time Series Database In Linear Time and Space, In the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp550-556, Edmonton, Alberta, Canada, July 23 – 26, 2002 [21] B Scholkopf, A Smola, R Williamson, P L Bartlett New support vector algorithms Neural Computation, 12, 2000, 1207-1245 [22] E Keogh, K Chakrabarti, S Mehrotra, M Pazzani, 2001, Locally Adaptive Dimensionality Reduction for Indexing Large Time Series Databases Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine ... phƣơng pháp trải liệu vào không gian pha sử dụng nhúng trễ thời gian cho liệu chuỗi thời gian để vector hóa liệu Dữ liệu Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang... điểm bất thƣờng tập liệu vector hóa Một đoạn liệu chuỗi thời gian bất thƣờng tất điểm liệu chuỗi thời gian đoạn bất thƣờng Phát bất thường liệu chuỗi thời gian sử dụng Support Vector Machine Trang... pháp để phát bất thƣờng liệu chuỗi thời gian đƣợc quan tâm nghiên cứu nhiều Việc phát bất thƣờng chuỗi liệu thời gian đƣợc xem nhƣ việc phân loại chuỗi liệu thời gian Dữ liệu chuỗi thời gian sau

Ngày đăng: 16/04/2021, 04:17

Tài liệu cùng người dùng

Tài liệu liên quan