Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

24 193 1
Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

i MỤC LỤC Mục lục i Danh mục ký hiệu, chữ viết tắt iii Danh mục bảng iii Danh mục hình iii Mở đầu Chương - Tổng quan nhận dạng bất thường hệ thống điện toán đám mây IaaS 1.1 Điện toán đám mây 1.1.1 Giới thiệu điện toán đám mây 1.1.2 Dịch vụ sở hạ tầng 1.1.3 Vấn đề chất lượng dịch vụ điện toán đám mây IaaS 1.2 Nhận dạng bất thường 1.2.1 Các khái niệm nhận dạng bất thường 1.2.2 Các thách thức nhận dạng bất thường 1.3 Nhận dạng bất thường dựa kỹ thuật khai phá liệu 1.3.1 Giới thiệu 1.3.2 Các nghiên cứu nhận dạng bất thường dựa kỹ thuật khai phá liệu 1.3.3 Phương pháp nhận dạng bất thường dựa kỹ thuật khai phá liệu 1.4 Đề xuất phương pháp nhận dạng bất thường IaaS Chương - Cơ sở lý thuyết kỹ thuật One-class SVM toán nhận dạng bất thường hệ thống IaaS 2.1 Một số cơng trình nghiên cứu liên quan 2.2 Kỹ thuật One-class SVM 2.2.1 Thuật toán SVM 2.2.2 Vấn đề phân loại lớp 2.2.2 Thuật toán One-class SVM 2.2.3 Thuật toán SMO 12 Chương 3: Áp dụng kỹ thuật one-class svm nhận dạng bất thường cho hệ thống điện toán đám mây Iaas 13 3.1 Giới thiệu tập liệu Google cluster trace 13 ii 3.1.1 Các thành phần 13 3.1.2.Các bảng liệu 14 3.1.3 Các kiện chuyển đổi job task 14 3.1.4 Một số bất thường tập Google cluster trace 14 3.2 Tiến hành thực nghiệm 15 3.2.1 Xây dựng tập liệu huấn luyện Google cluster trace 15 3.2.2 Sử dụng kỹ thuật One-class SVM 16 3.2.3 Sử dụng kỹ thuật k-Means 17 3.2.4 Kết thực nghiệm 17 3.3 Kết luận hướng phát triển 19 Danh mục tài liệu tham khảo 20 iii DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Tiếng Anh Tiếng Việt IaaS Infrastructure as a Service Dịch vụ sở hạ tầng ISP Internet Service Provider Nhà cung cấp dịch vụ Internet QoS Quality of Service Chất lượng dịch vụ QP Quadratic Programming Quy hoạch toàn phương SMO Sequential Minimal Optimization Tối ưu hóa tối thiểu SVM Support Vector Machine Máy vector hỗ trợ DANH MỤC CÁC BẢNG Bảng 1.1: Các bất thường đám mây IaaS Bảng 3.1: Kết thực nghiệm 17 DANH MỤC CÁC HÌNH Hình 1.2: Kiến trúc mơ hình IaaS Hình 2.1: Minh họa phân lớp dựa One-class SVM 10 Hình 3.1: Các kiện chuyển đổi job task Google cluster trace 14 Hình 3.2: Biểu đồ so sánh tiêu chí hiệu độ xác thuật toán One-class SVM k-Means 18 MỞ ĐẦU Với phát triển liên tục điện toán đám mây, ngày nhiều doanh nghiệp lựa chọn để triển khai hệ thống ứng dụng họ hệ thống điện toán đám mây IaaS để cải thiện việc sử dụng tài nguyên phần cứng giảm chi phí hoạt động cơng nghệ thơng tin [1] Tuy nhiên, hệ thống điện toán đám mây IaaS ngày mở rộng trở nên phức tạp kéo theo vấn đề bảo mật hệ thống chất lượng dịch vụ cho khách hàng coi mối quan tâm hàng đầu Từ đó, đặt nhu cầu cho việc phát triển xây dựng hệ thống nhận dạng bất thường có hiệu độ xác cao cho hệ thống IaaS Thơng qua q trình tìm hiểu, nhận thấy kỹ thuật SVM, đặt biệt kỹ thuật One-Class SVM mang lại độ xác hiệu cao việc nhận dạng bất thường so với kỹ thuật khác Chính luận văn đề xuất nghiên cứu áp dụng kỹ thuật One-Class SVM vào nhận dạng bất thường cho hệ thống điện toán đám mây IaaS 2 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG BẤT THƯỜNG TRONG HỆ THỐNG ĐIỆN TOÁN ĐÁM MÂY IAAS 1.1 Điện toán đám mây 1.1.1 Giới thiệu điện toán đám mây [2] Điện toán đám mây theo NIST (National Institute of Standards and Technology) mơ hình cho phép khắp nơi lúc thuận tiện truy cập mạng theo yêu cầu đến nhóm chia sẻ tài ngun cấu hình điện tốn (ví dụ: mạng, máy chủ, lưu trữ, ứng dụng dịch vụ) Nhóm tài nguyên cung cấp phát hành nỗ lực quản lý hỗ trợ từ nhà cung cấp dịch vụ Những đặc điểm điện tốn đám mây: • Dịch vụ tự phục vụ theo yêu cầu; • Truy cập mạng diện rộng; • Hợp nguồn tài nguyên; • Khả linh động cao; • Khả đo lường dịch vụ Các mơ hình cung cấp dịch vụ điện tốn đám mây: • Dịch vụ sở hạ tầng IaaS (Infrastructure as a Service); • Dịch vụ tảng PaaS (Platform as a Service); • Dịch vụ phần mềm SaaS(Software as a Service) Các mơ hình triển khai điện tốn đám mây: • Đám mây cơng cộng (Public Cloud); • Đám mây riêng (Private Cloud); • Đám mây lai (Hybrid Cloud); • Đám mây chung (Community Cloud) 3 1.1.2 Dịch vụ sở hạ tầng IaaS cung cấp hạ tầng ảo cho người dùng giúp người dùng sử dụng dịch vụ theo yêu cầu cách tự động Nhà cung cấp dịch vụ triển khai hạ tầng ảo hệ phân tán, cung cấp thêm số dịch vụ để đảm tính IaaS đảm bảo chất lượng dịch vụ (QoS) Kiến trúc mơ hình IaaS bao gồm: • Tenant Serivce/Admin Service; • Lớp quản lý đám mây (Cloud Management Layer); • Lớp ảo hóa (Abstraction Layer) Hình 1.2: Kiến trúc mơ hình IaaS 1.1.3 Vấn đề chất lượng dịch vụ điện toán đám mây IaaS Chất lượng dịch vụ (Quality of Service - QoS) đám mây theo dõi, đo lường dịch vụ thỏa thuận mức dịch vụ SLAs (Service-level Agreements) để đảm việc phân phối tài nguyên hiệu Các thách thức QoS chịu ành hưởng lớn từ rủi ro bảo mật điện toán đám mây Các câu hỏi lớn đặt cho vấn đề “Có điều bất thường xảy hệ thống hay khơng? Nếu có dẫn đến lỗi hệ thống hay không? Trước lỗi xảy ta có phương án để kháng lỗi hay khơng?”, mục tiêu cốt lỗi đề tài nghiên cứu Các rủi ro bảo mật điện toán đám mây: [3] Bảng 1.1: Các bất thường đám mây IaaS Bất thường Rủi ro Các thực thể không bảo đảm Loại nhận dạng Các đối tượng người dung khác sử dụng cho việc phân phối Dựa quy luật malware Trường IP đối tượng đám Cấp phát đăng nhập mây bị thử nghiệm để chứng thực cho lực lượng xấu yếu kết hợp với đăng nhập cụ Dựa quy luật thể Tấn công khả mở Dịch vụ khả dụng đối tượng rộng đám mây đám mây bị cơng Tấn cơng việc quản lí Các hoạt động Hệ thống quản lý Dựa quy luật đám mây đám mây bị công / Dựa hành vi Lạm dụng đối Các đối tượng (máy ảo) đám mây bị tượng (máy ảo) đám tổn hại lạm dụng để thực mây công lớn Dựa quy luật Dựa hành vi Đánh cắp tài khoản Tạo, thay đổi xóa đối tượng đám mây (máy ảo) đám mây Dựa hành vi 1.2 Nhận dạng bất thường 1.2.1 Các khái niệm nhận dạng bất thường [4] Bất thường (Anomaly): đối tượng liệu có độ lệch đáng kể hay tạo theo chế khác so với đối tượng liệu bình thường Cần phân biệt liệu bất thường liệu nhiễu (Noise Data) Nhận dạng bất thường (Anomaly Detection) trình tìm kiếm đối tượng liệu có hành vi khác biệt lớn so với hành vi bình thường Nhận dạng bất thường chia làm loại: • Bất thường tồn cục (Global Anomaly): Trong tập liệu, đối tượng liệu bất thường tồn cục có độ sai lệch (hay khác biệt) đáng kể so với phần liệu lại • Bất thường hồn cảnh (Contextual Anomaly): Trong tập liệu, đối tượng liệu bất thường hồn cảnh có độ sai lệch đáng kể so với hoàn cảnh cụ thể đối tượng • Bất thường tập hợp (Collective Anomaly): Một tập đối tượng liệu tập hợp có độ sai lệch đáng kể so với tồn tập liệu, đối tượng liệu riêng biệt bất thường 1.2.2 Các thách thức nhận dạng bất thường • Mơ hình hóa đối tượng bình thường đối tượng bất thường trở nên khó khăn đến mức khơng thể thực • Nhận dạng bất thường theo phải phát triển riêng cho ứng dụng cụ thể, khó phát triển thành phương pháp chung • Xử lý nhiễu nhận dạng bất thường làm giảm hiệu việc nhận dạng bất thường 6 • Phương pháp nhận dạng bất thường phải mang tính chất hiểu (Understandability) 1.3 Nhận dạng bất thường dựa kỹ thuật khai phá liệu 1.3.1 Giới thiệu - Hệ thống nhận dạng xâm nhập IDS ((Intrusion Detection Systems): • Hệ thống nhận dạng dấu hiệu (Signature Detection System - SDS): xác định mẫu lưu lượng liệu ứng dụng coi độc hại • Hệ thống nhận dạng bất thường (Anomaly Detection System - ADS): so sánh hoạt hoạt động chống lại hành vi bình thườngHệ thống nhận dạng hỗn hợp (Hybrid Detection System - HDS): kết hợp hệ thống SDT ADS - Hệ phương pháp nhận dạng bất thường: Gồm giai đoạn: Tham số hóa (Parameterization), Huấn luyện (Training), Nhận dạng (Detection) 1.3.2 Các nghiên cứu nhận dạng bất thường dựa kỹ thuật khai phá liệu • C Phua , V Lee, K Smith R Gayler với nghiên cứu “A comprehensive survey of data mining-based fraud detection” vào năm 2010 [5] • Các cơng trình nghiên cứu “The Survey of Data Mining Applications and Feature Scope”, “International Journal of Computer Science” “Engineering and Information Technology (IJCSEIT)” N Padhy, P Mishra , R Panigrahi [6] 1.3.3 Phương pháp nhận dạng bất thường dựa kỹ thuật khai phá liệu [8] - Phương pháp giám sát: Trước nhận dạng bất thường, hệ chuyên gia vùng kiểm thử gán nhãn cho mẫu liệu việc nhận dạng bất thường mơ hình hóa thành tốn phân loại Sau đó, hệ chun gia tiến hành báo cáo đối tượng bất thường khơng phù hợp với mơ hình đối tượng bình thường xây dựng - Phương pháp bán giám sát: Trong nhiều ứng dụng, trường hợp gán nhãn cho đối tượng tương đối Đơi khi, phần nhỏ nhãn bình thường có hiệu lực số trường hợp khác có vài nhãn bất thường có hiệu lực Để giải vấn đề này, phương thức tiến hành theo phương pháp bán giám sát - Phương pháp không giám sát: Trong trường hợp tiêu biểu, đối tượng bất thường bình thường gán nhãn khơng có hiệu lực Vì thế, phương thức nhận dạng khơng giám sát sử dụng Phương thức đưa giả thuyết kỳ vọng nhóm đối tượng bình thường xếp thành mẫu thường xuyên so với đối tượng bất thường đối tượng bình thường phân làm nhiều cụm (cluster) không cần có độ tương đồng cao, nhóm có tính riêng Từ đó, ta dự đốn bất thường chúng xa không gian đặc trưng nhóm bình thường - Phương pháp phân cụm Bất thường có mối quan hệ mật thiết với phân cụm Vì thế, nhận dạng bất thường dựa phương pháp phân cụm thực kiểm tra mối quan hệ đối tượng cụm Thông qua trực giác, bất thường xác định đối tượng thuộc cụm nhỏ xa không thuộc cụm Điều dẫn đến cách tiếp cận tổng qt: • Đối tượng khơng thuộc cụm • Dựa khoảng cách đến cụm gần • Nhận dạng xâm nhập • Nhận dạng bất thường cụm nhỏ Một số kỹ thuật nhận dạng bất thường theo phương pháp phân cụm: k-Means, kMedoids, Phân cụm EM (EM Clustering), thuật toán phát ngoại vi (Outlier Detection Algorithm) 8 1.4 Đề xuất phương pháp nhận dạng bất thường IaaS Tập liệu có kích thước lớn dẫn đến chi phí thời gian cho việc gán nhãn lớn Ngoài ra, nhiễu thường xảy việc nhận dạng số lượng đối tượng bất thường nhỏ so với số lượng đối tượng bình thường Kỹ thuật One-Class SVM giải vấn đề phân loại lớp (One-class problem) hàm Kernel One-Class SVM hàm phi tuyến nên mang tính linh hoạt, hiệu xác Từ thách thức, ưu điểm dựa vào kinh nghiệm nghiên cứu đúc kết được, đề tài đề xuất nhận dạng bất thường theo phương pháp không giám sát dựa kỹ thuật One-Class SVM CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA KỸ THUẬT ONE-CLASS SVM TRONG BÀI TOÁN NHẬN DẠNG BẤT THƯỜNG HỆ THỐNG IAAS 2.1 Một số cơng trình nghiên cứu liên quan Sau số báo tiêu biểu cho việc nghiên cứu có liên quan đến vấn đề nhận dạng bất thường phát hành gần đây: • “Data-driven Anomaly Detection Method for Monitoring Runtime Performance of Cloud Computing Platforms” M Lin, Z Yao, F Gao, Y Li xuất năm 2016 [9] • “Survey on Anomaly Detection using Data Mining Techniques” S Agrawal J Agrawal xuất năm 2015 [10] • “Toward Anomaly Detection in IaaS Cloud Computing Platforms” M Lin, Z Yao, F Gao Y Li xuất năm 2015 [11] • “Anomaly detection in iaas clouds” sách “Anomaly detection in iaas clouds” IEEE nhóm tác giả F Doelitzscher, M Knahl, C Reich, N Clarke xuất năm 2013 [12] 2.2 Kỹ thuật One-Class SVM 2.2.1 Thuật toán SVM Thuật tốn máy vector hỗ trợ có khả xử lý liệu tuyến tính liệu khơng tuyến tính Bản chất giải thuật xây dựng siêu phẳng (hyperplane) có khoảng cách biên lớn (maximum margin) để phân chia liệu thành hai lớp 2.2.2 Vấn đề phân loại lớp Mục đích thực thuật toán phân loại multi-class (nhiều lớp) nhằm phân loại đối tượng đến trở thành đối tượng thuộc loại đối tượng định nghĩa trước Nhưng đối tượng đến không thuộc loại coi khó khăn lớn phân loại đối tượng Để giải vấn đề nhà nghiên cứu đề xuất phân loại theo one-class (một lớp), nghĩa có lớp (được gọi lớp positive target) đặc trưng đối tượng tập liệu huấn luyện Còn lớp khác (lớp nontarget) khơng có đối tượng đặc trưng theo mẫu 2.2.2 Thuật toán One-class SVM [13] Ý tưởng One-class SVM dựa ý tưởng thuật toán SVM, giải vấn đề lớp liệu đề tài nghiên cứu đến One-class SVM thực ước lượng hỗ trợ cho việc phân phối nhiều chiều Bản chất thuật toán thực ánh xạ liệu mẫu (dữ liệu input) vào khơng gian thuộc tính nhiều chiều (High Dimensional Feature Space) việc sử dụng hàm hạt nhân (hàm phi tuyến tính) xây dựng siêu phẳng nhằm tách điểm ảnh từ kết liệu gốc (Origin Data) với khoảng biên cực đại (Maximum Margin) Ở đây, liệu gốc xem thành viên lớp khác Từ đó, giả định điểm “đủ gần” với liệu gốc coi điểm bất thường Vì thế, cần phải định rõ khoảng cách từ điểm đến liệu gốc trước thực phân loại liệu bất thường 10 Hình 2.1: Minh họa phân lớp dựa One-class SVM Xem xét tập liệu cho trước X = {x1 , x2 , … , xl } với xi ∈ Rn mẫu đữ liệu thứ i l tập mẫu cho trước Cho φ ∶ X → H hàm phi tuyến tính ánh xạ tập huấn luyện vào không gian H nhiều chiều Tích số ảnh φ tính tốn hàm hạt nhân đơn giản: 𝑘 (𝑥, 𝑦) = (𝜑(𝑥) 𝜑(𝑦)) (1) Hoặc hàm hạt nhân Gaussian RBF: ||𝑥 − 𝑦|| ) 𝑘 (𝑥, 𝑦) = 𝑒𝑥𝑝 (− 2𝜎 (2) Để thực ánh xạ tập huấn luyện từ liệu gốc sử dụng siêu phẳng với khoảng biên cực đại không gian H , sau: 𝑙 1 ∑ 𝜉𝑖 − 𝜌 𝑊 𝑇 𝑊 + 𝑣𝑙 𝑖=1 Với điều kiện: (𝑤 𝜑(𝑥𝑖 )) ≥ 𝜌 − 𝜉𝑖 , 𝜉𝑖 ≥ 0, 𝑖 = 1, 2, … , 𝑙 Trong đó: • w vector pháp tuyến ( perpendicular) cho siểu phẳng H, • ρ thể khoảng biên, • ξ_i (với i = 1,2, … l) biến slack để phạt mẫu bị sai (3) 11 • 𝑣 ∈ (0,1] tham số điều khiển việc đánh đổi thành phần mẫu huấn luyện cho phép bị từ chối Để tối ưu vấn đề biểu thức (3), nhân tố Lagrange 𝛼𝑖 , 𝛾𝑖 (𝑖 = 1,2, … , 𝑙) giới thiệu xây dựng dạng công thức Lagrange sau: 𝐿(𝑤, 𝜌, 𝜉𝑖 , 𝛼𝑖 , 𝛾𝑖 ) 𝑙 1 = 𝑤𝑇𝑤 + ∑(𝜉𝑖 − 𝜌) 𝑣𝑙 (4) 𝑖=1 𝑙 𝑙 − ∑ 𝛼𝑖 [( 𝑤 𝜑(𝑥)) − 𝜌 + 𝜉𝑖 ] − ∑ 𝛾𝑖 𝜉𝑖 𝑖=1 𝑖=1 Những ràng buộc đạt cách thiết lập đạo hàm riêng cho (4) Vì (1) chuyển thành dạng sau (dual problem): 𝑙 𝑙 𝑚𝑖𝑛 ∑ ∑ 𝛼𝑖 𝛼𝑗 𝑘(𝑥𝑖 , 𝑥𝑗 ) (5) 𝑖=1 𝑗=1 𝑙 𝑠 𝑡 ∑ 𝛼𝑖 = 1, ≤ 𝛼𝑖 ≤ 𝑖=1 , 𝑖 = 1,2, … 𝑙 𝑣𝑙 Vấn đề dual problem trình bày dạng tồn phương, cực tiểu hóa giải quy hoạch toàn phương (quadratic programming QP) Lưu ý hệ số 𝛼𝑖 thường Tập huấn luyện 𝑥𝑖 cho 𝛼𝑖 ≠ tham chiếu đến support vectors (SVs) Cuối hàm định 𝑓 (𝑥) = 𝑠𝑖𝑔𝑛[𝑤 𝜑(𝑥)) − 𝜌] viết lại sau: 𝑓(𝑥) = 𝑠𝑖𝑔𝑛 [ ∑ 𝛼𝑖 𝑘(𝑥𝑖 , 𝑥) − 𝜌] (6) 𝑥𝑖 𝜖𝑆𝑉𝑠 Trong đó: 𝜌 = ∑𝑥𝑖 𝜖𝑆𝑉𝑠 𝛼𝑖 𝑘(𝑥𝑖 , 𝑥𝑗 ) cho support vector 𝑥𝑗 với < 𝛼𝑖 < 𝑣𝑙 Hàm f(x) nhận giá trị +1 vùng nhỏ cách chiếm lấy hầu hết tập liệu huấn luyện ngược lại -1 Thêm vào (5) chứng minh v vừa cận thành phần bất thường cho phép giải pháp cận thành phần SVs 12 2.2.3 Thuật toán SMO Việc huyến luyện SVM tập liệu lớn dễ gặp tình trạng thắt nghẽn cổ chai John C Platt giải vấn đề việc đề xuất thuật toán để huấn luyện SVM gọi SMO (Sequential Minimal Optimization) SMO giải vấn đề QP lớn thành vấn đề QP nhỏ xảy Những vấn đề QP nhỏ giải theo phân tích, tránh sử dụng việc tối ưu hóa số QP tốn nhiều thời gian sử dụng vòng lặp bên SMO phá vỡ vấn đề QP lớn thành vấn đề size two QP Mục tiêu thực cách phân tích hàm dual probrem (5) theo hai tham số không xác định αa, αb trở thành công thức hàm mục tiêu : 1 𝐿(α𝑎, , α𝑏 ) = α𝑎 k 𝑎𝑎 + α𝑏 k 𝑏𝑏 + α𝑎 α𝑏 k 𝑎𝑏 + ∑ α𝑖 2 𝑖=𝑎,𝑏 𝑙 ∑ α𝑗 k 𝑖𝑗 + 𝐿′ (7) 𝑗=1,𝑗≠𝑎,𝑏 Tồn thuật tốn SMO tổng kết thành bước sau:[14] 𝑜𝑙𝑑 Khởi tạo α𝑜𝑙𝑑 𝑎 , α𝑏 Chọn hai tham số αa, αb ; Tính α𝑛𝑒𝑤 cơng thức 𝛼𝑏 = 𝛼𝑏∗ + 𝜂[𝑓 ̅∗ (𝑎) − 𝑓 ̅∗ (𝑏) ] 𝑏 Nếu α𝑛𝑒𝑤 > H α𝑛𝑒𝑤 = H Còn α𝑛𝑒𝑤 < L α𝑛𝑒𝑤 = L; 𝑏 𝑏 𝑏 𝑏 𝑜𝑙𝑑 𝑛𝑒𝑤 Tính α𝑛𝑒𝑤 = α𝑜𝑙𝑑 𝑎 𝑎 + α𝑏 − α𝑏 Tính 𝜌 = ∑𝑥𝑖 𝜖𝑆𝑉𝑠 𝛼𝑖 𝑘(𝑥𝑖 , 𝑥𝑗 ) Nếu đáp ứng dừng KKT tiếp tục đến bước khơng quay bước Các điều kiện KKT (Karush-Kuhn-Tucker) dùng để kiểm tra tính tối ưu SMO, KKT đánh giá α𝑖 để định cần cập nhật α𝑖 không Điều kiện cho α𝑖 gồm: αi((ω.Φ(xi)) – 𝜌 + 𝜉𝑖 = ßi𝜉𝑖 = Điều kiện KKT có ba trường hợp xảy ra: • Trường hợp 1: 𝛼𝑖 = => 𝑓(̅ 𝑥𝑖 ) > 13 • Trường hợp 2: < 𝛼𝑖 < • Trường hợp 3: 𝛼𝑖 = 𝑣𝑙 𝑣𝑙 => 𝑓(̅ 𝑥𝑖 ) = => 𝑓 (̅ 𝑥𝑖 ) < Xuất α, thoát chương trình CHƯƠNG 3: ÁP DỤNG KỸ THUẬT ONE-CLASS SVM TRONG NHẬN DẠNG BẤT THƯỜNG CHO HỆ THỐNG ĐIỆN TOÁN ĐÁM MÂY IAAS 3.1 Giới thiệu tập liệu Google cluster trace: [15] 3.1.1 Các thành phần • Google cluster: tập máy đóng rack kết nối với tạo thành mạng cluster có băng thơng cao • Cell (tế bào): tập máy đặc trưng cho một cluster đơn, máy chia sẻ hệ thống cụm quản lý chung để phân bổ cơng việc cho máy • Job: bao gồm nhiều task, task kèm tập yêu cầu tài nguyên sử dụng để lập lịch (scheduling) task máy • Trace sử dụng đơn (Single Usage Trace): số ngày cho khối lượng công việc tế bào compute • Một trace tạo thành từ nhiều tập liệu Tập liệu chứa bảng để lập mục dựa khóa có timestamp Mỗi tập liệu đóng gói dạng tập nhiều tệp, tệp cung cấp định dạng nén CSV 14 3.1.2.Các bảng liệu Các trace cung cấp từ bảng machine, job, task resource usage • Machine: mô tả hai bảng, bảng kiện máy (Machine Events Table) bảng thuộc tính máy (Machine Attributes Table) • Job task: mơ tả bảng kiện job (Job events table), bảng kiện task (Task events table) bảng ràng buộc task (Task constraints table) • Resource usage gồm trường start timeof the measurement period, end time of the measurement period, job ID, task index, machine ID, mean CPU usage rate, canonical memory usage, assigned memory usage, unmapped page cache memory usage, total page cache memory usage, maximum memory usage, mean disk I/O time, mean local disk space used, maximum CPU usage, maximum disk IO time, cycles per instruction (CPI), memory accesses per instruction (MAI), sample portion, aggregation type, sampled CPU usage 3.1.3 Các kiện chuyển đổi job task Hình 3.1: Các kiện chuyển đổi job task Google cluster trace 15 3.1.4 Một số bất thường tập Google cluster trace Sau biểu thường gặp đối tượng bất thường tập Google cluster trace: • Một số job người dùng không chạy thực thi • Một số tài nguyên bị hạn chế task job không thực thi chạy máy tính khác • Một số tham số đo job máy bị kiểm soát việc lập lịch cho cụm • Một job task có trạng thái bình thường bị hiển thị kiện KILL 3.2 Tiến hành thực nghiệm Thực nghiệm tiến hành dựa phần mềm mã nguồn mở NetBeans IDE 8.2 JDK (Java Development Kit) môi trường phát triển công cụ dành để viết, biên dịch, gỡ lỗi triển khai chương trình hỗ trợ ngơn ngữ Java Các bước tiến thực nghiệm: - Xây dựng tập liệu huấn luyện đại diện cho hệ thống điện toán đám mây IaaS - Sử dụng phương pháp One-class SVM k-Mean để kiểm thử tập liệu - Đánh giá kết đạt 3.2.1 Xây dựng tập liệu huấn luyện Google cluster trace Nguồn liệu Google Storage for Developers Chúng ta sử dụng phần mềm GSUtil để tải thông qua thực thi lệnh gsutil ls gs://clusterdata-2011-2/ gsutil cp -R gs://clusterdata-2011-2/[destination-director] Sau tiến hành sau chép liệu máy Trong nghiên cứu này, tập liệu sử dụng (trace) chứa bảng theo dõi trạng thái máy, job task suốt khoảng thời gian 29 ngày cho cụm gồm 12.453 máy tính Kết tập liệu thu gồm 100 triệu ghi kiện task (dung lượng 17GB không nén) tỷ ghi log sử dụng task (dung lượng 178GB không nén), tài nguyên task báo cáo khoảng phút 16 Do kích thước tập liệu lớn, nên nghiên cứu thực thi phân tích tổng hợp từ kiện task thực với tốc độ phân giải phút, nghiên cứu thu tính task RUNNING, STARTED, EVICT, FAIL, FINISH, KILL, LOST Ngoài ra, thực nghiệm thu tính bổ sung CPU, MEMORY, DISK TIME, CPI, MAI từ liệu sử dụng task Kết cuối cùng, thực nghiệm thu tổng cộng 12 tính task 4234 ghi Định dạng tập liệu huấn luyện: Index, MachineID, RUNNING, STARTED, EVICT, FAIL, FINISH, KILL, LOST, CPU, MEMORY, DISK TIME, CPI, MAI, CONCLUSION 0,372630443,1,2,0,0,0,0,0,0.4619406,0.2940468,0.092164056,60.7014,0.25 0155, Software Update 1,4304051942,0,0,0,0,1,0,0,0.24420754,0.2678832,0.008632407,30.815,0.1 03827, Software Update 2,2887801682,0,1,0,0,1,0,0,0.2260729,0.2480446,0.01729374,32.9455,0.08 99821, Software Update 3,711419,0,0,0,0,1,0,0,0.12856269,0.11105901,0.0032052657,108.916,0.37 9489, Software Update 4,765536,0,1,0,0,2,0,0,0.283413,0.1978213,0.016063572,21.8262,0.065981 7, Software Update 5,1436480987,0,0,0,0,1,0,0,0.1241542,0.146408,0.003685234,33.969,0.110 57, Software Update 3.2.2 Sử dụng kỹ thuật One-class SVM Thực nghiệm sử dụng kỹ thuật One-class SVM, dựa thư viện LIBSVM tác giả Chih-Chung Chang and Chih-Jen Lin, chạy phần mềm Netbean JDK để tiến hành xây dựng mô hình One-class SVM nhận dạng bất thường tập liệu huấn luyện thu việc áp dụng hàm RBF kernel theo công thức 𝑒𝑥𝑝 (− ||𝑥−𝑦|| 100 𝑘 (𝑥, 𝑦) = ) dùng thuật toán SMO để tối ưu hóa kỹ thuật One-class SVM 17 Để đánh giá mơ hình One-class SVM, thực nghiệm áp dụng phương pháp 10-Fold Cross-Validation để chia tập liệu huấn luyện thành 10 phần, cách ngẫu nhiên sử dụng phần để làm tập liệu kiểm thử, phần lại sử dụng làm tập liệu huấn luyện Lập lại trình 10 lần, để đảm bảo tất điểm kiểm thử, sau đưa đánh giá Precision, Recall, F-mesure 3.2.3 Sử dụng kỹ thuật k-Mean k-Means thuật toán dùng toán phân loại n đối tượng thành k cụm dựa đặc tính/thuộc tính đối tượng Phương thức phân loại/cụm liệu thực dựa khoảng cách Euclidean nhỏ đối tượng đến phần tử trung tâm nhóm Phần tử trung tâm nhóm xác định giá trị trung bình phần tử nhóm Trong thực nghiệm này, ta tiến hành áp dụng k-Mean với giá trị k=1 phương pháp 10-Fold Cross-Validation 3.2.4 Kết thực nghiệm Sau tiến hành chạy huấn luyện tập liệu, kết thu thống kê bảng sau: Bảng 3.1: Kết thực nghiệm Phương pháp Số lượng nhận dạng bất liệu bất thường thường One-class SVM k-Means FP TP FN Precision Recall F-measure 271 19 246 25 92,3% 90,9% 91,6% 282 30 240 42 88,9% 85,2% 87,01% 18 94 92.3 92 91.6 90.9 90 88.9 88 87.01 86 85.2 84 82 80 Precision Recall F-measure One-class SVM k-Means Hình 3.2: Biểu đồ so sánh tiêu chí hiệu độ xác thuật tốn Oneclass SVM k-Means Các tiêu chí đánh giá hiệu độ xác thuật toán việc nhận dạng Precision, Recall F-measure, tính cơng thức Precision = Recall = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 F − measure = 2.Precision Recall Precision+Recall (15) (16) (17) Trong đó: • TP (True positive): số lượng liệu có giá trị bất thường xác định bất thường • FP (False positive): số lượng liệu có giá trị bất thường xác định bình thường • FN (False negative): số lượng liệu có giá trị bình thường xác định bất thường 19 Từ bảng kết thực nghiệm, ta kết luận kỹ thuật nhận dạng One-class SVM tối ưu SMO cho kết nhận dạng bất thường đạt hiệu độ xác cao so với kỹ thuật k-Mean dựa tiêu chí Precision, Recall, F-measure Cả hai kỹ thuật điều áp dụng học không giám sát tập liệu lớn với 4234 đối tượng cho kết đánh giá cao nhận dạng bất thường 3.3 Kết luận hướng phát triển Qua năm học hỏi nghiên cứu đề tài luận văn, tác giả hoàn thiện luận văn với mục tiêu ban đầu đề Cụ thể luận văn đạt kết sau: • Trình bày phương pháp nhận dạng điện tốn đám mây IaaS • Giới thiệu phương pháp nghiên cứu One-class SVM nhận dạng IaaS • Xây dựng hệ thống điện toán đám mây IaaS dựa tập liệu Google cluster trace Cài đặt nhận dạng bất thường, đánh giá độ xác hiệu phương pháp One-class SVM so với phương pháp khác Hướng phát triển: Luận văn cần tiếp tục tìm hiểu nghiên cứu vấn đề bổ sung tập liệu huấn luyện cho One-class SVM để thuật tốn trở nên tin cậy, xác 20 DANH MỤC CÁC TÀI LIỆU THAM KHẢO [1] Y Jiang, B Zhao, S Wang, D Sun (2014), “Research of enterprise private cloud computing platform based on openstack”, International Journal of Grid and Distributed Computing, vol 7, no 5, pp 171-180 [2] Peter Mell, Timothy Grance (2011), “The NIST Definition of Cloud Computing”, NIST Special Publication 800-145 [3] F.Doelitzscher, M.Knahl, C.Reich, N.Clarke, (2013), “Anomaly detection in Iaas clouds”, Anomaly detection in iaas clouds (IEEE), pp.387-394 [4] Micheline Kamber, Jiawei Han (2011), “Chapter 12: Outlier Detection”, Data Mining: Concepts and Techniques, Edn, pp.546-551 [5] C Phua, V.Lee, K.Smith, R Gayler (2010), A comprehensive survey of data miningbased fraud detection, pp 1-14 [6] N.Padhy, P.Mishra, R.Panigrahi (2012), “The Survey of Data Mining Applications And Feature Scope”, International Journal of Computer Science, Engineering and Information Technology (IJCSEIT), vol.2, no.3, pp.43-58 [7] Micheline Kamber, Jiawei Han (2011), “Chapter 12: Outlier Detection”, Data Mining: Concepts and Techniques, Edition, pp.552-564 [8] Micheline Kamber, Jiawei Han (2011), “Chapter 12: Outlier Detection”, Data Mining: Concepts and Techniques, edition, pp 552-564 [9] M Lin, Z.Yao, F.Gao, Y.Li (2016) “Data-driven Anomaly Detection Method for Monitoring Runtime Performance of Cloud Computing Platforms” [10] S.Agrawal, J.Agrawal(2015): “Survey on Anomaly Detection using Data Mining Techniques”, Procedia Computer Science, pp 708-713 [11] M Lin, Z Yao, G.Gao, Y.Li (2015): “Toward Anomaly Detection in IaaS Cloud Computing Platforms” [12] F Doelitzscher, M Knahl, C Reich, N Clarke (2013): “Anomaly detection in IaaS clouds”, Book Anomaly detection in iaas clouds (IEEE), pp 387-394 21 [13] http://rvlasveld.github.io/blog/2013/07/12/introduction-to-one-class-support-vector- machines/ truy nhập 10/9/2016 [14] Jia Jiong, Zhang Hao-ran (2007), “A Fast Learning Algorithm for One-Class support Vector Machine” [15] Charles Reiss, John Wilkes, Joseph Hellerstein (2013), “Google cluster-usage traces: format + schema”, Version of 2013-05-06, for trace version Revised 2014-11-17 for trace version 2.1 ... IaaS 2 CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG BẤT THƯỜNG TRONG HỆ THỐNG ĐIỆN TỐN ĐÁM MÂY IAAS 1.1 Điện tốn đám mây 1.1.1 Giới thiệu điện toán đám mây [2] Điện toán đám mây theo NIST (National Institute... pháp nhận dạng điện tốn đám mây IaaS • Giới thiệu phương pháp nghiên cứu One-class SVM nhận dạng IaaS • Xây dựng hệ thống điện toán đám mây IaaS dựa tập liệu Google cluster trace Cài đặt nhận dạng. .. hiệu cao việc nhận dạng bất thường so với kỹ thuật khác Chính luận văn đề xuất nghiên cứu áp dụng kỹ thuật One-Class SVM vào nhận dạng bất thường cho hệ thống điện toán đám mây IaaS 2 CHƯƠNG

Ngày đăng: 07/11/2017, 13:36

Hình ảnh liên quan

Kiến trúc mô hình IaaS bao gồm: - Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

i.

ến trúc mô hình IaaS bao gồm: Xem tại trang 6 của tài liệu.
Bảng 1.1: Các bất thường trong đám mây IaaS - Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Bảng 1.1.

Các bất thường trong đám mây IaaS Xem tại trang 7 của tài liệu.
Hình 2.1: Minh họa phân lớp dựa trên One-class SVM - Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Hình 2.1.

Minh họa phân lớp dựa trên One-class SVM Xem tại trang 13 của tài liệu.
3.1.2.Các bảng dữ liệu - Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

3.1.2..

Các bảng dữ liệu Xem tại trang 17 của tài liệu.
Hình 3.2: Biểu đồ so sánh các tiêu chí về hiệu quả và độ chính xác của thuật toán One- One-class SVM và k-Means  - Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Hình 3.2.

Biểu đồ so sánh các tiêu chí về hiệu quả và độ chính xác của thuật toán One- One-class SVM và k-Means Xem tại trang 21 của tài liệu.

Tài liệu cùng người dùng

Tài liệu liên quan