Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)
Trang 1MỤC LỤC
Mục lục i
Danh mục các ký hiệu, các chữ viết tắt iii
Danh mục các bảng iii
Danh mục các hình iii
Mở đầu 1
Chương 1 - Tổng quan về nhận dạng bất thường trong hệ thống điện toán đám mây IaaS 2 1.1 Điện toán đám mây 2
1.1.1 Giới thiệu về điện toán đám mây 2
1.1.2 Dịch vụ cơ sở hạ tầng 3
1.1.3 Vấn đề chất lượng dịch vụ trong điện toán đám mây IaaS 4
1.2 Nhận dạng bất thường 5
1.2.1 Các khái niệm cơ bản về nhận dạng bất thường 5
1.2.2 Các thách thức trong nhận dạng bất thường 5
1.3 Nhận dạng bất thường dựa trên các kỹ thuật khai phá dữ liệu 6
1.3.1 Giới thiệu 6
1.3.2 Các nghiên cứu nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu 6
1.3.3 Phương pháp nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu 6
1.4 Đề xuất phương pháp nhận dạng bất thường trong IaaS 8
Chương 2 - Cơ sở lý thuyết của kỹ thuật One-class SVM trong bài toán nhận dạng bất thường hệ thống IaaS 8
2.1 Một số công trình nghiên cứu liên quan 8
2.2 Kỹ thuật One-class SVM 9
2.2.1 Thuật toán SVM 9
2.2.2 Vấn đề phân loại một lớp 9
2.2.2 Thuật toán One-class SVM 9
2.2.3 Thuật toán SMO 12
Chương 3: Áp dụng kỹ thuật one-class svm trong nhận dạng bất thường cho hệ thống điện toán đám mây Iaas 13
3.1 Giới thiệu tập dữ liệu Google cluster trace 13
Trang 23.1.1 Các thành phần cơ bản 13
3.1.2.Các bảng dữ liệu 14
3.1.3 Các sự kiện chuyển đổi các job và các task 14
3.1.4 Một số bất thường trong tập Google cluster trace 14
3.2 Tiến hành thực nghiệm 15
3.2.1 Xây dựng tập dữ liệu huấn luyện Google cluster trace 15
3.2.2 Sử dụng kỹ thuật One-class SVM 16
3.2.3 Sử dụng kỹ thuật k-Means 17
3.2.4 Kết quả thực nghiệm 17
3.3 Kết luận và hướng phát triển 19
Danh mục các tài liệu tham khảo 20
Trang 3DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
IaaS Infrastructure as a Service Dịch vụ cơ sở hạ tầng
ISP Internet Service Provider Nhà cung cấp dịch vụ Internet
QP Quadratic Programming Quy hoạch toàn phương
SMO Sequential Minimal Optimization Tối ưu hóa tối thiểu tuần tự
SVM Support Vector Machine Máy vector hỗ trợ
DANH MỤC CÁC BẢNG
Bảng 1.1: Các bất thường trong đám mây IaaS 4
Bảng 3.1: Kết quả thực nghiệm 17
DANH MỤC CÁC HÌNH Hình 1.2: Kiến trúc mô hình IaaS 3
Hình 2.1: Minh họa phân lớp dựa trên One-class SVM 10
Hình 3.1: Các sự kiện chuyển đổi của các job và task trong Google cluster trace 14
Hình 3.2: Biểu đồ so sánh các tiêu chí về hiệu quả và độ chính xác của thuật toán
One-class SVM và k-Means 18
Trang 4MỞ ĐẦU
Với sự phát triển liên tục của điện toán đám mây, ngày càng nhiều doanh nghiệp lựa chọn
để triển khai hệ thống ứng dụng của họ trên hệ thống điện toán đám mây IaaS để cải thiện việc sử dụng tài nguyên phần cứng và giảm chi phí hoạt động công nghệ thông tin [1] Tuy nhiên, hệ thống điện toán đám mây IaaS ngày càng được mở rộng và càng trở nên phức tạp hơn kéo theo những vấn đề về bảo mật trong hệ thống và chất lượng dịch vụ cho khách hàng được coi là mối quan tâm hàng đầu Từ đó, đặt ra những nhu cầu cho việc phát triển và xây dựng một hệ thống nhận dạng bất thường có hiệu quả và độ chính xác cao cho hệ thống IaaS Thông qua quá trình tìm hiểu, nhận thấy rằng kỹ thuật SVM, đặt biệt là kỹ thuật One-Class SVM mang lại độ chính xác và hiệu quả cao hơn trong việc nhận dạng bất thường so với các
kỹ thuật khác Chính vì thế luận văn đề xuất nghiên cứu và áp dụng kỹ thuật One-Class SVM vào nhận dạng bất thường cho hệ thống điện toán đám mây IaaS
Trang 5CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG BẤT THƯỜNG TRONG HỆ THỐNG ĐIỆN TOÁN ĐÁM MÂY IAAS
1.1 Điện toán đám mây
1.1.1 Giới thiệu về điện toán đám mây [2]
Điện toán đám mây theo NIST (National Institute of Standards and Technology) là một mô hình cho phép khắp nơi cùng một lúc có thể thuận tiện truy cập mạng theo yêu cầu đến một nhóm chia sẻ tài nguyên cấu hình điện toán (ví dụ: mạng, máy chủ, bộ lưu trữ, ứng dụng và dịch vụ) Nhóm tài nguyên này được cung cấp và phát hành dưới sự nỗ lực quản lý và hỗ trợ từ nhà cung cấp dịch vụ
Những đặc điểm cơ bản của điện toán đám mây:
• Dịch vụ tự phục vụ theo yêu cầu;
• Truy cập mạng diện rộng;
• Hợp nhất các nguồn tài nguyên;
• Khả năng linh động cao;
• Khả năng đo lường dịch vụ
Các mô hình cung cấp dịch vụ điện toán đám mây:
• Dịch vụ cơ sở hạ tầng IaaS (Infrastructure as a Service);
• Dịch vụ nền tảng PaaS (Platform as a Service);
• Dịch vụ phần mềm SaaS(Software as a Service)
Các mô hình triển khai của điện toán đám mây:
• Đám mây công cộng (Public Cloud);
• Đám mây riêng (Private Cloud);
• Đám mây lai (Hybrid Cloud);
• Đám mây chung (Community Cloud)
Trang 61.1.2 Dịch vụ cơ sở hạ tầng
IaaS cung cấp hạ tầng ảo cho người dùng và giúp người dùng sử dụng dịch vụ theo yêu cầu một cách tự động Nhà cung cấp dịch vụ sẽ triển khai hạ tầng ảo trên các hệ phân tán, cung cấp thêm một số dịch vụ để đảm các tính năng của IaaS và đảm bảo về chất lượng dịch vụ (QoS)
Kiến trúc mô hình IaaS bao gồm:
• Tenant Serivce/Admin Service;
• Lớp quản lý đám mây (Cloud Management Layer);
• Lớp ảo hóa (Abstraction Layer)
Hình 1.2: Kiến trúc mô hình IaaS
Trang 71.1.3 Vấn đề chất lượng dịch vụ trong điện toán đám mây IaaS
Chất lượng dịch vụ (Quality of Service - QoS) trong đám mây là theo dõi, đo lường các dịch vụ và thỏa thuận các mức dịch vụ SLAs (Service-level Agreements) để đảm việc phân phối tài nguyên hiệu quả
Các thách thức về QoS chịu sự ành hưởng lớn từ các rủi ro về bảo mật trong điện toán
đám mây Các câu hỏi lớn được đặt ra cho vấn đề này là “Có điều gì bất thường đang xảy
ra trong hệ thống hay không? Nếu có nó có thể dẫn đến lỗi của hệ thống hay không? Trước khi lỗi xảy ra ta có những phương án nào để kháng lỗi hay không?”, đây cũng là
mục tiêu cốt lỗi của đề tài nghiên cứu
Các rủi ro về bảo mật trong điện toán đám mây: [3]
Bảng 1.1: Các bất thường trong đám mây IaaS
Các thực thể không
được bảo đảm
Các đối tượng người dung khác nhau được sử dụng cho việc phân phối malware
Dựa trên quy luật
Cấp phát đăng nhập
cho lực lượng xấu
Trường IP của các đối tượng đám mây bị thử nghiệm để chứng thực yếu kết hợp với một đăng nhập cụ thể
Dựa trên quy luật
tượng (máy ảo) đám
mây
Các đối tượng (máy ảo) đám mây bị tổn hại và lạm dụng để thực hiện các cuộc tấn công lớn
Dựa trên hành vi
Trang 8Đánh cắp tài khoản
đám mây
Tạo, thay đổi hoặc xóa các đối tượng
1.2 Nhận dạng bất thường
1.2.1 Các khái niệm cơ bản về nhận dạng bất thường [4]
Bất thường (Anomaly): đối tượng dữ liệu có độ lệch đáng kể hay nó được tạo ra theo
một cơ chế khác so với các đối tượng dữ liệu bình thường Cần phân biệt dữ liệu bất thường
và dữ liệu nhiễu (Noise Data)
Nhận dạng bất thường (Anomaly Detection) là quá trình tìm kiếm các đối tượng dữ
liệu có hành vi khác biệt lớn so với hành vi bình thường Nhận dạng bất thường được chia làm 3 loại:
• Bất thường toàn cục (Global Anomaly): Trong một tập dữ liệu, đối tượng dữ
liệu là một bất thường toàn cục nếu nó có độ sai lệch (hay khác biệt) đáng kể so với phần dữ liệu còn lại
• Bất thường hoàn cảnh (Contextual Anomaly): Trong một tập dữ liệu, đối
tượng dữ liệu là một bất thường hoàn cảnh nếu nó có độ sai lệch đáng kể so với một hoàn cảnh cụ thể của đối tượng
• Bất thường tập hợp (Collective Anomaly): Một tập con của các đối tượng dữ
liệu tập hợp có độ sai lệch đáng kể so với toàn bộ tập dữ liệu, ngay cả khi các đối tượng dữ liệu riêng biệt không phải là bất thường
Trang 9• Phương pháp nhận dạng bất thường phải mang tính chất có thể hiểu được
(Understandability)
1.3 Nhận dạng bất thường dựa trên các kỹ thuật khai phá dữ liệu
1.3.1 Giới thiệu
- Hệ thống nhận dạng xâm nhập IDS ((Intrusion Detection Systems):
• Hệ thống nhận dạng dấu hiệu (Signature Detection System - SDS): xác định
các mẫu lưu lượng hoặc dữ liệu ứng dụng được coi là độc hại
• Hệ thống nhận dạng bất thường (Anomaly Detection System - ADS): so sánh
hoạt các hoạt động chống lại một hành vi bình thường
• Hệ thống nhận dạng hỗn hợp (Hybrid Detection System - HDS): kết hợp của
hệ thống SDT và ADS
- Hệ phương pháp cơ bản của nhận dạng bất thường:
Gồm các giai đoạn: Tham số hóa (Parameterization), Huấn luyện (Training),
Nhận dạng (Detection)
1.3.2 Các nghiên cứu nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu
• C Phua , V Lee, K Smith và R Gayler với nghiên cứu “A comprehensive survey
of data mining-based fraud detection” vào năm 2010 [5]
• Các công trình nghiên cứu “The Survey of Data Mining Applications and
Feature Scope”, “International Journal of Computer Science” và
“Engineering and Information Technology (IJCSEIT)” của N Padhy,
P Mishra , R Panigrahi [6]
1.3.3 Phương pháp nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu [8]
- Phương pháp giám sát:
Trước khi nhận dạng bất thường, hệ chuyên gia vùng sẽ kiểm thử và gán nhãn cho
mẫu dữ liệu cơ bản và việc nhận dạng bất thường được mô hình hóa thành một bài toán
Trang 10phân loại Sau đó, các hệ chuyên gia tiến hành báo cáo về các đối tượng bất thường bất
kỳ không phù hợp với mô hình đối tượng bình thường đã được xây dựng
- Phương pháp bán giám sát:
Trong nhiều ứng dụng, các trường hợp gán nhãn cho đối tượng tương đối ít Đôi
khi, chỉ một phần nhỏ nhãn bình thường có hiệu lực và trong một số trường hợp khác
chỉ có vài nhãn bất thường có hiệu lực Để giải quyết vấn đề này, phương thức này
được tiến hành theo phương pháp bán giám sát
- Phương pháp không giám sát:
Trong một trường hợp tiêu biểu, các đối tượng bất thường và bình thường được gán
nhãn không có hiệu lực Vì thế, phương thức nhận dạng không giám sát có thể được
sử dụng Phương thức này đưa ra giả thuyết kỳ vọng rằng các nhóm đối tượng bình
thường được xếp thành mẫu thường xuyên hơn so với các đối tượng bất thường và các
đối tượng bình thường được phân ra làm nhiều cụm (cluster) không cần có độ tương
đồng cao, mỗi nhóm sẽ có tính năng riêng Từ đó, ta có thể dự đoán được bất thường
do chúng ở xa không gian đặc trưng của các nhóm bình thường bất kỳ
- Phương pháp phân cụm
Bất thường có mối quan hệ mật thiết với phân cụm Vì thế, nhận dạng bất thường
dựa trên phương pháp phân cụm là thực hiện kiểm tra mối quan hệ giữa đối tượng và
cụm Thông qua trực giác, các bất thường được xác định là các đối tượng thuộc cụm
nhỏ và ở xa hoặc không thuộc bất kỳ cụm nào Điều này dẫn đến các cách tiếp cận
tổng quát:
• Đối tượng không thuộc bất kỳ cụm nào
• Dựa trên khoảng cách đến cụm gần nhất
• Nhận dạng xâm nhập
• Nhận dạng bất thường trong các cụm nhỏ
Một số kỹ thuật nhận dạng bất thường theo phương pháp phân cụm: Means,
k-Medoids, Phân cụm EM (EM Clustering), thuật toán phát hiện ngoại vi (Outlier Detection Algorithm)
Trang 111.4 Đề xuất phương pháp nhận dạng bất thường trong IaaS
Tập dữ liệu có kích thước lớn dẫn đến chi phí và thời gian cho việc gán nhãn là rất lớn
Ngoài ra, nhiễu thường xảy ra trong việc nhận dạng và các số lượng đối tượng bất thường rất
nhỏ so với số lượng đối tượng bình thường
Kỹ thuật One-Class SVM giải quyết vấn đề phân loại một lớp (One-class problem) và hàm
Kernel của One-Class SVM là hàm phi tuyến nên mang tính linh hoạt, hiệu quả và
chính xác hơn
Từ những thách thức, ưu điểm và dựa vào kinh nghiệm nghiên cứu đúc kết được, đề tài đề
xuất nhận dạng bất thường theo phương pháp không giám sát dựa trên kỹ thuật
One-Class SVM
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA KỸ THUẬT ONE-CLASS
SVM TRONG BÀI TOÁN NHẬN DẠNG BẤT THƯỜNG HỆ
THỐNG IAAS
2.1 Một số công trình nghiên cứu liên quan
Sau đây là một số bài báo tiêu biểu cho việc nghiên cứu có liên quan đến vấn đề nhận dạng
bất thường được phát hành gần đây:
• “Data-driven Anomaly Detection Method for Monitoring Runtime Performance
of Cloud Computing Platforms” của M Lin, Z Yao, F Gao, và Y Li xuất bản
năm 2016 [9]
• “Survey on Anomaly Detection using Data Mining Techniques” của
S Agrawal và J Agrawal xuất bản năm 2015 [10]
• “Toward Anomaly Detection in IaaS Cloud Computing Platforms” của M Lin,
Z Yao, F Gao và Y Li xuất bản năm 2015 [11]
• “Anomaly detection in iaas clouds” trong sách “Anomaly detection in iaas
clouds” của IEEE và nhóm tác giả F Doelitzscher, M Knahl, C Reich, N Clarke
xuất bản năm 2013 [12]
Trang 122.2 Kỹ thuật One-Class SVM
2.2.1 Thuật toán SVM
Thuật toán máy vector hỗ trợ có khả năng xử lý dữ liệu tuyến tính và dữ liệu không tuyến tính Bản chất của giải thuật này xây dựng một siêu phẳng (hyperplane) có khoảng cách biên lớn nhất (maximum margin) để phân chia dữ liệu thành hai lớp
2.2.2 Vấn đề phân loại một lớp
Mục đích thực hiện của các thuật toán phân loại multi-class (nhiều lớp) là nhằm phân loại một đối tượng không biết đến trở thành một đối tượng thuộc loại đối tượng được định nghĩa trước Nhưng khi đối tượng không biết đến không thuộc bất kỳ loại nào thì đây được coi là một khó khăn lớn trong phân loại đối tượng Để giải quyết vấn đề này các nhà nghiên cứu đề xuất phân loại theo one-class (một lớp), nghĩa là sẽ có một lớp (được gọi là lớp
positive hoặc target) đặc trưng của các đối tượng trong tập dữ liệu huấn luyện Còn những
lớp khác (lớp nontarget) thì hầu như không có hoặc rất ít các đối tượng được đặc trưng theo mẫu
2.2.2 Thuật toán One-class SVM [13]
Ý tưởng của One-class SVM cũng dựa trên ý tưởng của thuật toán SVM, nhưng giải quyết vấn đề một lớp dữ liệu trong đề tài được nghiên cứu đến One-class SVM cũng thực hiện ước lượng hỗ trợ cho việc phân phối nhiều chiều Bản chất của thuật toán này là thực hiện ánh xạ dữ liệu mẫu (dữ liệu input) vào trong một không gian thuộc tính nhiều chiều (High Dimensional Feature Space) bằng việc sử dụng những hàm hạt nhân (hàm phi tuyến tính) và xây dựng một siêu phẳng nhằm tách những điểm ảnh từ kết quả dữ liệu gốc (Origin Data) với khoảng biên cực đại (Maximum Margin) Ở đây, dữ liệu gốc được xem như là một thành viên của một lớp khác Từ đó, giả định các điểm “đủ gần” với dữ liệu gốc được coi là các điểm bất thường Vì thế, cần phải định rõ khoảng cách từ các điểm đến dữ liệu gốc trước khi thực hiện phân loại dữ liệu bất thường
Trang 13Hình 2.1: Minh họa phân lớp dựa trên One-class SVM
Xem xét một tập dữ liệu cho trước X = {x1 , x2, … , xl} với xi ∈ Rn là mẫu đữ liệu thứ
i trong l tập mẫu cho trước Cho φ ∶ X → H là một hàm phi tuyến tính ánh xạ tập huấn
luyện vào không gian H nhiều chiều Tích số trong của ảnh φ có thể được tính toán bằng
một hàm hạt nhân đơn giản:
Để thực hiện ánh xạ tập huấn luyện từ dữ liệu gốc sử dụng siêu phẳng với khoảng biên
cực đại trong không gian H , chúng ta như sau:
• w là một là vector pháp tuyến ( perpendicular) cho siểu phẳng H,
• ρ thể hiện khoảng biên,
• ξ_i (với i = 1,2, … l) là biến slack để phạt những mẫu bị sai
Trang 14• 𝑣 ∈ (0,1] là tham số điều khiển việc đánh đổi và chỉ ra thành phần mẫu huấn luyện được cho phép bị từ chối
Để tối ưu vấn đề trong biểu thức (3), nhân tố Lagrange 𝛼𝑖, 𝛾𝑖 (𝑖 = 1,2, … , 𝑙)
được giới thiệu và xây dựng dạng công thức Lagrange như sau:
và ngược lại bằng -1 Thêm vào đó (5) đã chứng minh v vừa là cận trên của các thành phần bất thường được cho phép bởi giải pháp và là cận dưới trong thành phần của SVs