Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)Nhận Dạng Bất Thường Cho Hệ Thống Điện Toán Đám Mây Iaas Dựa Trên OneClass Svm (tt)

Trang 1

MỤC LỤC

Mục lục i

Danh mục các ký hiệu, các chữ viết tắt iii

Danh mục các bảng iii

Danh mục các hình iii

Mở đầu 1

Chương 1 - Tổng quan về nhận dạng bất thường trong hệ thống điện toán đám mây IaaS 2 1.1 Điện toán đám mây 2

1.1.1 Giới thiệu về điện toán đám mây 2

1.1.2 Dịch vụ cơ sở hạ tầng 3

1.1.3 Vấn đề chất lượng dịch vụ trong điện toán đám mây IaaS 4

1.2 Nhận dạng bất thường 5

1.2.1 Các khái niệm cơ bản về nhận dạng bất thường 5

1.2.2 Các thách thức trong nhận dạng bất thường 5

1.3 Nhận dạng bất thường dựa trên các kỹ thuật khai phá dữ liệu 6

1.3.1 Giới thiệu 6

1.3.2 Các nghiên cứu nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu 6

1.3.3 Phương pháp nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu 6

1.4 Đề xuất phương pháp nhận dạng bất thường trong IaaS 8

Chương 2 - Cơ sở lý thuyết của kỹ thuật One-class SVM trong bài toán nhận dạng bất thường hệ thống IaaS 8

2.1 Một số công trình nghiên cứu liên quan 8

2.2 Kỹ thuật One-class SVM 9

2.2.1 Thuật toán SVM 9

2.2.2 Vấn đề phân loại một lớp 9

2.2.2 Thuật toán One-class SVM 9

2.2.3 Thuật toán SMO 12

Chương 3: Áp dụng kỹ thuật one-class svm trong nhận dạng bất thường cho hệ thống điện toán đám mây Iaas 13

3.1 Giới thiệu tập dữ liệu Google cluster trace 13

Trang 2

3.1.1 Các thành phần cơ bản 13

3.1.2.Các bảng dữ liệu 14

3.1.3 Các sự kiện chuyển đổi các job và các task 14

3.1.4 Một số bất thường trong tập Google cluster trace 14

3.2 Tiến hành thực nghiệm 15

3.2.1 Xây dựng tập dữ liệu huấn luyện Google cluster trace 15

3.2.2 Sử dụng kỹ thuật One-class SVM 16

3.2.3 Sử dụng kỹ thuật k-Means 17

3.2.4 Kết quả thực nghiệm 17

3.3 Kết luận và hướng phát triển 19

Danh mục các tài liệu tham khảo 20

Trang 3

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

IaaS Infrastructure as a Service Dịch vụ cơ sở hạ tầng

ISP Internet Service Provider Nhà cung cấp dịch vụ Internet

QP Quadratic Programming Quy hoạch toàn phương

SMO Sequential Minimal Optimization Tối ưu hóa tối thiểu tuần tự

SVM Support Vector Machine Máy vector hỗ trợ

DANH MỤC CÁC BẢNG

Bảng 1.1: Các bất thường trong đám mây IaaS 4

Bảng 3.1: Kết quả thực nghiệm 17

DANH MỤC CÁC HÌNH Hình 1.2: Kiến trúc mô hình IaaS 3

Hình 2.1: Minh họa phân lớp dựa trên One-class SVM 10

Hình 3.1: Các sự kiện chuyển đổi của các job và task trong Google cluster trace 14

Hình 3.2: Biểu đồ so sánh các tiêu chí về hiệu quả và độ chính xác của thuật toán

One-class SVM và k-Means 18

Trang 4

MỞ ĐẦU

Với sự phát triển liên tục của điện toán đám mây, ngày càng nhiều doanh nghiệp lựa chọn

để triển khai hệ thống ứng dụng của họ trên hệ thống điện toán đám mây IaaS để cải thiện việc sử dụng tài nguyên phần cứng và giảm chi phí hoạt động công nghệ thông tin [1] Tuy nhiên, hệ thống điện toán đám mây IaaS ngày càng được mở rộng và càng trở nên phức tạp hơn kéo theo những vấn đề về bảo mật trong hệ thống và chất lượng dịch vụ cho khách hàng được coi là mối quan tâm hàng đầu Từ đó, đặt ra những nhu cầu cho việc phát triển và xây dựng một hệ thống nhận dạng bất thường có hiệu quả và độ chính xác cao cho hệ thống IaaS Thông qua quá trình tìm hiểu, nhận thấy rằng kỹ thuật SVM, đặt biệt là kỹ thuật One-Class SVM mang lại độ chính xác và hiệu quả cao hơn trong việc nhận dạng bất thường so với các

kỹ thuật khác Chính vì thế luận văn đề xuất nghiên cứu và áp dụng kỹ thuật One-Class SVM vào nhận dạng bất thường cho hệ thống điện toán đám mây IaaS

Trang 5

CHƯƠNG 1: TỔNG QUAN VỀ NHẬN DẠNG BẤT THƯỜNG TRONG HỆ THỐNG ĐIỆN TOÁN ĐÁM MÂY IAAS

1.1 Điện toán đám mây

1.1.1 Giới thiệu về điện toán đám mây [2]

Điện toán đám mây theo NIST (National Institute of Standards and Technology) là một mô hình cho phép khắp nơi cùng một lúc có thể thuận tiện truy cập mạng theo yêu cầu đến một nhóm chia sẻ tài nguyên cấu hình điện toán (ví dụ: mạng, máy chủ, bộ lưu trữ, ứng dụng và dịch vụ) Nhóm tài nguyên này được cung cấp và phát hành dưới sự nỗ lực quản lý và hỗ trợ từ nhà cung cấp dịch vụ

Những đặc điểm cơ bản của điện toán đám mây:

• Dịch vụ tự phục vụ theo yêu cầu;

• Truy cập mạng diện rộng;

• Hợp nhất các nguồn tài nguyên;

• Khả năng linh động cao;

• Khả năng đo lường dịch vụ

Các mô hình cung cấp dịch vụ điện toán đám mây:

• Dịch vụ cơ sở hạ tầng IaaS (Infrastructure as a Service);

• Dịch vụ nền tảng PaaS (Platform as a Service);

• Dịch vụ phần mềm SaaS(Software as a Service)

Các mô hình triển khai của điện toán đám mây:

• Đám mây công cộng (Public Cloud);

• Đám mây riêng (Private Cloud);

• Đám mây lai (Hybrid Cloud);

• Đám mây chung (Community Cloud)

Trang 6

1.1.2 Dịch vụ cơ sở hạ tầng

IaaS cung cấp hạ tầng ảo cho người dùng và giúp người dùng sử dụng dịch vụ theo yêu cầu một cách tự động Nhà cung cấp dịch vụ sẽ triển khai hạ tầng ảo trên các hệ phân tán, cung cấp thêm một số dịch vụ để đảm các tính năng của IaaS và đảm bảo về chất lượng dịch vụ (QoS)

Kiến trúc mô hình IaaS bao gồm:

• Tenant Serivce/Admin Service;

• Lớp quản lý đám mây (Cloud Management Layer);

• Lớp ảo hóa (Abstraction Layer)

Hình 1.2: Kiến trúc mô hình IaaS

Trang 7

1.1.3 Vấn đề chất lượng dịch vụ trong điện toán đám mây IaaS

Chất lượng dịch vụ (Quality of Service - QoS) trong đám mây là theo dõi, đo lường các dịch vụ và thỏa thuận các mức dịch vụ SLAs (Service-level Agreements) để đảm việc phân phối tài nguyên hiệu quả

Các thách thức về QoS chịu sự ành hưởng lớn từ các rủi ro về bảo mật trong điện toán

đám mây Các câu hỏi lớn được đặt ra cho vấn đề này là “Có điều gì bất thường đang xảy

ra trong hệ thống hay không? Nếu có nó có thể dẫn đến lỗi của hệ thống hay không? Trước khi lỗi xảy ra ta có những phương án nào để kháng lỗi hay không?”, đây cũng là

mục tiêu cốt lỗi của đề tài nghiên cứu

Các rủi ro về bảo mật trong điện toán đám mây: [3]

Bảng 1.1: Các bất thường trong đám mây IaaS

Các thực thể không

được bảo đảm

Các đối tượng người dung khác nhau được sử dụng cho việc phân phối malware

Dựa trên quy luật

Cấp phát đăng nhập

cho lực lượng xấu

Trường IP của các đối tượng đám mây bị thử nghiệm để chứng thực yếu kết hợp với một đăng nhập cụ thể

Dựa trên quy luật

tượng (máy ảo) đám

mây

Các đối tượng (máy ảo) đám mây bị tổn hại và lạm dụng để thực hiện các cuộc tấn công lớn

Dựa trên hành vi

Trang 8

Đánh cắp tài khoản

đám mây

Tạo, thay đổi hoặc xóa các đối tượng

1.2 Nhận dạng bất thường

1.2.1 Các khái niệm cơ bản về nhận dạng bất thường [4]

Bất thường (Anomaly): đối tượng dữ liệu có độ lệch đáng kể hay nó được tạo ra theo

một cơ chế khác so với các đối tượng dữ liệu bình thường Cần phân biệt dữ liệu bất thường

và dữ liệu nhiễu (Noise Data)

Nhận dạng bất thường (Anomaly Detection) là quá trình tìm kiếm các đối tượng dữ

liệu có hành vi khác biệt lớn so với hành vi bình thường Nhận dạng bất thường được chia làm 3 loại:

• Bất thường toàn cục (Global Anomaly): Trong một tập dữ liệu, đối tượng dữ

liệu là một bất thường toàn cục nếu nó có độ sai lệch (hay khác biệt) đáng kể so với phần dữ liệu còn lại

• Bất thường hoàn cảnh (Contextual Anomaly): Trong một tập dữ liệu, đối

tượng dữ liệu là một bất thường hoàn cảnh nếu nó có độ sai lệch đáng kể so với một hoàn cảnh cụ thể của đối tượng

• Bất thường tập hợp (Collective Anomaly): Một tập con của các đối tượng dữ

liệu tập hợp có độ sai lệch đáng kể so với toàn bộ tập dữ liệu, ngay cả khi các đối tượng dữ liệu riêng biệt không phải là bất thường

Trang 9

• Phương pháp nhận dạng bất thường phải mang tính chất có thể hiểu được

(Understandability)

1.3 Nhận dạng bất thường dựa trên các kỹ thuật khai phá dữ liệu

1.3.1 Giới thiệu

- Hệ thống nhận dạng xâm nhập IDS ((Intrusion Detection Systems):

• Hệ thống nhận dạng dấu hiệu (Signature Detection System - SDS): xác định

các mẫu lưu lượng hoặc dữ liệu ứng dụng được coi là độc hại

• Hệ thống nhận dạng bất thường (Anomaly Detection System - ADS): so sánh

hoạt các hoạt động chống lại một hành vi bình thường

• Hệ thống nhận dạng hỗn hợp (Hybrid Detection System - HDS): kết hợp của

hệ thống SDT và ADS

- Hệ phương pháp cơ bản của nhận dạng bất thường:

Gồm các giai đoạn: Tham số hóa (Parameterization), Huấn luyện (Training),

Nhận dạng (Detection)

1.3.2 Các nghiên cứu nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu

• C Phua , V Lee, K Smith và R Gayler với nghiên cứu “A comprehensive survey

of data mining-based fraud detection” vào năm 2010 [5]

• Các công trình nghiên cứu “The Survey of Data Mining Applications and

Feature Scope”, “International Journal of Computer Science” và

“Engineering and Information Technology (IJCSEIT)” của N Padhy,

P Mishra , R Panigrahi [6]

1.3.3 Phương pháp nhận dạng bất thường dựa trên kỹ thuật khai phá dữ liệu [8]

- Phương pháp giám sát:

Trước khi nhận dạng bất thường, hệ chuyên gia vùng sẽ kiểm thử và gán nhãn cho

mẫu dữ liệu cơ bản và việc nhận dạng bất thường được mô hình hóa thành một bài toán

Trang 10

phân loại Sau đó, các hệ chuyên gia tiến hành báo cáo về các đối tượng bất thường bất

kỳ không phù hợp với mô hình đối tượng bình thường đã được xây dựng

- Phương pháp bán giám sát:

Trong nhiều ứng dụng, các trường hợp gán nhãn cho đối tượng tương đối ít Đôi

khi, chỉ một phần nhỏ nhãn bình thường có hiệu lực và trong một số trường hợp khác

chỉ có vài nhãn bất thường có hiệu lực Để giải quyết vấn đề này, phương thức này

được tiến hành theo phương pháp bán giám sát

- Phương pháp không giám sát:

Trong một trường hợp tiêu biểu, các đối tượng bất thường và bình thường được gán

nhãn không có hiệu lực Vì thế, phương thức nhận dạng không giám sát có thể được

sử dụng Phương thức này đưa ra giả thuyết kỳ vọng rằng các nhóm đối tượng bình

thường được xếp thành mẫu thường xuyên hơn so với các đối tượng bất thường và các

đối tượng bình thường được phân ra làm nhiều cụm (cluster) không cần có độ tương

đồng cao, mỗi nhóm sẽ có tính năng riêng Từ đó, ta có thể dự đoán được bất thường

do chúng ở xa không gian đặc trưng của các nhóm bình thường bất kỳ

- Phương pháp phân cụm

Bất thường có mối quan hệ mật thiết với phân cụm Vì thế, nhận dạng bất thường

dựa trên phương pháp phân cụm là thực hiện kiểm tra mối quan hệ giữa đối tượng và

cụm Thông qua trực giác, các bất thường được xác định là các đối tượng thuộc cụm

nhỏ và ở xa hoặc không thuộc bất kỳ cụm nào Điều này dẫn đến các cách tiếp cận

tổng quát:

• Đối tượng không thuộc bất kỳ cụm nào

• Dựa trên khoảng cách đến cụm gần nhất

• Nhận dạng xâm nhập

• Nhận dạng bất thường trong các cụm nhỏ

Một số kỹ thuật nhận dạng bất thường theo phương pháp phân cụm: Means,

k-Medoids, Phân cụm EM (EM Clustering), thuật toán phát hiện ngoại vi (Outlier Detection Algorithm)

Trang 11

1.4 Đề xuất phương pháp nhận dạng bất thường trong IaaS

Tập dữ liệu có kích thước lớn dẫn đến chi phí và thời gian cho việc gán nhãn là rất lớn

Ngoài ra, nhiễu thường xảy ra trong việc nhận dạng và các số lượng đối tượng bất thường rất

nhỏ so với số lượng đối tượng bình thường

Kỹ thuật One-Class SVM giải quyết vấn đề phân loại một lớp (One-class problem) và hàm

Kernel của One-Class SVM là hàm phi tuyến nên mang tính linh hoạt, hiệu quả và

chính xác hơn

Từ những thách thức, ưu điểm và dựa vào kinh nghiệm nghiên cứu đúc kết được, đề tài đề

xuất nhận dạng bất thường theo phương pháp không giám sát dựa trên kỹ thuật

One-Class SVM

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT CỦA KỸ THUẬT ONE-CLASS

SVM TRONG BÀI TOÁN NHẬN DẠNG BẤT THƯỜNG HỆ

THỐNG IAAS

2.1 Một số công trình nghiên cứu liên quan

Sau đây là một số bài báo tiêu biểu cho việc nghiên cứu có liên quan đến vấn đề nhận dạng

bất thường được phát hành gần đây:

• “Data-driven Anomaly Detection Method for Monitoring Runtime Performance

of Cloud Computing Platforms” của M Lin, Z Yao, F Gao, và Y Li xuất bản

năm 2016 [9]

• “Survey on Anomaly Detection using Data Mining Techniques” của

S Agrawal và J Agrawal xuất bản năm 2015 [10]

• “Toward Anomaly Detection in IaaS Cloud Computing Platforms” của M Lin,

Z Yao, F Gao và Y Li xuất bản năm 2015 [11]

• “Anomaly detection in iaas clouds” trong sách “Anomaly detection in iaas

clouds” của IEEE và nhóm tác giả F Doelitzscher, M Knahl, C Reich, N Clarke

xuất bản năm 2013 [12]

Trang 12

2.2 Kỹ thuật One-Class SVM

2.2.1 Thuật toán SVM

Thuật toán máy vector hỗ trợ có khả năng xử lý dữ liệu tuyến tính và dữ liệu không tuyến tính Bản chất của giải thuật này xây dựng một siêu phẳng (hyperplane) có khoảng cách biên lớn nhất (maximum margin) để phân chia dữ liệu thành hai lớp

2.2.2 Vấn đề phân loại một lớp

Mục đích thực hiện của các thuật toán phân loại multi-class (nhiều lớp) là nhằm phân loại một đối tượng không biết đến trở thành một đối tượng thuộc loại đối tượng được định nghĩa trước Nhưng khi đối tượng không biết đến không thuộc bất kỳ loại nào thì đây được coi là một khó khăn lớn trong phân loại đối tượng Để giải quyết vấn đề này các nhà nghiên cứu đề xuất phân loại theo one-class (một lớp), nghĩa là sẽ có một lớp (được gọi là lớp

positive hoặc target) đặc trưng của các đối tượng trong tập dữ liệu huấn luyện Còn những

lớp khác (lớp nontarget) thì hầu như không có hoặc rất ít các đối tượng được đặc trưng theo mẫu

2.2.2 Thuật toán One-class SVM [13]

Ý tưởng của One-class SVM cũng dựa trên ý tưởng của thuật toán SVM, nhưng giải quyết vấn đề một lớp dữ liệu trong đề tài được nghiên cứu đến One-class SVM cũng thực hiện ước lượng hỗ trợ cho việc phân phối nhiều chiều Bản chất của thuật toán này là thực hiện ánh xạ dữ liệu mẫu (dữ liệu input) vào trong một không gian thuộc tính nhiều chiều (High Dimensional Feature Space) bằng việc sử dụng những hàm hạt nhân (hàm phi tuyến tính) và xây dựng một siêu phẳng nhằm tách những điểm ảnh từ kết quả dữ liệu gốc (Origin Data) với khoảng biên cực đại (Maximum Margin) Ở đây, dữ liệu gốc được xem như là một thành viên của một lớp khác Từ đó, giả định các điểm “đủ gần” với dữ liệu gốc được coi là các điểm bất thường Vì thế, cần phải định rõ khoảng cách từ các điểm đến dữ liệu gốc trước khi thực hiện phân loại dữ liệu bất thường

Trang 13

Hình 2.1: Minh họa phân lớp dựa trên One-class SVM

Xem xét một tập dữ liệu cho trước X = {x1 , x2, … , xl} với xi ∈ Rn là mẫu đữ liệu thứ

i trong l tập mẫu cho trước Cho φ ∶ X → H là một hàm phi tuyến tính ánh xạ tập huấn

luyện vào không gian H nhiều chiều Tích số trong của ảnh φ có thể được tính toán bằng

một hàm hạt nhân đơn giản:

Để thực hiện ánh xạ tập huấn luyện từ dữ liệu gốc sử dụng siêu phẳng với khoảng biên

cực đại trong không gian H , chúng ta như sau:

• w là một là vector pháp tuyến ( perpendicular) cho siểu phẳng H,

• ρ thể hiện khoảng biên,

• ξ_i (với i = 1,2, … l) là biến slack để phạt những mẫu bị sai

Trang 14

• 𝑣 ∈ (0,1] là tham số điều khiển việc đánh đổi và chỉ ra thành phần mẫu huấn luyện được cho phép bị từ chối

Để tối ưu vấn đề trong biểu thức (3), nhân tố Lagrange 𝛼𝑖, 𝛾𝑖 (𝑖 = 1,2, … , 𝑙)

được giới thiệu và xây dựng dạng công thức Lagrange như sau:

và ngược lại bằng -1 Thêm vào đó (5) đã chứng minh v vừa là cận trên của các thành phần bất thường được cho phép bởi giải pháp và là cận dưới trong thành phần của SVs

Định dạng
Số trang	24
Dung lượng	0,94 MB