Các đặc tính cần đánh giá của Dataset

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 48 - 51)

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI

3.2 Các đặc tính cần đánh giá của Dataset

3.2.1 Thơng tin chung

Bốn thuộc tính sau phản ánh chung thơng tin chung về bộ dữ liệu, cụ thể là năm tạo ra, tính khả dụng, sự hiện diện của truy cập mạng bình thường và độc hại.

1. Năm tạo dữ liệu (Year of Traffic Creation): Vì lưu lượng mạng cĩ thể thay

đổi khái niệm và các kịch bản tấn cơng mới xuất hiện hàng ngày, tuổi của một bộ dữ liệu phát hiện xâm nhập đĩng một vai trị quan trọng. Thuộc tính này mơ tả năm tạo ra bộ dữ liệu. Năm mà lưu lượng mạng cơ bản của bộ dữ liệu được thu thập cĩ liên quan nhiều hơn đến tính cập nhật so với năm xuất bản tập dữ liệu đĩ.

2. Cung cấp cơng khai (Public Availiability): Bộ dữ liệu phát hiện xâm nhập

cần được cơng bố rộng rãi để làm cơ sở so sánh các phương pháp phát hiện xâm nhập khác nhau. Hơn nữa, chất lượng của bộ dữ liệu chỉ cĩ thể được kiểm tra bởi các bên thứ ba nếu chúng được cung cấp cơng khai. Bảng III bao gồm ba đặc điểm khác nhau cho thuộc tính này: yes, o.r. (on request), và no. On request cĩ nghĩa là quyền truy cập sẽ được cấp sau khi gửi tin nhắn đến các tác giả hoặc người chịu trách nhiệm.

3. Hành vi người dùng bình thường (Normal User Behavior): Thuộc tính này

cho biết tính khả dụng của hành vi người dùng bình thường trong tập dữ liệu và nhận các giá trị yes hoặc no. Giá trị yes chỉ ra rằng cĩ hành vi bình thường của người dùng trong bộ dữ liệu, nhưng nĩ khơng đưa ra bất kỳ tuyên bố nào về sự hiện diện của các cuộc tấn cơng. Nĩi chung, chất lượng của một IDS chủ yếu được xác định bởi tỷ lệ phát hiện tấn cơng và tỷ lệ nhận diện sai của nĩ. Do đĩ, sự hiện diện của hành vi người dùng bình thường là khơng thể thiếu để đánh giá một IDS. Tuy nhiên, việc thiếu hành vi người dùng bình thường khơng làm cho một bộ dữ liệu khơng thể sử dụng được, mà chỉ ra rằng nĩ phải được hợp nhất với các tập dữ liệu khác hoặc với lưu lượng mạng trong thế giới thực. Kỹ thuật này được gọi là overlaying hoặc là salting.

37

Hình 3.2 Các thuộc tính chung của network-based dataset [15]

4. Lưu lượng tấn cơng (Attack Traffic): Bộ dữ liệu IDS bao gồm các tình huống tấn cơng khác nhau. Thuộc tính này cho biết sự hiện diện của lưu lượng mạng độc hại trong tập dữ liệu và cĩ giá trị yes nếu tập dữ liệu chứa ít nhất một cuộc tấn cơng.

3.2.2 Bản chất của dữ liệu

Thuộc tính của danh mục này mơ tả định dạng của tập dữ liệu và sự hiện diện của thơng tin meta.

1. Siêu dữ liệu (Metadata): Việc giải thích liên quan đến nội dung của lưu lượng mạng dựa trên gĩi và dựa trên luồng là khĩ khăn cho các bên thứ ba. Do đĩ, các tập dữ liệu nên đi kèm với metadata để cung cấp thêm thơng tin về cấu trúc mạng, địa chỉ IP, các kịch bản tấn cơng,... Thuộc tính này cho biết sự hiện diện của việc bổ sung metadata

2. Định dạng (Format): Các tập dữ liệu phát hiện xâm nhập mạng xuất hiện ở

các định dạng khác nhau. Luận văn chia chúng thành ba định dạng (xem Phần III). (1) Lưu lượng mạng dựa trên gĩi (ví dụ: pcap) chứa lưu lượng mạng cĩ tải trọng. (2) Lưu lượng mạng dựa trên luồng (ví dụ: NetFlow) chỉ chứa thơng tin meta về các kết nối mạng. (3) Các loại tập dữ liệu khác cĩ

38

thể chứa(ví dụ: theo dõi dựa trên luồng với các thuộc tính bổ sung từ dữ liệu dựa trên gĩi hoặc thậm chí từ các log files dựa trên máy chủ lưu trữ). 3. Tính ẩn danh (Anonymity): Thơng thường, các tập dữ liệu phát hiện xâm

nhập cĩ thể khơng được cơng bố vì lý do bảo mật hoặc chỉ cĩ sẵn ở dạng ẩn danh. Thuộc tính này cho biết liệu dữ liệu cĩ được ẩn danh hay khơng và các thuộc tính nào bị ảnh hưởng. Giá trị yes (IPs) cĩ nghĩa là địa chỉ IP được ẩn danh hoặc bị xĩa khỏi tập dữ liệu. Tương tự, yes (payload) chỉ ra rằng thơng tin payload được ẩn danh hoặc bị xĩa khỏi lưu lượng mạng dựa trên gĩi.

3.2.3 Khối lượng dữ liệu

Các thuộc tính trong danh mục này đặc trưng cho các bộ dữ liệu về khối lượng và thời lượng.

1. Tổng số (Count): Số thuộc tính mơ tả kích thước của tập dữ liệu là số lượng

gĩi/ luồng/ điểm được chứa hoặc kích thước vật lý tính bằng Gigabyte (GB). 2. Thời lượng (Duration): Tập dữ liệu phải bao gồm lưu lượng mạng trong một thời gian dài để nắm bắt các hiệu ứng định kỳ (ví dụ: ban ngày so với ban đêm hoặc ngày trong tuần so với cuối tuần). Thời lượng thuộc tính cung cấp thời gian ghi của mỗi tập dữ liệu.

3.2.4 Mơi trường thu dữ liệu

Các thuộc tính trong danh mục này mơ tả mơi trường mạng và các điều kiện để các tập dữ liệu được thu thập.

1. Loại dữ liệu (Kind of Traffic): Thuộc tính loại dữ liệu mơ tả ba nguồn cĩ thể cĩ của lưu lượng mạng: real, emulated, hoặc synthetic. Real cĩ nghĩa là lưu lượng mạng thực đã được ghi lại trong một mơi trường mạng hiệu quả. Emulated cĩ nghĩa là lưu lượng mạng thực được ghi lại trong mơi trường mạng thử nghiệm hoặc mơ phỏng. Synthetic cĩ nghĩa là lưu lượng mạng được tạo tổng hợp (ví dụ: thơng qua trình tạo lưu lượng) và khơng được nắm bắt bởi một thiết bị mạng thực (hoặc ảo)

2. Loại mạng (Type of Network): Mơi trường mạng trong các cơng ty vừa và

nhỏ về cơ bản khác với các nhà cung cấp dịch vụ internet (ISP). Do đĩ, các mơi trường khác nhau yêu cầu các hệ thống bảo mật khác nhau và các bộ dữ liệu đánh giá phải được điều chỉnh cho phù hợp với mơi trường cụ thể. Thuộc tính này mơ tả mơi trường mạng cơ bản trong đĩ tập dữ liệu tương ứng được tạo

3. Mạng hồn chỉnh (Complete Network): Thuộc tính mạng hồn chỉnh là thuộc tính chỉ việc dữ liệu cĩ chứa tồn bộ lưu lượng mạng từ mơi trường mạng cĩ nhiều máy chủ, bộ định tuyến,... hay khơng. Nếu tập dữ liệu chỉ chứa lưu lượng mạng từ một máy chủ duy nhất (ví dụ: honeypot) hoặc chỉ một số giao thức từ lưu lượng mạng (ví dụ: lưu lượng SSH riêng), giá trị được đặt thành khơng.

39

3.2.5 Đánh giá

Các thuộc tính sau đây liên quan đến việc đánh giá các phương pháp phát hiện xâm nhập bằng cách sử dụng các tập dữ liệu dựa trên mạng. Chính xác hơn, các thuộc tính biểu thị sự sẵn cĩ của các tập con được xác định trước, số dư của tập dữ liệu và sự hiện diện của các nhãn.

Chia sẵn (Predefined Splits): Đơi khi rất khĩ để so sánh chất lượng của các IDS

khác nhau, ngay cả khi chúng được đánh giá trên cùng một tập dữ liệu. Trong trường hợp đĩ, cần phải làm rõ liệu các tập con giống nhau cĩ được sử dụng để đào tạo và đánh giá hay khơng. Thuộc tính này cung cấp thơng tin nếu một tập dữ liệu đi kèm với các tập con được xác định trước để đào tạo và đánh giá

Đã cân bằng (Balanced): Thơng thường, các phương pháp học và khai thác dữ liệu

được sử dụng để phát hiện xâm nhập dựa trên sự bất thường. Trong giai đoạn huấn luyện các phương pháp như vậy (ví dụ: bộ phân loại cây quyết định), các tập dữ liệu phải được cân bằng đối với các nhãn lớp của chúng. Do đĩ, các tập dữ liệu phải chứa cùng một số điểm dữ liệu từ mỗi lớp (bình thường và tấn cơng). Tuy nhiên, lưu lượng mạng thế giới thực khơng cân bằng và chứa nhiều hành vi người dùng bình thường hơn là lưu lượng tấn cơng. Thuộc tính này cho biết liệu các tập dữ liệu cĩ được cân bằng đối với các nhãn lớp của chúng hay khơng. Các tập dữ liệu khơng cân bằng nên được cân bằng bằng cách xử lý trước thích hợp trước khi sử dụng các thuật tốn khai thác dữ liệu.

Đã gán nhãn (Labeled): Các tập dữ liệu được gắn

nhãn là cần thiết để đào tạo các phương pháp được giám sát và để đánh giá các phương pháp phát hiện xâm nhập cĩ giám sát cũng như khơng được giám sát. Thuộc tính này cho biết tập dữ liệu cĩ được gắn nhãn hay khơng. Nếu cĩ ít nhất hai lớp là bình thường và tấn cơng, thuộc tính này được đặt thành yes. Các giá trị cĩ thể cĩ trong thuộc tính này là: yes, yes with BG. (yes with background), yes (IDS), indirect, và no. Yes with background là cĩ nền lớp thứ ba. Các gĩi, luồng hoặc điểm dữ liệu thuộc nền lớp cĩ thể là bình thường hoặc tấn cơng. Yes (IDS) là một số loại hệ thống phát hiện xâm nhập đã được sử dụng để tạo nhãn của tập dữ liệu. Một số nhãn của tập dữ liệu cĩ thể sai vì IDS cĩ thể khơng hồn hảo. Indirect là tập dữ liệu khơng cĩ nhãn rõ ràng nhưng cĩ thể tự tạo nhãn từ các tệp nhật ký bổ sung.

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 48 - 51)