Tổng quan và đánh giá về các phương pháp xây dựng Dataset

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 60 - 66)

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI

3.5 Đánh giá, khuyến nghị về các dataset hiện cĩ

3.5.1 Tổng quan và đánh giá về các phương pháp xây dựng Dataset

49

Bảng 3.3 Tổng quan về các network-based dataset. Kế thừa, bổ sung từ nghiên cứu [15]

Thơng tin chung Bản chất dữ liệu Khối lượng dữ liệu Mơi trường ghi dữ liệu Đánh giá

Bộ dữ liệu Năm tạo Truy cập cơng khai Traffic bình thường Traffic tấn cơng Siêu dữ liệu

Định dạng Ẩn danh Tổng Thời lượng Loại traffic

Loại network Network hồn chỉnh Chia sẵn Đã cân bằng Đã gán nhãn AWID 2015 cần yêu

cầu cĩ cĩ cĩ khác khơng 37M gĩi 1 giờ giả lập mạng nhỏ cĩ cĩ khơng cĩ Booters 2013 cĩ khơng cĩ khơng gĩi cĩ 250GB gĩi 2 ngày thực tế mạng nhỏ khơng khơng khơng khơng Botnet 2010/2014 cĩ cĩ cĩ cĩ gĩi khơng 14GB gĩi khơng cĩ

thơng tin

giả lập mạng đa dạng cĩ cĩ khơng cĩ

CIC-DOS-2019 2019 khơng gĩi khơng 29GB luồng 24 giờ giả lập mạng nhỏ khơng khơng CIC-IDS-2017 2017 gĩi, luồng 2 chiều khơng 3.1M luồng 5 ngày giả lập mạng nhỏ khơng khơng

CIDDS-001 2017 cĩ cĩ cĩ cĩ luồng 1 chiều cĩ (IPs) 32M luồng 28 ngày giả lập và thực tế

mạng nhỏ cĩ khơng khơng cĩ

CIDDS-002 2017 cĩ cĩ cĩ cĩ luồng 1 chiều cĩ (IPs) 15M luồng 14 ngày giả lập mạng nhỏ cĩ khơng khơng cĩ CDX 2009 cĩ cĩ cĩ cĩ gĩi khơng 14GB gĩi 4 ngày thực tế mạng nhỏ cĩ khơng khơng khơng CTU-13 2013 cĩ cĩ cĩ cĩ Gĩi, luồng cĩ (payload) 81M luồng 125 giờ thực tế mạng trường ĐH cĩ khơng khơng cĩ với

nhãn nền DARPA 1998/99 cĩ cĩ cĩ cĩ gĩi, nhật ký log khơng khơng cĩ thơng

tin

7/5 tuần giả lập mạng nhỏ cĩ cĩ khơng cĩ DDoS 2016 2016 cĩ cĩ cĩ khơng gĩi cĩ (IPs) 2.1M gĩi khơng cĩ

thơng tin

tổng hợp khơng cĩ thơng tin khơng cĩ thơng tin

khơng khơng cĩ IRSC 2015 khơng cĩ cĩ khơng gĩi, flow khơng cĩ thơng

tin khơng cĩ thơng tin khơng cĩ thơng tin thực tế mạng production cĩ khơng cĩ thơng tin khơng cĩ thơng tin cĩ

ISCX 2012 2012 cĩ cĩ cĩ cĩ gĩi, luồng 2 chiều khơng 2M luồng 7 ngày giả lập mạng nhỏ cĩ khơng khơng cĩ ISOT 2010 cĩ cĩ cĩ cĩ gĩi khơng 11GB gĩi khơng cĩ

thơng tin

giả lập mạng nhỏ cĩ khơng khơng cĩ KDD CUP 99 1998 cĩ cĩ cĩ khơng khác khơng 5M điểm khơng cĩ

thơng tin

giả lập mạng nhỏ cĩ cĩ khơng cĩ Kent 2016 2016 cĩ cĩ khơng

cĩ thơng tin

khơng luồng 1 chiều, nhật ký log

cĩ (IPs, cổng, thời gian)

130M luồng 58 ngày thực tế mạng doanh nghiệp cĩ khơng khơng khơng

Kyoto 2006+ 2006 đến 2009 cĩ cĩ cĩ khơng khác cĩ (IPs) 93M điểm 3 năm thực tế honeypots khơng khơng khơng cĩ LBNL 2004 / 2005 cĩ cĩ cĩ khơng gĩi cĩ 160M gĩi 5 giờ thực tế mạng doanh nghiệp cĩ khơng khơng khơng NDSec-1 2016 cần yêu

cầu khơng cĩ khơng gĩi, nhật ký log khơng 3.5M gĩi khơng cĩ thơng tin

giả lập mạng nhỏ cĩ khơng khơng cĩ NGIDS-DS 2016 cĩ cĩ cĩ khơng gĩi, nhật ký log khơng 1M gĩi 5 ngày giả lập mạng nhỏ cĩ khơng khơng cĩ NSL-KDD 1998 cĩ cĩ cĩ khơng khác khơng 150k điểm khơng cĩ

thơng tin

giả lập mạng nhỏ cĩ cĩ khơng cĩ PU-IDS 1998 khơng cĩ

thơng tin.

cĩ cĩ khơng khác khơng 200k điểm khơng cĩ thơng tin

tổng hợp mạng nhỏ cĩ khơng khơng cĩ PUF 2018 khơng cĩ

thơng tin.

cĩ cĩ khơng luồng 1 chiều cĩ (IPs) 300k luồng 3 ngày thực tế mạng trường ĐH khơng khơng khơng cĩ (IDS) SANTA 2014 khơng cĩ cĩ khơng khác cĩ (payload) khơng cĩ thơng

tin khơng cĩ thơng tin thực tế ISP cĩ khơng cĩ thơng tin khơng cĩ SSENET-2011 2011 khơng cĩ thơng tin.

cĩ cĩ khơng khác khơng khơng cĩ thơng tin

4 giờ giả lập mạng nhỏ cĩ khơng khơng cĩ SSENET-2014 2011 khơng cĩ

thơng tin.

cĩ cĩ khơng khác khơng 200k điểm 4 giờ giả lập mạng nhỏ cĩ cĩ cĩ cĩ SSHCure 2013 / 2014 cĩ cĩ cĩ khơng luồng 1 và 2

chiều, nhật ký log

cĩ (IPs) 2.4GB luồng (đã nén)

2 tháng thực tế mạng trường ĐH cĩ khơng khơng gián tiếp

TRAbID 2017 cĩ cĩ cĩ khơng gĩi cĩ (IPs) 460M gĩi 8 giờ giả lập mạng nhỏ cĩ cĩ khơng cĩ TUIDS 2011 / 2012 cần yêu cĩ cĩ khơng gĩi, luồng 2 chiều khơng 250k luồng 21 ngày giả lập mạng cỡ vừa cĩ cĩ khơng cĩ

50 cầu

Twente 2008 cĩ khơng cĩ cĩ luồng 1 chiều cĩ (IPs) 14M luồng 6 ngày thực tế honeypot khơng khơng khơng cĩ UGR’16 2016 cĩ cĩ cĩ some luồng 1 chiều cĩ (IPs) 16900M luồng 4 tháng thực tế ISP cĩ cĩ khơng cĩ với

nhãn nền UNIBS 2009 cần yêu

cầu cĩ khơng khơng Luồng cĩ (IPs) 79k luồng 3 ngày thực tế mạng trường ĐH cĩ khơng khơng khơng Unified Host và

Network

2017 cĩ cĩ khơng cĩ thơng tin

khơng luồng 2 chiều, nhật ký log

cĩ (IPs và date)

150GB luồng (đã nén)

90 ngày thực tế mạng doanh nghiệp cĩ khơng khơng khơng

51

Dựa trên kết quả bảng trên, sau khi xem xét các dataset kể trên và tham khảo một số nguồn tài liệu về cả học thuật lẫn thực tế, cĩ thể thấy đa phần các dataset đều chịu một số đặc điểm khác nhau, điển hình như chưa cân bằng, chưa được chia

sẵn, một số chưa được gán nhãn (1). Ví dụ như CIC-IDS-2017 mất cân bằng,

80% benign, 20% attack, cĩ ưu điểm là nhẹ (843MB) và cĩ nhiều dạng tấn cơng IDS nên được sử dụng khá phổ biến. Ngồi ra, bộ dữ liệu này thì áp dụng chung cho IDS chứ khơng tập trung riêng cho DDoS. Bộ dữ liệu CIC-DOS-2019 cĩ Benign chiếm 0.18% so với Attack 99.82%, các dạng tấn cơng cũng bị chênh lệch rất nhiều, TFTP

Dữ liệu mơi trường thực tế thì gặp phải vấn đề về quyền riêng tư. Mặc dù dữ liệu từ các cuộc thi CTF cĩ thể thể hiện một phần vấn đề tấn cơng trên thực tế, tuy nhiên chúng lại hầu như khơng cĩ dữ liệu người dùng bình thường. Cịn sử dụng dữ liệu trực tiếp thì ảnh hưởng tới quyền riêng tư, vấn đề pháp lý, độ sẵn sàng của dataset (để tiếp cận được, truy cập địi hỏi nhiều thủ tục, khĩ khăn. Một số nghiên cứu cĩ thể tự tạo hệ thống để thu dữ liệu một cách thực tế, tuy nhiên khĩ cĩ thể đảm bảo được sự đầy đủ của dữ liệu, do đĩ cĩ thể ảnh hưởng tới độ chính xác và hiệu quả của dataset.

Một số nghiên cứu, lấy dữ liệu từ các dataset cĩ sẵn, tuy nhiên các dataset này khĩ cĩ thể đảm bảo đủ hết lượng traffic của các loại hình tấn cơng khác nhau, hơn nữa, việc kết hợp các data khác nhau cũng khĩ khăn với kết hợp data tự thu.

Tuy nhiên vấn đề này cĩ thể khắc phục nếu chúng ta sử dụng bộ Dataset được sinh ra từ cùng một cơng cụ (2)

Ở đây luận văn sẽ tập trung vào 2 dataset phổ biến nhất hiện nay là CIC-IDS-2017 và CIC-DOS-2019 được cùng phát triển bởi CIC. Dữ liệu flow-based được sinh ra từ cơng cụ CICFlowmeter.

Dataset mới nhất 2022 dành cho DDOS đến nay là CIC-DOS-2019 của Đại học New Brunswick (Canada). Dataset này được sinh ra trong mơi trường giả lập, thu traffic thành PCAP file. PCAP được chuyển sang dạng CSV flows với 81 features

bằng cơng cụ CICFlowMeter, được gán nhãn. Như đã phân tích ở trên một số

feature của Dataset này cũng như CIC-IDS-2017 bị chứng minh sai hoặc dư thừa. Ngồi ra một vấn đề khĩ khăn nữa là bộ dữ liệu cĩ dung lượng rất lớn (29GB

CSV) gây khĩ khăn cho việc nghiên cứu. (3)

Ngồi ra, như đã phân tích ở chương 2 về các dạng tấn cơng DDoS hiện nay đang được khai thác liên tục theo báo cáo của Microsoft [7]. Chi tiết về các kỹ thuật tấn cơng này được cập nhật tại mục 4.1.4. Việc bổ sung các hình thức tấn cơng mới là cần thiết để đảm bảo việc nhận diện các hình thức tấn cơng mới chính xác, tránh các kỹ thuật vượt mặt IDS hiện nay. Dataset mới nhất về DDOS hiện nay là CIC- DOS-2019, Dataset này hiện nay đã 3 năm tuổi và thiếu hàng loạt các kỹ thuật tấn cơng mới như Memcached, CLDAP, Chargen,…(4)

Từ các vấn đề trên (1), (2), (3), (4), luận văn sẽ nghiên cứu xây dựng thu một dữ liệu tấn cơng mới bổ sung thêm cho 2 bộ dữ liệu CIC-IDS-2017 và CIC-DOS-2019

52

cũng như cải thiện lại các vấn đề đang tồn tại của 2 bộ dữ liệu này với các vấn đề chính như: nhẹ hơn về dung lượng, cân bằng giữa attack/benign và các loại tấn cơng với nhau, bổ sung các dữ liệu tấn cơng mới nhất.

3.5.2 Phương pháp lựa chọn dataset hiệu quả

Tập dữ liệu được gắn nhãn là khơng thể tránh khỏi để đào tạo các phương pháp khai thác dữ liệu được giám sát như thuật tốn phân loại và hữu ích cho việc đánh giá các phương pháp khai thác dữ liệu cĩ giám sát cũng như khơng được giám sát. Do đĩ, các tập dữ liệu dựa trên mạng được gắn nhãn cĩ thể được sử dụng để so sánh chất lượng của các NIDS khác nhau với nhau. Tuy nhiên, trong mọi trường hợp, các tập dữ liệu phải mang tính đại diện để phù hợp với các nhiệm vụ đĩ. Cộng đồng nhận thức được tầm quan trọng của dữ liệu dựa trên mạng thực tế, các nghiên cứu khảo sát cho thấy rằng cĩ nhiều nguồn cung cấp dữ liệu (tập dữ liệu, kho dữ liệu và trình tạo lưu lượng). Hơn nữa, cơng việc này thiết lập một tập hợp các thuộc tính của tập dữ liệu làm cơ sở để so sánh các tập dữ liệu cĩ sẵn và để xác định các tập dữ liệu phù hợp, đưa ra các kịch bản đánh giá cụ thể. Sau đây, luận vân thảo luận về một số khía cạnh liên quan đến việc sử dụng các tập dữ liệu cĩ sẵn và tạo các tập dữ liệu mới.

Tập dữ liệu hồn hảo: Số lượng các kịch bản tấn cơng ngày càng gia tăng, đi kèm với phần mềm và cấu trúc mạng mới và phức tạp hơn, dẫn đến yêu cầu tập dữ liệu phải chứa lưu lượng mạng thực và cập nhật. Vì khơng cĩ IDS hồn hảo, việc ghi nhãn các điểm dữ liệu nên được kiểm tra theo cách thủ cơng thay vì được thực hiện độc quyền bởi một IDS. Do đĩ, tập dữ liệu dựa trên mạng hồn hảo được cập nhật, được gắn nhãn chính xác, cĩ sẵn cơng khai, chứa lưu lượng mạng thực với tất cả các loại tấn cơng và hành vi bình thường của người dùng cũng như tải trọng và kéo dài trong một thời gian dài. Tuy nhiên, một tập dữ liệu như vậy khơng tồn tại và (cĩ thể) sẽ khơng bao giờ được tạo ra. Nếu các mối quan tâm về quyền riêng tư cĩ thể được thỏa mãn và lưu lượng mạng trong thế giới thực (ở định dạng dựa trên gĩi tin) với tất cả các loại tấn cơng cĩ thể được ghi lại trong một thời gian đủ dài, thì việc ghi nhãn chính xác cho lưu lượng như vậy sẽ rất tốn thời gian. Do đĩ, quá trình gắn nhãn sẽ mất nhiều thời gian đến mức tập dữ liệu hơi lỗi thời do các kịch bản tấn cơng mới liên tục xuất hiện. Tuy nhiên, một số tập dữ liệu cĩ sẵn đáp ứng một số thuộc tính của một tập dữ liệu hồn hảo. Bên cạnh đĩ, hầu hết các ứng dụng khơng yêu cầu một tập dữ liệu hồn hảo - một tập dữ liệu đáp ứng các thuộc tính nhất định thường là đủ. Ví dụ: khơng cần tập dữ liệu chứa tất cả các kiểu tấn cơng khi đánh giá thuật tốn phát hiện quét cổng mới hoặc khơng cần cấu hình mạng hồn chỉnh khi đánh giá tính bảo mật của một máy chủ cụ thể. Do đĩ, Luận văn hy vọng rằng cơng việc này hỗ trợ các nhà nghiên cứu tìm ra bộ dữ liệu thích hợp cho kịch bản đánh giá cụ thể của họ.

Sử dụng nhiều tập dữ liệu: Như đã đề cập ở trên, khơng cĩ 1 tập dữ liệu dựa trên mạng nào là hồn hảo tuyệt đối. Tuy nhiên, nghiên cứu cho thấy rằng cĩ nhiều bộ dữ liệu (và các nguồn dữ liệu khác) network traffic khác nhau. Do đĩ, các nhà nghiên cứu cĩ thể kiểm tra phương pháp phát hiện xâm nhập của họ với nhiều hơn một tập dữ liệu để tránh quá phù hợp với một tập dữ liệu nhất định, giảm ảnh hưởng

53

của việc và xử lý tổng quát hơn. Ngồi ra flow-based network traffic cĩ sự khác biệt giữa mơi trường production và thử nghiệm. Vì vậy một phương pháp tiếp cận khác là sử dụng cả hai, dữ liệu tổng hợp và dữ liệu thế giới thực.

Để thuận lợi hơn cho việc lựa chọn dataset phù hợp, luận văn nghiên cứu, tổng hợp các vấn đề đĩ và giải quyết trong bộ dataset đề xuất mới ở chương sau, nhằm cải thiện một phần vấn đề khĩ khăn trong lựa chọn, đánh giá các dataset hiện tại.

54

Một phần của tài liệu Nghiên cứu phương pháp phòng chống tấn công ddos (Trang 60 - 66)

Tải bản đầy đủ (PDF)

(85 trang)