2.2. Giải pháp phát hiện và giảm thiểu tấn công DDoS dựa trên mơ hình dự đoán làm trơn hàm
2.2.6. Phân tích và đánh giá hiệu năng của giải pháp
Phương pháp phân tích và kịch bản tấn cơng
Hiệu năng của giải pháp được đánh giá thông qua phân tích mơ phỏng trên bộ dữ liệu lành tính CAIDA 2013 [107] và bộ dữ liệu CAIDA DDoS 2007 [108]. Các gói tin từ bộ lưu lượng được đọc bởi cơng cụ phân tích Scapy [109] và lưu thơng tin thuộc tính vào hệ cơ sở dữ liệu phục vụ cho phân tích, thống kê. Thời gian tồn tại của các luồng dựa trên 2 tham số mặc định
idle timeout và hard timeout của sản phẩm OFS thương mại tương ứng là 10s và 60s [110]. Chu kỳ giám sát T được chọn là 5 phút, các giá trị thống kê được tính từ các luồng đang tồn tại và đưa vào hệ thống phát hiện tấn công tại máy chủ bảo mật để phân tích và đưa ra kết quả đầu ra.
Bộ dữ liệu CAIDA 2013 [107] là dữ liệu được capture từ lưu lượng thực trong năm 2013 tại gateway của một trung tâm dữ liệu của một trường đại học đặt tại San Jose, California, Mỹ với nhiều dịch vụ khác nhau. Lưu lượng được kiểm định và đảm bảo là lưu lượng lành tính trước khi xóa bỏ hết phần nội dung các gói tin và đổi địa chỉ IP thực. Bộ lưu lượng được phục vụ cho mục đích nghiên cứu phù hợp với các quy mô lưu lượng từ nhỏ đến lớn dựa vào kết hợp lưu lượng của các máy chủ trong bộ dữ liệu. Trên thực tế CAIDA 2013 được sử dụng cho nhiều cơng trình nghiên cứu về đặc tính, kỹ thuật lưu lượng, an ninh mạng… Bộ dữ liệu CAIDA DDoS 2007 [108] là dữ liệu được capture từ lưu lượng của một cuộc tấn công DDoS thực tế tới một trung tâm dữ liệu trong năm 2007 với quy mô lớn (về cả số lượng botnet và tập hợp các máy chủ nạn nhân) trong đó áp dụng nhiều kỹ thuật tấn công khác nhau. Sau khi xác thực, lọc bỏ các lưu lượng lành tính, xóa bỏ phần nội dung gói tin, đổi địa chỉ nguồn tấn công thực, bộ lưu lượng này được sử dụng rộng rãi, tin cậy trong các ứng dụng phân tích và thử nghiệm liên quan đến tấn cơng DDoS.
- Từ bộ dữ liệu lành tính CAIDA 2013, lưu lượng của 100 máy chủ lựa chọn ngẫu nhiên
chạy các dịch vụ khác nhau (Web và FTP) được phân tích và đánh dấu ở trạng thái khơng bị tấn công với thời gian 45 phút.
- Bộ lưu lượng tấn cơng CAIDA DDoS 2007 cũng được phân tích trong thời gian 45 phút.
Theo thống kê, phân tích từ bộ lưu lượng này, 20 phút đầu, lưu lượng tấn công ở cường độ thấp, 25 phút sau ở cường độ cao. Trong số 100 máy chủ, một máy chủ ngẫu nhiên được chọn làm máy chủ bị tấn công Server 1, 2 trong số 99 máy chủ còn lại được chọn làm 2 máy chủ ở trạng thái không bị tấn công Server 2 và Server 3. Lưu lượng lành tính của Server 1 được trộn với
lưu lượng tấn cơng DDoS và phân tích so sánh với hai máy chủ còn lại trong khoảng thời gian 90 phút. Ở 45 phút đầu, các máy chủ dịch vụ hoạt động ở trạng thái bình thường và hệ thống ở trạng thái Giám sát. Ở 45 phút tiếp theo, lưu lượng bình thường được phát lặp lại và kèm theo lưu lượng tấn cơng của Server 1. Q trình thực hiện mơ phỏng tính tốn được chia ra làm 3 giai đoạn:
• Giai đoạn I: Khơng có tấn cơng xảy ra (từ phút thứ 01 đến hết phút thứ 44).
• Giai đoạn II: Có tấn cơng cường độ thấp tới Server 1 (từ phút 45 đến hết phút 64).
• Giai đoạn III: Tấn cơng cường độ mạnh tới Server 1 (từ phút 65 đến hết phút 89). Khả năng phát hiện tấn công
Kết quả phân tích lưu lượng và tính tốn chỉ số SPA, chỉ số chuẩn hóa DSPA của 3 máy chủ được thể hiện như trong Hình 2.4. Từ kết quả này chúng ta có thể thấy rằng:
• Sự biến động giá trị SPA của hai máy chủ không bị tấn công (Server 2 và Server 3) là rất nhỏ. Và, các giá trị chuẩn hóa DSPA của chúng xấp xỉ bằng 0.
• Trong khi đó với Server 1, SPA ổn định trong giai đoạn I và tăng lên với mức độ biến động không lớn ở giai đoạn II (tấn công cường độ thấp). Tuy nhiên, khi chịu sự tấn công cường độ cao ở giai đoạn III, SPA tăng đột biến với giá trị chuẩn hóa DSPA từ xấp xỉ 0
lên tới 160. Như vậy sự biến động này cho phép hệ thống phát hiện tấn công cường độ cao nhưng không phát hiện được ở giai đoạn tấn cơng cường độ thấp.
a) b)
Hình 2.4. Giá trị chỉ số SPA (a) và DSPA (b)
Giá trị thống kê của chỉ số PpF và chỉ số chuẩn hóa DPpF thì được thể hiện trong Hình
2.5. Kết quả cho thấy:
• Tương tự SPA, PpF khơng có biến động nhiều đối với 2 máy chủ khơng bị tấn công trong suốt thời gian mô phỏng thử nghiệm. Giá trị chuẩn hóa DPpF của chúng cũng
khơng có biến động nhiều và nhỏ hơn 0,5.
• Đối với máy chủ bị tấn công Server 1, sự biến động của PpF là không đáng kể và DPpF nhỏ hơn 0,5 trong giai đoạn I. Ở giai đoạn II, khi bị tấn công ở cường độ thấp, PpF tăng mạnh từ 4,5 lên đến 18,0 và DPpF theo đó cũng tăng từ 0,5 lên trên 2,5. Ở giai đoạn III, mặc dù giá trị PpF và DPpF giảm xuống nhưng vẫn duy trì ở mức cao. Với sự biến
động như vậy, nếu ta chọn giá trị ngưỡng phù hợp (KD = 2) thì có thể phát hiện được tấn cơng cường độ thấp.
a) b)
Hình 2.5. Giá trị chỉ số PpF và DPpF
Như vậy, tấn cơng DDoS có thể phát hiện qua giám sát sự biến động của hai chỉ số chuẩn hoá DSPA và DPpF và so sánh giá trị ngưỡng phát hiện KD. Trong trường hợp này, với KD = 2, tấn công được phát hiện trong cả trường hợp tấn công cường độ thấp và tấn công cường độ
cao. Các giá trị thống kê cũng chỉ ra rằng trong điều kiện khơng bị tấn cơng, mỗi máy chủ có những đặc điểm cung cấp dịch vụ khác nhau nên SPA, PpF của chúng biến động trong những khoảng giá khác nhau. Tuy nhiên, sau khi chuẩn hóa các chỉ số DSPA, DPpF thì chúng hội tụ về cùng khoảng giá trị, thuận lợi cho so sánh để phát hiện tấn công.
Khả năng phân loại lưu lượng tấn công
Bảng 2.5 thể hiện kết quả thống kê độ nhạy DR và tỷ lệ báo động nhầm FPR của cả pha phân loại lưu lượng tấn công và pha giảm thiểu (lọc bỏ) lưu lượng tấn công với các giá trị hệ số lọc bỏ khác nhau KF = 6, 8, 10, ..., 26 theo tổng kích thước các gói tin (bytes). Kết quả cho thấy với dải giá trị KF lựa chọn, giải pháp đề xuất có khả năng phân loại lưu lượng tấn công với giá trị độ nhạy DRC ở mức khá cao, luôn giữ ổn định trên 98,5% với tỷ lệ báo động giả thấp FPRC dưới 0,65%. Khi thay đổi giá trị của KF trong khoảng lựa chọn thì DRC thay đổi khơng đáng kể và duy trì ở mức cao.
Theo lý thuyết, nếu càng nâng cao giá trị hệ số KF, tỷ lệ FPRC càng giảm, tuy nhiên khi đó giá trị DRC cũng sẽ giảm theo. Đối với mỗi máy chủ có dịch vụ đặc thù và tham số lưu lượng khác nhau, hệ số lọc bỏ KF được chọn sao cho đảm bảo tỷ lệ FPR thấp nhưng vẫn duy trì giá trị DR ở mức cao. Trong trường hợp này, nếu lựa chọn KF=20-26, giá trị DRC và FPRC duy trì ở mức ổn định DRC ≈ 98,7% và FPRC ≈ 0,44%. So sánh với giải pháp phát hiện tấn công bằng mơ hình SOM 6 tham số của nhóm tác giả Braga [22] với giá trị DRC cao nhất đạt 98,61 % với FPRC ở mức 0,59% cho thấy giải pháp sử dụng mơ hình dự đốn làm trơn hàm mũ cho tỷ lệ phân loại cao hơn và chính xác hơn.
Khả năng giảm thiểu tấn công
Bảng 2.5. Độ nhạy và tỷ lệ báo động nhầm trong phân loại lưu lượng và giảm thiểu tấn công
𝐊𝐊𝐅𝐅 Phân loại lưu lượng Lọc bỏ lưu lượng
DRC FPRC DRF FPRF 6 99,19 0,62 98,72 6,82 8 99,16 0,58 98,37 4,80 10 99,11 0,56 97,17 3,99 12 99,09 0,54 96,64 3,80 14 99,08 0,52 96,57 3,61 16 99,01 0,51 96,05 3,52 18 98,97 0,49 96,04 3,39 20 98,92 0,47 95,26 3,33 22 98,76 0,44 95,08 3,33 24 98,73 0,44 95,07 3,24 26 98,71 0,42 95,07 3,14
duy trì ở mức trên 95% trong khi FPRF dưới 7%. Nếu chọn giá trị KF = 20–26, kết quả duy trì ổn định ở mức DRF ≈ 95,1% với FPRF ≈ 3,3%. Giá trị này cải thiện hơn rất nhiều nếu so sánh với giải pháp sử dụng mơ hình biến thiên entropy do nhóm tác giả Giotis [21] đề xuất với kết quả DRF đạt 95% khi phải chịu tỷ lệ lọc bỏ nhầm FPRF ở mức 32%.
Nhận xét, đánh giá
So sánh cấu trúc, nguyên lý, hiệu năng của các giải pháp đã đề xuất có phân tích lưu lượng tương đương, giải pháp phát hiện và giảm thiểu tấn công dựa trên mơ hình dự đốn thống kê làm trơn hàm mũ có ưu điểm:
• Cấu trúc hệ thống đơn giản, sử dụng thuần túy dữ liệu thống kê và cơ chế xử lý gói tin của kỹ thuật SDN/Openflow.
• Địi hỏi số trường thơng tin cần truy vấn và lưu trữ thấp (3 tham số/mục luồng) so với giải pháp sử dụng SOM 6 hoặc 4 tham số (sử dụng ít nhất 4 tham số/mục luồng) và giải pháp mơ hình biến thiên entropy (4 tham số/mục luồng).
• Thuật tốn đơn giản: Mỗi tham số chỉ cần tính tốn và lưu trữ 1 giá trị trong một chu kỳ giám sát, trong khi hai giải pháp cịn lại cần phải tính tốn và lưu trữ một mảng các giá trị để tính trung bình và entropy.
• Cải thiện được tương quan đặc tính độ nhạy và tỷ lệ báo động giả trong cả pha phân loại và pha giảm thiểu tấn công.
Tuy nhiên, giải pháp vẫn tồn tại một số nhược điểm:
• Khi tấn công DDoS giả địa chỉ nguồn xảy ra, số lượng địa chỉ nguồn tăng lên dẫn đến lượng truy vấn lấy tham số thống kê lớn, có thể gây nguy cơ nghẽn giao diện Openflow mỗi khi kết thúc chu kỳ giám sát. Vì vậy, giải pháp chỉ phù hợp với hệ thống mạng quy mô nhỏ, lưu lượng thấp.
• Hiệu năng của giải pháp cịn phụ thuộc vào hệ số α của mơ hình dự đốn làm trơn hàm mũ, chu kỳ giám sát T. Các tham số này phụ thuộc vào quy mơ, đặc tính dữ liệu của từng hệ thống mạng cụ thể.