Áp dụng phương pháp giai thích

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Phát triển hệ thống phát hiện xâm nhập có khả năng lý giải sử dụng máy học (Trang 72 - 82)

+ Sử dụng phương pháp SHAP

e Decision Tree

Init Fwd Win Byts

Fwd IAT Min

Bwd Pkt Len std RUN

Flow Duration |

Dst Port

Bwd IAT Std MS Fwd Pkt Len Max | init Bwd Win Byts BS

Pkt size avg BS

Pkt Len Max H Fwd Pkt Len Min |

Pkt Len Min | Fwd Seg Size Min |

Flow IAT std ff Flow Byts/s |

Fwd IAT Std [| "mH Benign

mlm DDOS attack-HOIC

TotLen Fwd Pkts | DDoS attacks-LOIC-HTTP

Flow Pkts/s |E 0055

mmm DDOS attack-LOIC-UDP

0.0 0.1 0.2 0.3 0.4 0.5 0.6

mean(|SHAP value|) (average impact on model output magnitude)

Hình 4.1 Giải thích tong quan cho mô hình Decision Tree

Đầu tiên sẽ đưa ra lời giải thích tổng quan cho sự quyết định mô hình cây quyết định. Biểu đồ thanh dùng màu để tóm tắt các tính năng quan trọng nhất. Hình ảnh trên hiển thị 20 tính năng quan trọng hàng đầu và tác động của chúng đối việc phân loại các hình thức tắn công DDOS.

Có thé thay được tinh năng Flow IAT Max (Thời gian tối đa giữa hai gói được gửi trong flow), Flow_Duration (Khoảng thời gian của flow tính bang Microsecond),

Fwd_iat_min (Thời gian tôi thiểu giữa hai gói được gửi theo hướng thuận) được coi

là những tính năng quan trọng ảnh hưởng nhất đối với quyết định của thuật toán. Các tính năng đều phù hợp với tính chất của tan công DDOS. Các tấn công DDOS với tốc

64

độ cao như vậy có thể tạo ra một lượng lớn yêu cầu hoặc lưu lượng mạng trong thời gian ngắn, gây ra quá tải và làm ngừng hoạt động các dịch vụ trực tuyến. Vì vậy chúng ta thấy được độ tin cậy khi sử dụng phương pháp SHAP cho mô hình cây quyết

định.

Bên cạnh đó đề hiểu rõ từng tính năng, biểu đồ tóm tắt tầm quan trọng của các tính năng với các bộ phân loại. Mỗi điểm trên biểu đồ tóm tắt là một giá trị Shapley. Các giá trị chồng chéo lên nha thé hiện giá tri của tinh năng được phân bồ ở giá trị nào nhất. Trục y là trục biểu diễn các tính năng, trục x là các giá tri Shapley. Mau sắc biéu diễn giá trị tính năng từ thấp đến cao ảnh hướng tới kết quả của quyết đinh.

High

Flow IAT Max . oH — Fwd IAT Min . [Ht .

Dst Port ... tt eee

Bwd PktLenStd © ##+ =

Init Fwd Win Byts + ee + ot oe meee

Fwd Pkts/s Thun oe

Fwd Pkt Len Max -sẬa-. -

Subflow Fwd Pkts tH me

Subflow Fwd Byts s——}=——-- *

Fwd Header Len _ ĐH

Init Bwd Win BytsPkt Size Avg -- Oe a Fay Feature value

Flow IAT Std see - Bwd Pkt Len Max - -

Fwd IAT Max . - Pkt Len Min — ©

Pkt Len Mean - -

Fwd Seg Size Min 1 Ƒ—.. %©

Fwd Pkt Len Min — —

TotLen Fwd Pkts - +- .

+ + + 7 M v + Low

04 -0.2 0.0 02 0.4 0.6 0.8 SHAP value (impact on model output)

Hinh 4.2 Giai thich tong quan Normal

Day là 20 tinh năng có thứ tự quan trong từ trên xuống do phương pháp Shap tính toán và thống kê, Với biểu đồ giải thích về quyết định bình thường, với giá trị

Shap cao cua tính nang Fwd Header Len (Kích thước header của gói theo hướng

thuận) làm tăng xác suất dự đoán bình thường và với tính năng.

65

High High

Flow IAT Max ° “f Flow IAT Max

Fwd IAT Min ° Init Fwd Win Byts `

Init Fwd Win Byts woe * Subflow Fwd Byts .

Fwd Pkts/s Init Bwd Win Byts Subflow Fwd Pkts Dst Port

Fwd Header Len Bwd Pkt Len Std

Dst Port Fwd IAT Min Init Bwd Win Byts Bwd Pkt Len Max

Bwd Pkt Len Std . © Pkt Len Var o

Pkt Size Avg ° Š Fwd Pkt Len Min E Pkt Len Var H Pkt Len Mean 5

e Flow IAT Std ô

Bwd Pkt Len Max Pkt Size Avg

Fwd Seg Size Min Fwd IAT Std

Flow Pkts/s Flow Pkts/s

Fwd IAT Max ECE Flag Cnt

Flow Duration Fwd Seg Size Min

Fwd Act Data Pkts Fwd Header Len

Bwd Pkt Len Min Flow IAT Min

Bwd IAT Max

06-04 02 00 02 04 eal 6. 0a 02 00 02 oô cứ

SHAP value (impact on model output) SHAP value (impact on model output)

Hình 4.3 Giải thích tong quan DDOS attack-HOIC inh 4.4 Giải thích tổng quan DDOS attacks-LOIC-HTTP

Đây là biểu đồ trực quan thể hiện 20 đặc tính của tấn công các cuộc tan công DDOS trên bộ dữ liệu tông hợp. Với loại tan công DDOS attack-HOIC hình 4.3 ta thấy giá trị cao Pkt Len Min làm giảm xác suất tan công, giá trị thấp Bwd Pkt Len Std tăng xác suất suy đoán tấn công. Hình 4.4 giá trị cao Fwd Act Data Piks tăng làm tăng sự phán đoán đối với tắn công DDOS attack-LOIC_HTTP.

66

High High

Subflow Fwd Byts eters ee

Flow IAT Max - +o =

Fwd Act Data Pktsl

Subflow Fwd Byt:

Fwd Pkt Len Max Fwd Pkt Len Max . . ob Ù

Flow IAT Max Init Fwd Win Byts ee * --fo--- owe

Fwd IAT Max Bwd Pkt Len Std ames ° lẻ

Fwd IAT Min Init Bwd Win Byts Tưng *

Pkt Size Avg Dst Port —... ne ....

Fwd Header Len Fwd IAT Min ... -ˆ— ...

Fwd IAT Std - F Pkt Len Mean ° othe: ° "

TotLen Fwd Pkts 3 Fwd IAT Max [>- ° 8

Fwd IAT Tot H Flow IAT Std oom sẽ H

Fwd Seg Size Min e Fwd IAT Std see Có È

Subflow Fwd Pkts TotLen Fwd Pkts = -+- =

Flow IAT Std Flow Pkts/s > 4 oat

Flow Duration TotLen Bwd Pkts ` --$

Flow IAT Mean Pkt Size Avg z ơ1-: rà Nh

Flow Byts/s Bwd Pkt Len Max . Ỷ .

Bwd Pkt Len Max Pkt Len Var ° + ng

Fwd IAT Mean Fwd Pkt Len Mean 4

Tot Fwd Pkts Bwd Pkts/s +- mn

-0.2 -0.1 0.0 0.1 0.2 0.3 a 0.4 ~0.2 0.0 0.2 0.4 0.6 "

SHAP value (impact on model output) SHAP value (impact on model output)

Hình 4.5 Giải thích tông quan DDOS attack-LOIC-UDP Hình 4.6 Giải thích tông quan DDOS

Còn đôi với tân công DDOS attack-LOIC-UDP hình 4.5 thì giá trị Fwd Act Data Pkts và Subflow Fwd Byts ảnh hưởng nhiêu đên quyêt định phán đoán. Cuôi cùng với cuộc tân công DDOS hình 4.6 thì giá tri Subflow Fwd Byts ảnh hướng nhat đên quyét định phán đoán.

higher = lower

0.1159 -0.06591 -0.01591 0.00 03409 “0.084 0.1341 ).184 4 0.284

Subflow Fwd Byts = 259 Init Bwd Win Byts = 219 Dst Port = 80 | Flow IAT Max = 5,528 Fwd Pkt Len Max = 259 ' TotLen Bwd Pkts = 935 | Bwd Pkt Len Std = 467.5 TotLen Fwd Pkts = 259

Hình 4.7 Giải thích cục bộ cho Normal

@

higher = lower

-0.03152 0.00 0.06848 0.1685 0.2685 0.3 4685

Fwd LAT Min = 321 Flow IAT Max = 5,528 Init Fwd Win Byts = 6.554e+4 Fwd Pkts/s = 468.2 Subflow Fwd Pkts = 3

Hinh 4.8 Giai thich cuc b6 DDOS attack-HOIC

67

Giải thích cục bộ (local explanation) là quá trình cung cấp giải thích cho một dự đoán cụ thé của mô hình học máy cho một điểm dữ liệu đầu vào cụ thé. Các giá tri tác động đến quyết định một lưu lượng mạng dự đoán dữ liệu có phải độc hay hay bình thường . Các tính năng tăng xác suất dự đoán (bên phải) được thé hiện băng màu

đỏ, và ngược lại, các tính năng giảm xác suât quyết định về bên trái có màu xanh. .

higher = lower

5276 7276 09276 1.00

Fwd IAT Min = 321 [ Pkt Size Avg = 170.6 Pkt Len Mean = 149.3 Dst Port = 80 [ Init Fwd Win Byts = 6.554e+4 ' Subflow Fwd Byts = 259 | Flow IAT Max = 5,528

Hình 4.9 Giải thích cục bộ cho DDOS attacks-LOIC-HTTP

Các tính năng Fwd IAT Min, Subflow Fwd Byts, Dst Port đều là những tính năng anh hưởng nhất đối với mỗi dữ liệu. Tuy nhiên với mỗi giá trị shap trung bình

khác nhau sẽ làm giảm hoặc tăng độ dự đoán. Dự đoán Normal hình 4.7 tính năng

Init Bwd Win Byts sẽ tăng xác suất dự đoán đoán. Giá trị Shap của tính năng Flow IAT Max càng thấp xác suất dự đoán dữ liệu DDOS attack-HOIC hình 4.8 càng giảm. Với tan công DDOS attacks-LOIC-HTTP hình 4.9 giá trị tính năng Flow IAT Max đây dự đoán lên cao

higher = lower

Subflow Fwd Byts = 259 Fwd Pkt Len Max = 259 Flow IAT Max = 5,528 Bwd Pkt Len Std = 467.5

Hinh 4.10 Giai thich cuc b6 cho DDOS attack-LOIC-UDP

dis)

higher = lower

0.13

Subflow Fwd Byts = 259 Fwd Pkt Len Max = 259 Flow IAT Max = 5,528 Bwd Pkt Len Std = 467.5

Hinh 4.11 Giai thich cuc b6 cho DDOS attack

68

Với DDOS attack-LOIC-UDP hình 4.10, DDOS attack hình 4.11 giá tri tinh năng

Subflow Fwd Byst đều day dự đoán lên, tuy nhiên giá trị Shap trung bình quyết

định độ ảnh hưởng của hai cuộc tân công khác nhau.

e Random Forest

Đối với mô hình rừng ngẫu nhiên hình ảnh hiển thi 20 tinh năng quan trong hàng đầu và tác động của chúng đối việc phân loại các các dang tan công DDOS.

Với hình 4.12 tính năng Init Fwd Win Byts (Tổng số byte được gửi trong cửa số ban đầu theo hướng thuận), Flow Duration (Khoảng thời gian của flow tinh bằng

Microsecond), Dst Port (Port đích) được coi là những tính năng quan trọng anh

hưởng nhất đối với quyết định của thuật toán. Với mô hình cây quyết định các tính năng được lựa chọn ảnh hưởng đến quyết định nghiên về tốc tan công. Còn mô hình rừng ngẫu nhiên các quyết đỉnh không chỉ dựa trên tốc độ mà còn kích thước của gói tin. Cũng phù hợp với tính chat của cuộc tan công tạo ra một lượng lớn yêu cầu hoặc lưu lượng mạng trong thời gian ngắn, gây ra quá tải và làm ngừng hoạt động các dịch

vụ trực tuyến. Vì vậy độ tin tưởng của mô hình và phương pháp giải thích cũng tăng

độ tin tưởng.

Init Fwd Win Byts Flow Duration

Dst Port

Flow IAT Max [a Init Bwd Win Byts NA

Fwd Pkts/s |MROOENH

TotLen Fwd Pkts mg Flow IAT Mean ma ư

Flow Pkts/s ME

Fwd IAT Min IMUNANH

Fwd Header Len man

Fwd Pkt Len Mean RA Fwd Pkt Len Max J subflow Fwd Byts ANH

Pkt Len Max (I

Fwd Seg Size Avg SRE

Tot Fwd Pkts BH

Bwd Pkt Len Max BH mmm DDOS attack-HOIC

mmm DDoS attacks-LOIC-HTTP

Subflow Fwd Pkts HH mm Benign

mm mmm DDoS

Flow IAT Std

I8 DDOS attack-LOIC-UDP

0.000 0.025 0.050 0.075 0.100 0.125 0.150 0.175 0.200

mean(|SHAP value|) (average impact on model output magnitude)

Hình 4.12 Giải thích tong quan về các quyết định của mô hình Random Forest

69

Bên cạnh đó dé hiểu rõ từng tinh năng, biều đồ tóm tắt tam quan trọng của các tính năng với các hiệu ứng tính năng. Mỗi điểm trên biểu đồ tóm tắt là một giá trị Shapley. Trục y là trục biểu diễn các tính năng, trục x là các giá trị Shapley. Màu sắc biểu diễn giá trị tính năng từ thấp đến cao ảnh hướng tới kết quả của quyết đỉnh.

High

Dst Port . —...e

Init Bwd Win Byts —_ =. 1.

Init Fwd Win Byts —. oe wee oe TotLen Fwd Pkts

Fwd Header Len Fwd Pkt Len Max Fwd Pkt Len Mean

Fwd IAT Min Subflow Fwd Byts

Flow Duration

Fwd Pkt Len Std Feature value

>—

Fwd Seg Size Avg +

Tot Fwd Pkts oe Bwd Pkt Len Max ye

01 00 01 02 03

Flow IAT Std Subflow Fwd Pkts

Pkt Len Max Flow IAT Max Flow IAT Mean

Pkt Len Std

h : h E 04 05 Low

SHAP value (impact on model output)

Hình 4.13 Giải thích tong quan về Normal

Với biểu đồ giải thích về quyết định bình thường, Tính năng Dst Port có tầm ảnh hưởng nhất tới quyết định đây không phải là tấn công. Ngoài ra với giá trị Shap cao của tính năng Flow JAT Std (Thời gian lệch chuẩn giữa hai gói được gửi trong luồng) làm tăng xác suất dự đoán bình thường.

High

we ee ib

Fwd Act Data Pkts *

Pkt Len Max — TotLen Fwd Pkts

Bwd Seg Size Avg

Fwd IAT Std Pkt Len Mean

Fwd IAT Min Fwd Pkt Len Max

Dst Port sở i

Pkt Len Var Pkt Len Std Bwd Pkt Len Mean

Subflow Fwd Byts

RST Flag Cnt

Feature value

Bwd Pkt Len Max

Tot Fwd Pkts

Flow Duration

Fwd Seg Size Avg

Bwd Pkt Len Std mm

—0.20 -0.15 -0.10 -0.05 0.00 0.05 0.10 0.15 0.20\

SHAP value (impact on model output)

Hình 4.14 Giải thích tổng quan DDOS

High

Flow IAT Max

Dst Port Fwd Pkts/s Flow Pkts/s Flow IAT Mean

Fwd IAT Min

Init Bwd Win Byts

Fwd Header Len

TotLen Fwd Pkts Feature value

Fwd Pkt Len Mean

Tot Fwd Pkts

Fwd Pkt Len Max

Fwd IAT Tot

Flow IAT Std

Pkt Len Max

Subflow Fwd Pkts

Subflow Fwd Byts

Fwd IAT Mean

06 -05 -04 -03 -02 -01 00 01 02

SHAP value (impact on model output)

Hình 4.15 Giải thích tổng quan DDOS attack-HOIC

71

Với cuộc tan công DDOS hình 4.14 và tan công DDOS attack-HOIC hình 4.15 tính năng Init Fwd Win Byts quan trong nhất ảnh hưởng tới quyết định, tuy nhiên với giá trị Shap thấp sẽ làm giảm quyết định đây là lưu lượng mạng bình thường và ngược lại với cuộc tan công DDOS attack-HOIC Shap cao sẽ ảnh hưởng tới khả năng quyết định cuộc tấn công.

High High

Init Fwd Win Byts KT n es el eee TotLen Fwd Pkts

Flow Duration Flow Duration

Flow IAT Max Fwd IAT Min oe —_—_

Flow IAT Mean Flow IAT Max oe °

Fwd Pkts/s Subflow Fwd Pkts —= ==————

Flow Pkts/s Fwd Act Data Pkts -————-

TotLen Fwd Pkts

Fwd Header Len ———

To Fwd FẾG ——

Dst Port se= => ==s Fwd Pkt Len Mean

ai e+kxlalklxepi 9 °

Init Bwd Win Byts $ Fwd Pkts/s =+———— $

Fwd Seg Size Avg ặ Pkt Len Max foo H

Pkt Len Max 2 Flow IAT Mean —m—— =

Bwd Pkt Len Max Subflow Fwd Byts '“=—————

Subflow Fwd Byts Pkt Len Var fh

Bwd IAT Std Init Bwd Win Byts {=

RST Flag Cnt Init Fwd Win Byts --—

ECE Flag Cnt Fwd Seg Size Avg ?‡—

Fwd Header Len Fwd IAT Tot rn oo

Fwd IAT Max Pkt Size Avg —=——

Bwd Seg Size Avg Flow IAT Min cóc m=‡——

ơ— Low + low

~0.4 -0.2 0.0 0.2 04 -0.04 -0.02 0.00 0.02 0.04 0.06 0.08 0.10

SHAP value (impact on model output) SHAP value (impact on model output)

Hình 4.16 Giải thích tổng quan DDOS attacks-LOIC-HTTP Hình 4.17 Giải thích ting quan DDOS attack-LOIC-UDP

Còn đối với tắn công DDOS attack-LOIC-HTTP hình 4.16 thì thì ngoài tính năng Init Fwd Win Byts thì tính năng Flow Duration sẽ phân biệt quyết định lưu lượng mạn bình thường và tấn công DDOS. Cuối cùng với cuộc tấn công DDOS attack-

LOIC-UDP hình 4.17 thì giá trị shap cao Totlen Fwd Pkts, Flow Duration tăng khả năng dự đoán.

72

higher = = lower

0.13 384

eee TOG 5

ECE Flag Cnt = 1 [RST Flag Cnt = 1 Init Fwd Win Byts = 6. 554e+4 | Fwd Act Data | Pkts = 1Ì Pkt Len Max = 935 | Pkt Len Mean = 159. 5 Pkt Len Std = 335. 3) Bwd Seg Size Avg = 233.8

Hình 4.18 Giải thích cục bộ Normal

higher - = lower

-0.03633 -0.01633 0.00: 67 02367 0.08367 037 0.1237 0.1437 0.1637

Gee 'KŒŒŒŒŒfŒf((((((((c.

ECE Flag Cnt = 1 ÍRsr Flag Cnt = 1 | Init Fwd Win Byts = 6. 554e+4 | Fwd Act Data Pkts = 1Ì Pkt Len Max = 935 | Pkt Len Mean = 159. 5Ì Pkt Len Std = 335.3 | Bwd Seg Size Avg = 233.8

Hinh 4.19 Giai thich cuc b6 DDOS attack

Giải thích cục bộ (local explanation) là quá trình cung cấp giải thích cho một dự đoán cụ thé của mô hình học máy cho một điểm dữ liệu đầu vào cụ thé. Các giá tri tac động đến quyết định một lưu lượng mạng đây là dữ liệu độc hại hay dữ liệu bình thường. Các tính năng tăng xác suất (bên phải) được thê hiện bằng màu đỏ, và ngược

lại, các tính năng giảm xác suât về bên trái có màu xanh.

Với mỗi giá trị shap trung bình khác nhau sẽ ảnh hưởng tới các quyết định làm

giảm hoặc tăng độ dự đoán. Như dự đoán Normal và DDOS giá trị shap của tính năng

của RST Flag Cnt càng cao sẽ tăng xác suất dự đoán và giá trị thấp của tinh năng Init Fwd Win Byts làm giảm xác suất. Với tan công DDOS attacks-LOIC-HOIC giá trị tính năng Init Fwd Win Byts day dự đoán lên cao.

higher = lower

s 0.5689 0.7689 5.96.1.00

DI) mm.

30 Flow Pkts/s = 1,205 | Fwd Pkts/s = 1,205 | Flow IAT Max = 1,660 l Flow Duration = 1,660 nit Fwd Win Byts = 3.274e+4

Hinh 4.20 Giai thich cuc b6 DDOS attack-HOIC

73

higher = lower

^2577 0.24477 A ones ^sa>> oe _ơơ=am<4

Dy CC CCC CCC "

ECE Flag Cnt = 1 | RST Flag Cnt = 1 Init Fwd Win Byts = 6.554e+4 | Fwd Act Data Pkts = 1 ` Pkt Len Max = 935 | Pkt Len Mean = 159.5 Pkt Len Std = 335.3 | Bwd Seg Size Avg = 233.8

Hinh 4.21 Giai thich cuc b6 DDOS attacks-LOIC-HTTP

Tinh năng ECE Flag Cnt - gói tin tránh tắc nghẽn, RST Flag Cnt — gói tin yêu cầu kết nói lại, Init Fwd Win Byts làm ảnh hưởng tới các xác suất dự đoán tấn công DDOS LOIC-HTTP. Thì với tan công DDOS LOIC-UDP tinh năng Pkt Size Avg — kích thước gói tin trung bình , Subflow Fwd Byts — sô lượng gói tin trung bình ảnh hưởng tới xác suất dự đoán. Có thé thấy với các tính năng ảnh hưởng đến cuộc tan công của hai giao thức TCP và UDP đều thể hiện phù hợp đặc điểm của giao thức.

higher = lower

f oe alue

0.0008802 0.00 0.005

Một phần của tài liệu Khóa luận tốt nghiệp An toàn thông tin: Phát triển hệ thống phát hiện xâm nhập có khả năng lý giải sử dụng máy học (Trang 72 - 82)

Tải bản đầy đủ (PDF)

(92 trang)