Để tăng cường độ chính xác cho việc phát hiện xâm nhập trái phép, cần tiến hành thực hiện trên các mô hình mạng học sâu với các tham số thử nghiệm khác nhau để lựa chọn ra bộ tham [r]
(1)Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 131 MỘT GIẢI PHÁP PHÁT HIỆN XÂM NHẬP TRÁI PHÉP
DỰA TRÊN PHƯƠNG PHÁP HỌC SÂU Vũ Đình Thu*, Trịnh Khắc Linh, Trần Đức Sự
Tóm tắt: Hệ thống phát xâm nhập (Instruction Detection System - IDS) một hệ thống dùng để phát công, xâm nhập mạng trái phép Việc cảnh báo cơng chủ yếu dựa mẫu sẵn có cảnh báo được cơng với mẫu chưa biết Bài báo trình bày hướng tiếp cận ứng dụng học sâu để phát hành vi bất thường hệ thống mạng bảo vệ Các thực nghiệm thực tập liệu KDD cup 99 cho thấy mạng học sâu hiệu phát hành vi bất thường
Từ khóa: Máy học; Deep learning; Xâm nhập; Mã độc; Bất thường, KDD 1 MỞ ĐẦU
Hệ thống phát xâm nhập (Instruction Detection System - IDS) hệ phân tích, phát cơng mạng, mã độc cho hệ thống mạng CNTT IDS phân biệt công từ bên hay công từ bên ngồi IDS phát cơng dựa mẫu công biết (giống cách phần mềm diệt virus dựa vào dấu hiệu đặc biệt để phát diệt virus Việc dựa phát dựa mẫu biết có hạn chế không phát loại công xuất Để phát loại công phát cần phải thực phân tích hành vi bất thường Việc phát công mạng dựa phân tích hành vi bất thường quan trọng việc phát loại công có chủ đích sử dụng loại mã độc với kỹ thuật tinh vi
Đã có có nhiều nghiên cứu liên quan đến phát xâm nhập bất thường mạng máy tính Về bản, hướng tiếp cận cho phát xâm nhập bất thường dựa vào đối sánh mẫu cách định nghĩa tập luật để làm mẫu so sánh đối chiếu với liệu mạng Gần đây, có nhiều nghiên cứu phát xâm nhập mạng bất thường dựa phương pháp học máy Nghiên cứu S Chung, K Kim [11] xây dựng kiểm thử mơ hình phát xâm nhập cách áp dụng tổ hợp nhiều thuật toán học máy support vector machine (SVM), decision tree, phân lớp Naive Bayesian Đồng thời có nghiên cứu sử dụng phân cụm K-mean để phát lưu lượng độc hại Nghiên cứu Shin [12] sử dụng dụng K-mean phân cụm khơng phân cấp để tìm tương đồng sau tìm tham số để phát công DdoS công sâu mạng Witty thời gian Nghiên cứu Hatim [13] xây dựng mơ hình học phát cơng mạng cách lai thuật toán K-mean với SVM
(2)Công nghệ thông tin
V Đ Thu, T K Linh, T Đ Sự, “Một giải pháp phát xâm nhập …học sâu.” 132
Trong báo trình bày việc áp dụng phương pháp học sâu sử dụng mơ hình mạng DNN (Deep neural networks) cho việc học phân lớp hành vi bất thường với tập liệu sử dụng KDD Cup 99
2 PHÂN LỚP CÁC HÀNH VI BẤT THƯỜNG SỬ DỤNG MẠNG DNN 2.1 Giới thiệu học sâu
Học sâu phạm trù nhỏ máy học, học sâu tập trung giải vấn đề liên quan đến mạng thần kinh nhân tạo nhằm nâng cấp công nghệ nhận diện giọng nói, thị giác máy tính xử lý ngôn ngữ tự nhiên Học sâu trở thành lĩnh vực thu hút quan tâm khoa học máy tính Chỉ vài năm, học sâu thúc đẩy tiến đa dạng lĩnh vực nhận thức vật (object perception), dịch tự động (machine translation), nhận diện giọng nói,… vấn đề khó khăn với nhà nghiên cứu trí tuệ nhân tạo
Học sâu lớp thuật toán máy học mà:
- Sử dụng tầng nhiều lớp đơn vị xử lý phi tuyến để trích tách đặc điểm chuyển đổi Mỗi lớp dùng đầu từ lớp trước làm đầu vào Các thuật tốn giám sát không cần giám sát ứng dụng bao gồm mơ hình phân tích (khơng có giám sát) phân loại (giám sát)
- Dựa học (khơng có giám sát) nhiều cấp đặc điểm đại diện liệu Các tính cao cấp bắt nguồn từ tính thấp cấp để tạo thành đại diện thứ bậc
- Học nhiều cấp độ đại diện tương ứng với mức độ trừu tượng khác mức độ hình thành hệ thống phân cấp khái niệm
Hình 1 Mơ hình mạng DNN (Deep Neural Network).
(3)Nghiên c
Tạp chí Nghi tế b ho neural thu đư lớp li thư
bài tốn 2.2
phân l xử lý tr Ở b hu Nghiên c
ạp chí Nghi ại tế b
hoạt (activation function)
Các neural đư
tuyến tính Các neural c neural thu
được truyền từ lớp đầu v ớp li
thường đ tốn 2.2 Phân l
Trong báo s phân l
ử lý tr Ở bư
ã hu Nghiên c
ạp chí Nghi ại tế b
ạt (activation function)
Các neural đư
ến tính Các neural c neural thu
ợc truyền từ lớp đầu v ớp liên ti
ờng đ tốn
Phân l
Trong báo s phân lớp theo quy tr
ử lý tr
ước kiểm thử, liệu kiểm thử đ ã huấn luyện để kiểm thử tr
Nghiên cứu khoa học công nghệ
ạp chí Nghi ại tế b
ạt (activation function)
Các neural đư
ến tính Các neural c neural thuộc lớp tr
ợc truyền từ lớp đầu v ên tiếp đ
ờng đư toán
Phân l
Trong báo s ớp theo quy tr
ử lý trước huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr ứu khoa học công nghệ
ạp chí Nghiên c ại tế bào Cu
ạt (activation function)
Các neural đư
ến tính Các neural c ộc lớp tr
ợc truyền từ lớp đầu v ếp đ
ược lựa chọn dựa tr tốn
Phân lớp h
Trong báo s ớp theo quy tr
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Hình 3
ứu khoa học công nghệ
ên cứu KH&CN Cu
ạt (activation function)
Các neural đư
ến tính Các neural c ộc lớp tr
ợc truyền từ lớp đầu v ếp kết nối nh
ợc lựa chọn dựa tr ớp h
Trong báo s ớp theo quy tr
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Hình 3
ứu khoa học công nghệ
ứu KH&CN Cuối ạt (activation function)
Các neural chia th ến tính Các neural c
ộc lớp tr ợc truyền từ lớp đầu v
ợc kết nối nh ợc lựa chọn dựa tr
ớp hành vi b Trong báo s
ớp theo quy tr
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Hình 3
ứu khoa học công nghệ
ứu KH&CN
ối cùng, tín hi ạt (activation function)
ợc chia th ến tính Các neural c
ộc lớp trước li ợc truyền từ lớp đầu v
ợc kết nối nh ợc lựa chọn dựa tr
ành vi b Trong báo s
ớp theo quy trình
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Quy trình phát hi ứu khoa học cơng nghệ
ứu KH&CN
cùng, tín hi ạt (activation function)
ợc chia th ến tính Các neural c
ớc li ợc truyền từ lớp đầu v
ợc kết nối nh ợc lựa chọn dựa tr
ành vi b Trong báo tr
ình
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Quy trình phát hi ứu khoa học cơng nghệ
ứu KH&CN quân s cùng, tín hi ạt (activation function)
Hình 2 ợc chia th ến tính Các neural c
ớc liên k ợc truyền từ lớp đầu vào đ ợc kết nối nh ợc lựa chọn dựa tr
ành vi bất th ẽ tr ình h
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử tr
Quy trình phát hi ứu khoa học cơng nghệ
n s cùng, tín hi
Hình 2 ợc chia thành l ến tính Các neural c
ên kết tới neural thuộc lớp liền sau Nh đến lớp đầu theo h
ợc kết nối th
ợc lựa chọn dựa góc nhìn ch ất thư
ẽ trình bày vi hình
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ấn luyện để kiểm thử t
Quy trình phát hi
uân sự, cùng, tín hi
Hình 2 ành l ến tính Các neural m
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ư n
ên góc nhìn ch
ường sử dụng mạng DNN ình bày vi
ình
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ên tập liệu v
Quy trình phát hi
ự, Số Đặc san
cùng, tín hiệu đầu neural đ
Hình 2 N ành l
ùng m
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ế n
ên góc nhìn ch
ờng sử dụng mạng DNN ình bày vi
3 Ở b
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đ
ập liệu v
Quy trình phát hi
ố Đặc san
ệu đầu neural đ
Nút ho
ành lớp (layer), lớp đ ùng m
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ế tùy theo toán c ên góc nhìn ch
ờng sử dụng mạng DNN ình bày việc áp dụng mô h
Ở b
ớc huấn luyện Các tham số mô h ớc kiểm thử, liệu kiểm thử đư
ập liệu v
Quy trình phát xâm nhập bất th
ố Đặc san
ệu đầu neural đ
út ho
ớp (layer), lớp đ ùng lớp không đ
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ào tùy theo tốn c ên góc nhìn ch
ờng sử dụng mạng DNN ệc áp dụng mô h
Ở bước huấn luyện, liệu huấn luyện đ ớc huấn luyện Các tham số mô h
ược tiền xử lý, v ập liệu v
ện xâm nhập bất th
ố Đặc san
ệu đầu neural đ
út hoạt động mạng DNN ớp (layer), lớp đ
ột lớp không đ
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ào tùy theo tốn c ên góc nhìn ch
ờng sử dụng mạng DNN ệc áp dụng mô h
ớc huấn luyện, liệu huấn luyện đ ớc huấn luyện Các tham số mô h
ợc tiền xử lý, v ập liệu v
ện xâm nhập bất th
ố Đặc san CNTT ệu đầu neural đ
ạt động mạng DNN ớp (layer), lớp đ
ột lớp không đ
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ào tùy theo tốn c ên góc nhìn chủ quan mô h
ờng sử dụng mạng DNN ệc áp dụng mô h
ớc huấn luyện, liệu huấn luyện đ ớc huấn luyện Các tham số mô h
ợc tiền xử lý, v ập liệu cho k
ện xâm nhập bất th
CNTT ệu đầu neural đ
ạt động mạng DNN ớp (layer), lớp đ
ột lớp không đ
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ào tùy theo toán c ủ quan mô h ờng sử dụng mạng DNN
ệc áp dụng mô h
ớc huấn luyện, liệu huấn luyện đ ớc huấn luyện Các tham số mô h
ợc tiền xử lý, v cho k
ện xâm nhập bất th
CNTT, 04 ệu đầu neural đ
ạt động mạng DNN ớp (layer), lớp đ
ột lớp không đ
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo h
ào tùy theo toán c ủ quan mô h ờng sử dụng mạng DNN
ệc áp dụng mô h
ớc huấn luyện, liệu huấn luyện đ ớc huấn luyện Các tham số mơ hình
ợc tiền xử lý, v
à cho kết đánh giá
ện xâm nhập bất th
04 - 20 ệu đầu neural đ
ạt động mạng DNN ớp (layer), lớp đ
ột lớp không đư
ết tới neural thuộc lớp liền sau Nh ến lớp đầu theo hư
ào tùy theo tốn c ủ quan mơ h ờng sử dụng mạng DNN
ệc áp dụng mơ hình m
ớc huấn luyện, liệu huấn luyện đ ình
ợc tiền xử lý, t
ết đánh giá
ện xâm nhập bất th
2019
ệu đầu neural biến đổi h
ạt động mạng DNN ớp (layer), lớp đ
ược kết ết tới neural thuộc lớp liền sau Nh
ướng Việc neural tùy theo toán cụ thể v
ủ quan mô h ờng sử dụng mạng DNN
ình m
ớc huấn luyện, liệu huấn luyện đ ình hu
à tải tham số mô h ết đánh giá
ện xâm nhập bất thường sử dụng học máy
9
ợc biến đổi h
ạt động mạng DNN
ớp (layer), lớp xếp theo thứ tự ợc kết
ết tới neural thuộc lớp liền sau Nh
ớng Việc neural ụ thể v
ủ quan mơ h
ình mạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ã hu
ải tham số mô h ết đánh giá
ờng sử dụng học máy ợc biến đổi h
ạt động mạng DNN.
ợc xếp theo thứ tự ợc kết
ết tới neural thuộc lớp liền sau Nh
ớng Việc neural ụ thể v
ủ quan mơ hình
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ã huấn luyện đ
ải tham số mô h ết đánh giá
ờng sử dụng học máy ợc biến đổi h
ợc xếp theo thứ tự nối với Một ết tới neural thuộc lớp liền sau Nh
ớng Việc neural ụ thể topo
ình đư
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ấn luyện đ
ải tham số mô h ết đánh giá
ờng sử dụng học máy ợc biến đổi h
ợc xếp theo thứ tự ối với Một ết tới neural thuộc lớp liền sau Nh
ớng Việc neural topo
được đề xuất cho
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ấn luyện đ
ải tham số mô h ết đánh giá
ờng sử dụng học máy ợc biến đổi h
ợc xếp theo thứ tự ối với Một ết tới neural thuộc lớp liền sau Như v
ớng Việc neural topo m
ợc đề xuất cho
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ấn luyện đư
ải tham số mô h
ờng sử dụng học máy ợc biến đổi h
ợc xếp theo thứ tự ối với Một tín hiệu ớng Việc neural mạng neural ợc đề xuất cho
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ược l ải tham số mô h
ờng sử dụng học máy ợc biến đổi hàm kích
ợc xếp theo thứ tự ối với Một ậy tín hiệu ớng Việc neural ạng neural ợc đề xuất cho
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đ
ợc lưu l ải tham số mô h
ờng sử dụng học máy
133 àm kích
ợc xếp theo thứ tự ối với Một ậy tín hiệu ớng Việc neural ạng neural ợc đề xuất cho
ạng DNN cho việc học ớc huấn luyện, liệu huấn luyện đư
ưu l ải tham số mô h
ờng sử dụng học máy.
133 àm kích
ợc xếp theo thứ tự ối với Một ậy tín hiệu ớng Việc neural ạng neural ợc đề xuất cho
ạng DNN cho việc học ược ưu lại ải tham số mơ hình
133 àm kích
ợc xếp theo thứ tự ối với Một ậy tín hiệu ớng Việc neural ạng neural ợc đề xuất cho
(4)134 số nh hàm ReL lan truy
1999 qu
(KDD Cup newdata) T 22 ki
trinh sát h (R2L) Chi ti
Aggarval, P., Sharma
3.1 X
nối đến giao thức TCP, chẳng hạn nh giao th
thư hệ thống làm th bi
liên quan đ
dữ liệu gồm có 41 thuộc tính nh
134
Trong quy trình trên, MODEL ố nh
là hàm ReL lan truy
B 1999
quản lý Trung tâm thí nghiệm MIT Lincoln) v (KDD Cup newdata) T
và 22 ki trinh sát h (R2L) Chi ti
Aggarval, P., Sharma
3.1 X D
ối đến giao thức TCP, chẳng hạn nh giao th
thường, các hoạt động tạo tập tin v ệ thống
Trong t làm th
biệt TCP, UDP ICMP, nghiên c liên quan đ
ữ liệu gồm có 41 thuộc tính nh Trong quy trình trên, MODEL ố sau:
là hàm ReL lan truy
Bộ liệu sử dụng: Trong phần thử nghiệm n 1999[5] đư
ản lý Trung tâm thí nghiệm MIT Lincoln) v (KDD Cup newdata) T
và 22 ki trinh sát h (R2L) Chi ti
Aggarval, P., Sharma
3.1 Xử lý liệu Dựa v
ối đến giao thức TCP, chẳng hạn nh giao thức, số l
ờng, các hoạt động tạo tập tin v ệ thống
Trong t
làm thực nghiệm Trong 10% liệu đ TCP, UDP ICMP, nghiên c liên quan đ
ữ liệu gồm có 41 thuộc tính nh Trong quy trình trên, MODEL
ư sau: hàm ReL lan truyền ng
ộ liệu sử dụng: Trong phần thử nghiệm n [5] đư
ản lý Trung tâm thí nghiệm MIT Lincoln) v (KDD Cup newdata) T
và 22 kiểu công khác đ trinh sát h
(R2L) Chi ti
Aggarval, P., Sharma
ử lý liệu ựa vào t
ối đến giao thức TCP, chẳng hạn nh ức, số l
ờng, các hoạt động tạo tập tin v ệ thống
Trong t
ực nghiệm Trong 10% liệu đ TCP, UDP ICMP, nghiên c liên quan đ
ữ liệu gồm có 41 thuộc tính nh Trong quy trình trên, MODEL
ư sau: l
là hàm ReLU cho l ền ng
ộ liệu sử dụng: Trong phần thử nghiệm n
[5] xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
(KDD Cup newdata) T
ểu công khác đ
trinh sát hệ thống (Probe), chiếm quyền hệ thống (U2L) v (R2L) Chi ti
Aggarval, P., Sharma
ử lý liệu t
ối đến giao thức TCP, chẳng hạn nh ức, số l
ờng, các hoạt động tạo tập tin v
Trong tập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c liên quan đến công mạng n
ữ liệu gồm có 41 thuộc tính nh
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
4 lớp ẩn (hidden layers) v U cho l
ền ngược
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
(KDD Cup newdata) T
ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v (R2L) Chi tiết thông tin liệu KDD Cup 99 đ Aggarval, P., Sharma
ử lý liệu
ào tập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ức, số lư
ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n ữ liệu gồm có 41 thuộc tính nh
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v U cho l
ợc
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
(KDD Cup newdata) T
ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ Aggarval, P., Sharma
ử lý liệu
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ượng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến cơng mạng n ữ liệu gồm có 41 thuộc tính nh
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v U cho l
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
(KDD Cup newdata) T
ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ Aggarval, P., Sharma
3 TH
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến cơng mạng n ữ liệu gồm có 41 thuộc tính nh
Bảng 1.
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v
U cho lớp ẩn[2] Đồng thời sử dụng tối
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
(KDD Cup newdata) Tập liệu bao gồm kiểu liệu b ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
[16] 3 TH
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n ữ liệu gồm có 41 thuộc tính nh
ảng 1.
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v
ớp ẩn[2] Đồng thời sử dụng tối
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
[16]
3 THỬ NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến cơng mạng n ữ liệu gồm có 41 thuộc tính nh
ảng 1.
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v
ớp ẩn[2] Đồng thời sử dụng tối
Hình 4
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n ữ liệu gồm có 41 thuộc tính nh
ảng 1. Bảng mơ tả thuộc tính tập dữ
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL
ớp ẩn (hidden layers) v
ớp ẩn[2] Đồng thời sử dụng tối
Hình 4
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ểu công khác đ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n ữ liệu gồm có 41 thuộc tính b
ảng mơ tả thuộc tính tập dữ
V Đ Thu, T K Linh, T Đ S Trong quy trình trên, MODEL l
ớp ẩn (hidden layers) v
ớp ẩn[2] Đồng thời sử dụng tối
Hình 4
ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ểu công khác đượ
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n
ư b
ảng mơ tả thuộc tính tập dữ
V Đ Thu, T K Linh, T Đ S l ớp ẩn (hidden layers) v
ớp ẩn[2] Đồng thời sử dụng tối
Hình 4 Các tham s ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ợc phân lo
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin v
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n
ư b
ảng mơ tả thuộc tính tập dữ
V Đ Thu, T K Linh, T Đ Sự, “ l
ớp ẩn (hidden layers) 100 node ớp ẩn[2] Đồng thời sử dụng tối
Các tham s ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b c phân lo
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t ờng, các hoạt động tạo tập tin m
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đ
là TCP, UDP ICMP, nghiên c ến công mạng n
ư b
ảng mô tả thuộc tính tập dữ
, “M m
à 100 node ớp ẩn[2] Đồng thời sử dụng tối
Các tham s ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b c phân lo
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t m
ập liệu KDD Cup 1999 thực chọn 10% số liệu n ực nghiệm Trong 10% liệu đào t
là TCP, UDP ICMP, nghiên cứu cho thấy giao thức n ến công mạng n
ư bảng d
ảng mơ tả thuộc tính tập dữ
Một giải pháp phát xâm nhập … mạng DNN đ
à 100 node ớp ẩn[2] Đồng thời sử dụng tối
Các tham s ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b c phân loại th
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn nh
ợng byte liệu, cờ để t
à số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ào tạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ến công mạng D ảng d
ảng mô tả thuộc tính tập dữ
ột giải pháp phát xâm nhập … ạng DNN đ
à 100 node ớp ẩn[2] Đồng thời sử dụng tối
Các tham số sử dụng ộ liệu sử dụng: Trong phần thử nghiệm n
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) v
ập liệu bao gồm kiểu liệu b ại th
ệ thống (Probe), chiếm quyền hệ thống (U2L) v ết thông tin liệu KDD Cup 99 đ
Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c ối đến giao thức TCP, chẳng hạn kho
ợng byte liệu, cờ để t
ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ào D ảng dư
ảng mơ tả thuộc tính tập dữ
ột giải pháp phát xâm nhập … ạng DNN đ
à 100 node ẩn (hidden units), h ớp ẩn[2] Đồng thời sử dụng tối
ố sử dụng ộ liệu sử dụng: Trong phần thử nghiệm s
ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph ản lý Trung tâm thí nghiệm MIT Lincoln) thư
ập liệu bao gồm kiểu liệu b ại thành l ệ thống (Probe), chiếm quyền hệ thống (U2L) v
ết thông tin liệu KDD Cup 99 đ Ử NGHIỆM, ĐÁNH GIÁ
ập liệu KDD99, lựa chọn thuộc tính c kho ợng byte liệu, cờ để tình tr
ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ào Dữ liệu đ ưới
ảng mơ tả thuộc tính tập dữ
ột giải pháp phát xâm nhập … ạng DNN đ
ẩn (hidden units), h ớp ẩn[2] Đồng thời sử dụng tối
ố sử dụng
ày sử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
à thư ập liệu bao gồm kiểu liệu b
ành l ệ thống (Probe), chiếm quyền hệ thống (U2L) v
ết thông tin liệu KDD Cup 99 đ Ử NGHIỆM, ĐÁNH GIÁ K
ập liệu KDD99, lựa chọn thuộc tính c kho
ình tr
ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ữ liệu đ ới
ảng mơ tả thuộc tính tập dữ
ột giải pháp phát xâm nhập … ạng DNN đư
ẩn (hidden units), h
ớp ẩn[2] Đồng thời sử dụng tối ưu Adam Optimizer[3] cho
ố sử dụng
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
à thường xuy ập liệu bao gồm kiểu liệu b
ành lớp: từ chối dịch vụ (DoS), ệ thống (Probe), chiếm quyền hệ thống (U2L) v
ết thông tin liệu KDD Cup 99 mô tả t KẾT QUẢ
ập liệu KDD99, lựa chọn thuộc tính c
ư khoảng thời gian kết nối, kiểu ình trạng lỗi kết nối h
ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ữ liệu đ ới ảng mô tả thuộc tính tập dữ
ột giải pháp phát xâm nhập …
ược áp dụng với tham ẩn (hidden units), h
ưu Adam Optimizer[3] cho
ố sử dụng
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
ờng xuy ập liệu bao gồm kiểu liệu b
ớp: từ chối dịch vụ (DoS), ệ thống (Probe), chiếm quyền hệ thống (U2L) v
ợc mô tả t ẾT QUẢ
ập liệu KDD99, lựa chọn thuộc tính b
ảng thời gian kết nối, kiểu ạng lỗi kết nối h
ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ữ liệu xử lý biến đổi th ảng mơ tả thuộc tính tập dữ
ột giải pháp phát xâm nhập …
ợc áp dụng với tham ẩn (hidden units), h
ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
ờng xuy ập liệu bao gồm kiểu liệu bình th
ớp: từ chối dịch vụ (DoS), ệ thống (Probe), chiếm quyền hệ thống (U2L) khai thác
ợc mô tả t ẾT QUẢ
ơ từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối h ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ợc xử lý biến đổi th ảng mô tả thuộc tính tập dữ
Cơng ngh
ột giải pháp phát xâm nhập …
ợc áp dụng với tham ẩn (hidden units), h
ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
ờng xuyên đư ình th
ớp: từ chối dịch vụ (DoS), khai thác
ợc mô tả t ẾT QUẢ
ản từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối h ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ợc xử lý biến đổi th ảng mô tả thuộc tính tập liệu KDD Cup 1999
Công ngh
ột giải pháp phát xâm nhập …
ợc áp dụng với tham ẩn (hidden units), h
ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
ên đư ình thư
ớp: từ chối dịch vụ (DoS), khai thác
ợc mô tả t ẾT QUẢ
ản từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối h ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ợc xử lý biến đổi th ệu KDD Cup 1999 Công ngh
ột giải pháp phát xâm nhập …
ợc áp dụng với tham ẩn (hidden units), hàm kích ho
ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc ph
ên cập nhật ường (normal) ớp: từ chối dịch vụ (DoS),
à khai thác ợc mô tả t
ản từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối h ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức n
ợc xử lý biến đổi th ệu KDD Cup 1999 Công nghệ thông tin
ột giải pháp phát xâm nhập …
ợc áp dụng với tham àm kích ho ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc xây dựng từ năm 1998 tổ chức DARPA (cục quốc phòng M
ợc cập nhật ờng (normal) ớp: từ chối dịch vụ (DoS),
à khai thác ợc mô tả tài li
ản từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối h ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ứu cho thấy giao thức đ
ợc xử lý biến đổi th ệu KDD Cup 1999
ệ thông tin
ột giải pháp phát xâm nhập …học sâu ợc áp dụng với tham
àm kích ho ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup òng M ợc cập nhật ờng (normal) ớp: từ chối dịch vụ (DoS), khai thác điểm yếu ài liệu
ản từ gói tin kết ảng thời gian kết nối, kiểu
ạng lỗi kết nối b ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu n
ạo KDD 99 có ba giao thức khác ày đ ợc xử lý biến đổi th
ệu KDD Cup 1999 ệ thông tin
ọc sâu ợc áp dụng với tham
àm kích ho ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup òng Mỹ v ợc cập nhật ờng (normal) ớp: từ chối dịch vụ (DoS), ểm yếu ệu
ản từ gói tin kết ảng thời gian kết nối, kiểu ặc bình ột số hoạt động cố gắng truy cập v ập liệu KDD Cup 1999 thực chọn 10% số liệu đ
ạo KDD 99 có ba giao thức khác ày có ợc xử lý biến đổi thành ệu KDD Cup 1999
ệ thông tin
ọc sâu.” ợc áp dụng với tham
àm kích hoạt ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ỹ ợc cập nhật ờng (normal) ớp: từ chối dịch vụ (DoS), ểm yếu ệu
ản từ gói tin kết ảng thời gian kết nối, kiểu ình ột số hoạt động cố gắng truy cập vào ày để ạo KDD 99 có ba giao thức khác ều có ành ệu KDD Cup 1999.
ệ thông tin
” ợc áp dụng với tham ạt ưu Adam Optimizer[3] cho
ử dụng tập liệu KDD Cup ợc cập nhật ờng (normal) ớp: từ chối dịch vụ (DoS), ểm yếu ệu
(5)Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 135
TT Tên thuộc tính Mơ tả Kiểu thuộc
tính
1 Duration Khoàng thời gian (số giây) kết nối Liên tục
2 protocol_type Kiểu giao thức ( TCP, UDP, ICMP) Rời rạc
3 Service Các dịch vụ mạng Rời rạc
4 Flag Tình trạng bình thường hay lỗi kết nối Rời rạc
5 src_bytes Số lượng byte liệu từ nguồn tới
đích Liên tục
6 dst_bytes số lượng byte liệu từ đích đến
nguồn Liên tục
7 Land kết nối đến máy chủ, ngược
lại Rời rạc
8 wrong_fragment Số sai phân mảnh Liên tục
9 Urgent Số lượng gói tin khẩn cấp Liên tục
10 Hot Số lượng “nóng” số Liên tục
11 num_failed_logins Số lần đăng nhập thất bại Liên tục
12 logged_in thành công, thất bại Rời rạc
13 num_compromised Số điều kiện thoả hiệp Liên tục
14 root_shell gốc đạt được, ngược lại Rời rạc
15 su_attempted quyền root, ngược lại Rời rạc
15 num_root Số root truy cập Liên tục
17 num_file_creations Số lượng tạo tập tin Liên tục
18 num_shells Số lượng cảnh báo Liên tục
19 num_access_files Số hoạt động tập tin kiểm soát
truy cập Liên tục
20 num_outbound_cmd Số lệnh gửi phiên ftp Liên tục
21 Is_host_login đăng nhập vào thuộc danh sách
nóng, ngược lại Rời rạc
22 Is_guest_login đăng nhập khách, ngược lại Rời rạc
23 Count Số lượng kết nối máy chủ
cùng giây Liên tục
24 srv_count Số lượng kết nối dịch vụ
trong giây Liên tục
25 serror_rate % kết nối “SYN” lỗi Liên tục
26 srv_serror_rate % kết nối “SYN” lỗi Liên tục
27 rerror_rate % kết nối “REJ” lỗi Liên tục
(6)Công nghệ thông tin
V Đ Thu, T K Linh, T Đ Sự, “Một giải pháp phát xâm nhập …học sâu.” 136
29 same_srv_rate % kết nối dịch vụ tương tự Liên tục
30 diff_srv_rate % kết nối đến dịch vụ khác
nhau Liên tục
31 srv_diff_host_rate % Các kết nối đến máy chủ khác
nhau Liên tục
32 dst_host_count Số lượng kết nối đến máy chủ nguồn Liên tục
33 dst_host_srv_count Số lượng kết nối từ nguồn đến đích Liên tục
34 dst_host_same_srv_rate % kết nối máy chủ đích đến nguồn
dịch vụ tương tự Liên tục
35 dst_host_diff_srv_rate % máy chủ kết nối từ đích đến nguồn
qua dịch vụ khác Liên tục
36 dst_host_same_srv_port
_rate
% kết nối máy chủ đích đến nguồn
dịch vụ tương tự qua cổng Liên tục
37 dst_host_srv_diff_host_r ate
% máy chủ kết nối từ đích đến nguồn
qua dịch vụ khác Liên tục
38 dst_host_serror_rate % kết nối máy chủ đích
“SYN” lỗi Liên tục
39 dst_host_srv_serror_rate % kết nối máy chủ đích đến
nguồn “SYN” lỗi Liên tục
40 dst_host_rerror_rate % kết nối máy chủ đích “REJ”
lỗi Liên tục
41 dst_host_srv_rerror_rate % kết nối máy chủ đích đến
nguồn “REJ” lỗi Liên tục
3.2 Công cụ cài đặt thử nghiệm
Trong phần cài đặt thử nghiệm, báo sử dụng thư viện Tensorflow để đặc tả tham số mạng DNN thực thử nghiệm khác
3.3 Kết thực nghiệm
Thực nghiệm 1: Thực nghiệm thực với liệu huấn luyện kích thước khác nhau, sử dụng số bước huấn luyện số bước huấn luyện: 200 bước
Bảng 2. Kết thực nghiệm Training
data
Accuracy Actual label mean
Predictions mean
Loss Precision Recall
(7)Nghiên cứu khoa học cơng nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 04 - 2019 137 Kết cho thấy, với tập liệu huấn luyện nhiều, độ xác thu cao
Thực nghiệm 2: Thực nghiệm với bước huấn luyện mạng khác
Bảng 3. Kết thực nghiệm
Steps Accuracy Actual
label mean
Prediction s mean
Loss Precision Recall
10 0.966054 0.803091 0.793278 0.979437 0.969294 0.989063 50 0.985246 0.803091 0.806325 0.738506 0.989256 0.992406 100 0.983908 0.895682 0.896582 0.739842 0.992421 0.999427 150 0.992664 0.803091 0.817657 0.468709 0.996986 0.99387 200 0.990855 0.803091 0.804048 0.183481 0.99881 0.989792
Kết cho thấy tăng số bước huấn luyện giá trị loss (độ lỗi) giảm tương ứng, độ xác tăng
Thực nghiệm 3: Thực nghiệm so sánh với số phương pháp khác sử dụng tập liệu “10% KDD”
Bảng 4. Kết thực nghiệm
Method Accuracy
Decision Tree ID3[9] 0.9386
Support vector machines[8] 0.9345
Navie Bayes[10] 0.983125
Deep Neural Networks 0.97989
Kết thực nghiệm cho thấy so sánh với phương pháp học máy khác, thử nghiệm phương pháp học sâu sử dụng mạng DNN cho độ xác cao hầu hết phương pháp, thấp không đáng kể so với phương pháp Navie Bayes
4 KẾT LUẬN