Ứng dụng deep learning trong phát hiện tấn công mạng

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 38 - 46)

Phát hiện xâm nhập đã được thay đổi thành một xu hướng mới trong ngành an ninh mạng hiện nay. Mục tiêu của IDS là xác định các hoạt động trong lưu lượng truy cập mạng máy tính bất thường và đưa ra cảnh báo khi một hoạt động đáng ngờ bị phát hiện. Mặc dù hầu hết các các kỹ thuật học tập, chẳng hạn như NN, mô hình mờ và Markov ẩn

Hidden Markov Model (HMM) đã đạt được thành tựu lớn trong IDS, từ việc có kiến trúc nông cho đến một số hạn chế trong xử lý dữ liệu lưu lượng mạng lớn. Ngoài ra, phương pháp học tập truyền thống không thể được áp dụng đúng cho các lớp học phức tạp hơn. Ngược lại, DL có các mô hình đã cho thấy hiệu suất vượt trội trong dữ liệu với quy mô lớn.

Ứng dụng thuật toán DL để phát hiện xâm nhập mạng xuất hiện từ năm 2011 khi Salama et al trình bày một sự bất thường của sơ đồ kết hợp phát hiện xâm nhập dựa trên kết hợp DBN và SVM để phân loại sự xâm nhập mạng thành hai kết quả: bình thường hoặc bị tấn công. DBN được xây dựng dựa trên các lớp RBM và được sử dụng như một phương pháp giảm tính năng theo sau bởi một bộ phân loại SVM. Các khung phát hiện xâm nhập hỗn hợp được đề xuất bao gồm ba các giai đoạn chính: tiền xử lý, giảm tính năng DBN và phân loại sự.

Giai đoạn một bao gồm tiền xử lý mà bản đồ đầu tiên mang tính biểu tượng các tính năng thành các giá trị số, sau đó chia tỷ lệ dữ liệu để nằm trong phạm vi [0, 1] và cuối cùng chỉ định tên tấn công cho một trong năm lớp, bình thường, DOS, U2R, R2L và Probe.

Trong giai đoạn hai, mạng DBN được sử dụng làm giảm kích thước phương pháp với BP để tăng cường dữ liệu đào tạo đầu ra đã giảm. Các cấu trúc BP-DBN của mạng DBN bao gồm hai lớp RBM, cái thấp hơn và cái cao hơn. Lớp dưới giảm hiệu quả dữ liệu từ 41 xuống 13 tính năng và dữ liệu cao hơn làm giảm dữ liệu từ 13 tính năng đến năm tính năng cuối cùng.

Cuối cùng, trong lớp học giai đoạn cuối, năm tính năng đầu ra được chuyển đến bộ phân loại SVM phân loại dữ liệu thử nghiệm thành bình thường hoặc tấn công. Trên mỗi hình thức của lược đồ DBN-SVM được đề xuất được thử nghiệm trên NSL-KDD tập dữ liệu và so sánh với DBN và SVM độc lập. Nó đã được cho thấy rằng độ chính xác của DBN-SVM được đề xuất là trên 90% cho các cài đặt phần trăm đào tạo khác nhau. Hơn nữa, hiệu suất quản lý DBN như một phương pháp giảm tính năng tốt hơn PCA, Tỷ lệ tăng và ChiSquare. Tuy nhiên, không có tỷ lệ dương tính giả hoặc tỷ lệ âm tính giả đã được báo cáo trong bài báo này cho thấy một điểm yếu đáng kể của kế hoạch đề xuất.

Gần đây, nhiều kỹ thuật phát hiện bất thường mạng đã được giới thiệu để phân biệt giữa sự bất thường và các hành vi bình thường để phát hiện các hoạt động không mong muốn hoặc đáng ngờ. Các phương pháp phát hiện bất thường có thể được phân loại thành ba các nhóm riêng biệt: (a) giám sát, (b) bán giám sát, và (c) không có người giám sát. Trong phát hiện bất thường có giám sát, một tập hợp huấn luyện gồm các mẫu được dán nhãn có sẵn cho cả lớp bình thường và bất thường. Trong phát hiện bất thường bán giám sát, tập hợp đào tạo chỉ chứa các trường hợp được gắn nhãn của lớp bình thường. Bất cứ điều gì không thể được được đặc trưng như bình thường do đó được đánh dấu là bất thường. Không có phát hiện bất thường xuyên qua, không có tập hợp đào tạo được gắn nhãn nào khả dụng không phải cho lớp bình thường cũng không cho lớp bất thường. Các chất lượng của nhiệm vụ phân loại phụ thuộc trực tiếp vào đào tạo mô hình mà mô hình phân loại

sự kiện bất thường xuất hiện ít thường xuyên hơn những dữ liệu bình thường và dữ liệu dị thường được gắn nhãn trong thế giới thực không có sẵn. Do đó, các hệ thống phát hiện bất thường phải không bị hạn chế bởi bất kỳ tập hợp dị thường nào được xác định trước và nên linh hoạt nhất có thể để phân loại bất kỳ sự kiện nào chưa biết. Tới cái này kết thúc, một hệ thống phát hiện bất thường bán giám sát dựa trên RBM được đề xuất bởi Fiore et al nơi đào tạo trình phân loại với dữ liệu lưu lượng truy cập mạng thông thường. Do đó, kiến thức về các hành vi có thể phát triển một cách năng động. Lợi thế của điều này mô hình phân biệt đối xử là tính hiệu quả của nó trong việc đối phó với zero-day các cuộc tấn công vì chúng không bị giới hạn bởi bất kỳ kiến thức nào trước đó. RBM là một trình phân loại tổng quát nhằm thu thập càng nhiều biến thể tiềm năng của các yếu tố đầu vào để mô tả dữ liệu đầu vào. Ngược lại, RBM phân biệt đối xử (DRBM) tập trung vào việc kết hợp mô tả quyền hạn với khả năng phân loại nhạy bén. Để làm cho một RBM hoạt động theo cách có giám sát. Fiore et al đã giới thiệu một đầu vào bổ sung chứa các mục tiêu. Do đó, tập dữ liệu sẽ được cấu trúc như chuỗi các cặp ( v, y ) trong đó v là vectơ đầu vào và y là đầu raa lớp y ∈

1 , . . . , C . Trong DRBM, p ( y | v ) được tối ưu hóa thay vì khớp phân phối,

tức là, p ( y, v ) để cung cấp hiệu suất tốt hơn và cao hơn độ chính xác phân loại. Một tập hợp các thí nghiệm được thực hiện trên hai giao thông trong thế giới thực, cái đầu tiên là lưu lượng truy cập bình thường trên một máy chủ trong khi cái còn lại bị nhiễm bởi bot. Trong thử nghiệm đầu tiên, mục tiêu là kiểm tra độ chính xác của DRBM để nhận ra lưu lượng truy cập trên dữ liệu thực. Trong thử nghiệm thứ hai, DRBM được đào tạo với tập dữ liệu KDD'99 huấn luyện 10% và được kiểm tra so với thực tế dữ liệu. Trong các thử nghiệm, 28 trong số 41 tính năng được sử dụng, liên quan đến lưu lượng mạng. Tập dữ liệu KDD'99 chứa 494.021 hồ sơ dữ liệu tấn công trong tập huấn luyện, 11.850 trong tập thử nghiệm, và 41 thuộc tính được sử dụng để đánh giá hiệu suất của đề xuất Mô hình IDS. Kết quả thực nghiệm chứng minh rằng sẽ có một giảm đáng kể hiệu suất phân loại khi môi trường của dữ liệu thử nghiệm rất khác với mạng từ đó dữ liệu đào tạo được trích xuất. Do đó, một số nhiều cuộc điều tra hơn nên được thực hiện về bản chất của sự bất thường lưu lượng truy cập và sự khác biệt của nó với lưu lượng truy cập thông thường.

Năm 2014, GAO et al trình bày một phát hiện xâm nhập khung dựa trên DBN sẽ được đào tạo trong ba giai đoạn. Đầu tiên các tính năng thuộc tính biểu tượng trong tập dữ liệu KDD'99 được số hóa và sau đó được chuẩn hóa. Thứ hai, DBN được đào tạo trước về tiêu chuẩn dữ liệu để tìm hiểu một đống RBM bằng thuật toán CD. Đầu ra đại diện tính năng của mỗi RBM được sử dụng làm dữ liệu đầu vào cho đào tạo RBM tiếp theo trong ngăn xếp. Cuối cùng sau khi đào tạo trước, DBN được tinh chỉnh bằng cách sử dụng BP của các dẫn xuất lỗi, trọng lượng và độ lệch của mỗi lớp được hiệu chỉnh. Sau khi đào tạo DBN có thể được sử dụng như một bộ phân loại IDS. Thử nghiệm lại kết thúc khuôn khổ DBN được triển khai với nhiều RBM và đào tạo trước được chứng minh là có hiệu suất tốt hơn so với với thuật toán SVM hoặc NN (tỷ lệ phát hiện khoảng 93,49% và 0,76% tỷ lệ dương tính giả) với kiến trúc DBN tốt nhất là 122-150- 90-50- 5. Tuy nhiên, không đủ tinh chỉnh tham số được thực hiện cho số lượng lớp và tế bào thần kinh. Hơn nữa, tập dữ liệu KDD'99 là một tập dữ liệu cũ với nhiều thiếu sót và do đó không phải là một sự lựa chọn để đánh giá mô hình DL.

Cuối năm 2015, Li et al đề xuất một mã độc kết hợp mô hình phát hiện dựa trên AE và DBN. AE được sử dụng cho dữ liệu giảm kích thước và DBN được sử dụng như một phân loại tốt hơn. Đầu tiên, mẫu đào tạo đầu vào được số hóa và chuẩn hóa là giai đoạn tiền xử lý. Sau đó, AE được sử dụng để giảm mensionality và ánh xạ tính năng. Kết quả là vectơ sau đó được sử dụng để cung cấp bộ phân loại DBN. Để đào tạo DBN, ngăn xếp RBM được sử dụng dựa trên các quy tắc học cụ thể của chúng. Cuối cùng, thuật toán BP được giám sát được áp dụng để tinh chỉnh trọng số và độ lệch của toàn bộ mạng. Để đánh giá hiệu quả hiệu quả của phương pháp đã trình bày, các mẫu thử nghiệm được cung cấp cho trình phân loại được đào tạo để xác định mã độc hại từ một. Các tác giả đã thực hiện các mô hình khác nhau không có số lần lặp lại đào tạo trước và điều chỉnh, bao gồm: AE + DBN 5−5 (năm lần đào tạo trước và năm lần phạt điều chỉnh lặp lại), AE + DBN 10−10 (10 lần luyện tập trước và 10 lần số lần lặp lại tinh chỉnh) và AE + DBN 10−5 (10 lần trước đào tạo và năm lần lặp lại tinh chỉnh), so sánh toàn bộ mô hình với DBN đơn giản. Kết quả thực

( AE + DBN 10−10 ), dẫn đến độ chính xác cao hơn (tăng gần 1%) và dương tính giả thấp hơn tỷ lệ (giảm gần 8%).

Trong cùng năm, Yang et al đã giới thiệu một khóa SVM-RBM bộ định âm để phát hiện sự bất thường của mạng. Dựa trên RBM, mô hình đào tạo SVM với thuật toán Stochastic Gradient Descent (SGD) để thực hiện phân loại. Trong mô hình được đề xuất, các tính năng là được trích xuất bởi RBM để tìm hiểu các biểu diễn tính năng cấp cao. Sau đó, bộ phân loại SVM được sử dụng để phát hiện các điểm bất thường. Con số của các đơn vị ẩn sẽ thay đổi trong quá trình trích xuất tính năng thuế. Khi có được một số tính năng mong muốn, mô hình SVM được đào tạo bằng cách sử dụng thuật toán SGD và chức năng Hinge Loss. Các các tác giả đã sử dụng chức năng này để giải quyết vấn đề ngoại lệ được gây ra bởi SVM và sử dụng thuật toán SGD để đào tạo mô hình. Để tăng tốc thời gian chạy của mô hình, SGD algorithm được thực hiện với Spark theo một cách song song. Đề xuất cách tiếp cận, SVM-RBM, được so sánh với một số phân loại nổi tiếng đầu tiên, chẳng hạn như DT, NB và NN về độ chính xác và điểm F1 . Kết quả thử nghiệm trên 20 GB dữ liệu lưu lượng truy cập thực cho thấy rằng SVM-RBM có độ chính xác và điểm F1 cao hơn so với những người khác. Các tác giả cũng khám phá số lượng các đơn vị ẩn để cải thiện hiệu suất của SVM-RBM. Họ kết luận rằng khi số ber của các đơn vị ẩn lớn hơn 220 , độ chính xác của SVM-RBM tăng lên gần 90%. Hơn nữa, ảnh hưởng của việc học tỷ lệ cho thuật toán SGD đã được nghiên cứu. Nếu tỷ lệ học tập là nhỏ, sẽ mất rất nhiều thời gian để hội tụ đến giá trị mong muốn. Mặt khác, khi tỷ lệ học tập lớn, tối ưu giải pháp sẽ bị bỏ qua nhưng tốc độ hội tụ sẽ nhiều nhanh hơn. Họ đã đạt được giá trị tối ưu 0,1 cho việc học tỷ lệ. Mặc dù độ chính xác lên đến 90% đối với 500 MG – 1 GB của mẫu, điểm F1 của SVM-RBM được đề xuất đạt tối đa 81% cho các kích thước đào tạo khác nhau từ 100MG - 1 GB ngụ ý tỷ lệ âm tính giả có thể có. Vào đầu năm 2016, Kim et al đã áp dụng LSTM cho RNN để xây dựng mô hình IDS. Để thực hiện, các tác giả sử dụng softmax cho lớp đầu ra và SGD cho một trình tối ưu hóa. Các sau đó mô hình được đào tạo bằng cách sử dụng tập dữ liệu KDD'99. Tỷ lệ học tập và kích thước lớp ẩn được xác định bằng cách tiến hành các thử nghiệm cho các giá trị khác nhau và lựa chọn những giá trị thích hợp. Để thử nghiệm, au-Thors tạo 10 bộ dữ liệu thử nghiệm và đo lường hiệu suất. Các so sánh với các bộ phân loại

IDS khác cho thấy rằng LSTM-RNN có chỉ có độ chính xác cao hơn khoảng 0,27% so với Mạng thần kinh xác suất (PNN) và tỷ lệ báo động sai không thể chấp nhận được là 10%, khoảng 4–7% cao hơn so với PNN, RBNN và SVM.

Kết hợp một quan điểm khác, Dong et al. đã đề cập đến các phương pháp ML khác nhau trên tập dữ liệu KDD'99 để phân loại lưu lượng mạng và phân biệt lưu lượng bình thường với các cuộc tấn công, tức là, DOS, Probe, U2R và R2L. Họ áp dụng thiểu số tổng hợp Kỹ thuật lấy mẫu quá mức (SMOTE) để giải quyết vấn đề mất cân bằng trong tập dữ liệu. Sau đó, họ so sánh ML truyền thống các phương pháp, chẳng hạn như NB, SVM và DT (C4.5) với SVM-RBM trong điều khoản của độ chính xác. Kết quả cho thấy SVM-RBM tạo ra kết quả tốt nhất so với cách học nông cổ điển khác kiến trúc. Tuy nhiên, độ chính xác tối đa của SVM-RBM được thu thập trên 80% các mẫu đào tạo, trong đó 82% đối với DOS tấn công, 58% cho cuộc tấn công U2R và 42% cho R2L, thấp hơn đáng kể giá trị so với các phương pháp tiếp cận hiện đại nhất trong lĩnh vực này. Hơn nữa, bất kỳ biện pháp nào khác, chẳng hạn như tỷ lệ dương tính giả, sai tỷ lệ âm, thu hồi hoặc điểm F1 không được cung cấp trong phân tích phần. Nhìn chung, phương pháp này không đóng góp bất kỳ giá trị gia tăng nào cho cộng đồng nghiên cứu.

Liu và cộng sự đề xuất một mô hình phát hiện xâm nhập bằng cách sử dụng IDBN là một mô hình DL được cải tiến dựa trên Extreme Learning Máy (ELM). Đầu tiên, các tính năng biểu tượng được số hóa và chuẩn hóa. Sau đó, ELM được áp dụng cho DBN. Sau đó, họ so sánh mô hình được đề xuất với các DBN truyền thống hiện có trên Bộ dữ liệu NSL-KDD cải thiện tỷ lệ phát hiện lên đến khoảng 1% nhưng tăng gấp đôi tốc độ đào tạo. Chỉ số đánh giá duy nhất họ đã áp dụng là tỷ lệ phát hiện, làm mất hiệu lực đề xuất của họ tiếp cận.

Potluri và cộng sự sử dụng kiến trúc DN tăng tốc với ba lớp ẩn để xác định các bất thường về dữ liệu mạng. Để nâng cao hiệu quả của kiến trúc DN, họ đào tạo trước nó sử dụng AE, được gọi là đào tạo cấp tốc. Nó được thực hiện trong ba giai đoạn: (a) bước đào tạo trước để đào tạo một chuỗi các AE nông một tại một thời điểm, sử dụng dữ liệu không được

chỉnh toàn bộ mạng bằng cách sử dụng dữ liệu trực quan. Để phân tích hiệu suất của cơ chế phát hiện, bộ dữ liệu NSL-KDD được sử dụng với tất cả 41 tính năng cho máy tính thời gian đào tạo và độ chính xác. Độ chính xác phát hiện cao khi chỉ có hai lớp đánh thường và tấn công được xem xét, trong khi do thiếu dữ liệu đầy đủ để đào tạo, U2R và R2L không được cung cấp tected và điều này làm giảm độ chính xác phát hiện tổng thể của DNN- dựa trên IDS.

Sử dụng DNN, một hệ thống phát hiện bất thường dựa trên luồng trong phần mềm mạng xác định (SDN) được đề xuất bởi Tang et al. Các kiến trúc DNN bao gồm một lớp đầu vào, ba lớp ẩn, và một lớp đầu ra. Bản thân các lớp ẩn chứa 12, sáu, và ba tế bào thần kinh mỗi bên. Kích thước của đầu vào và đầu ra lớp tương ứng là sáu và hai. Trong các thử nghiệm,

Một phần của tài liệu ĐB tính riêng tư cho mô hình DL (Trang 38 - 46)

Tải bản đầy đủ (DOCX)

(85 trang)
w