Các kỹ thuật máy học kết hợp

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1. Các kỹ thuật máy học

2.1.2. Các kỹ thuật máy học kết hợp

2.1.2.1. Bagging

Hình 2.6. Kỹ thuật Bagging.

Hình 2.6 mơ tả chi tiết kỹ thuật Bagging, kỹ thuật này được xem như là một phương pháp tổng hợp kết quả cĩ được từ các Bootstrap. Tư tưởng chính của phương pháp này như sau: Cho một Tập dữ liệu huấn luyện D={(xi, yi): i=1, 2, …, N} và giả sử chúng ta muốn cĩ một dự đốn nào đĩ đối với biến x.

Một mẫu gồm m tập dữ liệu, mỗi tập dữ liệu gồm n phần tử được chọn lựa ngẫu nhiên từ D với sự thay thế (giống như bootstrap). Do đĩ T=(T1, T2, …, Tm) trơng giống như là một tập các Tập dữ liệu huấn luyện được nhân bản;

Huấn luyện một máy hoặc một mơ hình đối với mỗi tập Ti (i=1, 2, …, m) và lần lượt thu thập các kết quả dự báo cĩ được Pi trên mỗi tập Ti;

Kết quả tổng hợp cuối cùng được tính tốn bằng cách trung bình hĩa (regression) hoặc thơng qua số phiếu bầu nhiều nhất (voting).

Hình 2.7. Kỹ thuật Boosting.

Khác với phương pháp Bagging, xây dựng bộ kiểu tấn cơng kết hợp với các ví dụ huấn luyện cĩ trọng số bằng nhau, phương pháp Boosting xây dựng bộ kiểu tấn cơng kết hợp với các ví dụ huấn luyện cĩ trọng số khác nhau. Sau mỗi bước lặp, các ví dụ huấn luyện được dự đốn sai sẽ được đánh trọng số tăng lên, các ví dụ huấn luyện được dự đốn đúng sẽ được đánh trọng số nhỏ hơn. Điều này giúp cho Boosting tập trung vào cải thiện độ chính xác cho các ví dụ được dự đốn sai sau mỗi bước lặp. Hình 8 mơ tả chi tiết kỹ thuật này.

Một thuật tốn Boosting ban đầu được định nghĩa là một thuật tốn dùng để chuyển một thuật tốn máy học yếu thành một thuật tốn máy học mạnh. Cĩ nghĩa là nĩ chuyển một thuật tốn máy học giải quyết một bài tốn kiểu tấn cơng nhị phân tốt hơn cách giải chọn ngẫu nhiên thành một thuật tốn giải quyết rất tốt bài tốn đĩ. Thuật tốn Boosting ban đầu của Schapire là một thuật tốn đệ quy. Tại bước cuối của đệ quy, nĩ kết hợp các giả thuyết được tạo bởi thuật tốn máy học yếu. Xác suất lỗi của bộ kết hợp này được chứng minh là nhỏ hơn xác suất lỗi của các giả thuyết yếu.

Adaboost là một thuật tốn kết hợp một tập các bộ kiểu tấn cơng được làm đa dạng bằng việc chạy thuật tốn máy học với phân bố khác nhau trên Tập dữ liệu huấn luyện.

2.1.2.3. Stacking

Stacking là một cách để kết hợp nhiều mơ hình, giới thiệu khái niệm bộ kiểu tấn cơng meta. Nĩ ít được sử dụng rộng rãi hơn so với Bagging và Boosting. Khơng

giống như Bagging và Boosting, Stacking cĩ thể được sử dụng để kết hợp các mơ hình khác nhau. Quá trình thực hiện như sau:

(1). Chia Tập dữ liệu huấn luyện thành hai bộ tách rời. (2). Huấn luyện các bộ kiểu tấn cơng cơ sở ở phần đầu. (3). Kiểm tra bộ kiểu tấn cơng cơ sở ở phần thứ hai.

(4). Sử dụng kết quả dự đốn ở (3) như là đầu vào và kết quả kiểu tấn cơng đúng như là kết quả đầu ra để huấn luyện một bộ kiểu tấn cơng meta (Meta - Classifier). Trong Stacking, cơ chế kết hợp là đầu ra của các bộ kiểu tấn cơng (các bộ kiểu tấn cơng cấp 0) sẽ được sử dụng làm dữ liệu huấn luyện cho một bộ kiểu tấn cơng khác (bộ kiểu tấn cơng cấp 1) để cho ra kết quả dự báo đúng nhất. Về cơ bản, chúng ta cho phép bộ kiểu tấn cơng cấp 1 (bộ kiểu tấn cơng meta) tự tìm ra cơ chế kết hợp tốt nhất các bộ kiểu tấn cơng cấp 0. Hình 2.8 mơ tả chi tiết kỹ thuật này, kết quả dự đốn ở các bộ kiểu tấn cơng cơ sở Pi (i=1, 2, …, m) như là đầu vào của bộ kiểu tấn cơng meta và kết quả kiểu tấn cơng đúng như là kết quả đầu ra để huấn luyện bộ kiểu tấn cơng meta (Meta - Classifier).

Hình 2.8. Kỹ thuật Stacking với bộ kiểu tấn cơng meta.

2.1.3. Các kỹ thuật học sâu (deep learning)

Mơ hình học tập sâu bao gồm các mạng sâu đa dạng. Trong số đĩ, Mạng niềm tin sâu (Deep Brief Network - DBN), mạng nơ-ron sâu (Deep Neural Network - DNN), mạng nơ-ron tích chập (Convolutional Neural Network - CNN) và mạng nơ-ron hội

quy (Recurrent Neural Network - RNNs) là các mơ hình học tập được giám sát, trong khi các bộ tự động, máy hạn chế Boltzmann (Restricted Boltzmann Machine - RBMs), mạng sáng tạo đối nghịch (Generative Adversarial Network - GAN) là mơ hình học tập khơng giám sát. Số lượng nghiên cứu về IDS dựa trên học tập sâu đã tăng nhanh từ năm 2015 đến nay. Các mơ hình học sâu trực tiếp học các biểu diễn thuộc tính từ dữ liệu gốc, chẳng hạn như hình ảnh và văn bản, mà khơng yêu cầu kỹ thuật thuộc tính thủ cơng. Do đĩ, các phương pháp học sâu cĩ thể thực hiện theo cách từ đầu đến cuối. Đối với các bộ dữ liệu lớn, phương pháp học sâu cĩ lợi thế đáng kể so với các mơ hình máy học đơn.

2.1.3.1. Bộ mã tự động - Autoencoder.

Bộ mã tự động chứa hai thành phần đối xứng, bộ mã hĩa và bộ giải mã, như trong Hình 2.9. Bộ mã hĩa trích xuất các thuộc tính từ dữ liệu thơ và bộ giải mã tái tạo dữ liệu từ các thuộc tính được trích xuất. Trong q trình đào tạo, sự khác biệt giữa đầu vào của bộ mã hĩa và đầu ra của bộ giải mã giảm dần. Khi bộ giải mã thành cơng trong việc tái cấu trúc dữ liệu thơng qua các thuộc tính được trích xuất, điều đĩ cĩ nghĩa là các thuộc tính được trích xuất bởi bộ mã hĩa đại diện cho bản chất của dữ liệu. Điều quan trọng cần lưu ý là tồn bộ quá trình này khơng yêu cầu thơng tin được giám sát. Nhiều biến thể bộ mã hĩa tự động nổi tiếng tồn tại, chẳng hạn như bộ khử nhiễu tự động [6] [7] và bộ tự động thưa thớt [8].

Hình 2.9. Cấu trúc của một mã tự động.

2.1.3.2. Mạng nơ-ron tích chập (Convolutional Neural Network - CNN)

CNN được thiết kế để bắt chước hệ thống thị giác của con người (human visual system - HVS); do đĩ, CNN đã đạt được những thành tựu to lớn trong lĩnh vực thị giác

máy tính [9] [10] [11]. Một CNN được xếp chồng lên nhau với các lớp chập và gộp chung, như trong Hình 2.10. Các lớp chập được sử dụng để trích xuất các thuộc tính và các lớp gộp được sử dụng để tăng cường tính tổng quát của thuộc tính. Các CNN hoạt động trên dữ liệu 2 chiều (2D), do đĩ dữ liệu đầu vào phải được dịch thành ma trận để phát hiện tấn cơng.

Hình 2.10. Cấu trúc của CNN

2.1.3.3. Mạng nơ-ron hội quy (Recurrent Neural Network - RNN).

RNN là các mạng được thiết kế cho dữ liệu tuần tự và được sử dụng rộng rãi trong xử lý ngơn ngữ tự nhiên (natural language processing -NLP). Các đặc điểm của dữ liệu tuần tự là theo ngữ cảnh; phân tích dữ liệu bị cơ lập từ chuỗi khơng cĩ ý nghĩa. Để cĩ được thơng tin theo ngữ cảnh, mỗi đơn vị trong RNN khơng chỉ nhận trạng thái hiện tại mà cả trạng thái trước đĩ. Cấu trúc của một RNN được hiển thị trong Hình 2.11. Trong đĩ tất cả các mục W trong Hình 2.11 đều giống nhau. Đặc tính này làm cho RNN thường bị biến mất hoặc nổ độ dốc. Trong thực tế, các RNN tiêu chuẩn chỉ xử lý các chuỗi cĩ độ dài giới hạn. Để giải quyết vấn đề phụ thuộc dài hạn, nhiều biến thể RNN đã được đề xuất, chẳng hạn như bộ nhớ ngắn hạn (LSTM), tái phát cĩ kiểm sốt đơn vị (GRU) và bi-RNN.

Hình 2.11. Cấu trúc của RNN.

Mơ hình LSTM được đề xuất bởi Hochreiter và Schmidhuber vào năm 1997. Mỗi đơn vị LSTM chứa ba cổng: cổng quên, cổng đầu vào và cổng đầu ra. Cổng quên giúp loại bỏ bộ nhớ lỗi thời, cổng đầu vào nhận dữ liệu mới và cổng đầu ra kết hợp bộ nhớ ngắn hạn với bộ nhớ dài hạn để tạo trạng thái bộ nhớ hiện tại. GRU được đề xuất bởi Chung và cộng sự năm 2014. Mơ hình GRU hợp nhất cổng quên và cổng đầu vào thành một cổng cập nhật duy nhất, đơn giản hơn LSTM.

2.2. Tập dữ liệu sử dụng cho các IDS

Nhiệm vụ của học máy là trích xuất thơng tin cĩ giá trị từ dữ liệu; do đĩ, hiệu suất của học máy phụ thuộc vào chất lượng của dữ liệu đầu vào. Hiểu dữ liệu là cơ sở của phương pháp học máy. Đối với IDS, dữ liệu được chấp nhận phải dễ dàng cĩ được và phản ánh các hành vi của máy chủ hoặc mạng. Các kiểu dữ liệu nguồn phổ biến cho IDS là các gĩi, luồng, phiên và nhật ký. Xây dựng một bộ dữ liệu là phức tạp và tốn thời gian. Sau khi một bộ dữ liệu điểm chuẩn được xây dựng, nĩ cĩ thể được sử dụng lại nhiều lần bởi nhiều nhà nghiên cứu. Ngồi sự thuận tiện, cĩ hai lợi ích khác của việc sử dụng bộ dữ liệu điểm chuẩn.

(1) Các bộ dữ liệu điểm chuẩn cĩ thẩm quyền và làm cho kết quả thử nghiệm trở nên thuyết phục hơn.

(2) Nhiều nghiên cứu được cơng bố đã được thực hiện bằng cách sử dụng bộ dữ liệu điểm chuẩn chung, cho phép so sánh kết quả nghiên cứu mới với kết quả nghiên cứu mới nghiên cứu trước đây.

Hình 2.12. Tập dữ liệu đang được sử dụng trong nghiên cứu IDS từ 2015 - 2018 Tập dữ liệu NSL-KDD được phát triển vào năm 2009, nhưng nĩ thực sự là Tập dữ liệu NSL-KDD được phát triển vào năm 2009, nhưng nĩ thực sự là phiên bản cải tiến của tập dữ liệu KDDCup99. NSL-KDD cố gắng cải thiện tập dữ liệu KDDCup99 bằng cách xĩa các bản ghi dư thừa, bao gồm số lượng ví dụ mất cân bằng và sự đa dạng của các lớp tấn cơng [12]. Tuy nhiên, nĩ vẫn kế thừa giới hạn cơ bản của tập dữ liệu.

KDDCup99 cĩ nhiều nhược điểm. Đầu tiên, tập dữ liệu này được phát triển vào năm 1999 bằng cách sử dụng hệ điều hành dựa trên Solaris để thu thập một loạt dữ liệu do triển khai dễ dàng. Tuy nhiên, cĩ những khác biệt đáng kể trong các hệ điều hành ngày nay gần giống với Solaris. Trong thời đại của Ubuntu, Windows và MAC, Solaris gần như khơng cĩ thị phần.

Thứ hai, trình thu thập lưu lượng được sử dụng trong tập dữ liệu KDD, TCPdump, rất cĩ khả năng bị quá tải và làm rơi các gĩi từ tải lưu lượng lớn. Quan trọng hơn, cĩ một số nhầm lẫn về phân phối tấn cơng của các tập dữ liệu này. Theo phân tích tấn cơng, thăm dị khơng phải là một cuộc tấn cơng trừ khi số lần lặp vượt quá một ngưỡng cụ thể, trong khi sự khơng nhất quán nhãn đã được báo cáo [13].

Thứ ba, sự xuất hiện của các cơng nghệ mới như điện tốn đám mây, phương tiện truyền thơng xã hội và internet vạn vật đã thay đổi mạnh mẽ cơ sở hạ tầng mạng. Những thay đổi này cũng sẽ dẫn đến các loại mối đe dọa mới.

23%

38% 6%

23%

21%

Hai tập dữ liệu phổ biến khác là ISCX 2012 và UNSW-NB15. ISCX 2012 là tập dữ liệu được tạo bởi Trung tâm bảo mật thơng tin xuất sắc (ISCX) tại Đại học New Brunswick vào năm 2012. Tập dữ liệu này bao gồm bảy ngày dữ liệu với nhãn mác bình thường (một) hoặc tấn cơng (hai). Tập dữ liệu khơng cĩ phân loại các loại tấn cơng, do đĩ nĩ sẽ chỉ cung cấp phân loại nhị phân. Tuy nhiên, tập dữ liệu này khơng cịn cĩ sẵn. Điều này là do trung tâm đã tạo ra một tập dữ liệu mới, được gọi là CICIDS2017 [14].

Một tập dữ liệu phổ biến khác là UNSW-NB15, tập dữ liệu này được tạo bởi Trung tâm An ninh mạng (ACCS) của Úc bằng cách sử dụng IXIA PerfectStorm để tạo ra chín loại tấn cơng. Chín loại tấn cơng này là fuzzers, analysis, backdoors, DoS, exploits, generic, reconnaissance, shellcode và worms. Tập dữ liệu cĩ tổng cộng 47 thuộc tính với hai nhãn. Nhãn đầu tiên được đặt tên là ‘label’, trong đĩ số 0 biểu thị bình thường và 1 biểu thị cho một cuộc tấn cơng. Nhãn thứ hai được đặt tên là ‘attack_cat’, cung cấp loại tấn cơng [15].

2.3. Chỉ số đánh giá hiệu năng các IDS

Chỉ số đánh giá là số liệu định lượng nhằm đo hiệu suất thuật tốn ML đối với tập dữ liệu cụ thể. Nĩ cung cấp một cách để so sánh, để xác định hiệu suất mơ hình nào tốt hơn và bao nhiêu. Giả sử:

TPi : Số lượng các ví dụ thuộc lớp ci được phân loại chính xác vào lớp ci FPi : Số lượng các ví dụ khơng thuộc lớp ci bị phân loại nhầm vào lớp ci TNi : Số lượng các ví dụ khơng thuộc lớp ci được phân loại (chính xác) FNi : Số lượng các ví dụ thuộc lớp ci bị phân loại nhầm (vào các lớp khác ci)

Việc đánh giá hiệu năng của các bộ kiểu tấn cơng được thực hiện qua việc đo và so sánh các chỉ số [16]:

- Accuracyi = (TPi + TNi) / (TPi + FPi + TNi + FNi) - Sensitivityi = Recalli = TPRi = TPi / (TPi + FNi) - Specificityi = TNRi = TNi / (TNi + FPi)

- Efficiencyi = (Sensitivityi + Specificityi) / 2 - Precisioni = TPi / (TPi + FPi)

Nghiên cứu này cho thấy hai số liệu đã được sử dụng trong hơn 70% các nghiên cứu. Đĩ là độ chính xác Accuracy và TPR. Độ chính xác Accuracy cung cấp chỉ dẫn tốt về mức độ thuật tốn cĩ thể dự đốn kết quả chính xác. Điều này rất quan trọng, vì nĩ cho thấy kết quả cĩ thể tin cậy được bao nhiêu là chính xác. TPR cung cấp một dấu hiệu cho thấy thuật tốn cĩ thể phát hiện và tấn cơng xâm nhập tốt như thế nào. Mục đích của IDS là phát hiện một cuộc tấn cơng, do đĩ, số liệu này rất quan trọng.

Một số liệu khác được sử dụng trong hơn 50% nghiên cứu là FPR. Một tên khác cho số liệu này là Tỷ lệ báo động sai (FAR). Số liệu này cung cấp chỉ dẫn cho dù thuật tốn sẽ tạo ra nhiều báo động sai. Điều này rất quan trọng, vì nĩ cho thấy cần thêm bao nhiêu cơng việc để lọc thêm các quan sát báo động sai này, sau IDS. Điều này cĩ lẽ được thực hiện bởi một chuyên gia về con người.

Việc sử dụng Accuracy để đánh giá chất lượng kiểu tấn cơng đã được nhiều học giả sử dụng. Tuy nhiên, sự phân bố lớp trong hầu hết các bài tốn kiểu tấn cơng phi tuyến rất mất cân bằng. Vì vậy việc sử dụng Accuracy để đánh giá chất lượng kiểu tấn cơng của một mơ hình khơng thực sự hiệu quả. Vì vậy, các thước đo tồn diện hơn được đề nghị sử dụng cho việc đánh giá là F-Measurei, AUC và G-Means được tính tốn như sau [17]:

F-Measurei = (1+𝛽

2)×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖×𝑅𝑒𝑐𝑎𝑙𝑙𝑖 𝛽2×𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛𝑖+𝑅𝑒𝑐𝑎𝑙𝑙𝑖

Trong đĩ, β là hệ số điều chỉnh mối quan hệ giữa Precision và Recall và thơng thường β=1. F-Measure thể hiện sự tương quan hài hịa giữa Precision và Recall. Giá trị của F-Measure cao khi cả Precision và Recall đều cao.

Và chỉ số G-Means được tính là trung bình nhân của Sensitivity và Specificity: 𝐺 − 𝑀𝑒𝑎𝑛𝑠 = √𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 × 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦

ROC là một đường cong biểu diễn xác suất và AUC (Area Under The Curve) biểu diễn mức độ phân loại của mơ hình. Ý nghĩa của AUC cĩ thể diễn giải: Là xác suất rằng một mẫu dương tính được lấy ngẫu nhiên sẽ được xếp hạng cao hơn một mẫu âm tính được lấy ngẫu nhiên, AUC = P((score(x+) > score(x-)). Chỉ số AUC càng cao thì mơ hình càng chính xác trong việc phân loại các lớp.

TPR là trục tung và FPR là trục hồnh.

2.4. Các nghiên cứu hiện nay về máy học cho IDS

Trong các nghiên cứu gần đây, ta cĩ thể thấy sự phát triển và thực hiện dần dần của một loạt các hệ thống phát hiện dị thường dựa trên các kỹ thuật máy học khác nhau. Nhiều nghiên cứu đã thực hiện các thuật tốn máy học một giai đoạn, chẳng hạn như mạng nơ-ron nhân tạo (ANN), thuật tốn di truyền (GA), máy véc-tơ hỗ trợ (SVM), cây quyết định (DT), … Tuy nhiên, các hệ thống dựa trên sự kết hợp của một số phương pháp, chẳng hạn như các hệ thống lai (hybrid) hoặc kết hợp (ensemble), hiện đang được nhiều học giả trên thế giới nghiên cứu sử dụng phổ biến.

2.4.1. Các nghiên cứu trong nước

Các tác giả Hồng Ngọc Thanh, Trần Văn Lăng, Hồng Tùng (2016) [18] đã đề xuất một cách xây dựng bộ kiểu tấn cơng lai đa tầng trên cơ sở kiến trúc của mơ hình phân đa lớp truyền thống One-vs-Rest trong đĩ luồng dữ liệu đi qua sẽ được sàn

Các kỹ thuật máy học đơn

Tập dữ liệu sử dụng cho các IDS