Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phảitích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu đủ lớn và trong một thời gian dài..
Trang 1Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu
KDD CUP 99 Luận văn tốt nghiệp 2013.
MỤC LỤC
Trang
MỞ ĐẦU 5
Chương 1 HỆ MIỄN DỊCH NHÂN TẠO 7
I Hệ miễn dịch 7
1.2.1 Khái niệm hệ miễn dịch 7
1.2.2 Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch 7
1.2.3 Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản 9
1.2.4 Các tầng bảo vệ của hệ miễn dịch 10
1.2.5 Phân biệt self và nonself 12
II Hệ miễn dịch nhân tạo 13
1.2.1 Hệ miễn dịch nhân tạo là gì? 13
1.2.2 Cấu trúc cơ bản của hệ miễn dịch nhân tạo 13
1.2.3 Nhận dạng mẫu gần đúng trong HMD nhân tạo 15
1.2.4 Thuật toán chọn lọc tích cực và tiêu cực 16
1.2.5 Sự tương quan giữa hệ miễn dịch với môi trường mạng 18
Chương 2 CƠ SỞ DỮ LIỆU KDD 99 19
2.1 Tổng quan về cơ sở dữ liệu KDD 99 19
2.1.1 Khái quát KDD 99 19
2.1.2 Nguồn gốc các thuộc tính 20
2.2 Phân tích chi tiết về tập dữ liệu KDD 99 21
2.2.1 Giới thiệu 21
2.2.2 Mô tả tập dữ liệu KDD 23
2.2.3 Vấn đề có thể có trong tập dữ liệu KDD 99 25
2.2.4 Thống kê các quan sát 28
2.2.5 Giải pháp 31
2.2.6 Kết luận 33
2.3 Phân tích mức độ đặc trưng của thuộc tính trên tập dữ liệu KDD 99 34
2.3.1 Giới thiệu 34
2.3.2 Phương pháp 36
2.3.3 Kết quả 41
Chương 3 THỰC NGHIỆM 45
3.1 Phân loại tấn công DOS 45
3.2 Chuyển tệp KDD 99 đầy đủ và tệp chỉ chứa tấn công DOS về tệp dữ liệu có cấu trúc (dạng nhị phân) 48
3.3 Sinh tập bộ dò Aself từ tệp nhị phân chỉ chứa tấn công DOS 50
3.4 Kiểm tra kết quả 55
Trang 2TÀI LIỆU THAM KHẢO 59
2
Trang 3DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT
KDD Knowledge Discovery and Data Mining
DoS Denial of Services
DANH MỤC HÌNH
Trang
Hình 1.1 Các dòng miễn dịch và các thành phần của nó 7
Hình 1.2 Sự nhận diện và cơ chế kích hoạt đơn giản 9
Hình 1.3 Các tầng miễn dịch 10
Hình 1.4 Liên kết (Binding) 12
Hình 1.5 Cấu trúc phân tầng của HMD nhân tạo 14
Hình 1.6 Nhận diện mẫu gần đúng 15
Hình 1.7 Thuật toán chọn lọc tích cực 17
Hình 1.8 Thuật toán chọn lọc tiêu cực 17
Hình 1.9 Quá trình chọn lọc tiêu cực 18
Hình 2.1 Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD huấn luyện 29
Hình 2.2 Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD thử nghiệm 30
Hình 2.3 Hiệu suất lựa chọn của học máy trên KDDTest 32
Hình 2.4 Hiệu suất lựa chọn của học máy trên KDDTest+ 32
Hình 2.5 Hiệu suất lựa chọn của học máy trên KDDTest-21 32
Hình 2.6 Thông tin thu được của mỗi thuộc tính 43
Hình 3.1 Giao diện chương trình khi thực hiện nút lệnh Aself 55
Hình 3.2 Giao diện chương trình khi thực hiện nút lệnh Test 57
Trang 5Bảng 2.3 Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập
dữ liệu huấn luyện 31
Bảng 2.4 Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập
dữ liệu thử nghiệm 31
Bảng 2.5 Các đặc điểm cơ bản của tập dữ liệu phát hiện xâm nhập
KDD 99 trong lượng mẫu 39 Bảng 2.6 Nhãn lớp xuất hiện trong tập dữ liệu "10% KDD" 40
Bảng 2.7 Thuộc tính phù hợp nhất cho mỗi nhãn lớp nhãn và thông
tin thu được 42
Bảng 2.8 Danh sách thuộc tính được lựa chọn là đặc trưng nhất
cho các nhãn lớp 44
Trang 7MỞ ĐẦU
I Lí do chọn đề tài
Cùng với sự phát triển của ngành công nghệ thông tin là nhiều thách thức đặt
ra trong vấn đề bảo vệ hệ thống máy tính khỏi sự xâm nhập của các đoạn mã độchại Có nhiều kỹ thuật khác nhau được sử dụng cho mục đích bảo vệ sự an toàn của
hệ thống máy tính như tường lửa, phần mềm chống virus và các hệ thống phát hiệnxâm nhập Ta có thể áp dụng hệ miễn dịch (HMD) nhân tạo để làm tăng khả năngphát hiện và loại bỏ những đoạn mã độc hại trong máy tính
Việc áp dụng HMD nhân tạo vào bảo mật, an ninh mạng mang lại hiệu quảtối ưu hơn so với việc bảo mật bằng các phương pháp truyền thống trước đây Khi
có xâm nhập mạng, HMD nhân tạo sẽ tự động phân tích những hoạt động lạ khôngđược phép của hệ thống, của người sử dụng, từ đó đưa ra những cảnh báo sớm đểngăn chặn kịp thời
Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phảitích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu
đủ lớn và trong một thời gian dài KDD CUP 99 (hay viết ngắn gọn là KDD 99) làmột cơ sở dữ liệu nổi tiếng, có thể được sử dụng để huấn luyện cho những hệ thốngnhư vậy
KDD 99 là một cơ sở dữ liệu rất lớn với khoảng 5 triệu bản ghi Nó bao gồmrất nhiều tấn công mạng được ghi nhận trong môi trường mạng máy tính quân đội
Mỹ Tập con dữ liệu chiếm khoảng 10% với nửa triệu bản ghi được khuyến cáo sửdụng cho huấn luyện cũng là một thách thức với nhiều hệ thống học máy Có nhiềuvấn đề đặt ra nhằm làm giảm độ phức tạp huấn luyện như phân loại các bản ghi, loại
bỏ các bản ghi trùng lặp,… trong cơ sở dữ liệu này Chính vì vậy em đã quyết địnhchọn đề tài “Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDDCUP 99” làm đề tài nghiên cứu khoa học của mình
II Mục đích nghiên cứu
Nghiên cứu phương pháp sinh tập bộ dò có khả năng phát hiện tấn công DOStrong tập dữ liệu KDD CUP 99
Trang 8III Nhiệm vụ nghiên cứu
- Tìm hiểu một số thuật toán sinh tập bộ dò
- Đưa ra phương pháp tiền xử lý dữ liệu KDD 99 để rời rạc hóa dữ liệu chosinh tập bộ dò của hệ miễn dịch nhân tạo
- Cài đặt chương trình thực nghiệm về thuật toán sinh tập bộ dò và áp dụngcho nhận dạng tấn công mạng loại DOS
IV Phương pháp nghiên cứu
Trong quá trình nghiên cứu đề tài, em sử dụng phối hợp các phương phápsau:
Nghiên cứu lý thuyết: Tìm đọc các tài liệu cập nhật, các tài liệu tiếngAnh về lĩnh vực nghiên cứu
Tham khảo ý kiến chuyên gia: Tham khảo ý kiến từ các thầy cô trongtrường, các chuyên gia về bảo mật mạng cũng như những chuyên gia nghiêncứu lý thuyết về hệ miễn dịch nhân tạo
Thực nghiệm: cài đặt các thuật toán và đánh giá chương trình trên một
Chương 2: Tìm hiểu về cơ sở dữ liệu KDD CUP 99
Chương 3: Rời rạc hóa dữ liệu và cài đặt chương trình, thực nghiệm với bộ
dữ liệu KDD cụ thể
Kết luận
Tài liệu tham khảo
8
Trang 9Chương 1
HỆ MIỄN DỊCH NHÂN TẠO
I Hệ miễn dịch
1.2.1 Khái niệm hệ miễn dịch
Miễn dịch học bắt đầu được biết đến vào năm 1976 khi Edward Jenner làmthí nghiệm tiêm một lượng nhỏ virus đậu mùa vào động vật, sau đó động vật này cóthể chống lại virus đậu mùa lây nhiễm từ lần thứ hai trở đi Quá trình này được gọi
là quá trình tiêm chủng Từ đó khoa học về miễn dịch liên tục phát triển đến nay nó
đã đạt được rất nhiều thành tựu cả về mặt lý thuyết cũng như thực tế Có thể địnhnghĩa HMD như sau:
HMD là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể [2].
1.2.2 Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch
HMD là một cơ chế bảo vệ tự nhiên hiệu quả và tức thời, cho phép cơ thể chống lạinhững lây nhiễm của các vi sinh vật bên ngoài Nó bao gồm hai tầng bảo vệ là: Hệthống miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi Cả hai hệ thống hoạtđộng dựa trên các tế bào bạch huyết (white blood cells) còn gọi là bạch cầu(leukocyte) Trong đó HMD bẩm sinh chủ yếu dựa vào bạch cầu hạt (granulocyte)
và đại thực bào (macrophage), còn HMD thích nghi dựa vào tế bào lymphô(lymphocyte – là một loại bạch cầu)
Hình 1.1 Các dòng miễn dịch và các thành phần của nó
Trang 10ở các ổ nhiễm để loại bỏ vi trùng và các thể ngoại lai khác ra khỏi các mô và máu.
Bạch cầu hạt (Granulocyte): Là thành phần của HMD bẩm sinh Bạch cầuhạt gồm các loại bạch cầu trung tính (Neutrophils), bạch cầu ưa eosin (Eosionphils),bạch cầu ái kiếm (Basophils) có khả năng nuốt và tiêu huỷ một số vi sinh vật và một
số phần của kháng nguyên xâm nhập vào cơ thể
Bạch cầu trung tính (Neutrophils – Bạch cầu đa hình): Một bạch cầu có nhânhình thuỳ và trong bào tương có nhiều hạt nhỏ màu đỏ tía, bạch cầu trung tính cókhả năng nuốt và giết các vi trùng, tạo thành một cơ chế bảo vệ quan trọng chốnglại các bệnh nhiễm
Bạch cầu ưa eosin (Eosionphils): Là một loại bạch cầu trong bào tương cónhững hạt thô nhuộm màu đỏ cam Chức năng của loại bạch cầu này chưa được biếtđầy đủ, chỉ biết chúng có khả năng nuốt các hạt lạ, có mặt với số lượng lớn trongniêm mạc và các cơ quan bề mặt bao phủ trong cơ thể đồng thời có liên quan đếncác đáp ứng dị ứng
Bạch cầu ái kiếm (Basophils): Chức năng của bạch cầu ái kiếm chưa đượcbiết rõ, chỉ biết chúng có khả năng nuốt các vật lạ có chứa histamine và heparin
Lymphô bào (Lymphocyte): Là thành phần của HMD thích nghi Là mộtloại bạch cầu ở trong các hạch bạch huyết, lách, tuyến ức, thành ruột, và tuỷ xương.Các lymphô bào có nhân đặc và bào tương màu xanh lạt sáng Lymphô bào có thểchia ra lymphô bào B sản sinh ra kháng thể và lymphô bào T liên quan đến việc loạithải mô ghép Lymphô bào có nhiệm vụ nhận diện và loại bỏ tác nhân gây bệnh
10
Trang 111.2.3 Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản
HMD chứa một tập tế bào (cells) và phần tử (molecules) bảo vệ cơ thể chốnglại sự lây nhiễm Khi bị các kháng nguyên tấn công HMD thích nghi sẽ được kíchhoạt Kháng nguyên có thể là những phần tử bên ngoài (antigen) như các phần tửtrên bề mặt của các tác nhân gây bệnh hoặc các kháng nguyên do tế bào của cơ thểtạo ra (self-antigen) [2]
Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD.Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện kháng nguyên(Antigen presenting Cells – APC) Đầu tiên những kháng nguyên sẽ bị các cơ quantrình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành cácpeptide kháng nguyên Một phần của những peptide này kết hợp với các phần tửMHC (major histocompatibility complex – phức hợp các phần tử có nhiệm vụ trìnhdiện peptide kháng nguyên cho T-cell) trên bề mặt của APC tạo thành phức hợpMHC/peptide (II)
T-Cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng cácphức hợp MHC/peptide khác nhau (III) Mỗi khi nhận diện được MHC/peptide, T-cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu)hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác củaHMD hoạt động (IV)
Hình 1.2 Sự nhận diện và cơ chế kích hoạt đơn giản
Trang 12APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên, MHC(major histocompatibility complex): Phức hợp các phần tử có nhiệm vụ trình diệnpeptide kháng nguyên cho T-cell, pathogen: Tác nhân gây bệnh, Lymphokines: Làmột loại bạch cầu, B-cell: Tế bào lymphô B, Actived B-cell: B-cell được kích hoạt,T-cell: Tế bào lymphô T, Activated T-cell: T-cell được kích hoạt, Plasma cell:Tương bào.
Không giống T-cell (lymphô bào T), B-cell (lymphô bào B) có các cơ quanthụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ củanhững phần tử MHC (V) Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhậndiện một kháng nguyên cụ thể Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B-cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasmacell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn Những kháng thể này
sẽ vô hiệu hoá tác nhân gây bệnh Một số B-cell và T-cell được kích hoạt này sẽchuyển thành các tế bào ghi nhớ (memory cell) Chúng sẽ tiếp tục lưu thông trong
cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyêntương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của HMD
1.2.4. Các tầng bảo vệ của hệ miễn dịch
Hình 1.3 Các tầng miễn dịch
HMD có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo vệtrong 3 mức:
12
Trang 13 Mức vật lý (Physical Barriers) gồm lớp da và màng nhầy nằm ở các tuyến hôhấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không chonhững chất lạ xâm nhập vào cơ thể.
Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi,nước mắt chứa những enzym có thể loại bỏ kháng nguyên Các axit trong vùng dacùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của một khángnguyên
HMD thích nghi và bẩm sinh:
HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào vàbạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơchế bảo vệ quan trọng chống lại các bệnh truyền nhiễm) Những bạch huyết này
có các cơ quan thụ cảm trên bề mặt có thể nhận diện và bám vào các phần tử gâybệnh
Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện vàloại bỏ
HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinhđối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so vớilần thứ nhất
HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào(Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell Các B-cell và T-cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loạikháng thể nào đó Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảmtrên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphôbào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ranhững kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên Một
số lymphô bào sẽ trở thành self có khả năng ghi nhớ lưu thông trong cơ thể Khi
có loại kháng nguyên tương tự lây nhiễm, sau đó HMD thích nghi có thể nhanhchóng phát hiện và loại bỏ chúng Khả năng này giúp cho cơ thể không mắc lạinhững bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoànthiện sau mỗi lần đụng độ với kháng nguyên Tóm lại, lympho bào gồm lympho
Trang 14bào B sản sinh ra kháng thể và lympho bào T liên quan đến việc loại thải môghép Lympho bào có tác dụng nhận diện và loại bỏ tác nhân gây bệnh
Như vậy, tế bào chịu trách nhiệm phát hiện mầm bệnh trong HMD làlympho bào, chúng phát hiện bằng cách liên kết với mầm bệnh, cụ thể là liên kếtgiữa tác nhân gây bệnh và các thụ thể bao phủ bề mặt của lympho bào
Một lympho bào duy nhất chỉ có thể liên kết với các tác nhân gây bệnh cấutrúc phù hợp, bởi vì tất cả thụ thể trên lympho bào có cấu trúc giống nhau Sốcác thụ thể liên kết với mầm bệnh xác định quan hệ giữa lympho bào và tácnhân gây bệnh nhất định [9]
Vì các lympho bào phát hiện các tác nhân gây bệnh bằng cách liên kết vớimầm bệnh Điều đó có nghĩa là HMD phải có các thụ thể của lympho bào đủ đadạng để HMD hoạt động tốt và thích nghi
Hình 1.4 Liên kết (Binding) 1.2.5 Phân biệt self và nonself
Trong quá trình chọn lọc các self B-cell và T-cell, HMD thích nghi khôngchỉ phải chọn những self có khả năng nhận biết những self lạ (antigen hay nonself),
mà nó còn phải loại bỏ những self nhận biết được những self do cơ thể tạo ra (self antigen hay đơn giản là self) Tương ứng với hai quá trình này ta có quá trình chọnlọc tích cực và quá trình chọn lọc tiêu cực Hai quá trình này xảy ra với cả B-cell và
-14
Trang 15T-cell với nguyên lý khá giống nhau Khi xây dựng thuật toán, chúng ta chỉ cần xétvới T-cell.
1.1.5.1 Phép chọn lọc tích cực
Phép chọn lọc tích cực đối với các Lympho bào (T-cell và B-cell) nhằm mục đíchtránh sự xuất hiện của các Lympho bào không có ích Những Lympho bào mà cơquan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên Kết quảcuối cùng là những Lympho bào có khả năng
1.1.5.2 Phép chọn lọc tiêu cực
Phép chọn lọc tiêu cực của các lympho bào nhằm mục đích loại bỏ nhữnglympho bào mà cơ quan thụ cảm của nó nhận diện được các self do cơ thể tạo ra và
nó có thể tiêu diệt những self này
II Hệ miễn dịch nhân tạo
1.2.1 Hệ miễn dịch nhân tạo là gì?
Có rất nhiều định nghĩa về HMD nhưng định nghĩa sau là rõ ràng và chặt chẽhơn cả và phù hợp với những nội dung mà đề tài sẽ trình bày:
“HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của miễn dịch họcthuyết và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụnggiải các bài toán thực tế” (Castro & Timmis - 2002)
Hệ miễn dịch sinh học bảo vệ các sinh vật sống trước các tác nhân gây bệnh
từ bên ngoài như vi khuẩn, virus, kí sinh trùng và độc tố Vai trò của hệ thống bảomật trong máy tính cũng tương tự như vai trò của HMD trong cơ thể các sinh vậtsống, Các đối tượng này có sự tương đồng ở cơ chế và biện pháp bảo vệ chính mìnhkhỏi các xâm nhập
1.2.2. Cấu trúc cơ bản của hệ miễn dịch nhân tạo
1.2.2.1 Mô hình chung cho các hệ thống phỏng tiến hoá sinh học
Trong các thuật toán phỏng tiến hoá sinh học nói chung, đối tượng chính củachúng là một tập nhiễm sắc thể nhân tạo (một quần thể), quần thể này trải qua quátrình chọn lọc, sản sinh và đột biến gien Quá trình này lặp lại nhiều lần, mỗi lầnnhư thế là một quần thể tiến hóa hơn xuất hiện Để xây dựng được cấu trúc cơ bản
Trang 16của mô hình này người ta phải biểu diễn được gien các cá thể trong quần thể, cùngvới các thủ tục lựa chọn, sản sinh và đột biến gien
Cấu trúc cơ bản của hệ thống phỏng sinh học cần có 3 yếu tố cơ bản sau:
Biểu diễn các thành phần của hệ thống
Cơ chế đánh giá tương tác của các cá thể với môi trường và các cá thể vớinhau Môi trường thường mô phỏng bởi một tập kích thích vào, một hoặcnhiều hàm đo độ thích nghi của cá thể với môi trường
Các thủ tục thích nghi điều khiển tính động của hệ thống, tức là làm chohoạt động của hệ thống thay đổi theo thời gian
1.2.2.2 Mô hình cho hệ miễn dịch nhân tạo
Hình 1.5 Cấu trúc phân tầng của HMD nhân tạo
Tầng đầu tiên là lĩnh vực ứng dụng, đây là điểm cơ bản của mọi hệ thốngkhông chỉ với AIS Đối với lĩnh vực ứng dụng khác nhau sẽ quyết định những thànhphần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phầncũng khác nhau
Tầng thứ hai là biểu diễn các thành phần: Trong AIS phải biểu diễn được haithành phần quan trọng là kháng thể và kháng nguyên
16
Trang 17 Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá độ thíchhợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming,khoảng cách Euclid, hoặc khoảng cách Mahattan.
Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toánmiễn dịch như thuật toán chọn lọc tích cực, thuật toán chọn lọc tiêu cực, thuật toánchọn lọc clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệAIS
Tầng thứ năm là đưa ra lời giải cho bài toán: Lời giải cho bài toán sẽ đượccập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạtđến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định
1.2.3 Nhận dạng mẫu gần đúng trong HMD nhân tạo
Trong HMD ở người thì ràng buộc sinh học giữa kháng thể và kháng nguyên
là gần đúng Nếu áp dụng vào hệ thống máy tính có thể coi các gói dữ liệu là tácnhân gây bệnh, chúng được phân đoạn cụ thể Việc sử dụng tập dữ liệu để phù hợpvới các phân đoạn trong gói dữ liệu được gọi là mẫu (pattern) Bằng cách sử dụngmối quan hệ trưởng thành tương tự với HMD tự nhiên, mẫu có thể nhận ra các phânđoạn tác nhân gây bệnh trong các gói dữ liệu, khác biệt là phải kiểm soát ngưỡngquan hệ Nếu chúng ta có bộ điều khiển ngưỡng thích ứng thì tình hình an ninh của
hệ thống máy tính được cải thiện đáng kể [9]
Hình 1.6 Nhận diện mẫu gần đúng
Trang 181.2.4 Thuật toán chọn lọc tích cực và tiêu cực
1.2.4.1 Thuật toán chọn lọc tích cực (Positive Selection Algorithms)
Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thểnhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), màpeptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợpcác phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thànhMHC/peptide Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan thụ cảmT-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này.Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ Trái lại
nó được chọn như một self có khả năng miễn dịch và bổ sung vào quần thể A
Thuật toán chọn lọc tích cực được minh họa như trong sơ đồ 2 và nó có thểtóm tắt như sau:
Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưatrưởng thành Giả thiết tất cả các phần tử được biểu diễn như các chuỗi nhị phân cócùng độ dài L, 2L phần tử khác nhau được tạo ra
Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần tửtrong quần thể P với tất cả phần tử trong tập S
Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong
P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo e nào đóthì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể giá trị Atrái lại T-cell bị loại bỏ
Loại bỏ
Cho vào quần thể có giá trị A
Không khớpKhớp
Phần tử p trong P nhận diện được một phần tử nào đó trong S
Trang 19Hình 1.7 Thuật toán chọn lọc tích cực
1.2.4.2 Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms)
Giống như thuật toán chọn lọc tích cực của Seiden và Celada, thuật toánchọn lọc tiêu cực của Forrest và các đồng nghiệp khá đơn giản Giả xử một tập Self-Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nhậndiện được một self-peptide nó sẽ bị loại bỏ, trái lại nó sẽ được chọn như một self cókhả năng miễn dịch và bổ sung vào quần thể có giá trị A Thuật toán chọn lọc tiêucực được minh họa trong hình 1.4 có thể được tóm tắt như sau:
Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưatrưởng thành Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các self-peptide)được biểu diễn bằng một chuỗi nhị phân l bit
Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong
P với mọi phần tử của tập Self-Set S
Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưatrưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một ngưỡngtương tác chéo e nào đó, thì T- cell nhận diện được self-peptide này và bị loại bỏ,trái lại T- cell được bổ sung vào quần thể có giá trị A
Hình 1.8 Thuật toán chọn lọc tiêu cực
Loại bỏ
Cho vào quần thể có giá trị A
KhớpKhông khớp
Phần tử p trong P nhận diện được một phần tử nào đó trong S
S
Quần
thể tiềm
năng P
Trang 20Ví dụ về chọn lọc tiêu cực:
Hình 1.9 Quá trình chọn lọc tiêu cực
1.2.5 Sự tương quan giữa hệ miễn dịch với môi trường mạng
Self Tiến trình hoạt động trong một máy tính
Cơ quan đa bào Máy tính chạy đa tiến trình
Số lượng cơ quan Các máy tính trong mạng
Da và HMD bẩm sinh Mật khẩu, quyền truy cập file, truy cập nhóm
người dùng,…
HMD thích nghi Một tiến trình có khả năng kiểm soát các tiến
trình khác để phát hiện bất thườngĐáp ứng tự miễn dịch Chuông cảnh báo
01110101
10001001
Không khớp Khớp
01111000
……
00101000100100000100001010010011
0111100001011000
Trang 21Chương 2
CƠ SỞ DỮ LIỆU KDD 99 2.1 Tổng quan về cơ sở dữ liệu KDD 99
2.1.1 Khái quát KDD 99
KDDCUP 99 là tập dữ liệu được sử dụng trong cuộc thi Khám phá kiến thức
và Khai thác dữ liệu quốc tế lần thứ 3 cùng với Hội nghị Khám phá kiến thức vàKhai thác dữ liệu KDD-99 lần thứ năm Nhiệm vụ trong cuộc thi là xây dựng mộtmáy phát hiện xâm nhập mạng, một mô hình tiên đoán có khả năng phân biệt giữacác kết nối “xấu” hay còn gọi là xâm nhập hoặc tấn công, và các kết nối “tốt” haycòn gọi là bình thường Cơ sở dữ liệu này chứa một tập hợp các dữ liệu được kiểmtoán, bao gồm một loạt các sự xâm nhập được mô phỏng trong một môi trườngmạng quân đội
Phần mềm phát hiện xâm nhập mạng bảo vệ một mạng lưới máy tính từ người
sử dụng trái phép và có thể bao gồm cả người trong cuộc Phát hiện xâm nhập học
có nhiệm vụ là xây dựng một mô hình tiên đoán (tức là phân loại) có khả năng phânbiệt giữa kết nối "xấu" được gọi là sự xâm nhập hoặc tấn công, và "tốt" kết nối bìnhthường
Năm 1998 Chương trình đánh giá phát hiện xâm nhập đã được DARPA chuẩn
bị và quản lý bởi MIT Lincoln Labs Mục tiêu là để khảo sát và đánh giá nghiên cứutrong việc phát hiện xâm nhập Một tập hợp các tiêu chuẩn của dữ liệu được kiểmtoán, bao gồm một loạt các mô phỏng của sự xâm nhập được cung cấp trong mộtmôi trường mạng quân sự Cuộc thi phát hiện xâm nhập KDD 1999 sử dụng mộtphiên bản của tập dữ liệu này Lincoln Labs thiết lập một môi trường để có đượcchín tuần dữ liệu thô TCP dump cho một mạng cục bộ (LAN) mô phỏng một mạngLAN không quân Mỹ điển hình Họ hoạt động mạng LAN như thể nó là một môitrường Air Force nhưng nó rải rác với nhiều cuộc tấn công
Dữ liệu huấn luyện thô là khoảng 4 gigabyte nén dữ liệu nhị phân TCP dumplấy từ bảy tuần lưu lượng mạng Điều này đã được xử lý vào khoảng 5.000.000 bảnghi kết nối Tương tự như vậy, hai tuần của dữ liệu thử nghiệm bắt được khoảng haitriệu bản ghi kết nối
Trang 22Một kết nối là một chuỗi các gói tin TCP bắt đầu và kết thúc tại một số thờigian được xác định rõ ràng, giữa những luồng dữ liệu đến và đi từ một địa chỉ IPnguồn đến một địa chỉ IP đích theo một số giao thức được xác định rõ Mỗi kết nốiđược dán nhãn hoặc là bình thường, hoặc là một tấn công, với chính xác một loạitấn công cụ thể Mỗi bản ghi kết nối bao gồm khoảng 100 byte.
Các cuộc tấn công thuộc bốn loại chính sau:
DOS: tấn công từ chối dịch vụ, ví dụ như SYN Flood;
R2L: truy cập trái phép từ một máy từ xa, ví dụ như đoán mật khẩu;
U2R: phép truy cập vào cục bộ (root) để đặc quyền siêu người dùng, ví
dụ như các cuộc tấn công khác nhau như "tràn bộ đệm";
Probing: giám sát và các thăm dò khác, ví dụ như quét cổng
Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không phải là từ phânphối xác suất giống như dữ liệu huấn luyện, và nó bao gồm các kiểu tấn công cụ thểkhông có trong dữ liệu huấn luyện Điều đó làm cho các tấn công thực tế hơn Một
số chuyên gia xâm nhập tin rằng tấn công mới nhất là biến thể của các cuộc tấncông được biết đến và "chữ ký" của các cuộc tấn công được biết đến có thể là đủ đểnắm bắt được các biến thể mới lạ Các bộ dữ liệu huấn luyện chứa tổng cộng 24 loạitấn công, với 14 loại bổ sung trong các dữ liệu thử nghiệm
2.1.2 Nguồn gốc các thuộc tính
Các thuộc tính cấp cao hơn có thể trợ giúp trong việc phân biệt các kết nốibình thường từ các cuộc tấn công Có một vài loại thuộc tính có nguồn gốc từ:Thuộc tính "Cùng một máy chủ" kiểm tra các kết nối chỉ có trong hai giâytrong mà các máy chủ đích tương tự như các kết nối hiện tại, và tính toán các số liệuthống kê liên quan đến hành vi giao thức, dịch vụ,… Tương tự thuộc tính "cùngdịch vụ" kiểm tra các kết nối chỉ trong hai giây mà có dịch vụ tương tự như các kếtnối hiện tại
Các thuộc tính thuộc tính "Cùng một máy chủ" và "cùng một dịch vụ" đềuđược gọi là thuộc tính dựa trên lưu lượng thời gian truy cập của các bản ghi kết nối.Một số cuộc tấn công thăm dò quét các máy chủ (hoặc cổng) bằng cách sửdụng một khoảng thời gian lớn hơn nhiều so với hai giây, ví dụ một phút Vì vậy,
22
Trang 23bản ghi kết nối cũng được sắp xếp bởi các máy chủ đích, và các thuộc tính được xâydựng bằng cách sử dụng một cửa sổ của 100 kết nối cùng một máy chủ thay vì mộtcửa sổ thời gian Điều này mang lại một tập hợp các thuộc tính lưu thông được gọi
là dựa trên máy chủ
Không giống như hầu hết các cuộc tấn công DOS và các cuộc tấn công thăm
dò, có vẻ như là không có mô hình tuần tự thường xuyên trong bản ghi của các cuộctấn công R2L và U2R Có lẽ là bởi vì các cuộc tấn công DOS và các cuộc tấn côngthăm dò liên quan đến nhiều kết nối của một số máy chủ (s) trong một thời gian rấtngắn, nhưng các cuộc tấn công R2L và U2R được nhúng vào trong phần dữ liệu góitin, và thường liên quan đến chỉ có một kết nối duy nhất
Các thuật toán hữu ích cho việc khai thác các phần dữ liệu phi cấu trúc của các
Có thể sử dụng kiến thức miền để thêm thuộc tính tìm kiếm các hành vi đáng ngờtrong các phần dữ liệu, chẳng hạn như số lần đăng nhập thất bại Những thuộc tínhnày được gọi là thuộc tính "nội dung"
2.2 Phân tích chi tiết về tập dữ liệu KDD 99
Tiến hành phân tích sâu các xu hướng nghiên cứu gần đây trong việc phát hiệnbất thường, người ta sẽ bắt gặp một vài phương pháp học máy có một tỷ lệ phát hiện
Trang 24rất cao 98% trong khi vẫn giữ tỷ lệ cảnh báo sai ở mức 1% Tuy nhiên, khi xem xétgiải pháp IDS kiểu hiện đại và thương mại công cụ thì có vài sản phẩm sử dụngphương pháp phát hiện bất thường và các học viên thì vẫn cho rằng nó không phải
là một công nghệ hoàn thiện Để tìm ra lý do tương phản này thì chúng ta sẽ nghiêncứu các chi tiết nghiên cứu được thực hiện trong phát hiện bất thường và xem xétcác khía cạnh khác nhau như phương pháp học máy và phương pháp tiếp cận pháthiện, tập hợp dữ liệu huấn luyện, tập hợp dữ liệu thử nghiệm, và phương pháp đánhgiá Nghiên cứu cho thấy rằng có một vấn đề vốn có trong bộ dữ liệu KDDCUP 99,
nó được sử dụng rộng rãi như là một tập dữ liệu công bố công khai trên mạng cho
hệ thống phát hiện bất thường
Sự khiếm khuyết quan trọng đầu tiên trong tập dữ liệu KDD là số lượng rất lớncác bản ghi dư thừa Phân tích tập dữ liệu huấn luyện KDD và tập dữ liệu thửnghiệm thấy rằng khoảng 78% và 75% các bản ghi được nhân đôi trong tập dữ liệuhuấn luyện và tập dữ liệu thử nghiệm, tương ứng Số lượng lớn các bản ghi dư thừatrong các tập dữ liệu huấn luyện sẽ gây ra cho các thuật toán học thiên vị đối vớicác bản ghi thường xuyên xuất hiện, và do đó nó hạn chế với các bản ghi ít xuấthiện và thường gây hại cho các mạng như tấn công U2R Sự tồn tại của những bảnghi này lặp đi lặp lại trong các tập dữ liệu thử nghiệm, mặt khác sẽ gây ra các kếtquả đánh giá thiên vị với các phương pháp có tỷ lệ phát hiện tốt hơn trên các bảnghi thường xuyên
Ngoài ra, để phân tích mức độ khó của các bản ghi trong Dữ liệu KDD họ sửdụng 21 học viên (7 học viên từng được huấn luyện 3 lần với các tập dữ liệu huấnluyện khác nhau) để ghi nhãn bản ghi của toàn bộ dữ liệu KDD huấn luyện và cáctập dữ liệu thử nghiệm, cung cấp 21 nhãn dự đoán cho mỗi bản ghi Đáng ngạcnhiên, khoảng 98% các bản ghi trong các tập dữ liệu huấn luyện và 86% của bảnghi trong các tập dữ liệu thử nghiệm đã được phân loại chính xác với tất cả 21 máy
Lý do phải đưa ra những thống kê trên cả hai tập dữ liệu KDD là tập huấn luyện vàtập kiểm tra là trong nhiều bài báo khác, các bộ phận ngẫu nhiên của tập KDD huấnluyện được sử dụng như tập thử nghiệm Kết quả là, họ đạt khoảng 98% tỷ lệ phânloại bằng cách áp dụng phương pháp máy học rất đơn giản Ngay cả áp dụng các tập
24
Trang 25KDD thử nghiệm sẽ có một tỷ lệ phân loại tối thiểu là 86%, mà làm cho sự so sánh
về IDS khá khó khăn khi tất cả chúng đều khác nhau trong phạm vi 86% đến 100%.Trong bài báo này, họ đã cung cấp một giải pháp để giải quyết hai vấn đề được
đề cập đến, kết quả trong tập dữ liệu huấn luyện mới và tập thử nghiệm trong đóbao gồm các các bản ghi được lựa chọn của tập dữ liệu KDD đầy đủ Cung cấp mộttập hợp dữ liệu không tồn tại bất kỳ sai sót nào đề cập đến Hơn nữa, số lượng cácbản ghi trong tập huấn luyện và các tập thử nghiệm là hợp lý, lợi thế này làm chochi phí là phải chăng để chạy hoàn thành các thí nghiệm trên mà không phải chọnngẫu nhiên một phần nhỏ trong các tập huấn luyện và các tập thử nghiệm hợp lý
Do đó, đánh giá kết quả các công trình nghiên cứu khác nhau sẽ phù hợp và có thể
2.2.2 Mô tả tập dữ liệu KDD
Từ năm 1999, tập dữ liệu KDD 99 đã được sử dụng nhiều nhất cho việc thẩmđịnh các phương pháp phát hiện bất thường Tập hợp dữ liệu này được chuẩn bị vàđược xây dựng dựa trên các dữ liệu bắt được trong chương trình đánh giá Hệ thốngphát hiện bất thường DARPA’98 DARPA có khoảng 4GB nén thô (nhị phân) dữliệu tcpdump của 7 tuần lưu thông mạng có thể được xử lý thành khoảng 5 triệu bảnghi kết nối, với mỗi bản ghi khoảng 100 byte Hai tuần của dữ liệu thử nghiệm cókhoảng 2 triệu bản ghi kết nối Tập dữ liệu KDD huấn luyện bao gồm khoảng4.900.000 vectơ kết nối đơn trong đó chứa 41 thuộc tính và được dán nhãn là bìnhthường hoặc một loại tấn công cụ thể nào đó với sự chính xác là một loại tấn công
cụ thể Các cuộc tấn công được mô phỏng xếp vào một bốn loại sau đây:
Trang 26 Tấn công từ chối dịch vụ (DoS): là một cuộc tấn công mà trong đó kẻ tấncông làm cho một số máy tính hoặc bộ nhớ tài nguyên quá bận hoặc quá đầy để xử
ý các yêu cầu hợp lệ, hoặc từ chối người dùng hợp pháp truy cập vào một máy tính
Tấn công người dùng vào thư mục gốc (U2R): là một lớp khai thác trong đó
kẻ tấn công bắt đầu với truy cập bình thường vào tài khoản người dùng trên hệthông (có thể thu được bằng cách can thiệp mật khẩu, một cuộc tấn công từ điển,hoặc kỹ thuật xã hội) và có thể khai thác một số lỗ hổng để đạt được thư mục gốcsau đó truy cập vào hệ thống
Tấn công từ xa vào cục bộ (R2L): xảy ra khi một kẻ tấn công có khả nănggửi gói tin đến một máy tính qua mạng nhưng không có một tài khoản trên máy tính
đó để khai thác qua một số lỗ hổng để truy cập vào cục bộ như là một người sửdụng máy tính đó
Tấn công thăm dò (Probing): là một nỗ lực để thu thập thông tin về mộtmạng lưới các máy tính với mục đích rõ ràng là phá vỡ kiểm soát an ninh
Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không cùng một phânphối xác suất như dữ liệu huấn luyện, và nó không có các loại tấn công cụ thể nhưtrong dữ liệu huấn luyện mà bao gồm các tấn công thực tế hơn Một số chuyên giaphát hiện xâm nhập cho rằng hầu hết các loại tấn công mới là các biến thể của cácloại tấn công đã biết và dấu hiệu của các loại tấn công đã biết có thể đủ để nắm bắtđược các biến thể mới lạ Các tập dữ liệu huấn luyện chứa tổng số 24 các loại tấncông, và 14 loại bổ sung trong các dữ liệu thử nghiệm
Các thuộc tính của tập dữ liệu KDD 99 có thể được phân thành ba nhóm:
1 Các thuộc tính cơ bản: nhóm này chứa tất cả các thuộc tính có được từ
một kết nối TCP / IP Hầu hết các thuộc tính này đều dẫn đến một tiềm ẩn là làmchậm việc phát hiện
2 Các thuộc tính lưu thông: nhóm này bao gồm các thuộc tính mà nó được
tính toán với khoảng thời gian một cửa sổ và nó được chia thành hai nhóm:
Thuộc tính "cùng máy chủ": kiểm tra các kết nối chỉ trong 2 giây mà có
cùng một đích đến là máy chủ kết nối hiện tại, và các số liệu tính toán thống kêliên quan đến hành vi giao thức, dịch vụ, …
26
Trang 27 Thuộc tính “cùng dịch vụ”: kiểm tra các kết nối chỉ trong 2 giây mà có
cùng một cùng một dịch vụ như dịch vụ kết nối hiện tại
Hai loại thuộc tính “lưu thông” nói trên được gọi là thuộc tính dựa trên thờigian Tuy nhiên, có một số cuộc tấn công thăm dò chậm, quét các máy chủ (hoặccổng) sử dụng một khoảng thời gian lớn hơn 2 giây nhiều, ví dụ: trong mỗi phút.Kết quả là, các cuộc tấn công không sản xuất mô hình xâm nhập với một cửa sổthời gian 2 giây Để giải quyết vấn đề này, thuộc tính "cùng máy chủ" và “cùngdịch vụ" tính toán lại dựa trên cửa sổ kết nối của 100 của 100 kết nối chứ khôngphải là một cửa sổ thời gian 2 giây Những tính năng này được gọi là thuộc tính
“lưu thông” dựa trên kết nối
3 Các thuộc tính nội dung: Không giống hầu hết các cuộc tấn công DoS và
Probing, các cuộc tấn công R2L và U2R không có bất kỳ xâm nhập thườngxuyên nào theo mô hình tuần tự Điều này là do các cuộc tấn công Dos vàProbing liên quan đến nhiều kết nối của một số máy chủ trong một thời gian rấtngắn Tuy nhiên các cuộc tấn công R2L và U2R được nhúng trong các phần dữliệu của các gói dữ liệu, và thường liên quan đến việc chỉ có một kết nối duynhất Để phát hiện các loại tấn công, cần một số thuộc tính để có thể tìm ranhững hành vi đáng ngờ trong các phần dữ liệu, ví dụ: số lượng cố gắng đăngnhập thất bại, các thuộc tính này được gọi là các thuộc tính nội dung
2.2.3 Vấn đề có thể có trong tập dữ liệu KDD 99
Như đề cập trong phần trước, KDD 99 được xây dựng dựa trên các dữ liệuDARPA'98, do các dữ liệu là tổng hợp nên kết quả là một số vấn đề có trongDARPA'98 vẫn còn tồn tại trong KDD 99 Tuy nhiên, có một vài cải tiến hơn nó cóthể là có chủ ý hoặc vô ý, và cùng với một số vấn đề bổ sung nữa Trong phần sauđây, xem xét lại các vấn đề trong DARPA'98 và sau đó thảo luận về sự tồn tại củacác vấn đề có thể có trong KDD 99 Cuối cùng là thảo luận các vấn đề mới quan sátthấy trong các tập hợp dữ liệu KDD
1 Đối với mục đích riêng: các thí nghiệm đã lựa chọn tổng hợp trên cả hai dữ
liệu: dữ liệu nền và dữ liệu tấn công, và dữ liệu được khẳng định là tương tự nhưmột số dữ liệu mẫu quan sát được từ trong một số cơ sở dữ liệu của lực lượng
Trang 28không quân Tuy nhiên, không phân tích cũng không thí nghiệm xác nhận các đặc
điểm của dữ liệu cảnh báo sai Hơn nữa, khối lượng công việc của dữ liệu tổng hợp
có vẻ không giống như lưu lượng truy cập trong các mạng thực sự
2 Lưu lượng sưu tầm như tcpdump, được dùng trong DARPA’98, rất có khả
năng trở thành quá tải và có khả năng là hủy bỏ các gói nếu lưu lượng tải là quá lớn.Tuy nhiên, không có sự điều tra để khẳng định khả năng huỷ bỏ của các gói tin
3 Không có định nghĩa chính xác về các cuộc tấn công Ví dụ: tấn công “thăm
dò” là không nhất thiết phải là một loại tấn công trừ khi số lần lặp lại vượt quá mộtngưỡng cụ thể Tương tự như vậy, một gói tin gây ra một lỗi tràn bộ đệm khôngphải là lúc nào cũng là đại diện của một cuộc tấn công Trong điều kiện như vậy,cần có một thỏa thuận về các định nghĩa giữa thẩm định viên và thẩm định Tuynhiên, trong DARPA'98, không có định nghĩa cụ thể về tấn công mạng
Ngoài ra, có một số phê bình về nguyên tắc phân loại tấn công và biện pháp thựchiện Tuy nhiên, vấn đề đó không phải là mối quan tâm nhiều của bài báo này vìhầu hết các hệ thống phát hiện bất thường làm việc với nhãn nhị phân, nghĩa là: bấtthường và bình thường, thay vì xác định các thông tin chi tiết của các cuộc tấn công.Bên cạnh đó, thực hiện các biện pháp đánh giá áp dụng trong DARPA'98, ROCCurves, đã bị phê bình nhiều, và kể từ đó nhiều nhà nghiên cứu đã đề xuất các biệnpháp mới để khắc phục những khiếm khuyết hiện có
Trong khi sự phê bình của McHugh chủ yếu dựa trên các thủ tục tạo ra các dữliệu chứ không phải là phân tích dữ liệu, Mahoney và Chan phân tích mạng lưới lưuthông mạng nền DARPA và bằng chứng tìm thấy các hiện vật mô phỏng có thể dẫnđến một đánh giá rất cao về việc thực hiện một số phương pháp phát hiện bấtthường Trong bài báo, tác giả đề cập đến năm loại bất thường dẫn đến phát hiện tấncông Tuy nhiên, phân tích các cuộc tấn công trong các tập dữ liệu DARPA chothấy là nhiều cái không phù hợp với bất kỳ loại nào, và có khả năng gây ra bởi cáchiện vật mô phỏng Ví dụ như: TTL (time to live) có giá trị 126 và 253 chỉ xuất hiệntrong lưu lượng thù địch, trong khi ở hầu hết các lưu lượng truy cập nền tảng giá trị
là 127 và 254 Tương tự như vậy, một số cuộc tấn công có thể được xác định bằngđịa chỉ IP nguồn là bất thường hoặc trường kích thước cử sổ TCP bất thường
28
Trang 29May mắn là hiện vật mô phỏng nói trên không ảnh hưởng đến các tập dữ liệuKDD, 41 thuộc được sử dụng trong KDD, không liên quan đến bất kỳ khiếm khuyếtnào đã đề cập Tuy nhiên, KDD lại tồn tại các vấn đề bổ sung mà nó không có trong
bộ dữ liệu DARPA
Portnoy et al đã phân chia tập dữ liệu KDD lập thành mười tập con, mỗi tập con
có chứa khoảng 490.000 bản ghi hoặc 10% tập dữ liệu Tuy nhiên, họ quan sát thấyrằng việc phân phối các cuộc tấn công trong tập hợp dữ liệu KDD là rất không đồngđều,và việc xác nhận chéo rất khó khăn Nhiều trong số các tập con có trường hợpchỉ có một loại duy nhất Ví dụ: các tập con thứ 4, 5, 6, 7 gồm phần 10% của tập dữ
liệu đầy đủ chứa chỉ các cuộc tấn công “Smurf”, và một trường hợp nữa là dữ liệu trong tập con thứ 8 hầu như toàn là sự xâm nhập của “Neptune”.
Tương tự như vậy, cùng với vấn đề đó là các cuộc tấn công Smurf và Neptune
trong tập dữ liệu KDD huấn luyện Các tác giả có đề cập đến hai vấn đề gây ra bởicác cuộc tấn công trong các tập dữ liệu Đầu tiên, hai loại tấn công DoS chiếm hơn71% các tập hợp dữ liệu thử nghiệm, nó hoàn toàn ảnh hưởng đến việc đánh giá.Thứ hai, kể từ khi họ tạo ra một khối lượng lớn lưu lượng truy cập, họ có thể dễdàng phát hiện bằng phương khác và không cần thiết phải sử dụng hệ thống pháthiện bất thường để tìm ra các cuộc tấn công
Bản ghi ban đầu Bản ghi khác biệt Tỷ lệ giảm
Bảng 2.1 Thống kê các bản ghi dư thừa trong tập dữ liệu kdd huấn luyện
Bản ghi ban đầu Bản ghi khác biệt Tỷ lệ giảm
Trang 30Như đã đề cập trước đó, có một số vấn đề tồn tại trong tập dữ liệu KDD làmcho kết quả đánh giá trên dữ liệu là không đáng tin cậy Trong phần này, người tathực hiện một tập hợp các thí nghiệm cho thấy các khiếm khuyết tồn tại trong KDD.
2.2.4.1 Các bản ghi dư thừa
Một trong những khiếm khuyết cần lưu ý nhất trong tập hợp dữ liệu KDD là
số lượng lớn các bản ghi dư thừa, làm cho các thuật toán học thiên vị hơn đối vớicác bản ghi xuất hiện thường xuyên, và cản trở các bản ghi ít xuất hiện thường gâyhại cho các mạng như các cuộc tấn công công U2R và R2L
Ngoài ra, sự tồn tại lặp đi lặp lại của các bản ghi trong tập dữ liệu thử nghiệm
sẽ làm cho các kết quả đánh giá thiên vị bởi các phương pháp có tỷ lệ phát hiện tốthơn với các bản ghi xuất hiện thường xuyên
Để giải quyết vấn đề này, chúng ta loại bỏ tất cả các bản ghi lặp đi lặp lạitrong cả tập dữ liệu KDD huấn luyện và thử nghiệm, và giữ một bản sao mỗi bảnghi Bảng 1 và 2 minh họa các số liệu thống kê của việc giảm đi các bản ghi lặp đilặp lại trong các tập dữ liệu KDD huấn luyện và thử nghiệm, tương ứng
Trong khi thực hiện quá trình này, người ta gặp hai bản ghi không hợp lệtrong tập KDD thử nghiệm, bản ghi số 136.489 và 136.497, hai bản ghi này có chứamột giá trị không hợp lệ, ICMP, thuộc tính “dịch vụ” của nó Vì vậy loại bỏ chúngkhỏi tập KDD thử nghiệm
2.2.4.2 Mức phức tạp
Cách tiếp cận điển hình để thực hiện phát hiện bất thường sử dụng tập dụngtập hợp dữ liệu KDD là sử dụng một thuật toán học máy tùy chỉnh để tìm hiểu cáchành vi chung của các tập dữ liệu để có thể phân biệt giữa hành vi bình thường vàđộc hại Với mục đích này, tập dữ liệu được phân chia thành hai phần thử nghiệm
và huấn luyện, học viên được đào tạo cách sử dụng phần huấn luyện của tập dữ liệu
và sau đó được đánh giá hiệu quả trên phần thử nghiệm Nhiều nhà nghiên cứutrong các lĩnh vực chung của học máy đã cố gắng đưa ra những học viên phức tạp
để tối ưu hoá độ chính xác và tốc độ phát hiện trên tập dữ liệu KDD 99 Một trongcác cách tiếp cận tương tự là chọn bảy phương pháp học máy được sử dụng rộngrãi, cụ thể là: J48, Naive Bayes, NBTree, Random Forest, Random Tree, Multilayer
30