1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99

61 3K 14

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 61
Dung lượng 720,87 KB

Nội dung

Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phảitích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu đủ lớn và trong một thời gian dài..

Trang 1

Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu

KDD CUP 99 Luận văn tốt nghiệp 2013.

MỤC LỤC

Trang

MỞ ĐẦU 5

Chương 1 HỆ MIỄN DỊCH NHÂN TẠO 7

I Hệ miễn dịch 7

1.2.1 Khái niệm hệ miễn dịch 7

1.2.2 Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch 7

1.2.3 Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản 9

1.2.4 Các tầng bảo vệ của hệ miễn dịch 10

1.2.5 Phân biệt self và nonself 12

II Hệ miễn dịch nhân tạo 13

1.2.1 Hệ miễn dịch nhân tạo là gì? 13

1.2.2 Cấu trúc cơ bản của hệ miễn dịch nhân tạo 13

1.2.3 Nhận dạng mẫu gần đúng trong HMD nhân tạo 15

1.2.4 Thuật toán chọn lọc tích cực và tiêu cực 16

1.2.5 Sự tương quan giữa hệ miễn dịch với môi trường mạng 18

Chương 2 CƠ SỞ DỮ LIỆU KDD 99 19

2.1 Tổng quan về cơ sở dữ liệu KDD 99 19

2.1.1 Khái quát KDD 99 19

2.1.2 Nguồn gốc các thuộc tính 20

2.2 Phân tích chi tiết về tập dữ liệu KDD 99 21

2.2.1 Giới thiệu 21

2.2.2 Mô tả tập dữ liệu KDD 23

2.2.3 Vấn đề có thể có trong tập dữ liệu KDD 99 25

2.2.4 Thống kê các quan sát 28

2.2.5 Giải pháp 31

2.2.6 Kết luận 33

2.3 Phân tích mức độ đặc trưng của thuộc tính trên tập dữ liệu KDD 99 34

2.3.1 Giới thiệu 34

2.3.2 Phương pháp 36

2.3.3 Kết quả 41

Chương 3 THỰC NGHIỆM 45

3.1 Phân loại tấn công DOS 45

3.2 Chuyển tệp KDD 99 đầy đủ và tệp chỉ chứa tấn công DOS về tệp dữ liệu có cấu trúc (dạng nhị phân) 48

3.3 Sinh tập bộ dò Aself từ tệp nhị phân chỉ chứa tấn công DOS 50

3.4 Kiểm tra kết quả 55

Trang 2

TÀI LIỆU THAM KHẢO 59

2

Trang 3

DANH SÁCH KÍ HIỆU, TỪ VIẾT TẮT

KDD Knowledge Discovery and Data Mining

DoS Denial of Services

DANH MỤC HÌNH

Trang

Hình 1.1 Các dòng miễn dịch và các thành phần của nó 7

Hình 1.2 Sự nhận diện và cơ chế kích hoạt đơn giản 9

Hình 1.3 Các tầng miễn dịch 10

Hình 1.4 Liên kết (Binding) 12

Hình 1.5 Cấu trúc phân tầng của HMD nhân tạo 14

Hình 1.6 Nhận diện mẫu gần đúng 15

Hình 1.7 Thuật toán chọn lọc tích cực 17

Hình 1.8 Thuật toán chọn lọc tiêu cực 17

Hình 1.9 Quá trình chọn lọc tiêu cực 18

Hình 2.1 Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD huấn luyện 29

Hình 2.2 Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD thử nghiệm 30

Hình 2.3 Hiệu suất lựa chọn của học máy trên KDDTest 32

Hình 2.4 Hiệu suất lựa chọn của học máy trên KDDTest+ 32

Hình 2.5 Hiệu suất lựa chọn của học máy trên KDDTest-21 32

Hình 2.6 Thông tin thu được của mỗi thuộc tính 43

Hình 3.1 Giao diện chương trình khi thực hiện nút lệnh Aself 55

Hình 3.2 Giao diện chương trình khi thực hiện nút lệnh Test 57

Trang 5

Bảng 2.3 Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập

dữ liệu huấn luyện 31

Bảng 2.4 Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập

dữ liệu thử nghiệm 31

Bảng 2.5 Các đặc điểm cơ bản của tập dữ liệu phát hiện xâm nhập

KDD 99 trong lượng mẫu 39 Bảng 2.6 Nhãn lớp xuất hiện trong tập dữ liệu "10% KDD" 40

Bảng 2.7 Thuộc tính phù hợp nhất cho mỗi nhãn lớp nhãn và thông

tin thu được 42

Bảng 2.8 Danh sách thuộc tính được lựa chọn là đặc trưng nhất

cho các nhãn lớp 44

Trang 7

MỞ ĐẦU

I Lí do chọn đề tài

Cùng với sự phát triển của ngành công nghệ thông tin là nhiều thách thức đặt

ra trong vấn đề bảo vệ hệ thống máy tính khỏi sự xâm nhập của các đoạn mã độchại Có nhiều kỹ thuật khác nhau được sử dụng cho mục đích bảo vệ sự an toàn của

hệ thống máy tính như tường lửa, phần mềm chống virus và các hệ thống phát hiệnxâm nhập Ta có thể áp dụng hệ miễn dịch (HMD) nhân tạo để làm tăng khả năngphát hiện và loại bỏ những đoạn mã độc hại trong máy tính

Việc áp dụng HMD nhân tạo vào bảo mật, an ninh mạng mang lại hiệu quảtối ưu hơn so với việc bảo mật bằng các phương pháp truyền thống trước đây Khi

có xâm nhập mạng, HMD nhân tạo sẽ tự động phân tích những hoạt động lạ khôngđược phép của hệ thống, của người sử dụng, từ đó đưa ra những cảnh báo sớm đểngăn chặn kịp thời

Để tăng khả năng phát hiện và ngăn chặn tấn công mạng các hệ thống phảitích hợp nhiều công nghệ khác nhau và được huấn luyện trên một bộ cơ sở dữ liệu

đủ lớn và trong một thời gian dài KDD CUP 99 (hay viết ngắn gọn là KDD 99) làmột cơ sở dữ liệu nổi tiếng, có thể được sử dụng để huấn luyện cho những hệ thốngnhư vậy

KDD 99 là một cơ sở dữ liệu rất lớn với khoảng 5 triệu bản ghi Nó bao gồmrất nhiều tấn công mạng được ghi nhận trong môi trường mạng máy tính quân đội

Mỹ Tập con dữ liệu chiếm khoảng 10% với nửa triệu bản ghi được khuyến cáo sửdụng cho huấn luyện cũng là một thách thức với nhiều hệ thống học máy Có nhiềuvấn đề đặt ra nhằm làm giảm độ phức tạp huấn luyện như phân loại các bản ghi, loại

bỏ các bản ghi trùng lặp,… trong cơ sở dữ liệu này Chính vì vậy em đã quyết địnhchọn đề tài “Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDDCUP 99” làm đề tài nghiên cứu khoa học của mình

II Mục đích nghiên cứu

Nghiên cứu phương pháp sinh tập bộ dò có khả năng phát hiện tấn công DOStrong tập dữ liệu KDD CUP 99

Trang 8

III Nhiệm vụ nghiên cứu

- Tìm hiểu một số thuật toán sinh tập bộ dò

- Đưa ra phương pháp tiền xử lý dữ liệu KDD 99 để rời rạc hóa dữ liệu chosinh tập bộ dò của hệ miễn dịch nhân tạo

- Cài đặt chương trình thực nghiệm về thuật toán sinh tập bộ dò và áp dụngcho nhận dạng tấn công mạng loại DOS

IV Phương pháp nghiên cứu

Trong quá trình nghiên cứu đề tài, em sử dụng phối hợp các phương phápsau:

 Nghiên cứu lý thuyết: Tìm đọc các tài liệu cập nhật, các tài liệu tiếngAnh về lĩnh vực nghiên cứu

 Tham khảo ý kiến chuyên gia: Tham khảo ý kiến từ các thầy cô trongtrường, các chuyên gia về bảo mật mạng cũng như những chuyên gia nghiêncứu lý thuyết về hệ miễn dịch nhân tạo

 Thực nghiệm: cài đặt các thuật toán và đánh giá chương trình trên một

Chương 2: Tìm hiểu về cơ sở dữ liệu KDD CUP 99

Chương 3: Rời rạc hóa dữ liệu và cài đặt chương trình, thực nghiệm với bộ

dữ liệu KDD cụ thể

Kết luận

Tài liệu tham khảo

8

Trang 9

Chương 1

HỆ MIỄN DỊCH NHÂN TẠO

I Hệ miễn dịch

1.2.1 Khái niệm hệ miễn dịch

Miễn dịch học bắt đầu được biết đến vào năm 1976 khi Edward Jenner làmthí nghiệm tiêm một lượng nhỏ virus đậu mùa vào động vật, sau đó động vật này cóthể chống lại virus đậu mùa lây nhiễm từ lần thứ hai trở đi Quá trình này được gọi

là quá trình tiêm chủng Từ đó khoa học về miễn dịch liên tục phát triển đến nay nó

đã đạt được rất nhiều thành tựu cả về mặt lý thuyết cũng như thực tế Có thể địnhnghĩa HMD như sau:

HMD là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể [2].

1.2.2 Các nguyên tắc và thành phần chủ yếu của hệ miễn dịch

HMD là một cơ chế bảo vệ tự nhiên hiệu quả và tức thời, cho phép cơ thể chống lạinhững lây nhiễm của các vi sinh vật bên ngoài Nó bao gồm hai tầng bảo vệ là: Hệthống miễn dịch bẩm sinh và hệ thống miễn dịch thích nghi Cả hai hệ thống hoạtđộng dựa trên các tế bào bạch huyết (white blood cells) còn gọi là bạch cầu(leukocyte) Trong đó HMD bẩm sinh chủ yếu dựa vào bạch cầu hạt (granulocyte)

và đại thực bào (macrophage), còn HMD thích nghi dựa vào tế bào lymphô(lymphocyte – là một loại bạch cầu)

Hình 1.1 Các dòng miễn dịch và các thành phần của nó

Trang 10

ở các ổ nhiễm để loại bỏ vi trùng và các thể ngoại lai khác ra khỏi các mô và máu.

 Bạch cầu hạt (Granulocyte): Là thành phần của HMD bẩm sinh Bạch cầuhạt gồm các loại bạch cầu trung tính (Neutrophils), bạch cầu ưa eosin (Eosionphils),bạch cầu ái kiếm (Basophils) có khả năng nuốt và tiêu huỷ một số vi sinh vật và một

số phần của kháng nguyên xâm nhập vào cơ thể

 Bạch cầu trung tính (Neutrophils – Bạch cầu đa hình): Một bạch cầu có nhânhình thuỳ và trong bào tương có nhiều hạt nhỏ màu đỏ tía, bạch cầu trung tính cókhả năng nuốt và giết các vi trùng, tạo thành một cơ chế bảo vệ quan trọng chốnglại các bệnh nhiễm

 Bạch cầu ưa eosin (Eosionphils): Là một loại bạch cầu trong bào tương cónhững hạt thô nhuộm màu đỏ cam Chức năng của loại bạch cầu này chưa được biếtđầy đủ, chỉ biết chúng có khả năng nuốt các hạt lạ, có mặt với số lượng lớn trongniêm mạc và các cơ quan bề mặt bao phủ trong cơ thể đồng thời có liên quan đếncác đáp ứng dị ứng

 Bạch cầu ái kiếm (Basophils): Chức năng của bạch cầu ái kiếm chưa đượcbiết rõ, chỉ biết chúng có khả năng nuốt các vật lạ có chứa histamine và heparin

 Lymphô bào (Lymphocyte): Là thành phần của HMD thích nghi Là mộtloại bạch cầu ở trong các hạch bạch huyết, lách, tuyến ức, thành ruột, và tuỷ xương.Các lymphô bào có nhân đặc và bào tương màu xanh lạt sáng Lymphô bào có thểchia ra lymphô bào B sản sinh ra kháng thể và lymphô bào T liên quan đến việc loạithải mô ghép Lymphô bào có nhiệm vụ nhận diện và loại bỏ tác nhân gây bệnh

10

Trang 11

1.2.3 Các cơ chế kích hoạt (hoạt hoá) và nhận diện miễn dịch cơ bản

HMD chứa một tập tế bào (cells) và phần tử (molecules) bảo vệ cơ thể chốnglại sự lây nhiễm Khi bị các kháng nguyên tấn công HMD thích nghi sẽ được kíchhoạt Kháng nguyên có thể là những phần tử bên ngoài (antigen) như các phần tửtrên bề mặt của các tác nhân gây bệnh hoặc các kháng nguyên do tế bào của cơ thểtạo ra (self-antigen) [2]

Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD.Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện kháng nguyên(Antigen presenting Cells – APC) Đầu tiên những kháng nguyên sẽ bị các cơ quantrình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành cácpeptide kháng nguyên Một phần của những peptide này kết hợp với các phần tửMHC (major histocompatibility complex – phức hợp các phần tử có nhiệm vụ trìnhdiện peptide kháng nguyên cho T-cell) trên bề mặt của APC tạo thành phức hợpMHC/peptide (II)

T-Cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng cácphức hợp MHC/peptide khác nhau (III) Mỗi khi nhận diện được MHC/peptide, T-cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu)hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác củaHMD hoạt động (IV)

Hình 1.2 Sự nhận diện và cơ chế kích hoạt đơn giản

Trang 12

APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên, MHC(major histocompatibility complex): Phức hợp các phần tử có nhiệm vụ trình diệnpeptide kháng nguyên cho T-cell, pathogen: Tác nhân gây bệnh, Lymphokines: Làmột loại bạch cầu, B-cell: Tế bào lymphô B, Actived B-cell: B-cell được kích hoạt,T-cell: Tế bào lymphô T, Activated T-cell: T-cell được kích hoạt, Plasma cell:Tương bào.

Không giống T-cell (lymphô bào T), B-cell (lymphô bào B) có các cơ quanthụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ củanhững phần tử MHC (V) Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhậndiện một kháng nguyên cụ thể Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B-cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasmacell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn Những kháng thể này

sẽ vô hiệu hoá tác nhân gây bệnh Một số B-cell và T-cell được kích hoạt này sẽchuyển thành các tế bào ghi nhớ (memory cell) Chúng sẽ tiếp tục lưu thông trong

cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyêntương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của HMD

1.2.4. Các tầng bảo vệ của hệ miễn dịch

Hình 1.3 Các tầng miễn dịch

HMD có thể coi như một cấu trúc phân tầng với cơ chế điều khiển và bảo vệtrong 3 mức:

12

Trang 13

 Mức vật lý (Physical Barriers) gồm lớp da và màng nhầy nằm ở các tuyến hôhấp và tiêu hóa chứa đại thực bào (Macrophage) và kháng thể ngăn không chonhững chất lạ xâm nhập vào cơ thể.

 Mức sinh hóa (Biochemical Barriers): Các chất lưu như nước bọt, mồ hôi,nước mắt chứa những enzym có thể loại bỏ kháng nguyên Các axit trong vùng dacùng với nhiệt độ của cơ thể cũng ngăn cản sự sống và kháng sinh của một khángnguyên

 HMD thích nghi và bẩm sinh:

 HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào vàbạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơchế bảo vệ quan trọng chống lại các bệnh truyền nhiễm) Những bạch huyết này

có các cơ quan thụ cảm trên bề mặt có thể nhận diện và bám vào các phần tử gâybệnh

Với những vi khuẩn thông thường, HMD bẩm sinh có thể nhận diện vàloại bỏ

HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinhđối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so vớilần thứ nhất

 HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào(Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell Các B-cell và T-cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loạikháng thể nào đó Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảmtrên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphôbào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ranhững kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên Một

số lymphô bào sẽ trở thành self có khả năng ghi nhớ lưu thông trong cơ thể Khi

có loại kháng nguyên tương tự lây nhiễm, sau đó HMD thích nghi có thể nhanhchóng phát hiện và loại bỏ chúng Khả năng này giúp cho cơ thể không mắc lạinhững bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoànthiện sau mỗi lần đụng độ với kháng nguyên Tóm lại, lympho bào gồm lympho

Trang 14

bào B sản sinh ra kháng thể và lympho bào T liên quan đến việc loại thải môghép Lympho bào có tác dụng nhận diện và loại bỏ tác nhân gây bệnh

Như vậy, tế bào chịu trách nhiệm phát hiện mầm bệnh trong HMD làlympho bào, chúng phát hiện bằng cách liên kết với mầm bệnh, cụ thể là liên kếtgiữa tác nhân gây bệnh và các thụ thể bao phủ bề mặt của lympho bào

Một lympho bào duy nhất chỉ có thể liên kết với các tác nhân gây bệnh cấutrúc phù hợp, bởi vì tất cả thụ thể trên lympho bào có cấu trúc giống nhau Sốcác thụ thể liên kết với mầm bệnh xác định quan hệ giữa lympho bào và tácnhân gây bệnh nhất định [9]

Vì các lympho bào phát hiện các tác nhân gây bệnh bằng cách liên kết vớimầm bệnh Điều đó có nghĩa là HMD phải có các thụ thể của lympho bào đủ đadạng để HMD hoạt động tốt và thích nghi

Hình 1.4 Liên kết (Binding) 1.2.5 Phân biệt self và nonself

Trong quá trình chọn lọc các self B-cell và T-cell, HMD thích nghi khôngchỉ phải chọn những self có khả năng nhận biết những self lạ (antigen hay nonself),

mà nó còn phải loại bỏ những self nhận biết được những self do cơ thể tạo ra (self antigen hay đơn giản là self) Tương ứng với hai quá trình này ta có quá trình chọnlọc tích cực và quá trình chọn lọc tiêu cực Hai quá trình này xảy ra với cả B-cell và

-14

Trang 15

T-cell với nguyên lý khá giống nhau Khi xây dựng thuật toán, chúng ta chỉ cần xétvới T-cell.

1.1.5.1 Phép chọn lọc tích cực

Phép chọn lọc tích cực đối với các Lympho bào (T-cell và B-cell) nhằm mục đíchtránh sự xuất hiện của các Lympho bào không có ích Những Lympho bào mà cơquan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên Kết quảcuối cùng là những Lympho bào có khả năng

1.1.5.2 Phép chọn lọc tiêu cực

Phép chọn lọc tiêu cực của các lympho bào nhằm mục đích loại bỏ nhữnglympho bào mà cơ quan thụ cảm của nó nhận diện được các self do cơ thể tạo ra và

nó có thể tiêu diệt những self này

II Hệ miễn dịch nhân tạo

1.2.1 Hệ miễn dịch nhân tạo là gì?

Có rất nhiều định nghĩa về HMD nhưng định nghĩa sau là rõ ràng và chặt chẽhơn cả và phù hợp với những nội dung mà đề tài sẽ trình bày:

“HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của miễn dịch họcthuyết và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụnggiải các bài toán thực tế” (Castro & Timmis - 2002)

Hệ miễn dịch sinh học bảo vệ các sinh vật sống trước các tác nhân gây bệnh

từ bên ngoài như vi khuẩn, virus, kí sinh trùng và độc tố Vai trò của hệ thống bảomật trong máy tính cũng tương tự như vai trò của HMD trong cơ thể các sinh vậtsống, Các đối tượng này có sự tương đồng ở cơ chế và biện pháp bảo vệ chính mìnhkhỏi các xâm nhập

1.2.2. Cấu trúc cơ bản của hệ miễn dịch nhân tạo

1.2.2.1 Mô hình chung cho các hệ thống phỏng tiến hoá sinh học

Trong các thuật toán phỏng tiến hoá sinh học nói chung, đối tượng chính củachúng là một tập nhiễm sắc thể nhân tạo (một quần thể), quần thể này trải qua quátrình chọn lọc, sản sinh và đột biến gien Quá trình này lặp lại nhiều lần, mỗi lầnnhư thế là một quần thể tiến hóa hơn xuất hiện Để xây dựng được cấu trúc cơ bản

Trang 16

của mô hình này người ta phải biểu diễn được gien các cá thể trong quần thể, cùngvới các thủ tục lựa chọn, sản sinh và đột biến gien

Cấu trúc cơ bản của hệ thống phỏng sinh học cần có 3 yếu tố cơ bản sau:

 Biểu diễn các thành phần của hệ thống

 Cơ chế đánh giá tương tác của các cá thể với môi trường và các cá thể vớinhau Môi trường thường mô phỏng bởi một tập kích thích vào, một hoặcnhiều hàm đo độ thích nghi của cá thể với môi trường

 Các thủ tục thích nghi điều khiển tính động của hệ thống, tức là làm chohoạt động của hệ thống thay đổi theo thời gian

1.2.2.2 Mô hình cho hệ miễn dịch nhân tạo

Hình 1.5 Cấu trúc phân tầng của HMD nhân tạo

 Tầng đầu tiên là lĩnh vực ứng dụng, đây là điểm cơ bản của mọi hệ thốngkhông chỉ với AIS Đối với lĩnh vực ứng dụng khác nhau sẽ quyết định những thànhphần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phầncũng khác nhau

 Tầng thứ hai là biểu diễn các thành phần: Trong AIS phải biểu diễn được haithành phần quan trọng là kháng thể và kháng nguyên

16

Trang 17

 Tầng thứ ba là các phương pháp đánh giá độ thích hợp: Để đánh giá độ thíchhợp có thể sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming,khoảng cách Euclid, hoặc khoảng cách Mahattan.

 Tầng thứ tư là sử dụng các thuật toán miễn dịch: Có thể dùng các thuật toánmiễn dịch như thuật toán chọn lọc tích cực, thuật toán chọn lọc tiêu cực, thuật toánchọn lọc clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệAIS

 Tầng thứ năm là đưa ra lời giải cho bài toán: Lời giải cho bài toán sẽ đượccập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạtđến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định

1.2.3 Nhận dạng mẫu gần đúng trong HMD nhân tạo

Trong HMD ở người thì ràng buộc sinh học giữa kháng thể và kháng nguyên

là gần đúng Nếu áp dụng vào hệ thống máy tính có thể coi các gói dữ liệu là tácnhân gây bệnh, chúng được phân đoạn cụ thể Việc sử dụng tập dữ liệu để phù hợpvới các phân đoạn trong gói dữ liệu được gọi là mẫu (pattern) Bằng cách sử dụngmối quan hệ trưởng thành tương tự với HMD tự nhiên, mẫu có thể nhận ra các phânđoạn tác nhân gây bệnh trong các gói dữ liệu, khác biệt là phải kiểm soát ngưỡngquan hệ Nếu chúng ta có bộ điều khiển ngưỡng thích ứng thì tình hình an ninh của

hệ thống máy tính được cải thiện đáng kể [9]

Hình 1.6 Nhận diện mẫu gần đúng

Trang 18

1.2.4 Thuật toán chọn lọc tích cực và tiêu cực

1.2.4.1 Thuật toán chọn lọc tích cực (Positive Selection Algorithms)

Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thểnhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), màpeptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợpcác phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thànhMHC/peptide Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan thụ cảmT-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này.Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ Trái lại

nó được chọn như một self có khả năng miễn dịch và bổ sung vào quần thể A

Thuật toán chọn lọc tích cực được minh họa như trong sơ đồ 2 và nó có thểtóm tắt như sau:

Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưatrưởng thành Giả thiết tất cả các phần tử được biểu diễn như các chuỗi nhị phân cócùng độ dài L, 2L phần tử khác nhau được tạo ra

Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần tửtrong quần thể P với tất cả phần tử trong tập S

Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong

P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo e nào đóthì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể giá trị Atrái lại T-cell bị loại bỏ

Loại bỏ

Cho vào quần thể có giá trị A

Không khớpKhớp

Phần tử p trong P nhận diện được một phần tử nào đó trong S

Trang 19

Hình 1.7 Thuật toán chọn lọc tích cực

1.2.4.2 Thuật toán chọn lọc tiêu cực (Negative Selection Algorithms)

Giống như thuật toán chọn lọc tích cực của Seiden và Celada, thuật toánchọn lọc tiêu cực của Forrest và các đồng nghiệp khá đơn giản Giả xử một tập Self-Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nhậndiện được một self-peptide nó sẽ bị loại bỏ, trái lại nó sẽ được chọn như một self cókhả năng miễn dịch và bổ sung vào quần thể có giá trị A Thuật toán chọn lọc tiêucực được minh họa trong hình 1.4 có thể được tóm tắt như sau:

Bước 1 Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưatrưởng thành Giả thiết tất cả các phần tử (các cơ quan thụ cảm và các self-peptide)được biểu diễn bằng một chuỗi nhị phân l bit

Bước 2 Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả T-cell trong

P với mọi phần tử của tập Self-Set S

Bước 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một T-cell chưatrưởng thành với ít nhất một phần tử self-peptide lớn hơn hoặc bằng một ngưỡngtương tác chéo e nào đó, thì T- cell nhận diện được self-peptide này và bị loại bỏ,trái lại T- cell được bổ sung vào quần thể có giá trị A

Hình 1.8 Thuật toán chọn lọc tiêu cực

Loại bỏ

Cho vào quần thể có giá trị A

KhớpKhông khớp

Phần tử p trong P nhận diện được một phần tử nào đó trong S

S

Quần

thể tiềm

năng P

Trang 20

Ví dụ về chọn lọc tiêu cực:

Hình 1.9 Quá trình chọn lọc tiêu cực

1.2.5 Sự tương quan giữa hệ miễn dịch với môi trường mạng

Self Tiến trình hoạt động trong một máy tính

Cơ quan đa bào Máy tính chạy đa tiến trình

Số lượng cơ quan Các máy tính trong mạng

Da và HMD bẩm sinh Mật khẩu, quyền truy cập file, truy cập nhóm

người dùng,…

HMD thích nghi Một tiến trình có khả năng kiểm soát các tiến

trình khác để phát hiện bất thườngĐáp ứng tự miễn dịch Chuông cảnh báo

01110101

10001001

Không khớp Khớp

01111000

……

00101000100100000100001010010011

0111100001011000

Trang 21

Chương 2

CƠ SỞ DỮ LIỆU KDD 99 2.1 Tổng quan về cơ sở dữ liệu KDD 99

2.1.1 Khái quát KDD 99

KDDCUP 99 là tập dữ liệu được sử dụng trong cuộc thi Khám phá kiến thức

và Khai thác dữ liệu quốc tế lần thứ 3 cùng với Hội nghị Khám phá kiến thức vàKhai thác dữ liệu KDD-99 lần thứ năm Nhiệm vụ trong cuộc thi là xây dựng mộtmáy phát hiện xâm nhập mạng, một mô hình tiên đoán có khả năng phân biệt giữacác kết nối “xấu” hay còn gọi là xâm nhập hoặc tấn công, và các kết nối “tốt” haycòn gọi là bình thường Cơ sở dữ liệu này chứa một tập hợp các dữ liệu được kiểmtoán, bao gồm một loạt các sự xâm nhập được mô phỏng trong một môi trườngmạng quân đội

Phần mềm phát hiện xâm nhập mạng bảo vệ một mạng lưới máy tính từ người

sử dụng trái phép và có thể bao gồm cả người trong cuộc Phát hiện xâm nhập học

có nhiệm vụ là xây dựng một mô hình tiên đoán (tức là phân loại) có khả năng phânbiệt giữa kết nối "xấu" được gọi là sự xâm nhập hoặc tấn công, và "tốt" kết nối bìnhthường

Năm 1998 Chương trình đánh giá phát hiện xâm nhập đã được DARPA chuẩn

bị và quản lý bởi MIT Lincoln Labs Mục tiêu là để khảo sát và đánh giá nghiên cứutrong việc phát hiện xâm nhập Một tập hợp các tiêu chuẩn của dữ liệu được kiểmtoán, bao gồm một loạt các mô phỏng của sự xâm nhập được cung cấp trong mộtmôi trường mạng quân sự Cuộc thi phát hiện xâm nhập KDD 1999 sử dụng mộtphiên bản của tập dữ liệu này Lincoln Labs thiết lập một môi trường để có đượcchín tuần dữ liệu thô TCP dump cho một mạng cục bộ (LAN) mô phỏng một mạngLAN không quân Mỹ điển hình Họ hoạt động mạng LAN như thể nó là một môitrường Air Force nhưng nó rải rác với nhiều cuộc tấn công

Dữ liệu huấn luyện thô là khoảng 4 gigabyte nén dữ liệu nhị phân TCP dumplấy từ bảy tuần lưu lượng mạng Điều này đã được xử lý vào khoảng 5.000.000 bảnghi kết nối Tương tự như vậy, hai tuần của dữ liệu thử nghiệm bắt được khoảng haitriệu bản ghi kết nối

Trang 22

Một kết nối là một chuỗi các gói tin TCP bắt đầu và kết thúc tại một số thờigian được xác định rõ ràng, giữa những luồng dữ liệu đến và đi từ một địa chỉ IPnguồn đến một địa chỉ IP đích theo một số giao thức được xác định rõ Mỗi kết nốiđược dán nhãn hoặc là bình thường, hoặc là một tấn công, với chính xác một loạitấn công cụ thể Mỗi bản ghi kết nối bao gồm khoảng 100 byte.

Các cuộc tấn công thuộc bốn loại chính sau:

 DOS: tấn công từ chối dịch vụ, ví dụ như SYN Flood;

 R2L: truy cập trái phép từ một máy từ xa, ví dụ như đoán mật khẩu;

 U2R: phép truy cập vào cục bộ (root) để đặc quyền siêu người dùng, ví

dụ như các cuộc tấn công khác nhau như "tràn bộ đệm";

 Probing: giám sát và các thăm dò khác, ví dụ như quét cổng

Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không phải là từ phânphối xác suất giống như dữ liệu huấn luyện, và nó bao gồm các kiểu tấn công cụ thểkhông có trong dữ liệu huấn luyện Điều đó làm cho các tấn công thực tế hơn Một

số chuyên gia xâm nhập tin rằng tấn công mới nhất là biến thể của các cuộc tấncông được biết đến và "chữ ký" của các cuộc tấn công được biết đến có thể là đủ đểnắm bắt được các biến thể mới lạ Các bộ dữ liệu huấn luyện chứa tổng cộng 24 loạitấn công, với 14 loại bổ sung trong các dữ liệu thử nghiệm

2.1.2 Nguồn gốc các thuộc tính

Các thuộc tính cấp cao hơn có thể trợ giúp trong việc phân biệt các kết nốibình thường từ các cuộc tấn công Có một vài loại thuộc tính có nguồn gốc từ:Thuộc tính "Cùng một máy chủ" kiểm tra các kết nối chỉ có trong hai giâytrong mà các máy chủ đích tương tự như các kết nối hiện tại, và tính toán các số liệuthống kê liên quan đến hành vi giao thức, dịch vụ,… Tương tự thuộc tính "cùngdịch vụ" kiểm tra các kết nối chỉ trong hai giây mà có dịch vụ tương tự như các kếtnối hiện tại

Các thuộc tính thuộc tính "Cùng một máy chủ" và "cùng một dịch vụ" đềuđược gọi là thuộc tính dựa trên lưu lượng thời gian truy cập của các bản ghi kết nối.Một số cuộc tấn công thăm dò quét các máy chủ (hoặc cổng) bằng cách sửdụng một khoảng thời gian lớn hơn nhiều so với hai giây, ví dụ một phút Vì vậy,

22

Trang 23

bản ghi kết nối cũng được sắp xếp bởi các máy chủ đích, và các thuộc tính được xâydựng bằng cách sử dụng một cửa sổ của 100 kết nối cùng một máy chủ thay vì mộtcửa sổ thời gian Điều này mang lại một tập hợp các thuộc tính lưu thông được gọi

là dựa trên máy chủ

Không giống như hầu hết các cuộc tấn công DOS và các cuộc tấn công thăm

dò, có vẻ như là không có mô hình tuần tự thường xuyên trong bản ghi của các cuộctấn công R2L và U2R Có lẽ là bởi vì các cuộc tấn công DOS và các cuộc tấn côngthăm dò liên quan đến nhiều kết nối của một số máy chủ (s) trong một thời gian rấtngắn, nhưng các cuộc tấn công R2L và U2R được nhúng vào trong phần dữ liệu góitin, và thường liên quan đến chỉ có một kết nối duy nhất

Các thuật toán hữu ích cho việc khai thác các phần dữ liệu phi cấu trúc của các

Có thể sử dụng kiến thức miền để thêm thuộc tính tìm kiếm các hành vi đáng ngờtrong các phần dữ liệu, chẳng hạn như số lần đăng nhập thất bại Những thuộc tínhnày được gọi là thuộc tính "nội dung"

2.2 Phân tích chi tiết về tập dữ liệu KDD 99

Tiến hành phân tích sâu các xu hướng nghiên cứu gần đây trong việc phát hiệnbất thường, người ta sẽ bắt gặp một vài phương pháp học máy có một tỷ lệ phát hiện

Trang 24

rất cao 98% trong khi vẫn giữ tỷ lệ cảnh báo sai ở mức 1% Tuy nhiên, khi xem xétgiải pháp IDS kiểu hiện đại và thương mại công cụ thì có vài sản phẩm sử dụngphương pháp phát hiện bất thường và các học viên thì vẫn cho rằng nó không phải

là một công nghệ hoàn thiện Để tìm ra lý do tương phản này thì chúng ta sẽ nghiêncứu các chi tiết nghiên cứu được thực hiện trong phát hiện bất thường và xem xétcác khía cạnh khác nhau như phương pháp học máy và phương pháp tiếp cận pháthiện, tập hợp dữ liệu huấn luyện, tập hợp dữ liệu thử nghiệm, và phương pháp đánhgiá Nghiên cứu cho thấy rằng có một vấn đề vốn có trong bộ dữ liệu KDDCUP 99,

nó được sử dụng rộng rãi như là một tập dữ liệu công bố công khai trên mạng cho

hệ thống phát hiện bất thường

Sự khiếm khuyết quan trọng đầu tiên trong tập dữ liệu KDD là số lượng rất lớncác bản ghi dư thừa Phân tích tập dữ liệu huấn luyện KDD và tập dữ liệu thửnghiệm thấy rằng khoảng 78% và 75% các bản ghi được nhân đôi trong tập dữ liệuhuấn luyện và tập dữ liệu thử nghiệm, tương ứng Số lượng lớn các bản ghi dư thừatrong các tập dữ liệu huấn luyện sẽ gây ra cho các thuật toán học thiên vị đối vớicác bản ghi thường xuyên xuất hiện, và do đó nó hạn chế với các bản ghi ít xuấthiện và thường gây hại cho các mạng như tấn công U2R Sự tồn tại của những bảnghi này lặp đi lặp lại trong các tập dữ liệu thử nghiệm, mặt khác sẽ gây ra các kếtquả đánh giá thiên vị với các phương pháp có tỷ lệ phát hiện tốt hơn trên các bảnghi thường xuyên

Ngoài ra, để phân tích mức độ khó của các bản ghi trong Dữ liệu KDD họ sửdụng 21 học viên (7 học viên từng được huấn luyện 3 lần với các tập dữ liệu huấnluyện khác nhau) để ghi nhãn bản ghi của toàn bộ dữ liệu KDD huấn luyện và cáctập dữ liệu thử nghiệm, cung cấp 21 nhãn dự đoán cho mỗi bản ghi Đáng ngạcnhiên, khoảng 98% các bản ghi trong các tập dữ liệu huấn luyện và 86% của bảnghi trong các tập dữ liệu thử nghiệm đã được phân loại chính xác với tất cả 21 máy

Lý do phải đưa ra những thống kê trên cả hai tập dữ liệu KDD là tập huấn luyện vàtập kiểm tra là trong nhiều bài báo khác, các bộ phận ngẫu nhiên của tập KDD huấnluyện được sử dụng như tập thử nghiệm Kết quả là, họ đạt khoảng 98% tỷ lệ phânloại bằng cách áp dụng phương pháp máy học rất đơn giản Ngay cả áp dụng các tập

24

Trang 25

KDD thử nghiệm sẽ có một tỷ lệ phân loại tối thiểu là 86%, mà làm cho sự so sánh

về IDS khá khó khăn khi tất cả chúng đều khác nhau trong phạm vi 86% đến 100%.Trong bài báo này, họ đã cung cấp một giải pháp để giải quyết hai vấn đề được

đề cập đến, kết quả trong tập dữ liệu huấn luyện mới và tập thử nghiệm trong đóbao gồm các các bản ghi được lựa chọn của tập dữ liệu KDD đầy đủ Cung cấp mộttập hợp dữ liệu không tồn tại bất kỳ sai sót nào đề cập đến Hơn nữa, số lượng cácbản ghi trong tập huấn luyện và các tập thử nghiệm là hợp lý, lợi thế này làm chochi phí là phải chăng để chạy hoàn thành các thí nghiệm trên mà không phải chọnngẫu nhiên một phần nhỏ trong các tập huấn luyện và các tập thử nghiệm hợp lý

Do đó, đánh giá kết quả các công trình nghiên cứu khác nhau sẽ phù hợp và có thể

2.2.2 Mô tả tập dữ liệu KDD

Từ năm 1999, tập dữ liệu KDD 99 đã được sử dụng nhiều nhất cho việc thẩmđịnh các phương pháp phát hiện bất thường Tập hợp dữ liệu này được chuẩn bị vàđược xây dựng dựa trên các dữ liệu bắt được trong chương trình đánh giá Hệ thốngphát hiện bất thường DARPA’98 DARPA có khoảng 4GB nén thô (nhị phân) dữliệu tcpdump của 7 tuần lưu thông mạng có thể được xử lý thành khoảng 5 triệu bảnghi kết nối, với mỗi bản ghi khoảng 100 byte Hai tuần của dữ liệu thử nghiệm cókhoảng 2 triệu bản ghi kết nối Tập dữ liệu KDD huấn luyện bao gồm khoảng4.900.000 vectơ kết nối đơn trong đó chứa 41 thuộc tính và được dán nhãn là bìnhthường hoặc một loại tấn công cụ thể nào đó với sự chính xác là một loại tấn công

cụ thể Các cuộc tấn công được mô phỏng xếp vào một bốn loại sau đây:

Trang 26

 Tấn công từ chối dịch vụ (DoS): là một cuộc tấn công mà trong đó kẻ tấncông làm cho một số máy tính hoặc bộ nhớ tài nguyên quá bận hoặc quá đầy để xử

ý các yêu cầu hợp lệ, hoặc từ chối người dùng hợp pháp truy cập vào một máy tính

 Tấn công người dùng vào thư mục gốc (U2R): là một lớp khai thác trong đó

kẻ tấn công bắt đầu với truy cập bình thường vào tài khoản người dùng trên hệthông (có thể thu được bằng cách can thiệp mật khẩu, một cuộc tấn công từ điển,hoặc kỹ thuật xã hội) và có thể khai thác một số lỗ hổng để đạt được thư mục gốcsau đó truy cập vào hệ thống

 Tấn công từ xa vào cục bộ (R2L): xảy ra khi một kẻ tấn công có khả nănggửi gói tin đến một máy tính qua mạng nhưng không có một tài khoản trên máy tính

đó để khai thác qua một số lỗ hổng để truy cập vào cục bộ như là một người sửdụng máy tính đó

 Tấn công thăm dò (Probing): là một nỗ lực để thu thập thông tin về mộtmạng lưới các máy tính với mục đích rõ ràng là phá vỡ kiểm soát an ninh

 Điều quan trọng cần lưu ý là các dữ liệu thử nghiệm không cùng một phânphối xác suất như dữ liệu huấn luyện, và nó không có các loại tấn công cụ thể nhưtrong dữ liệu huấn luyện mà bao gồm các tấn công thực tế hơn Một số chuyên giaphát hiện xâm nhập cho rằng hầu hết các loại tấn công mới là các biến thể của cácloại tấn công đã biết và dấu hiệu của các loại tấn công đã biết có thể đủ để nắm bắtđược các biến thể mới lạ Các tập dữ liệu huấn luyện chứa tổng số 24 các loại tấncông, và 14 loại bổ sung trong các dữ liệu thử nghiệm

Các thuộc tính của tập dữ liệu KDD 99 có thể được phân thành ba nhóm:

1 Các thuộc tính cơ bản: nhóm này chứa tất cả các thuộc tính có được từ

một kết nối TCP / IP Hầu hết các thuộc tính này đều dẫn đến một tiềm ẩn là làmchậm việc phát hiện

2 Các thuộc tính lưu thông: nhóm này bao gồm các thuộc tính mà nó được

tính toán với khoảng thời gian một cửa sổ và nó được chia thành hai nhóm:

Thuộc tính "cùng máy chủ": kiểm tra các kết nối chỉ trong 2 giây mà có

cùng một đích đến là máy chủ kết nối hiện tại, và các số liệu tính toán thống kêliên quan đến hành vi giao thức, dịch vụ, …

26

Trang 27

Thuộc tính “cùng dịch vụ”: kiểm tra các kết nối chỉ trong 2 giây mà có

cùng một cùng một dịch vụ như dịch vụ kết nối hiện tại

Hai loại thuộc tính “lưu thông” nói trên được gọi là thuộc tính dựa trên thờigian Tuy nhiên, có một số cuộc tấn công thăm dò chậm, quét các máy chủ (hoặccổng) sử dụng một khoảng thời gian lớn hơn 2 giây nhiều, ví dụ: trong mỗi phút.Kết quả là, các cuộc tấn công không sản xuất mô hình xâm nhập với một cửa sổthời gian 2 giây Để giải quyết vấn đề này, thuộc tính "cùng máy chủ" và “cùngdịch vụ" tính toán lại dựa trên cửa sổ kết nối của 100 của 100 kết nối chứ khôngphải là một cửa sổ thời gian 2 giây Những tính năng này được gọi là thuộc tính

“lưu thông” dựa trên kết nối

3 Các thuộc tính nội dung: Không giống hầu hết các cuộc tấn công DoS và

Probing, các cuộc tấn công R2L và U2R không có bất kỳ xâm nhập thườngxuyên nào theo mô hình tuần tự Điều này là do các cuộc tấn công Dos vàProbing liên quan đến nhiều kết nối của một số máy chủ trong một thời gian rấtngắn Tuy nhiên các cuộc tấn công R2L và U2R được nhúng trong các phần dữliệu của các gói dữ liệu, và thường liên quan đến việc chỉ có một kết nối duynhất Để phát hiện các loại tấn công, cần một số thuộc tính để có thể tìm ranhững hành vi đáng ngờ trong các phần dữ liệu, ví dụ: số lượng cố gắng đăngnhập thất bại, các thuộc tính này được gọi là các thuộc tính nội dung

2.2.3 Vấn đề có thể có trong tập dữ liệu KDD 99

Như đề cập trong phần trước, KDD 99 được xây dựng dựa trên các dữ liệuDARPA'98, do các dữ liệu là tổng hợp nên kết quả là một số vấn đề có trongDARPA'98 vẫn còn tồn tại trong KDD 99 Tuy nhiên, có một vài cải tiến hơn nó cóthể là có chủ ý hoặc vô ý, và cùng với một số vấn đề bổ sung nữa Trong phần sauđây, xem xét lại các vấn đề trong DARPA'98 và sau đó thảo luận về sự tồn tại củacác vấn đề có thể có trong KDD 99 Cuối cùng là thảo luận các vấn đề mới quan sátthấy trong các tập hợp dữ liệu KDD

1 Đối với mục đích riêng: các thí nghiệm đã lựa chọn tổng hợp trên cả hai dữ

liệu: dữ liệu nền và dữ liệu tấn công, và dữ liệu được khẳng định là tương tự nhưmột số dữ liệu mẫu quan sát được từ trong một số cơ sở dữ liệu của lực lượng

Trang 28

không quân Tuy nhiên, không phân tích cũng không thí nghiệm xác nhận các đặc

điểm của dữ liệu cảnh báo sai Hơn nữa, khối lượng công việc của dữ liệu tổng hợp

có vẻ không giống như lưu lượng truy cập trong các mạng thực sự

2 Lưu lượng sưu tầm như tcpdump, được dùng trong DARPA’98, rất có khả

năng trở thành quá tải và có khả năng là hủy bỏ các gói nếu lưu lượng tải là quá lớn.Tuy nhiên, không có sự điều tra để khẳng định khả năng huỷ bỏ của các gói tin

3 Không có định nghĩa chính xác về các cuộc tấn công Ví dụ: tấn công “thăm

dò” là không nhất thiết phải là một loại tấn công trừ khi số lần lặp lại vượt quá mộtngưỡng cụ thể Tương tự như vậy, một gói tin gây ra một lỗi tràn bộ đệm khôngphải là lúc nào cũng là đại diện của một cuộc tấn công Trong điều kiện như vậy,cần có một thỏa thuận về các định nghĩa giữa thẩm định viên và thẩm định Tuynhiên, trong DARPA'98, không có định nghĩa cụ thể về tấn công mạng

Ngoài ra, có một số phê bình về nguyên tắc phân loại tấn công và biện pháp thựchiện Tuy nhiên, vấn đề đó không phải là mối quan tâm nhiều của bài báo này vìhầu hết các hệ thống phát hiện bất thường làm việc với nhãn nhị phân, nghĩa là: bấtthường và bình thường, thay vì xác định các thông tin chi tiết của các cuộc tấn công.Bên cạnh đó, thực hiện các biện pháp đánh giá áp dụng trong DARPA'98, ROCCurves, đã bị phê bình nhiều, và kể từ đó nhiều nhà nghiên cứu đã đề xuất các biệnpháp mới để khắc phục những khiếm khuyết hiện có

Trong khi sự phê bình của McHugh chủ yếu dựa trên các thủ tục tạo ra các dữliệu chứ không phải là phân tích dữ liệu, Mahoney và Chan phân tích mạng lưới lưuthông mạng nền DARPA và bằng chứng tìm thấy các hiện vật mô phỏng có thể dẫnđến một đánh giá rất cao về việc thực hiện một số phương pháp phát hiện bấtthường Trong bài báo, tác giả đề cập đến năm loại bất thường dẫn đến phát hiện tấncông Tuy nhiên, phân tích các cuộc tấn công trong các tập dữ liệu DARPA chothấy là nhiều cái không phù hợp với bất kỳ loại nào, và có khả năng gây ra bởi cáchiện vật mô phỏng Ví dụ như: TTL (time to live) có giá trị 126 và 253 chỉ xuất hiệntrong lưu lượng thù địch, trong khi ở hầu hết các lưu lượng truy cập nền tảng giá trị

là 127 và 254 Tương tự như vậy, một số cuộc tấn công có thể được xác định bằngđịa chỉ IP nguồn là bất thường hoặc trường kích thước cử sổ TCP bất thường

28

Trang 29

May mắn là hiện vật mô phỏng nói trên không ảnh hưởng đến các tập dữ liệuKDD, 41 thuộc được sử dụng trong KDD, không liên quan đến bất kỳ khiếm khuyếtnào đã đề cập Tuy nhiên, KDD lại tồn tại các vấn đề bổ sung mà nó không có trong

bộ dữ liệu DARPA

Portnoy et al đã phân chia tập dữ liệu KDD lập thành mười tập con, mỗi tập con

có chứa khoảng 490.000 bản ghi hoặc 10% tập dữ liệu Tuy nhiên, họ quan sát thấyrằng việc phân phối các cuộc tấn công trong tập hợp dữ liệu KDD là rất không đồngđều,và việc xác nhận chéo rất khó khăn Nhiều trong số các tập con có trường hợpchỉ có một loại duy nhất Ví dụ: các tập con thứ 4, 5, 6, 7 gồm phần 10% của tập dữ

liệu đầy đủ chứa chỉ các cuộc tấn công “Smurf”, và một trường hợp nữa là dữ liệu trong tập con thứ 8 hầu như toàn là sự xâm nhập của “Neptune”.

Tương tự như vậy, cùng với vấn đề đó là các cuộc tấn công Smurf và Neptune

trong tập dữ liệu KDD huấn luyện Các tác giả có đề cập đến hai vấn đề gây ra bởicác cuộc tấn công trong các tập dữ liệu Đầu tiên, hai loại tấn công DoS chiếm hơn71% các tập hợp dữ liệu thử nghiệm, nó hoàn toàn ảnh hưởng đến việc đánh giá.Thứ hai, kể từ khi họ tạo ra một khối lượng lớn lưu lượng truy cập, họ có thể dễdàng phát hiện bằng phương khác và không cần thiết phải sử dụng hệ thống pháthiện bất thường để tìm ra các cuộc tấn công

Bản ghi ban đầu Bản ghi khác biệt Tỷ lệ giảm

Bảng 2.1 Thống kê các bản ghi dư thừa trong tập dữ liệu kdd huấn luyện

Bản ghi ban đầu Bản ghi khác biệt Tỷ lệ giảm

Trang 30

Như đã đề cập trước đó, có một số vấn đề tồn tại trong tập dữ liệu KDD làmcho kết quả đánh giá trên dữ liệu là không đáng tin cậy Trong phần này, người tathực hiện một tập hợp các thí nghiệm cho thấy các khiếm khuyết tồn tại trong KDD.

2.2.4.1 Các bản ghi dư thừa

Một trong những khiếm khuyết cần lưu ý nhất trong tập hợp dữ liệu KDD là

số lượng lớn các bản ghi dư thừa, làm cho các thuật toán học thiên vị hơn đối vớicác bản ghi xuất hiện thường xuyên, và cản trở các bản ghi ít xuất hiện thường gâyhại cho các mạng như các cuộc tấn công công U2R và R2L

Ngoài ra, sự tồn tại lặp đi lặp lại của các bản ghi trong tập dữ liệu thử nghiệm

sẽ làm cho các kết quả đánh giá thiên vị bởi các phương pháp có tỷ lệ phát hiện tốthơn với các bản ghi xuất hiện thường xuyên

Để giải quyết vấn đề này, chúng ta loại bỏ tất cả các bản ghi lặp đi lặp lạitrong cả tập dữ liệu KDD huấn luyện và thử nghiệm, và giữ một bản sao mỗi bảnghi Bảng 1 và 2 minh họa các số liệu thống kê của việc giảm đi các bản ghi lặp đilặp lại trong các tập dữ liệu KDD huấn luyện và thử nghiệm, tương ứng

Trong khi thực hiện quá trình này, người ta gặp hai bản ghi không hợp lệtrong tập KDD thử nghiệm, bản ghi số 136.489 và 136.497, hai bản ghi này có chứamột giá trị không hợp lệ, ICMP, thuộc tính “dịch vụ” của nó Vì vậy loại bỏ chúngkhỏi tập KDD thử nghiệm

2.2.4.2 Mức phức tạp

Cách tiếp cận điển hình để thực hiện phát hiện bất thường sử dụng tập dụngtập hợp dữ liệu KDD là sử dụng một thuật toán học máy tùy chỉnh để tìm hiểu cáchành vi chung của các tập dữ liệu để có thể phân biệt giữa hành vi bình thường vàđộc hại Với mục đích này, tập dữ liệu được phân chia thành hai phần thử nghiệm

và huấn luyện, học viên được đào tạo cách sử dụng phần huấn luyện của tập dữ liệu

và sau đó được đánh giá hiệu quả trên phần thử nghiệm Nhiều nhà nghiên cứutrong các lĩnh vực chung của học máy đã cố gắng đưa ra những học viên phức tạp

để tối ưu hoá độ chính xác và tốc độ phát hiện trên tập dữ liệu KDD 99 Một trongcác cách tiếp cận tương tự là chọn bảy phương pháp học máy được sử dụng rộngrãi, cụ thể là: J48, Naive Bayes, NBTree, Random Forest, Random Tree, Multilayer

30

Ngày đăng: 22/07/2014, 11:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân (2007), Hệ miễn dịch nhân tạo và ứng dụng, Tạp chí Khoa học và Công nghệ, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Hệ miễndịch nhân tạo và ứng dụng
Tác giả: Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân
Năm: 2007
[2]. Phạm Văn Việt (2006), Nghiên cứu, phát triển và ứng dụng hệ miễn dịch nhân tạo trong việc giải các bài toán tối ưu, Luận văn Thạc sĩ kỹ thuật, Học viện kỹ thuật quân sự Sách, tạp chí
Tiêu đề: Nghiên cứu, phát triển và ứng dụng hệ miễn dịch nhântạo trong việc giải các bài toán tối ưu
Tác giả: Phạm Văn Việt
Năm: 2006
[3]. Phạm Đình Lâm (2008), Tìm hiểu hệ miễn dịch nhân tạo và ứng dụng, Luận văn tốt nghiệp Đại học, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Tìm hiểu hệ miễn dịch nhân tạo và ứng dụng
Tác giả: Phạm Đình Lâm
Năm: 2008
[4]. Đặng Hải Yến (2012), Bước đầu tìm hiểu lý thuyết nguy hiểm và ứng dụng trong bảo mật, Luận văn tốt nghiệp Đại học, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Bước đầu tìm hiểu lý thuyết nguy hiểm và ứng dụngtrong bảo mật
Tác giả: Đặng Hải Yến
Năm: 2012
[5]. Đặng Thị Trang (2012), Một số phương pháp sinh bộ dò trong hệ miễn dịch nhân tạo, Luận văn tốt nghiệp Đại học, Đại học Thái Nguyên Sách, tạp chí
Tiêu đề: Một số phương pháp sinh bộ dò trong hệ miễn dịchnhân tạo
Tác giả: Đặng Thị Trang
Năm: 2012
[6]. Hoàng Thị Toàn (2012), Nghiên cứu cơ sở dữ liệu KDD 99 và ứng dụng cho bảo mật mạng, Đề tài nghiên cứu khoa học.Tiếng Anh Sách, tạp chí
Tiêu đề: Hoàng Thị Toàn (2012), Nghiên cứu cơ sở dữ liệu KDD 99 và ứng dụng chobảo mật mạng
Tác giả: Hoàng Thị Toàn
Năm: 2012
[9]. Hong Lin (2005), A real – time Dynamic Danger TheoryModel for Anomaly Detection in File Systems, Master thesis of York University, USA Sách, tạp chí
Tiêu đề: A real – time Dynamic Danger TheoryModel for AnomalyDetection in File Systems
Tác giả: Hong Lin
Năm: 2005
[10]. T.S. Chou, K.K. Yen, and J. Luo, “Network Intrusion Detection Design Using Feature Selection of Soft Computing Paradigms”, International Journal of Soft Computational Intelligence, 2008 Sách, tạp chí
Tiêu đề: Network Intrusion Detection Design UsingFeature Selection of Soft Computing Paradigms
[7]. Kayacik H.G. et al, Selecting Features for Intrusion Detection: A Feature relevance analysis on KDD 99 Intrusion Detection Datasets Proceedings of the Third Annual Conference on Privacy, Security and Trust (PST-2005), October 2005 Khác
[8]. Mahbod Tavallaee et al., A Detailed Analysis of the KDD CUP 99, in 2009 IEEE Symposium on Computational Intelligence for Security and Defense Applications, 2009 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Các dòng miễn dịch và các thành phần của nó - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.1. Các dòng miễn dịch và các thành phần của nó (Trang 6)
Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD. - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.2 là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của HMD (Trang 8)
Hình 1.3. Các tầng miễn dịch - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.3. Các tầng miễn dịch (Trang 9)
Hình 1.4. Liên kết (Binding) 1.2.5. Phân biệt self và nonself - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.4. Liên kết (Binding) 1.2.5. Phân biệt self và nonself (Trang 11)
Hình 1.5. Cấu trúc phân tầng của HMD nhân tạo - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.5. Cấu trúc phân tầng của HMD nhân tạo (Trang 13)
Hình 1.6. Nhận diện mẫu gần đúng 1.2.4. Thuật toán chọn lọc tích cực và tiêu cực - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.6. Nhận diện mẫu gần đúng 1.2.4. Thuật toán chọn lọc tích cực và tiêu cực (Trang 14)
Hình 1.7. Thuật toán chọn lọc tích cực - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.7. Thuật toán chọn lọc tích cực (Trang 15)
Hình 1.8. Thuật toán chọn lọc tiêu cực Ví dụ về chọn lọc tiêu cực: - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.8. Thuật toán chọn lọc tiêu cực Ví dụ về chọn lọc tiêu cực: (Trang 16)
Hình 1.9. Quá trình chọn lọc tiêu cực - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 1.9. Quá trình chọn lọc tiêu cực (Trang 17)
Bảng 2.2. Thống kê các bản ghi dư thừa trong tập dữ liệu KDD thử nghiệm 2.2.4. Thống kê các quan sát - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.2. Thống kê các bản ghi dư thừa trong tập dữ liệu KDD thử nghiệm 2.2.4. Thống kê các quan sát (Trang 26)
Hình 2.1. Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD huấn luyện. - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 2.1. Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD huấn luyện (Trang 28)
Hình 2.2. Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD thử nghiệm - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 2.2. Sự phân bố của các giá trị #successfulPrediction các bản ghi tập dữ liệu KDD thử nghiệm (Trang 28)
Bảng 2.4. Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập dữ liệu thử nghiệm - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.4. Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập dữ liệu thử nghiệm (Trang 30)
Bảng 2.3. Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập dữ liệu huấn luyện - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.3. Thống kê các bản ghi được lựa chọn ngẫu nhiên từ tập dữ liệu huấn luyện (Trang 30)
Hình 2.5. Hiệu suất lựa chọn của học máy trên KDDTest -21 - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 2.5. Hiệu suất lựa chọn của học máy trên KDDTest -21 (Trang 31)
Bảng 2.6. Nhãn lớp xuất hiện trong tập dữ liệu "10% KDD" - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.6. Nhãn lớp xuất hiện trong tập dữ liệu "10% KDD" (Trang 38)
Bảng 2.7. Thuộc tính phù hợp nhất cho mỗi nhãn lớp nhãn và thông tin thu được - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.7. Thuộc tính phù hợp nhất cho mỗi nhãn lớp nhãn và thông tin thu được (Trang 41)
Hình 2.6. Thông tin thu được của mỗi thuộc tính - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 2.6. Thông tin thu được của mỗi thuộc tính (Trang 41)
Bảng 2.8. Danh sách thuộc tính được lựa chọn là đặc trưng nhất cho các nhãn lớp - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Bảng 2.8. Danh sách thuộc tính được lựa chọn là đặc trưng nhất cho các nhãn lớp (Trang 42)
Hình 3.1 Giao diện chương trình khi thực hiện nút lệnh Aself 3.4. Kiểm tra kết quả - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 3.1 Giao diện chương trình khi thực hiện nút lệnh Aself 3.4. Kiểm tra kết quả (Trang 54)
Hình 3.2. Giao diện chương trình khi thực hiện nút lệnh Test - Áp dụng hệ miễn dịch nhân tạo trong phân cụm cơ sở dữ liệu KDD CUP 99
Hình 3.2. Giao diện chương trình khi thực hiện nút lệnh Test (Trang 56)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w