Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 58 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
58
Dung lượng
872,41 KB
Nội dung
LỜI CẢM ƠN Để hoàn thành đề tài này, em xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo Ths. Nguyễn Văn Trường – Giảng viên Tin học, khoa Toán, Trường Đại học Sư Phạm – Đại học Thái Nguyên, đã định hướng ý tưởng, tận tình giúp đỡ, chỉ bảo em trong suốt quá trình thực hiện đề tài. Em xin chân thành cảm ơn Ban giám hiệu nhà trường, Ban chủ nhiệm khoa Toán cùng toàn thể các thầy, cô giáo trong khoa đã tận tình hướng dẫn, giúp đỡ em thực hiện đề tài. Bên cạnh đó, em xin gửi lời cảm ơn đến gia đình, bạn bè và những người thân đã động viên giúp đỡ em trong suốt quá trình làm đề tài. Trong quá trình tiến hành làm đề tài do chưa có nhiều kinh nghiệm nên không tránh khỏi những thiếu sót và hạn chế. Vì vậy em rất mong nhận được sự góp ý của các thầy cô và các bạn sinh viên để đề tài được hoàn thiện hơn. Em xin chân thành cảm ơn! Thái Nguyên, tháng 3 năm 2013 Sinh viên Vũ Thị Nguyệt Thu 1 MỤC LỤC 2 DANH SÁCH KÍ HIỆU, TỪ VIẾT TĂT Viết tắt Viết đầy đủ HMD Hệ miễn dịch NSA Negative Selfection Algorithm-Thuật toán chọn lọc tiêu cực MHC Major Histocompatibility Complex |X| Lực lượng của tập X CNTT Công nghệ thông tin TTNT Trí tuệ nhân tạo Dpn Tập bộ dò kết hợp cây self và nonself Dne Tập bộ dò sinh bởi cây nonself Dp Tập bộ dò sinh bởi cây self mns millisecond DANH SÁCH HÌNH VẼ, BẢNG Hình 1.1. Cấu trúc phân tầng của HMD nhân tạo Hình 1.2. Sơ đồ khối thuật toán chọn lọc tích cực Hình 1.3. Sơ đồ khối thuật toán chọn lọc tiêu cực Hình 2.1. Một phần của các cây nhị phân sinh ra bởi s 1 = 01111 Hình 2.2. Một phần của cây nhị phân khi thêm s 2 Hình 2.3. Cây được tạo hoàn chỉnh từ tập S Hình 2.4. Nhánh đầu tiên của cây để tạo cây Rchunk(S, 3) Hình 2.5. Cây r - chunk(S, 3) được tạo hoàn chỉnh Hình 3.1. Cây nhị phân được tạo từ tập Dnei và Dpi, i = 1, 2, 3 Hình 3.2. Cây self tree[1] được tạo sau bước 1.2. Bảng 1. So sánh độ phức tạp của thuật toán sinh và so khớp chunkD(S, r) Hình 4.1. Tệp data1.inp và tập bộ dò chứa trong tệp data1pone.out Hình 4.2. Giao diện kết quả sau khi so khớp Hình 4.3. File dữ liệu và tập bộ dò của file Hình 4.4. Kết quả sau khi so khớp lại Hình 4.5. Dữ liệu file gốc Hình 4.6. Dữ liệu trong file đã bị thay đổi Hình 4.7. Kết quả sau khi so khớp 3 Bảng 2. Thời gian so khớp bộ dò với dữ liệu trong file không chứa xâu nonself Bảng 3. So sánh thời gian để phát hiện trong tập S có các s là nonself Hình 4.8. File dữ liệu gốc Hình 4.9. Tập bộ dò Dpn sinh từ file “data20.inp” với r = 11 Hình 4.10. Tập bộ dò Dne sinh từ file “data20.inp” với r = 11 Bảng 4. Tổng hợp kết quả với r biến thiên Biểu đồ 1. So sánh thời gian so khớp trên bộ dữ liệu “data20.inp” của 2 tập bộ dò tương ứng với các giá trị r biến thiên. Hình 4.11. File dữ liệu gốc Hình 4.12. Tập bộ dò Dpn với r = 15 Hình 4.13. Tập bộ dò Dne với r = 15 Bảng 5. Tổng hợp kết quả với r biến thiên Biểu đồ 2. So sánh thời gian so khớp trên bộ dữ liệu “data30.inp” của 2 tập bộ dò tương ứng với các giá trị r biến thiên. Hình 4.14. File dữ liệu gốc Hình 4.15. Tập bộ dò Dpn với r = 15 Hình 4.16. Tập bộ dò Dne với r = 15 Bảng 6. Tổng hợp kết quả với r biến thiên Biểu đồ 3. So sánh thời gian so khớp trên bộ dữ liệu “data40.inp” của 2 tập bộ dò tương ứng với các giá trị r biến thiên. Hình 4.17. File dữ liệu gốc Hình 4.18. Tập bộ dò Dpn với r = 15 Hình 4.19. Tập bộ dò Dne với r = 15 Bảng 7. Tổng hợp kết quả với r biến thiên Biểu đồ 4. So sánh thời gian so khớp trên bộ dữ liệu “data4goc.inp” của 2 tập bộ dò tương ứng với các giá trị r biến thiên. Biểu đồ 5. Mối quan hệ giữa tỉ lệ số node giảm và r Biểu đồ 6. Trung bình tỉ lệ số node giảm 4 MỞ ĐẦU Lý do chọn đề tài Một trong số những mối quan tâm của người sử dụng máy tính là sự phát tán và xâm nhập của virus vào các hệ thống CNTT về cả chiều rộng và chiều sâu. Virus máy tính thực sự trở thành hiểm họa, là mối đe dọa thường xuyên và cấp bách đối với các hệ thống CNTT. Các hệ thống CNTT phần lớn sử dụng các phần mềm chống virus (anti-virus (AV)) như là biện pháp phòng chống. Nhưng phần lớn các AV chỉ phát huy tính năng trên các mẫu virus xác định, trong khi đó các virus ngày càng tinh vi, biến đổi. Các phương pháp truyền thống trong việc phòng chống tấn công, xâm nhập trái phép vào các hệ thống CNTT mang tính bị động, kém hiệu quả. Chính vì vậy, việc nghiên cứu các công nghệ mới để phát hiện, cảnh báo sớm các xâm nhập bất hợp pháp, cả đối với các xâm nhập, tấn công lần đầu tiên xảy ra sẽ góp phần tạo ra các mạng có khả năng tự bảo vệ cao và hạn chế được các thiệt hại về tài nguyên hay dữ liệu cho hệ thống. Việc ứng dụng TTNT để đưa ra các giải pháp nhằm mục đích phát hiện và dự đoán những mẫu virus mới là bước tiến mới, khả quan trong vấn đề phòng chống virus. Trong đó, điển hình nhất là HMD nhân tạo - phương pháp tiếp cận dựa trên các nguyên lý, chức năng, mô hình hoạt động của HMD sinh học ở người. Cơ chế phát hiện virus trong HMD nhân tạo dựa trên cơ chế chọn lọc âm tính hoặc chọn lọc dương tính mà nền tảng là việc sử dụng các tập bộ dò thu được sau quá trình huấn luyện để nhận dạng. Các vấn đề liên quan đến sinh tập bộ dò tối ưu (đầy đủ, không dư thừa, có khả năng phát hiện cao, dung lượng nhỏ) là vấn đề được quan tâm hàng đầu của các nhà nghiên cứu. Tuy nhiên các thuật toán đưa ra còn nhiều hạn chế về tốc độ hay bộ nhớ khiến hiệu suất của các hệ thống phát hiện xâm nhập không cao, đặc biệt là dữ liệu ngày càng lớn. Vì vậy, em quyết định chọn đề tài: “Nghiên cứu kết hợp chọn lọc âm tính và chọn lọc dương tính trong hệ miễn dịch nhân tạo” để làm đề tài nghiên cứu. Đề tài nghiên cứu sẽ tập trung vào việc phối hợp giữa chọn lọc âm tính và chọn lọc dương tính để sinh ra tập bộ dò tối ưu. Mục đích nghiên cứu 5 Nghiên cứu kết hợp chọn lọc âm tính và chọn lọc dương tính trong HMD nhân tạo Nhiệm vụ nghiên cứu • Tìm hiểu một số thuật toán sinh tập dò • Đề xuất phương pháp sinh tập dò sử dụng cấu trúc cây nhị phân có kết hợp giữa chọn lọc âm tính và chọn lọc dương tính • Cài đặt chương trình. Phương pháp nghiên cứu • Nghiên cứu lý thuyết: tìm đọc các tài liệu về lĩnh vực nghiên cứu • Tham khảo ý kiến: tham khảo ý kiến cũng như cách thức nghiên cứu lý thuyết về HMD nhân tạo của các thầy cô trong trường, các chuyên gia về bảo mật. • Thực nghiệm: cài đặt thuật toán đề xuất; so sánh, đánh giá độ phức tạp thời gian với kết quả của các thuật toán chọn lọc âm tính gần đây. Cấu trúc đề tài • Chương 1: Trình bày tổng quan về hệ miễn dịch sinh học và hệ miễn dịch nhân tạo. • Chương 2: Một số phương pháp sinh tập bộ dò • Chương 3: Phương pháp sinh tập dò bằng cây nhị phân kết hợp chọn lọc âm tính và chọn lọc dương tính • Chương 4: Thực nghiệm cài đặt thuật toán ở chương 3. 6 Chương 1 TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO NHÂN TẠO 1.1. Tổng quan về hệ miễn dịch sinh học 1.1.1. Khái niệm Hệ miễn dịch (HMD) sinh học là tập hợp tất cả các cơ chế sinh học giúp cho một cơ thể đa bào giữ được sự liên kết giữa các tế bào và các mô, đảm bảo sự toàn vẹn của cơ thể bằng cách loại bỏ những thành phần bị hư hỏng cũng như các chất và sinh vật xâm hại. Chức năng bảo vệ cơ thể bao gồm hai loại cơ chế miễn dịch, lần lượt xuất hiện trong quá trình tiến hóa của các loài và liên hệ chặt chẽ với nhau ở các động vật bậc cao. 1.1.2. Hệ miễn dịch thích nghi và hệ miễn dịch bẩm sinh Hệ miễn dịch thích nghi và hệ miễn dịch bẩm sinh nằm ở tầng trong cùng, mức bảo vệ cao nhất của cơ thể. HMD bẩm sinh: Hoạt động dựa vào bạch cầu huyết là đại thực bào và bạch cầu trung tính (có chức năng nuốt và tiêu diệt các vi trùng, tạo ra một cơ chế bảo vệ quan trọng chống lại các bệnh truyền nhiễm). Những bạch huyết này có các cơ quan thụ cảm trên bề mặt, chúng có thể nhận diện và bám vào các phần tử gây bệnh. HMD bẩm sinh không có cơ chế ghi nhớ, hoạt động của HMD bẩm sinh đối với các vi sinh vật xâm nhập vào cơ thể lần thứ hai không có gì khác so với lần thứ nhất. - HMD thích nghi: hoạt động với các thành phần chính là các lymphô bào (Lymphocyte – là một loại bạch cầu) bao gồm B-cell và T-cell. Các B-cell và T- 7 cell trên bề mặt của chúng có những cơ quan thụ cảm chuyên dụng cho một loại kháng thể nào đó. Khi kháng nguyên xâm nhập vào cơ thể các cơ quan thụ cảm trên bề mặt của lymphô bào sẽ kết hợp với kháng nguyên làm cho các lymphô bào này được kích hoạt và thực hiện quá trình nhân rộng, đột biến sau đó tạo ra những kháng thể thích hợp có khả năng nhận diện và loại ổ kháng nguyên. Một số lymphô bào sẽ trở thành tế bào có khả năng ghi nhớ lưu thông trong cơ thể. Khi có loại kháng nguyên tương tự lây nhiễm, thì HMD thích nghi có thể nhanh chóng phát hiện và loại bỏ chúng. Khả năng này giúp cho cơ thể không mắc lại những bệnh cũ, do đó đáp ứng miễn dịch thích nghi cho phép HMD tự hoàn thiện sau mỗi lần đụng độ với kháng nguyên. Trong quá trình chọn lọc các tế bào B-cell và T-cell, HMD thích nghi không chỉ phải chọn những tế bào có khả năng nhận biết những tế bào lạ (antigen hay nonself), mà nó còn phải loại bỏ những tế bào nhận biết được những tế bào do cơ thể tạo ra (self - antigen hay self). Tương ứng với hai khả năng đó ta có quá trình chọn lọc tích cực và quá trình chọn lọc tiêu cực. + Phép chọn lọc tích cực Phép chọn lọc tích cực đối với các Lymphô bào (T-cell và B-cell) nhằm mục đích tránh sự xuất hiện của các Lymphô bào không có ích. Những Lymphô bào mà cơ quan thụ cảm của chúng không có khả năng nhận diện được kháng nguyên. Kết quả cuối cùng là những Lymphô bào có khả năng nhận diện được kháng nguyên. + Phép chọn lọc tiêu cực Phép chọn lọc tiêu cực của các lymphô bào nhằm mục đích loại bỏ những lymphô bào mà cơ quan thụ cảm của nó nhận diện được các tế bào do cơ thể tạo ra và nó có thể tiêu diệt những tế bào này. 1.2. Tổng quan về hệ miễn dịch nhân tạo 8 ! "#$ "%&'() 1.2.1. Khái niệm về hệ miễn dịch nhân tạo HMD nhân tạo là một hệ thống thích nghi lấy ý tưởng của học thuyết miễn dịch và những chức năng, nguyên tắc, mô hình miễn dịch quan sát được, áp dụng giải các bài toán thực tế. 1.2.2. Mô hình hệ miễn dịch nhân tạo Hình 1.1. Cấu trúc phân tầng của HMD nhân tạo - Tầng lĩnh vực ứng dụng: lĩnh vực ứng dụng khác nhau sẽ quyết định những thành phần và cách thức biểu diễn khác nhau và dẫn tới các thao tác trên các thành phần cũng khác nhau. - Tầng biểu diễn các thành phần: Trong HMD nhân tạo phải biểu diễn được hai thành phần quan trọng là kháng thể và kháng nguyên. - Tầng các phương pháp đánh giá độ thích hợp: sử dụng nhiều phương pháp khác nhau như khoảng cách Hamming, khoảng cách Euclid, hoặc khoảng cách Mahattan. 9 - Tầng các thuật toán miễn dịch: Có thể sử dụng các thuật toán miễn dịch như thuật toán chọn lọc tích cực, NSA, thuật toán clôn, thuật toán aiNet, thuật toán RAIN để điều chỉnh tính động của hệ HMD nhân tạo. - Tầng lời giải cho bài toán: Lời giải cho bài toán sẽ được cập nhật lại sau khi một quần thể mới được tạo và đưa ra kết quả cuối cùng khi đạt đến điều kiện kết thúc nào đó ví dụ như sau một số bước lặp nhất định. 1.2.3. Thuật toán chọn lọc tích cực và tiêu cực + Thuật toán chọn lọc tích cực (Positive Selfection Algorithms) Ý tưởng của thuật toán khá đơn giản, đó là chọn lọc những T-cell có thể nhận diện các peptide (một phần của kháng nguyên xâm nhập vào cơ thể), mà peptide này đã kết hợp với MHC (Major Histocompatibility Complex - phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) để tạo thành MHC/peptide. Giả thiết có tập MHC/peptide, kí hiệu là tập S, các cơ quan thụ cảm T-cell sẽ phải được kiểm tra về khả năng kết hợp với các phần tử thuộc tập S này. Nếu một T-cell không nhận diện được bất kỳ phần tử nào, nó sẽ bị loại bỏ. Trái lại, nó được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A. Thuật toán chọn lọc tích cực được minh họa như trong hình 1.4 và có thể tóm tắt như sau: Bước 1. Khởi tạo: Sản sinh một quần thể tiềm năng P những T-cell chưa trưởng thành. Giả thiết tất cả các phần tử được biểu diễn như các xâu nhị phân có cùng độ dài ℓ. Bước 2. Đánh giá độ thích hợp: Xác định độ thích hợp của tất cả phần tử trong quần thể P với tất cả phần tử trong tập Self S. 10 [...]... toán chọn lọc dương tính và thuật toán chọn lọc âm tính Nếu ta cũng áp dụng việc kết hợp giữa cây self và cây nonself để sinh ra tập bộ dò, liệu rằng tập bộ dò kết hợp đó có tối ưu hơn (theo nghĩa kích thước bộ dò giảm) tập bộ dò chỉ được sinh bởi cây nonself hay cây self không? Trong chương này sẽ làm rõ vấn đề đó 3.2 Kết hợp chọn lọc âm tính và chọn lọc dương tính khi sinh bộ dò 3.2.1 Phương pháp kết. .. tăng đáng kể Như trên VD3.1, ta nhận thấy khi kết hợp cả chọn lọc âm tính và chọn lọc dương tính vào việc sinh bộ dò đã giảm được kích thước bộ dò Khi kích thước giảm, kéo theo thời gian so khớp, bộ nhớ dành cho việc lưu trữ giảm 28 Phương pháp kết hợp giữa cây self và nonself sẽ tạo ra tập bộ dò có kích thước giảm đáng kể Phương pháp được dựa trên ý tưởng: Tạo ℓ-r+1 cây với các gốc được lưu trữ bởi mảng... vậy ta sẽ tạo lá bên trái và xóa lá bên phải (minh họa bởi mũi tên có nét gạch đứt) Hình 2.4 Nhánh đầu tiên của cây để tạo cây Rchunk(S, 3) Với các nhánh còn lại ta cũng làm tương tự vậy ta sẽ được các cây như sau: root[1] root[2] root[3] 24 Hình 2.5 Cây r - chunk(S, 3) được tạo hoàn chỉnh 25 Chương 3 PHƯƠNG PHÁP SINH TẬP BỘ DÒ BẰNG CÂY NHỊ PHÂN KẾT HỢP CHỌN LỌC ÂM TÍNH VÀ CHỌN LỌC DƯƠNG TÍNH Cho tập... Dp3 = {(01, 3);(101, 3)} 3.2.1.3 Thuật toán sinh bộ dò kết hợp chọn lọc âm tính và chọn lọc dương tính Input: Tập các xâu S, ℓ-integer, r = 1 l, string s* Output: tập bộ dò kết hợp: ChunkPN(S, r) Procedure Chunk_Detector_PoNe Begin 1 For i = 1 to ℓ-r+1 do Begin 1.1 Khởi tạo cây nhị phân tree[i] trống (cây self); 1.2 For sS do chèn s[i, , r+i-1] vào tree[i]; 1.3 For nút n không phải là lá tree[i] do... 2,430,000,000 630,000,00 0 18,900,000,00 0 630 75,000,000,00 0 Tính theo trung bình 4 bộ dữ liệu trên, thì thời gian trung bình của thuật toán đề xuất để sinh tập bộ dò nhanh hơn 13.5 lần và khớp bộ dò nhanh hơn 31258639.09 lần so với thuật toán được trình bày trong [7] 35 Chương 4 THỰC NGHIỆM THUẬT TOÁN KẾT HỢP CHỌN LỌC ÂM TÍNH VÀ CHỌN LỌC DƯƠNG TÍNH TRONG VIỆC SINH BỘ DÒ R-CHUNK 4.1 Giao diện chương trình... 9, 6, 7, 8 và 8 Ta nhận thấy rằng: 27 Sử dụng phương pháp chọn lọc dương tính để sinh tập bộ dò thì số node của tập cây self Dp là 25 node Ngược lại, nếu chỉ sử dụng phương pháp chọn lọc âm tính để sinh tập bộ dò thì số node của tập cây nonself Dne là 25 Nếu như kết hợp cả 2 phương pháp: cây thứ 1 ta chọn cây self với số node là 9, cây thứ 2 chọn cây nonself với số node là 6, cây thứ 3 chọn cây nonself... bộ dò So khớp [13] (2r + |S|)(ℓ - r + 1) |D|ℓ [7] |S|(ℓ - r + 1)r2 |S|l2r Thuật toán sinh bộ dò kết hợp chọn lọc |S|(ℓ - r + 1)r âm tính và chọn lọc dương tính (*) (ℓ - r + 1)r Bảng 1 So sánh độ phức tạp của thuật toán sinh và so khớp chunkD(S, r) Tối ưu hóa bộ nhớ: So sánh thời gian chạy của thuật toán [7] và thuật toán (*) |S| 4 Sinh tập bộ dò (*) [7] 560 2,240 Khớp bộ dò (*) [7] 28 8,000 8 104,000... Forrest và các đồng nghiệp khá đơn giản [5]: Giả sử đã có một tập Self-Peptide để tạo thành phức chất MHC-Self peptide, các cơ quan thụ cảm T-cell nếu nhận diện được một self-peptide thì sẽ bị loại bỏ, trái lại nó sẽ được chọn như một tế bào có khả năng miễn dịch và bổ sung vào quần thể có giá trị A Thuật toán chọn lọc tiêu cực được minh họa trong hình 1.5 có thể được tóm tắt như sau: 11 Bước 1 Khởi tạo: ... 3 Tạo một quần thể có giá trị: Nếu độ thích hợp của một phần tử trong P với một phần tử trong S lớn hơn hoặc bằng một ngưỡng tương tác chéo nào đó thì T-cell có khả năng nhận diện kháng nguyên, sẽ được chọn vào quần thể có giá trị A trái lại T-cell bị loại bỏ S Quần thể tiềm năng P ∈ Loại bỏ Sai Đúng Cho vào quần thể có giá trị A Hình 1.2 Sơ đồ khối thuật toán chọn lọc tích cực + Thuật toán chọn lọc. .. ta chọn cây self Dp1 Cây self của Dp2 số node là 6, số node của cây nonself tương ứng là 7, chọn • cây self của Dp3 Cây self của Dp3 có số node là 6, cây nonself là 7, cây self nhỏ hơn cây nonself là 1 node, chọn cây self Như vậy so với thuật toán sinh bộ dò theo phương pháp chọn lọc âm tính thì phương pháp sinh kết hợp tỏ ra ưu thế hơn vì tập bộ dò được sinh ra là đầy đủ, bé nhất Tập bộ dò sau khi kết . định chọn đề tài: Nghiên cứu kết hợp chọn lọc âm tính và chọn lọc dương tính trong hệ miễn dịch nhân tạo để làm đề tài nghiên cứu. Đề tài nghiên cứu sẽ tập trung vào việc phối hợp giữa chọn lọc. lọc âm tính và chọn lọc dương tính để sinh ra tập bộ dò tối ưu. Mục đích nghiên cứu 5 Nghiên cứu kết hợp chọn lọc âm tính và chọn lọc dương tính trong HMD nhân tạo Nhiệm vụ nghiên cứu •. nhị phân kết hợp chọn lọc âm tính và chọn lọc dương tính • Chương 4: Thực nghiệm cài đặt thuật toán ở chương 3. 6 Chương 1 TỔNG QUAN VỀ HỆ MIỄN DỊCH SINH HỌC VÀ HỆ MIỄN DỊCH NHÂN TẠO NHÂN TẠO 1.1.