Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 29 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
29
Dung lượng
406,62 KB
Nội dung
1 ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH __________ TIỂU LUẬN MÔN HỌC: HỆ HỖ TRỢ RA QUYẾT ĐỊNH HỖ TRỢ NHẬN DẠNG VIRUS MÁY TÍNH Giảng viên hướng dẫn : PGS-TS ĐỖ PHÚC Học viên thực hiện: NGUYỄN THỊ DIỄM AN MSHV: CH1301075 TP. HồChí Minh, tháng 6 năm 2014 1 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 2 LỜI MỞ ĐẦU Trong những năm gần đây cùng với sự phát triển mạnh mẽ của công nghệ thông tin thì các hình thức virus cũng trở nên đa dạng và phong phú. Khi một loại virus mới ra đời thì các nhà lập trình phải mất một khoảng thời gian khá lâu để nhận diện và tiêu diệt nó, đủ lâu để các virus gây hại trên diện rộng cho các hệ thống máy tính. Thuật toán để cho máy học là một phạm trù rất rộng lớn, trong đề tài này em chủ yếu tập trung vào hiểu được mạng neuron để ghi nhớ các loại đã được phát hiện và tiến hành các hoạt dộng phân lớp cũng như quét virus. Việc vận dụng mạng neron mô phỏng hoạt động của mạng neuron con người, có khả năng ghi nhớ và nhận biết, từ đó hỗ trợ chương trình nhận dạng được các loại virus. Vấn đề virus này khá hấp dẫn. nên em có tìm hiểu nhiều, và giờ lại có cơ hội viết chương trình thử nghiệm. Chương trình chỉ cho học một dữ liệu nhỏ và quét một thư mục nhỏ có liên quan. Dữ liệu học và quét em có đính kèm, và kèm theo tập tin video hướng dẫn. ( vì do trong báo cáo có nhiều mô hình, nên báo cáo em hơi dài so với quy định). 2 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 3 LỜI CẢM ƠN 3 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 Lời đầu tiên em muốn bày tỏ sự cảm ơn của mình tới thầy Đỗ Phúc chịu trách nhiệm giảng dạy cho chúng em bộ môn Hệ Hỗ Trợ Ra Quyết Định trường Đại học Công Nghệ Thông Tin, ĐHQG – Tp.HCM. Thầy, đã tận tụy hướng dẫn những kiến thức mới và những kinh nghiệm mà thầy đã trải qua, và cùng những gợi ý để chúng em có những ý tưởng cho bài tiểu luận của mình. Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, và hiện tại em còn có rất nhiều vấn đề cần tìm hiểu và phát triển để cho đề tài trở nên hoàn thiện hơn. Em rất mong nhận được sự đóng góp ý kiến của các Thầy và các bạn để em phát triển đề tài hoàn thiện hơn. em xin chân thành cảm ơn! Tp Hồ Chí Minh, tháng 6 năm 2014 Học viên Nguyễn Thị Diễm An 4 MỤC LỤC 4 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 5 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài Sự phát triển ineternet đã tạo môi trường thuận lợi cho các hình thức xâm nhập trái phép vào các hệ thống máy tính quan trọng. Các hệ thống thường sử dụng chương trình phát hiện virus trên máy tính dựa vào các loại đã phát hiện trước đó. Nhưng virus luôn luôn thay đổi để qua mặt các hệ thống phát hiện, cuộc chiến giữa chương trình phát hiện virus và virus thực sự là một thách thức lớn đối với các nhà lập trình. Đa phần các chương trình diệt virus thường chỉ phát hiện được một loại virus mới sau một thời gian ra đời. Khi đó nó đã kịp lây lan và gây ra những hậu quả nghiêm trọng. Bởi vậy, cần một hướng tiếp cận mới là đưa ra các phán đoán và dự báo kịp thời về các loại virus mới. Áp dụng thuật toán máy học trong phát triển phần mềm nhằm hỗ trợ phát hiện virus trên máy tính và có hướng giải quyết tiêu diệt virus đã phát hiện, điều này đáp ứng được nhu cầu đặt ra. 1.2 Ý tưởng Từ lý do các loại virus luôn luôn được đổi mới và phát triển để qua mặt các hệ thống antivirus, bên cạnh đó đi kèm với virus là rất nhiều những biến thể. Bởi vậy, yêu cầu đặt ra là làm thế nào một chương trình có khả năng học hỏi và thích nghi với nhiều loại virus mới được phát triển và đưa ra những dự báo kịp thời trước khi máy tính bị nguy hại. Để đáp ứng được những yêu cầu đó thì em mô phỏng hệ miễn dịch nhân tạo sinh học. Tương tự như trường hợp tiêm vacxin vào con người, từ đó con người tiết ra kháng thể tiêu diệt được virus xâm nhập vào. Đồng thời kết hợp khả năng mạnh mẽ của mạng nơ-ron trong quá trình học cũng như ghi nhớ lại các loại virus đã phát hiện. Mạng nơ-ron được nghiên cứu dựa trên cơ sở bộ não con người, mỗi nơ-ron hoạt động như một bộ xử lý đơn giản. Chính sự tương tác khổng lồ giữa tất cả các nơ-ron này cùng với quá trình xử lý song 5 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 6 song của chúng tạo nên khả năng học và ghi nhớ. 1.3 Mục tiêu của đề tài Với định hướng đó thì em có những mục tiêu sau: - Tìm hiểu về cơ chế phát hiện virus bằng chuỗi nhận dạng. - Tìm hiểu về các thuật toán di truyền (chọn lọc âm tính, ) để xây dựng hệ miễn dịch nhân tạo, nhằm rút trích các chuỗi virus. - Mục tiêu quan trong nhất là tìm hiểu về mạng no-ron, đặc biệt là mạng lan truyển ngược để xây dựng chương trình hỗ trợ nhận dạng virus. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Nhận dạng virus Hiện nay có các loại nhận dạng virus như sau: - Nhận dạng virus dựa vào chuỗi nhận dạng - Nhận dạng virus dựa vào hành vi 6 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 7 - Nhận dạng virus dựa vào y1 định Trong đề tài của em sẽ tập trung vào chuỗi nhận dạng virus. Phát hiện virus dựa vào chuỗi nhận dạng Hoạt động theo nguyên lý nhận dạng mẫu, các antivirus sử dụng một cơ sở dữ liệu chứa mẫu virus (ID-virus library). Mỗi khi có virus mới, các chuyên gia anti-virus sẽ giải mã, trích chọn và cập nhật chuỗi nhận dạng virus vào thư viện. Thông tin về đối tượng chẩn đoán (ghi nhận từ hệ thống đích) cùng với thông tin của virus (trong thư viện mẫu) sẽ cho kết luận về tình trạng của đối tượng. Nhận dạng mẫu giúp antivirus phát hiện các virus đã biết trên tập dữ liệu chuẩn đoán với độ chính xác cao. Tuy nhiên phương pháp này có khá nhiều nhược điểm như: − Cồng kềnh: Kích thước thư viện mẫu tỷ lệ thuận với số virus đã cập nhật và tỷ lệ nghịch với tốc độ tìm kiếm. − Bị động: Antivirus chỉ hiệu quả trên các mẫu virus đã cập nhật, không đáp ứng kịp thời dịch bệnh do tốn thời gian cho việc thu thập mẫu virus mới, giải mã, phân tích, lập thuật giải, cập nhật phiên bản mới, phát hành… − Nhầm lẫn: Các hacker cố gắng tạo vỏ bọc an toàn cho virus. Khi antivirus so mẫu chẩn đoán giống với virus, dữ liệu sạch của hệ thống sẽ bị tẩy nhầm. 2.2 Hệ miễn dịch nhân tạo - Hệ miễn dịch sinh học Hệ miễn dịch là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể. - Chức năng của hệ miễn dịch 7 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 Miễn dịch Bẩm sinh Bạch cầu hạt Ái kiềm Ưa eosin Tế bào lympho Thích nghi B-cell T-cell Đại thực bào Trung &nh 8 Sinh học là nhận dạng tế bào và phân chia chúng thành hai nhóm khác nhau: self (những tế bào của cơ thể tạo ra) và non-self (những tế bào lạ), đồng thời loại bỏ các tế bào thuộc loại non-self. - Thành phần hệ miễn dịch Các dòng miễn dịch và thành phần của hệ miễn dịch - Nhận diện và cơ chế kích hoạt 8 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 9 Sự nhận diện và cơ chế kích hoạt đơn giản o APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên o MHC (Major Histocompatibility Complex): Phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell o Pathogen: Tác nhân gây bệnh o Lymphokines: Là một loại bạch cầu o B-cell: Tế bào lympho B o Actived B-cell: B-cell được kích hoạt o T-cell: Tế bào lympho T o Activated T-cell: T-cell được kích hoạt o Plasma cell: Tương bào. Hình trên là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của hệ miễn dịch. Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện 9 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 10 kháng nguyên (Antigen Presenting Cells – APC). Đầu tiên những kháng nguyên sẽ bị các cơ quan trình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành các peptide kháng nguyên. Một phần của những peptide này kết hợp với các phần tử MHC (Major Histocompatibility Complex – phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T- cell) trên bề mặt của APC tạo thành phức hợp MHC/peptide (II). T-cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng các phức hợp MHC/peptide khác nhau (III). Mỗi khi nhận diện được MHC/peptide, T-cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu) hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác của hệ miễn dịch hoạt động (IV). Không giống T-cell (lympho bào T), B-cell (lympho bào B) có các cơ quan thụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ của những phần tử MHC (V). Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhận diện một kháng nguyên cụ thể. Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B-cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasma cell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn. Những kháng thể này sẽ vô hiệu hoá tác nhân gây bệnh. Một số B-cell và T-cell được kích hoạt này sẽ chuyển thành các tế bào ghi nhớ (memory cell). Chúng sẽ tiếp tục lưu thông trong cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyên tương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của hệ miễn dịch. - Một số thuật toán có nhiều thuật toán áp dụng trong hệ miễn dịch nhân tạo như thuật toán chọn lọc tiêu cực, chọn lọc tích cục, thuật toán nhân bản, đột biến … trong phần này em chỉ đi nghien cứu về thuật toán chọn lọc tiêu cực. 10 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 [...]... ngược là khả năng nhận dạng mẫu (như chúng ta đã bàn ở trên) Các mẫu được trình diện trực tiếp cho mạng được xác định vị trí trên lưới ô vuông và đúng kích thước o Nhược điểm Trong nhận dạng mẫu của nó là khả năng xử lý các mẫu trong các quan cảnh hỗn loạn như nhận dạng khuôn mặt trong đám đông hay 1 kí tự trong một trang in Do đó, chúng ta sẽ phải cần tiền xử lý dữ liệu để có được định dạng chuẩn trước... trong hệ miễn dịch nhân tạo ta tiến hành huấn luyện mạng nơ-ron với thuật toán lan truyền ngược Trọng số tìm được sẽ được lưu làm dữ liệu dùng để nhận dạng virus Xây dựng tính năng nhận diện virus: là quá trình dựa vào những giá trị trọng số đã huấn luyện trong mạng nơ-ron để tiến hành so khớp và nhận dạng mẫu 18 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 19 3.2 Cài đặt và triển khai hệ thống... [1].Nghiên cứu một số thuật toán thông minh trong máy học và hệ miễn dịch nhân tạo ứng dụng xây dựng hệ thống phát hiện virus máy tính, Nguyễn Phương Anh, Nguyễn Vĩnh Kha (2011) Khóa luận tốt nghiệp đại học Công Nghệ Thông Tin [2] .Hệ miễn dịch nhân tạo và ứng dụng, Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân (2007), Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên [3].Huấn luyện mạng Nơ-ron... SVTH: Nguyễn Thị Diễm An CH1301075 28 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 5.1 Kết luận - Trong đề tài này em đã tìm hiểu được mạng nơ-ron nhân tạo và cụ thể là mạng lan truyển ngược - Tìm hiều 1 phần nhỏ của hệ miễn dịch (trong việc rút trích dữ liệu) - Cài đặt được chương trình hỗ trợ nhận dạng virus 5.1 Hướng phát triển - Để tăng dự đoán được các virus trong tương lai thì cần ứng dụng 1 số thuật... Phúc SVTH: Nguyễn Thị Diễm An CH1301075 25 - Mạng nơ-ron nhân tạo – mạng lan truyền ngược: (nhận dạng virus) Đầu vào chính là dữ liệu đã được chọn lọc trong hệ thống miễn dịch nhân tạo như đã trình bày ở trên Cho mạng nơ-ron học và ghi nhớ các trọng số Đầu ra mong muốn là chương trình hỗ trợ nhận diện tệp tin nhiêm virus là bao nhiêu phần tram Mạng nơ-ron được xậy dụng theo phương pháp học giám sát - Thuật... mình tức là dữ liệu bị nhiễm virus( mầm bệnh) Như vậy, việc xây dựng cấu trúc các tế bào T và tế bào B trở thành việc đi xây dựng các bộ phát hiện Khi đã xây dựng cấu trúc các tế bào, ta đi qua quá trình trưởng thành và chọn lọc âm tính o Chọn lọc âm tính 23 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 24 Quá trình chọn lọc âm tính Cơ chế chọn lọc âm tính của hệ miễn dịch là cơ sở cho việc... các yêu cầu: Xử lý dữ liệu đầu vào Xây dựng hệ miễn dịch nhân tao Xây dựng mạng nơ-ron Xây dựng tính năng nhận diện virus - Đặc tả yêu cầu: Xử lý dữ liệu đầu vào: là quá trình chuẩn bị dữ liệu cho chương trình Dữ liệu đưa vào sẽ được cắt thành những bộ l*32 bit trong màn hình Input Sau đó dữ liệu sẽ được chuyển sang cho hệ miễn dịch nhân tạo Xây dựng mô hình hệ miễn dịch nhân tạo: là quá trình từ dữ... Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 17 mà mạng sẽ xử lý Ví dụ xét mạng nơ-ron nhận dạng mẫu với mẫu là một hình với 4 pixel đen trắng thì mạng sẽ phải có 4 đầu vào Tương tự, kích thước lớp xuất được xét theo số lượng mẫu ta muốn nhận dạng và cách mã hóa đầu ra Vấn đề còn lại là kích thước lớp ẩn Theo ví dụ nhận dạng kí tự với mạng nơ-ron dùng để huấn luyện ghi nhớ 26 chữ trong bảng chữ cái và... luyện dữ liệu Mô hình huấn luyện dữ liệu 19 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 20 - Quá trình nhận diện virus Mô hình nhận dạng dữ liệu nhiễm virus 20 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 21 21 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 22 - Hệ miễn dịch o Xây dựng cấu trúc các tế bào T và tế bào B như sau: Chương trình xây dựng bộ phát hiện (tế bào T,... chiều rộng là 5 ô vuông và chiều cao là 7 ô vuông thì ta có 5 x7 ô vuông, sẽ cần 35 đầu vào, để nhận dạng 26 kí tự ta sẽ cần 26 nơ-ron xuất Mạng sẽ được huấn luyện để nhận dạng tất cả 26 kí tự với số nơ-ron lớp ẩn trong khoảng 6 đến 22 Dưới 6 nơ-ron thì mạng không đủ trọng số để chứa tất cả mẫu, trên 22 sẽ khiến tính hiệu quả của mạng giảm sút Cuối cùng, số lượng nơ-ron lớp ẩn cần được thực nghiệm để đạt . TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH __________ TIỂU LUẬN MÔN HỌC: HỆ HỖ TRỢ RA QUYẾT ĐỊNH HỖ TRỢ NHẬN DẠNG VIRUS MÁY TÍNH Giảng viên hướng dẫn : PGS-TS ĐỖ. nhận dạng virus như sau: - Nhận dạng virus dựa vào chuỗi nhận dạng - Nhận dạng virus dựa vào hành vi 6 GVHD: PGS-TS Đỗ Phúc SVTH: Nguyễn Thị Diễm An CH1301075 7 - Nhận dạng virus dựa vào y1 định Trong. chuỗi nhận dạng virus. Phát hiện virus dựa vào chuỗi nhận dạng Hoạt động theo nguyên lý nhận dạng mẫu, các antivirus sử dụng một cơ sở dữ liệu chứa mẫu virus (ID -virus library). Mỗi khi có virus