Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
406,88 KB
Nội dung
1 ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH __________ TIỂU LUẬN MÔN HỌC: CÔNG NGHỆ TRI THỨC ỨNG DỤNG MÁY HỌC ĐỂ NHẬN DẠNGVIRUS MÁY TÍNH Giảngviênhướngdẫn : GS.TSKH HOÀNG VĂN KIẾM Họcviênthựchiện: NGUYỄN THỊ DIỄM AN MSHV: CH1301075 TP. HồChí Minh, tháng 10 năm 2014 1 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 2 LỜI MỞ ĐẦU Trong những năm gần đây cùng với sự phát triển mạnh mẽ của công nghệ thông tin thì các hình thức virus cũng trở nên đa dạng và phong phú.Khi một loại virus mới ra đời thì các nhà lập trình phải mất một khoảng thời gian khá lâu để nhận diện và tiêu diệt nó, đủ lâu để các virus gây hại trên diện rộng cho các hệ thống máy tính. Thuật toán để cho máy học là một phạm trù rất rộng lớn, trong tiểu luận này em chủ yếu tập trung vào mô hình hệ miễn dịch nhân tạo, mạng neuron để phân tích, nhận dạng virus và dự báo virus mới. Việc vận dụng mạng neron mô phỏng hoạt động của mạng neuron con người, có khả năng ghi nhớ và nhận biết, từ đó hỗ trợ chương trình nhận dạng được các loại virus. 2 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 3 LỜI CẢM ƠN 3 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 Lời đầu tiên em muốn bày tỏ sự cảm ơn của mình tới thầy Hoàng Văn Kiếm chịu trách nhiệm giảng dạy cho chúng em bộ môn Cơ Sở Tri Thức trường Đại học Công NghệThông Tin, ĐHQG – Tp.HCM. Thầy đã tận tụy hướng dẫn những kiến thức mới và những kinh nghiệm mà thầy đã trải qua, và cùng những gợi ý để chúng em có những ý tưởng cho bài tiểu luận của mình. Dù đã có nhiều cố gắng nhưng chắc chắn sẽ không tránh khỏi những thiếu sót.Em rất mong nhận được sự đóng góp ý kiến của các Thầy và các bạn đểbài tiểu luận them hoàn thiên. em xin chân thành cảm ơn! Tp Hồ Chí Minh, tháng 10 năm 2014 Học viên Nguyễn Thị Diễm An 4 MỤC LỤC 4 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 5 CHƯƠNG1: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài Sự phát triển ineternet đã tạo môi trường thuận lợi cho các hình thức xâm nhập trái phép vào các hệ thống máy tính quan trọng.Các hệ thống thường sử dụng chương trình phát hiện virus trên máy tính dựa vào các loại đã phát hiện trước đó.Nhưng virus luôn luôn thay đổi để qua mặt các hệ thống phát hiện, cuộc chiến giữa chương trình phát hiện virus và virus thực sự là một thách thức lớn đối với các nhà lập trình.Đa phần các chương trình diệt virus thường chỉ phát hiện được một loại virus mới sau một thời gian ra đời. Khi đó nó đã kịp lây lan và gây ra những hậu quả nghiêm trọng. Bởi vậy, cần một hướng tiếp cận mới là đưa ra các phán đoán và dự báo kịp thời về các loại virus mới.Áp dụng thuật toán máy học trong phát triển phần mềm nhằm hỗ trợ phát hiện virus trên máy tính và có hướng giải quyết tiêu diệt virus đã phát hiện, điều này đáp ứng được nhu cầu đặt ra. 1.2 Ý tưởng Từ lý do các loại virus luôn luôn được đổi mới và phát triển để qua mặt các hệ thống antivirus, bên cạnh đó đi kèm với virus là rất nhiều những biến thể. Bởi vậy, yêu cầu đặt ra là làm thế nào một chương trình có khả năng học hỏi và thích nghi với nhiều loại virus mới được phát triển và đưa ra những dự báo kịp thời trước khi máy tính bị nguy hại. Để đáp ứng được những yêu cầu đó thì emmô phỏng hệ miễn dịch nhân tạo sinh học.Tương tự như trường hợp tiêm vacxin vào con người, từ đó con người tiết ra kháng thể tiêu diệt được virus xâm nhập vào.Đồng thời kết hợp khả năng mạnh mẽ của mạng nơ-rontrong quá trình học cũng như ghi nhớ lại các loại virus đã phát hiện.Mạng nơ-ronđược nghiên cứu dựa trên cơ sở bộ não con người, mỗi nơ-ronhoạt động như một bộ xử lý đơn giản.Chính sự tương tác khổng lồ giữa tất cả các nơ-ron này cùng với quá trình xử lý song song của 5 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 6 chúng tạo nên khả năng học và ghi nhớ. 1.3 Mục tiêu của đề tài Với định hướng đó thì em có những mục tiêu sau: - Tìm hiểu về cơ chế phát hiện virus bằng chuỗi nhận dạng. - Tìm hiểu về các thuật toán di truyền (chọn lọc âm tính, ) để xây dựng hệ miễn dịch nhân tạo, nhằm rút trích các chuỗi virus. - Mục tiêu quan trong nhất là tìm hiểu về mạng no-ron, đặc biệt là mạng lan truyển ngược để xây dựng chương trình nhận dạng virus. CHƯƠNG 2:CƠ SỞ LÝ THUYẾT 2.1 Nhận dạng virus Hiện nay có các loại nhận dạng virus như sau: - Nhận dạng virus dựa vào chuỗi nhận dạng - Nhận dạng virus dựa vào hành vi 6 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 7 - Nhận dạng virus dựa vào ý định Trong tiểu luận của em sẽ tập trung vào chuỗi nhận dạng virus. Phát hiện virus dựa vào chuỗi nhận dạng Hoạt động theo nguyên lý nhận dạng mẫu, các antivirus sử dụng một cơ sở dữ liệu chứa mẫu virus (ID-virus library). Mỗi khi có virus mới, các chuyên gia anti-virus sẽ giải mã, trích chọn và cập nhật chuỗi nhận dạng virus vào thư viện. Thông tin về đối tượng chẩn đoán (ghi nhận từ hệ thống đích) cùng với thông tin của virus (trong thư viện mẫu) sẽ cho kết luận về tình trạng của đối tượng. Nhận dạng mẫu giúp antivirus phát hiện các virus đã biết trên tập dữ liệu chuẩn đoán với độ chính xác cao. Tuy nhiên phương pháp này có khá nhiều nhược điểm như: − Cồng kềnh: Kích thước thư viện mẫu tỷ lệ thuận với số virus đã cập nhật và tỷ lệ nghịch với tốc độ tìm kiếm. − Bị động: Antivirus chỉ hiệu quả trên các mẫu virus đã cập nhật, không đáp ứng kịp thời dịch bệnh do tốn thời gian cho việc thu thập mẫu virus mới, giải mã, phân tích, lập thuật giải, cập nhật phiên bản mới, phát hành… − Nhầm lẫn: Các hacker cố gắng tạo vỏ bọc an toàn cho virus. Khi antivirus so mẫu chẩn đoán giống với virus, dữ liệu sạch của hệ thống sẽ bị tẩy nhầm. 2.2 Hệ miễn dịch nhân tạo - Hệ miễn dịch sinh học Hệ miễn dịch là hệ thống sinh học bảo vệ cơ thể chống lại những tấn công liên tục của các sinh vật từ bên ngoài, với hai chức năng chính là nhận diện và loại bỏ những vi sinh vật xâm nhập vào cơ thể. - Chức năng của hệ miễn dịch 7 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 8 Sinh học là nhận dạng tế bào và phân chia chúng thành hai nhóm khác nhau: self (những tế bào của cơ thể tạo ra) và non-self (những tế bào lạ), đồng thời loại bỏ các tế bào thuộc loại non-self. - Thành phần hệ miễn dịch Miễn dịch Bẩm sinh Bạch cầu hạt Ái kiềm Ưa eosin Tế bào lympho Thích nghi B-cell T-cell Đại thực bào Trung tính Các dòng miễn dịch và thành phần của hệ miễn dịch 8 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 9 - Nhận diện và cơ chế kích hoạt Sự nhận diện và cơ chế kích hoạt đơn giản o APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên o MHC (Major Histocompatibility Complex): Phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell o Pathogen: Tác nhân gây bệnh o Lymphokines: Là một loại bạch cầu o B-cell: Tế bào lympho B o Actived B-cell: B-cell được kích hoạt o T-cell: Tế bào lympho T o Activated T-cell: T-cell được kích hoạt o Plasma cell: Tương bào. Hình trên là một ví dụ đơn giản về cơ chế kích hoạt và nhận diện của hệ 9 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 10 miễn dịch. Phần 1 của sơ đồ cho thấy cách thức hoạt động các tế bào trình diện kháng nguyên (Antigen Presenting Cells – APC).Đầu tiên những kháng nguyên sẽ bị các cơ quan trình diện kháng nguyên như đại thực bào nuốt và tiêu hoá, phân ra thành các peptide kháng nguyên.Một phần của những peptide này kết hợp với các phần tử MHC (Major Histocompatibility Complex – phức hợp các phần tử có nhiệm vụ trình diện peptide kháng nguyên cho T-cell) trên bề mặt của APC tạo thành phức hợp MHC/peptide (II). T-cell mang những cơ quan thụ cảm bề mặt cho phép chúng nhận dạng các phức hợp MHC/peptide khác nhau (III). Mỗi khi nhận diện được MHC/peptide, T-cell sẽ được kích hoạt, phân chia và tạo ra các lymphokine (là một loại bạch cầu) hoặc các tín hiệu hoá học (chemical signals) kích thích các thành phần khác của hệ miễn dịch hoạt động (IV). Không giống T-cell (lympho bào T), B-cell (lympho bào B) có các cơ quan thụ cảm có khả năng nhận diện kháng nguyên một cách tự do không cần hỗ trợ của những phần tử MHC (V).Mỗi cơ quan thụ cảm trên bề mặt B-cell chỉ có thể nhận diện một kháng nguyên cụ thể. Khi cơ quan thụ cảm B-cell nhận được tín hiệu, B-cell được kích hoạt và nhân rộng, biệt hoá (biến đổi) thành các tương bào (Plasma cell), các tương bào sẽ sản sinh ra kháng thể với số lượng lớn. Những kháng thể này sẽ vô hiệu hoá tác nhân gây bệnh.Một số B-cell và T-cell được kích hoạt này sẽ chuyển thành các tế bào ghi nhớ (memory cell). Chúng sẽ tiếp tục lưu thông trong cơ thể trong một khoảng thời gian dài, giúp cơ thể chống lại những kháng nguyên tương tự lây nhiễm sau đó, nhờ có sự “suy luận” (elicit) của hệ miễn dịch. - Một số thuật toán Có nhiều thuật toán áp dụng trong hệ miễn dịch nhân tạo như thuật toán chọn lọc tiêu cực, chọn lọc tích cục, thuật toán nhân bản, đột biến … trong phần này em chỉ đi nghiên cứu về thuật toán chọn lọc tiêu cực. 10 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 [...]... thông minh trong máy học và hệ miễn dịch nhân tạo ứng dụng xây dựng hệ thống phát hiện virus máy tính, Nguyễn Phương Anh, Nguyễn Vĩnh Kha (2011) Khóa luận tốt nghiệp đại học Công Nghệ Thông Tin [2].Hệ miễn dịch nhân tạo và ứng dụng, Nguyễn Xuân Hoài, Nguyễn Văn Trường, Vũ Mạnh Xuân (2007), Tạp chí Khoa học và Công nghệ Đại học Thái Nguyên [3].Huấn luyện mạng Nơ-ron với mốc cách đều và ứng dụng, Lê Xuân... chí Khoa học và Công nghệ Đại học Thái Nguyên [3].Huấn luyện mạng Nơ-ron với mốc cách đều và ứng dụng, Lê Xuân Minh Hoàng (2010), Luận văn đại học CNTT, Đại học Công Nghệ, ĐHQG Hà Nội [4] .Máy học và hệ chuyên giaTrương Minh Nhật Quang (2009), luận văn tiến sĩ Đại học Khoa Học Tự Nhiên, ĐHQG Tp.HCM 28 GVHD: GS.TSKHHoàng Văn Kiếm SVTH: Nguyễn Thị Diễm An CH1301075 ... q=1,2, ,Q; với qneti và q yi lần lượt là đầu vào và đầu ra của khối trong lớp thứ q Mạng có m nơ-ron đầu vào, một nơ-ron ở lớp ẩn, và n nơ-ron đầu ra Với qwij là trọng số nối từ q1 wj đến qyi Đầu vào: các cặp huấn luyện {x (k), d(k) | k=1,2, ,p}, ở đó giá trị đầu vào của phần tử cuối cùng bằng -1, tức là ( xmk+)1 = − 1 o Bước 0 (Đặt giá trị ban đầu) Lựa chọn bước tính (Hằng số học) 0 . 1 ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH __________ TIỂU LUẬN MÔN HỌC: CÔNG NGHỆ TRI THỨC ỨNG DỤNG MÁY HỌC ĐỂ NHẬN DẠNGVIRUS MÁY TÍNH Giảngviênhướngdẫn. gian khá lâu để nhận diện và tiêu diệt nó, đủ lâu để các virus gây hại trên diện rộng cho các hệ thống máy tính. Thuật toán để cho máy học là một phạm trù rất rộng lớn, trong tiểu luận này em. bộ môn Cơ Sở Tri Thức trường Đại học Công NghệThông Tin, ĐHQG – Tp.HCM. Thầy đã tận tụy hướng dẫn những kiến thức mới và những kinh nghiệm mà thầy đã trải qua, và cùng những gợi ý để chúng em