Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
406,45 KB
Nội dung
1 ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA KHOA HỌC MÁY TÍNH _ _ TIỂU LUẬN MƠN HỌC: THUẬT TOÁN VÀ PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ ỨNG DỤNG MÁY HỌC ĐỂ NHẬN DẠNG VIRUS MÁY TÍNH Giảng viên hướng dẫn : PGS.TS ĐỖ VĂN NHƠN Học viên thực hiện: NGUYỄN THỊ DIỄM AN MSHV: CH1301075 GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 TP Hồ Chí Minh, tháng 10 năm 2014 LỜI MỞ ĐẦU Trong năm gần với phát triển mạnh mẽ cơng nghệ thơng tin hình thức virus trở nên đa dạng phong phú.Khi loại virus đời nhà lập trình phải khoảng thời gian lâu để nhận diện tiêu diệt nó, đủ lâu để virus gây hại diện rộng cho hệ thống máy tính Thuật tốn máy học phạm trù rộng lớn, tiểu luận em chủ yếu tập trung vào mơ hình hệ miễn dịch nhân tạo, mạng neuron để phân tích, nhận dạng virus dự báo virus Việc vận dụng mạng neron mô hoạt động mạng neuron người, có khả ghi nhớ nhận biết, từ hỗ trợ chương trình nhận dạng loại virus GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 LỜI CẢM ƠN Lời em muốn bày tỏ cảm ơn tới thầy Đỗ Văn Nhơn chịu trách nhiệm giảng dạy cho chúng em mơn Thuật Tốn Phương Pháp Giai Quyết Vấn Đề trường Đại học Công Nghệ Thông Tin, ĐHQG – Tp.HCM Thầy tận tụy hướng dẫn kiến thức kinh nghiệm mà thầy trải qua, gợi ý để chúng em có ý tưởng cho tiểu luận Dù có nhiều cố gắng chắn khơng tránh khỏi thiếu sót Em mong nhận đóng góp ý kiến Thầy bạn để tiểu luận thêm hoàn thiên em xin chân thành cảm ơn! Tp Hồ Chí Minh, tháng 10 năm 2014 Học viên Nguyễn Thị Diễm An GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 MỤC LỤC GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 CHƯƠNG 1: GIỚI THIỆU TỔNG QUAN ĐỀ TÀI 1.1 Lý chọn đề tài Sự phát triển ineternet tạo môi trường thuận lợi cho hình thức xâm nhập trái phép vào hệ thống máy tính quan trọng.Các hệ thống thường sử dụng chương trình phát virus máy tính dựa vào loại phát trước đó.Nhưng virus luôn thay đổi để qua mặt hệ thống phát hiện, chiến chương trình phát virus virus thực thách thức lớn nhà lập trình.Đa phần chương trình diệt virus thường phát loại virus sau thời gian đời Khi kịp lây lan gây hậu nghiêm trọng Bởi vậy, cần hướng tiếp cận đưa phán đoán dự báo kịp thời loại virus Áp dụng thuật toán máy học phát triển phần mềm nhằm hỗ trợ phát virus máy tính có hướng giải tiêu diệt virus phát hiện, điều đáp ứng nhu cầu đặt 1.2 Ý tưởng Từ lý loại virus luôn đổi phát triển để qua mặt hệ thống antivirus, bên cạnh kèm với virus nhiều biến thể Bởi vậy, yêu cầu đặt làm chương trình có khả học hỏi thích nghi với nhiều loại virus phát triển đưa dự báo kịp thời trước máy tính bị nguy hại Để đáp ứng u cầu em mơ hệ miễn dịch nhân tạo sinh học.Tương tự trường hợp tiêm vacxin vào người, từ người tiết kháng thể tiêu diệt virus xâm nhập vào.Đồng thời kết hợp khả mạnh mẽ mạng nơ-ron trình học ghi nhớ lại loại virus phát Mạng nơ-ronđược nghiên cứu dựa sở não người, nơ-ron hoạt động xử lý đơn giản Chính tương tác khổng lồ tất nơ-ron với trình xử lý song GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 song chúng tạo nên khả học ghi nhớ 1.3 Mục tiêu đề tài - Với định hướng em có mục tiêu sau: Tìm hiểu chế phát virus chuỗi nhận dạng Tìm hiểu thuật tốn di truyền (chọn lọc âm tính, ) để xây dựng - hệ miễn dịch nhân tạo, nhằm rút trích chuỗi virus Mục tiêu quan tìm hiểu mạng no-ron, đặc biệt mạng lan truyển ngược để xây dựng chương trình nhận dạng virus CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 2.1 Nhận dạng virus Hiện có loại nhận dạng virus sau: - Nhận dạng virus dựa vào chuỗi nhận dạng Nhận dạng virus dựa vào hành vi GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 - Nhận dạng virus dựa vào ý định Trong tiểu luận em tập trung vào chuỗi nhận dạng virus Phát virus dựa vào chuỗi nhận dạng Hoạt động theo nguyên lý nhận dạng mẫu, antivirus sử dụng sở liệu chứa mẫu virus (ID-virus library) Mỗi có virus mới, chuyên gia anti-virus giải mã, trích chọn cập nhật chuỗi nhận dạng virus vào thư viện Thông tin đối tượng chẩn đoán (ghi nhận từ hệ thống đích) với thơng tin virus (trong thư viện mẫu) cho kết luận tình trạng đối tượng Nhận dạng mẫu giúp antivirus phát virus biết tập liệu chuẩn đoán với độ xác cao Tuy nhiên phương pháp có nhiều nhược điểm như: − Cồng kềnh: Kích thước thư viện mẫu tỷ lệ thuận với số virus cập nhật tỷ lệ nghịch với tốc độ tìm kiếm − Bị động: Antivirus hiệu mẫu virus cập nhật, không đáp ứng kịp thời dịch bệnh tốn thời gian cho việc thu thập mẫu virus mới, giải mã, phân tích, lập thuật giải, cập nhật phiên mới, phát hành… − Nhầm lẫn: Các hacker cố gắng tạo vỏ bọc an toàn cho virus Khi antivirus so mẫu chẩn đoán giống với virus, liệu hệ thống bị tẩy nhầm 2.2 Hệ miễn dịch nhân tạo - Hệ miễn dịch sinh học Hệ miễn dịch hệ thống sinh học bảo vệ thể chống lại công liên tục sinh vật từ bên ngoài, với hai chức nhận diện loại bỏ vi sinh vật xâm nhập vào thể - Chức hệ miễn dịch GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 Sinh học nhận dạng tế bào phân chia chúng thành hai nhóm khác nhau: self (những tế bào thể tạo ra) non-self (những tế bào lạ), đồng thời loại bỏ tế bào thuộc loại non-self - Thành phần hệ miễn dịch Miễn dịch Bẩm sinh Bạch cầu hạt Đại thực bào Ưa eosin Trung tính Ái kiềm Thích nghi Tế bào lympho B-cell T-cell Các dịng miễn dịch thành phần hệ miễn dịch - Nhận diện chế kích hoạt GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 Sự nhận diện chế kích hoạt đơn giản o APC (Antigen Presenting Cell): Tế bào trình diện kháng nguyên o MHC (Major Histocompatibility Complex): Phức hợp phần tử có nhiệm vụ trình diện peptide kháng ngun cho T-cell o Pathogen: Tác nhân gây bệnh o Lymphokines: Là loại bạch cầu o B-cell: Tế bào lympho B o Actived B-cell: B-cell kích hoạt o T-cell: Tế bào lympho T o Activated T-cell: T-cell kích hoạt o Plasma cell: Tương bào Hình ví dụ đơn giản chế kích hoạt nhận diện hệ miễn dịch Phần sơ đồ cho thấy cách thức hoạt động tế bào trình diện GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 10 kháng nguyên (Antigen Presenting Cells – APC) Đầu tiên kháng nguyên bị quan trình diện kháng nguyên đại thực bào nuốt tiêu hoá, phân thành peptide kháng nguyên.Một phần peptide kết hợp với phần tử MHC (Major Histocompatibility Complex – phức hợp phần tử có nhiệm vụ trình diện peptide kháng ngun cho T-cell) bề mặt APC tạo thành phức hợp MHC/peptide (II) T-cell mang quan thụ cảm bề mặt cho phép chúng nhận dạng phức hợp MHC/peptide khác (III) Mỗi nhận diện MHC/peptide, T-cell kích hoạt, phân chia tạo lymphokine (là loại bạch cầu) tín hiệu hố học (chemical signals) kích thích thành phần khác hệ miễn dịch hoạt động (IV) Không giống T-cell (lympho bào T), B-cell (lympho bào B) có quan thụ cảm có khả nhận diện kháng nguyên cách tự không cần hỗ trợ phần tử MHC (V).Mỗi quan thụ cảm bề mặt B-cell nhận diện kháng nguyên cụ thể Khi quan thụ cảm B-cell nhận tín hiệu, B-cell kích hoạt nhân rộng, biệt hố (biến đổi) thành tương bào (Plasma cell), tương bào sản sinh kháng thể với số lượng lớn Những kháng thể vơ hiệu hố tác nhân gây bệnh.Một số B-cell T-cell kích hoạt chuyển thành tế bào ghi nhớ (memory cell) Chúng tiếp tục lưu thông thể khoảng thời gian dài, giúp thể chống lại kháng nguyên tương tự lây nhiễm sau đó, nhờ có “suy luận” (elicit) hệ miễn dịch - Một số thuật tốn Có nhiều thuật tốn áp dụng hệ miễn dịch nhân tạo thuật toán chọn lọc tiêu cực, chọn lọc tích cục, thuật tốn nhân bản, đột biến … phần em nghiên cứu thuật toán chọn lọc tiêu cực 10 GVHD: PGS.TS Đỗ Văn Nhơn SVTH: Nguyễn Thị Diễm An CH1301075 13 Xem xét mạng với Q lớp lan truyền ngược, q=1,2, ,Q; với qneti q yi đầu vào đầu khối lớp thứ q Mạng có m nơ-ron đầu vào, nơ-ron lớp ẩn, n nơ-ron đầu Với qwij trọng số nối từ q1 wj đến qyi Đầu vào: cặp huấn luyện {x (k), d(k) | k=1,2, ,p}, giá trị đầu vào phần tử cuối -1, tức ( x mk+)1 = −1 o Bước (Đặt giá trị ban đầu) Lựa chọn bước tính (Hằng số học) 0