Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
2,37 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG ** * NGUYỄN XUÂN HƯNG XÂY DỰNG CHƯƠNG TRÌNH GIẢI QUYẾT BÀI TỐN PHÁT HIỆN VIRUT MÁY TÍNH Luận văn thạc sĩ Công Nghệ Thông Tin Đồng Nai – Năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG *** NGUYỄN XUÂN HƯNG XÂY DỰNG CHƯƠNG TRÌNH GIẢI QUYẾT BÀI TỐN PHÁT HIỆN VIRUT MÁY TÍNH Chuyên ngành: Công Nghệ Thông Tin Mã số: 60.48.02.01 Luận văn thạc sĩ Công Nghệ Thông Tin NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS Vũ Thanh Nguyên Đồng Nai – Năm 2017 LỜI CẢM ƠN Tôi muốn gửi lời cảm ơn đến thầy cô giáo trường Đại học Lạc Hồng quan tâm tổ chức đạo trực tiếp giảng dạy khố cao học chúng tơi Cảm ơn cha (mẹ), thầy cô, bạn bè, đồng nghiệp người thân gia đình, người dạy bảo ủng hộ tơi suốt q trình học tập Đặc biệt, xin gửi lời cảm ơn sâu sắc đến thầy giáo hướng dẫn PGS.TS Vũ Thanh Nguyên, người tận tình bảo góp ý mặt chun mơn cho tơi suốt q trình làm luận văn Trong suốt q trình làm luận văn, thân tơi cố gắng tập trung tìm hiểu, nghiên cứu tham khảo thêm nhiều tài liệu liên quan Tuy nhiên, thân bắt đầu đường nghiên cứu khoa học, chắn luận văn nhiều thiếu sót Tơi mong nhận bảo q Thầy Cơ giáo góp ý bạn bè, đồng nghiệp để luận văn hoàn thiện Cuối cùng, xin chúc sức khỏe cha mẹ, thầy (cô) bạn bè, đồng nghiệp ủng hộ, động viên để yên tâm nghiên cứu hoàn thành luận văn Đồng Nai, tháng 07 năm 2017 Nguyễn Xuân Hưng LỜI CAM ĐOAN Tôi xin cam đoan đề tài “XÂY DỰNG CHƯƠNG TRÌNH GIẢI QUYẾT BÀI TỐN PHÁT HIỆN VIRUT MÁY TÍNH” kết tự thân tơi tìm hiểu, nghiên cứu Các tài liệu tham khảo trích dẫn thích đầy đủ Tôi xin chịu trách nhiệm luận văn Tác giả luận văn ký ghi rõ họ tên Nguyễn Xuân Hưng TÓM TẮT LUẬN VĂN Đề tài:XÂY DỰNG CHƯƠNG TRÌNH GIẢI QUYẾT BÀI TỐN PHÁT HIỆN VIRUT MÁY TÍNH Ngành:Cơng nghệ thơng tin Mã số:60.48.02.01 Học viên:Nguyễn Xuân Hưng Người hướng dẫn: PGS.TS.Vũ Thanh Nguyên NỘI DUNG TÓM TẮT Nội dung giao kết mong đợi người hướng dẫn -Tìm hiểu virut máy tính -Tìm hiểu mạng nơ-ron nhân tạo số thuật tốn máy học -Sử dụng mơ hình Deep learning xây dựng ứng dụng Cách thức giải vấn đề -Nghiên cứu phương pháp nhận dạng virut -Ứng dụng mơ hình học sâu để phát virut -Xây dựng toán Đánh giá mặt khoa học kết -Khái quái tri thức virut -Nghiên cứu hướng tiếp cận toán phát virut -Xây dựng ứng dụng phát virut có hiệu suất cao Ngày tháng năm 2017 NGƯỜI HƯỚNG DẪN HỌC VIÊN PGS.TS Vũ Thanh Nguyên Nguyễn Xuân Hưng MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN TÓM TẮT LUẬN VĂN MỤC LỤC DANH MỤC HÌNH ẢNH SƠ ĐỒ DANH MỤC BẢNG BIỂU DANH MỤC KÍ HIỆU, TỪ VIẾT TẮT Chương 1.1 MỞ ĐẦU Giới thiệu đề tài 1.1.1 Lý chọn đề tài 1.1.2 Mục tiêu đề tài 1.1.3 Các giai đoạn thực đề tài 1.2 Đối tượng, phạm vi nghiên cứu đề tài 1.2.1 Virus hệ thống đích 1.2.2 Mạng nơ-ron nhân tạo đến mạng Deep Learning 1.3 Các nghiên cứu liên quan 1.4 Ý nghĩa khoa học thực tiễn đề tài 1.5 Cấu trúc luận văn Chương VIRUS MÁY TÍNH VÀ CÁC PHƯƠNG PHÁP NHẬN DẠNG 10 2.1 Virus máy tính 10 2.1.1 Định nghĩa 10 2.1.2 Hình thức lây nhiễm 11 2.2 Các đặc trưng virus máy tính 12 2.3 Các chế chẩn đoán virus máy tính 14 2.3.1 Phát virus dựa vào chuỗi nhận dạng 14 2.3.2 Phát virus dựa vào hành vi 15 2.3.3 Phát virus dựa vào ý định 15 Chương MÁY HỌC VÀ MẠNG HỌC SÂU 16 3.1 Khái niệm máy học 16 3.2 Phân loại máy học 17 3.3 Mơ hình học sâu 18 3.3.1 Mạng nơ-ron sinh học 18 3.3.2 Tư tưởng xây dựng nơ-ron nhân tạo từ nơ-ron tự nhiên 19 3.3.3 Cấu trúc mạng nơ-ron nhân tạo 19 3.3.4 Mơ hình mạng học sâu 20 3.3.5 Một số thuật toán máy học sử dụng luận văn 27 Chương TIẾP CẬN MÁY HỌC SỬ DỤNG MÔ HÌNH HỌC SÂU TRONG PHÁT HIỆN VIRUS 31 4.1 Ý tưởng 31 4.2 Bài toán xây dựng liệu huấn luyện 32 4.2.1 Phát biểu toán 32 4.2.2 Phân tích tốn 32 4.2.3 Hướng giải 33 4.3 Bài toán Xây dựng huấn luyện 34 4.3.1 Phát biểu toán 34 4.3.2 Phân tích toán 34 4.3.3 Hướng giải 35 4.4 Bài tốn xây dựng xác định tính chất tập tin 36 4.4.1 Phát biểu toán 36 4.4.2 Phân tích tốn 36 4.4.3 Hướng giải 36 Chương CÀI ĐẶT VÀ KIỂM THỬ 38 5.1 Cài đặt 38 5.1.1 Hướng tiếp cận 38 5.1.2 Mơ hình hóa giai đoạn 42 5.2 Kiểm thử 52 5.2.1 Dữ liệu đầu vào 52 5.2.2 Xác định thông số 53 5.2.3 Trình bày kết 57 Chương KẾT LUẬN 65 6.1 Kết đạt 65 6.2 Hạn chế 66 6.3 Hướng phát triển 67 DANH MỤC TÀI LIỆU KHAM KHẢO DANH MỤC HÌNH ẢNH SƠ ĐỒ Hình 3.1 Phân loại máy học 24 Hình 3.2 Cấu trúc nơ-ron 26 Hình 3.3 Cấu tạo nơ-ron nhân tạo 27 Hình 3.4 Cấu trúc Mạng nơ-ron 20 Hình 3.5 Một số loại mạng nơ-ron 31 Hình 3.6 Mạng dẫn tiến 32 Hình 3.7 Mạng hồi quy Hopfield 33 Hình 3.8 Mạng Deep Belief 36 Hình 3.9 Mạng Deep Belief 39 Hình 3.10 Phương pháp huấn luyện mạng Deep Belief 40 Hình 3.11 Phân loại thuật tốn nhóm phân cụm 42 Hình 3.12 Sơ đồ thuật toán K-Means 43 Hình 3.13 Backpropagration 44 Hình 4.1 Cơ chế rút trích chuỗi nhị phân 48 Hình 4.2 Sơ đồ quy trình xây dựng liệu huấn luyện 49 Hình 5.1 Mơ hình tổng thể hệ thống 42 Hình 5.2 Mơ hình tổng qt mơ-đun xây dựng liệu huấn luyện 43 Hình 5.3 Giao diện mơ-đun xây dựng liệu huấn luyện 61 Hình 5.4 Mơ hình tổng qt mơ-đun xây dựng phát 62 Hình 5.5 Kết huấn luyện phát 63 Hình 5.6 Mơ hình tổng qt mơ-đun xây dựng phân lớp 64 Hình 5.7 Giao diện mô-đun xây dựng phân lớp 65 Hình 5.8 Mơ hình tổng qt mơ-đun xây dựng kiểm tra 66 Hình 5.9 Giao diện thơng số kết 68 Hình 5.10 Kết trình xây dựng liệu huấn luyện 57 Hình 5.11 Kết huấn luyện học không giám sát 76 Hình 5.12 Kết học huấn luyện có giám sát 77 Hình 5.13 Kết thử nghiệm giai đoạn xây dựng phân lớp 78 Hình 5.14 So sánh kết kiểm tra liệu virus thử nghiệm 81 Hình 5.15 So sánh kết kiểm tra liệu thử nghiệm 82 DANH MỤC BẢNG BIỂU Bảng 5.1 Các đối tượng giai đoạn xây dựng liệu huấn luyện 53 Bảng 5.2 Các phương thức giai đoạn xây dựng liệu huấn luyện 54 Bảng 5.3 Các phương thức giai đoạn xây dựng phát 56 Bảng 5.4 Các đối tượng giai đoạn xây dựng phát 57 Bảng 5.5 Danh sách thông số mô-đun xây dựng liệu huấn luyện 60 Bảng 5.6 Danh sách thông số mô-đun xây dựng phân lớp 65 Bảng 5.7 Dữ liệu huấn luyện kiểm tra 52 Bảng 5.8 Bảng so sánh thực nghiệm tương quan giá trị r trinh xây dựng liệu huấn luyện Data 1, Data 2, Data 53 Bảng 5.9 Bảng so sánh kết thực nghiệm thông số cấu trúc mạng 73 Bảng 5.10 Bảng so sánh kết thực nghiệm Learning rate 74 Bảng 5.11 Dữ liệu huấn luyện kiểm tra thử nghiệm 78 Bảng 5.12 Kết kiểm tra liệu virus thử nghiệm 79 Bảng 5.13 Kết kiểm tra liệu thử nghiệm 79 Bảng 5.14 Dữ liệu huấn luyện liệu kiểm tra thử nghiệm 80 Bảng 5.15 Kết kiểm tra liệu virus thử nghiệm 80 Bảng 5.16 Kết kiểm tra liệu thử nghiệm 80 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt Viết đầy đủ Ý nghĩa AIS Artificial Immune System Hệ miễn dịch nhân tạo ANN Artificial Nơ-ron Network Mạng nơ-ron nhân tạo AV Anti - Virus Phần mềm chống virus CNN Convolutional CNTT Công nghệ thơng tin Mơ hình máy học Convolution Cơng nghệ thơng tin Tên phần mềm mà khóa luận DBAV Deep Belief Anti Virus (DBN) Deep Belief Network DRN Deep Residual Networks xây dựng Mơ hình máy học tin tưởng sâu Mơ hình máy học Deep Residual 54 16 0:21:45 120523 Từ bảng trên, ta dễ dàng nhận thấy rằng, giá trị r gia tăng, thời gian thực thi tăng theo, đồng thời số lượng chuỗi tập chuỗi virus tăng lên nhiều Ta giải thích cho điều sau: giá trị r nhỏ, ngưỡng so khớp nhỏ từ chuỗi tập virus dễ dàng gán khớp với chuỗi tập chuỗi Khi r =8, ta thấy toàn chuỗi nhị phân tập chuỗi virus bị loại ra, chứng tỏ giá trị r khắt khe Ngược lại, r tăng dần, độ khắt khe để giữ lại chuỗi tập chuỗi virus giảm xuống, nhiều chuỗi nhị phân giữ lại Tuy nhiên, r lớn dẫn tới số lượng chuỗi nhị phân gia tăng đột biến tách biệt chuỗi thuộc tập chuỗi virus với chuỗi thuộc tập chuỗi (khi r=16, tồn hai chuỗi giống liên tiếp 15 bit lại thuộc hai tập phân loại khác nhau.) Điều quan trọng tùy thuộc vào liệu tập tin đầu vào, ta tiến hành thực thao tác xây dựng liệu huấn luyện nhiều lần để lựa chọn giá trị r cho số lượng chuỗi nhị phân tập chuỗi virus thích hợp Lựa chọn thơng số cho cấu trúc mạng Lựa chọn cấu trúc mạng lựa chọn khó khăn Ở nhóm thực lựa chọn thông số cấu trúc mạng thông qua thực nghiệm - Số lớp cấu trúc mạng: mạng ln có lớp đầu vào, lớp ẩn lớp đầu Việc xác định số lớp cấu trúc mạng việc xác định mạng có lớp ẩn tốt nhất: Bảng 5.9 Bảng so sánh kết thực nghiệm thông số cấu trúc mạng Epochs = 100, LearningRate = 0.7, Decay = 0.001, InputLayer = 32 nơ-ron, OutputLayer = nơ-ron Số lớp ẩn Tỉ lệ lỗi thấp Kết luận 0.0000003012 Nhận thấy số lớp ẩn 55 - 0.0000003528 tỉ lệ lỗi thấp 0.0000227789 nhất, tăng nhieu 0.00408 lớp ẩn tỉ lệ lỗi 0.00542 cao Lưu ý: điểm nhóm quan sát q trình chạy, số lớp ẩn lớn độ ổn định khơng cao qua lớp Chính nên nhóm định chọn số lớp cấu trúc mạng - Số nơ-ron lớp: mạng có lớp đầu vào, lớp đầu lớp ẩn Bởi cấu trúc mạng tiếp tục học giai đoạn học có giám sát số nơ-ron lớp đầu vào có cấu trúc giống cấu trúc đầu vào đầu q trình học có giám sát, đầu vào 32 nơ-ron đầu nơ-ron Cuối số nơ-ron lớp ẩn Việc nhóm thực phương pháp để lựa chọn thông số cho cấu trúc mạng xác tuyệt đối thơng số tốt Bởi thơng số tác động lẫn mức độ khơng lớn, để tìm cặp thơng số để đến giá trị tốt cho mạng khó Lựa chọn thơng số cho q trình huấn luyện Nhóm thực lựa chọn thơng số mạng thực nghiệm, sau từ kết tiến hành chọn thông số phù hợp - Learning rate: 0.7 Bảng 5.10 Bảng so sánh kết thực nghiệm Learning rate Epochs = 100, Decay = 0.001, InputLayer = 32 nơ-ron, OutputLayer = nơron, Nơ-ron lớp ẩn = 50 nơ-ron LearningRate Tỉ lệ lỗi thấp Kết luận 0.1 0.0000028 Khi learning rate 0.3 0.0000022 0.7 tỉ lệ lỗi thấp 0.5 0.0000005 56 - 0.7 0.0000003 0.9 0.0000155 Nhóm thực khảo sát số Epochs từ đến 200 nhiều liệu khác nhận thấy rằng: số Epochs lớn tỉ lệ lỗi thấp ngược lại tỉ lệ lỗi không ổn định, lên xuống chênh lệch lớn Nhóm định chọn Epochs 100 lúc tỉ lệ lỗi giảm khơng có biến động q lớn Việc nhóm lựa chọn thông số learning rate 0.7 Epochs 100 thực tế nhiều lần thử nghiệm với thơng số khác nhóm chọn thông số tỉ lệ lỗi thấp ổn định học Lựa chọn điều kiện dừng Hai thơng số định đến điều kiện dừng trình huấn luyện (ở giai đoạn xây dựng phát hiện) số kỉ nguyên tỉ lệ lỗi Số kỉ ngun số vịng lặp mà sau kỷ nguyên, hệ thống biến đổi từ trạng thái sang trạng thái Số kỷ nguyên tối đa lựa chọn thực nghiệm 100, tức trình huấn luyện bị bắt buộc dừng lại sau 100 vòng lặp Tỉ lệ lỗi giá trị thường sử dụng để làm điều kiện dừng hệ thống học Tuy nhiên, cần lưu ý giá trị không phản ánh xác mức độ tốt giải thuật Trong phạm vi thử nghiệm nhóm muốn tìm cấu trúc mạng để có tỉ lệ lỗi tốt Trong thử nghiệm mình, nhóm khơng xác định cụ thể giá trị ngưỡng lỗi để dừng q trình huấn luyện mà thay vào đó, độ tốt huấn luyện ký nguyên thể biểu đồ đường Việc cần làm quan sát biểu đồ đường lựa chọn thời điểm mà ta cho hệ thống đạt trạng thái tốt 5.2.3 Trình bày kết 57 Hình 5.10 Kết trình xây dựng liệu huấn luyện Từ hình 5.10, ta thấy số lượng chuỗi lớn (> 46000) số lượng chuỗi tập virus khơng nhỏ (>24000) Bên cạnh đó, ta dễ dàng biết chuỗi tập chuỗi virus bị loại hay giữ lại Mặc khác nhận biết chuỗi gơm nhóm tỉ lệ gơm nhóm 58 Hình 5.11 Kết huấn luyện học khơng giám sát Từ hình 5.11, ta thấy q trình học khơng giám sát trải qua ba tầng qua tầng mạng với số nê-ron khác tỉ lệ lỗi giảm xuống rõ rệt từ khoảng 9,756 -> 0,05702 Hình 5.12 Kết học huấn luyện có giám sát 59 Từ hình 5.12, ta thấy q trình học có giám sát sử dụng lại cấu trúc mạng trình trước tỉ lệ lỗi giảm xuống đáng kể, giúp đẩy nhanh tốc độ hiệu trình học Tỉ lệ lỗi lúc cịn khoảng 0,00007 thấp Hình 5.13 Kết thử nghiệm giai đoạn xây dựng phân lớp Từ hình 5.13, ta thấy có tách biệt rõ ràng giá trị mức độ nguy hiểm tập tin virus tập tin Bởi lượng liệu để học chưa chuẩn nhiều nên ta thấy phần tử virus có mức độ nguy hiểm thấp Kiểm tra nhiều liệu - Thử nghiệm 1: Kiểm tra tỉ lệ phát virus với huấn luyện Data1 Bảng 5.11 Dữ liệu huấn luyện kiểm tra thử nghiệm Dữ liệu huấn luyện Dữ liệu kiểm tra Data Data 1, Data 2, Data 3, Data 4, Data Sau ta theo dõi tỉ lệ phát virus với huấn luyện Data Bảng 5.12 Kết kiểm tra liệu virus thử nghiệm 60 Virus Phát Tổng số Tỉ lệ Data 60 60 Data 118 120 0.983 Data 147 150 0.980 Data 289 300 0.963 Data 589 600 0.981 Bảng 5.13 Kết kiểm tra liệu thử nghiệm Sạch Phát Tổng số Tỉ lệ Data 12 Data 24 Data 30 Data 60 0.016 Data 120 0.008 Ở đây, sử dụng tập tin liệu Data để huấn luyện tiến hành kiểm tra liệu Data 1, 2, 3, 4, Khi tiến hành kiểm tra liệu, kết nhận tốt tỉ lệ lỗi % tỉ lệ phát cao (> 95 %) Từ đây, ta thấy khả phát virus hướng tiếp cận đề tốt cần phải có nhiều cải tiến để giảm tỉ lệ cảnh báo nhầm Thử nghiệm 2: Kiểm tra tỉ lệ phát virus với Data Dữ liệu huấn luyện Dữ liệu kiểm tra Data Data 1, Data 2, Data 3, Data 4, Data Bảng 5.14 Dữ liệu huấn luyện liệu kiểm tra thử nghiệm Kết kiểm thử sau: Bảng 5.15 Kết kiểm tra liệu virus thử nghiệm 61 Virus Phát Tổng số Tỉ lệ Data 60 60 Data 118 120 0.983 Data 147 150 0.980 Data 297 300 0.990 Data 589 600 0.981 Bảng 5.16 Kết kiểm tra liệu thử nghiệm Sạch Phát Tổng số Tỉ lệ Data 12 Data 24 Data 30 Data 60 0.016 Data 120 0.016 Tương tự thừ nghiệm 1, ta tiến hành huấn luyện hệ thống liệu Data sau tiến hành kiểm tra liệu lại Bảng 5.15 5.16 cho ta kết trình kiểm tra này, ta thấy kết kiểm tra không khác nhiều so với thử nghiệm Mặc khác, tỉ lệ phát thử nghiệm có phần cao tỉ lệ Sự chênh lêch xem xét xuất phát từ nguyên nhân: • Quá trình huấn luyện thử nghiệm tỉ lệ lỗi thử nghiệm bé tỉ lệ lỗi thử nghiệm nhiều (0.0000003 < 0.00007) • Số tập tin virus tập liệu nhiều gấp đôi số tập tin virus tập liệu Từ đó, ta nhận thấy kết phát virus hệ thống phụ thuộc nhiều vào việc lựa chọn thơng số q trình huấn luyện liệu huấn liệu đầu vào 62 So sánh kết thực nghiệm với mạng miễn dịch nhân tạo Sau có kết thử nghiệm phương pháp học sâu, nhóm có so sánh với phương pháp học qua mạng nơ-ron sinh học kết hợp hệ miễn dịch khóa luận tốt nghiệp Cử Nhân Mai Trọng Khang So sánh kết thử nghiệm 1 0,983 0,99 0,9 0,99 0,98 0,91 0,88 0,9475 0,981 0,964 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 Data 1(60) Data 2(120) DeepLearning Nơ-ron Data 3(150) Data 4(300) Data 5)600) Hình 5.14 So sánh kết kiểm tra liệu virus thử nghiệm 63 So sánh kết thử nghiệm 1 0,9 0,8 0,7 0,6 0,5 0,4 0,32 0,3 0,26 0,22 0,2 0,16 0,2 0,1 0 0,016 0,008 Data 1(12) Data 2(24) Data 3(30) DeepLearning Data 4(60) Data 5(600) Nơ-ron Hình 5.15 So sánh kết kiểm tra liệu thử nghiệm Qua hai biểu đồ nhận thấy kết thử nghiệm tập tin virus phương pháp học sâu có tỉ lệ nhận biết cao phương pháp sử dụng hệ miễn dịch nhân tạo, tỉ lệ không lớn, chênh lệch khoảng gần 0.01 Tuy nhiên, kết kiểm tra liệu lại cho thấy phương pháp học sâu có tỉ lệ lỗi thấp nhiều so với phương pháp mạng nơ-ron nhân tạo, chệnh lệnh khoảng 0.15 Kết luận chương 5: Về mặt thực nghiệm, sau q trình xây dựng hướng tiếp cận, tơi thực hóa hướng tiếp cận dạng phần mềm phát virus, nhằm kiểm tra khả ứng dụng thực nghiệm hướng tiếp cận, so sánh mơ hình thực tế lý thuyết Các kết đạt bao gồm: - Cài đặt thành cơng chương trình minh họa cho mơ hình lý thuyết - Thống kê kết thực nghiệm so sánh so với kết số mơ hình thực nghiệm nghiên cứu 64 - Chương trình minh họa có giao diện thân thiện, thiết kế dễ vận hành thay đổi thơng số cho q trình huấn luyện - Cơ sở liệu huấn luyện cập nhật liên tục, đảm bảo liệu khơng bị lạc hậu - Nhiều kĩ thuật lập trình áp dụng nhằm nâng cao hiệu hệ thống như: giải thuật gom cụm, kỹ thuật lập trình đa luồng đồng hóa, thiết kế hướng đối tượng… 65 Chương 6.1 KẾT LUẬN Kết đạt Về mặt lý thuyết, sau thời gian dài nghiên cứu tìm hiểu từ nhiều nguồn tài liệu khác nhau, chủ yếu báo khoa học đạt kết sau: - Nghiên cứu, nắm kiến thức cần thiết virus, đó, bao gồm kiến thức khái niệm, chủng loại virus có, phương thức lây nhiễm virus máy tính - Nghiên cứu phương pháp tiếp cận tốn phịng, chống virus máy tính, cụ thể phương pháp nhận dạng virus máy tính chương trình diệt virus - Các tri thức mạng nơ-ron nhân tạo, hệ miễn dịch nhân tạo số thuật tốn máy học khơng phần quan trọng K-means, backpropagration việc phân loại liệu nhằm tăng hiệu chương trình - Thành công việc xây dựng hướng tiếp cận , dựa ý tưởng mạng nơ-ron nhân tạo Deep Learning nhận dạng đặc trưng Hướng tiếp cận trình bày chi tiết qua tốn - Đánh giá hiệu năng, độ tương thích mơ hình học Deep Learning tốn phát virus biến thể Về mặt thực nghiệm, sau q trình xây dựng hướng tiếp cận, tơi thực hóa hướng tiếp cận dạng phần mềm phát virus, nhằm kiểm tra khả ứng dụng thực nghiệm hướng tiếp cận, so sánh mơ hình thực tế lý thuyết Các kết đạt bao gồm: - Cài đặt thành cơng chương trình minh họa cho mơ hình lý thuyết - Thống kê kết thực nghiệm so sánh so với kết số mơ hình thực nghiệm nghiên cứu 66 - Chương trình minh họa có giao diện thân thiện, thiết kế dễ vận hành thay đổi thơng số cho q trình huấn luyện - Cơ sở liệu huấn luyện cập nhật liên tục, đảm bảo liệu khơng bị lạc hậu - Nhiều kĩ thuật lập trình áp dụng nhằm nâng cao hiệu hệ thống như: giải thuật gom cụm, kỹ thuật lập trình đa luồng đồng hóa, thiết kế hướng đối tượng… 6.2 Hạn chế Bên cạnh kết đạt được, cịn nhiều hạn chế q trình phân tích hướng tiếp cận xây dựng chương trình minh họa mà tơi nhận thấy Tuy nhiên giới hạn trình độ chun mơn, sở vật chất, đòi hỏi nghiên cứu xa để giải vấn đề tồn đọng Một số hạn chế kể ra: - Đề tài tập trung dạng virus windows Là dạng đơn, chưa tập trung nghiên cứu dạng virus đa hình, nhiều lớp biến thể Cũng đặc trưng dạng virus hệ điều hành khác Ubuntu… - Quá trình nhận dạng lỗi, hay nhận dạng nhầm trở ngại không lường trước hệ thống Do mơ hình học sử dụng mạng nơ-ron cho trình huấn luyện [3] - Chương trình demo xác định virus, không xác định tên, chủng loại… Do đặc điểm phương pháp tiếp cận nhiều bất cập Tuy nhiên, khóa luận này, tơi hướng đến việc phát virus tạm thời chưa tập trung vào việc nhận dạng tên, họ chúng - Các thông số trình huấn luyện chủ yếu phụ thuộc vào trình thực nghiệm lấy số tốt - Chương trình minh họa sử dụng nhiều tài nguyên hệ thống CPU hoạt động, việc sử dụng kỹ thuật đa luồng threadpool 67 - Chưa có kế hoạch đảm bảo an tồn cho thiết bị thực kiểm tra chương trình, chương trình thao tác trực tiếp với mã độc, mã độc tồn suốt trước và sau trình vận hành chương trình 6.3 Hướng phát triển Hướng phát triển mà nhóm hướng tới thời gian gần, khắc phục hạn chế quan trọng có, bao gồm: - Hồn thiện mơ hình học để giảm thiểu tình trạng nhận dạng nhầm Cần kết hợp nhiều mạng nơ-ron cho trình học, để đảm bảo lấy kết tổng hợp khách quan - Nghiên cứu phương pháp thơng số thơng minh q trình huấn luyện Sao cho mạng tự học điều hình thơng số để đạt đến trạng thái mạng tốt với thông số tốt - Nghiên cứu phát triển ứng dụng tảng khác Windows tảng thông dụng, nhiên môi trường Ubuntu môi trường với số lượng người dùng lớn, đồng thời môi trường virus phát triển - Nghiên cứu nhận dạng biến thể virus, dạng virus cấp cao hơn, ngụy trang tốt - Nghiên cứu phương pháp nhận dạng tên virus, họ… Từ thống kê tình hình diễn biến virus DANH MỤC TÀI LIỆU THAM KHẢO Tài liệu tiếng Việt Quang, T.M.N., Tiếp cận máy học hệ chuyên gia để nhận dạng, phát virus máy tính 2009 Mai Trọng Khang, N.H.N., Nghiên cứu số thuật toán máy học hệ miễn dịch nhân tạo phát virus máy tính, in Khoa Học Máy Tính 2013, University of International Technology Vũ Thanh Nguyên Nghiên cứu phương pháp rút trích đặc trưng Virus xây dựng phân lớp tập tin nhằm phát Virus máy tính, đề tài nghiên cứu khoa học cấp đại học quốc gia năm 2016 Tài liệu tiếng Anh 10 11 12 13 14 15 16 17 18 19 Vladimir Golovko, M., Anatoly Sachenko, Principles of Nơ-ron Network Artificial Immune System Design to Detect Attacks on Computers 2010 Forrest, S., Perelson, A., Allen, L., Cherukuri, Self-nonself discrimination in a computer 1994 Veen, F.V The Nơ-ron Network Zoo September 14, 2016 [cited 2016 October 28]; Available from: http://www.asimovinstitute.org/nơ-ron-network-zoo/ Wikipedia Deep learning 2016; Available from: https://en.wikipedia.org/wiki/Deep_learning Anastasia Doumas, K.M., Dimitris Gritzalis, Sokratis Katsikas, Design of a nơron network for recognition and classification of computer viruses 1995 Tesauro, G., Nơ-ron Networks for Computer Virus Recognition 1996 Dechter, R., Learning while searching in constraint-satisfaction problem 1986 Yoshua Bengio, P.L., Dan Popovici, Hugo Larochelle, Greedy Layer-Wise Training of Deep Networks 2007 Spafford, E.H., Computer Viruses as Artificial Life 1994 Wikipedia Máy học 2016; Available from: https://vi.wikipedia.org/wiki/H%E1%BB%8Dc_m%C3%A1y SEJNOWSKI, G.E.H.a.T.J., Learning and relearning in Boltzmann machines 1986 Sun, K.H.X.Z.S.R.J., Deep Residual Learning for Image Recognition 2015 Hinton, G., Learning representations by back-propagating errors 1989 BBC Honda's new Asimo robot can run, jump and sign 2014; Available from: Honda's new Asimo robot can run, jump and sign Knight, W Tesla Might Replace Autopilot’s Eyes with Something Far More Advanced 2016; Available from: https://www.technologyreview.com/s/602048/tesla-might-replace-autopilotseyes-with-something-far-more-advanced/ Skinner, C., The billion dollar fraud and how deep learning might avoid it 2015 ... hiệu chương trình - Chương tơi áp dụng học sâu để tìm hướng phát virut đồng thời xây dựng toán 31 Chương ÁP DỤNG HỌC SÂU TRONG PHÁT HIỆN VIRUS Chương trình bày chi tiết giải pháp tiếp cận toán phát. .. chịu trách nhiệm luận văn Tác giả luận văn ký ghi rõ họ tên Nguyễn Xuân Hưng TÓM TẮT LUẬN VĂN Đề tài:XÂY DỰNG CHƯƠNG TRÌNH GIẢI QUYẾT BÀI TỐN PHÁT HIỆN VIRUT MÁY TÍNH Ngành:Cơng nghệ thơng tin... thực Trong chương chương trình bày hướng tiếp cận để giải toán dựa kết hợp giải thuật phân cụm liệu K-Means máy học Deep Learning Bài toán phát virus chia thành toán con, từ việc xây dựng liệu