Phương pháp phát hiện virus máy tính dựa trên hệ miễn dịch nhân tạo kết hợp thông tin từ cấu trúc PE của tập tin trên hệ điều hành windows

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH TẠP CHÍ KHOA HỌC HO CHI MINH CITY UNIVERSITY OF EDUCATION JOURNAL OF SCIENCE KHOA HỌC TỰ NHIÊN VÀ CÔNG NGHỆ NATURAL SCIENCES AND TECHNOLOGY ISSN: 1859-3100 Tập 15, Số 12 (2018): 82-93 Vol 15, No 12 (2018): 82-93 Email: tapchikhoahoc@hcmue.edu.vn; Website: http://tckh.hcmue.edu.vn PHƯƠNG PHÁP PHÁT HIỆN VIRUS MÁY TÍNH DỰA TRÊN HỆ MIỄN DỊCH NHÂN TẠO KẾT HỢP THÔNG TIN TỪ CẤU TRÚC PE CỦA TẬP TIN TRÊN HỆ ĐIỀU HÀNH WINDOWS Nguyễn Tấn Toàn1*, Vũ Thanh Nguyên1, Trịnh Quốc Sơn1, Lê Đình Tuấn2 Trường Đại học Cơng nghệ Thông tin – ĐHQG TPHCM Trường Đại học Kinh tế Công nghiệp Long An Ngày nhận bài: 28-8-2018; ngày nhận sửa: 24-9-2018; ngày duyệt đăng: 21-12-2018 TÓM TẮT Bài báo nghiên cứu phương pháp phát virus dựa giải thuật hệ miễn dịch nhân tạo (AIS), kết hợp với thơng tin trích xuất từ cấu trúc Portable Executable (PE) tập tin hệ điều hành Windows, nhằm giúp giảm chi phí trích xuất đặc trưng từ việc dùng đặc trưng cấu trúc PE tăng thêm đa dạng phát thông qua giải thuật hệ miễn dịch nhân tạo Phương pháp thực nghiệm với liệu phân lớp khác (SVM, Naïve Bayes Decision Tree) Kết thực cho thấy độ xác phương pháp đạt 89,25%, 79,93% 87,38% sử dụng SVM, Naïve Bayes Decision Tree giai đoạn phân lớp Từ khóa: AIS, cấu trúc PE, phát virus máy tính ABSTRACT Computer virus detection method based on artficial immune system with information from PE structure from files on Windows This paper presents a computer virus detection based on algorithms of artificial immune system (AIS) with information extracted from the Portable Executable (PE) structure of Windows PE files to reducing the cost of feature extraction via using features from the PE structure and increasing the variety of detector set by AIS The proposal method is evaluated with multiple data sets and different classification methods (including SVM, Naïve Bayes and Decision Tree) The Accuracy of the proposal methods can reach 89.25%, 79.93% and 87.38% when using SVM, Naïve Bayes and Decision Tree in classification respectively Keywords: AIS, PE structure, computer virus detection Mở đầu Ngày nay, virus máy tính thật mối nguy hiểm gây nhiều thiệt hại Không thế, số lượng chúng lại tăng nhanh Do đó, để giảm thiểu thiệt hại từ virus, nhiều nhà khoa học công nghệ thông tin cố gắng nghiên cứu phương pháp khác để phát virus máy tính * Email: toannt@uit.edu.vn 82 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Nguyễn Tấn Toàn tgk Trong phát virus máy tính, hai phương pháp phát virus kinh điển phương pháp dựa chữ kí phương pháp dựa hành vi Nhưng so với thời điểm tại, hai phương pháp không đủ tốt để giải vấn đề virus Phương pháp dựa chữ kí có nhược điểm nhận dạng virus chưa biết (mới biến thể virus trước đó) Trong đó, phương pháp dựa hành vi phát virus chưa biết dựa chuỗi hành vi tập tin chi phí để phân tích phương pháp tốn Do đó, gần đây, để tìm phương pháp tốt hơn, nhiều phương pháp dựa khai thác liệu, máy học, thống kê, hệ miễn dịch nhận tạo nhiều khoa học quan tâm Đi theo xu hướng đó, báo tiếp cận theo hướng phát virus dựa giải thuật hệ miễn dịch nhân tạo kết hợp với thơng tin trích xuất từ cấu trúc PE tập tin hệ điều hành Windows, hi vọng đóng góp nghiên cứu thử nghiệm cách tiếp cận với việc kết hợp giá trị liệu PE phát virus khả xây dựng, đa dạng hóa phát (detector) AIS lượng liệu huấn luyện hạn chế so với lượng liệu thực tế phát virus máy tính hệ điều hành Windows Các cơng trình liên quan Như đề cập, có nhiều phương pháp dựa khai thác liệu, máy học, hệ miễn dịch nhân tạo nghiên cứu [1], [2] Một số ví dụ sau: R.Chao cộng [3] xây dựng hệ thống phát virus mà hệ thống chuỗi nhị phân tập tin virus tập tin trích xuất Sau đó, chuỗi nhị phân trải qua q trình chọn lọc âm tính (NSA), CLONALG (giải thuật nhân bản), máy học (sử dụng SVM, KNN, RBF networks) Bài báo [4], sử dụng hai giải thuật hệ miễn dịch nhân tạo gồm NSA mạng miễn dịch nhân tạo (artificial immune network – aiNet) đặc trưng dạng chuỗi nhị phân 32 bit trích xuất từ tập tin để xây dựng nên hệ thống phát virus máy tính kết kết bước đầu tốt WU Bin cộng [5], xây đựng mơ hình phát malware smartphone Các tập tins tập luận luyện chuyển thành vector đặc trưng Mỗi vetor đặc trưng có thuộc tính tĩnh (trích xuất mà không cần thực thi tập tin) thuộc tính động (trích xuất thơng tin thực thi tập tin) Sau vector đặc trưng trải qua giai đoạn gồm chọn lọc âm tính (Negative Selection Algorithm – NSA), nhân đột biến để tạo nên tập phát chọn lọc nhân (CLONALG) Sau đó, phát nhận dạng đủ số lượng kháng nguyên trình hoạt động giữ lại Bước cuối hệ thống sử dụng phương pháp phân tích phương pháp trọng số phương pháp dựa k-means Bài viết tác giả công bố đạt tỉ lệ phát lên đến 80% 83 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số 12 (2018): 82-93 Bên cạnh đó, gần đây, thơng tin trích xuất từ cấu trúc PE tập tin PE (PE header, DLL ) sử dụng cho việc phát malware [6] Ví dụ, Baldangombo cộng trích xuất xây dựng vector đặc trưng từ cấu trúc PE tập tin [6] Sau đó, vector đặc trưng trải qua trình phân lớp (SVM, J48, Naïve Bayes) Kết báo công bố tỉ lệ phát đến 99,6% Một báo khác [7] sử dụng PE header DLLs để tạo nên vector đặc trưng Sau đó, họ chạy vector đặc trưng giải thuật khai thác liệu Tỉ lệ phát công bố viết 99% Ta thấy, nhiều giải pháp sử dụng hệ miễn dịch nhân tạo cho phát virus máy tính với đặc trưng chuỗi nhị phân phân (16 bit, 32 bit 64 bit) trích xuất bit từ tập tin đầu vào báo [3], [4] Các hướng tiếp cận cho kết khả quan, có đa dạng hóa phát thông qua giải thuật hệ miễn dịch nhân tạo để tăng khả nhận dạng liệu huấn luyện thường so với liệu thực tế nhiều việc sử dụng đặc trưng chuỗi nhị phân từ tập tin thường có số lượng lớn từ tập tin trích nhiều chuỗi bit điều dẫn đến bùng nổ liệu làm chi phí thực cao Bên cạnh đó, vài năm gần đây, đặc trưng trích xuất từ cấu trúc PE ngày thu hút ý nhà khoa học bước đầu có kết khả quan báo [6], [7] Hầu hết phương pháp áp dụng trực tiếp giải thuật máy học lên đặc trưng phí thấp, việc khơng sử dụng phương pháp xử lí để tăng tính đa dạng linh động đặc trưng liệu huấn luyện không đủ lớn so với thực tế làm hạn chế phần khả dự đoán loại malware chưa gặp thực tế lượng malware thực tế lớn phát triển nhanh so với lượng dùng huấn luyện kiểm thử nghiên cứu Do đó, báo này, sử dụng thông tin trích xuất từ cấu trúc PE làm đặc trưng đầu vào Mỗi tập tin đại diện đặc trưng nhằm giảm nguy bùng nổ lượng liệu so với phương pháp trích xuất chuỗi nhị phân từ tập tin Đồng thời, sử dụng giải thuật hệ miễn dịch nhân tạo lên đặc trưng từ PE để tạo phát đa dạng hóa chúng nhằm mục đích tăng đa dạng mở rộng khả nhận biết loại virus thực tế mà liệu huấn luyện, kiểm thử nghiên cứu bị giới hạn so với phát triển chóng mặt virus Phương pháp tiếp cận báo Phương pháp đề xuất có giai đoạn chính: trích xuất đặc trưng, chọn lọc âm tính (NSA), đột biến đa dạng hóa phát hiện, phân lớp kiểm thử Tổng quan bước thực báo thể Hình 84 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Nguyễn Tấn Tồn tgk Hình Sơ đồ tổng quan giai đoạn phương pháp 3.1 Trích xuất đặc trưng từ cấu trúc PE Bước xây dựng vector đặc trưng cho tập tin liệu huấn luyện (bao gồm virus tập tin sạch) Các vector đặc trưng tập tin liệu huấn luyện xây dựng dựa thông tin từ cấu trúc PE tập tin PE (PE headers, Dlls ) Trong báo, vector đặc trưng chia làm hai phần: phần thứ chứa đặc trưng dạng số thực trích xuất từ cấu trúc PE, phần thứ hai chứa đặc trưng dạng nhị phân biểu diễn cho diện hay không DLL tập tin phân tích Danh sách DLL sử dụng báo dựa kết báo [6] Danh sách đặc trưng mô tả cụ thể Bảng Bảng [6] - [8] Bảng Danh sách đặc trưng dạng số thực trích xuất từ cấu trúc PE STT 10 11 12 Các đặc trưng Tổng kích thước phần liệu khởi tạo vùng Mã xác định đặc điểm DLL Địa ảo tương đối danh mục chứng Địa ảo tương đối danh mục cấu hình tải liệu tập tin Số lượng kí hiệu bảng kí hiệu COFF Thông tin phiên tập tin Mã kiểm tra lỗi tập tin Địa ảo tương đối danh mục debug Địa sở để tải lên tồn tập tin Tổng kích thước vùng tái định vị Chứa giá trị xác định đặc điểm tập tin Tổng kích thước vùng chứa thơng tin tài nguyên 85 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM 13 14 15 16 17 18 19 Tập 15, Số 12 (2018): 82-93 Địa ảo tương đối nơi bắt đầu vùng mã nguồn tập tin Tổng kích thước vùng liệu Kích thước nhớ ảo trữ cho heap Số lượng vùng tập tin Địa ảo tương đối danh mục trích xuất Địa ảo tương đối danh mục gọi ràng buộc Địa ảo tương đối danh mục tái định vị địa sở tập tin Bảng Danh sách DLL sử dụng STT 10 11 12 13 14 15 16 17 DLL MSVFW32.dll MSACM32.dll AVIFIL32.dll MSASN1.dll kernel32.dll advapi32.dll gdi32.dll wininet.dll comctl32.dll shell32.dll wsock32.dll oleaut32.dll msvbvm50.dll ole32.dll shlwapi.dll ws2_32.dll ntdll.dll STT 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 DLL urlmon.dll version.dll crtdll.dll comdlg32.dll winnm.dll rpcrt4.dll psapi.dll msvcr100.dll hal.dll mpr.dll netapi32.dll avicap32.dll rasapi32.dll cygwin1.dll mscoree.dll imagehlp.dll Sau trích xuất, đặc trưng dạng số thực (ở Bảng 1) chuẩn hóa phương pháp min-max tương tự báo [5] Trong đó, đặc trưng nhị phân (hay đặc trưng DLL) (xem Bảng 2) có giá trị Giá trị biểu thị cho việc DLL gọi vào tập tin xét Giá trị biểu thị DLL khơng gọi vào tập tin trích xuất Cuối giai đoạn này, hệ thống thu hai tập vector đặc trưng bao gồm tập V   v1 , v2 ,,  B   b1, b2 ,, bm  Trong đó, V tập vector đặc trưng tập tin virus tập huấn luyện B tập vector đặc trưng tập tin tập huấn luyện 86 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Nguyễn Tấn Toàn tgk 3.2 Giải thuật chọn lọc âm tính Mục đích giai đoạn để tạo tập phát – sở xây dựng phân lớp để dự đoán tập tin Chi tiết giải thuật chọn lọc âm tính (NSA) mơ tả Giải thuật Giải thuật NSA sử dụng báo dựa giải thuật NSA báo [5], [9] với vài thay đổi cơng thức tính khoảng cách để phù hợp với liệu Mỗi vector đặc trưng ngồi có phần mơ tả bước trích xuất thơng tin, bước vector đặc trưng có thêm thơng tin bán kính biểu diễn cho phạm vi ảnh hưởng vector đặc trưng Như vậy, lúc vector đặc trưng cấu trúc dạng FP, DP, R Trong đó, FP , DP , R biểu diễn cho thành phần đặc trưng dạng số, đặc trưng nhị phân cho DLL, bán kính Trong bước này, giải thuật sử dụng tham số Rself Rnonself Rself Rnonself giá trị khởi tạo cho phần R vector đặc trưng cho virus vector đặc trưng cho tập tin Thêm vào đó, giải thuật sử dụng khoảng cách phần tử e1 e2 ( e1 e2 virus, phát vector tập tin sạch) Khoảng cách e1 e2 viết tắt kí hiệu Dise1 ,e2 tính tốn cơng thức (3.1): Dise1 ,e2  EDFPe , FPe2  HDDPe (3.1) , DPe Trong công thức (3.1), EDFPe1 , FPe2 , khoảng cách euclidean FP phần tử e1 FP phần tử e2 , tính theo công thức (3.2) HDDPe1 , DPe2 , khoảng cách hamming DP e1 DP e2 , tính theo cơng thức (3.3), t tt số đặc trưng có FP DP t EDFPe1 , FPe2    FPe ,i  FPe ,i  i 1   HDU DP  i 1 tt HDDPe1 , DPe2 HDU DPe1 ,i , DPe2 ,i (3.2) e1 ,i , DPe2 , i  tt  0, DPe1 ,i  DPe2 ,i   1, DPe1 ,i  DPe2 ,i (3.3) Giải thuật Giải thuật chọn lọc âm tính – NSA Đầu vào: Tập vector đặc trưng virus V   v1 , v2 ,,  Tập vector đặc trưng tập tin B   b1 , b2 ,, bm  87 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số 12 (2018): 82-93 Đầu ra: Tập phát D   d1 , d2 , , dk  Begin For i  to n detector  vi For j  to m If Disdetector ,ai  Rself  Rdetector then Rdetector  Disdetector ,ai  Rself If Rdetector  Rself then Thêm detector vào D End 3.3 Đột biến đa dạng hóa phát Trong bước này, tập phát thu giải đoạn NSA trải qua giải thuật để tăng đa dạng độ phủ chúng Giải thuật sử dụng bước dựa CLONALG báo [5] với vài thay đổi Chi tiết giải thuật thể Giải thuật Giải thuật Giải thuật CLONALG cho đột biến đa dạng hóa tập phát Đầu vào: Tập vector đặc trưng virus V   v1 , v2 , ,  Tập vector đặc trưng tập tin B   b1 , b2 ,, bm  Tập phát D   d1 , d2 , , dk  Đầu ra: Tập phát trải qua đột biến đa dạng hóa D   d1 , d , , d q  Begin Tính lực phát Sắp xếp tập D theo chiều giảm dần lực Chọn N phát có lực cao Mỗi phát chọn tạo M bảo đột biến Thêm tạo vào tập D End Trong Giải thuật 2, lực d1 kí hiệu Affdi Ái lực tính cơng thức (3.4) dựa công thức sử dụng báo [5] với số thay đổi để phù hợp với đặc trưng toán Aff di  Voldi  δ  Olpdi , D  HDAdi ,D (3.4) 88 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Nguyễn Tấn Tồn tgk Trong cơng thức (3.4), Voldi tính công thức (3.5): Voldi   t /   Rdt i πt / t  !, t làsốchẵn  (3.5)  t 1    t /           1    , t làsốlẻ  t 1  2  Olpdi , D độ phủ trùng lắp phát δ hệ số trừng phạt cho độ trùng lắp Olpdi , D tính theo cơng thức (3.6) k Olpdi , D  Olpdi , d j i 1 0, Disdi ,d j  Rdi  Rd j   n Olpdi ,d j     Rdi  Rd j  Disdi ,d j   exp      , Disdi ,d j  Rdi  Rd j Rd i  R d j     (3.6) HDAdi , D khoảng cách hamming trung bình phát d với phát tập D tính theo cơng thức (3.7) Trong đó, q số lượng phát tập D   HDFP ,FP   i 1 q d di (3.7) q Trong bước tạo đột biến Giải thuật 2, N số lượng phát chọn để trải qua trình nhân Mỗi phát chọn tạo M Mỗi phát chọn tạo đột biến FP DF phát chọn với chế khác FP đột biến toán tử đột biến cauchy theo công thức (3.8) [5], [10] HDAd , D FPd'i , j  FPdi , j  i , j   j , với j  1, 2,3, , t i', j  i , j  exp   a  N  0,1    b  N j  0,1   , với j  1, 2,3, , t a   2 t b    t  (3.8)  -1 -1 Trong công thức (3.8), FPd'i FP detecotr di ηi ,ηi' tham số phát δ j biến ngẫu nhiên theo phân phối 89 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số 12 (2018): 82-93 cauchy chuẩn FPd'i , j , FPdi , j , ηi , j , ηi' , j thành phần thứ j th FPd'i , FPdi , ηi , η'i N  0,1 số ngẫu nhiên theo phân phối chuẩn với mean độ lệch chuẩn N j  0,1  số ngẫu nhiên cho phần tử thứ j th FPd'i [5], [10] Trong đó, DP đột biến đột biến điểm ngẫu nhiên Z vị trí DP chọn ngẫu nhiên thay đổi giá trị từ thành ngược lại Trong đó, Z tham số sử dụng để xác định số lượng đặc trưng DP đột biến 3.4 Giai đoạn phân lớp Các vector đặc trưng tập liệu huấn luyện tính tốn độ nguy hiểm với phát D thu Mỗi vector nguy hiểm có dạng EDA, HDA Chúng tính tốn theo cơng thức (3.9) cơng thức (3.10) mà q số lượng phát có D   EDFP ,FP   i 1 q EDAd , D d di (3.9) q   HDFP ,FP   i 1 q d di (3.10) q Sau thu vector độ nguy hiểm cần thiết, vector chuẩn hóa phương pháp min-max tương tự phương pháp sử dụng báo [5] tiếp đến trải qua trình phân lớp (SVM, Naive Bayes Decision Tree) Kết trình model sử dụng cho phát virus sau 3.5 Kiểm thử Trong bước kiểm thử, tập tin kiểm thử chuyển thành vector đặc trưng kĩ thuật trích xuất đặc trưng từ cấu trúc PE mục Tiếp theo, vector độ nguy hiểm vector đặc trưng tập tin kiểm thử tính tốn chuẩn hóa theo giai đoạn phân lớp Cuối cùng, vector độ nguy hiểm kiểm tra phân lớp thu bước phân lớp đánh giá kết Thực nghiệm Trong thí nghiệm báo, để trích xuất thơng tin từ cấu trúc PE, phần mềm Microsoft dumpbin sử dụng Có tổng số tập liệu sử dụng Tỉ lệ số lượng tập tin liệu huấn luyện kiểm thử 7:3 Chi tiết liệu thể Bảng Bảng Các tập liệu liệu thử nghiệm HDAd , D Stt Tập liệu Tập Tập Tập Số lượng tập tin huấn luyện Số lượng tập tin kiểm thử Virus Tập tin Virus Tập tin 200 100 86 43 400 200 171 86 600 300 257 129 90 Nguyễn Tấn Tồn tgk TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập Tập 5 800 1000 400 500 343 429 171 214 Sau chạy tất liêu, thu kết thể Bảng Biểu đồ Biểu đồ 1Trong độ xác tính cơng thức (4.1): Độchính xác (Accuracy)  Sốlượng tập tin dựđoán Sốlượng tập tin kiểm thử (4.1) Bảng Kết độ phát xác STT Tập liệu Tập Tập Tập Tập Tập Trung bình SVM 87,6 88,33 90,67 89,3 90,36 89,25 Độ xác (Accuracy - %) Naïve Bayes Decision Tree 86,82 88,37 82,49 87,55 75,13 90,41 77,63 82,68 77,6 87,87 79,93 87,38 Biểu đồ Biểu đồ kết độ phát xác thực nghiệm Kết bảng Bảng Biểu đồ cho thấy, độ xác hệ thống đạt 89,25%, 79,93%, 87,38% sử dụng SVM, Naive Bayes, Decision Tree Tỉ lệ phát cao đạt SVM thử nghiệm 90,67% thấp SVM 87,6% Trong cao nhất, thấp phương pháp sử dụng Decision Tree Naive Bayes 86,82%, 75,13% 90,41%, 82,68% Dễ dàng thấy phương pháp đề xuất đạt độ xác cao điều phản ảnh tiềm phướng pháp mà báo tiếp cận Ta thấy, phân lớp có tỉ lệ phát cao 91 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM Tập 15, Số 12 (2018): 82-93 SVM nên phương pháp phân lớp tiềm cho phương pháp tiếp cận báo Kết luận hướng phát triển Bài báo tiếp cận việc phát virus máy tính phương pháp sử dụng AIS kết hợp với thơng tin trích xuất từ cấu trúc PE Phương pháp tiếp cận báo dự đốn tập tin chưa biết trước với hiệu suất tốt Các thử nghiệm cho thấy cách tiếp cận báo đạt độ xác trung bình 89,25%, 79,93%, 87,38% sử dụng SVM, Naive Bayes, Decision Tree Về lí thuyết, ta thấy thơng tin số thực từ cấu trúc PE có khác miền giá trị tập tin tập tin virus Bên cạnh đó, DLL quan trọng chứa hàm liên quan đế đọc, viết, copying liệu hệ thống loại hành vi mà virus thường sử dụng nên DLL chứa hành vi thường xuyên gọi virus máy tính Do đó, mà việc kết hợp thông tin dạng số từ thông tin PE header thơng tin DLL đặc trưng tốt phân biệt virus tập tin Trong giai đoạn sử dụng AIS, NSA loại bỏ vector đặc trưng không tốt gần giống với tập tin nhằm để giảm thiểu sai sót bước dự đốn giữ lại vector đặc trưng tốt cho trình tạo phát Để làm cho hệ thống dự đoán virus chưa biết tốt hơn, biến thể CLONALG báo [5] sử dụng để nhân phát với vài đột biến nhằm làm cho phát trở nên đa dạng Tuy nhiên, việc tìm phân biệt virus tập tin cách thủ cơng tương đối khó nên phương pháp phân lớp sử dụng Để phân lớp, vector nguy hiểm tính tốn, chuẩn hóa trải qua q trình phân lớp nhằm tạo phân lớp cho việc dự đốn virus Đó ngun nhân lí giải cho việc phương pháp đạt kết tốt mong đợi Trong tương lai, để làm cho phương pháp trở nên tốt hơn, đánh giá phương pháp đặc trưng khác, biến thể giải thuật AIS khác với tập liệu đa dạng, phong phú Bên cạnh đó, thời điểm tại, hệ thống dự đốn tập tin virus hay tập tin nên nỗ lực để dự đoán kiểu virus đầu tư nhằm làm cho hệ thống tốt  Tuyên bố quyền lợi: Các tác giả xác nhận hồn tồn khơng có xung đột quyền lợi  Lời cảm ơn: Nghiên cứu tài trợ Đại học Quốc gia Thành phố Hồ Chí Minh (VNUHCM) cho đề tài mã số C2018-26-06 [1] TÀI LIỆU THAM KHẢO A Souri and R Hosseini, “A state-of-the-art survey of malware detection approaches using data mining techniques,” Hum-Centric Comput Inf Sci., 8(1), p 3, Jan 2018 92 TẠP CHÍ KHOA HỌC - Trường ĐHSP TPHCM [2] Nguyễn Tấn Toàn tgk V Mehare and R S Thakur, “Data Mining Models for Anomaly Detection Using Artificial Immune System,” in Proceedings of International Conference on Recent Advancement on Computer and Communication, Singapore, 2018, pp 425-432 [3] R Chao and Y Tan, “A Virus Detection System Based on Artificial Immune System,” in 2009 International Conference on Computational Intelligence and Security, 2009, 1, pp 6-10 [4] V T Nguyen, T T Nguyen, K T Mai and T D Le, “A Combination of Negative Selection Algorithm and Artificial Immune Network for Virus Detection,” in Future Data and Security Engineering, Cham, 2014, pp 97-106 [5] B Wu, T Lu, K Zheng, D Zhang and X Lin, “Smartphone malware detection model based on artificial immune system,” China Commun., 11(13), pp 86-92, Supplement 2014 [6] U Baldangombo, N Jambaljav and S.-J Horng, “A Static Malware Detection System Using Data Mining Methods,” CoRR, abs/1308.2831, 2013 [7] M Z Shafiq, S M Tabish, F Mirza, and M Farooq, “PE-Miner: Mining Structural Information to Detect Malicious Executables in Realtime,” in Recent Advances in Intrusion Detection, Berlin, Heidelberg, 2009, pp 121-141 [8] Y Liao, “Pe-header-based malware study and detection,” Retrieved Univ Ga Httpwww Cs Uga Edu∼ LiaoPEFinalReport Pdf, 2012 [9] Z Ji and D Dasgupta, “Real-Valued Negative Selection Algorithm with Variable-Sized Detectors,” in Genetic and Evolutionary Computation – GECCO 2004, Berlin, Heidelberg, 2004, pp 287-298 [10] J Saxe and K Berlin, “Deep neural network based malware detection using two dimensional binary program features,” in 2015 10th International Conference on Malicious and Unwanted Software (MALWARE), 2015, pp 11-20 93 ... hướng phát virus dựa giải thuật hệ miễn dịch nhân tạo kết hợp với thơng tin trích xuất từ cấu trúc PE tập tin hệ điều hành Windows, hi vọng đóng góp nghiên cứu thử nghiệm cách tiếp cận với việc kết. .. phát virus máy tính, hai phương pháp phát virus kinh điển phương pháp dựa chữ kí phương pháp dựa hành vi Nhưng so với thời điểm tại, hai phương pháp không đủ tốt để giải vấn đề virus Phương pháp. .. nhiều phương pháp dựa khai thác liệu, máy học, hệ miễn dịch nhân tạo nghiên cứu [1], [2] Một số ví dụ sau: R.Chao cộng [3] xây dựng hệ thống phát virus mà hệ thống chuỗi nhị phân tập tin virus tập