Bài viết này đề xuất một phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Convolutional Neural Networks (CNN) với dữ liệu đầu vào là ảnh ASM. Cụ thể, phương pháp dựa trên phần mềm dịch ngược để tạo ra tệp tin ASM và biểu diễn phần thông tin đặc tả cấu trúc của tệp tin dưới dạng chuỗi điểm ảnh.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00205 PHƯƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Mạc Đình Hiếu1, Lê Ngọc Anh1, Trần Đức Hùng2, Trịnh Văn Hùng3, Ngô Minh Phƣớc3, Hà Quốc Trung3 Viện Công nghệ thông tin Truyền thông, Trƣờng Đại học Bách khoa Hà Nội Viện Hóa học mơi trƣờng qn sự, Bộ Tƣ lệnh hóa học Trung tâm Công nghệ thông tin, Bộ Khoa học Cơng nghệ hieumd@soict.hust.edu.vn, anh.ln180008@sis.hust.edu.vn, minhhieu06042010@gmail.com, hungtv@most.gov.vn, phuocnm@most.gov.vn, trunghq@soict.hust.edu.vn TĨM TẮT: Bài báo đề xuất phương pháp phân loại nhanh mã độc sử dụng mạng nơron tích chập Convolutional Neural Networks (CNN) với liệu đầu vào ảnh ASM Cụ thể, phương pháp dựa phần mềm dịch ngược để tạo tệp tin ASM biểu diễn phần thông tin đặc tả cấu trúc tệp tin dạng chuỗi điểm ảnh Chuỗi điểm ảnh sau cắt ngắn, biến đổi thành ảnh vuông đen trắng có kích thước nhỏ Một kiến trúc CNN đơn giản triển khai để phân loại ảnh nhằm giảm thiểu khối lượng tính tốn đảm bảo độ xác Kết thử nghiệm liệu Microsoft Malware Classification Challenge (BIG 2015) chứng minh hiệu phương pháp đề xuất với tỷ lệ phân loại đạt 98,59 %, thời gian xử lý mẫu mã độc trung bình 0,0054 s máy tính có cấu hình phổ thơng Từ khóa: Phân loại mã độc, phân tích tĩnh, mạng nơron tích chập, học sâu I GIỚI THIỆU Mã độc chƣơng trình phần mềm độc hại đƣợc tin tặc tạo nhằm thực hành động bất hợp pháp nhƣ phá hoại hệ thống máy tính, nghe lén, thu thập trái phép thông tin riêng tƣ ngƣời dùng chiếm quyền điều khiển, biến thiết bị thành tác nhân để thực hành vi công mạng khác [1] Ngày này, mã độc trở thành mối nguy hiểm lớn khơng gian mạng nói chung an tồn bảo mật hạ tầng thơng tin nói riêng Theo báo cáo SYNMATEC, riêng năm 2017 có 669 triệu mẫu mã độc biến thể chúng đƣợc tin tặc phát triển lây nhiễm toàn giới [2] Rõ ràng, với hàng trăm triệu mã độc tồn xuất không ngừng mẫu mã độc với kỹ thuật công, lây nhiễm, che dấu ngày tinh vi tạo nhiều thách thức nhà nghiên cứu bảo mật Phân tích tĩnh phân tích động hai kỹ thuật phổ biến dùng phát mã độc Phân tích tĩnh tập trung tìm dấu hiệu mẫu mã độc mà không cần phải thực thi chúng Tuy nhiên, phân tích tĩnh địi hỏi kinh nghiệm, kiến thức chun gia không khả thi tin tặc sử dụng kỹ thuật che giấu thông tin nhƣ mã hóa Phân tích động tiến hành thực thi mã độc mơi trƣờng có kiểm sốt để quan sát, thu thập thơng tin q trình hoạt động, tƣơng tác mã độc với hệ điều hành, với liệu ngƣời dùng với tác nhân bên ngồi qua mạng Internet Thơng tin sau đƣợc tổng hợp, khai phá để đƣa đặc điểm hành vi bất thƣờng Điểm hạn chế phân tích động chủ yếu liên quan đến trình lựa chọn triển khai mơi trƣờng ảo hóa phù hợp cho mã độc Ngoài ra, thách thức lớn nhà nghiên cứu bảo mật việc tin tặc dễ dàng tạo biến thể khác số thay đổi nhỏ mã nguồn Để bắt kịp với tốc độ phát triển mã độc, cần có chế tự động cho phép xác định nhanh mẫu khác thuộc họ mã độc Các công trình khoa học phân loại mã độc trƣớc [3], [4] rằng, mã độc thuộc họ có dấu hiệu giống cấu trúc, mã nguồn hành vi Từ đó, số nghiên cứu sử dụng thuật toán học máy xây dựng phân loại với liệu mã độc biết để mơ hình hóa đặc trƣng, cho phép phát chƣơng trình bình thƣờng hay độc hại phân biệt họ mã độc với Việc ứng dụng thuật tốn học máy giảm thiểu nhiều cơng sức nhà bảo mật việc phân tích mã độc so với với phƣơng pháp truyền thống, đồng thời giúp tăng tỷ lệ phát phân loại mã độc [5] Tuy nhiên, hiệu phƣơng pháp học máy truyền thống phụ thuộc nhiều vào liệu đầu vào, đƣợc trích chọn dựa kinh nghiệm chuyên gia [6] Những năm gần đây, kiến trúc mạng học sâu (Deep Learning) đem lại hiệu vƣợt trội nhiều lĩnh vực khác nhƣ xử lý ngôn ngữ tự nhiên, thị giác máy tính, nhận dạng giọng nói lĩnh vực an tồn thơng tin nhờ khả xử lý trực tiếp liêu thơ, tự động trích chọn đặc trƣng nhiều cấp độ khác nhƣ khả tổng quát hóa cao [7-10] Trong báo này, chúng tơi đề xuất áp dụng mạng nơron tích chập Convolutional Neural Networks (CNN) để phân loại nhanh mã độc tƣơng tự nhƣ nghiên cứu [4-5], [11-12] Ƣu điểm phƣơng pháp cho phép chuyển từ toán phân loại mã độc sang toán phân loại ảnh, từ xây dựng cơng cụ phân loại mã độc tự động mà không yêu cầu tri thức sâu rộng chuyên gia bảo mật Điểm khác biệt chúng tơi hay đóng góp báo phƣơng pháp đề xuất sử dụng liệu đầu vào tệp tin ASM mẫu mã độc đƣợc biểu diễn rút gọn dƣới dạng ảnh đen trắng (chúng gọi ảnh ASM, phân biệt với ảnh mã độc ảnh đƣợc chuyển đổi trực tiếp từ tệp nhị phân tƣơng ứng), sau đƣợc đƣa vào phân loại sử dụng mạng CNN có kiến trúc mạng đơn giản để giảm khối lƣợng tính tốn, tăng tốc độ xử lý mà đảm bảo độ xác tƣơng đƣơng tốt so với phƣơng pháp khác 494 PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Nội dung báo đƣợc trình bày thành phần Sau phần giới thiệu, phần II đánh giá tổng quan phƣơng pháp phân loại phát mã độc sử dụng phƣơng pháp học máy Nội dung phần III mô tả chi tiết phƣơng pháp đề xuất Phần IV trình bày trình thử nghiệm kết Phần cuối kết luận định hƣớng nghiên cứu tƣơng lai II CÁC CƠNG TRÌNH NGHIÊN CỨU LIÊN QUAN Với mục tiêu phân loại nhanh mẫu mã độc, báo tập trung vào nghiên cứu thuộc phân tích tĩnh sử dụng phƣơng pháp học sâu để xây dựng phân loại với liệu đầu vào tệp thực thi mã độc đƣợc biểu diễn dƣới dạng ảnh Ý tƣởng biểu diễn tệp nhị phân thực thi mã độc sang dạng ảnh đƣợc đề xuất lần Nataraj cộng [13] Bản chất tệp thực thi chuỗi nhị phân, nên chuyển phần thông tin biểu diễn liệu tệp tin sang chuỗi điểm ảnh [0, 255] (0 trắng, 255 đen) biến đổi tạo thành mảng hai chiều thu đƣợc ảnh đa mức xám Dựa ý tƣởng tác giả chuyển từ toán phân loại mã độc sang bài toán phân loại ảnh áp dụng GIST để trích rút phần tử cấu trúc ảnh, sau dùng thuật tốn k-Nearest Neighbors (kNN) để thực phân loại Tƣơng tự nhƣ vậy, Ahmadi cộng [14] áp dụng XGBoost đạt đƣợc số kết định XGBoost thuật toán đạt độ kết cao thi phân loại mã độc Microsoft Malware Classification Challenge (BIG 15) [15] tổ chức vào năm 2015 [16] Tuy nhiên, để cải thiện độ xác, hầu hết phƣơng pháp cần kết hợp hàng nghìn đặc trƣng khác nhau, đƣợc trích rút thủ công từ tệp thực thi tệp ASM mẫu mã độc sở kinh nghiệm chuyên gia, chúng khơng khả thi triển khai ứng dụng thực tế Trong năm gần đây, học sâu chứng minh vƣợt trội so với phƣơng pháp học máy toán nhận dạng phân loải ảnh Gibert [12] sử dụng kiến trúc mạng CNN đơn giản để phân loại trực tiếp ảnh mã độc có kích thƣớc 32x32 mà khơng cần trích chọn đặc trƣng nhƣ phƣơng pháp học máy truyền thống Cùng với cách tiếp cận trên, Quan Le cộng [5] sử dụng mơ hình kết hợp mạng CNN mạng LSTM hai chiều (BiLSTM) với ảnh đầu vào đƣợc tạo dựa thuật toán giảm mẫu (downsampling) để giảm dung lƣợng tệp thực thi trƣớc biến đổi sang dạng ảnh Trong phƣơng pháp [4], [11], [12] chuyển trực tiếp tệp thực thi sang dạng ảnh áp dụng thuật toán giảm độ phân giải xử lý ảnh để đƣa kích thƣớc Kalash cộng [4] áp dụng kiến trúc mạng VGG16 với ảnh mã độc 224 224 Khác với phƣơng pháp trên, Li Chen [11] sử dụng Tranfer Learning phép tùy chọn mơ hình mạng CNN phổ biến thị giác máy tính nhƣ mạng Inception, VGG, ResNet, DenseNet phân loại mã độc Nhìn chung, phƣơng pháp đạt đƣợc kết khả quan chứng minh đƣơc tính hiệu học sâu toán phân loại mã độc, nhiên toán sử dụng liệu tệp tin thực thi nhị phân, tệp tin ASM với nhiều thông tin quan trọng hƣớng tiếp cận phù hợp với phân loại mã độc [15] III PHƢƠNG PHÁP ĐỀ XUẤT Nội dung phần trình bày chi tiết phƣơng pháp phân loại nhanh mã độc mà đề xuất, bao gồm việc biểu diễn rút gọn tệp tin ASM tệp tin mã độc dƣới dạng ảnh đa mức xám kiến trúc mạng CNN đƣợc sử dụng để xây dựng phân loại nhanh ảnh ASM A Biểu diễn tệp tin ASM mã độc dạng ảnh Tệp tin ASM đƣợc tạo thông qua công cụ dịch ngƣợc IDA [20] Nội dung tệp tin, nhƣ minh họa Hình 1, gồm loạt mệnh đề nằm liên tiếp Mỗi mệnh đề, dẫn lệnh, đƣợc viết dòng Độ dài trung bình dịng thuộc tệp tin mã độc dao động khoảng từ 40 đến 70 ký tự (Hình 2) Hình Ảnh chụp đoạn code tệp asm mẫu mã độc Trong báo, chúng tơi thực trích xuất phần liệu liên quan đến thơng tin đặc tả tệp tin, cịn gọi metadata Chuỗi nhị phân đƣợc tổ chức thành nhóm 8-bit, tƣơng đƣơng điểm ảnh ảnh xám đƣợc chia thành hai phần Phần thứ khơng có ý nghĩa phân loại mã độc sinh cơng cụ dịch ngƣợc Phần thứ hai Mạc Đình Hiếu, Lê Ngọc Anh, Trần Đức Hùng, Trịnh Văn Hùng, Ngô Minh Phƣớc, Hà Quốc Trung 495 đƣợc biển đổi sang dạng ma trận vng để tạo thành ảnh ASM Kích thƣớc ảnh đƣợc lựa chọn để cân độ xác thời gian tính tốn đƣợc đề cập chi tiết Phần IV Hình minh họa ảnh 12 dạng mã độc tập liệu Microsoft Malware Classification Challenge (BIG 15) Có thể thấy ảnh dạng có đặc thù riêng, tiền đề đề xây dựng mơ hình phân loại sử dụng CNN phƣơng pháp đề xuất Hình Biểu đồ thống kê độ dài mơt dòng code file asm họ mã độc liệu mã độc Microsoft Malware Classification Challenge (BIG 15) (a) Ramnit (b) Lollipop (c) Kelihos_ver3 (b) Vundo (e) Simda (f) Tracur (g) Kelihos_ver1 (h) Obfuscator.ACY (i) Gatak Hình Minh họa ảnh asm rút gọn mẫu mã độc thuộc họ mã độc khác với kích thƣớc 100 100 PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 496 B Mơ hình nơron tích chập CNN đề xuất Mạng nơron tích chập CNN Trọng mạng nơron học sâu, mạng nơron tích chập CNN mạng nơron đƣợc áp dụng rộng rãi toán nhận dạng ảnh, phân loại ảnh, phát vật thể, nhận dạng khn mặt Với tốn phân loại ảnh, phân loại dựa CNN có đầu vào ma trận điểm ảnh đầu giá trị xác suất [0,1] mà ảnh thuộc phân lớp đƣợc tính tốn dựa hàm Softmax Phân lớp ảnh đầu vào đƣợc lấy theo nhãn phân lớp có giá trị xác suất cao Các thành phần mạng gồm Lớp nhân chập, lớp Pooling lớp Fully Connected Lớp nhân chập (Convolution layer) lớp chịu trách nhiệm trích rút đặc trƣng ảnh đầu vào thơng qua việc tính tích chập ma trận ảnh đầu vào với lọc (filter) khác để thực hành động nhƣ phát đƣờng biên vật thể (edge detection), làm mờ (blur), làm sắc nét ảnh (shapen) từ ma trận ảnh đầu giữ đƣợc mối quan hệ điểm ảnh ảnh gốc ban đầu thông qua đặc trƣng cạnh, màu sắc hình dạng Về bản, lọc biến đổi vùng nhỏ ảnh đầu vào giá trị đầu sau đƣợc đƣa vào hàm phi tuyến tính nhƣ ReLU (Rectified Linear Unit) để đầu giá trị không âm theo nhƣ Biểu thức (1) ( ) ( (1) ) Lớp Pooling có nhiệm vụ giảm số chiều liệu từ giảm thời gian tính tốn, tránh tƣợng overfitting Lớp Pooling thƣờng đƣợc sử dụng Max Pooling giá trị nơron lớp giá trị lớn cụm nơron lớp trƣớc (cịn gọi cửa sổ Pooling) Lớp Fully Connected có nhiệm vụ phân loại ma trân đầu sau qua lớp nhân chập lớp Pooling cách dàn phẳng ma trận thành véc-tơ sau đƣa qua lớp Fully Connected (các nơron lớp đƣợc kết nối với tất nơron lớp trƣớc đó) để tính tốn xác suất ứng với dạng mã độc thơng qua hàm kích hoạt nhƣ Softmax Phƣơng pháp phân loại nhanh mã độc đề xuất Phân đề xuất phƣơng pháp phân loại nhanh mã độc sử dụng mạng CNN với đầu vào ảnh ASM Số lƣợng lớp mạng CNN phụ thuộc vào mức độ phức tạp liệu đầu vào nhƣ u cầu tối ƣu hiệu tính tốn Việc tính tốn số lƣợng lớp cần thiết hàm kích hoạt phi tuyến tính phù hợp nhiều bất khả thi Thay vào đó, thực nghiệm chứng minh mạng nơron với nhiều lớp ẩn (hidden layers) kết hợp với hàm phi tuyến đơn giản nhƣ ReLU có khả biểu diễn liệu huấn luyện tốt [21] Mạng CNN đề xuất đƣợc xây dựng dựa kiến trúc mạng CNN tốt cho tốn phân loại ảnh có độ phức tạp nhƣ phân loại ảnh liệu CIFAR-10 [22] bao gồm ảnh có kích thƣớc nhỏ 10 loại đối tƣợng khác Trong báo này, thử nghiệm hiệu chỉnh mạng CNN với số lƣợng lớp, kích thƣớc lọc, kích thƣớc lớp pooling, hàm kích hoạt khác nhau, từ tìm kiến trúc mạng CNN phù hợp cho toán phân loại ảnh ASM nhƣ Hình Mạng đề xuất gồm bốn lớp nhân chập, hai lớp Pooling ba lớp Fully Connected Kiến trúc cho kết tối ƣu tập liệu đƣợc dùng cho mục đích xây dựng mơ hình đƣợc đánh giá phƣơng pháp kiểm thử chéo (Cross-validation) 12x12x64 26x26x32 26x26x64 55x55x1 55x55x32 24x24x64 512 53x53x32 9216 Ảnh ASM Lớp nhân chập Max Pooling Lớp nhân chập Max Pooling Lớp Fully Connected Hình Kiến trúc mạng CNN phƣơng pháp đề xuất với kích thƣớc ảnh ASM đầu vào 55 55 IV THỬ NGHIỆM VÀ ĐÁNH GIÁ A Môi trường liệu thử nghiệm Phƣơng pháp đề xuất đƣợc đánh giá so sánh với phƣơng pháp khác công bố sở liệu Microsoft Malware Classification Challenge (BIG 15) [16], đƣợc đăng tải trang Kaggle [17] Bộ liệu BIG 15 bao gồm 21.741 mẫu độc (hơn 500 Gb liệu) thuộc họ khác Bộ liệu đƣợc chia thành hai tập bao gồm tập huấn luyện (10.868 mẫu), tập thử nghiệm đánh giá (10.873 mẫu) Mẫu thuộc tập thử nghiệm khơng đƣợc gán nhãn, Mạc Đình Hiếu, Lê Ngọc Anh, Trần Đức Hùng, Trịnh Văn Hùng, Ngô Minh Phƣớc, Hà Quốc Trung 497 kết phân loại phải đƣợc gửi lên trang Kaggle để hệ thống đƣa giá trị thang liên quan đến tỷ lệ phân loại xác Điều đảm bảo tính khách quan việc đối sách phƣơng pháp khác Dữ liệu mẫu mã độc đƣợc cung cấp dƣới hai dạng Tệp tin bytes tệp nhị phân với tiêu đề thực thi đƣợc loại bỏ, tệp tin asm lƣu thơng tin biểu diễn liệu bao gồm lời gọi hàm, chuỗi lệnh hợp ngữ ghi đƣợc trích xuất cơng cụ dịch ngƣợc IDA từ nội dung tệp nhị phân [20] Trong phần thực nghiệm, khác với phƣơng pháp truyền thống, sử dụng tệp tin asm để tiến hành phân loại nhanh mã độc Do đặc thù liệu nên tƣơng tự nhƣ nghiên cứu Kalash cộng [4] thử nghiệm với hai kịch khác liên quan đến liệu Bảng Số lƣợng mẫu họ mã độc tập liệu huấn luyện Họ mã độc Ramnit Lollipop Kelihos_ver3 Vundo Simda Tracur Kelihos_ver1 Obfuscator.ACY Gatak Số lƣợng mẫu 1,541 2,478 2,942 475 42 751 398 1228 1013 Kịch 1: Tập huấn luyện ban đầu (10.868 mẫu) đƣợc phân chia ngẫu nhiên thành ba tập 85 % số lƣợng mẫu đƣợc dùng để huấn luyện, % để đánh giá trình huấn luyện 10 % lại để đánh giá so sánh kiến trúc mạng với tham số khởi tạo khác Chi tiết số lƣợng mẫu phân lớp đƣợc thể Bảng dƣới Chúng sử dụng liệu để đánh giá phƣơng pháp đề xuất với kích cỡ ảnh đầu vào khác nhau, từ lựa chọn kích cỡ phù hợp nhƣ xác định đƣợc tham số cho trình huấn luyện cho kết tối ƣu Kịch 2: Trong kịch này, chúng tơi sử dụng mơ hình tốt thu đƣợc Kịch huấn luyện lại với toàn 10.868 mẫu, sau tiến hành phân loại cho mẫu liệu thử nghiệm Kết phân loại đƣợc gửi lên Kaggle để tính tốn độ xác phƣơng pháp đề xuất so với phƣơng pháp khác Trong thử nghiệm, phƣơng pháp phân loại nhanh mã độc đƣợc lập trình ngơn ngữ Python sử dụng thƣ viện Keras [18], Tensorflow [19] thực thi máy tính cài hệ điều hành Ubuntu 18.04, CPU Intel Core i5-8400, ram 16GB GPU Nvidia GeForce GTX 1080 Ti B Các tham số đánh giá Tƣơng tự nhƣ cơng trình nghiên cứu [4-5], [11-12], báo sử dụng hai tham số để đánh giá độ xác giá trị Logloss toàn kết phân loại mẫu mã độc tập liệu thử nghiệm Độ xác tỷ lệ kết dự đốn xác tổng số mẫu thử nghiệm đƣợc hiển thị dƣới dạng % Độ xác đƣợc chúng tơi sử dụng để đánh giá phƣơng pháp Kịch nhãn mẫu thử nghiệm đƣợc biết trƣớc Trong Kịch 2, sử dụng giá trị logloss đƣợc tính theo Biểu thức (2) ∑∑ ( ) (2) số lƣợng mẫu thử nghiệm, số lƣợng phân lớp mã độc, log logarit tự nhiên (logratit số e), mẫu thuộc lớp trƣờng hợp lại, xác suất mà mẫu đƣợc dự đoán thuộc lớp mã độc Bên cạnh tham số độ xác, thời gian cần thiết để phân loại đƣợc mẫu mã độc đƣợc đánh giá báo C Kết quả, nhận xét đánh giá Kịch Nhƣ trình bày phần 2.1 việc lựa chọn kích cỡ ảnh đầu vào ảnh hƣởng đến kiến trúc mạng nhƣ độ xác phân loại Kích thƣớc tối thiểu với ảnh ASM 45x45 Phƣơng pháp đề xuất cho kết tốt với ảnh kích thƣớc 55x55 Từ độ phân giải 64x64 trở đi, độ xác có thay đổi, nhƣng mức độ thay đổi khơng đáng kể Vì báo, đề xuất sử dụng ảnh 55x55 để cân hai thang đo độ xác khối lƣợng tính tốn Bảng Hiệu phƣơng pháp đề xuất với kích cỡ ảnh ASM đầu vào khác Số lƣợng điểm ảnh trích xuất Kích cỡ ảnh ASM đầu vào Độ xác (%) 1024 32x32 90,208 2025 45x45 97,616 3025 55x55 98,590 4096 64x64 98,012 7056 78x78 97,607 8100 90x90 97,551 10000 100x100 97,708 PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 498 Kịch Kịch thực so sánh phƣơng pháp đề xuất với phƣơng pháp Gibert [12], Ahmadi cộng [14], phƣơng pháp M-CNN [4] mạng LSTM hai chiều [5] theo hai tiêu chí Logloss độ xác, Logloss tiêu chí đƣợc sử dụng thi BIG 15 Từ Bảng thấy phƣơng pháp đề xuất có kết tốt so với phƣơng pháp sử dụng ảnh byte Việc kết hợp hai ảnh cho hiệu vƣợt trội, nhƣng đòi hỏi nhiều thời gian để xử lý mẫu mã độc Bảng So sánh hiệu phƣơng pháp đề xuất với phƣơng pháp phân loại khác theo tiêu chí đánh giá Microsoft Malware Classification Challenge (BIG 15) Phƣơng pháp Gibert [12] Ahmadi cộng [14] Đội chiến thắng [15] M-CNN [4] CNN BiLSTM - Reb Sampl [5] Phƣơng pháp đề xuất Kiểu tệp liệu đầu vào bytes bytes + asm bytes + asm bytes bytes asm Logloss 0,1176 0,0063 0,0028 0,0571 0,0655 0,0533 Liên quan đến độ xác, phƣơng pháp đề xuất có kết tƣơng đƣơng với phƣơng pháp truyền thống Phƣơng pháp Gilbert cộng tập trung vào việc phân loại mẫu mã độc Logloss khơng đạt đƣợc kết tốt thi BIG 15 Bảng So sánh hiệu phƣơng pháp đề xuất với phƣơng pháp phân loại mã độc khác có hƣớng tiếp cận dựa Deep Learning với đầu vào ảnh mã độc Phƣơng pháp Gibert [12] Li Chen [11] CNN BiLSTM - Reb Sampl [5] M-CNN [4] Phƣơng pháp đề xuất Kiểu tệp liệu đầu vào bytes bytes bytes bytes asm Kích thƣớc ảnh đầu vào 32x32 224x224 32x32 224x224 55x55 Độ xác (%) 99,38 98,13 98,20 98,99 98,59 Chúng tiến hành đánh giá thời gian phân loại mẫu mã độc Theo nhƣ Bảng 3, phƣơng pháp đề xuất có kết tƣơng đƣơng với 10,4 milligiây, thấp khoảng lần so với phƣơng pháp dùng mạng LSTM hai chiều Thời gian 5,4 milligiây phù hợp để triển khai ứng dụng phân loại mã độc hoạt động theo thời gian thực Bảng So sánh thời gian cần thiết để phân loại mã độc Thời gian chuyển đổi tệp mã độc sang ảnh (s) Thời gian phân loại ảnh (s) Tổng thơi gian phân loại (s) CNN BiLSTM - Reb Sampl [5] 0,0176 0,0021 0,0197 Phƣơng pháp đề xuất 0,0052 0,0002 0,0054 V KẾT LUẬN Trong báo này, đề xuất hƣớng tiếp cận cho toán phân loại mã độc cách biểu diễn tệp asm mã độc dƣới dạng ảnh rút gọn sử dụng kiến trúc mạng CNN đơn giản để phân loại Bằng thực nghiệm, chứng minh tính hiệu phƣơng pháp đề xuất với logloss liệu mã độc thử nghiệm Microsoft Malware Classification Challenge 0.0533, tốt phƣơng pháp phân loại dựa ảnh mã độc đƣợc tạo từ tệp nhị phân Bên cạnh phƣơng pháp đề xuất cho phép xây dựng đƣợc phân loại mã độc tự động với hiệu xử lý đạt xấp xỉ 100 mẫu mã độc/s cấu hình phần cứng phổ thơng Trong tƣơng lai, mở rộng liệu huấn luyện với nhiều họ mã độc để tăng khả phân loại, hỗ trợ nhà nghiên cứu bảo mật việc phân tích chuyên sâu mẫu mã độc từ phát hiện, ngăn chặn loại bỏ kịp thời biến thể mẫu mã độc biết, đảm bảo an toàn an ninh cho không gian mạng VI LỜI CẢM ƠN Các nghiên cứu báo tài trợ Viện Hoá học môi trường quân TÀI LIỆU THAM KHẢO [1] Michael Sikorski and Andrew Honig, "Practical Malware Analysis: The Hands-On Guide to Dissecting Malicious Software", No Starch Press, Inc., San Francisco, 2012 [2] "Internet Security Threat Report", https://www.symantec com/content/dam/symantec/docs/reports/istr-24-2019en.pdf, Accessed: 25-11-2019 Mạc Đình Hiếu, Lê Ngọc Anh, Trần Đức Hùng, Trịnh Văn Hùng, Ngô Minh Phƣớc, Hà Quốc Trung 499 [3] Lakshmanan Nataraj, S Karthikeyan and B.S Manjunath, "Sattva: Sparsity inspired classification of malware variants", the 3rd ACM Workshop on Information Hiding and Multimedia Security, 2015, pp 135-140, 2015 [4] Mahmoud Kalash et al., "Malware classification with deep convolutional neural networks", The 9th IFIP International Conference on New Technologies, Mobility and Security (NTMS), Paris, France, 2018 [5] Le Quan et al., "Deep learning at the shallow end: Malware classification for non-domain experts." Digital Investigation, Vol 26, pp 118-126, 2018 [6] Mac Hieu, et al., "DGA botnet detection using supervised learning methods", the Eighth International Symposium on Information and Communication Technology, Nha Trang, Vietnam 2017 [7] Goodfellow, Ian, Yoshua Bengio, and Aaron Courville "Deep learning" MIT press, 2016 [8] Tran Duc et al., "A LSTM based framework for handling multiclass imbalance in DGA botnet detection." Neurocomputing, Vol 275, pp 2401-2413, 2018 [9] Mac Hieu et al., "Detecting Attacks on Web Applications using Autoencoder." The Ninth International Symposium on Information and Communication Technology, Da Nang, Vietnam, 2018 [10] Hiếu Mạc Đình, et al "A Method to Improve LSTM using Statistical Features for DGA Botnet Detection", Research and Development on Information and Communication Technology Vol 40, No 3, 2018 [11] Li Chen, "Deep transfer learning for static malware classification", arXiv preprint arXiv: 1812.07606, 2018 [12] D Gibert Llaurado, "Convolutional neural networks for malware classification", Master’s thesis, Universitat Polit`ecnica de Catalunya, 2016 [13] L Nataraj, S Karthikeyan, G Jacob and B.S Manjunath, "Malware images: Visualization and Automatic Classification", The 8th international symposium on visualization for cyber security, 2011 [14] M Ahmadi, D Ulyanov, S Semenov, M Trofimov, G Giacinto, "Novel feature extraction, selection and fusion for effective malware family classification" The Sixth ACM Conference on Data and Application Security andPrivacy, New York, USA, 2016 [15] "Microsoft malware winners’ interview: 1st place, no to overfitting!" https://github.com/xiaozhouwang/kaggle Microsoft Malware/ blob/master/ Saynotooverfitting.pdf, 2017, Accessed: 22 November 2019 [16] Ronen Royi et al., "Microsoft malware classification challenge", arXiv preprint arXiv:1802.10135, 2018 [17] Microsoft Malware Classification Challenge (BIG 2015), "Classify malware into families based on file content and characteristics", URL https://www.kaggle.com/ c/malware-classification, Retrieved: 24 November 2019 [18] Franỗois Chollet Keras, URL http://keras.io, Accessed: 24 November 2019 [19] Tensorflow, "An end-to-end open source machine learning platform", https://tensorflow.org, Retrieved: 24 November 2019 [20] The Interactive Disassembler (IDA), https://www.hex-rays.com/products/ida/, Retrieved: 15 August 2020 [21] "Multi-layer Perceptron and Backpropagation", https://machinelearningcoban.com/2017/02/24/mlp, Accessed: 2511-2019 [22] Krizhevsky, Alex, and Geoff Hinton "Convolutional deep belief networks on cifar-10." Unpublished manuscript 40.7 (2010): 1-9 FAST AND ACCURATE MALWARE CLASSIFICATION BASED ON CONVOLUTIONAL NEURAL NETWORKS Mac Dinh Hieu, Le Ngoc Anh, Tran Duc Hung, Trinh Van Hung, Ngo Minh Phuoc, Ha Quoc Trung ABSTRACT: In this paper, we propose a novel method for fast and accurate malware classification using Convolutional Neural Networks (CNN) and ASM images Particularly, the proposed method relies on the reverse engineering tools to create the so-called ASM file, whose metadata can be represented as a sequence of image pixels Such sequence is then shortened and reshaped to form an ASM image A simple CNN is also exploited to performance the classification, where the ASM image is treated as an input of the network Experiments are carried out on the dataset from Microsoft Malware Classification Challenge (BIG 15) They have shown that the proposed method can achieve an accuracy of 98,59 % It is also amenable to deployed in a practical security system ... mẫu mã độc thuộc họ mã độc khác với kích thƣớc 100 100 PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 496 B Mơ hình nơron tích chập CNN đề xuất Mạng nơron tích chập CNN Trọng mạng. .. PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP Nội dung báo đƣợc trình bày thành phần Sau phần giới thiệu, phần II đánh giá tổng quan phƣơng pháp phân loại phát mã độc sử dụng. .. 97,708 PHƢƠNG PHÁP PHÂN LOẠI NHANH MÃ ĐỘC SỬ DỤNG MẠNG NƠRON TÍCH CHẬP 498 Kịch Kịch thực so sánh phƣơng pháp đề xuất với phƣơng pháp Gibert [12], Ahmadi cộng [14], phƣơng pháp M-CNN [4] mạng LSTM