Phát hiện mã độc IoT botnet dựa trên đồ thị PSI với mô hình Skip-gram

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	8
Dung lượng	521,69 KB

Nội dung

Trong bài viết này, nhóm tác giả đề xuất hướng thu thập đặc trưng của mã độc Botnet trên các thiết bị IoT thông qua việc xây dựng đồ thị PSI. Sau đó, mô hình mạng nơ-ron CNN được sử dụng để cải thiện hiệu quả phân lớp các tập tin mã độc và lành tính.

Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin Phát mã độc IoT botnet dựa đồ thị PSI với mơ hình Skip-gram Ngơ Quốc Dũng, Lê Văn Hồng, Nguyễn Huy Trung Tóm tắt— Trong o này, n t cg ng p p p t n c oT otn t t (Printable String Information) s ng ng n -ron t c c p (Convolutional Neural Network - CNN) Thông qua vi c phân tích ặc tính Botnet thiết b oT, p ng p p u t y ng t ểt ể nc c ố ên ết g ữ c c , ầu vào c o ô n ng n -ron NN p n p ết qu t c ng ữ u t ptn L g u c oT otn t t p t n àn t n c o t y p ng p p u t t c n c ccur cy o ên t i 98,1% Abstract— In this paper, the authors propose a method for detecting IoT botnet malware based on PSI graphs using Convolutional Neural Network (CNN) Through analyzing the characteristics of Botnet on IoT devices, the proposed method construct the graph to show the relations between PSIs, as input for the CNN neural network model Experimental results on the 10033 data set of ELF files including 4002 IoT botnet malware samples and 6031 benign files show Accuracy and F1-score up to 98.1% Từ khóa— IoT botnet; t Printable String Information (PSI) ; M ng n ron t c c p Keywords— IoT botnet; Printable String Information graph; Convolutional Neural Network u t I GIỚI THIỆU Cuộc cách mạng công nghiệp 4.0 hay đƣợc gọi với tên nhƣ Internet vạn vật (Internet of Things) hay công nghiệp Internet (Industrial Internet) làm biến đổi nhanh chóng cơng nghiệp quốc gia, diễn toàn cầu Với nhiều tên gọi khác nhƣng đặc điểm bật cách mạng công nghiệp lần thứ việc dịch chuyển hệ thống máy móc sản xuất truyền thống sang hệ thống tự động hố có khả tự hành cách thơng minh dựa tảng điện tử viễn thông công nghệ thông tin Dựa cách mạng công nghiệp Bài báo đƣợc nhận ngày 4/10/2018 Bài báo đƣợc gửi phản biện thứ vào ngày 14/10/2018 đƣợc chấp nhận đăng vào ngày 5/12/2018 Bài báo đƣợc gửi phản biện thứ hai vào ngày 15/10/2018 đƣợc chấp nhận đăng vào ngày 02/12/2018 4.0 mà giáo dục, y tế, trị, xã hội, kinh tế có thành tựu vƣợt bậc thời gian ngắn Bên cạnh tiện ích mà cách mạng cơng nghiệp 4.0 mang lại an tồn thơng tin khơng gian mạng ngày trở nên phức tạp, tiềm ẩn nhiều nguy ảnh hƣởng trực tiếp tới an ninh quốc gia, tới lợi ích hợp pháp ngƣời dân Những nguy ngày hữu mà chuỗi cung ứng, nhà máy, ngƣời tiêu dùng hoạt động liên quan đƣợc kết nối với thông qua thiết bị IoT Việc đảm bảo an ninh, an tồn thơng tin cho thiết bị IoT thu h t nhiều nhà nghiên cứu tổ chức Các nghiên cứu, cơng trình cơng bố chia thành hai nhóm gồm: phân tích tĩnh phân tích động Phân tích động hay cịn đƣợc gọi phân tích hành vi thực việc giám sát toàn thiết bị tập tin thực thi trình hoạt động để phát hành vi bất thƣờng Theo hƣớng tiếp cận này, Celeda cộng [1] giới thiệu phƣơng pháp phát mã độc Chuck Norris Botnet thiết bị mô-đem bị lây nhiễm Kết nghiên cứu cho thấy hầu hết mã độc lây lan thông qua giao thức telnet thiết bị sử dụng mật yếu mặc định nhà sản xuất Tuy nhiên nghiên cứu ch áp dụng đƣợc kiến tr c MIPS Để mở rộng phạm vi nghiên cứu kiến tr c vi xử lý khác nhƣ ARM, PowerPC… công cụ QEMU ngày đƣợc sử dụng rộng rãi Trong [2], Jonas cộng xây dựng framework Avatar để phân tích Firmware thiết bị nh ng b ng cách phối hợp trình thực thi mô ph ng dựa QEMU với phần cứng thực tế B ng cách tiêm phần mềm trung gian đặc biệt vào thiết bị nh ng, Avatar thực thi ch thị firmware bên mô ph ng truyền thực thi vào/ra tới thiết bị vật lý Tuy nhiên, trình thực thi mô ph ng chậm nhiều so với trình thực thi thiết bị thực việc đồng tín hiệu thơng khơng kênh UART JTAG không đảm bảo tốc độ truyền tin Cùng hƣớng tiếp cận đó, Yin Minn Pa Pa cộng [3] phát triển IoT Số 1.CS (07) 2018 29 Journal of Science and Technology on Information Security honeypot để chặn bắt mã độc IoT dựa giao thức telnet; IoTBOX để phân tích mã độc IoT đa kiến tr c CPU, nhƣng ch tập trung vào phân tích hành vi mạng C ng dựa tảng QEMU, Ahmad Darki cộng [4] đề xuất RARE – hệ thống mơ ph ng phân tích mã độc lƣu trữ tiểu sử hành vi mã độc định tuyến dân dụng (SOHO) Trong đó, RARE sử dụng phân tích tĩnh để cung cấp thơng tin cho q trình phân tích động t tùy ch nh mơi trƣờng mơ ph ng gi p mã độc bộc lộ hết tất hành vi độc hại, kết đạt 94 m u mã độc kích hoạt thành công Tuy nhiên, đặc trƣng thu thập qua phân tích tĩnh cịn đơn giản (địa ch IP tên miền) trình tƣơng tác Bot C C chƣa đầy đủ chƣa thể tùy ch nh đƣợc máy chủ C C A.Jacobsson cộng [5] tập trung phát hành vi bất thƣờng thiết bị IoT dân dụng Chun-Jung Wu cộng [6] đề xuất IoTProtect kiểm tra tiến trình chạy thiết bị IoT d ng tiến trình khơng xác định theo chu k định, IoTProtect triển khai thiết bị thƣơng mại mà không cần ch nh sửa nhiều firmware Tuy nhiên, điểm yếu tồn phân tích động ch cho ph p phân tích đơn luồng quan sát tất khả thực thi mã độc [7] Đồng thời kiến tr c vi xử lý thiết bị IoT đa dạng (MIPS, ARM, PowerPC…) nên yêu cầu việc xây dựng môi trƣờng thực thi đảm bảo cho thiết bị IoT hoạt động để thu thập liệu làm đầu vào cho q trình phân tích phức tạp Phân tích tĩnh [8] hay cịn gọi phân tích dựa đặc trƣng bao gồm phân tích, phát mã độc và/hoặc lỗ hổng bảo mật mã nguồn firmware tập tin thực thi mà chạy ch ng Hƣớng tiếp cận sử dụng k thuật nhƣ đồ thị luồng điều khiển (CFG – Control Flow Graph), đồ thị luồng liệu (DFG – Data Flow Graph), thực thi biểu tƣợng (SE – Symbolic Execution) [9] với đặc trƣng thƣờng sử dụng để xác định mã độc nhƣ API, Opcode, PSI (Printable String Information), FLF (Function Length Frequency) [10] Phân tích tĩnh s gi p có cách nhìn tổng quan khả xảy tập tin thực thi Costin cộng [11] đề xuất framework để thu thập, lọc, unpack phân tích tĩnh firmware quy mơ rộng t phát 30 Số 1.CS (07) 2018 lỗ hổng bảo mật, mã độc Những nghiên cứu ch sử dụng đặc trƣng rời rạc mà không vào tƣơng tác, liên quan đặc trƣng…Trong đó, mã độc IoT botnet ln có quy trình hoạt động tƣơng đồng có tƣơng tác với [12], [13] Chính báo để tăng xác phát mã độc IoT botnet, nhóm tác giả sử dụng đồ thị thể liên kết đặc trƣng Tuy nhiên, hạn chế lớn phƣơng pháp không phân tích đƣợc tập tin có độ phức tạp lớn sử dụng k thuật gây rối (obfuscation) Bên cạnh việc sử dụng phân tích tĩnh phân tích động với học máy, phƣơng pháp học sâu đƣợc sử dụng phân tích phát mã độc đem lại kết khả quan năm gần Yuan cộng sử dụng 200 đặc trƣng t q trình phân tích tĩnh động làm đầu vào cho mạng học sâu DBN cho ph p đạt đƣợc độ xác lên tới 96 việc phân loại mã độc tệp tin lành tính [14] Saxe Berlin [15] đề xuất mơ hình dựa mạng nơron truyền th ng để trích xuất đặc trƣng t 40,000 tập tin nhị phân ứng dụng Windows, kết đạt đƣợc độ xác 95 với t lệ dƣơng tính giả (false positive rate) 0,1 Nghiên cứu Hamed cộng [16] đề xuất giải pháp sử dụng cấu tr c LSTM với RNN (Recurrent Neural Network) phát mã độc thiết bị IoT dựa đặc trƣng OpCode trích xuất t ứng dụng thực thi tảng ARM, độ xác đạt 98 Tuy nhiên nghiên cứu áp dụng phƣơng pháp học sâu vào phân tích liệu thu thập đƣợc t trình hoạt động hệ thống, mà chƣa khai thác đặc thù mã độc Botnet, lớp mã độc phổ biến thiết bị IoT Trong báo này, nhóm tác giả đề xuất sử dụng mạng nơ-ron tích chập (Convolutional Neural Network) để phát mã độc Botnet dựa đặc trƣng trích xuất t đồ thị PSI Đóng góp báo là:  Đề xuất thuật toán sinh đồ thị PSI t tập tin nhị phân mã độc IoT botnet  Đề xuất mạng nơ-ron tích chập việc gán nhãn mã độc tập tin lành tính với độ xác, c ng nhƣ độ đo F1 lên tới 98 Phần lại báo đƣợc cấu tr c nhƣ sau: Mục II giải thích chi tiết giải pháp đề xuất Mục III s thảo luận triển khai thử nghiệm tập Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin liệu đƣợc sử dụng Cuối cùng, Mục IV trình bày kết định hƣớng nghiên cứu II PHƢƠNG PHÁP ĐỀ XUẤT Trong phần này, nhóm tác giả s giới thiệu bƣớc thực mơ hình tổng quan Sau vào trình bày chi tiết bƣớc sinh đồ thị PSI t đồ thị CFG Với kết thu đƣợc s tiến hành tiền xử lý thông qua mơ hình skip-gram để chuyển đổi đồ PSI thành biểu diễn vector Cuối áp dụng mô hình mạng CNN để phân lớp tập tin mã độc lành tính ng uan h nh u t Dựa cơng bố [13, 17, 18], nhóm tác giả thấy r ng đặc trƣng mã độc IoT botnet thƣờng diễn theo quy trình, cụ thể bƣớc là: Cố gắng kết nối/nhận t /đến máy chủ C C xa thông qua địa ch IP URL Cố gắng khai thác thiết bị IoT b ng cách liên tục dò qu t ng u nhiên địa ch IP thực công v t cạn thông qua dịch vụ Telnet, SSH, FTP với t điển nh ng s n tập tin (ví dụ root/root, adim/root, admin/123, …) Cố gắng phân tích kiến tr c phần cứng thiết bị IoT tải tập tin nhị phân mã độc cần thiết (MIPS, ARM, PowerPC,…) với đoạn mã kịch thông qua giao thức wget, TFTP để lây nhiễm thiết bị Cố gắng tìm kiếm loại mã độc khác thiết bị để hủy xóa ch ng lây nhiễm thành công để đảm bảo tài nguyên thiết bị IoT thiết bị có tài ngun hạn h p (ví dụ Mirai tìm hủy tiến trình mã độc anime Qbot) Cố gắng chạy nhớ thiết bị IoT sau s tạm d ng hoạt động nhận đƣợc lệnh t k công A Một điều quan trọng mã độc IoT Botnet thƣờng có quy trình thực bƣớc theo trình tự hầu hết u cầu thông tin quan trọng nhƣ địa ch IP, URL, tên miền…, đƣợc gọi PSI PSI đặc trƣng thƣờng đƣợc sử dụng phân tích tĩnh nhƣ [10, 19] để xác định tập tin ELF mã độc hay không Bởi nghiên cứu [11] cho thấy có nhiều hệ điều hành đƣợc sử dụng thiết bị IoT nhƣ Linux, Windows CE, VXWorks, rtems… nhƣng phổ biến thiết bị IoT dựa tảng Linux cả, báo nhóm tác giả sử dụng tập tin thực thi tảng Linux ELF liệu để thử nghiệm tính đ ng đắn phƣơng pháp đề xuất Tuy nhiên phƣơng pháp thƣờng tập trung vào việc kết hợp đặc trƣng, ví dụ nhƣ kết hợp tần suất xuất PSI với FLF (Function Length Frequency), việc kết hợp đặc trƣng gi p cải thiện độ xác phân lớp học máy Tuy nhiên, hƣớng tiếp cận khơng phân tích liên kết PSI, không xem x t đến ngữ cảnh PSI biểu diễn chuỗi thơng tin mang tính trình tự lặp lại tất mã độc Botnet Để cải thiện độ xác phát mã độc dựa phân tích PSI, nhóm tác giả đề xuất hƣớng tiếp cận kết hợp đồ thị PSI mạng nơ-ron tích chập CNN Tổng quan phƣơng pháp đề xuất đƣợc trình bày Hình 1, gồm bƣớc sau:  Sinh đồ thị luồng điều khiển CFG: sử dụng công cụ IDA pro để trích xuất đồ thị CFG Bởi IDA (Interactive Disassembler) cơng cụ phân tách có khả thực dịch ngƣợc tự động phân tích ứng dụng nhị phân sử dụng tham chiếu chiếu vùng mã, ngăn xếp API call thông tin khác  Sinh đồ thị PSI: nhóm tác giả xây dựng công cụ plugin IDA pro để tự động trích xuất đồ thị PSI t CFG Hình Tổng quan mơ hình đề xuất Số 1.CS (07) 2018 31 Journal of Science and Technology on Information Security  Tiền xử lý liệu: mục đích bƣớc nh m chuyển đổi tất định dạng đồ thị PSI thành dạng danh sách kề phù hợp với phân lớp CNN  Bộ phân lớp CNN: bƣớc này, nhóm tác giả đề xuất mạng nơ-ron tích chập có chức phân loại tập liệu đầu vào mã độc hay lành tính B inh th Trong phạm vi khn khổ báo, nhóm tác giả đƣa số định nghĩa sau: n ng Đồ thị CFG đồ thị có hƣớng, G (V, E) trog V tập đ nh { , , …, E tập cạnh có hƣớng { , …, với =( cạnh nối t đ nh tới đ nh Trong đó, đ nh biểu diễn khối mã lệnh (basic block) chuỗi tuyến tính ch thị chƣơng trình với điểm đầu vào điểm đầu Để giải vấn đề tập lệnh đa kiến tr c thiết bị IoT nhƣ ARM, MIPS, PowerPC, SPARC…, cơng cụ IDA Pro đƣợc nhóm tác giả lựa chọn để sinh CFG Tuy nhiên, đồ thị CFG thu đƣợc ln có cấu tr c phức tạp liên kết giá trị dạng chuỗi hàm tập tin nhị phân đầu vào khó quan sát, đồng thời việc áp dụng k thuật học sâu c ng nhiều thời gian Chính vậy, nhóm tác giả sử dụng đồ thị PSI thay sử dụng đồ thị CFG n ng 2: Đồ thị PSI đồ thị có hƣớng G (V, E) mà: - V tập đ nh đƣợc xây dựng phần tử PSI - E tập cạnh biểu diễn liên kết đ nh đồ thị T u t to n 1: PSI-graph generation (CFG) 1: V = [ ], E = [ ] 2: PSI-graph = (V, E) 3: For each in CFG 4: For each psi in 5: V=V∪ 6: End for 7: For each connect to 8: For each psi in 9: E = E ∪ { edge ( 10: End for 32 Số 1.CS (07) 2018 , )} 11: End for 12: End for 13: Return PSI-graph Đồ thị PSI đƣợc xây dựng dựa tập đ nh V cạnh E, tập đ nh V gồm đ nh đƣợc lựa chọn t đồ thị luồng điều khiển tập tin nhị phân ELF Với đ nh nodei đồ thị CFG, xuất PSI nodei s đƣa đ nh nodei vào tập V Sau đó, đồ thị CFG s thực tìm kiếm đ nh nodej có liên kết với nodei Cạnh liên kết đ nh s đƣợc đƣa vào tập E Thuật tốn dùng lại khơng tìm đƣợc thêm đƣợc đ nh cạnh th a mãn - Sinh đồ thị PSI: PSI tập chuỗi có định dạng tƣờng minh mã hóa Những chuỗi phản ảnh mục đích k công mục tiêu mong muốn ch ng thƣờng chứa thơng tin quan trọng, ví dụ nhƣ /dev/watchdog; /dev/misc/watchdog thƣờng xuất mã độc Linux.Mirai để nói r ng Botnet cố gắng ngăn chặn tiến trình khởi động lại thiết bị Tuy nhiên, hầu hết chuỗi đƣợc trích xuất lại bị mã hóa gây rối Thuật toán sinh đồ thị PSI đƣợc giới thiệu thơng qua thuật tốn C i n l chu n h a liệu Với liệu đồ thị PSI thu thập đƣợc t việc phân tích tệp tin nhị phân nên việc chuyển đổi sang liệu số làm đầu vào cho trình huấn luyện với mạng nơ-ron sâu cần thiết Các đồ thị PSI tập chuỗi ký tự theo trật tự định tƣơng ứng với đồ thị thu đƣợc Nhóm tác giả nhận thấy có nhiều điểm tƣơng đồng đồ thị PSI với cấu tr c câu văn sử dụng ngôn ngữ tự nhiên Sự tƣơng đồng thể qua việc hai tập chuỗi ký tự theo cấu tr c định để mang đến mục tiêu, ý nghĩa cụ thể T đó, nhóm tác giả sử dụng phƣơng pháp word2vec mà cụ thể k thuật Skip-gram [20] để chuyển đổi đồ thị PSI thành vec tơ số Skip-gram mô hình dự đốn t theo t ng ngữ cảnh dựa t mục tiêu phù hợp với đầu vào PSI tập tin nhị phân mã độc Trong báo này, nhóm tác giả xây dựng dựa ý tƣởng xem đồ thị nhƣ văn đồ thị có gốc xung quanh đ nh đồ thị đƣợc xem nhƣ t xây Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin dựng lên văn đƣa văn nh ng vào mạng nơ-ron để học cách biểu diễn toàn đồ thị ( ∑ ) ( ) Trong biểu diễn vector đầu vào đầu t t vựng W số lƣợng t t vựng Bên cạnh đó, mơ hình mạng khơng thể xử lý với đầu vào t hay PSI q trình tiền xử lý Hình việc biểu diễn t dƣới dạng vector Để thực việc này, nhóm tác giả xây dựng t vựng t tập huấn luyện (tức tập PSI riêng biệt) Hình Kiến tr c mơ hình skip-gram Trong Hình 2, đầu vào mơ hình đầu , , kích thƣớc cửa sổ sử dụng báo 2, điều lớp đầu phụ thuộc vào kích thƣớc cửa sổ Đối với cửa sổ kích thƣớc s đoán 02 t bên trái 02 t bên phải t mục tiêu Do mạng s có đầu vector chiều Kích thƣớc lớp ẩn tƣơng ứng với V*E V kích thƣớc t vựng E kích thƣớc nh ng Cơng thức tính tốn Skip-gram đƣa chuỗi t , với mục đích huấn luyện tối đa xác xuất logarit trung bình việc dự đốn t ngữ cảnh ,…, xuất gần t ngữ cảnh đƣợc tính nhƣ sau: ∑∑ Trong t mục tiêu t ngữ cảnh cửa sổ có kích thƣớc c, biểu diễn xác xuất xuất láng giềng đƣợc tính cơng thức: D Ki n tr c ng n -ron Kiến tr c mạng nơ-ron nhóm tác giả đề xuất dựa mạng CNN [21] Mơ hình mạng gồm 01 lớp đầu vào, lớp ẩn 01 lớp đầu Trong 02 lớp tích chập có kích thƣớc lọc 7x7 lớp tích chập cịn lại có kích thƣớc lọc 3x3 Để phân tách lớp tích chập, sau lớp tích chập 1D, nhóm tác giả sử dụng hàm ReLU (Rectified Linear Units) thay sử dụng hàm sigmoid hàm ReLU có tốc độ xử lý nhanh hơn, giảm độ phức tạp tính tốn tránh tình trạng triệt tiêu đạo hàm (vanishing gradien) Ngay sau hàm ReLU lớp tích chập đầu tiên, nhóm tác giả c ng sử dụng lớp Max Pooling có kích thƣớc 3x3 thay lớp Pooling khác, tức s thực lấy giá trị lớn phân vùng cửa sổ trƣợt pooling windows, điều góp phần làm tăng phi tuyến bên mạng tạo nên không gian đặc trƣng cao cho đồ thị PSI s tách bạch Trong phạm vi báo này, nhóm tác giả sử dụng hàm mát cross-entropy để tối ƣu mạng nơ-ron Sau áp dụng lớp mạng trên, kết thu đƣợc mảng vector chiều Để chuyển đổi vector vào lớp xác xuất cần chuyển đổi vector thành lớp đơn chiều, đƣợc gọi lớp kết nối đầy đủ (fully connected layers) Đầu mong muốn s mã độc lành tính Số 1.CS (07) 2018 33 Journal of Science and Technology on Information Security  True Negative (TN): cho biết tập tin lành tính đƣợc xác định xác khơng phải mã độc  False Positive (FP): cho biết tập tin lành tính bị xác định sai mã độc  False Negative (FN): cho biết tập tin mã độc không đƣợc phát đƣợc gán nhãn lành tính Dựa tiêu chí trên, độ đo sau s đƣợc sử dụng để xác định tính hiệu hệ thống đề xuất  Accuracy (ACC): số lƣợng m u đƣợc phát xác, chia cho tổng số m u mã độc lành tính Hình Kiến tr c triển khai mạng Deep Neural Network cho giải pháp đề xuất III THỰC NGHIỆM VÀ ĐÁNH GIÁ Phần miêu tả cấu hình mơi trƣờng đánh giá kết kiểm thử Để thực nghiệm, nhóm tác giả sử dụng máy tính chip Intel Core i5-850, 3.00 GHz với nhớ RAM 16GB Nvidia GPU GTX 1070Ti 8GB Tập liệu phục vụ trình huấn luyện gồm 4002 tập tin mã độc thu thập IoTPOT [3] 6031 tập tin lành tính Tập liệu mã độc đƣợc phân thành nhóm lớn: Linux.Gafgyt.1, Linux.Gafgyt (một biến thể khác dòng mã độc Linux.Gafgyt), Mirai Linug.Fgt Phần lại tập m u thuộc dòng mã độc tƣơng đối nhƣ Tsunami, Hajime, Light-Aidra [22] Tập m u lành tính đƣợc thu thập t trang web trích xuất trực tiếp t thiết bị IoT SOHO khác Trong phạm vi báo này, nhóm tác giả chia liệu thực nghiệm thành nhóm: liệu botnet liệu lành tính để đánh giá hiệu phƣơng pháp đề xuất Nhóm tác giả sử dụng Accuracy, Precision, Recall F1 để đánh giá hiệu phƣơng pháp đề xuất Ch ý r ng phát mã độc F1 đơi quan trọng Accuracy  True Positive (TP): cho biết tập tin mã độc đƣợc định danh xác mã độc 34 Số 1.CS (07) 2018  Precision (PR): t lệ mã độc dự đốn đƣợc gán nhãn xác mã độc chia cho tổng số lần gán nhãn xác m u mã độc lành tính  Recall (RC) t lệ phát t số m u mã độc đƣợc dự đốn xác với tổng số kết mã độc  F1 score trọng số trung bình Precison Recall Lƣu ý r ng F1 gần tốt BẢNG KẾT QUẢ THỬ NGHIỆM VỚI CÁC LỚP TÍCH CHẬP KHÁC NHAU ố p tc c p Accuracy Precision Recall 96,7% 97,3% 98,1% 96,6% 96,9% 97,7% 97,8% 97,3% 97,0% 97,8% 98,5% 97,8% F1 97,1% 97,7% 98,1% 97,5% So sánh giải pháp đề xuất dựa đồ thị PSI với đồ thị luồng điều khiển thấy r ng thời gian huấn luyện tiền xử lý đồ thị CFG có chi phí lớn nhiều so với đồ thị PSI, đồng thời độ đo F1 PSI c ng lớn so với đồ thị CFG mức 98,6 , thông tin cụ thể đƣợc cho Bảng Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin BẢNG KẾT QUẢ SO SÁNH GIỮA ĐỒ THỊ PSI VÀ CFG CFG PSI Graph * Thời gian ti n x lý graph tiếng 30 ph t Thời gian training ph t tiếng 25 ph t ph t F1score 96,4% 98,6% IV KẾT LUẬN Trong báo này, nhóm tác giả đề xuất hƣớng thu thập đặc trƣng mã độc Botnet thiết bị IoT thông qua việc xây dựng đồ thị PSI Sau đó, mơ hình mạng nơ-ron CNN đƣợc sử dụng để cải thiện hiệu phân lớp tập tin mã độc lành tính B ng thực nghiệm, nhóm tác giả chứng minh tính hiệu phƣơng pháp đề xuất với độ xác (accuracy) độ đo F1 lên tới 98,1 Đồng thời, phƣơng pháp tiếp cận theo đồ thị PSI c ng cho kết tốt so với đồ thị luồng điều khiển CFG mặt thời gian Tuy nhiên, đặc trƣng thu thập để xây dựng đồ thị PSI chủ yếu thơng qua phân tích tĩnh chƣa tính đến khả PSI mã hố Để cải thiện phƣơng pháp, nhóm tác giả s tiếp tục bổ sung liệu t nhiều hệ điều hành khác để t nâng cao độ xác phƣơng pháp đề xuất để áp dụng thực tế LỜI CẢM ƠN Nhóm tác giả xin gửi lời cảm ơn đến góp ý khoa học nghiêm t c, hỗ trợ chun mơn nhiệt tình nhóm nghiên cứu MFC500, Học viện An ninh nhân dân Đồng thời, xin gửi lời chân thành cảm ơn tới nhóm đề tài cấp nhà nƣớc KC01.05 Học viện Công nghệ Bƣu viễn thơng TÀI LIỆU THAM KHẢO [1] Pavel Celeda, Radek Krejcí, Jan Vykopal, Martin Drasar, ‘Embedded Malware - An Analysis of the Chuck Norris Botnet’, presented at the European Conference on Computer Network Defense, Berlin, Germany, 2010 [2] Zaddach, Jonas and Bruno, Luca and Francillon, Aurelien and and Balzarotti, Davide, ‘AVATAR: A framework to support dynamic security analysis of embedded systems’ firmwares’, presented at the Proceedings of the Network and Distributed System Security Symposium, France, 2014 [3] Pa, Y.M.P., Suzuki, S., Yoshioka, K., Matsumoto, T., Kasama, T and Rossow, C., ‘IoTPOT: A Novel Honenypot for Revealing Current IoT Threats’, J Inf Process., vol 24, pp 522–533, May 2016 [4] Ahmad Darki, Chun-Yu Chuang, Michalis Faloutsos, Zhiyun Qian, Heng Yin, ‘RARE: A Systematic Augmented Router Emulation for Malware Analysis’, in Lecture Notes in Computer Science, vol 10771, pp 60–72, 2018 [5] A Jacobsson, M Boldt and B Carlsson, ‘A risk analysis of a smart home automation system’, Future Gener Comput Syst., vol 56, pp 719– 733, 2016 [6] Chun-Jung Wu, Ying Tie, Satoshi Hara, and Kazuki Tamiya, ‘IoTProtect: Highly Deployable Whitelist-based Protection for Low-cost Internet-of-Things Devices’, J Inf Process., vol 26, pp 662–672, 2018 [7] T Ronghua, ‘An Integrated Malware Detection and Classification System’, MEng Chongqing Univ BEngChangchun Univ Sci Technol., vol Doctor of Philosophy, Aug 2011 [8] Yan Shoshitaishvili, Ruoyu Wang, Christophe Hauser, Christopher Kruegel, Giovanni Vigna, ‘Firmalice Automatic Detection of Authentication Bypass Vulnerabilities in Binary Firmware’, Yan Shoshitaishvili Ruoyu Wang Christophe Hauser Christopher Kruegel Giovanni Vigna, pp 15, 2015 [9] D Davidson, B Moench, and S Jha, ‘FIE on Firmware, Finding vulnerabilities in embedded systems using symbolic execution’, 22nd USENIX Secur Symp USENIX, pp 16, 2013 [10] Rafiqul Islam, Ronghua Tian, Lynn M Batten, and Steve Versteeg, ‘Classification of malware based on integrated static and dynamic features’, J Netw Comput Appl., vol 36, pp 646–656, 2013 [11] A Costin, J Zaddach, and A Francillon, ‘A large scale analysis of the security of embedded firmwares’, 23rd USENIX Secur Symp., pp 95– 100, 2014 [12] Angrishi, Kishore, ‘Turning Internet of Things (IoT) into Internet of Vulnerabilities (IoV): IoT Botnets’, presented at the arXiv preprint arXiv:1702.03681, 2017 [13] Christopher D McDermott, Farzan Majdani, Andrei V Petrovski, ‘Botnet Detection in the Internet of Things using Deep Learning Approaches’, presented at the International joint conference on neural networks 2018, Rio de Janeiro, Brazil [14] Yuan, Z., Lu, Y., Wang, Z., Xue, Y, ‘DroidSec: deep learning in android malware detection’, presented at the ACM SIGCOMM Computer Communication Review, vol 44, pp 371–372, 2014 [15] Saxe, J., Berlin, K., ‘Deep neural network based malware detection using two Số 1.CS (07) 2018 35 Journal of Science and Technology on Information Security dimensional binary program features.’, presented at the 10th International Conference on Malicious and Unwanted Software (MALWARE), pp 11–20, 2015 [16] Hamed HaddadPajouh, Ali Dehghantanha, Raouf Khayami, Kim-Kwang Raymond Choo, ‘A Deep Recurrent Neural Network Based Approach for Internet of Things Malware Threat Hunting’, 2018 [17] Kishore Angrish, ‘Turning Internet of Things(IoT) into Internet of Vulnerabilities (IoV) : IoT Botnets’, ArXiv170203681v1 CsNI, Feb 2017 [18] Michele De Donno, Nicola Dragoni, Alberto Giaretta, Angelo Spognardi, ‘Analysis of DDoS-Capable IoT Malwares’, in The Federated Conference on Computer Science and Information Systems, vol 11, pp 807– 816, 2017 [19] M Ahmadi, D Ulyanov, S Semenov, M Trofimov, and and G Giacinto, ‘Novel feature extraction, selection and fusion for effective malware family classification’, presented at the Proceedings of the Sixth ACM Conference on Data and Application Security and Privacy, pp 183–194, 2016 [20] Annamalai Narayanan, Mahinthan Chandramohan, Rajasekar Venkatesan, Lihui and Chen, Yang Liu and Shantanu Jaiswa, ‘graph2vec: Learning Distributed Representations of Graphs’, presented at the arXiv:1707.05005v1, 2017 [21] Annamalai Narayanan, Mahinthan Chandramohan, Rajasekar Venkatesan, Lihui and Chen, Yang Liu and Shantanu Jaiswa, ‘graph2vec: Learning Distributed Representations of Graphs’, presented at the arXiv:1707.05005v1, 2017 [22] Jiawei Su, Danilo Vasconcellos Vargas, Sanjiva Prasad, Daniele Sgandurra, Yaokai Feng, Kouichi Sakurai, ‘Lightweight Classification of IoT Malware based on Image Recognition’, CoRR, vol abs/1802.03714, 2018 [23] H HaddadPajouh, A Dehghantanha, R Khayami, K.R Choo, ‘A deep Recurrent Neural Network based approach for internet of things malware threat hunting’, presented at the Future Generation Computer Systems, 2018 36 Số 1.CS (07) 2018 SƠ LƢỢC VỀ TÁC GIẢ T Ngô Quốc Dũng Đơn vị công tác: Học viện An ninh nhân dân, Bộ Công an Email : quocdung.ngo@gmail.com Quá trình đào tạo: Nhận b ng K sƣ Đại học Bách Khoa Nantes năm 2009; Nhận b ng Thạc sĩ Đại học Lyon năm 2009; Bảo vệ Tiến sĩ Đại học Bách khoa Grenoble, Cộng Hòa Pháp năm 2012 Hƣớng nghiên cứu nay: Đảm bảo an tồn, an ninh thơng tin thiết bị IoT KS Lê Văn Hoàng Đơn vị cơng tác: Cơng ty AIS Email: levanhoang.psa@gmail.com Q trình đào tạo: Nhận b ng K sƣ Công nghệ An tồn thơng tin, Học viện An ninh nhân dân năm 2017 Hƣớng nghiên cứu nay: phân tích phát mã độc hệ điều hành Linux ứng dụng cho thiết bị nh ng ThS Nguyễn Huy Trung Đơn vị công tác : Học viện An ninh nhân dân, Bộ Cơng an Email: huytrung.nguyen.hvan @gmail.com Q trình đào tạo: K sƣ Thạc sĩ Đại học Bách khoa Hà Nội Hiện nghiên cứu sinh Khoa CNTT – Học viện Khoa học Công nghệ, Viện Hàn lâm khoa học Việt Nam Hƣớng nghiên cứu nay: phân tích phát mã độc thiết bị IoT ứng dụng học sâu ... đề xuất dựa đồ thị PSI với đồ thị luồng điều khiển thấy r ng thời gian huấn luyện tiền xử lý đồ thị CFG có chi phí lớn nhiều so với đồ thị PSI, đồng thời độ đo F1 PSI c ng lớn so với đồ thị CFG... dụng đồ thị PSI thay sử dụng đồ thị CFG n ng 2: Đồ thị PSI đồ thị có hƣớng G (V, E) mà: - V tập đ nh đƣợc xây dựng phần tử PSI - E tập cạnh biểu diễn liên kết đ nh đồ thị T u t to n 1: PSI- graph... đồ thị PSI thành vec tơ số Skip-gram mô hình dự đốn t theo t ng ngữ cảnh dựa t mục tiêu phù hợp với đầu vào PSI tập tin nhị phân mã độc Trong báo này, nhóm tác giả xây dựng dựa ý tƣởng xem đồ thị

Ngày đăng: 07/05/2021, 12:58