Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 30 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
30
Dung lượng
1,91 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ NGUYỄN NGHIÊN CỨU ĐỀ XUẤT ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC BOTNET TRÊN CÁC THIẾT BỊ IOT Hệ thống thông tin số: TĨM TẮT LUẬN ÁN TIẾN SĨ Hà Nội Cơng trình đượ ệ Người hướ Người hướ ả ả ả ọ ậ ạ ẫ ẫ ọ ọ ọ ọ ệ ọ ệ ệ ệ ốc Dũng ễ ỳ ệ ệ ệ đượ ả ọ ệ ệ ệ ể Thư việ Thư v ệ ể ậ ọ ệ ố ệ trướ ọ ội đồ …… ệ ọ ………………… ấ ọ ệ ệ ệ ọ … … năm ệ MỤC LỤC MỞ ĐẦU 1 Tính cấp thiết luận án Mục tiêu nghiên cứu luận án Đối tượng phạm vi nghiên cứu Nội dung phương pháp nghiên cứu Bố cục luận án CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Khái niệm đặc điểm thiết bị IoT 1.2 Khái niệm mã độc IoT botnet 1.3 Sự tiến hóa mã độc IoT botnet 1.4 Sự khác biệt mã độc botnet truyền thống IoT botnet CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET 2.1 So sánh phân tích tĩnh phân tích động 2.2 So sánh, đánh giá phương pháp dựa phân tích tích phát mã độc IoT botnet 2.2.1 Xây dựng sở liệu thử nghiệm 2.2.2 Kết thực nghiệm nhận xét CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 3.1 Phát biểu toán 3.2 Giải thích tốn 3.3 Sơ đồ ý tưởng phương pháp đề xuất 3.4 Đồ thị lời gọi hàm phát mã độc IoT botnet 10 3.5 Xây dựng đồ thị PSI 11 3.6 Đánh giá thực nghiệm 13 3.6.1 Môi trường thực nghiệm 13 3.6.2 Mơ hình đánh giá 13 3.6.3 Các kết thực nghiệm thảo luận 15 CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 16 4.1 Phát biểu toán 16 4.2 Xây dựng đặc trưng đồ thị PSI-rooted subgraph 17 25 4.3 Thực nghiệm đánh giá kết 18 4.3.1 Môi trường thực nghiệm 18 4.3.2 Mơ hình đánh giá 19 4.3.2 Các kết thực nghiệm thảo luận 19 KẾT LUẬN VÀ KIẾN NGHỊ 23 26 MỞ ĐẦU Tính cấp thiết luận án Cuộc cách mạng cơng nghiệp 4.0 hay cịn gọi với tên Vạn vật kết nối Internet (Internet of Things - IoT) hay công nghiệp Internet (Industrial Internet) làm biến đổi nhanh chóng cơng nghiệp quốc gia, diễn toàn cầu Với nhiều tên gọi khác đặc điểm bật cách mạng cơng nghiệp lần thứ việc dịch chuyển hệ thống máy móc sản xuất truyền thống sang hệ thống tự động hoá có khả tự hành cách thơng minh dựa tảng lõi thiết bị IoT Thông qua mạng công nghiệp 4.0 mà giáo dục, y tế, trị, xã hội, kinh tế có thành tựu vượt bậc thời gian ngắn Bên cạnh tiện ích mà cách mạng cơng nghiệp 4.0 mang lại an tồn thơng tin khơng gian mạng ngày trở nên phức tạp, tiềm ẩn nhiều nguy ảnh hưởng trực tiếp tới an ninh quốc gia, tới lợi ích hợp pháp người dân Khảo sát, thống kê nghiên cứu công bố từ 2016 – 2018 tạp chí uy tín nhà xuất lớn giới Elsivier, IEEE, Hindawi and Springer [6] cho thấy xác thực giải pháp phổ biến đảm bảo an ninh, an toàn thiết bị IoT quản lý tin cậy tiếp tục đẩy mạnh đầu tư nghiên cứu Ngồi kể đến số nghiên cứu giải pháp mã hóa nhẹ (light), giao thức chế truyền thơng an tồn IoT Trong đó, nguy đe dọa nguy hiểm thiết bị IoT mã độc botnet Chính lý đó, luận án với đề tài “Nghiên cứu đề xuất đặc trưng đồ thị PSI phát mã độc botnet thiết bị IoT” nhằm nghiên cứu giải pháp phát mã độc IoT botnet có ý nghĩa mặt thực tiễn khoa học, đáp ứng địi hỏi ngày cao cơng tác bảo đảm an ninh, an tồn thơng tin cho thiết bị IoT nói riêng khơng gian mạng nói chung Mục tiêu nghiên cứu luận án Từ việc phân tích tính cấp thiết đề tài trình bày trên, luận án xác định mục tiêu nghiên cứu nhằm đề xuất đặc trưng có cấu trúc đồ thị hiệu (độ xác cao, độ phức tạp thấp) phát mã độc IoT botnet, có khả xử lý mã độc IoT botnet đa kiến trúc Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu đề tài: đối tượng nghiên cứu luận án tập tin thực thi thiết bị IoT, có tính đa kiến trúc có tảng hệ điều hành Linux Kernel 2.6 3.2 - Phạm vi nghiên cứu đề tài: luận án tập trung vào toán phát mã độc xem tốn phân loại hai lớp (nhị phân) với phạm vi nghiên cứu sau: tập trung nghiên cứu, phát mã độc IoT botnet; tập trung vào thiết bị IoT ràng buộc (resource-constrained IoT) tài nguyên (hay gọi thiết bị IoT cỡ nhỏ/thiết bị IoT SOHO (Small Office/Home Office) lượng tiêu thụ thấp, nhớ lưu trữ hạn chế, khả tính tốn hạn chế…; tập trung vào phân tích tĩnh Nội dung phương pháp nghiên cứu *) Nội dung nghiên cứu: Để đạt mục tiêu nghiên cứu đề trên, luận án tập trung phân tích, đánh giá số nội dung sau: - Nghiên cứu phát triển, tiến hóa đặc điểm mã độc IoT botnet phương pháp phát mã độc IoT botnet - Khảo sát, phân tích đánh giá lại phương pháp phát mã độc IoT botnet dựa phân tích tĩnh sở liệu lớn môi trường thử nghiệm - Nghiên cứu đề xuất đặc trưng có cấu trúc đồ thị phát mã độc IoT botnet - Đánh giá đặc trưng đề xuất độ xác độ phức tạp phát mã độc IoT botnet cách sử dụng tập liệu lớn đáng tin cậy, so sánh với phương pháp hướng tiếp nghiên cứu *) Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết kết hợp với nghiên cứu thử nghiệm - Nghiên cứu lý thuyết: Tiến hành nghiên cứu, khảo sát, tổng hợp, đánh giá cơng trình nghiên cứu liên quan nước kho liệu trực tuyến như: Google Scholar, ScienceDirect, ACM Digital Library, IEEE Xplore, số hội thảo an tồn thơng tin lĩnh vực cơng nghiệp uy tín hàng đầu Blackhat, USENIX, DEF CON, … Trong đó, tập trung nghiên cứu lý thuyết đặc trưng hành vi, vòng đời lây nhiễm mã độc botnet, nghiên cứu đoạn mã dịch ngược tập mẫu thực thi thiết bị IoT - Nghiên cứu thực nghiệm: Dựa tập liệu gồm 10000 mẫu gồm mã độc botnet mẫu lành tính thiết bị IoT chia thành tập huấn luyện kiểm thử theo tỷ lệ 70:30, sử dụng kỹ thuật crossvalidation, luận án tiến hành thí nghiệm, thực nghiệm xây dựng đặc trưng mã độc IoT botnet phương pháp phát mã độc IoT botnet, tập liệu tập tin thực thi IoT (mã độc, lành tính) Thực nghiệm đánh giá tính hiệu đặc trưng đồ thị PSI mà luận án đề xuất với học sâu Thực nghiệm xây dựng đánh giá đặc trưng đồ thị PSI có gốc (PSI-rooted subgraph) với thuật toán học máy để nâng cao hiệu toán phát mã độc IoT botnet Bố cục luận án Luận án gồm phần mở đầu, bốn chương, phần kết luận kiến nghị, tài liệu tham khảo với 126 trang thuyết minh, có 17 bảng, 59 hình vẽ, đồ thị 123 tài liệu tham khảo Mở đầu: Trình bày tính cấp thiết cấu trúc luận án Chương 1: Cơ sở lý thuyết Chương 2: Phương pháp phát mã độc IoT botnet Chương 3: Đặc trưng đồ thị PSI phát mã độc IoT botnet Chương 4: Đặc trưng đồ thị PSI có gốc phát mã độc IoT botnet Kết luận kiến nghị Tài liệu tham khảo CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Khái niệm đặc điểm thiết bị IoT Thuật ngữ Vạn vật kết nối Internet (IoT - Internet of Things) lần đầu đưa định nghĩa Kevin Ashton - nhà khoa học Viện công nghệ Massachusets, Mỹ Kể từ có nhiều cách giải thích hay khái niệm khác IoT đưa Tuy nhiên khái niệm cá nhân, tổ chức đưa xoay quanh việc kết nối đồ vật qua mạng Internet Chính thế, luận án cho hiểu đơn giản “IoT nền tảng bao gồm “vật” (vật lý ảo hóa) tích hợp vật dụng, người, mơi trường có khả kết nối, chia sẻ xử lý liệu phục vụ mục đích khác nhau” Trong phạm vi nghiên cứu, luận án định nghĩa “thiết bị IoT “vật” (gồm vật lý ảo hóa) đa kiến trúc, hạn chế về tài nguyên (có lực xử lý thấp, nhớ lưu trữ nhỏ, nguồn điện thấp, ) có khả kết nối, chia sẻ, truyền tải xử lý liệu phục vụ mục đích khác nhau” Trong đó, đại đa số thiết bị IoT chạy tảng biến thể hệ điều hành Unix Những biến thể phổ biến chúng chứa nhiều tiện ích phổ biến, nhiều khả Unix tập tin thực thi Đó lý luận án tập trung vào tập tin thực thi Linux, có định dạng phổ biến ELF (Executable Linkable Format) Thiết bị IoT có đặc điểm khác biệt với cơng nghệ điện tốn truyền thống nay, như: - Mơi trường khơng kiểm sốt: thiết bị IoT có tính di động tự hành cao - Tính khơng đồng nhất: thiết bị IoT sử dụng cách đa dạng kiến trúc vi xử lý như: MIPS, ARM, PowerPC, MIPSEL, - Tài nguyên hạn chế: thiết bị IoT bị hạn chế tài nguyên nhớ thấp, lực tính toán nhỏ, dung lượng lượng pin thấp - Trạng thái động: Trạng thái thiết bị IoT thay đổi linh hoạt phụ thuộc vào hoàn cảnh thiết bị gồm vị trí, chức tốc độ di chuyển - Tính kết nối: Thơng qua IoT, vật kết nối, tương tác với sở hạ tầng thơng tin truyền thơng tồn cầu thường xuyên, liên tục 1.2 Khái niệm mã độc IoT botnet Mã độc botnet thiết kế để lây nhiễm thiết bị cụ thể (ví dụ máy tính, thiết bị di động thiết bị IoT) biến thiết bị thành phần hệ thống mạng máy tính ma – mạng máy tính gồm nhiều thiết bị bị lây nhiễm mã độc botnet điều khiển kẻ công, thường gọi bot-master Điểm khác biệt mã độc botnet với mã độc khác mã độc botnet thực hành vi độc hại nhận thị từ máy chủ C&C kẻ công Trong luận án này, mã độc IoT botnet xem mã độc botnet lây nhiễm thiết bị IoT cho hiểu đơn giản sau “mã độc IoT botnet mã độc botnet có khả tự lây nhiễm thiết bị IoT, bị kết nối điều khiển tin tặc” Hình 1.1 Mối quan hệ số mã độc IoT botnet 1.3 Sự tiến hóa mã độc IoT botnet Dựa phân tích, đánh giá nghiên cứu có mã độc IoT thực phân tích mẫu mã độc thực tế, luận án đưa biểu đồ ngắn gọn phát triển, tiến hóa mã độc IoT sử dụng để thực công từ chối dịch vụ phân tán gần Tuy nhiên, danh sách loại mã độc chưa đầy đủ tội phạm mạng thường xuyên sửa đổi cập nhật loại mã độc biết để tạo loại mã độc mới, khai thác nhiều loại thiết bị IoT 1.4 Sự khác biệt mã độc botnet truyền thống IoT botnet Kết so sánh mã độc botnet máy tính truyền thống thiết bị IoT tổng hợp bảng 1.1 đây: Bảng 1.1 So sánh mã độc botnet máy tính truyền thống IoT Mã độc botnet PC Tiêu chí Mã độc botnet IoT Hình thức Đa dạng với nhiều hình thức cơng Tập trung chủ yếu hình thức cơng từ mã hóa liệu, đánh cắp liệu chối dịch vụ phân tán đặc điểm số công riêng tư, công từ chối dịch vụ… lượng thiết bị IoT lớn phân tán toàn cầu tảng Nền tảng kiến trúc mã độc botnet So đa dạng thiết bị IoT nên mã Nền khơng đồng máy tính truyền thấp có đa dạng độc botnet thiết bị IoT đa dạng thấp, chủ yếu tập trung vào kiến trúc kiến trúc ARM, MIPS, PowerPC, Sparc, … để đảm bảo khả lây nhiễm x86_64 thành công nhiều loại thiết bị Đa dạng Mã độc máy tính truyền thống Do xu hướng thiết bị IoT nổi, loại mã độc đa dạng chủng loại, tinh vi phức đặc trưng khác biệt thiết bị IoT nên người viết mã độc lây nhiễm IoT tạp đa phần chỉnh sửa dựa mã nguồn loại mã độc công bố công khai trước Vì đa dạng mã độc IoT thấp Kỹ thuật gây Do tài nguyên lực tính tốn Do tài ngun thiết bị IoT bị hạn máy tính truyền thống lớn nên người chế nên người viết mã độc sử dụng rối viết mã độc thường sử dụng kỹ kỹ thuật gây rối phức tập, sử thuật gây rối phức tạp để bảo vệ mã độc dụng số kỹ thuật gây rối đơn giản khỏi bị phát hiện, phân tích Nguyên UPX, XOR nhân mã độc có đủ tài nguyên để xử lý kỹ thuật gây rối phức tạp trước thực thi hành vi độc hại Phát Dễ dàng phát dấu hiệu mã độc Khó phát thiết bị IoT có tính hệ thống thơng qua biểu máy tính truyền hoạt động độc lập cao, tương tác với người dùng nên không phát thống dấu hiệu bất thường hệ thống Khả Dễ dàng triển khai phân tích với mơi Khó triển khai phân tích với mơi trường an thực thi trường phân tích an toàn sandbox toàn sandbox phải đáp ứng u cầu mơi trường máy tính truyền thống có khả xử lý tính đa kiến trúc ảo Tính thường Có thể lây nhiễm thường trú Sau lây nhiễm xóa bỏ tập tin thực trú vị trí nhớ bền vững máy tính, thi chạy nhớ không bền lưu lại tập tin thực thi độc vững, tức có tính khơng thường trú hại máy tính Tìm ngăn Do tài nguyên lớn nên máy tính Do tài nguyên hạn chế nên mã độc IoT chặn mã độc truyền thường có khả bị lây nhiễm thường có chế tìm ngăn chặn mã độc nhiều loại mã độc đồng thời khác khác sau lây nhiễm thành công Kết luận Chương 1: Luận án trình bày tổng quan mã độc IoT botnet gồm khái niệm thiết bị IoT mã độc IoT botnet, tiến hóa mã độc IoT botnet, kiến trúc vòng đời lây nhiễm mã độc IoT botnet Đồng thời, luận án đánh giá đặc điểm khác biệt mã độc botnet thiết bị IoT so với mã độc botnet máy tính truyền thống Những nội dung thảo luận giúp luận án củng cố luận xác định phương pháp phát mã độc IoT botnet phù hợp CHƯƠNG PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET 2.1 So sánh phân tích tĩnh phân tích động Cả phân tích tĩnh phân tích động có ưu điểm hạn chế định Bảng 2.1 tổng hợp ưu nhược điểm phương pháp nêu Bảng 2.1 So sánh phương pháp phân tích, phát mã độc IoT botnet Phân tích động Phân tích tĩnh - Quan sát thực thi cụ thể chương - Phân tích cách chi tiết tập tin đưa trình để định tập tin mã độc dễ nhìn tổng quát tất khả Điểm dàng kích hoạt chúng mạnh - Phân tích động hiệu mã - Khơng cần phải thực thi mã độc nên không độc gây rối bị ảnh hưởng tính đa kiến trúc xây dựng mơi trường thực thi - Chỉ giám sát đơn luồng thực thi - Phân tích tĩnh phụ thuộc nhiều vào cơng - Làm lộ q trình phát phân tích nghệ dịch ngược Hạn chế mã độc - Khó khăn xử lý mã độc sử dụng kỹ thuật - Có thể gây nguy an toàn cho mạng gây rối hệ thống - Khó mơ đầy đủ thiết bị IoT (tính đa kiến trúc) Để phù hợp với nội dung nghiên cứu, luận án thấy với đầu vào tập tin thực thi có tính đa kiến trúc cần lựa chọn phương pháp có khả xử lý vấn đề hiệu hiệu suất, luận án lựa chọn phân tích tĩnh đề xuất hướng tiếp cận giải toán nghiên cứu, luận án khai thác điểm mạnh phân tích tĩnh hạn chế điểm yếu phương pháp Phần luận án tập trung phân tích, đánh giá nghiên cứu dựa phân tích tĩnh phát mã độc IoT botnet 2.2 So sánh, đánh giá phương pháp dựa phân tích tích phát mã độc IoT botnet Các nghiên cứu dựa phân tích tĩnh phát mã độc thường sử dụng đặc trưng phổ biến như: tiêu đề tập tin (header), lời gọi hàm system-calls, lời gọi API (Application Programming Interfaces), PSI (Printable Strings Information), FLF (Function Length Frequency), thư viện liên kết, OpCode (trích xuất từ mã assembly), … Dịch ngược hướng tiếp cận phổ biến để trích xuất thông tin đặc trưng từ tập tin thực thi Cách thức trích xuất xử lý đặc trưng ảnh hưởng lớn đến độ xác phức tạp phương pháp phát mã độc IoT, đặc trưng chia thành 02 nhóm: dựa đặc trưng có cấu trúc đồ thị dựa đặc trưng cấu trúc đồ thị, minh họa hình 2.1 Hình 2.1 Phân loại đặc trưng tĩnh phát mã độc IoT botnet Các phương pháp phát mã độc sử dụng đặc trưng khơng có cấu trúc đồ thị nhằm xây dựng mơ hình phát chứa thuộc tính cấu trúc tập tin nhị phân để phân loại tập tin nhị phân mã độc hay lành tính Những phương pháp dựa trích xuất đặc trưng gồm Opcode, Strings cấu trúc tập tin phân biệt mẫu mã độc Những đặc trưng chia thành nhóm: đặc trưng mức cao đặc trưng mức thấp Cụ thể, đặc trưng mức thấp thu thập trực tiếp từ cấu trúc tập tin, đặc trưng mức cao cần sử dụng công cụ hỗ trợ phân tách (disassembler) IDA Pro Radare2 Những nghiên cứu biểu diễn tập tin thực thi đặc trưng khơng có cấu trúc đồ thị phụ thuộc nhiều vào giá trị đặc trưng (ví dụ lời gọi hàm inet_toa) mô tả thông tin ngữ nghĩa phức tạp đặc trưng (ví dụ liệu phụ thuộc vịng đời mã độc IoT có khả cơng từ chối dịch vụ phân tán, gọi tắt IoT botnet) Bên cạnh nghiên cứu sử dụng đặc trưng khơng có cấu trúc đồ thị thường yếu với mã độc sử dụng kỹ thuật gây rối mã hóa, chèn liệu rác… Việc so sánh phương pháp phát mã độc IoT botnet dựa biểu diễn liệu đặc trưng tĩnh tổng hợp cho thấy nghiên cứu đại (state-of-art) sử dụng đặc trưng tĩnh phát mã độc IoT botnet hạn chế - Các nghiên cứu theo hướng sử dụng biểu diễn liệu dạng Opcode tiêu biểu Hamed HaddadPajouh [14], Ensieh Modiri Dovom [57], Darabian [52], Amin Azmoodeh et al [36] sử dụng chế chủ yếu xác định mã độc thông qua chuỗi opcode, áp dụng fuzzy pattern tree để phát mẫu mã độc, phát mã độc dựa tần xuất opcode Những nghiên cứu có hạn chế sử dụng tập mẫu dựa kiến trúc ARM, tập liệu không đủ lớn phân lớp độ phức tạp tính tốn, luận án lựa chọn hàm chứa PSI có độ dài tối thiểu từ ký tự trở lên Những PSI dạng tường minh mã hóa thường chứa nhiều thơng tin ngữ nghĩa có liên quan đến mục đích kẻ cơng Sau xây dựng đồ thị lời gọi hàm, xác định đỉnh chứa PSI, luận án tiến hành duyệt đồ thị lời gọi hàm để xây dựng đồ thị PSI, tiến trình thực thuật tốn 3.2 Thuật toán 3.2: PSI-Graph Generation (FCG) 𝑉 = [ ], 𝐸 = [ ] For each vertice 𝑣𝑖 in FCG do: If exist psi in 𝑣𝑖 and do: 𝑉 = 𝑉 ∪ 𝑣𝑖 End if For each edge 𝑒𝑗 (𝑣𝑖 , 𝑣𝑘 ) do: If exist psi in 𝑣𝑘 and 𝑣𝑘 ∉ 𝑉 and 𝑒𝑗 (𝑣𝑖 , 𝑣𝑘 ) ∉ 𝐸 do: 𝑉 = 𝑉 ∪ 𝑣𝑘 𝐸 = 𝐸 ∪ 𝑒𝑗 (𝑣𝑖 , 𝑣𝑘 ) 10 11 12 13 End If Enf for End for Return 𝑉, 𝐸 Quá trình xây dựng đồ thị PSI dựa việc cắt tỉa đồ thị FCG nhằm giảm số lượng cạnh số lượng đỉnh, độ phức tạp thuật toán sinh đồ thị PSI 𝑂(|𝑉| ∗ |𝐸|) giảm Bảng 3.1 cho thấy kết so sánh kích thước đồ thị PSI đồ thị lời gọi hàm Có thể thấy, đồ thị PSI có kích thước nhỏ nhiều so với đồ thị lời gọi hàm số lượng đỉnh cạnh tập tin mã độc lành tính Vì việc sử dụng đồ thị PSI đặc trưng để phát mã độc giảm độ phức tạp (tăng tốc độ xử lý, giảm chi phí thời gian tính toán) so với việc sử dụng đồ thị lời gọi hàm Lớp Mã độc Lành tính Bảng 3.1 So sánh đồ thị PSI đồ thị lời gọi hàm FCG Trung bình Trung bình Trung bình Trung bình đỉnh đồ thị cạnh đồ thị đỉnh đồ thị cạnh đồ thị PSI PSI FCG FCG 147.1 1110.5 254.5 3075.5 167.8 1693.9 530.9 2962.2 Có thể thấy hình 3.2, số lượng đỉnh đồ thị PSI tập trung chủ yếu dải [1, 300] cho tập tin mã độc lành tính Mặc dù, có khác biệt nhỏ phân bố, khác biệt không đủ rõ ràng để thiết lập ngưỡng giá trị để phân biệt mẫu mã độc IoT lành tính Hình 3.2 Số lượng cạnh đỉnh lớp mẫu 12 Để dễ hình dung kết hoạt động thuật toán sinh đồ thị PSI, quan sát hình 3.3 ví dụ đồ thị lời gọi hàm mẫu Linux.Bashlite, thấy rõ ràng đồ thị PSI đơn giản nhiều so với đồ thị lời gọi hàm Trung bình, đồ thị PSI chứa khoảng 16 đỉnh 60 cạnh so với 156 đỉnh 360 cạnh đồ thị lời gọi hàm Hình 3.3 Đồ thị lời gọi hàm (trái) đồ thị PSI (phải) mẫu mã độc Linux.Bashlite Như vậy, đặc trưng đồ thị PSI mà luận án thu có đặc điểm sau: - Được xây dựng dựa phương pháp tĩnh; - Có thể phản ánh “hành vi vịng đời” hay gọi mơ q trình lây nhiễm mã độc IoT botnet; - Chỉ xét đến cấu trúc chuỗi thơng tin có giá trị (printable string information – PSI), không xét đến giá trị chuỗi; - Được xây dựng dựa đồ thị lời gọi hàm 3.6 Đánh giá thực nghiệm 3.6.1 Môi trường thực nghiệm Sử dụng tập liệu thực nghiệm trình bày mục 2.2.1 tóm tắt luận án này, để tiến hành thực nghiệm, luận án chia tập liệu thử nghiệm thành tập là: tập huấn luyện tập kiểm thử Các tập Tập huấn luyện chứa số lượng mẫu 2690 mẫu cho lớp mã độc lớp lành tính Tập kiểm thử chứa phần lại tập liệu 4630 mẫu Thực nghiệm xây dựng với ngôn ngữ Python framework PyTorch hệ điều hành Ubuntu 16.04 sử dụng chip Intel Core i5-8500, 3.0GHz, thẻ đồ họa NVIDIA GeForce GTX1080Ti nhớ RAM 32 GB 3.6.2 Mơ hình đánh giá Để đánh giá tính hiệu đặc trưng đồ thị PSI toán phát mã độc IoT botnet, luận án tiến hành đưa đặc trưng đồ thị PSI vào mơ hình đánh hình 3.4, đầu vào vector 1x1024, HL lớp ẩn, FC lớp kết nối đầy đủ, Conv lớp tích chập Luận án tiếp cận dựa việc phân tích biểu diễn toàn cấu trúc đồ thị PSI thành giá trị vector số có độ dài cố định, luận án sử dụng graph2vec [39] trình tiền xử lý liệu đồ thị PSI 13 Hình 3.4 Mơ hình đánh giá đặc trưng đồ thị PSI phát mã độc IoT botnet Graph2vec kỹ thuật học không giám sát để chuyển đổi đồ thị thành dạng vector số Graph2vec dựa ý tưởng hướng tiếp cận doc2vec [82] sử dụng mạng skip-gram Graph2vec học cách biểu diễn đồ thị cách xem toàn 01 đồ thị văn đồ thị từ tạo nên văn Thuật tốn 3.3: Graph2vec (𝒢, 𝐷, 𝛿, 𝔢, 𝛼) Input: 𝒢 = {𝐺1 , 𝐺2 , … , 𝐺𝑛 }: Tập hợp đồ thị cho đồ thị 𝐺𝑖 = (𝑉𝑖 , 𝐸𝑖 , 𝜆𝑖 ) học 𝐷: bậc tối đa đồ thị có gốc xem xét cho việc học không gian nhúng Điều tạo từ vựng đồ thị 𝑆𝐺𝑣𝑜𝑐𝑎𝑏 = {𝑠𝑔1 , 𝑠𝑔2 , … } từ tất đồ thị 𝒢 𝛿: số chiều khơng gian (kích thước khơng gian nhúng) 𝔢: số lượng epoch 𝛼: tỷ lệ học Output: Ma trận vector biểu diễn đồ thị Φ ∈ ℝ|𝒢| × 𝛿 1: Initialization: Sample Φ from ℝ|𝒢| × 𝛿 2: for 𝔢 = to 𝔢 3: 𝜔 = 𝑆h𝑢𝑓𝑓𝑙𝑒(𝒢) 4: for each 𝐺𝑖 ∈ 𝜔 5: for each 𝑣 ∈ 𝑉𝑖 6: for 𝑑 = to 𝐷 (𝑑) 7: 𝑠𝑔𝑣 := GetWLSubgraph(𝑣, 𝐺𝑖 , 𝑑) (𝑑) 8: 𝒥(Φ) = − log Pr( 𝑠𝑔𝑣 |Φ(𝒢)) 𝜕𝒥 9: Φ=Φ− 𝛼 𝜕Φ Return Φ Nguyên lý hoạt động graph2vec sau: toàn đồ thị xem văn bản, đồ 10: thị đồ thị xét xem câu văn mà đỉnh đồ thị xử lý từ (word) Sau sử dụng kỹ thuật duyệt đồ thị “duyệt trung thứ tự con”, tức theo thứ tự “duyệt đỉnh bên trái – sau duyệt đỉnh gốc – tới duyệt đỉnh bên phải” Khi xây dựng văn sử dụng đến kỹ thuật skipgram để biểu diễn đồ thị Do phải dự đoán đồ thị con, tức đồ thị với đồ thị tương đồng cấu trúc tương đồng có phép nhúng tương đồng Kết bước tập vector onehot với độ dài tùy ý biểu diễn tập đồ thị Trong nghiên cứu đề xuất, luận án biểu diễn đồ thị PSI 14 vector số có độ dài 1024 sử dụng cho việc phân lớp sau Dữ liệu thu thập sau bước tiền xử lý đồ thị PSI sử dụng để định xem tập tin có tính độc hại hay khơng cách sử dụng phân lớp mạng nơ-ron học sâu Để xây dựng mạng nơ-ron tích chập, luận án kế thừa mơ hình mạng đề xuất Kim [75] Lớp mạng nơ-ron lớp đầu vào, lớp thực phép tích chập sử dụng nhiều kích thước lọc Đầu lớp chuyển đến hàm phi tuyến, gọi hàm kích hoạt ReLU, định nghĩa 𝑓(𝑥) = max(0, 𝑥), hàm kích hoạt ReLU có độ tính tốn đơn giản so với hàm kích hoạt sigmoid (hàm kích hoạt thường yêu cầu độ phức tạp tính tốn theo số mũ) [100] Tiếp đó, lớp max-pooling sử dụng để giảm chiều liệu từ lớp tích chập, độ phức tạp tài ngun tính tốn q trình xử lý giảm mở rộng liệu Cuối cùng, lớp kết nối đầy đủ (fully connected) thực phân lớp kết đầu sinh từ lớp tích chập lớp pooling 3.6.3 Các kết thực nghiệm thảo luận Nhằm đánh giá tính hiệu đặc trưng đồ thị PSI phát mã độc IoT botnet, luận án thực nghiệm đưa bảng kết tập trung vào 02 đặc trưng đồ thị PSI đặc trưng đồ thị FCG với giá trị độ đo gồm độ xác, FNR, FPR chi phí thời gian xử lý Bảng 3.2 Kết phát mã độc IoT botnet đồ thị PSI đồ thị lời gọi hàm Độ đo Accuracy FNR FPR Time (m) Đặc trưng (%) (%) (%) 98,7 1,83 0,78 88 PSI-graphs 95,3 5,81 4,13 545 FCGs Từ kết bảng 3.2 thấy phương pháp đề xuất sử dụng đặc trưng đồ thị PSI thực tốt so với đồ thị lời gọi hàm Kết cho thấy phương pháp đề xuất đạt độ xác cao 1,7% so với việc sử dụng đồ thị lời gọi, đồng thời thời gian thực thi 457 phút Bên cạnh đó, tỷ lệ âm tính giả (false nagative/tỷ lệ loại trừ nhầm) phương pháp đề xuất đạt 1,83% phương pháp FCG đạt 5,81% Trong đó, với tốn phát mã độc tỷ lệ âm tính giả thấp có nghĩa phân lớp gán nhãn sai mã độc tập tin lành tính thấp Bên cạnh đó, phương pháp đề xuất luận án có tỷ lệ sai nhỏ gán nhãn sai tập tin lành tính mã độc Điều xảy việc số tập tin lành tính có cấu trúc đồ thị PSI giống với cấu trúc đồ thị số mẫu mã độc Linux.Bashlite Qua phân tích thủ cơng tập mẫu thấy tập tin thực thi khác nhau, có đồ thị FCG mã hợp ngữ thu khác có cấu trúc đồ thị PSI giống Tuy nhiên, tỷ lệ phát sai mức 0,78%, tỷ lệ nhỏ Bảng 3.3 Kết so sánh phương pháp phát IoT botnet Phương pháp Các thuật toán Bộ mẫu thử nghiệm Su cộng [25] HaddadPajouh cộng [14] PSI-Graph Deep neural network (CNN) Bộ liệu mẫu mô tả mục 2.2.1 gồm 6943 mẫu (trong 3098 mã độc từ IoTPOT) Recurrent neural network (RNN) Deep neural network (CNN) Độ xác (Accuracy %) 95.13 97.88 98.7 Từ bảng kết 3.3 thấy phương pháp nghiên cứu Su cộng [25], HaddadPajouh cộng [14] cho kết khả quan Mặc dù kết đạt nghiên cứu khả quan, việc khơng có sẵn liệu thử nghiệm mã nguồn mơ hình thử nghiệm khiến cho việc thử nghiệm lại đánh giá kết khó khăn Luận án cố gắng xây dựng lại phương pháp thông qua học liệu, báo công bố phương pháp Kết đạt cho thấy phương pháp đề xuất luận án đạt độ xác tốt phương pháp Su HaddadPajouh 3,57% 0,82% 15 Bảng 3.4 Kết đánh giá tính khớp Phương pháp PSI-Graph Các thuật tốn Bộ mẫu thử nghiệm Độ xác (Accuracy %) Deep neural network (CNN) Bộ liệu mẫu mô tả mục 2.2.1 gồm 10,010 (trong 6165 mã độc từ IoTPOT and VirusShare) 97,8 Cuối cùng, vấn đề khớp (over-fitting) thường xảy với thuật toán học sâu Điều xảy mơ hình q khớp với tập liệu huấn luyện không thực tốt thực thi tập mở rộng Để đánh giá vấn đề khớp mô hình đề xuất, luận án thêm 3067 mẫu mã độc thu thập từ VirusShare vào tập kiểm thử tính tốn lại độ xác Như kết thể bảng 3.4, thêm mẫu mã độc từ VirusShare vào tập liệu mẫu độ xác phát mã độc có giảm nhẹ (giảm 0,9%) Như vậy, từ kết thực nghiệm, luận án thấy phương pháp đề xuất đạt kết khả quan phát mã độc IoT, đồng thời giải vấn đề khớp khoảng giá trị chấp nhận Kết luận Chương Dựa việc phân tích, đánh giá đặc trưng mã độc IoT botnet nhằm giải hạn chế nghiên cứu trước phát mã độc IoT botnet dựa đặc trưng có cấu trúc đồ thị, luận án đề xuất hướng tiếp cận nhẹ (light) dựa đặc trưng mức cao, gọi đồ thị PSI nhằm phát mã độc IoT botnet Phương pháp đề xuất khai phá vòng đời mã độc IoT botnet để sinh đặc trưng đồ thị PSI, áp dụng ưu điểm phương pháp học sâu để đạt độ xác tới 98,7% độ khớp khoảng giá trị chấp nhận với toán phát mã độc IoT botnet Tuy nhiên, phương pháp đề xuất tập trung vào khai thác cấu trúc tổng thể đồ thị PSI, có độ phức tạp chi phi thời gian lớn Những đóng góp Chương Đề xuất đặc trưng có cấu trúc đồ thị, hiệu toán phát mã độc botnet đa kiến trúc thiết bị IoT, gọi đồ thị PSI Kết nghiên cứu cơng bố trình bày Kỷ yếu Hội nghị Tạp chí uy tín nước quốc tế (tại [B1], [B6], [B7] danh mục cơng trình tác giả) CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 4.1 Phát biểu toán Phương pháp phát mã độc IoT botnet dựa đặc trưng đồ thị PSI cho thấy tính khả thi đạt hiệu cao Tuy nhiên, phương pháp đề xuất tập trung vào khai thác cấu trúc tổng thể đồ thị PSI không khai thác đường đồ thị PSI, nói cách khác phương pháp tập trung vào việc xét đồ thị PSI đồ thị đơn Thực tế xu hướng phát triển tập tin thực thi mã độc botnet thiết bị IoT ngày phức tạp, cấu trúc đồ thi PSI phức tạp theo Trong đó, hành vi độc hại thường xuất vịng đời mã độc IoT botnet đường đồ thị PSI, minh họa hình 4.1 đường màu xanh màu đỏ, đường khác liệu dư thừa Dựa điều đó, tốn nghiên cứu Chương phát biểu sau: Xây dựng đặc trưng dựa đặc trưng đồ thị PSI, tập trung khai phá đường đồ thị PSI, từ xây dựng đặc trưng đồ thị mới, gọi đồ thị PSI có gốc biểu diễn hành vi độc hại mã độc IoT botnet, nâng cao hiệu phát mã độc IoT botnet với thuật tốn học máy đơn giản 16 Hình 4.1 Minh họa ý tưởng toán dùng đồ thị PSI có gốc 4.2 Xây dựng đặc trưng đồ thị PSI-rooted subgraph Định nghĩa 4.1 (Đồ thị PSI có gốc): Giả sử 𝐺𝑠𝑔 = (𝑉, 𝐸, 𝜃, 𝑑) biểu diễn đồ thị PSI có gốc, có hướng khơng có chu trình, đồ thị sinh từ đồ thị 𝐺𝑃𝑆𝐼 có gốc đỉnh ∅; 𝑉 ∈ 𝐺𝑃𝑆𝐼 tập đỉnh mà độ dài (∅, 𝑉𝑖 ) thỏa mãn 0≤ (∅, 𝑉𝑖 ) ≤ 𝑑, 𝐸 tập cạnh có hướng đỉnh 𝑉 Sau xây dựng đồ thị PSI, xác định đỉnh PSI, luận án tiến hành duyệt đồ thị PSI với đỉnh gốc đồ thị đỉnh đồ thị PSI, tiến trình thực thuật tốn 4.1 Thuật toán 4.1: 𝐸𝑥𝑡𝑟𝑎𝑐𝑡𝑅𝑜𝑜𝑡𝑒𝑑𝑆𝑢𝑏𝑔𝑟𝑎𝑝ℎ(𝒢, 𝐷) 𝒢 = {𝐺1 , 𝐺2 , … , 𝐺𝑛 }: Tập hợp đồ thị PSI 𝐺𝑖 = (𝑉𝑖 , 𝐸𝑖 ) biểu diễn cho tập tin ELF 𝐈𝐧𝐩𝐮𝐭 𝐷: Bậc đồ thị PSI có gốc 𝒮𝒢 = {𝑆𝐺1 , 𝑆𝐺2 , … , 𝑆𝐺𝑛 }: Tập hợp đồ thị PSI có gốc 𝑆𝐺𝑖 = (𝑉𝑖′ , 𝐸𝑖′ , 𝑣, 𝐷) Output trích xuất từ 𝒢 1: 𝑰𝒏𝒊𝒕𝒊𝒂𝒍𝒊𝒛𝒂𝒕𝒊𝒐𝒏: 𝒮𝒢 = ∅ 2: 𝒇𝒐𝒓 𝒆𝒂𝒄𝒉 𝐺𝑖 ∈ 𝒢 𝒅𝒐 3: 𝒇𝒐𝒓 𝒆𝒂𝒄𝒉 𝑣 ∈ 𝑉𝑖 𝒅𝒐 4: 𝒇𝒐𝒓 𝑑 = 𝑡𝑜 𝐷 𝒅𝒐 5: 𝑆𝐺𝑖 ≔ 𝐺𝑒𝑡𝑊𝐿𝑆𝑢𝑏𝐺𝑟𝑎𝑝ℎ(𝑣, 𝐺𝑖 , 𝑑) 6: 𝒮𝒢 ≔ 𝒮𝒢 ∪ 𝑆𝐺𝑖 7: 𝑟𝑒𝑡u𝑟𝑛 𝒮𝒢 Thuật tốn 4.1 chọn lấy tất hàng xóm đỉnh để trích xuất đồ thị (dị theo chiều rộng) Tiến trình trích xuất đồ thị PSI có gốc dựa thuật tốn tìm kiếm theo chiều rộng (BFS – Breadth First Search) hiệu thuật tốn tìm kiếm theo chiều sâu (Depth First Search) Lý BFS bắt đầu đỉnh gốc khai thác tất đỉnh lân cận độ sâu trước tới độ sau DFS khai thác nút có độ sâu trước quay lui tìm kiếm Với độ sâu cố định (hay gọi bậc) đồ thị có gốc thuật tốn BFS rõ ràng phù hợp cho trích xuất đồ thị có gốc Để lựa chọn độ sâu đồ thị phù hợp, luận án tiến hành thử nghiệm với độ sâu 𝐷 = 2, 𝐷 = 𝐷 = Để cân đối độ xác độ phức tạp, luận án lựa chọn độ sâu 𝐷 = để xử lý đồ thị PSI 17 Trong đó, thuật tốn 4.1 thực lấy đỉnh gốc 𝑣, đồ thị 𝐺𝑖 𝑑 - bậc đồ thị giá trị đầu vào trả kết đồ thị 𝑆𝐺𝑖 , dòng lệnh 5, trình thực xử lý với hàm GetWLSubGraph Hàm GetWLSubGraph thuật toán 4.2, luận án kế thừa từ nghiên cứu Annamalai Narayanan cộng [89] Thuật toán 4.2: GetWLSubGraph (𝑣, 𝐺, 𝑑) 𝑣: Đỉnh gốc đồ thị PSI Input: 𝐺 = (𝑉, 𝐸) : Đồ thị PSI sử dụng để trích xuất đồ thị 𝑑: Bậc đỉnh lân cận xem xét để trích xuất đồ thị PSI Output: 𝑠𝑔𝑣(𝑑) : Đồ thị có gốc với bậc 𝑑 quanh đỉnh 𝑣 (𝑑) 𝑠𝑔𝑣 = ∅ //khởi tạo tập đồ thị có gốc rỗng If 𝑑 = then (𝑑) 𝑠𝑔𝑣 ≔ (𝑣) else 𝑁𝑣 ≔ {𝑣 ′ |(𝑣, 𝑣 ′ ) ∈ 𝐸} (𝑑) 𝑀𝑣 ≔ {𝐺𝐸𝑇𝑊𝐿𝑆𝑈𝐵𝐺𝑅𝐴𝑃𝐻(𝑣 ′ , 𝐺, 𝑑 − 1)| 𝑣 ′ ∈ 𝑁𝑣 (𝑑) (𝑑) 𝑠𝑔𝑣 ≔ 𝑠𝑔𝑣 ∪ 𝐺𝐸𝑇𝑊𝐿𝑆𝑈𝐵𝐺𝑅𝐴𝑃𝐻 (𝑣, 𝐺, 𝑑 − 1) ⊕ 𝑠𝑜𝑟𝑡(𝑀𝑣(𝑑) ) (𝑑) Return 𝑠𝑔𝑣 Để minh họa cho trình xây dựng đồ thị PSI có gốc, luận án duyệt đồ thị PSI (trong hình 4.1) để tìm ví dụ đồ thị có gốc đỉnh 11 với độ sâu d 2, kết hiển thị bảng 4.1 Bảng 4.1 Một ví dụ sinh đồ thị PSI có gốc với độ sâu Degree Vertexes 11 d=0 0, 8, 10, 7, d=1 18, 0, 0, 7, 0, 5, 6, 15, 16 d=2 Quá trình duyệt mơ tả sau: d = có đỉnh 11; tiếp d = lấy đỉnh d = để duyệt, kết có đỉnh liên kết với đỉnh 11 {0,8,10,7,9}; tương tự d = lấy đỉnh d = để duyệt, đỉnh {0} liên kết với đỉnh {18}, đỉnh {8} liên kết với đỉnh {0}, … Cứ tiếp tục duyệt hết đỉnh d = có danh sách đỉnh d = Kết đồ thị PSI có gốc đỉnh 11 danh sách {11, 0, 8, 10, 7, 9, 18, 0, 0, 7, 0, 5, 6, 15, 16} Tiếp tục trình duyệt toàn đồ thị PSI với gốc đỉnh khác đồ thị, thu danh sách đồ thị PSI có gốc, thấy liệu thu có dạng rừng có nhiều (bởi q trình duyệt sinh đồ thị bỏ chu trình nên đồ thị có cấu trúc giống cây) Sau đó, cần xác định tập đồ thị PSI có gốc, mà đồ thị có chứa hành vi vòng đời mã độc IoT botnet 4.3 Thực nghiệm đánh giá kết 4.3.1 Môi trường thực nghiệm Sử dụng tập liệu mơi trường thực nghiệm trình bày mục 1.2 luận án này, để tiến hành thực nghiệm, luận án chia tập liệu thử nghiệm thành tập là: tập huấn luyện tập kiểm thử Trong sử dụng 70% tập liệu để thực huấn luyện 30% lại để thực kiểm thử Để giảm thiểu khả xảy tượng khớp trình thử nghiệm, luận án sử dụng đánh giá chéo (crossvalidation) k-fold Trong luận án sử dụng giá trị k 5, tức liệu huấn luyện chia làm năm phần, bốn phần dùng để huấn luyện phần dùng để đánh giá nhằm tìm tham số phù hợp cho mơ hình huấn luyện 18 4.3.2 Mơ hình đánh giá Để đánh giá tính hiệu đặc trưng đồ thị PSI có gốc tốn phát mã độc IoT botnet, luận án tiến hành đưa đặc trưng đồ thị PSI có gốc vào mơ hình đánh hình 4.2 Hình 4.2 Mơ hình đánh giá đặc trưng đồ thị PSI có gốc phát mã độc IoT botnet Dữ liệu đầu vào liệu đồ thị PSI có gốc, thu từ trình xử lý đồ thị PSI Trước đưa liệu vào bước thực thi luận án tiến hành xử lý đồ thị PSI có gốc dựa kỹ thuật nhúng từ (word embedding) Để phù hợp với cách tiếp cận luận án, luận án sử dụng cách xử lý dựa tần số xuất hiện, cụ thể xét đồ thị PSI văn đồ thị PSI có gốc từ văn Thực đếm xuất từ văn bản, tần số xuất đồ thị có gốc xem đặc trưng Như thấy vector đại diện tập tin thực thi tần số xuất đồ thị PSI có gốc đồ thị PSI tương ứng tập tin thực thi Vector xem mẫu đa biến số liệu biểu diễn dạng ma trận với hàng (biểu diễn đồ thị) cột (biểu diễn đồ thị có gốc xuất tập liệu đồ thị) Luận án thấy ma trận thu có đặc trưng với nhiều khoảng giá trị khác nên cần chuẩn hóa để đảm bảo kết phân loại, q trình chuẩn hóa theo cơng thức (4.1), tử số giá trị vector đại diện cho mẫu tập liệu đồ thị PSI có gốc, cịn mẫu số độ dài vector (ở số thực) tính khoảng cách Euclid 𝑥 (4.1) 𝑥𝑛𝑜𝑟𝑚𝑎𝑙𝑖𝑧𝑒𝑑 = ∥ 𝑥 ∥2 Tiếp đó, luận án tiếp cận kỹ thuật lựa chọn đặc trưng theo phương pháp Wrapper, tức đánh giá dựa thuật toán học máy cụ thể để tìm đặc trưng tối ưu, thuật tốn mà luận án sử dụng SVM tuyến tính (SVM linear) SVM tuyến tính hiệu tốt việc xây dựng đường phân chia lớp để chọn đặc trưng có tầm ảnh hưởng, thứ hai SVM tuyến tính có khả tính độ quan trọng đặc trưng thứ ba SVM tuyến tính tương đối nhanh Với liệu đặc trưng thu được, luận án lựa khơng sử dụng thuật tốn học máy phức tạp mà chọn số thuật toán học máy phổ biến toán phát mã độc [99] SVM, Decision Tree, Random Forest, với thuật tốn học máy đơn giản, sử dụng Bagging kNN, để chứng tỏ tính mạnh mẽ hiệu đặc trưng đồ thị PSI có gốc tốn phát mã độc IoT botnet 4.3.2 Các kết thực nghiệm thảo luận Nhằm đánh giá tính hiệu đặc trưng đồ thị PSI có gốc phát mã độc IoT botnet, luận án thực nghiệm đưa bảng kết 4.2, 4.3 4.4 Trong đó, bảng kết 4.2 thực 19 tồn tập liệu, cịn hai bảng kết 4.3 4.4 thực với tập tin có kiến trúc ARM MIPS theo thứ tự Bảng 4.2 Kết phân loại với đặc trưng đề xuất Classifier TPR FPR Accuracy AUC F1-score (%) (%) (%) (%) DT 97 0.043 96.3 96.4 97 RF 98 0.03 97.2 97.1 98 SVM 98 0.041 97 96.8 98 Bagging 98 0.04 97.3 97.1 98 kNN 97 0.044 96.8 96.7 98 Hình 4.3 Đường cong ROC Bagging, RF, DT, kNN SVM tập liệu Bảng 4.3 Kết đánh giá phát mã độc với tập liệu kiến trúc ARM Classifier TPR FPR Accuracy AUC F1-score (%) (%) (%) (%) DT 99 0.019 98.3 98.3 98 RF 99 0.01 98.8 98.8 99 SVM 100 0.01 99.3 99.3 99 Bagging 99 0.01 98.8 98.8 99 kNN 98 0.019 97.8 97.8 98 Hình 4.4 Đường cong ROC Bagging, RF, DT, Hình 4.5 Đường cong ROC Bagging, RF, DT, kNN SVM tập liệu kiến trúc ARM kNN SVM tập liệu kiến trúc MIPS 20 Qua kết thấy phương pháp đề xuất có tỷ lệ phát cao phân lớp sử dụng sở liệu kết hợp từ tập tin đa kiến trúc bảng 4.2 Random Forest chứng minh có kết cao so với phân lớp khác với TPR đạt 98% độ đo khác có kết khả quan Hơn nữa, AUC phân lớp sử dụng thực nghiệm cho thấy kết lớn 96% Giá trị AUC đồng nghĩa với việc hệ thống phát mã độc IoT botnet đem lại kết tốt, phân lớp Random Forest tốt thể hình 4.3, 4.4 4.5 Bảng 4.4 Kết đánh giá phát mã độc với tập liệu dựa kiến trúc MIPS Classifier TPR FPR Accuracy AUC F1-score (%) (%) (%) (%) DT 98 0.007 99 98.7 98 RF 99 0.005 99.3 99.1 98 SVM 100 0.007 99.4 99.6 99 Bagging 96 0.011 98.3 97.6 96 kNN 99 0.004 99.4 99.2 99 Bên cạnh đó, luận án thực độ đo với tập liệu dựa kiến trúc ARM kiến trúc MIPS, kết thể bảng 4.3 4.4 Bởi tập liệu chứa tập tin kiến trúc ARM MIPS nên phân lớp SVM có kết cao phân lớp khác SVM đạt tỷ lệ dương tính mức 100% hai tập liệu Như đề cập phía trước, độ đo precision tỷ lệ thể định danh xác từ tất liệu Nói cách khác, độ đo precision cho biết khả phân lớp dự đốn thể mã độc Trong đó, độ đo F-score tính tốn từ Precision, đó, phân lớp RF SVM đạt độ đo F-score lớn 98%, nghĩa phân lớp dự đoán thể mã độc khả quan Kết thực nghiệm hiển thị bảng 4.5 cho thời gian xử lý sử dụng trích chọn đặc trưng khơng trích chọn đặc trưng có khác biệt lớn Khi sử dụng toàn 530,155 đặc trưng thời gian xử lý 9305,2 giây; với việc lựa chọn đặc trưng thời gian xử lý giảm xuống 69,18 giây phân lớp RF Tuy nhiên, phân lớp khác cho thấy thời gian xử lý giảm sử dụng lựa chọn đặc trưng Do đó, thời gian xử lý phân lớp tỷ lệ thuận với kích thước liệu đặc trưng Bảng 4.5 So sánh thời gian xử lý Classifier Processing Time (second) Processing time with feature selection DT 1.84 RF 69.18 Bagging 144.64 kNN 12.83 SVM 237.78 Processing time without feature selection DT 18.49 RF 9305.21 Bagging 5225.02 kNN 19.60 SVM 1705.33 Bên cạnh đó, luận án so sánh phương pháp đề xuất với phương pháp Hamed HaddadPajouh cộng [14] sử dụng chuỗi Opcode đặc trưng Có lý để luận án lựa chọn để so sánh là: thứ là, sử dụng hướng tiếp cận đặc trưng tĩnh với tập tin thực thi IoT; thứ hai là, đánh giá thực nghiệm sử dụng học máy 21 Bảng 4.6 So sánh độ xác phân lớp học máy truyền thống phát IoT botnet Accuracy (%) Classifier Proposed method Hamed et al [14] Random Forest 98.8 92.37 SVM 99.3 82.21 kNN 97.8 94 Decision Tree 97.8 92.36 Phương pháp Hamed cộng thực nghiệm tập liệu gồm mẫu tập tin thực thi IoT có kiến trúc ARM Do đó, luận án sử dụng kết thực nghiệm tập liệu ARM, trình bày bảng 4.3 Kết cho thấy, phương pháp đề xuất luận án vượt trội hẳn Do đó, đặc trưng đồ thị PSI có gốc có tính hiệu việc phát mã độc IoT botnet sử dụng học máy Cuối cùng, đánh giá độ phức tạp so với phương pháp sử dụng đặc trưng đồ thị PSI thấy cách tiếp cận dựa đặc trưng đồ thị PSI có gốc có độ phức tạp thấp Trước hết xét độ phức tạp phương pháp dựa đặc trưng đồ thị PSI thấy trình xử lý đồ thị PSI dựa Graph2vec, mà chủ yếu kỹ thuật học sâu skipgram Xét mơ hình mạng skipgram xử lý liệu với kỹ thuật nhúng hình 4.6 Độ phức tạp skipgram phụ thuộc vào tích số epoch, số iteration (là số lan truyền ngược thực để cập nhật trọng số) độ phức tạp iteration Xem thuật toán xử lý Graph2vec thuật toán luận án trình xử lý chi tiết luận án kề thừa từ nghiên cứu Annamalai Narayanan cộng [40], thấy rằng: - Trong iteration: độ phức tạp phụ thuộc vào số phép tính thực hiện, quan sát mơ hình mạng hình 4.6 thấy độ phức tạp phụ thuộc vào bước tính lớp ẩn 𝑦𝑝𝑟𝑒𝑑 cập nhật trọng số 𝑊𝑖𝑛𝑝𝑢𝑡 , 𝑊𝑜𝑢𝑡𝑝𝑢𝑡 + Tính lớp ẩn trọng số 𝑊𝑖𝑛𝑝𝑢𝑡 phụ thuộc vào hàng thứ V trọng số 𝑊𝑖𝑛𝑝𝑢𝑡 nên độ phức tạp 𝑂(𝑁) 𝑇 𝑇 + Cập nhật 𝑊𝑜𝑢𝑡𝑝𝑢𝑡 cập nhật K+1 cột 𝑊𝑜𝑢𝑡𝑝𝑢𝑡 nên độ phức tạp 𝑂(𝑁 ∗ (𝐾 + 1)) 𝑇 + Tính 𝑦𝑝𝑟𝑒𝑑 phụ thuộc vào phép nhân ma trận 𝑊𝑜𝑢𝑡𝑝𝑢𝑡 (có độ phức tạp 𝑂(𝑁 ∗ (𝐾 + 1) kỹ thuật 𝑇 negative sampling cập nhật (𝐾 + 1) cột 𝑊𝑜𝑢𝑡𝑝𝑢𝑡 ) tính softmax (có độ phức tạp 𝑂(𝑉)) Như vậy, độ phức tạp max(𝑁 ∗ (𝐾 + 1), 𝑉), tức 𝑂(𝑁 ∗ (𝐾 + 1)) Suy độ phức tạp interation phụ thuộc max(𝑁, 𝑁 ∗ (𝐾 + 1)), tức 𝑂(𝑁 ∗ (𝐾 + 1)) - Số iteration Graph2vec sử dụng kỹ thuật SGD (Stochastic gradient descent) nên phụ thuộc vào số mẫu cần huấn luyến, S = {graph_id, )}, sampled_word lấy ngẫu nhiên từ cửa sổ đồ thị Trong nghiên cứu này, luận án có tập từ vựng đồ thị có gốc lớn (khoảng 500.000), kích thước |S| đạt tới hàng triệu bậc chí lớn Tiến trình diễn nhiều lần để cập nhật lại trọng số Mỗi lần chạy có độ phức tạp 𝑂(𝑁 ∗ (𝐾 + 1) ∗ |𝑆|) - Số epoch: giá trị siêu tham số thiết lập Như độ phức tạp phương pháp luận án đề xuất dựa đặc trưng đồ thị PSI 𝑒 ∗ |𝐺| ∗ |𝑉| ∗ 𝐷 max(𝑘 , 𝐷 ∗ |𝑆| ∗ 𝑁 ∗ (𝐾 + 1)), tức 𝑂(𝑒 ∗ |𝐺| ∗ |𝑉| ∗ 𝐷 ∗ |𝑆| ∗ 𝑁 ∗ (𝐾 + 1) 22 Hình 4.6 Cấu trúc mơ hình Skipgram với trường hợp từ trung tâm “passes” [114] Trong đó, xét độ phức tạp sinh đặc trưng đồ thị PSI rooted-subgraph thuật tốn 4.1 4.2 trường hợp xấu phải duyệt hết tất các đỉnh hàng xóm đỉnh đồ thị PSI Cụ thể, dịng lệnh thứ thuật tốn 4.1 thấy độ phức tạp 𝑂(𝑘 𝐷 ), D bậc đồ thị PSI 𝑘 số lượng hàng xóm tối đa đỉnh gốc đồ thị PSI (bởi thuật toán vét cạn, xét tất đỉnh kề đỉnh gốc đạt có độ sâu D) Bên cạnh cần xét đến độ phức tạp trình xử lý liệu đồ thị PSI có gốc bước vector hóa, với đầu sau thực vector hóa ma trận thưa nên độ phức tạp phụ thuộc vào kích thước đầu vào, cụ thể (|𝐺| ∗ 𝑅), G tập đồ thị PSI R số lượng đồ thị PSI có gốc lớn toàn đồ thị Như vậy, độ phức tạp phương pháp đề xuất đặc trưng đồ thị PSI có gốc 𝑚𝑎𝑥( |𝐺| ∗ |𝑉| ∗ |𝐷| ∗ 𝑘 𝐷 ), |𝐺| ∗ 𝑅), tức 𝑂(|𝐺| ∗ |𝑉| ∗ |𝐷| ∗ 𝑘 𝐷 ) So sánh với độ phức tạp thấy độ phức tạp phương pháp dựa đặc trưng đồ thị PSI có gốc đơn giản so với phương pháp dựa đặc trưng đồ thị PSI Kết luận Chương 4: Luận án trình bày phương pháp dựa đồ thị PSI có gốc phát mã độc IoT botnet, phương pháp trích xuất đặc trưng từ đồ thị PSI tập tin ELF Những đặc trưng áp dụng vào phân loại học máy phát mã độc đạt độ xác 97% phân lớp Random Forest chứng minh có kết tốt phân lớp khác Thêm vào đó, so sánh với phương pháp có, kết thực nghiệm cho thấy phương pháp đề xuất luận án hiệu Những đóng góp chương 4: Dựa đồ thị PSI, luận án đề xuất phương pháp khai phá đồ thị PSI để trích xuất đặc trưng hiệu phát mã độc IoT botnet, gọi đặc trưng đồ thị PSI có gốc Kết nghiên cứu cơng bố trình bày Kỷ yếu Hội nghị Tạp chí uy tín nước quốc tế (tại [B2], [B8] danh mục cơng trình tác giả) KẾT LUẬN VÀ KIẾN NGHỊ 1) Những kết luận án: Nội dung luận án tập trung nghiên cứu phương pháp phát mã độc IoT botnet Qua trình học tập, nghiên cứu thực luận án, kết đạt sau: Đóng góp 1: Thực nghiệm, phân tích đánh giá phương pháp phát mã độc IoT với sở liệu lớn tập tin thực thi IoT (gồm mã độc lành tính), có mẫu mã độc 23 thực tế, q trình thực nghiệm phương pháp thực cấu hình hệ thống Kết đạt góp phần đem lại đánh giá tổng quan phương pháp dựa phân tích tĩnh phát mã độc IoT nay, từ đó, nhà nghiên cứu lựa chọn hướng tiếp cận phù hợp cho toán phát mã độc IoT nói chung IoT botnet nói riêng Đóng góp 2: Luận án đề xuất đặc trưng mới, gọi đồ thị PSI (Printable String Information) mơ q trình lây nhiễm mã độc IoT botnet Phương pháp đề xuất có độ phức tạp thấp đảm bảo độ xác cao phát mã độc IoT botnet Đóng góp 3: Luận án đề xuất cải tiến phương pháp phát mã độc IoT botnet dựa đồ thị PSI đặc trưng mới, gọi đồ thị có gốc PSI (PSI-rooted subgraph), đặc trưng đồ thị PSI có gốc chứng minh tính hiệu phát mã độc IoT botnet 2) Hướng phát triển tương lai luận án: - Phương pháp đề xuất luận án thử nghiệm với mã độc IoT botnet, cịn loại mã độc IoT khác Trojan, Worm Trong tương lai, cần tiếp tục thử nghiệm phương pháp đề xuất luận án với nhiều loại mã độc IoT khác - Q trình trích xuất đặc trưng động phức tạp tốn thời gian có khả giải hạn chế phân tích tĩnh Do đó, nghiên cứu tương lai luận án kết hợp phân tích tĩnh phân tích động cải tiến khai phá đặc trưng đồ thị PSI phát mã độc IoT - Q trình duyệt đồ thị PSI có gốc cịn phức tạp, nghiên cứu tương lai tiếp cận hướng khai phá thuật toán học tăng cường (Reinforcement Learning) để tăng khả xác định hành vi độc hại mã độc IoT botnet, từ việc duyệt đồ thị PSI có gốc có độ phức tạp thấp Hướng tiếp cận NCS nghiên cứu, thực nghiệm công bố kết cơng trình [B9] - Luận án sử dụng tập liệu với số lượng mẫu phù hợp để tiến hành thực nghiệm, đánh giá thực nghiệm tương lai thực với tập liệu lớn Kết với tập liệu lớn tăng độ tin cậy phương pháp đề xuất luận án - Kết hợp với đặc trưng phi cấu trúc đồ thị: luận án tiếp cận theo hướng sử dụng đặc trưng vector chuyển đổi từ đặc trưng đồ thị PSI nên dễ dàng kết hợp với đặc trưng vector khác (ví dụ nối chuỗi vector) Mơ hình ứng dụng thực tế phương pháp phát IoT botnet sử dụng đặc trưng đồ thị PSI 24 Danh mục cơng trình tác giả Bài báo đăng Tạp chí khoa học [B1] Huy-Trung Nguyen, Quoc-Dung Ngo, and Van-Hoang Le "A novel graphbased approach for IoT botnet detection." International Journal of Information Security, Vol 19, pp 567-577, 2020 (SCIE index, Q2) ISSN: 1615-5262 (Print) 1615-5270 (Online) DOI: 10.1007/s10207-019-00475-6 [B2] Huy-Trung Nguyen, Quoc-Dung Ngo, Doan-Hieu Nguyen, and Van-Hoang Le "PSI-rooted subgraph: A novel feature for IoT botnet detection using classifier algorithms.", ICT Express Journal, 6(2), pp 128-138, 2020 (ESCI/SCOPUS index, Q1), ISSN: 2405-9595 DOI: 10.1016/j.icte.2019.12.001 [B3] Quoc-Dung Ngo, Huy-Trung Nguyen, Van-Hoang Le, Doan-Hieu Nguyen, “A survey of IoT malware and detection methods based on static features”, ICT Express Journal, In press, 2020 (ESCI/SCOPUS index, Q1), ISSN: 2405-9595 DOI: 10.1016/j.icte.2020.04.005 Bài báo đăng Kỷ yếu Hội thảo [B4] Nguyễn Huy Trung, Ngô Quốc Dũng, Nguyễn Anh Quỳnh, Trần Nghi Phú, Nguyễn Ngọc Toàn, Nguyễn Mạnh Sơn “Phát triển phương pháp lai phát mã độc Botnet thiết bị định tuyến”, Hội thảo quốc gia lần thứ XX: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, Quy Nhơn, 2324/11/2017 [B5] Sử Ngọc Anh, Lê Hải Việt, Nguyễn Huy Trung, Ngô Quốc Dũng, “Xây dựng mơ hình thu thập phát cơng mạng sử dụng thiết bị IoT”, Hội thảo quốc gia lần thứ II: Một số vấn đề chọn lọc an tồn an ninh thơng tin, 2017 [B6] Sử Ngọc Anh, Nguyễn Huy Trung, Nguyễn Anh Quỳnh, Phạm Văn Huấn “Phát mã độc IoT botnet”, Hội thảo quốc gia lần thứ III: Một số vấn đề chọn lọc an tồn an ninh thơng tin, Đà Nẵng, 12/2018 (Kỷ yếu Hội thảo xuất Tạp chí Thơng tin Truyền thông, ISSN 1859-3550, trang 89-94, 2018) [B7] Huy-Trung Nguyen, Quoc-Dung Ngo, and Van-Hoang Le "IoT Botnet Detection Approach Based on PSI graph and DGCNN classifier." In IEEE International Conference on Information Communication and Signal Processing (ICICSP), pp 118-122, 2018 (SCOPUS Index) DOI: 10.1109/ICICSP.2018.8549713 [B8] Huy-Trung Nguyen, Doan-Hieu Nguyen, Quoc-Dung Ngo, Vu-Hai Tran, and Van-Hoang Le "Towards a rooted subgraph classifier for IoT botnet detection." In Proceedings of the 7th International Conference on Computer and Communications Management, pp 247-251 2019 (SCOPUS index) DOI: 10.1145/3348445.3348474 [B9] Quoc-Dung Ngo, Huy-Trung Nguyen, Hoang-Long Pham, Hoang HanhNhan Ngo, Doan-Hieu Nguyen, Cong-Minh Dinh, Xuan-Hanh Vu “A graph-based approach for IoT botnet detection using Reinforcement Learning”, In: 12th International Conference on Computational Collective Intelligence (ICCCI), DaNang, Vietnam Lecture Notes in Artificial Intelligence, Springer Cham, pp 114, 2020 [Accepted] ... botnet Chính lý đó, luận án với đề tài ? ?Nghiên cứu đề xuất đặc trưng đồ thị PSI phát mã độc botnet thiết bị IoT? ?? nhằm nghiên cứu giải pháp phát mã độc IoT botnet có ý nghĩa mặt thực tiễn khoa học,... cơng trình tác giả) CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ CON PSI CÓ GỐC TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 4.1 Phát biểu toán Phương pháp phát mã độc IoT botnet dựa đặc trưng đồ thị PSI cho thấy tính khả thi... pháp đề xuất luận án hiệu Những đóng góp chương 4: Dựa đồ thị PSI, luận án đề xuất phương pháp khai phá đồ thị PSI để trích xuất đặc trưng hiệu phát mã độc IoT botnet, gọi đặc trưng đồ thị PSI