Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

26 5 0
Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… LÊ HẢI VIỆT NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET Chuyên ngành: Hệ thống thơng tin Mã số: 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SỸ NGÀNH MÁY TÍNH Hà Nội – 2021 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS Ngô Quốc Dũng Người hướng dẫn khoa học 2: GS.TS Vũ Đức Thi Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 202… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Lợi dụng lỡ hổng bảo mật nghiêm trọng thiết bị IoT ngày phổ biến, công từ chối dịch vụ quy mô lớn đã ghi nhận Khác với Botnet truyền thống, mã độc IoT Botnet có những đặc điểm khác biệt phương thức lây lan, hiệu công,… Với tình hình nêu trên, vấn đề nghiên cứu giải pháp phát mã độc IoT Botnet thiết bị IoT hạn chế tài nguyên yêu cầu cấp thiết Mục tiêu nghiên cứu luận án Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi phát mã độc IoT Botnet dựa mơ hình học máy nhằm nâng cao độ xác giảm độ phức tạp phát mã độc IoT Botnet thiết bị IoT hạn chế tài nguyên theo phương pháp phân tích động Các nội dung nghiên cứu luận án - Khảo sát, nghiên cứu đặc điểm thiết bị thiết bị IoT hạn chế tài nguyên; từ đó lựa chọn phương pháp phát mã độc IoT Botnet xuất loại thiết bị - Nghiên cứu, xây dựng môi trường sandbox đảm bảo điều kiện để có thể thu thập đầy đủ dữ liệu hành vi mã độc IoT Botnet - Đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng phát mã độc IoT Botnet - Nghiên cứu, đề xuất mô hình học máy kết hợp đặc trưng phù hợp có khả phát sớm mã độc IoT Botnet - Đánh giá đặc trưng mô hình học máy đã đề xuất về độ xác hiệu phát mã độc IoT Botnet dựa tập dữ liệu (dataset) đủ lớn tin cậy với nghiên cứu có liên quan để làm nổi bật đóng góp khoa học luận án CHƯƠNG TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET 1.1 Tổng quan về thiết bị IoT 1.1.1 Khái niệm thiết bị IoT Khái niệm 1.1 Thiết bị IoT thiết bị có khả kết nối, chia sẻ liệu, tài nguyên dựa trên cơng nghệ thơng tin truyền thơng tương thích có phát triển, tự phản ứng với thay đổi môi thường để đạt mục tiêu định 1.1.2 Phân loại thiết bị IoT Thiết bị IoT chia làm loại gồm thiết bị hạn chế tài nguyên (constrained resource) hiệu cao (high-capacity resource) [9] Luận án sử dụng khái niệm thiết bị IoT hạn chế tài nguyên sau: Khái niệm 1.2 Thiết bị IoT hạn chế tài nguyên thiết bị IoT có cấu tạo hạn chế tài nguyên sử dụng (như lực xử lý liệu, dung lượng nhớ, băng thông truyền tải liệu,…) 1.1.3 Các vấn đề bảo mật tồn tại thiết bị IoT hạn chế tài nguyên Với vấn đề bảo mật xuất phát từ đặc điểm hạn chế tài nguyên thiết bị IoT, việc sử dụng mạng lưới Botnet để công từ chối dịch vụ ngày phổ biến gây hậu nặng nề [19] Với đặc điểm mình, mã độc IoT Botnet đòi hỏi chế để phát ngăn chặn Vì vậy, phạm vi đối tượng mà nghiên cứu sinh lựa chọn để nghiên cứu mã độc IoT Botnet 1.2 Tổng quan về mã độc IoT Botnet 1.2.1 Khái niệm mã độc IoT Botnet Khái niệm 1.3 Mã độc IoT Botnet mã độc có khả xâm nhập lây nhiễm thiết bị IoT hạn chế tài nguyên phục vụ mục đích xây dựng Botnet 1.2.2 Đặc điểm của mã độc IoT Botnet Bảng 1.1 So sánh đặc điểm Botnet truyền thống IoT Botnet Đặc điểm Kiến trúc vi xử lý, hệ điều hành Kỹ thuật gây rối Mục đích sử dụng Khả phát Vị trí lưu trữ Ngăn chặn mã độc khác Mã độc Botnet truyền thống x86 x64 (của Intel AMD); Windows OS; Sử dụng kỹ thuật gây rối phức tạp DDoS, Spam, Crypto mining,… Tương đối dễ dàng phát HDD, SSD, Flash,… Không Mã độc IoT Botnet MIPS, ARM, SPARC, PowerPC,…;OS Kernel Linux 2.6/3.2 Ít sử dụng kỹ thuật gây rối DDoS Khó phát RAM Có 1.3 Quy trình phát mã độc IoT Botnet 1.3.1 Tổng quan Hầu hết nghiên cứu phát mã độc IoT Botnet đều xoay quanh hai phương pháp phân tích tĩnh phân tích động Trong đó, phân tích động phương pháp phát hành vi độc hại dựa giám sát, thu thập phân loại hành vi tương tác mẫu với môi trường mục tiêu Phân tích động có khả loại bỏ kỹ thuật gây rối mã nguồn thường gặp phân tích tĩnh Tuy nhiên, thách thức thực phân tích động việc xây dựng mơi trường cho phép mã độc bộc lộ hoàn toàn hành vi có khả giám sát đầy đủ hành vi đó Ngồi ra, việc phân tích phát hành vi độc hại lượng lớn dữ liệu hành vi thu thập thách thức Để đạt mục tiêu luận án, nghiên cứu sinh lựa chọn hướng phân tích động đề xuất phương án khắc phục điểm yếu hướng 1.3.2 Thu thập liệu Theo kết khảo sát, có nhóm dữ liệu động thu thập qua giám sát môi trường thực thi bao gồm: Luồng mạng [32–35]; Lời gọi hệ thống [36, 37]; Tương tác với tài nguyên thiết bị [38] Môi trường thực thi có thể mơi trường thực tế xây dựng dựa phần cứng thật [43, 44] hoặc IoT Sandbox [43, 46–48] Luận án hạn chế IoT Sandbox bao gồm: Nguồn dữ liệu động chưa thu thập đầy đủ; Môi trường sandbox chưa có khả để mã độc IoT Botnet có thể thực thi trọn vẹn vòng đời mình Do đó, nghiên cứu sinh xây dựng IoT Sandbox hiệu để giải những nhược điểm Chương luận án 1.3.3 Tiền xử lý liệu 1.3.3.1 Tiền xử lý liệu luồng mạng Phương pháp tiền xử lý luồng mạng thường dựa đặc điểm tần xuất hoặc tuần tự dữ liệu mạng trích xuất thành bảng dữ liệu đặc trưng KDD99 [55], NSL-KDD [56], UNSW-NB15 [41], CSECIC-IDS2018 [57] N-BaIoT [58] Đặc biệt, nhiều nghiên cứu đã cơng bố [65]–[68] đã chứng minh tính hiệu dữ liệu CSE-CICIDS2018 với 80 đặc trưng Vì vậy, phương pháp lựa chọn áp dụng cho việc tiền xử lý dữ liệu luồng mạng Chương luận án 1.3.3.2 Tiền xử lý liệu lời gọi hệ thống Tiền xử lý dữ liệu lời gọi hệ thống gồm hai xu hướng là: Áp dụng phương pháp xử lý dữ liệu có đặc trưng rời rạc để trích xuất đặc trưng [75] áp dụng phương pháp xử lý dữ liệu có đặc trưng tuần tự để trích xuất đặc trưng phục vụ q trình huấn luyện mơ hình phân lớp Với kết khảo sát, nghiên cứu sinh đã lựa chọn xử lý lời gọi hệ thống những dữ liệu có thuộc tính t̀n tự nhằm tránh mát đặc trưng quan trọng về tính tuần tự lời gọi Do đó, để tăng hiệu phát mã độc IoT Botnet, chương nghiên cứu sinh đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng có độ phức tạp thấp dễ áp dụng với những thuật toán học máy đơn giản 1.3.3.2 Tiền xử lý liệu tương tác với tài nguyên hệ thống Đối với việc thu thập dữ liệu mạng lời gọi hệ thống gặp nhiều khó khăn những thiết bị IoT cỡ nhỏ Do đó, nhiều nhà nghiên cứu [38, 44, 45] đã đề xuất phương án sử dụng dữ liệu tương tác với tài nguyên hệ thống để tóm lược tác động mã độc IoT Botnet với mục tiêu Do đó, dữ liệu tương tác với tài nguyên hệ thống đã chứng minh có khả phát mã độc IoT Botnet Đây hướng tiếp cận nghiên cứu sinh giải toán kết hợp đặc trưng để phát sớm mã độc IoT Botnet trình bày Chương luận án 1.3.4 Phân tích phát hiện 1.3.4.1 Ứng dụng học máy phát mã độc IoT Botnet Các kết nghiên cứu [38, 45, 76–78] đã cho thấy thuật tốn học máy phở biến sử dụng gồm: K-nearest neighbors, Support vector machines, Decision Tree Random Forest Ưu điểm mô hình học máy u cầu tài ngun, thời gian thực thi nhanh Tuy nhiên, mô hình thường xác, tỉ lệ âm tính giả cao 1.3.4.2 Ứng dụng học sâu phát mã độc IoT Botnet Các mạng học sâu thường sử dụng phát mã độc IoT Botnet bao gồm: CNN [44]; RNN; Deep Autoencoders [58]; DNN [80] Tuy nhiên, mạng học sâu cho độ xác cao có độ phức tạp tính tốn cao, khó triển khai thực tế theo thời gian thực Vì vậy, vấn đề nghiên cứu đặt cần xây dựng mô hình phát mã độc IoT Botnet u cầu tài nguyên, thời gian thực thi nhanh mà đảm bảo tính xác 1.4 Kết luận Chương Trong Chương 1, nghiên cứu sinh đã trình bày tổng quan về thiết bị IoT, mã độc IoT Botnet quy trình phát mã độc IoT Botnet Theo đó, vấn đề cần giải để đạt mục tiêu nghiên cứu luận án gồm: Xây dựng môi trường IoT Sandbox cho phép mã độc IoT Botnet thực thi trọn vẹn vòng đời, có khả thu thập đầy đủ dữ liệu hành vi mã độc, có tỉ lệ thực thi thành cơng cao so với công cụ khác tập dữ liệu; Đề xuất phương pháp tiền xử lý dữ liệu lời gọi hệ thống có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản; Kết hợp nhiều nguồn dữ liệu đặc trưng mô hình học máy để phát sớm mã độc IoT Botnet Ba vấn đề lần lượt giải chương luận án Kết khảo sát, phân tích đánh giá thực nghiệm mô hình đề xuất Chương đã trình bày, cơng bố Tạp chí, Kỷ yếu Hội thảo uy tín nước Cụ thể là: - “Xây dựng mơ hình phát mã độc thiết bị định tuyến tác tử”, Kỷ yếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2017 - “Xây dựng mơ hình thu thập, phát công mạng sử dụng thiết bị IoT”, Kỷ yếu hội thảo quốc gia lần thứ 2: Một số vấn đề chọn lọc về an tồn an ninh thơng tin (SoIS), 2017 - “Xây dựng hệ thống phát xâm nhập mạng thiết bị IoT dân nhà thông minh”, Kỷ yếu hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2018 CHƯƠNG XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET 2.1 Phát biểu toán Bài toán nghiên cứu Chương sau: “Xây dựng môi trường Sandbox cho phép mô đầy đủ yêu cầu cần thiết để mã độc IoT Botnet thực thi trọn vẹn vịng đời Sandbox phải cho phép thu thập đầy đủ liệu hành vi phổ biến mã độc mà cần đạt tỉ lệ mô thành công cao so với công cụ mô khác tập liệu” 2.1 Kiến trúc tởng quan mơ hình đề xuất Kiến trúc V-Sandbox đề xuất bao gồm thành phần mơ tả Hình 2.1 Mơ tả cụ thể thành phần trình bày nội dung luận án Hình 2.1 Kiến trúc V-Sandbox 10 2.2 Các thành phần 2.2.1 Trích x́t thơng tin thuộc tính bản của ELF (EME) Khối EME thực trích xuất thơng tin tệp ELF từ metadata gửi đến khối SCG để tạo cấu hình môi trường phù hợp 2.2.2 Sinh cấu hình hoạt động Sandbox (SCG) Khối SCG sinh cấu hình hoạt động ban đầu (“Configuration file”) để khởi chạy môi trường SE Ngoài ra, danh sách thư viện chia sẻ thêm vào với đường dẫn mặc định “/lib/ ” 2.2.3 Môi trường Sandbox (SE) Bên mỡi mơi trường SE có ảnh Debian khởi chạy với thông số từ tệp “Configuration file” Khối C&C simulator tạo kết nối giữa môi trường SE máy chủ C&C mô phỏng Các thư viện yêu cầu bổ sung tự động vào ảnh Debian Trong mơi trường SE, tích hợp tác tử giám sát hành vi tệp thực thi 2.2.4 Tiền xử lý liệu thô thu thập (RDP) Khối RDP phân tích dữ liệu thơ thu thập từ mơi trường SE để làm đầu vào cho khối SR Kết tiền xử lý dữ liệu khối RDP cập nhật vào tệp “Configuration file” 2.2.5 Tính tốn khả thực thi lại Sandbox (SR) Khối SR sử dụng dữ liệu đầu khối RDP để tính tốn có cần thiết phải chạy lại mơi trường Sandbox hay không nhằm thu thập thêm thông tin về hành vi tệp ELF Thuật tốn khối SR mơ tả Thuật toán 2.1 (Thuật toán RDM) 2.2.6 Giả lập máy chủ C&C (C&C simulator) Khối C&C simulator tiến hành tạo máy chủ C&C dựa tập hợp địa IP tệp “.config” Các lệnh điều khiển C&C từ sở dữ liệu lần lượt gửi đến mục tiêu chờ lệnh 12 (được minh chứng số liệu Bảng 2.6) Bảng 2.1 So sánh chức IoT Sandbox Collection data Multi- Multi- C&C DynamicAuto System File Host CPU OS Server libraries Network report calls activity perfomance DroidScope [97] N N N N N Y Y N N AASandbox [98] N N N N N Y N N N Cuckoo [49] Y Y N N Y NF Y N Y IoTBOX [43] Y Y N N Y N N N NS Limon [52] N N N N Y Y Y N Y REMnux [48] N N N N N Y N N Y Detux[54] N N N N Y N N N Y Padawan [53] Y Y N N N Y Y N Y LiSa [51] Y Y N NF Y Y Y N Y V-Sandbox Y Y Y Y Y Y Y Y Y * N: Not yet, Y: Yes, NF: Not Fully, NS: Not Sure (no open source) 2.4 Kết luận Chương Trong chương này, luận án đã xây dựng môi trường VSandbox đảm bảo điều kiện để có thể thu thập đầy đủ dữ liệu hành vi mã độc IoT Botnet Môi trường hoạt động hoàn toàn tự động, mã nguồn mở cài đặt dễ dàng, có tính thực tiễn Ý tưởng kết thực nghiệm phương pháp đề xuất đã công bố tại: - “V-Sandbox for Dynamic Analysis IoT Botnet,” IEEE Access, vol 8, pp 145768–145786, 2020, (SCIE index, Q1), ISSN: 2169-3536, DOI: 10.1109/ACCESS.2020.3014891 - “Xây dựng hệ thống phát mã độc thiết bị định tuyến dựa mơ phỏng”, Tạp chí “Nghiên cứu Khoa học Cơng nghệ lĩnh vực An tồn thơng tin” (Journal of Science and Technology on Information security) – Ban yếu phủ (1.CS (05) 2017), 2017 13 CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 3.1 Phát biểu tốn 3.1.1 Lựa chọn ng̀n liệu động phục vụ tiền xử lý phân tích Trong toán phát mã độc IoT Botnet, mà nguồn dữ liệu luồng mạng thông tin chiếm dụng tài nguyên thiết bị không đạt được hiệu nhà nghiên cứu phải sử dụng nguồn dữ liệu động “lời gọi hệ thống” [36, 37, 73, 75, 103] Trong Chương 3, luận án đề xuất phương pháp tiền xử lý dữ liệu lời gọi hệ thống áp dụng hiệu cho toán phát mã độc IoT Botnet 3.1.2 Bài toán xây dựng đặc trưng từ lời gọi hệ thống Bài toán Chương phát biểu sau: Cho E tập hợp gồm n tập tin thực thi thiết bị IoT hạn chế tài nguyên, ký hiệu E = {e1, e2, …, en} với 𝑒𝑖 mã độc tệp lành tính Với 𝐹 = {𝑓𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖 , 𝑓𝐴𝑙ℎ𝑎𝑛𝑎ℎ𝑛𝑎ℎ , 𝑓𝐾𝑎𝑟𝑎𝑛𝑗𝑎 , 𝑓𝑀𝑒𝑖𝑑𝑎𝑛 , 𝑓𝑆ℎ𝑜𝑏𝑎𝑛𝑎 , 𝑓𝑁𝑔𝑢𝑦𝑒𝑛 } tập hợp đặc trưng trích xuất từ lời gọi hệ thống toán phát mã độc IoT Botnet, với đặc trưng tập F cho n đặc trưng tương ứng với 𝑒𝑖 𝜖 𝐸, cụ thể tồn ánh xạ {𝑢: 𝐸 → 𝐹; 𝑒 ↦ 𝑓 = 𝑢(𝑒)} Ví dụ, với đặc trưng 𝑓𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖 tồn tập giá trị đặc trưng 𝑢𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖 (𝐸) = {𝑒1 ↦ 𝑓𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖1 , 𝑒2 ↦ 𝑓𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖2 , … , 𝑒𝑛 ↦ 𝑓𝐴𝑙ℎ𝑎𝑖𝑑𝑎𝑟𝑖𝑛 } Cần tìm 𝑓𝐷𝑆𝐶𝐺 ∉ 𝐹|∀𝑒𝑖 ∈ 𝐸, ∃𝑒𝑖 ↦ 𝑓𝐷𝑆𝐶𝐺𝑖 mà 𝑓𝐷𝑆𝐶𝐺 hiệu 𝑓𝑖 ∈ 𝐹, định lượng số đánh giá mô hình học máy phổ biến tập liệu tương đồng Để giải toán nghiên cứu kể trên, nghiên cứu sinh đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng DSCG để cấu trúc hoá cách tuần tự lời gọi hệ thống thu từ môi trường V- 14 Sandbox Đặc trưng đề xuất có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản 3.1.3 Sơ đồ ý tưởng phương pháp đề xuất Phương pháp đề xuất có bước chính, cụ thể: Bước thứ 1, tệp ELF đưa vào V-Sandbox để thu thập lời gọi hệ thống Tiếp theo, thơng tin dư thừa bị xóa khỏi dữ liệu lời gọi hệ thống thông qua chức tiền xử lý dữ liệu đơn giản Kết trình ch̃i lời gọi hệ thống tệp ELF đầu vào đã tối giản Bước thứ 2, đồ thị lời gọi hệ thống DSCG xây dựng từ chuỗi lời gọi hệ thống đã tối giản Bước thứ 3, thực tiền xử lý dữ liệu đồ thị DSCG trước đưa vào học máy phân lớp dữ liệu phương pháp nhúng đồ thị (graph embedding) để có thể trích xuất hiệu thông tin đặc trưng đồ thị DSCG giảm chiều vector Bước thứ 4, sau trích xuất tập đặc trưng phù hợp, đặc trưng sử dụng để huấn luyện đánh giá khả phát mã độc IoT Botnet dựa thuật tốn học máy phở biến 3.2 Đờ thị lời gọi hệ thống có hướng DSCG 3.2.1 Khái niệm đờ thị lời gọi hệ thống có hướng DSCG Khái niệm 2.1 Đồ thị DSCG đồ thị có hướng ký hiệu GDSC=(V,E) đó: V tập hợp đỉnh vi đại diện cho lời gọi hệ thống có tên (name) tham số (arguments); E tập hợp cạnh ek nối từ đỉnh vi tới đỉnh vj đồ thị, E  V×V, với vịng lặp tính cạnh đồ thị 3.2.1 Xây dựng đồ thị lời gọi hệ thống có hướng DSCG Trong bước này, nghiên cứu sinh tiến hành xây dựng đồ thị DSCG cho mỗi tệp thực thi đầu vào dựa thông tin chuỗi 15 lời gọi hệ thống thu từ V-Sandbox Thuật toán xây dựng đồ thị DSCG trình bày mã Thuật tốn 3.1 3.3 Tiền xử lý liệu đồ thị DSCG Nghiên cứu sinh sử dụng kỹ thuật nhúng đồ thị nhằm tiền xử lý dữ liệu đồ thị DSCG Các kỹ thuật nhúng đồ thị thử nghiệm luận án bao gồm FEATHER [106], LDP [107] Graph2vec [108] 3.4 Thực nghiệm đánh giá 3.4.1 Bộ liệu thực nghiệm Để đánh giá kết hoạt động đặc trưng đề xuất, tập dữ liệu chứa 8911 mẫu tệp thực thi chạy thành công từ V-Sandbox bao gồm 5023 IoT Botnet 3888 mẫu lành tính đa nền tảng kiến trúc vi xử lý (gồm MIPS, ARM, X86, PowerPC,…) đã thu thập sử dụng cho thực nghiệm 3.4.2 Triển khai thử nghiệm Nghiên cứu sinh sử dụng kịch phân chia tập dữ liệu thử nghiệm sau để huấn luyện đánh giá (validation) đặc trưng đề xuất: Bảng 3.1 Kịch phân chia tập liệu thử nghiệm Kịch Tập huấn luyện Loại Bashlite Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) Bashlite Mirai Lành tính (ngẫu nhiên) Mirai Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) Tập kiểm thử Số lượng 2786 727 3088 2786 1389 3088 1510 727 3088 Loại Số lượng Mirai 1510 Lành tính (ngẫu nhiên) Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) 800 Bashlite 2786 Lành tính (ngẫu nhiên) 800 727 800 16 3.4.3 Các số đánh giá Luận án sử dụng số đánh giá gồm: Accuracy, True Positive Rate, False Positive Rate Area Under the Curve 3.4.4 Kết quả thử nghiệm đánh giá Kết thử nghiệm mô tả Bảng 3.2 Các đặc trưng trích xuất từ đồ thị DSCG đạt hiệu tốt toán phát mã độc IoT Botnet (ACC≈96.89%, TPR≈94.97%, FPR≈1.4%, AUC≈0.989) Đặc trưng hoạt động tốt với phân loại học máy đơn giản phổ biến KNN, SVM, Decision Tree, Random Forest Số chiều vector đặc trưng trích xuất từ đồ thị so với nghiên cứu đã cơng bố, góp phần làm giảm độ phức tạp tính tốn áp dụng vào mơ hình phát hiện, phân lớp mã độc IoT Botnet So sánh cụ thể nghiên cứu liên quan trình bày cụ thể Bảng 3.5 Bảng 3.2 Giá trị số đánh giá mô hình đề xuất Thuật tốn Kịch Tập huấn Tập kiểm nhúng đồ ACC luyện thử thị TPR FPR AUC Bộ phân lớp cho kết tốt Graph2vec 0.9649 0.9474 Bashlite + Mã độc Mirai + Feather 0.9627 0.9453 khác + Lành tính Lành tính LDP 0.9757 0.9669 0.0087 0.9895 SVM 0.0109 0.9923 RF 0.0109 0.9792 DT Graph2vec 0.9809 0.9944 0.0294 0.9971 RF Bashlite + Mã độc Mirai + khác + Lành tính Lành tính Mã độc Bashlite + khác + Lành tính Mirai Feather 0.9355 0.863 0.0087 0.9932 RF LDP 0.933 0.8573 0.0087 0.9632 KNN Graph2vec 0.9854 0.9896 0.0272 0.9961 RF 0.9906 0.012 0.9972 RF 0.9919 0.9924 0.0098 0.9981 RF Feather LDP 0.99 17 Bảng 3.3 So sánh mơ hình đề xuất nghiên cứu liên quan Kỹ thuật Số chiều Dataset/Đối tượng tiền xử lý vector đặc nghiên cứu liệu trưng NSL-KDD, Feature Alhaidari IoTPOT[40], UNSW pruning 31 [70] NB15/ IoT Botnet method Kaspersky, IoTPOT N-gram Alhanahnah [40], tự thu thập string 400 [71] thêm/ IoT Malware features (chủ yếu Botnet) IoTPOT [40]/ IoT Haralick image Karanja [72] 20 Botnet texture features Extracting IoTPOT [40]/ IoT Meidan [58] traffic 115 Botnet statistics Shobana IoTPOT [40]/ IoT N-gram, 184 [73] Botnet TFIDF Nguyen [74] IoTPOT [40], Virustotal [96], Subgraph2V 140 VirusShare [106]/ ec IoT Botnet IoTPOT [40], Mô hình đề Virustotal [96], DSCG 128 xuất VirusShare [106]/ IoT Botnet Tác giả Thuật toán ACC FPR TPR phân loại AUC (%) (%) (%) áp dụng HMM 94.67 1.88 47.86 K-means 85.20 Clustering - - - - RF 95.38 - - 0.97 Deep autoencoder - 1.7 - - RNN 98.31 - - - RF 97.00 - - 0.96 SVM, DT, Random 96,89 1.4 94.97 0.989 Forest, KNN 3.5 Kết luận Chương Trong chương này, để cấu trúc hoá cách tuần tự lời gọi hệ thống thu nghiên cứu sinh đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng DSCG, có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản Ý tưởng kết thực nghiệm chương đã trình bày, cơng bố tại: - “Iot Botnet Detection Using System Call Graphs and One-Class CNN Classification”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), vol 8, no 10, pp 937–942, Aug 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019 - “Đề xuất phương pháp phát IoT Botnet hiệu dựa lời gọi hệ thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2020 18 CHƯƠNG MƠ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET 4.1 Phát biểu toán 4.1.1 Vấn đề phát hiện sớm mã độc IoT Botnet Khái niệm 4.1 Phát sớm khả xác định tệp thực thi lành tính mã độc dựa việc thu thập mức tối thiểu liệu cần thiết thu thập q trình phân tích động 4.1.2 Mơ hình học máy cộng tác phát hiện sớm mã độc Học cộng tác (Collaborative Learning) phân loại thành ba nhóm gồm: Hợp sớm (early fusion); Hợp muộn (late fusion); Hợp trung gian (Intermediate fusion) Mỗi phương pháp học máy cộng tác đều có những ưu nhược điểm riêng Tuy nhiên, với mục đích phát sớm mã độc IoT Botnet, mơ hình hợp muộn phù hợp cho việc kết hợp đặc trưng đầu vào khác mã độc tối ưu hóa thời gian phát Thông qua nghiên cứu lý thuyết thực nghiệm, nghiên cứu sinh đã chứng minh nhận định 4.1.4 Bài toán phát hiện sớm mã độc IoT Botnet Bài toán nghiên cứu chương phát biểu sau: “Xây dựng mơ hình học máy cộng tác nâng cao hiệu phát mã độc IoT Botnet với thuật toán học máy đơn giản, tập trung vào phát sớm dựa việc thu thập mức tối thiểu liệu cần thiết thu từ phân tích động” 4.2 Mơ hình đề xuất 4.2.1 Kiến trúc tổng quan Điểm khác biệt phương pháp so với phương pháp có cần sử dụng lượng tối thiểu dữ liệu thu thập ban 19 đầu từ V-Sandbox để có thể đưa kết phát với độ xác cao Từ đó, mơ hình có khả phát sớm mã độc IoT Botnet Hình 4.1 Kiến trúc mơ hình đề xuất Kiến trúc đề xuất mơ tả Hình 4.1, có thành phần bao gồm: Mơi trường Sandbox; Khối tiền xử lý dữ liệu; Khối chuẩn hóa dữ liệu tiền xử lý; Khối trích chọn đặc trưng phù hợp; Bộ phân lớp học máy; Hàm hợp nhất; 4.2.2 Môi trường Sandbox (SC) Với hiệu đã chứng minh, để thu thập hiệu thông tin hành vi mã độc IoT Botnet, nghiên cứu sinh đã chọn VSandbox làm môi trường thực thi tệp ELF đầu vào 4.2.3 Tiền xử lý liệu (PPDC) Để phát sớm mã độc IoT Botnet hiệu quả, cần phải lựa chọn ngưỡng độ dài tối thiểu dữ liệu để đưa vào phân loại Với kết số liệu thống kê từ Dataset, nghiên cứu sinh lựa chọn ngưỡng tối thiểu 300 lời gọi hệ thống, 20 hành vi thay đổi tài nguyên thiết bị 50 gói tin luồng mạng đầu tiên thu nhận từ V-Sandbox để làm đầu vào cho mô hình học máy 4.2.4 Chuẩn hóa liệu tiền xử lý (DNC) - Đối với dữ liệu lời gọi hệ thống: sử dụng đồ thị lời gọi hệ thống có hướng DSCG 20 - Đối với dữ liệu luồng mạng: sử dụng đặc trưng dataset CSE-CIC-IDS2018 [139] - Đối với dữ liệu sử dụng tài nguyên thiết bị: sử dụng đặc trưng đầu V-Sandbox [105] 4.2.5 Trích chọn đặc trưng phù hợp Nghiên cứu sinh đã xem xét số phương pháp trích chọn đặc trưng Filter, Wrapper, Embedded Ensemble để trích chọn đặc trưng phù hợp Dựa kết khảo sát, nghiên cứu sinh chọn Wrapper 4.2.6 Bộ phân lớp học máy (MLC) Nghiên cứu sinh tiến hành thử nghiệm thuật toán học máy đơn lẻ phổ biến (như KNN, SVM, Decision Tree, Ramdom Forest) để lựa chọn phương án tối ưu 4.2.7 Hàm hợp nhất (FC) Để có thể kết hợp kết dự đoán phân lớp học máy khác nghiên cứu sinh thử nghiệm hàm hợp Voting Logistic regression cho vấn đề 4.3 Thực nghiệm đánh giá 4.3.1 Tập mẫu thực nghiệm Để đánh giá kết hoạt động mơ hình đề xuất, tập dữ liệu chứa 8911 mẫu bao gồm 5023 IoT Botnet 3888 mẫu lành tính đã thu thập sử dụng cho thực nghiệm 4.3.2 Triển khai thử nghiệm Các thuật toán học máy phổ biến KNN, Decision Tree, Random Forest, SVM đã cài đặt thử nghiệm (với tham số chi tiết Bảng 4.3) cho đặc trưng đầu vào mô hình đề xuất 21 4.3.3 Kết quả thử nghiệm Bảng 4.1 Các mô hình học máy sau tối ưu Dataset Model ACC Network (k-NN) Performance (Random Forest) System-Call (k-NN) Mô hình cộng tác ROC AUC Malware Benign FPR Precision Recall F1 Precision Recall F1 0.8978 0.8901 0.1270 0.9500 0.9071 0.9280 0.7795 0.8730 0.8236 0.9904 0.9846 0.0282 0.9895 0.9973 0.9934 0.9928 0.9718 0.9822 0.9822 0.9715 0.0370 0.9860 0.9801 0.9830 0.9479 0.9630 0.9554 0.9937 0.9896 0.0194 0.9927 0.9987 0.9957 0.9964 0.9806 0.9884 4.3.4 Đánh giá kết quả thử nghiệm Từ kết đánh giá Dataset cho thấy mơ hình học máy cộng tác đề xuất cho kết có độ xác cao với ACC = 99.37%, AUC = 0.9896 Thời gian để mơ hình đưa dự đốn xấp xỉ giây, nhanh so với nghiên cứu đã công bố về phát sớm mã độc thiết bị IoT Ngồi ra, mơ hình đề xuất sử dụng phần nhỏ dữ liệu hành vi thực thi mã độc đã có thể tạo phát xác mà khơng cần đợi mã độc thực đầy đủ hành vi Đây đóng góp nởi bật mơ hình 4.4 Kết luận Chương Trong chương này, nghiên cứu sinh đã đề xuất mơ hình học máy cộng tác (CMED) để phát sớm hiệu IoT Botnet dựa việc thu thập mức tối thiểu dữ liệu động cần thiết Hiệu mô hình đề xuất đã chứng minh thông qua kết thử nghiệm dữ liệu với 8911 mẫu Ý tưởng kết thực nghiệm phương pháp đề xuất chương đã công bố tại: - “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct 2021 (SCIE index, Q1), ISSN: 0045-7906 22 KẾT LUẬN Trong luận án này, nghiên cứu sinh tập trung tìm hiểu đặc điểm khác biệt mã độc IoT Botnet với loại mã độc truyền thống, từ đó làm sở nghiên cứu, xây dựng mơ hình học máy nhằm nâng cao độ xác giảm độ phức tạp phát mã độc IoT Botnet thiết bị IoT hạn chế tài nguyên theo phương pháp phân tích động Theo đó, nội dung luận án đã tập trung nghiên cứu phương pháp phát mã độc IoT Botnet, đánh giá ưu nhược điểm phương pháp đã có Từ đó, luận án đưa giải pháp xây dựng mơ hình học máy có độ xác cao độ phức tạp thấp phát mã độc IoT Botnet Phương pháp đề xuất luận án có tính thực tiễn có thể triển khai mơ hình ứng dụng tích hợp tác tử vào thiết bị IoT hạn chế tài nguyên để thu thập gửi thông tin hành vi hoạt động thiết bị về phân hệ tiền xử lý trung tâm làm đầu vào cho phân hệ phân tích, phát hiện, cảnh báo mã độc IoT Botnet Tại đây, phương pháp trích xuất đặc trưng đồ thị DSCG mơ hình học máy cộng tác phát sớm mã độc IoT Botnet nghiên cứu sinh đề xuất áp dụng để phân loại tệp lành tính mã độc Đây những nội dung khuôn khổ đề tài nghiên cứu ứng dụng phát triển công nghệ cấp quốc gia “Nghiên cứu xây dựng hệ thống tự động phát hiện, cảnh báo ngăn chặn công mạng nhằm vào thiết bị IoT cỡ nhỏ sử dụng mạng lưới tác tử thông minh” (có mã số KC-4.0-05/19-25) mà nghiên cứu sinh thành viên tham gia Mặc dù đã đạt kết nghiên cứu quan trọng về lý luận khoa học thực tiễn phát mã độc IoT Botnet luận án số vấn đề cần nghiên cứu, cải tiến tương lai gồm: 23 Phương pháp đề xuất luận án thử nghiệm với dữ liệu chủ yếu chứa mã độc IoT Botnet, chưa bao gồm loại mã độc khác Trong thời gian gần đây, số biến thể loại mã độc Ransomware, Trojan, Spyware,… phát triển để có thể lây lan thiết bị IoT hạn chế tài nguyên Đây nguy đe dọa an ninh, an tồn thơng tin tiềm tàng cần phải nghiên cứu, phát Do đó, cần phải thử nghiệm cải tiến phương pháp đề xuất luận án với những loại mã độc thời gian tới Tổng thời gian khởi tạo, thực thi, giám sát tạo báo cáo hành vi mẫu đầu vào môi trường V-Sandbox dài, dẫn tới hạn chế về mặt thời gian giải pháp phát sớm mã độc IoT Botnet Ngoải ra, tỉ lệ chạy thành công mẫu tập dữ liệu V-Sandbox mức 80.5% Cần phải nghiên cứu, cải tiến để tăng tỉ lệ thực thi thành cơng mẫu cịn lại tập dữ liệu đã thu thập Trong tương lai, nghiên cứu sinh tiếp tục hoàn thiện để tối ưu VSandbox để khắc phục những nhược điểm Việc sử dụng phân tích động phương pháp đề xuất đã đạt hiệu cao thực nghiệm phát mã độc IoT Botnet về mặt lý thuyết khoa học Tuy nhiên, thực tiễn sử dụng mẫu chữ ký (signature-based) phát mã độc đơn giản tiết kiệm tài nguyên hệ thống triển khai thực tế Vì vậy, nghiên cứu giải pháp tự động chuyển đổi linh hoạt kết phát mô hình đề xuất thành mẫu chữ ký cho IDS nội dung nghiên cứu mang tính ứng dụng tương lai mà nghiên cứu sinh hướng tới 24 NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN Luận án tập trung vào giải nội dung nghiên cứu đã nêu Các đóng góp có thể liệt kê kết luận án này, cụ thể bao gồm: - Đóng góp 1: Luận án xây dựng môi trường VSandbox đảm bảo mô phỏng đầy đủ yêu cầu cần thiết để mã độc IoT Botnet có thể thực thi trọn vẹn vòng đời mình Môi trường cho phép thu thập đầy đủ dữ liệu hành vi mã độc, hoạt động hoàn toàn tự động, mã nguồn mở cài đặt dễ dàng, có tính thực tiễn - Đóng góp 2: Luận án đề xuất đặc trưng đồ thị lời gọi hệ thống có hướng DSCG để cấu trúc hố cách tuần tự lời gọi hệ thống thu từ môi trường V-Sandbox đề xuất Phương pháp đề xuất có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản - Đóng góp 3: Luận án đề xuất mơ hình phát mã độc IoT Botnet mới, có khả kết hợp nhiều nguồn đặc trưng khác để có thể phát sớm mã độc IoT Botnet Mô hình đề xuất dựa việc thu thập mức tối thiểu dữ liệu động cần thiết mà có thể đưa dự báo có độ xác cao, góp phần giảm thiểu thời gian phát mã độc IoT Botnet 25 DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tất nội dung, kết nghiên cứu trình bày luận án đều đã công bố tạp chí, hội thảo uy tín ngành cơng nghệ thông tin nước quốc tế Cụ thể sau: Bài báo đăng Tạp chí khoa học 1) “Xây dựng hệ thống phát mã độc thiết bị định tuyến dựa mơ phỏng”, Tạp chí “Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin” (Journal of Science and Technology on Information security) – Ban yếu phủ (1.CS (05) 2017), 2017 2) “V-Sandbox for Dynamic Analysis IoT Botnet,” IEEE Access, vol 8, pp 145768–145786, 2020, (SCIE index, Q1), ISSN: 2169-3536, DOI: 10.1109/ACCESS.2020.3014891 3) “Iot Botnet Detection Using System Call Graphs and OneClass CNN Classification”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), vol 8, no 10, pp 937–942, Aug 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019 4) “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct 2021 (SCIE index, Q1), ISSN: 0045-7906 Bài báo đăng Kỷ yếu Hội thảo khoa học chun ngành 1) “Xây dựng mơ hình phát mã độc thiết bị định tuyến tác tử”, Kỷ yếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc Công nghệ thông tin trùn thơng, 2017 26 2) “Xây dựng mơ hình thu thập, phát công mạng sử dụng thiết bị IoT”, Kỷ yếu hội thảo quốc gia lần thứ 2: Một số vấn đề chọn lọc về an toàn an ninh thông tin (SoIS), 2017 3)“Xây dựng hệ thống phát xâm nhập mạng thiết bị IoT dân nhà thông minh”, Kỷ yếu hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2018 4) “Kết hợp CNN LSTM nâng cao hiệu phát công mạng HIDS với liệu ADFA”, Hội thảo quốc gia lần thứ 3: Một số vấn đề chọn lọc về an toàn an ninh thơng tin, 2018 In Tạp chí Thơng tin Truyền thông (số tháng 12/2018, ISSN 1859-3550) 5) “Đề xuất phương pháp phát IoT Botnet hiệu dựa lời gọi hệ thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2020 ... niệm mã độc IoT Botnet Khái niệm 1.3 Mã độc IoT Botnet mã độc có khả xâm nhập lây nhiễm thiết bị IoT hạn chế tài nguyên phục vụ mục đích xây dựng Botnet 5 1.2.2 Đặc điểm của mã độc IoT Botnet.. . nghiên cứu phát mã độc IoT Botnet đều xoay quanh hai phương pháp phân tích tĩnh phân tích động Trong đó, phân tích động phương pháp phát hành vi độc hại dựa giám sát, thu thập phân loại hành... giải pháp phát mã độc IoT Botnet thiết bị IoT hạn chế tài nguyên yêu cầu cấp thiết Mục tiêu nghiên cứu luận án Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi phát mã độc IoT Botnet

Ngày đăng: 10/10/2022, 08:16

Hình ảnh liên quan

Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

Bảng 1.1.

So sánh đặc điểm Botnet truyền thống và IoT Botnet Xem tại trang 5 của tài liệu.
2.1. Kiến trúc tổng quan mơ hình đề xuất - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

2.1..

Kiến trúc tổng quan mơ hình đề xuất Xem tại trang 9 của tài liệu.
(được minh chứng bằng số liệu tại Bảng 2.6). - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

c.

minh chứng bằng số liệu tại Bảng 2.6) Xem tại trang 12 của tài liệu.
Kết quả thử nghiệm được mô tả trong Bảng 3.2. Các đặc trưng được trích xuất từ đồ thị DSCG đạt được hiệu quả tốt đối với bài toán  phát  hiện  mã  độc  IoT  Botnet (ACC≈96.89%,  TPR≈94.97%,  FPR≈1.4%, AUC≈0.989) - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

t.

quả thử nghiệm được mô tả trong Bảng 3.2. Các đặc trưng được trích xuất từ đồ thị DSCG đạt được hiệu quả tốt đối với bài toán phát hiện mã độc IoT Botnet (ACC≈96.89%, TPR≈94.97%, FPR≈1.4%, AUC≈0.989) Xem tại trang 16 của tài liệu.
Hình 4.1 Kiến trúc của mơ hình đề xuất - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

Hình 4.1.

Kiến trúc của mơ hình đề xuất Xem tại trang 19 của tài liệu.
Bảng 4.1 Các mơ hình học máy sau khi tối ưu trên Dataset - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

Bảng 4.1.

Các mơ hình học máy sau khi tối ưu trên Dataset Xem tại trang 21 của tài liệu.