1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

26 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 146,31 KB

Nội dung

Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ …… ….***………… LÊ HẢI VIỆT NGHIÊN CỨU XÂY DỰNG HỆ THỐNG V-SANDBOX TRONG PHÂN TÍCH VÀ PHÁT HIỆN MÃ ĐỘC IOT BOTNET Chuyên ngành: Hệ thống thơng tin Mã số: 48 01 04 TĨM TẮT LUẬN ÁN TIẾN SỸ NGÀNH MÁY TÍNH Hà Nội – 2021 Cơng trình hồn thành tại: Học viện Khoa học Công nghệ Viện Hàn lâm Khoa học Công nghệ Việt Nam Người hướng dẫn khoa học 1: TS Ngô Quốc Dũng Người hướng dẫn khoa học 2: GS.TS Vũ Đức Thi Phản biện 1: … Phản biện 2: … Phản biện 3: … Luận án bảo vệ trước Hội đồng chấm luận án tiến sĩ, họp Học viện Khoa học Công nghệ - Viện Hàn lâm Khoa học Công nghệ Việt Nam vào hồi … ’, ngày … tháng … năm 202… Có thể tìm hiểu luận án tại: - Thư viện Học viện Khoa học Công nghệ - Thư viện Quốc gia Việt Nam MỞ ĐẦU Tính cấp thiết luận án Lợi dụng lô hổng bảo mật nghiêm trọng thiết bi IoT ngày phổ biến, công từ chối dich vụ quy mô lớn đã ghi nhận Khác với Botnet truyền thống, mã độc IoT Botnet có những đặc điểm khác biệt phương thức lây lan, hiệu công,… Với tình hình nêu trên, vấn đề nghiên cứu giải pháp phát mã độc IoT Botnet thiết bi IoT hạn chế tài nguyên yêu cầu cấp thiết Mục tiêu nghiên cứu luận án Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi phát mã độc IoT Botnet dựa mô hình học máy nhằm nâng cao độ xác giảm độ phức tạp phát mã độc IoT Botnet thiết bi IoT hạn chế tài nguyên theo phương pháp phân tích động Các nội dung nghiên cứu luận án - Khảo sát, nghiên cứu đặc điểm thiết bi thiết bi IoT hạn chế tài nguyên; từ đó lựa chọn phương pháp phát mã độc IoT Botnet xuất loại thiết bi - Nghiên cứu, xây dựng môi trường sandbox đảm bảo điều kiện để có thể thu thập đầy đủ dữ liệu hành vi mã độc IoT Botnet - Đề xuất đặc trưng đồ thi lời gọi hệ thống có hướng phát mã độc IoT Botnet - Nghiên cứu, đề xuất mô hình học máy kết hợp đặc trưng phù hợp có khả phát sớm mã độc IoT Botnet - Đánh giá đặc trưng mô hình học máy đã đề xuất về độ xác hiệu phát mã độc IoT Botnet dựa tập dữ liệu (dataset) đủ lớn tin cậy với nghiên cứu có liên quan để làm nổi bật đóng góp khoa học luận án CHƯƠNG TỔNG QUAN VỀ THIẾT BỊ IOT VÀ MÃ ĐỘC IOT BOTNET 1.1 Tổng quan về thiết bi IoT 1.1.1 Khái niệm thiết bi IoT Khái niệm 1.1 Thiết bị IoT thiết bị có khả kết nối, chia sẻ liệu, tài nguyên dựa trên công nghệ thơng tin truyền thơng tương thích có phát triển, tự phản ứng với thay đổi môi thường để đạt mục tiêu định 1.1.2 Phân loại thiết bi IoT Thiết bi IoT chia làm loại gồm thiết bi hạn chế tài nguyên (constrained resource) hiệu cao (high-capacity resource) [9] Luận án sử dụng khái niệm thiết bi IoT hạn chế tài nguyên sau: Khái niệm 1.2 Thiết bị IoT hạn chế tài nguyên thiết bị IoT có cấu tạo hạn chế tài nguyên sử dụng (như lực xử lý liệu, dung lượng nhớ, băng thông truyền tải liệu,…) 1.1.3 Các vấn đê bảo mật tồn tại thiết bi IoThạn chế tài nguyên Với vấn đề bảo mật xuất phát từ đặc điểm hạn chế tài nguyên thiết bi IoT, việc sử dụng mạng lưới Botnet để công từ chối dich vụ ngày phổ biến gây hậu nặng nề [19] Với đặc điểm mình, mã độc IoT Botnet đòi hỏi chế để phát ngăn chặn Vì vậy, phạm vi đối tượng mà nghiên cứu sinh lựa chọn để nghiên cứu mã độc IoT Botnet 1.2 Tổng quan về mã độc IoT Botnet 1.2.1 Khái niệm mã độc IoT Botnet Khái niệm 1.3 Mã độc IoT Botnet mã độc có khả xâm nhập lây nhiễm thiết bị IoT hạn chế tài nguyên phục vụ mục đích xây dựng Botnet 1.2.2 Đặc điểm của mã độc IoT Botnet Bảng 1.1 So sánh đặc điểm Botnet truyền thống IoT Botnet Đặc điểm Mã độc Botnet truyền thống Mã độc IoT Botnet MIPS, ARM, SPARC, x86 x64 (của Intel Kiến trúc vi xử lý, hệ PowerPC,…;OS Kernel AMD); Windows OS; điều hành Linux 2.6/3.2 Sử dụng kỹ thuật gây rối Ít sử dụng kỹ thuật Kỹ thuật gây rối phức tạp gây rối DDoS, Spam, Crypto DDoS Mục đích sử dụng mining,… Khả phát Tương đối dễ dàng phát Khó phát Vi trí lưu trữ HDD, SSD, Flash,… RAM Ngăn chặn mã độc khác Khơng Có 1.3 Quy trình phát mã độc IoT Botnet 1.3.1.Tổng quan Hầu hết nghiên cứu phát mã độc IoT Botnet đều xoay quanh hai phương pháp phân tích tĩnh phân tích động Trong đó, phân tích động phương pháp phát hành vi độc hại dựa giám sát, thu thập phân loại hành vi tương tác mẫu với mơi trường mục tiêu Phân tích động có khả loại bỏ kỹ thuật gây rối mã nguồn thường gặp phân tích tĩnh Tuy nhiên, thách thức thực phân tích động việc xây dựng mơi trường cho phép mã độc bộc lộ hồn toàn hành vi có khả giám sát đầy đủ hành vi đó Ngoài ra, việc phân tích phát hành vi độc hại lượng lớn dữ liệu hành vi thu thập thách thức Để đạt mục tiêu luận án, nghiên cứu sinh lựa chọn hướng phân tích động đề xuất phương án khắc phục điểm yếu hướng 1.3.2 Thu thập liệu Theo kết khảo sát, có nhóm dữ liệu động thu thập qua giám sát mơi trường thực thi bao gồm: Luồng mạng [32–35]; Lời gọi hệ thống [36, 37]; Tương tác với tài nguyên thiết bi [38] Môi trường thực thi có thể môi trường thực tế xây dựng dựa phần cứng thật [43, 44] hoặc IoT Sandbox [43, 46–48] Luận án hạn chế IoT Sandbox bao gồm: Nguồn dữ liệu động chưa thu thập đầy đủ; Môi trường sandbox chưa có khả để mã độc IoT Botnet có thể thực thi trọn vẹn vòng đời mình Do đó, nghiên cứu sinh xây dựng IoT Sandbox hiệu để giải những nhược điểm Chương luận án 1.3.3 Tiên xử lý liệu 1.3.3.1 Tiền xử lý liệu luồng mạng Phương pháp tiền xử lý luồng mạng thường dựa đặc điểm tần xuất hoặc tuần tự dữ liệu mạng trích xuất thành bảng dữ liệu đặc trưng KDD99 [55], NSL-KDD [56], UNSW-NB15 [41], CSECIC-IDS2018 [57] N-BaIoT [58] Đặc biệt, nhiều nghiên cứu đã công bố [65]–[68] đã chứng minh tính hiệu dữ liệu CSE-CIC- IDS2018 với 80 đặc trưng Vì vậy, phương pháp lựa chọn áp dụng cho việc tiền xử lý dữ liệu luồng mạng Chương luận án 1.3.3.2 Tiền xử lý liệu lời gọi hệ thống Tiền xử lý dữ liệu lời gọi hệ thống gồm hai xu hướng là: Áp dụng phương pháp xử lý dữ liệu có đặc trưng rời rạc để trích xuất đặc trưng [75] áp dụng phương pháp xử lý dữ liệu có đặc trưng tuần tự để trích xuất đặc trưng phục vụ trình huấn luyện mô hình phân lớp Với kết khảo sát, nghiên cứu sinh đã lựa chọn xử lý lời gọi hệ thống những dữ liệu có thuộc tính tuần tự nhằm tránh mát đặc trưng quan trọng về tính tuần tự lời gọi Do đó, để tăng hiệu phát mã độc IoT Botnet, chương nghiên cứu sinh đề xuất đặc trưng đồ thi lời gọi hệ thống có hướng có độ phức tạp thấp dễ áp dụng với những thuật toán học máy đơn giản 1.3.3.2 Tiền xử lý liệu tương tác với tài nguyên hệ thống Đối với việc thu thập dữ liệu mạng lời gọi hệ thống gặp nhiều khó khăn những thiết bi IoT cỡ nhỏ Do đó, nhiều nhà nghiên cứu [38, 44, 45] đã đề xuất phương án sử dụng dữ liệu tương tác với tài nguyên hệ thống để tóm lược tác động mã độc IoT Botnet với mục tiêu Do đó, dữ liệu tương tác với tài nguyên hệ thống đã chứng minh có khả phát mã độc IoT Botnet Đây hướng tiếp cận nghiên cứu sinh giải toán kết hợp đặc trưng để phát sớm mã độc IoT Botnet trình bày Chương luận án 1.3.4 Phân tích phát hiện 1.3.4.1 Ứng dụng học máy phát mã độc IoT Botnet Các kết nghiên cứu [38, 45, 76–78] đã cho thấy thuật toán học máy phổ biến sử dụng gồm: K-nearest neighbors, Support vector machines, Decision Tree Random Forest Ưu điểm mơ hình học máy u cầu tài nguyên, thời gian thực thi nhanh Tuy nhiên, mơ hình thường xác, tỉ lệ âm tính giả cao 1.3.4.2 Ứng dụng học sâu phát mã độc IoT Botnet Các mạng học sâu thường sử dụng phát mã độc IoT Botnet bao gồm: CNN [44]; RNN; Deep Autoencoders [58]; DNN [80] Tuy nhiên, mạng học sâu cho độ xác cao có độ phức tạp tính tốn cao, khó triển khai thực tế theo thời gian thực Vì vậy, vấn đề nghiên cứu đặt cần xây dựng mô hình phát mã độc IoT Botnet yêu cầu tài nguyên, thời gian thực thi nhanh mà đảm bảo tính xác 1.4 Kết luận Chương Trong Chương 1, nghiên cứu sinh đã trình bày tổng quan về thiết bi IoT, mã độc IoT Botnet quy trình phát mã độc IoT Botnet Theo đó, vấn đề cần giải để đạt mục tiêu nghiên cứu luận án gồm: Xây dựng môi trường IoT Sandbox cho phép mã độc IoT Botnet thực thi trọn vẹn vòng đời, có khả thu thập đầy đủ dữ liệu hành vi mã độc, có tỉ lệ thực thi thành công cao so với công cụ khác tập dữ liệu; Đề xuất phương pháp tiền xử lý dữ liệu lời gọi hệ thống có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản; Kết hợp nhiều nguồn dữ liệu đặc trưng mô hình học máy để phát sớm mã độc IoT Botnet Ba vấn đề lần lượt giải chương luận án Kết khảo sát, phân tích đánh giá thực nghiệm mô hình đề xuất Chương đã trình bày, cơng bố Tạp chí, Kỷ yếu Hội thảo uy tín nước Cụ thể là: - “Xây dựng mơ hình phát mã độc thiết bị định tuyến tác tử”, Kỷ yếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc Công nghệ thông tin truyền thơng, 2017 - “Xây dựng mơ hình thu thập, phát công mạng sử dụng thiết bị IoT”, Kỷ yếu hội thảo quốc gia lần thứ 2: Một số vấn đề chọn lọc về an tồn an ninh thơng tin (SoIS), 2017 - “Xây dựng hệ thống phát xâm nhập mạng thiết bị IoT dân nhà thông minh”, Kỷ yếu hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2018 CHƯƠNG XÂY DỰNG MÔI TRƯỜNG SANDBOX THU THẬP HIỆU QUẢ DỮ LIỆU HÀNH VI CỦA MÃ ĐỘC IOT BOTNET 2.1 Phát biểu toán Bài toán nghiên cứu Chương sau: “Xây dựng môi trường Sandbox cho phép mô đầy đủ yêu cầu cần thiết để mã độc IoT Botnet thực thi trọn vẹn vịng đời Sandbox phải cho phép thu thập đầy đủ liệu hành vi phổ biến mã độc mà cần đạt tỉ lệ mô thành công cao so với công cụ mô khác tập liệu” 2.1 Kiến trúc tởng quan mơ hình đề xuất Kiến trúc V-Sandbox đề xuất bao gồm thành phần mơ tả Hình 2.1 Mơ tả cụ thể thành phần trình bày nội dung luận án Hình 2.1 Kiến trúc V-Sandbox 2.2 Các thành phần 2.2.1.Trích x́t thơng tin thuộc tính bản của ELF (EME) Khối EME thực trích xuất thơng tin tệp ELF từ metadata gửi đến khối SCG để tạo cấu hình mơi trường phù hợp 2.2.2 Sinh cấu hình hoạt động Sandbox (SCG) Khối SCG sinh cấu hình hoạt động ban đầu (“Configuration file”) để khởi chạy môi trường SE Ngoài ra, danh sách thư viện chia sẻ thêm vào với đường dẫn mặc đinh “/lib/ ” 2.2.3 Môi trường Sandbox (SE) Bên môi môi trường SE có ảnh Debian khởi chạy với thông số từ tệp “Configuration file” Khối C&C simulator tạo kết nối giữa môi trường SE máy chủ C&C mô phỏng Các thư viện yêu cầu bổ sung tự động vào ảnh Debian Trong mơi trường SE, tích hợp tác tử giám sát hành vi tệp thực thi 2.2.4 Tiên xử lý liệu thô thu thập (RDP) Khối RDP phân tích dữ liệu thơ thu thập từ mơi trường SE để làm đầu vào cho khối SR Kết tiền xử lý dữ liệu khối RDP cập nhật vào tệp “Configuration file” 2.2.5 Tính toán khả thực thi lại Sandbox (SR) Khối SR sử dụng dữ liệu đầu khối RDP để tính tốn có cần thiết phải chạy lại môi trường Sandbox hay không nhằm thu thập thêm thông tin về hành vi tệp ELF Thuật tốn khối SR mơ tả Thuật toán 2.1 (Thuật toán RDM) 2.2.6 Giả lập máy chủ C&C (C&C simulator) Khối C&C simulator tiến hành tạo máy chủ C&C dựa tập hợp đia IP tệp “.config” Các lệnh điều khiển C&C từ sở dữ liệu lần lượt gửi đến mục tiêu chờ lệnh (được minh chứng số liệu Bảng 2.6) Bảng 2.1 So sánh chức IoT Sandbox Collection data Multi- Multi- C&C DynamicAuto System File Host CPU OS Server libraries Network calls activity perfomance report DroidScope [97] N N N N N Y Y N N AASandbox [98] N N N N N Y N N N Cuckoo [49] Y Y N N Y NF Y N Y IoTBOX [43] Y Y N N Y N N N NS Limon [52] N N N N Y Y Y N Y REMnux [48] N N N N N Y N N Y Detux[54] N N N N Y N N N Y Padawan [53] Y Y N N N Y Y N Y LiSa [51] Y Y N NF Y Y Y N Y V-Sandbox Y Y Y Y Y Y Y Y Y * N: Not yet, Y: Yes, NF: Not Fully, NS: Not Sure (no open source) 2.4 Kết luận Chương Trong chương này, luận án đã xây dựng môi trường VSandbox đảm bảo điều kiện để có thể thu thập đầy đủ dữ liệu hành vi mã độc IoT Botnet Môi trường hoạt động hoàn toàn tự động, mã nguồn mở cài đặt dễ dàng, có tính thực tiễn Ý tưởng kết thực nghiệm phương pháp đề xuất đã công bố tại: - “V-Sandbox for Dynamic Analysis IoT Botnet,” IEEE Access, vol 8, pp 145768–145786, 2020, (SCIE index, Q1), ISSN: 2169-3536, DOI: 10.1109/ACCESS.2020.3014891 - “Xây dựng hệ thống phát mã độc thiết bị định tuyến dựa mơ phỏng”, Tạp chí “Nghiên cứu Khoa học Cơng nghệ lĩnh vực An tồn thơng tin” (Journal of Science and Technology on Information security) – Ban yếu phủ (1.CS (05) 2017), 2017 CHƯƠNG ĐẶC TRƯNG ĐỒ THỊ LỜI GỌI HỆ THỐNG CÓ HƯỚNG TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET 3.1 Phát biểu tốn 3.1.1.Lựa chọn ng̀n liệu động phục vụ tiên xử lý phân tích Trong tốn phát mã độc IoT Botnet, mà nguồn dữ liệu luồng mạng thông tin chiếm dụng tài nguyên thiết bi không đạt được hiệu thì nhà nghiên cứu phải sử dụng nguồn dữ liệu động “lời gọi hệ thống” [36, 37, 73, 75, 103] Trong Chương 3, luận án đề xuất phương pháp tiền xử lý dữ liệu lời gọi hệ thống áp dụng hiệu cho toán phát mã độc IoT Botnet 3.1.2 Bài toán xây dựng đặc trưng từ lời gọi hệ thống Bài toán Chương phát biểu sau: Cho E tập hợp gồm n tập tin thực thi thiết bị IoT hạn chế tài nguyên, ký hiệu E = {e1, e2, …, en} với 𝑒𝑒 mã độc tệp lành tính Với 𝑒 = {ℎ, ℎℎ ℎ, 𝑒𝑒𝑒𝑒𝑒𝑒 𝑒𝑒, 𝑒𝑒𝑒𝑒𝑒𝑒𝑒, ℎ, 𝑒𝑒𝑒𝑒𝑒𝑒} tập hợp đặc trưng trích xuất từ lời gọi hệ thống toán phát mã độc IoT Botnet, với đặc trưng tập F cho n đặc trưng tương ứng với 𝑒𝑒𝑒 𝑒, cụ thể tồn ánh xạ { : 𝑒 → 𝑒; ↦ ( =() } Ví dụ, với đặc trưng 𝑒ℎthì tồn tập giá trị đặc trưng 𝑒ℎ(𝑒) = {1 ↦ 𝑒ℎ1 , 𝑒2 ↦ 𝑒ℎ2 , … , 𝑒𝑒 ↦ 𝑒ℎ𝑒 } Cần tìm 𝑒𝑒𝑒𝑒𝑒 ∉ ∀ |∀𝑒 ∈ 𝑒, ∃𝑒 ↦ 𝑒𝑒𝑒𝑒𝑒𝑒 mà 𝑒𝑒𝑒𝑒𝑒 hiệu 𝑒𝑒 ∈ 𝑒, định lượng số đánh giá mô hình học máy phổ biến tập liệu tương đồng Để giải toán nghiên cứu kể trên, nghiên cứu sinh đề xuất đặc trưng đồ thi lời gọi hệ thống có hướng DSCG để cấu trúc hoá cách tuần tự lời gọi hệ thống thu từ môi trường V- Sandbox Đặc trưng đề xuất có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản 3.1.3 Sơ đồ ý tương phương pháp đê xuất Phương pháp đề xuất có bước chính, cụ thể: Bước thứ 1, tệp ELF đưa vào V-Sandbox để thu thập lời gọi hệ thống Tiếp theo, thông tin dư thừa bi xóa khỏi dữ liệu lời gọi hệ thống thông qua chức tiền xử lý dữ liệu đơn giản Kết trình chuôi lời gọi hệ thống tệp ELF đầu vào đã tối giản Bước thứ 2, đồ thi lời gọi hệ thống DSCG xây dựng từ chuôi lời gọi hệ thống đã tối giản Bước thứ 3, thực tiền xử lý dữ liệu đồ thi DSCG trước đưa vào học máy phân lớp dữ liệu phương pháp nhúng đồ thi (graph embedding) để có thể trích xuất hiệu thơng tin đặc trưng đồ thi DSCG giảm chiều vector Bước thứ 4, sau trích xuất tập đặc trưng phù hợp, đặc trưng sử dụng để huấn luyện đánh giá khả phát mã độc IoT Botnet dựa thuật tốn học máy phở biến 3.2 Đờ thi lời gọi hệ thống có hướng DSCG 3.2.1.Khái niệm đờ thi lời gọi hệ thống có hướng DSCG Khái niệm 2.1 Đồ thị DSCG đồ thị có hướng ký hiệu GDSC=(V,E) đó: V tập hợp đỉnh vi đại diện cho lời gọi hệ thống có tên (name) tham số (arguments); E tập hợp cạnh ek nối từ đỉnh vi tới đỉnh vj đồ thị, E ⊆ V×V, với vịng lặp tính cạnh đồ thị 3.2.1 Xây dựng đồ thi lời gọi hệ thống có hướng DSCG Trong bước này, nghiên cứu sinh tiến hành xây dựng đồ thi DSCG cho môi tệp thực thi đầu vào dựa thông tin chuôi lời gọi hệ thống thu từ V-Sandbox Thuật toán xây dựng đồ thi DSCG trình bày mã Thuật toán 3.1 3.3 Tiền xử lý liệu đồ thi DSCG Nghiên cứu sinh sử dụng kỹ thuật nhúng đồ thi nhằm tiền xử lý dữ liệu đồ thi DSCG Các kỹ thuật nhúng đồ thi thử nghiệm luận án bao gồm FEATHER [106], LDP [107] Graph2vec [108] 3.4 Thực nghiệm đánh giá 3.4.1.Bộ liệu thực nghiệm Để đánh giá kết hoạt động đặc trưng đề xuất, tập dữ liệu chứa 8911 mẫu tệp thực thi chạy thành công từ V-Sandbox bao gồm 5023 IoT Botnet 3888 mẫu lành tính đa nền tảng kiến trúc vi xử lý (gồm MIPS, ARM, X86, PowerPC,…) đã thu thập sử dụng cho thực nghiệm 3.4.2 Triển khai thử nghiệm Nghiên cứu sinh sử dụng kich phân chia tập dữ liệu thử nghiệm sau để huấn luyện đánh giá (validation) đặc trưng đề xuất: Bảng 3.1 Kịch phân chia tập liệu thử nghiệm Kich Tập huấn luyện Loại Bashlite Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) Bashlite Mirai Lành tính (ngẫu nhiên) Mirai Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) Tập kiểm thử Số lượng 2786 727 3088 2786 1389 3088 1510 727 3088 Loại Số lượng Mirai 1510 Lành tính (ngẫu nhiên) Mã độc IoT Botnet khác Lành tính (ngẫu nhiên) 727 Bashlite 2786 Lành tính (ngẫu nhiên) 800 800 800 3.4.3.Các số đánh giá Luận án sử dụng số đánh giá gồm: Accuracy, True Positive Rate, False Positive Rate Area Under the Curve 3.4.4 Kết quả thử nghiệm đánh giá Kết thử nghiệm mô tả Bảng 3.2 Các đặc trưng trích xuất từ đồ thi DSCG đạt hiệu tốt toán phát mã độc IoT Botnet (ACC≈96.89%, TPR≈94.97%, FPR≈1.4%, AUC≈0.989) Đặc trưng hoạt động tốt với phân loại học máy đơn giản phổ biến KNN, SVM, Decision Tree, Random Forest Số chiều vector đặc trưng trích xuất từ đồ thi so với nghiên cứu đã cơng bố, góp phần làm giảm độ phức tạp tính tốn áp dụng vào mô hình phát hiện, phân lớp mã độc IoT Botnet So sánh cụ thể nghiên cứu liên quan trình bày cụ thể Bảng 3.5 Bảng 3.2 Giá trị số đánh giá mơ hình đề xuất Thuật tốn Kich Tập huấn Tập kiểm nhúng đồ ACC luyện thử thi TPR FPR AUC Graph2vec 0.9649 0.9474 Bashlite + Mã độc Mirai + Feather 0.9627 0.9453 khác + Lành tính Lành tính LDP 0.9757 0.9669 0.0087 0.9895 Graph2vec 0.9809 0.9944 Bashlite + Mã độc Mirai + khác + Lành tính Lành tính Mã độc Bashlite + khác + Lành tính Mirai Bộ phân lớp cho kết tốt SVM 0.0109 0.9923 RF 0.0109 0.9792 DT 0.0294 0.9971 RF Feather 0.9355 0.863 0.0087 0.9932 RF LDP 0.933 0.8573 0.0087 0.9632 KNN Graph2vec 0.9854 0.9896 0.0272 0.9961 RF 0.9906 0.012 0.9972 RF 0.9919 0.9924 0.0098 0.9981 RF Feather LDP 0.99 Bảng 3.3 So sánh mơ hình đề xuất nghiên cứu liên quan Kỹ thuật Số chiều Dataset/Đối tượng tiền xử lý vector đặc nghiên cứu liệu trưng NSL-KDD, Feature Alhaidari IoTPOT[40], UNSW pruning 31 [70] NB15/ IoT Botnet method Kaspersky, IoTPOT N-gram Alhanahnah [40], tự thu thập string 400 [71] thêm/ IoT Malware features (chủ yếu Botnet) IoTPOT [40]/ IoT Haralick image Karanja [72] 20 Botnet texture features Extracting IoTPOT [40]/ IoT traffic Meidan [58] 115 Botnet statistics Shobana IoTPOT [40]/ IoT N-gram, 184 [73] Botnet TFIDF Nguyen [74] IoTPOT [40], Virustotal [96], Subgraph2V 140 VirusShare [106]/ ec IoT Botnet IoTPOT [40], Mô hình đề Virustotal [96], DSCG 128 xuất VirusShare [106]/ IoT Botnet Tác giả Thuật toán ACC FPR TPR AUC phân loại áp dụng (%) (%) (%) HMM 94.67 1.88 47.86 K-means 85.20 Clustering - - - - RF 95.38 - - 0.97 Deep autoencoder - 1.7 - - RNN 98.31 - - - RF 97.00 - - 0.96 SVM, DT, Random 96,89 1.4 94.97 0.989 Forest, KNN 3.5 Kết luận Chương Trong chương này, để cấu trúc hoá cách tuần tự lời gọi hệ thống thu nghiên cứu sinh đề xuất đặc trưng đồ thi lời gọi hệ thống có hướng DSCG, có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản Ý tưởng kết thực nghiệm chương đã trình bày, công bố tại: - “Iot Botnet Detection Using System Call Graphs and One-Class CNN Classification”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), vol 8, no 10, pp 937–942, Aug 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019 - “Đề xuất phương pháp phát IoT Botnet hiệu dựa lời gọi hệ thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc Công nghệ thông tin trùn thơng, 2020 CHƯƠNG MƠ HÌNH HỌC MÁY CỘNG TÁC PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET 4.1 Phát biểu toán 4.1.1 Vấn đê phát hiện sớm mã độc IoT Botnet Khái niệm 4.1 Phát sớm khả xác định tệp thực thi lành tính mã độc dựa việc thu thập mức tối thiểu liệu cần thiết thu thập q trình phân tích động 4.1.2 Mơ hình học máy cộng tác phát hiện sớm mã độc Học cộng tác (Collaborative Learning) phân loại thành ba nhóm gồm: Hợp sớm (early fusion); Hợp muộn (late fusion); Hợp trung gian (Intermediate fusion) Môi phương pháp học máy cộng tác đều có những ưu nhược điểm riêng Tuy nhiên, với mục đích phát sớm mã độc IoT Botnet, mô hình hợp muộn phù hợp cho việc kết hợp đặc trưng đầu vào khác mã độc tối ưu hóa thời gian phát Thông qua nghiên cứu lý thuyết thực nghiệm, nghiên cứu sinh đã chứng minh nhận đinh 4.1.4 Bài toán phát hiện sớm mã độc IoT Botnet Bài toán nghiên cứu chương phát biểu sau: “Xây dựng mơ hình học máy cộng tác nâng cao hiệu phát mã độc IoT Botnet với thuật toán học máy đơn giản, tập trung vào phát sớm dựa việc thu thập mức tối thiểu liệu cần thiết thu từ phân tích động” 4.2 Mơ hình đề xuất 4.2.1 Kiến trúc tổng quan Điểm khác biệt phương pháp so với phương pháp có cần sử dụng lượng tối thiểu dữ liệu thu thập ban đầu từ V-Sandbox để có thể đưa kết phát với độ xác cao Từ đó, mơ hình có khả phát sớm mã độc IoT Botnet Hình 4.1 Kiến trúc mơ hình đề xuất Kiến trúc đề xuất mô tả Hình 4.1, có thành phần bao gồm: Mơi trường Sandbox; Khối tiền xử lý dữ liệu; Khối chuẩn hóa dữ liệu tiền xử lý; Khối trích chọn đặc trưng phù hợp; Bộ phân lớp học máy; Hàm hợp nhất; 4.2.2.Môi trường Sandbox (SC) Với hiệu đã chứng minh, để thu thập hiệu thông tin hành vi mã độc IoT Botnet, nghiên cứu sinh đã chọn VSandbox làm môi trường thực thi tệp ELF đầu vào 4.2.3 Tiên xử lý liệu (PPDC) Để phát sớm mã độc IoT Botnet hiệu quả, cần phải lựa chọn ngưỡng độ dài tối thiểu dữ liệu để đưa vào phân loại Với kết số liệu thống kê từ Dataset, nghiên cứu sinh lựa chọn ngưỡng tối thiểu 300 lời gọi hệ thống, 20 hành vi thay đổi tài nguyên thiết bi 50 gói tin luồng mạng đầu tiên thu nhận từ V-Sandbox để làm đầu vào cho mơ hình học máy 4.2.4.Chuẩn hóa liệu tiên xử lý (DNC) - Đối với dữ liệu lời gọi hệ thống: sử dụng đồ thi lời gọi hệ thống có hướng DSCG - Đối với dữ liệu luồng mạng: sử dụng đặc trưng dataset CSECIC-IDS2018 [139] - Đối với dữ liệu sử dụng tài nguyên thiết bi: sử dụng đặc trưng đầu V-Sandbox [105] 4.2.5.Trích chọn đặc trưng phù hợp Nghiên cứu sinh đã xem xét số phương pháp trích chọn đặc trưng Filter, Wrapper, Embedded Ensemble để trích chọn đặc trưng phù hợp Dựa kết khảo sát, nghiên cứu sinh chọn Wrapper 4.2.6.Bộ phân lớp học máy (MLC) Nghiên cứu sinh tiến hành thử nghiệm thuật tốn học máy đơn lẻ phở biến (như KNN, SVM, Decision Tree, Ramdom Forest) để lựa chọn phương án tối ưu 4.2.7.Hàm hợp nhất (FC) Để có thể kết hợp kết dự đoán phân lớp học máy khác nghiên cứu sinh thử nghiệm hàm hợp Voting Logistic regression cho vấn đề mình 4.3 Thực nghiệm đánh giá 4.3.1 Tập mẫu thực nghiệm Để đánh giá kết hoạt động mô hình đề xuất, tập dữ liệu chứa 8911 mẫu bao gồm 5023 IoT Botnet 3888 mẫu lành tính đã thu thập sử dụng cho thực nghiệm 4.3.2.Triển khai thử nghiệm Các thuật tốn học máy phở biến KNN, Decision Tree, Random Forest, SVM đã cài đặt thử nghiệm (với tham số chi tiết Bảng 4.3) cho đặc trưng đầu vào mô hình đề xuất 4.3.3 Kết quả thử nghiệm Bảng 4.1 Các mơ hình học máy sau tối ưu Dataset Model Network (k-NN) Performance (Random Forest) System-Call (k-NN) Mô hình cộng tác ACC ROC AUC FPR Malware Precision Recall Benign F1 Precision Recall F1 0.8978 0.8901 0.1270 0.9500 0.9071 0.9280 0.7795 0.8730 0.8236 0.9904 0.9846 0.0282 0.9895 0.9973 0.9934 0.9928 0.9718 0.9822 0.9822 0.9715 0.0370 0.9860 0.9801 0.9830 0.9479 0.9630 0.9554 0.9937 0.9896 0.0194 0.9927 0.9987 0.9957 0.9964 0.9806 0.9884 4.3.4.Đánh giá kết quả thử nghiệm Từ kết đánh giá Dataset cho thấy mô hình học máy cộng tác đề xuất cho kết có độ xác cao với ACC = 99.37%, AUC = 0.9896 Thời gian để mơ hình đưa dự đốn xấp xỉ giây, nhanh so với nghiên cứu đã công bố về phát sớm mã độc thiết bi IoT Ngồi ra, mơ hình đề xuất sử dụng phần nhỏ dữ liệu hành vi thực thi mã độc đã có thể tạo phát xác mà khơng cần đợi mã độc thực đầy đủ hành vi Đây đóng góp nổi bật mô hình 4.4 Kết luận Chương Trong chương này, nghiên cứu sinh đã đề xuất mô hình học máy cộng tác (CMED) để phát sớm hiệu IoT Botnet dựa việc thu thập mức tối thiểu dữ liệu động cần thiết Hiệu mô hình đề xuất đã chứng minh thông qua kết thử nghiệm dữ liệu với 8911 mẫu Ý tưởng kết thực nghiệm phương pháp đề xuất chương đã công bố tại: - “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct 2021 (SCIE index, Q1), ISSN: 0045-7906 KẾT LUẬN Trong luận án này, nghiên cứu sinh tập trung tìm hiểu đặc điểm khác biệt mã độc IoT Botnet với loại mã độc truyền thống, từ đó làm sở nghiên cứu, xây dựng mơ hình học máy nhằm nâng cao độ xác giảm độ phức tạp phát mã độc IoT Botnet thiết bi IoT hạn chế tài nguyên theo phương pháp phân tích động Theo đó, nội dung luận án đã tập trung nghiên cứu phương pháp phát mã độc IoT Botnet, đánh giá ưu nhược điểm phương pháp đã có Từ đó, luận án đưa giải pháp xây dựng mô hình học máy có độ xác cao độ phức tạp thấp phát mã độc IoT Botnet Phương pháp đề xuất luận án có tính thực tiễn có thể triển khai mô hình ứng dụng tích hợp tác tử vào thiết bi IoT hạn chế tài nguyên để thu thập gửi thông tin hành vi hoạt động thiết bi về phân hệ tiền xử lý trung tâm làm đầu vào cho phân hệ phân tích, phát hiện, cảnh báo mã độc IoT Botnet Tại đây, phương pháp trích xuất đặc trưng đồ thi DSCG mô hình học máy cộng tác phát sớm mã độc IoT Botnet nghiên cứu sinh đề xuất áp dụng để phân loại tệp lành tính mã độc Đây những nội dung khuôn khổ đề tài nghiên cứu ứng dụng phát triển công nghệ cấp quốc gia “Nghiên cứu xây dựng hệ thống tự động phát hiện, cảnh báo ngăn chặn công mạng nhằm vào thiết bị IoT cỡ nhỏ sử dụng mạng lưới tác tử thông minh” (có mã số KC-4.0-05/19-25) mà nghiên cứu sinh thành viên tham gia Mặc dù đã đạt kết nghiên cứu quan trọng về lý luận khoa học thực tiễn phát mã độc IoT Botnet luận án còn số vấn đề cần nghiên cứu, cải tiến tương lai gồm: Phương pháp đề xuất luận án thử nghiệm với dữ liệu chủ yếu chứa mã độc IoT Botnet, chưa bao gồm loại mã độc khác Trong thời gian gần đây, số biến thể loại mã độc Ransomware, Trojan, Spyware,… phát triển để có thể lây lan thiết bi IoT hạn chế tài nguyên Đây nguy đe dọa an ninh, an tồn thơng tin tiềm tàng cần phải nghiên cứu, phát Do đó, cần phải thử nghiệm cải tiến phương pháp đề xuất luận án với những loại mã độc thời gian tới Tổng thời gian khởi tạo, thực thi, giám sát tạo báo cáo hành vi mẫu đầu vào môi trường V-Sandbox còn dài, dẫn tới hạn chế về mặt thời gian giải pháp phát sớm mã độc IoT Botnet Ngoải ra, tỉ lệ chạy thành công mẫu tập dữ liệu VSandbox mức 80.5% Cần phải nghiên cứu, cải tiến để tăng tỉ lệ thực thi thành công mẫu còn lại tập dữ liệu đã thu thập Trong tương lai, nghiên cứu sinh tiếp tục hoàn thiện để tối ưu VSandbox để khắc phục những nhược điểm Việc sử dụng phân tích động phương pháp đề xuất đã đạt hiệu cao thực nghiệm phát mã độc IoT Botnet về mặt lý thuyết khoa học Tuy nhiên, thực tiễn thì sử dụng mẫu chữ ký (signature-based) phát mã độc đơn giản tiết kiệm tài nguyên hệ thống triển khai thực tế Vì vậy, nghiên cứu giải pháp tự động chuyển đổi linh hoạt kết phát mô hình đề xuất thành mẫu chữ ký cho IDS nội dung nghiên cứu mang tính ứng dụng tương lai mà nghiên cứu sinh hướng tới NHỮNG ĐÓNG GÓP MỚI CỦA LUẬN ÁN Luận án tập trung vào giải nội dung nghiên cứu đã nêu Các đóng góp có thể liệt kê kết luận án này, cụ thể bao gồm: - Đóng góp 1: Luận án xây dựng môi trường V- Sandbox đảm bảo mô phỏng đầy đủ yêu cầu cần thiết để mã độc IoT Botnet có thể thực thi trọn vẹn vòng đời mình Môi trường cho phép thu thập đầy đủ dữ liệu hành vi mã độc, hoạt động hoàn toàn tự động, mã nguồn mở cài đặt dễ dàng, có tính thực tiễn - Đóng góp 2: Luận án đề xuất đặc trưng đồ thi lời gọi hệ thống có hướng DSCG để cấu trúc hoá cách tuần tự lời gọi hệ thống thu từ môi trường V-Sandbox đề xuất Phương pháp đề xuất có độ phức tạp thấp, dễ áp dụng với những thuật toán học máy đơn giản - Đóng góp 3: Luận án đề xuất mô hình phát mã độc IoT Botnet mới, có khả kết hợp nhiều nguồn đặc trưng khác để có thể phát sớm mã độc IoT Botnet Mô hình đề xuất dựa việc thu thập mức tối thiểu dữ liệu động cần thiết mà có thể đưa dự báo có độ xác cao, góp phần giảm thiểu thời gian phát mã độc IoT Botnet DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tất nội dung, kết nghiên cứu trình bày luận án đều đã công bố tạp chí, hội thảo uy tín ngành cơng nghệ thông tin nước quốc tế Cụ thể sau: Bài báo đăng Tạp chí khoa học 1) “Xây dựng hệ thống phát mã độc thiết bị định tuyến dựa mơ phỏng”, Tạp chí “Nghiên cứu Khoa học Công nghệ lĩnh vực An tồn thơng tin” (Journal of Science and Technology on Information security) – Ban yếu phủ (1.CS (05) 2017), 2017 2) “V-Sandbox for Dynamic Analysis IoT Botnet,” IEEE Access, vol 8, pp 145768–145786, 2020, (SCIE index, Q1), ISSN: 2169-3536, DOI: 10.1109/ACCESS.2020.3014891 3) “Iot Botnet Detection Using System Call Graphs and One- Class CNN Classification”, International Journal of Innovative Technology and Exploring Engineering (IJITEE), vol 8, no 10, pp 937–942, Aug 2019, (SCOPUS index), ISSN: 2278-3075, DOI: 10.35940/ijitee.J9091.0881019 4) “A collaborative approach to early detection of IoT Botnet” Computers & Electrical Engineering Journal, Oct 2021 (SCIE index, Q1), ISSN: 0045-7906 Bài báo đăng Kỷ yếu Hội thảo khoa học chun ngành 1) “Xây dựng mơ hình phát mã độc thiết bị định tuyến tác tử”, Kỷ yếu hội thảo quốc gia lần thứ 20: Một số vấn đề chọn lọc Công nghệ thông tin trùn thơng, 2017 2) “Xây dựng mơ hình thu thập, phát công mạng sử dụng thiết bị IoT”, Kỷ yếu hội thảo quốc gia lần thứ 2: Một số vấn đề chọn lọc về an toàn an ninh thông tin (SoIS), 2017 3) “Xây dựng hệ thống phát xâm nhập mạng thiết bị IoT dân nhà thông minh”, Kỷ yếu hội thảo quốc gia lần thứ 21: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2018 4) “Kết hợp CNN LSTM nâng cao hiệu phát công mạng HIDS với liệu ADFA”, Hội thảo quốc gia lần thứ 3: Một số vấn đề chọn lọc về an toàn an ninh thơng tin, 2018 In Tạp chí Thơng tin Truyền thông (số tháng 12/2018, ISSN 1859-3550) 5) “Đề xuất phương pháp phát IoT Botnet hiệu dựa lời gọi hệ thống”, Kỷ yếu hội thảo quốc gia lần thứ 23: Một số vấn đề chọn lọc Công nghệ thông tin truyền thông, 2020 ... giải pháp phát mã độc IoT Botnet thiết bi IoT hạn chế tài nguyên yêu cầu cấp thiết Mục tiêu nghiên cứu luận án Nghiên cứu, xây dựng hệ thống thu thập dữ liệu hành vi phát mã độc IoT Botnet.. . nghiên cứu phát mã độc IoT Botnet đều xoay quanh hai phương pháp phân tích tĩnh phân tích động Trong đó, phân tích động phương pháp phát hành vi độc hại dựa giám sát, thu thập phân loại hành vi... hiện sớm mã độc IoT Botnet Bài toán nghiên cứu chương phát biểu sau: ? ?Xây dựng mơ hình học máy cộng tác nâng cao hiệu phát mã độc IoT Botnet với thuật toán học máy đơn giản, tập trung vào phát

Ngày đăng: 10/10/2022, 08:16

HÌNH ẢNH LIÊN QUAN

Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
Bảng 1.1 So sánh đặc điểm Botnet truyền thống và IoT Botnet (Trang 5)
2.1. Kiến trúc tởng quan mơ hình đề xuất - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
2.1. Kiến trúc tởng quan mơ hình đề xuất (Trang 9)
(được minh chứng bằng số liệu tại Bảng 2.6). - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
c minh chứng bằng số liệu tại Bảng 2.6) (Trang 12)
lời gọi hệ thống thu được từ V-Sandbox. Thuật toán xây dựng đồ thi DSCG được trình bày bằng mã giả như trong Thuật toán 3.1. - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
l ời gọi hệ thống thu được từ V-Sandbox. Thuật toán xây dựng đồ thi DSCG được trình bày bằng mã giả như trong Thuật toán 3.1 (Trang 15)
Bảng 3.1 Kịch bản phân chia tập dữ liệu thử nghiệm - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
Bảng 3.1 Kịch bản phân chia tập dữ liệu thử nghiệm (Trang 15)
Kết quả thử nghiệm được mô tả trong Bảng 3.2. Các đặc trưng được trích xuất từ đồ thi DSCG đạt được hiệu quả tốt đối với bài toán phát hiện mã độc IoT Botnet (ACC≈96.89%, TPR≈94.97%, - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
t quả thử nghiệm được mô tả trong Bảng 3.2. Các đặc trưng được trích xuất từ đồ thi DSCG đạt được hiệu quả tốt đối với bài toán phát hiện mã độc IoT Botnet (ACC≈96.89%, TPR≈94.97%, (Trang 16)
Bảng 3.3 So sánh mơ hình đề xuất và các nghiên cứu liên quan - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
Bảng 3.3 So sánh mơ hình đề xuất và các nghiên cứu liên quan (Trang 17)
Hình 4.1 Kiến trúc của mơ hình đề xuất - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
Hình 4.1 Kiến trúc của mơ hình đề xuất (Trang 19)
Bảng 4.1 Các mơ hình học máy sau khi tối ưu trên Dataset - Tóm tắt: Nghiên cứu xây dựng hệ thống V-Sandbox trong phân tích và phát hiện mã độc IoT Botnet.
Bảng 4.1 Các mơ hình học máy sau khi tối ưu trên Dataset (Trang 21)
w