Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,81 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN VIỆT DŨNG PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET TRÊN CÁC THIẾT BỊ IOT CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN MÃ SỐ: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS PHẠM VĂN CƯỜNG HÀ NỘI – 2021 Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS TS Phạm Văn Cường Phản biện 1: TS Hoàng Xuân Dậu Phản biện 2: PGS TS Nguyễn Hà Nam Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: 08 30 ngày 28 tháng năm 2021 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Viễn thơng MỞ ĐẦU Tính cấp thiết đề tài Với gia tăng không ngừng số lượng thiết bị IoT, Cisco dự đoán số lượng thiết bị IoT kết nối vào Internet 50 tỉ thiết bị vào năm 2020 Cùng với thực trạng số lượng tăng lên nhanh chóng theo năm, những vấn đề bảo mật cho thiết bị IoT nhà nghiên cứu những năm gần Với đặc điểm bị hạn chế tài nguyên, thiết bị IoT dân dụng thường có mức độ bảo mật thấp hoặc khơng tồn chế bảo mật Do thiếu biện pháp bảo mật phù hợp, thiết bị IoT dân dụng trở thành mục tiêu công phổ biến, tạo nên mạng lưới IoT Botnet quy mô lớn sử dụng vào công mạng DDoS Tiêu biểu, năm 2016 những kẻ công xâm nhập thành công 600.000 thiết bị IoT dân sự, tạo mạng lưới IoT Botnet thực công DDoS với lưu lượng mạng đạt mức 1.1 Tbps Các giải pháp phát mã độc IoT Botnet tập trung vào việc phân tích chuỗi dữ liệu hành vi đầy đủ (như luồng mạng, chuỗi lời gọi hệ thống,…) mã độc để phát dấu hiệu độc hại tác động tới hệ thống thông tin Tuy nhiên, chuỗi dữ liệu hành vi đầy đủ sinh mã độc thực thành công hành vi độc hại tác động tới hệ thống Điều dẫn tới hạn chế khả giảm thiểu tác động mã độc IoT Botnet hệ thống thông tin Để giải vấn đề này, số nhà nghiên cứu đưa ý tưởng phát mã độc trước kịp thực đầy đủ hành vi (phát sớm) dựa mơ hình học máy, hướng nghiên cứu khả thi hiệu để nâng cao khả phòng chống mã độc Với mục đích đưa những tiến cơng nghệ ứng dụng nghiên cứu vào phục vụ thực tế sống, luận văn với đề tài “Phát sớm mã độc IoT Botnet thiết bị IoT” tiến hành nghiên cứu, thực nghiệm đưa mơ hình học máy phù hợp để phát sớm IoT Botnet Mục tiêu nghiên cứu Nghiên cứu phương pháp phát sớm mã độc IoT Botnet dựa công nghệ học máy kết hợp nhiều nguồn dữ liệu hành vi mã độc Đối tượng phạm vi nghiên cứu - Đối tượng nghiên cứu đề tài: Luận văn tập trung vào nghiên cứu toán phát mã độc IoT Botnet thực thiết bị IoT - Phạm vi nghiên cứu đề tài: Trong đó, phạm vi nghiên cứu tập trung vào phân loại, phát dòng mã độc Botnet thiết bị IoT tập trung vào dòng thiết bị IoT dân dụng có tài nguyên hạn chế phổ biến Router, IP Camera, Smart TV Box, Smart phone,… Nội dung phương pháp nghiên cứu - Nội dung nghiên cứu: Để đạt mục tiêu đề trên, luận văn tập trung nghiên cứu, phân tích, đánh giá nội dung sau: + Nghiên cứu, tìm hiểu đặc điểm, phát triển mã độc IoT Botnet toán phát mã độc IoT Botnet + Khảo sát, phân tích, đánh giá phương pháp phát mã độc IoT Botnet phương pháp phát sớm mã độc dựa công nghệ học máy + Ứng dụng, thử nghiệm mơ hình học máy phù hợp để phát sớm IoT Botnet + Phân tích đánh giá mơ hình lựa chọn tập dữ liệu có sẵn - Phương pháp nghiên cứu Phương pháp nghiên cứu lý thuyết kết hợp với nghiên cứu thử nghiệm + Nghiên cứu lý thuyết: Luận văn thực nghiên cứu, khảo sát, tổng hợp, đánh giá cơng trình nghiên cứu liên quan ngồi nước để phân tích những vấn đề chưa giải quyết, những vấn đề còn tồn phương pháp phát mã độc IoT Botnet + Nghiên cứu thực nghiệm: Tiến hành thu thập, phân tích, tiền xử lý tập dữ liệu sử dụng cho trình thực nghiệm, ứng dụng vào mơ hình học máy để đánh giá độ hiệu mơ hình, so sánh kết với nghiên cứu có để nâng cao hiệu phát mã độc IoT Botnet Bố cục luận văn Luận văn gồm phần mở đầu, chương, phần kết luận kiến nghị, tài liệu tham khảo với 66 trang, có 27 hình vẽ, 10 bảng 50 tài liệu tham khảo Cụ thể: Trình bày tính cấp thiết cấu trúc luận án Chương 1: Tổng quan phát sớm mã độc thiết bị iot Chương 2: Xây dựng mô hình học máy phát sớm mã độc iot botnet Chương 3: Thực nghiệm đánh giá Kết luận kiến nghị Danh mục tài liệu tham khảo CHƯƠNG 1: TỔNG QUAN VỀ PHÁT HIỆN SỚM MÃ ĐỘC TRÊN CÁC THIẾT BỊ IOT 1.1 Tổng quan thiết bị IoT IoT Botnet Cụm từ IoT (Internet of Things - Vạn vật kết nối Internet) lần đầu sử dụng Kevin Ashton nhà khoa học sáng lập Trung tâm Auto-ID Viện công nghệ Massachusets (MIT - Massachusetts Institute of Technology) vào năm 1999 Theo định nghĩa Kevin Ashton, “Internet of Things” “tập hợp thiết bị cảm biến điều khiển nhúng kết nối thơng qua mơi trường mạng (có dây không dây)” Với định nghĩa Kevin Ashton, thuật ngữ thiết bị “IoT” sử dụng để thiết bị cảm biến điều khiển nhúng điện tử Liên minh Viễn thông giới (ITU – International Telecommunication Union) đưa khái niêm “IoT”, khái niệm góp phần giúp làm sáng tỏ IoT Theo ITU thì: “Internet of Things sở hạ tầng toàn cầu xã hội thơng tin, cho phép dịch vụ thơng minh hoạt động cách kết nối vật thể bao gồm vật lý ảo dựa công nghệ thơng tin truyền thơng phù hợp có phát triển” Với khái niệm nêu trên, IoT nhìn nhận viễn cảnh rộng tầm nhìn với những hàm ý công nghệ xã hội Thông qua việc khai thác nhận dạng, thu thập, xử lý dữ liệu khả truyền thông, IoT tận dụng thứ để hỗ trợ cho loại ứng dụng, trì riêng tư cần thiết Theo khái niệm ITU, vạn vật (Things) đối tượng giới thực (vật chất tồn tại) hoặc giới thơng tin (thực thể ảo), xác định tích hợp vào mạng thơng tin, truyền thơng có phát triển Vạn vật (Things) định nghĩa phân thành hai loại chính: - Physical things: Vật thể tồn giới vật chất có khả cảm nhận, hoạt động tương tác trở lại môi trường kết nối với thực thể khác Các thiết bị đại diện cho loại kể đến như: cảm biến nhiệt độ, rô-bốt công nghiệp, phần cứng thiết bị nhúng gia dụng - Virtual things: Những thực thể ảo (không cảm nhận vật lý được) tồn giới thơng tin có khả lưu trữ, xử lý truy cập dữ liệu Một số ví dụ Virtual things kể đến như: nội dung đa phương tiện, phần mềm ứng dụng đại diện dịch vụ vật thể vật lý (tài khoản ảo) Theo đó, ITU đưa khái niệm thiết bị IoT “các thiết bị có khả kết nối cảm nhận thay đổi môi trường, tương tác qua cấu truyền động, thu thập, lưu trữ xử lý liệu” Từ khái niệm thiết bị IoT cho thấy rằng mơi trường IoT, có nhiều loại thiết bị IoT khác như: điện thoại di động thơng minh, máy tính cá nhân, đồng hồ thơng minh, smart TV, máy in, máy quét, IP Camera, thiết bị định tuyến, thiết bị gia dụng thơng minh có kết nối Internet, Các thiết bị IoT có mặt nơi, hầu hết ngành nghề, mặt đời sống người y tế, quản lý dây truyền sản xuất, quản lý lượng, hệ thống giao thơng thơng minh… Ngồi tiện ích đem lại có mặt nhiều mặt sống, ngành nghề thiết bị IoT dự báo đóng góp lớn vào kinh tế tồn cầu Theo báo cáo công ty IoT Analytics (nhà cung cấp hàng đầu tìm hiểu thị trường cho IoT có trụ sở Đức) giá trị kinh tế toàn cầu IoT mang lại từ 2.700 tỷ USD 6.700 tỷ USD trước năm 2025 Để đưa giải pháp phát mã độc botnet phù hợp cho thiết bị mà luận văn hướng tới, luận văn sâu làm rõ những đặc điểm thiết bị IoT cỡ nhỏ bao gồm: - Mơi trường hoạt động chịu điều khiển trực tiếp người: Các thiết bị IoT có tính di động tự hành cao theo kịch hoạt động cài đặt sẵn, cần điều khiển trực tiếp người (ví dụ: Thiết bị định tuyến, IP Camera, rô-bốt hút bụi gia đình,…) - Tính đa tảng phần cứng phần mềm: Khác với thiết bị điện tử truyền thống máy tính đa phần sử dụng vi xử lý kiến trúc i386 thiết bị IoT cỡ nhỏ thường sử dụng nhiều loại kiến trúc vi xử lý tiêu thụ lượng thấp như: MIPS, ARM, PowerPC, SPARC, MIPSEL, - Tài nguyên phần cứng hạn chế: Các thiết bị IoT cỡ nhỏ thường trang bị phần cứng hạn chế tài nguyên dung lượng nhớ ít, lực tính tốn nhỏ, lượng pin dự trữ cho thời gian hoạt động ngắn - Trạng thái động: Trạng thái thiết bị IoT thay đổi linh hoạt, ví dụ lúc hoạt động ngủ chờ, lúc kết nối ngắt kết nối phụ thuộc vào hoàn cảnh thiết bị gồm vị trí, chức tốc độ di chuyển - Khả kết nối đa kênh: Các thiết bị IoT có khả kết nối với thiết bị hạ tầng truyền dẫn theo nhiều giao thức khác Wifi, Bluetooth, Zigbee, Z-wave, LoRa, Lifi, 1.2 Tổng quan mã độc IoT Botnet Mặc dù có nhiều loại mã độc cơng, lây nhiễm thiết IoT, xu hướng mã độc botnet xem phổ biến nhất, gây hậu lớn thiết bị IoT Các hoạt động mã độc IoT botnet gần cho thấy tội phạm mạng chuyển hướng lợi dụng thiết bị IoT để thực công mạng với số lượng lớn thiết bị với băng thông cực lớn gây gián đoạn mạng Internet Hiện nay, số lượng mã độc đời với mục tiêu lây nhiễm, công thiết bị IoT cỡ nhỏ ngày tăng, cụ thể theo báo cáo hãng Kaspersky số lượng mã độc thiết bị IoT năm 2018 tăng gấp 37 lần so với năm 2016, Một cách tổng quan, mã độc (tiếng anh Malicious Software/Code) chương trình hoặc đoạn mã bí mật chèn vào hệ thống người dùng nhằm gây hại hệ thống máy tính, hệ thống mạng, thơng tin dữ liệu, … tính tin cậy, tính bảo mật, tính tồn vẹn hoặc tính sẵn sàng Trong loại mã độc xuất thiết bị IoT cỡ nhỏ, phổ biến mã độc IoT Botnet (theo thống kê Kaspersky) Tác giả Pamela cộng đưa khái niệm IoT Botnet “ mạng lưới thiết bị IoT cỡ nhỏ bị xâm nhập lây nhiễm mã độc phục vụ xây dựng Botnet” Theo khái niệm kết hợp với phạm vi nghiên cứu luận văn, mã độc IoT Botnet hiểu loại mã độc cho phép xây dựng mạng lưới Botnet dựa thiết bị IoT cỡ nhỏ Thông qua việc khảo sát loại mã độc IoT Botnet xuất đến nay, luân văn tổng quát lại mã độc IoT Botnet chứa hầu hết thành phần thành phần hỗ trợ gồm: - Mã độc botnet thực công DDoS nhận lệnh; - Máy chủ C&C để điều khiển mã độc botnet; Bộ Scanner để dò quét thiết bị IoT bị khai thác; - Máy chủ Reporting có chức thu thập dữ liệu dò quét mã độc botnet hoặc Scanner; Bộ Loaders sử dụng để đăng nhập vào thiết bị IoT bị khai thác, thị cho chúng tải tập tin thực thi mã độc có kiến trúc phù hợp; - Máy chủ phân phối mã độc xác định vị trí lưu trữ mà độc tải thiết bị IoT bị lây nhiễm Trên thực tế số mạng Botnet có thêm hoặc giảm bớt số thành phần cấu trúc, xong thành phần thực đầy đủ chức luận văn trình bày bên Với những thành phần đó, chế hoạt động chung cho hầu hết mã độc IoT botnet sau Bước 1: Mã độc dò quét dải địa IP ngẫu nhiên thông qua TCP cổng 23/2323 để tìm kiếm thiết bị IoT có lỡ hổng bảo mật để xâm nhập, lây nhiễm mở rộng mạng lưới máy tính botnet Bước 2: Sau dò quét thiết bị có khả xâm nhập thu thập thông tin để xác thực leo thang đặc quyền thiết bị mã độc gửi những thông tin đặc trưng thiết bị máy chủ Report thông qua cổng dịch vụ khác Bước 3: Mã độc nhận lệnh từ C&C để kiểm tra thông tin đặc tả thiết bị địa IP, kiến trúc phần cứng (MIPS, ARM, PowerPC, …) Bước 4: Sau máy chủ C&C tiếp nhận thơng tin đặc tả thiết bị lệnh cho máy chủ Loader lựa chọn tập tin thực thi mã độc phù hợp Bước 5: Máy chủ Loader gửi tới thiết bị muốn xâm nhập tập tin mã độc phù hợp Ngay sau tập tin mã độc tải thực thi thiết bị mã độc xóa tập tin thực thi chạy nhớ RAM để tránh bị phát hiện, đồng thời mã độc tắt dịch vụ cho phép truy cập từ xa Telnet, SSH, vô hiệu hóa chức tường lửa Bước 7: Thơng qua C&C kẻ cơng lệnh cho mã độc thực công từ chối dịch vụ phân tán bằng nhiều kỹ thuật UDP flood, SYN flood, GRE IP flood… tới mục tiêu cụ thể Cũng giống loại mã độc truyền thống, tiến hóa mã độc IoT Botnet gia tăng theo thay đổi công nghệ điện toán, phương thức trao đổi dữ liệu Internet Sự phức tạp khả phá hoại mã độc tăng lên kể từ công nghệ IoT đời với hàng ngàn, hàng tỷ thiết bị IoT kết nối tới mạng Internet Qua khảo sát cho thấy, loại mã độc IoT Botnet phát triển, tiến hoá thường xuyên với cấu trúc tinh vi khả bảo vệ phức tạp Tuy nhiên, phần khảo sát loại mã độc chưa đầy đủ tội phạm mạng thường xuyên sửa đổi cập nhật loại mã độc biết để tạo loại mã độc mới, khai thác nhiều loại thiết bị IoT 1.3 Các nghiên cứu liên quan phát sớm mã độc Các phương pháp phát mã độc IoT botnet chia thành hướng tiếp cận như: (1) phương pháp dựa chữ ký (signature-based) (2) phương pháp dựa hành vi (behavior-based) Các phương pháp dựa chữ ký sử dụng ch̃i byte mã băm, trích xuất từ mã độc IoT botnet biết chữ ký đại diện đặc trưng cho mỗi tập tin nhận dạng mã độc Phương pháp dựa hành vi yêu cầu thực thi tập tin mơi trường có giám sát hành vi ghi nhận kiểm tra làm cứ để phát mã độc Ngày với xu hướng mã độc thiết bị IoT đặc biệt mà mã độc IoT botnet tăng trưởng không ngừng số lượng biến thể, kéo theo dữ liệu chữ ký hành vi mã độc tăng với số lượng lớn khiến việc xử lý, phân tích thực bằng người trở nên khó khăn Nhằm khắc phục vấn đề trên, nhà nghiên cứu tiếp cận phương pháp phát mã độc dựa học máy Phương pháp dựa học máy không sử dụng chữ ký hay hành vi mã độc cụ thể mà sử dụng đặc trưng đặc trưng xem thành phần lõi phát dựa học máy Thông qua việc khảo sát thấy, tất hướng tiếp cận nhóm thành phương pháp phân tích tĩnh (static) phân tích động (dynamic) 1.3.1 Phân tích tĩnh Phân tích tĩnh phương pháp phân tích nội dung mã nguồn mà khơng cần thực thi tệp tin để phát hành vi nghi vấn Phương pháp phân tích tĩnh cho phép chi tiết hóa tồn luồng điều khiển (Control Flow Graph – CFG) luồng dữ liệu (Data Flow Graph – DFG) thông qua công cụ dịch ngược mã nguồn IDA Pro, BinDiff… để phát mã độc bằng phân tích đặc trưng mã thực thi (Opcode), lời gọi hàm hệ thống (API calls) hay chuỗi ký tự có nghĩa mã nguồn (Printable Strings Information – PSI) Phương pháp cho phép phân tích chi tiết tệp tin đưa khả kích hoạt mã độc Với những nghiên cứu khảo sát, phân tích tĩnh đem lại kết khả quan bảo mật IoT nói chung phát mã độc IoT nói riêng Tuy nhiên, phân tích tĩnh tồn nhiều hạn chế cho việc phân tích, phát mã độc IoT Botnet như: Khó áp dụng mã độc sử dụng kỹ thuật gây rối (obfuscation) hoặc đóng gói (pack) phức tạp hạn chế cơng cụ Unpack Debug; Khó thu thập mẫu mã độc mã độc lưu trữ RAM thiết bị, biến khởi động lại thiết bị; Kết dịch ngược khơng xác tùy chọn biên dịch khác công cụ dịch ngược tảng CPU đa dạng thiết bị IoT Vì vậy, với toán phát mã độc IoT Botnet thiết bị IoT nay, hướng tiếp cận dựa phân tích tĩnh trở nên khó thực 1.3.2 Phân tích động Phân tích động phương pháp giám sát hành vi tập tin chạy, từ phát có hay khơng hành vi độc hại, bất thường Môi trường thực thi tập tin thường môi trường mô (như sandbox) hoặc thiết bị IoT thực tế (như cài đặt tác tử) Những thông tin thu thập hành vi mức hệ thống (syscall, giá trị ghi, dữ liệu nhớ), hành vi mức mạng (dữ liệu luồng mạng pcap) Phân tích động loại bỏ kỹ thuật gây rối mã nguồn, không dịch ngược mã nguồn tệp tin thường gặp phân tích động Tuy nhiên, khó khăn thực phân tích động việc xây dựng mơi trường cho phép mã độc bộc lộ hoàn toàn hành vi có khả giám sát đầy đủ hành vi Việc sử dụng phân tích động để phát IoT Botnet phân loại theo hai phương pháp phát xâm nhập dựa dữ liệu mạng (Network-based Intrusion Detection System – NIDS) phát xâm nhập dựa dữ liệu máy chủ (Host-based Intrusion Detection System – HIDS) Qua việc khảo sát nghiên cứu việc phát mã độc Botnet sử dụng phương pháp phân tích động cho thấy, phần lớn nhà nghiên cứu tâm vào việc phát mã độc dựa luồng mạng NIDS Tuy nhiên hướng tiếp cận phát IoT botnet thiết bị bị lây nhiễm bắt đầu truyền thông đến máy chủ lệnh điều khiển, bot khác hoặc chúng thực công Hình thức mã độc dựa dữ liệu máy chủ HIDS khắc phục nhược điểm Tuy nhiên thiết bị IoT khác với thiết bị điện tốn truyền thống chúng hạn chế tài nguyên xử lý lượng Hơn nữa với phát triển thần tốc số lượng đa dạng chức khiến cho thiết bị IoT trở nên bất đồng kiến trúc phần cứng, giao tiếp truyền thông trạng thái hoạt động Do đó, hướng tiếp cận phát mã độc bằng HIDS khó khăn chưa đầy đủ 1.4 Mơ tả tốn Với phát triển nhanh chóng thiết bị IoT giới số lượng lẫn chức năng, môi trường hoạt động Do đó, loại mã độc IoT Botnet tiến hố thích ứng với mơi trường nạn nhân khó bị phát phân tích giúp trì hoạt động Nhiều loại mã độc IoT Botnet gần thiết kế để tránh bị phát giải pháp bảo mật truyền thống có hạn phần mềm phát xử lý mã độc (Anti-virus), hệ thống phát xử lý xâm nhập mạng (IDS/IPS), lọc gói tin bằng tường lửa thơng thường (Firewall) Các giải pháp bảo mật truyền thống thực phát mạng lưới IoT Botnet chúng giai đoạn thực thi công từ chối dịch vụ phân tán (DDoS) gây hậu thấy rõ Hiện có nhiều phương pháp để phát hiện, chống lại công DDoS Tuy nhiên, việc phát chống lại mạng Botnet công diễn khó khăn mạng Botnet tích trữ lượng lớn bot cho Minh chứng có thời điểm có tới 400.000 thiết bị IoT bị lây nhiễm mã độc Mirai vụ công DDoS ghi nhận với quy mô lớn thực mã độc Mirai có lưu lượng lên đến 1.2 Tbps vào năm 2016 Với số lượng lớn bot kèm theo lưu lượng công lớn dễ dàng đánh bại hệ thống phần cứng Hơn nữa, giai đoạn rà quét xâm nhập chiếm dụng quyền quản trị thiết bị mục tiêu (Bước 2) mạng lưới IoT Botnet diễn thời gian dài Nếu phát thiết bị IoT cỡ nhỏ bị lây nhiễm trước chúng thực thi lệnh công từ chối dịch vụ (Bước 7) hạn chế hậu phá hoại mã độc IoT Botnet Về bản, phương pháp phát mã độc dựa hai phương pháp phân tích tĩnh động trình bày Với những nội dung khảo sát đánh giá luận văn trình bày bên trên, luận văn lựa chọn sử dụng phương pháp phân tích động để phát sớm mã độc IoT Botnet Phương pháp phát luận văn lựa chọn kết hợp ưu điểm phương pháp phát trước hướng tới mục tiêu phát sớm mã độc IoT Botnet từ giai đoạn đầu Kết luận chương Trong chương 1, luận văn tổng quan thiết bị IoT cỡ nhỏ, đặc điểm mã độc IoT Botnet lây nhiễm loại thiết bị giải pháp phát mã độc IoT Botnet công bố Từ đó, nội dung chương đưa những vấn đề còn tồn đề xuất phương án giải vấn đề Nội dung chi tiết phương pháp giải vấn đề nêu Chương luận văn CHƯƠNG 2: XÂY DỰNG MÔ HÌNH HỌC MÁY PHÁT HIỆN SỚM MÃ ĐỘC IOT BOTNET Những nghiên cứu liên quan vấn đề phát mã độc IoT Botnet đa phần sử dụng dữ liệu thu thập theo thời gian gọi dữ liệu chuỗi thời gian Với số lượng lớn thiết bị IoT lượng dữ liệu thu thập lớn gây khó khăn việc xây dựng phân loại Phương pháp phát mã độc IoT thường xây dựng bằng cách xây dựng phân loại đơn lẻ tập dữ liệu thu thập đầy đủ theo chuỗi thời gian Các phương pháp xây dựng phân loại khác thường có những ưu, nhược điểm khác nhau, điểm chung mô hình mã độc thực tồn hành vi hệ thống phát được, thực tế gây hậu nghiêm trọng cho hệ thống không cảnh báo trước nguy Để đáp ứng yêu cầu phân loại xác việc sử dụng phân loại học máy, mơ hình học máy cộng tác luận văn đưa vào sử dụng để tăng hiệu suất dự đốn mơ hình Mơ hình học máy cộng tác đưa dự đoán từ việc sử dụng phân loại tổng hợp dự đoán từ những phân loại để đưa định Từ những điểm nêu trên, phần luận văn xây dựng mơ hình học máy phát sớm mã độc IoT Botnet sử dụng dữ liệu có đặc trưng thời gian thiết bị, thực phương pháp chọn lọc chuẩn hóa dữ liệu, áp dụng mơ hình học máy cộng tác với phân loại thích hợp cho toán phát sớm mã độc IoT Botnet 2.1 Tởng quan mơ hình học máy cộng tác Học máy cộng tác trình sử dụng phân loại kết hợp kết dự đoán phân loại để tạo nên mô hình đưa định phức tạp cải thiện hiệu dự đoán so với phân loại Phương pháp kết hợp linh hoạt dựa đặc trưng, hoặc kết phân loại Dựa vào phương thức kết hợp dữ liệu chia mơ hình học cộng tác thành nhóm chính: - Hợp sớm: phương pháp hợp dữ liệu đầu vào bằng cách tạo tập dữ liệu đại diện cho tập dữ liệu đơn lẻ Tập dữ liệu đại diện sinh bằng cách nối đặc trưng tập dữ liệu vào với để tạo thành tập dữ liệu đại diện có chứa tất đặc trưng tập dữ liệu Sau có tập đại diện mơ hình phân loại sử dụng thuật toán học máy để thực trình phân loại dữ liệu đại diện - Hợp muộn: phương pháp cho phép tập hợp kết phân loại học máy phân loại (Classifier) đơn lẻ thông qua hàm hợp (Fusion) Mỗi dữ liệu đặc trưng đầu vào huấn luyện phân loại dựa thuật toán học máy riêng biệt Kết phân loại tổng hợp để đưa định cuối cùng - Hợp trung gian (Intermediate fusion): cách hợp đặc trưng qua việc sử dụng lớp ẩn (Hidden layer) Các đặc trưng đầu vào đưa vào thuật toán học máy có lớp ẩn để tìm đặc trưng có liên quan tới mục tiêu phân loại Kết phân loại dữ liêu riêng lẻ đưa qua lớp hợp định cuối cùng sử dụng lớp ẩn để tổng hợp kết Các mơ hình học máy cộng tác kể có ưu điểm nhược điểm, bằng việc nghiên cứu lý thuyết qua trình thực nghiệm, luận văn lựa chọn sử dụng phương pháp hợp muộn cho toán phát sớm mã độc IoT Botnet đạt hiệu khả quan 2.2 Mơ hình ứng dụng Trong phần này, luận văn ứng dụng mơ hình học máy cộng tác phát sớm IoT Botnet Kiến trúc tổng quát mô hình biểu diễn cụ thể hình 2.1 11 Từ ưu điểm tính nêu trên, luận văn nhận thấy môi trường V-Sandbox phù hợp cho q trình xây dựng mơi trường mơ thiết bị IoT để thu dữ liệu hành vi nhằm giải toán phát sớm mã độc 2.2.2 Bộ phận tiền xử lý chuẩn hóa liệu Trong toán phát mã độc IoT Botnet, hành vi thường những nhà nghiên cứu sử dụng để nhận biết dấu hiệu chúng thường là: lời gọi hệ thống, gói tin trao đổi mạng thay đổi tài nguyên hệ thống Do đó, luận văn sử dụng ba loại hành vi phổ biến kể để thu thập dữ liệu phục vụ cho đánh giá khả phát mã độc IoT Botnet mơ hình ứng dụng Như đề cập mơ tả tổng quan mơ hình ứng dụng, dữ liệu đưa vào mơ hình học máy để phát hành vi tệp thực thi, khơng phải dữ liệu tồn hành vi mã độc cần thực Vì vậy, cần xác định lượng dữ liệu cần thiết để có khả phát xác mã độc IoT Botnet Để trả lời câu hỏi này, luận văn tiến hành khảo sát, so sánh khác dữ liệu thu thập mã độc IoT Botnet tệp lành tính Sau thu dữ liệu tương ứng với lượng dữ liệu xác định kể trên, luận văn tiến hành trích xuất đặc trưng để thu dữ liệu vector làm đầu vào cho thuật tốn học máy Q trình xử lý riêng biệt mỡi loại dữ liệu trình bày chi tiết sau - Dữ liệu lời gọi hệ thống Từ q trình thống kê dữ liệu có dữ liệu lời gọi hệ thống, luận văn nhận thấy số lượng lời gọi hệ thống tệp thực thi dữ liệu lành tính thường số lượng lời gọi hệ thống tệp thực thi có chứa mã độc, tệp lành tính thường có khoảng 100 lời gọi hệ thống mỡi lần thực thi số tệp có chứa mã độc 300 Do luận văn chọn ngưỡng 300 lời gọi hệ thống làm ngưỡng ngắt giám sát cho V-Sandbox sử dụng 300 lời gọi hệ thống làm dữ liệu cho học máy huấn luyện kiểm thử Để trích xuất đặc trưng từ dữ liệu lời gọi hệ thống, luận văn sử dụng đồ thị lời gọi hệ thống (System Call Graph) đề xuất tác giả Lê Hải Việt cộng Tuy nhiên, dữ liệu đồ thị huấn luyện trực tiếp bằng phân loại thông dụng Do đó, dữ liệu phải chuyển dạng véc-tơ Q trình thực thơng qua cơng cụ Graph2vec Graph2vec kỹ thuật học không giám sát để chuyển đổi đồ thị thành dạng véc-tơ số dựa ý tưởng hướng tiếp cận thuật tốn nhúng văn Doc2vec Theo đó, Graph2vec học cách biểu diễn đồ thị bằng cách xem toàn đồ thị văn đồ thị từ tạo nên văn Kết thu không gian véc-tơ nhúng mà đồ thị có cấu trúc giống có véc-tơ đặc trưng gần Đặc điểm giúp cho thuật tốn học máy hoạt động hiệu việc phân loại đồ thị - Dữ liệu luồng mạng Quá trình thống kê dữ liệu có dữ liệu luồng mạng cho thấy số lượng gói tin sử dụng để giao tiếp giữa tệp lành tính tệp có chứa mã độc Điều lý giải bằng lý thuyết IoT Botnet chung thường xuyên phải kết nối nhận lệnh từ máy chủ C&C, dẫn đến lưu lượng truy cập cao bình thường Kết thống kê cho thấy hầu hết tệp cho số lượng gói tin sử dụng nằm ngưỡng 50 gói tin Do đó, q trình phát sớm sử dụng ngưỡng 50 gói tin để ngắt giám sát tiến hành phát mã độc 12 Dữ liệu luồng mạng sau thu từ môi trường V-Sandbox tệp tin định dạng PCAP Luận văn sử dụng cơng cụ CICFlowMeter để trích xuất đặc trưng dữ liệu từ file PCAP Tuy nhiên, tập tin PCAP chứa nhiều luồng mạng (flow), để sinh véc-tơ đại diện cho tập tin PCAP, luận văn tiến hành kết hợp thơng tin luồng có tệp tin PCAP bằng cách thống kê đại lượng tổng giá trị lớn Bộ đặc trưng bao gồm 48 đặc trưng thống kê đặc trưng số lượng luồng mạng tập tin PCAP Như vậy, có tất 49 đặc trưng sử dụng - Dữ liệu sử dụng tài nguyên hệ thống Thống kê dữ liệu cho thấy tệp thực thi mã độc thường yêu cầu sử dụng tài nguyên nhiều so với tệp thực thi lành tính biểu rõ 20 trạng thái tài nguyên hệ thống Do đó, luận văn chọn ngưỡng 20 trạng thái làm ngưỡng phát sớm Dữ liệu sử dụng tài nguyên thiết bị bao gồm chuỗi nhiều trạng thái hiệu liên tiếp hệ thống Để mơ tả lại dữ liệu này, luận văn sử dụng phương pháp thống kê để định nghĩa đặc trưng sử dụng Theo thơng tin liên quan đến CPU, nhớ trạng thái tính tốn đại lượng trung bình cộng, độ lệch chuẩn, số lớn nhất, số nhỏ Với 20 đặc trưng thu từ V-Sandbox, luận văn tiến hành thống kê thu 80 đặc trưng theo đại lượng 2.2.3 Bộ phận trích chọn đặc trưng Sau trích xuất đặc trưng véc-tơ hóa, dữ liệu đưa vào phân loại để huấn luyện/ kiểm thử Tuy nhiên để nâng cao độ hiệu mơ hình, luận văn tiến hành trích chọn đặc trưng để nâng cao độ xác, độ hiệu cho mơ hình Trích chọn đặc trưng giúp nâng cao độ xác, độ hiệu cho mơ hình lý chính: - Trích chọn đặc trưng giúp lược bỏ đặc trưng thừa, khơng đóng góp nhiều vào q trình phân loại mơ hình, đặc trưng gây nhiễu, gây ảnh hưởng đến hiệu phân loại Do đó, trích chọn đặc trưng vừa giúp nâng cao độ xác cho mơ hình, vừa giảm thiểu tình trạng khớp (overfitting) - Trích chọn đặc trưng làm giảm chiều véc-tơ đặc trưng đầu vào, qua đẩy nhanh tốc độ tính tốn, giúp mơ hình hội tụ nhanh Có nhiều phương pháp trích chọn đặc trưng, luận văn sử dụng phương pháp đơn giản Information gain áp dụng lên loại đặc trưng dữ liệu luồng mạng đặc trưng dữ liệu hiệu hệ thống Information Gain đại lượng đo độ hỗn tạp hay hỗn loạn đặc trưng Trong định, information gain đươc sử dụng làm tiêu chí phân chia node Một thuộc tính có information gain hay độ giảm entropy lớn chọn để chia node, tính bất định thơng tin giảm xuống nhiều Trong tốn trích chọn đặc trưng, information gain sử dụng để đo độ liên quan đặc trưng lớp Giá trị thơng tin chung (mutual information) giữa thuộc tính lớp cao độ liên quan giữa chúng lớn , Trong , entropy lớp , entropy lớp với điều kiện thuộc tính , Luận văn tiến hành tính thơng tin chung giữa tất đặc trưng nhãn thu kết sau: - Đối với đặc trưng mạng: 13 Kết lựa chọn đặc trưng trình bày bảng Một số đặc trưng cho giá trị thông tin chung tính bằng những đặc trưng có giá trị dữ liệu huấn luyện Do đó, những đặc trưng chắn bị loại bỏ, khơng đóng góp vào q trình phân loại thuật tốn học máy Thơng qua thực nghiệm, luận văn loại bỏ 35 đặc trưng trích chọn 14 đặc trưng có độ ảnh hưởng lớn đầu vào cho phân loại bước Bảng 2.2 Các đặc trưng mạng sử dụng STT Đặc trưng Sum Flow Duration Max Flow Duration Sum Fwd Header Len Sum TotLen Bwd Pkts Sum Bwd Header Len Max Fwd Header Len Sum TotLen Fwd Pkts Max Tot Fwd Pkts Max Bwd Header Len 10 Sum Tot Fwd Pkts 11 Sum Tot Bwd Pkts 12 Sum Init Fwd Win Byts 13 Sum SYN Flag Cnt 14 Max Init Fwd Win Byts - Đối với đặc trưng hiệu hệ thống: Tương tự trên, có số đặc trưng có giá trị dữ liệu huấn luyện chắn bị loại bỏ Thông qua thực nghiệm, luận văn loại bỏ 62 đặc trưng chọn 18 đặc trưng có độ ảnh hưởng lớn đầu vào cho phân loại bước Bảng 2.3 Các đặc trưng hiệu hệ thống sử dụng STT Đặc trưng swap_cache_min swap_cache_mean swap_cache_max mem_used_max 14 mem_free_min mem_buffers_mean mem_used_mean mem_free_mean mem_buffers_max 10 mem_buffers_min 11 mem_used_min 12 mem_free_max 13 swap_cache_std 14 cpu_%_id_mean 15 cpu_%_us_std 16 num_total_sleeping_mean 17 cpu_%_sy_std 18 num_total_sleeping_std 2.2.4 Bộ tổng hợp dự đốn Q trình kết hợp kết phát phân loại học máy khác cần đến tham gia hàm tổng hợp Trong học máy, hàm tổng hợp kết phổ biến sử dụng Voting, Stacking, Bagging Boosting Luận văn lựa chọn phương pháp bầu chọn (Voting) để áp dụng cho toán phát sớm dựa kết thực nghiệm Kết cuối cùng dự đoán thực đa số “phiếu bầu” theo hai chiến lược khác biểu cứng (hard voting) biểu mềm (soft voting) - Biểu cứng: Trong biểu cứng (còn gọi biểu đa số), mỗi phân loại riêng lẻ đưa dự đoán dữ liệu đầu vào thuộc nhãn nhãn chiếm đa số dự đốn chiến thắng Trong đó: Ci(x) kết dự đoán (nhãn) phân lớp thứ j - Biểu mềm: Trong biểu mềm, mỗi phân loại riêng lẻ đưa xác suất dự đoán dữ liệu đầu vào thuộc nhãn tương ứng Các giá trị dự đoán đánh trọng số theo mức độ quan trọng phân loại tổng hợp lại Sau đó, nhãn có tổng xác suất có trọng số lớn chọn Trong đó: wi trọng số kết dự đoán (giá trị p) thuộc phân lớp thứ j Trong phần thực nghiệm đánh giá trình bày chương 3, luận văn sử dụng biểu mềm phân loại đơn lẻ thực nghiệm có đầu xác suất dự đốn Ngồi biểu mềm xem xét xác suất, mức độ chắn phân loại đơn lẻ định nên đem lại kết xác so với với việc xem xét nhãn dự đoán phân loại biểu cứng 15 Kết luận chương Trong chương này, luận văn ứng dụng mơ hình tổng quan cho tốn phát sớm mã độc IoT Botnet, mô tả cụ thể chức năng, kỹ thuật sử dụng mục đích thành phần Mơ hình sử dụng mơi trường sandbox để thu thập loại dữ liệu đặc trưng dựa những tảng nghiên cứu bên nghiên cứu liên quan đến chủ đề đề cập Những dữ liệu sau phân tích xử lý phù hợp để đưa vào phân loại Mơ hình cộng tác ứng dụng để giải toán phát với kết hợp để tăng hiệu cho phân loại đơn lẻ Kết triển khai thực nghiệm mơ hình với tập dữ liệu thực tế đánh giá so sánh với nghiên cứu cơng bố trình bày chương luận văn CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ Trong chương trình bày tập dữ liệu sử dụng cho trình thực nghiệm, bước thực thi cụ thể từ mơ hình tổng quan để đưa kết từ tập dữ liệu đầu vào Sau thu kết thực nghiệm thực đánh giá độ hiệu mô hình, so sánh kết với nghiên cứu có từ đề phương hướng nghiên cứu phát triển sau cho toán 3.1 Bộ liệu Để đánh giá kết hoạt động mơ hình ứng dụng, luận văn sử dụng tập dữ chứa 8911 mẫu bao gồm 5023 IoT Botnet 3888 mẫu lành tính thu thập sử dụng cho thực nghiệm Chia tập dữ liệu theo tỉ lệ 70% dữ liệu dùng để huấn luyện mô hình 30% dữ liệu để kiểm nghiệm độ hiệu Mô tả mẫu tập dữ liệu mô tả bảng 3.1 16 Bảng 3.1 Mô tả dữ liệu Loại Số lượng Mã độc Bashlite 2786 Mã độc Mirai 1510 Mã độc IoT Botnet khác 727 (MrBlack, Spike, Dofloo,…) Tệp lành tính 3888 Luận văn tiến hành phân tích, thống kê chi tiết vẽ biểu đồ thống kê dữ liệu mã độc lành tính dữ liệu để tạo sở cho việc xác định ngưỡng phát sớm trình bày chương 2: 300 lời gọi hệ thống, 20 trạng thái tài nguyên hệ thống 50 gói tin luồng mạng Các kết thống kê hình Hình 3.1 Thống kê số lượng lời gọi hệ thống mã độc IoT Botnet Tiến hành phân tích số lượng lời gọi hệ thống mẫu Dataset hình 3.1 3.2, luận văn nhận thấy mã độc IoT Botnet chủ yếu thường thể hành vi hoạt động ngưỡng 300 lời gọi hệ thống, số lượng lời gọi hệ thống tệp lành tính thể hình 3.5 tập trung chủ yếu 100 lời gọi hệ thống 17 Hình 3.2 Thống kê số lượng lời gọi hệ thống tệp lành tính Hình 3.3 cho thấy lượng gói tin giao tiếp luồng mạng IoT Botnet tập trung chủ yếu 50 gói tin có số lượng mẫu IoT Botnet lên đến 400 gói tin giao tiếp luồng mạng, lượng gói tin tệp lành tính thể hình 3.4 gần ngưỡng 50 gói tin Hình 3.3 Thống kê số lượng gói tin mạng IoT Botnet 18 Hình 3.4 Thống kê số lượng gói tin mạng tệp lành tính Về thơng tin u cầu sử dụng tài nguyên hệ thống, hình 3.5 cho thấy mẫu IoT Botnet thường có lượng yêu cầu sử dụng tài nguyên hệ thống cao, lên đến 100 yêu cầu, chủ yếu lượng lớn tập trung ngưỡng 20 yêu cầu sử dụng tài nguyên Hình 3.6 thể tệp lành tính thường khơng u cầu sử dụng tài nguyên nhiều mẫu IoT Botnet, mẫu có 20 yêu cầu sử dụng tài nguyên hệ thống Hình 3.5 Thống kê yêu cầu chiếm dụng tài nguyên hệ thống IoT Botnet 19 Hình 3.6 Thống kê yêu cầu chiếm dụng tài nguyên hệ thống tệp lành tính Tập dữ liệu sau đưa vào phận tiền xử lý chuẩn hóa có đặc trưng biểu diễn hình 3.7 – 3.9 Hình 3.7 Bộ đặc trưng dữ liệu luồng mạng chuẩn hóa theo mơ tả đặc trưng dữ liệu mạng CSE-CICIDS2018 Hình 3.8 Bộ đặc trưng dữ liệu sử dụng tài nguyên chuẩn hóa theo đầu V-Sandbox 20 Hình 3.9 Bộ đặc trưng dữ liệu lời gọi hệ thống trích xuất đặc trưng từ đồ thị SCG thành vector đặc trưng 3.2 Môi trường triển khai thực nghiệm Quá trình triển khai thực nghiệm để đánh giá mơ hình đề xuất tiến hành máy chủ với thông số kỹ thuật gồm: Bộ vi xử lý AMD Ryzen 3.6 GHz, ổ cứng lưu trữ HDD dung lượng 1TB, nhớ DDR3 32 GB Luận văn tìm hiểu sử dụng thuật tốn học máy thường sử dụng cho toán phát mã độc Bagging, ADABoost, Random Forest, GradientBoosting hàm hợp khác biểu hay hồi quy tuyến tính để chọn phương pháp tối ưu Sử dụng phân loại hợp tăng khả tổng hợp kết phân loại xây dựng thành phần học yếu để đưa kết Các thuật toán học máy đơn lẻ thử nghiệm Bagging, Random Forest, ADABoost, GradientBoosting,… cài đặt thông qua ngôn ngữ Python với thư viện Scikit-learn (Sklearn) 3.3 Kết thực nghiệm Luận văn sử dụng phân loại tổng hợp Bagging, Random Forest, ADABoost, GradientBoosting tạo tổ hợp 64 cách kết hợp thuật toán hàm hợp bầu chọn, hồi quy tuyến tính để đánh giá hiệu mơ hình học máy cộng tác Từ cách kết hợp phân loại phổ biến cùng với sử dụng phương pháp hợp thu 128 kết thử nghiệm đánh giá độ xác việc phát mã độc IoT Botnet cho mơ hình ứng dụng mơ tả Hình 3.10 Bảng 3.2 Dựa vào kết thu mơ tả hình, ta nhận thấy hàm hợp bầu chọn có hiệu suất tốt tương đương với hàm hồi quy tuyến tính ba thuật toán phân loại học máy đơn lẻ sử dụng random forest tập dữ liệu thuộc tính khác cho kết tốt với độ xác ACC = 99.23% sử dụng phương pháp bầu chọn Các mơ hình học máy luận văn điều chỉnh tham số toàn dữ liệu tiến hành đánh giá mơ hình ứng dụng dựa số thu Kết đánh giá mơ hình ứng dụng dữ liệu trình bày bảng 3.2 Hình 3.10 Kết đánh giá phương án kết hợp thuật toán học máy 21 Bảng 3.2 Độ xác phân loại học máy đơn lẻ huấn luyện dữ liệu kết tổng hợp dự đốn Độ xác phân loại liệu mơ hình (ACC - %) Dữ ST Thuật toán T liệu luồn g mạn g Bagging + Bagging + Bagging Bagging + Bagging + Random Forest Bagging + Bagging + AdaBoost ……… Random Forest + Random Forest + Bagging Random Forest + Random Forest + Random Forest Random Forest + Random Forest + AdaBoost Dữ liệu sử dụng tài nguyên thiết bị Dữ liệu Hồi lời gọi Bầu quy hệ chọn tuyến thống 89.97 98.84 97.2 89.97 98.84 97.78 89.97 98.84 97.2 90.07 99.08 97.2 90.07 99.08 97.78 90.07 99.08 97.2 tính 99.0 99.0 98.5 98.9 99.2 98.4 99.04 99.18 98.79 99.08 99.18 98.99 22 Độ xác phân loại liệu mơ hình (ACC - %) Dữ ST Thuật toán T liệu luồn g mạn g Random Forest + Random Forest + Gradient Tree Boosting Random Forest + AdaBoost + Bagging 10 Dữ liệu sử dụng tài nguyên thiết bị Dữ liệu Hồi lời gọi Bầu quy hệ chọn tuyến thống 90.07 99.08 97.69 90.07 98.65 97.2 tính 98.8 98.3 98.75 97.3 ………… Mơ hình sau huấn luyện xong đưa vào vận hành thử hệ thống; luận văn lựa chọn thời gian thu thập dữ liệu theo thời gian thực 03 giây (đảm bảo để thu 300 lời gọi hệ thống, 20 trạng thái tài nguyên thiết bị 50 gói tin luồng mạng phân tích) cho q trình thực thi tệp đầu vào đưa kết dự đoán phân loại tệp tin Kết chạy thực tế minh họa hình 3.11 3.12: 23 Hình 3.11 Q trình phân tích tệp chứa mã độc Hình 3.12 Q trình phân tích tệp lành tính 3.4 Đánh giá kết thực nghiệm Với kết nêu phần đánh giá mơ hình ứng dụng có khả phát xác với ACC = 99.23% Kết thực nghiệm cho thấy hiệu việc sử dụng mơ hình học máy cộng 24 tác cho loại dữ liệu hành vi phổ biến phát IoT Botnet Sử dụng Information Gain để trích chọn đặc trưng, cách kết hợp phân lớp sử dụng thuật toán học máy với mơ hình cộng tác góp phần làm tăng hiệu phát mơ hình Mơ hình kết hợp cho kết phát vượt trội mơ hình học máy đơn lẻ Khả phát sớm mơ hình thể đặc điểm lấy phần nhỏ lượng dữ liệu đặc trưng cho hành vi tệp đầu vào xử lý để thực phân tích phát mã độc thay phải đợi mã độc thực đầy đủ hành vi để thu thập xử lý với toàn dữ liệu Kết luận chương Trong chương này, luận văn trình bày kết thực nghiệm triển khai mơ hình ứng dụng mơ tả chương với dữ liệu tảng phần cứng, phần mềm kèm Kết thử nghiệm cho thấy hiệu vượt trội mơ hình ứng dụng khả ứng dụng vào giải toán phát mã độc IoT Botnet thực tế KẾT LUẬN VÀ KIẾN NGHỊ Cuộc cách mạng 4.0 bùng nổ phát triển công nghệ, khoa học kỹ thuật những năm vừa qua mang lại nhiều thay đổi lớn với sống nhân loại Trong phát triển đó, xu hướng Vạn vật kết nối IoT cách mạnh mẽ trở thành phần thiếu không gian số mỗi cá nhân, tổ chức Các thiết bị IoT đã, tiếp tục sử dụng phổ biến tổ chức, doanh nghiệp nhiều quốc gia giới, có Việt Nam Số lượng thiết bị IoT ngày tăng, tỉ lệ thuận với số lượng mã độc, công khai thác đem lại thách thức lớn việc bảo đảm an ninh, an tồn thơng tin Song song với việc phát triển mở rộng nhanh số lượng nhà phát triển thiết bị IoT lại khơng có quan tâm đến vấn đề bảo mật khiến những thiết bị trở thành mục tiêu dễ dàng cho hành vi công, khai thác Do việc nghiên cứu, phát triển hình thức bảo vệ thiết bị IoT hoàn toàn cần thiết, góp phần đảm bảo an ninh, an tồn thơng tin môi trường mạng Trong phạm vi nghiên cứu phân tích, phát mã độc Botnet thiết bị IoT, luận văn tiến hành tìm hiểu phương pháp phân tích, phát mã độc Botnet thiết bị IoT phổ biến sau xây dựng, ứng dụng thực nghiệm mơ hình học máy cộng tác phân tích, phát mã độc IoT Botnet Cụ thể, luận văn đạt số kết sau: - Nghiên cứu, lựa chọn, ứng dụng xây dựng thử nghiệm thành cơng mơ hình học máy cộng tác phân tích phát mã độc IoT Botnet - Thử nghiệm phát mã độc với mơ hình học máy đơn lẻ so sánh đánh giá với mơ hình học máy xây dựng Kết cho thấy hiệu suất phát cải thiện vượt trội so với việc sử dụng học máy đơn lẻ - Đem lại khả ứng dụng thực tế mơ hình cho kết phát thời gian ngắn yêu cầu lượng dữ liệu đầu vào nhỏ mã độc bắt đầu thực hành vi Do giảm thiểu hậu mã độc gây với thiết bị hệ thống thông tin Kết luận văn góp phần bổ sung vào nghiên cứu phát mã độc IoT Botnet dựa phương pháp phân tích động tiềm ứng dụng cao Một số nội dung nghiên cứu luận văn chấp nhận công bố Kỷ yếu hội nghị quốc tế lần thứ Điện tử, truyền thơng khoa học máy 25 tính (ICECCE 2021) với báo “Adversarial Attack and Defense on Graph-based IoT Botnet Detection Approach” Tuy nhiên, luận văn còn số hạn chế, vướng mắc phần xử lý sandbox không gian tài nguyên yêu cầu lớn, thời gian khởi động chậm Ngoài chạy V-Sandbox để thu thập hành vi dữ liệu số mẫu xảy việc thực vòng lặp để thu thập thêm dữ liệu cho mỗi lần chạy khiến cho thời gian xử lý mẫu lên đến phút Dựa kết nghiên cứu, luận văn đưa số kiến nghị cho hướng phát triển tương lai sau: - Tiếp tục nghiên cứu, thử nghiệm cải thiện phương pháp kết hợp đặc trưng phân loại nhằm cải thiện độ xác thời gian xử lý phương pháp phát sớm mã độc IoT Botnet - Nghiên cứu, cải tiến để rút ngắn thời gian hoạt động V-Sandbox lượng tài nguyên yêu cầu để làm cho mô hình phát sớm IoT Botnet hoạt động hiệu ... tìm hiểu đặc điểm, phát triển mã độc IoT Botnet toán phát mã độc IoT Botnet 2 + Khảo sát, phân tích, đánh giá phương pháp phát mã độc IoT Botnet phương pháp phát sớm mã độc dựa công nghệ học... toán phát mã độc IoT Botnet thực thiết bị IoT - Phạm vi nghiên cứu đề tài: Trong đó, phạm vi nghiên cứu tập trung vào phân loại, phát dòng mã độc Botnet thiết bị IoT tập trung vào dòng thiết bị. .. loại mã độc xuất thiết bị IoT cỡ nhỏ, phổ biến mã độc IoT Botnet (theo thống kê Kaspersky) Tác giả Pamela cộng đưa khái niệm IoT Botnet “ mạng lưới thiết bị IoT cỡ nhỏ bị xâm nhập lây nhiễm mã độc