6. Bố cục của luận án
2.4. Kết luận Chương 2
3.1.1. Lựa chọn nguờn dữ liệu động phục vụ tiền xử lý và phân tích
Như đã trình bày tại Chương 1, các nguồn dữ liệu động phở biến được các nhà nghiên cứu về mã độc IoT Botnet thu thập bao gồm luồng mạng, chuỗi lời gọi hệ thống và thơng tin chiếm dụng tài nguyên thiết bị của mã độc IoT Botnet. Tuy nhiên, mỗi loại dữ liệu động này cĩ những ưu và nhược điểm riêng trong khả năng phát hiện mã độc IoT Botnet.
Đối với dữ liệu luồng mạng, đã cĩ nhiều nghiên cứu sử dụng loại dữ liệu này để phân tích và phát hiện mã độc Botnet nĩi chung và IoT Botnet nĩi riêng. Tuy nhiên, dữ liệu mạng khả nghi chỉ phát sinh khi mã độc IoT Botnet tiến hành giao tiếp với C&C server hoặc thực hiện hành vi tấn cơng mạng. Chưa kể đến trường hợp mã độc đang ở trạng thái chờ đợi kết nối hoặc kết nối khơng thành cơng tới C&C server thì dữ liệu luồng mạng gần như khơng phát sinh, làm giảm khả năng phát hiện [35, 43]. Đặc biệt, một số loại mã độc Botnet cịn sử dụng một vài kỹ thuật để tránh bị phát hiện qua dữ liệu luồng mạng như sinh giá trị thời gian chờ ngẫu nhiên giữa các lần gửi gĩi tin kết nối đến C&C server, sinh giá trị địa chỉ IP ngẫu nhiên để quét mục tiêu, sử dụng các kênh truyền mã hĩa dữ liệu [95, 101, 102]. Hiện nay, dữ liệu luồng mạng hầu hết được chứng minh tính hiệu quả trong khả năng phát hiện mã độc IoT Botnet tại giai đoạn kết nối, nhận lệnh từ C&C server và thực thi hành vi tấn cơng mạng [35, 43].
Đối với thơng tin chiếm dụng tài nguyên thiết bị, các dữ liệu khả nghi cĩ thể phát sinh ngay từ khi mã độc IoT Botnet tiến hành lây nhiễm vào thiết bị. Các dấu hiệu khả nghi cĩ thể nhận biết như tăng tỉ lệ sử dụng bộ vi xử lý, dung lượng bộ nhớ truy xuất ngẫu nhiên (RAM), truy xuất các tệp tin và thư mục trong hệ thống,… Tuy nhiên, khơng dễ dàng để phân biệt những dữ liệu khả nghi này với những hành vi chiếm dụng tài ngun thiết bị của các chương trình lành tính khác [38, 44]. Ngồi ra, do đặc điểm hạn chế tài nguyên của thiết bị IoT, cho nên các mã độc IoT Botnet cũng được tối ưu hạn chế sử dụng các tài nguyên này. Vì vậy, những dữ liệu thơng tin chiếm dụng tài nguyên
này thường được sử dụng để kết hợp với các nguồn dữ liệu động khác để tăng khả năng phát hiện chính xác mã độc IoT Botnet.
Trong bài tốn phát hiện mã độc IoT Botnet, khi mà nguồn dữ liệu luồng mạng và thơng tin chiếm dụng tài nguyên thiết bị khơng đạt được được hiệu quả thì các nhà nghiên cứu phải sử dụng nguồn dữ liệu động là “lời gọi hệ thống” [36, 37, 73, 75, 103]. Một trong các sự kiện quan trọng cĩ thể theo dõi để xác định hành vi của mã độc trong phân tích động là các lời gọi hệ thống (System calls). Các lời gọi hệ thống cung cấp phương thức để một chương trình yêu cầu hệ điều hành thực hiện các tác vụ của chương trình [104]. Một system call được gọi theo nhiều cách khác nhau, tùy thuộc vào chức năng được cung cấp bởi bộ vi xử lý. Để thực hiện các hành vi độc hại, mã độc cần sử dụng các chức năng, dịch vụ từ hệ điều hành. Đối với bất kỳ hành động cĩ ý nghĩa độc hại nào, chẳng hạn như tạo thư mục mới, tải tệp thực thi mã độc, tạo tiến trình thực thi, ghi vào RAM hoặc mở kết nối mạng, cần phải tương tác với hệ điều hành (OS) thơng qua lời gọi hệ thống (System call). Do đĩ, để mơ tả đặc điểm hành vi của mã độc, điều quan trọng là phải theo dõi chuỗi các sự kiện lời gọi hệ thống trong quá trình thực thi mã độc. Các họ mã độc khác nhau cĩ các mục tiêu thực thi hành vi độc hại khác nhau, nhưng tất cả các mục tiêu này sẽ được tiết lộ bằng cách kiểm tra các dấu vết lời gọi hệ thống. Để cĩ thể sử dụng nguồn dữ liệu “lời gọi hệ thống” trong phát hiện mã độc IoT Botnet, các nhà nghiên cứu
Với những phân tích nêu trên, trong Chương 3 luận án sẽ đề xuất phương pháp tiền xử lý loại dữ liệu này áp dụng hiệu quả cho bài tốn phát hiện mã độc IoT Botnet.