Đặc trưng đồ thị PSI con gốc trong phát hiện mã độc botnet IoT

MỤC LỤC

Mục tiêu nghiên cứu

Từ việc phân tích tính cấp thiết của đề tài đã trình bày ở trên, luận án xác định mục tiêu nghiên cứu nhằm đề xuất một đặc trưng có cấu trúc đồ thị mới và hiệu quả (độ chính xác cao, độ phức tạp thấp) trong phát hiện mã độc IoT botnet, có khả năng xử lý mã độc IoT botnet đa kiến trúc.

Nội dung và phương pháp nghiên cứu

Phân loại mã độc là bài toán phân loại đa lớp và phát hiện mã độc có thể xem như bài toán phân loại hai lớp (nhị phân). Trong phạm vi nghiên cứu, luận án tập trung vào bài toán phát hiện mã độc. Luận án này phát triển hướng tiếp cận mới trong phát hiện mã độc IoT botnet, được trình bày chi tiết trong luận án này với phạm vi nghiên cứu sau:. -Có nhiều loại mã độc lây nhiễm trên các thiết bị IoT như Trojan, Worm, Ransomware,. … Nhưng trên các thiết bị IoT hạn chế tài nguyên thì ít thông tin người sử dụng để mã độc giám sát, thu thập, mã hóa; trong khi số lượng thiết bị IoT lớn và phân tán khắp nơi nên hiện nay hầu hết mã độc lây nhiễm trên thiết bị IoT là mã độc botnet [49]. Vì lý do đó, luận án chỉ tập trung nghiên cứu, phát hiện mã độc IoT botnet. -Có nhiều cách phân loại thiết bị IoT như dựa trên hãng sản xuất, dựa trên giao thức sử dụng, dựa trên mục đích kết nối, … Nhưng để phù hợp với nội dung nghiên cứu của luận án thì luận án sẽ tập trung vào các thiết bị IoT hạn chế về tài nguyên như năng lượng tiêu thụ thấp, bộ nhớ lưu trữ hạn chế, khả năng tính toán hạn chế. Ví dụ IP camera, thiết bị định tuyến, thiết bị chuyển mạch, khóa cửa thông minh,…. -Có 02 hướng chính trong phát hiện mã độc botnet là phân tích tĩnh và phân tích động. Tuy nhiên, để đạt được mục tiêu nghiên cứu, luận án lựa tiếp cận theo phương pháp có khả năng xử lý vấn đề đa kiến trúc của thiết bị IoT hiệu quả và hiệu suất, đó là phân tích tĩnh. - Nghiên cứu sự phát triển, tiến hóa và đặc điểm của mã độc IoT botnet cũng như các phương pháp phát hiện mã độc IoT botnet hiện nay. - Khảo sát, phân tích và đánh giá lại các phương pháp phát hiện mã độc IoT botnet hiện nay dựa trên phân tích tĩnh trên cùng bộ cơ sở dữ liệu lớn và môi trường thử nghiệm. - Nghiên cứu và đề xuất đặc trưng mới có cấu trúc đồ thị trong phát hiện mã độc IoT botnet. - Đánh giá đặc trưng đã đề xuất về độ chính xác và độ phức tạp trong phát hiện mã độc IoT botnet bằng cách sử dụng tập dữ liệu lớn và đáng tin cậy, so sánh với những phương pháp hiện tại cùng hướng tiếp nghiên cứu. Các nội dung trên được giải quyết và trình bày cụ thể trong các Chương sau của luận án này, cấu trúc cụ thể được trình bày trong phần tiếp theo của luận án này. *) Phương pháp nghiên cứu. Dựa trên tập dữ liệu gồm hơn 10000 mẫu gồm cả mã độc botnet và mẫu lành tính trên thiết bị IoT, chia thành các tập huấn luyện và kiểm thử, sử dụng kỹ thuật kiểm thử chéo (cross-validation), luận án tiến hành các thí nghiệm, thực nghiệm xây dựng đặc trưng mã độc IoT botnet bằng các phương pháp phát hiện mã độc IoT botnet, trên tập dữ liệu các tập tin thực thi trên IoT (mã độc, lành tính).

Các đóng góp của luận án

Thực nghiệm đánh giá tính hiệu quả của đặc trưng đồ thị PSI mà luận án đề xuất với học sâu. Thực nghiệm xây dựng và đánh giá đặc trưng đồ thị con PSI có gốc (PSI-rooted subgraph) với các thuật toán học máy để nâng cao hiệu quả trong bài toán phát hiện mã độc IoT botnet.

Bố cục của luận án

Luận án trình bày sơ lược các phương pháp phát hiện mã độc IoT botnet. Mỗi phương pháp được đánh giá toàn diện bởi khái niệm, mô tả các thuận lợi

Luận án trình bày phương pháp luận về giải pháp đề xuất đặc trưng đồ thị PSI nhằm phát hiện mã độc IoT botnet hiệu quả và hiệu suất cao. Chương này

Luận án tiến hành đánh giá các hạn chế của phương pháp đề xuất ở Chương 3 nhằm đưa ra giải pháp mới hiệu quả trong phát hiện mã độc IoT botnet

CƠ SỞ LÝ THUYẾT

Mã độc IoT botnet

Linux.Wifatch sử dụng mạng ngang hàng (P2P) để cập nhật mã độc và xóa các dấu vết mã độc lưu lại trên thiết bị IoT. Theo phân tích của hãng bảo mật Symantec [101] thì sau khi lây nhiễm lên thiết bị, mã độc Linux.Wifatch có thể thực hiện những hành vi mở cổng hậu hoặc kết nối tới máy chủ C&C thông qua giao thức TCP. Spike/Dofloo/MrBlack/Wrkatk/Sotdas/AES.DdoS [55] là loại mã độc được phát hiện lây nhiễm các thiết bị IoT có kiến trúc ARM và MIPS vào giữa năm 2014. Điểm khác biệt trong kiến trúc mạng botnet so với những dòng mã độc trước đây là thường sử dụng IRC-based thì dòng mã độc này sử dụng Agent-handler. Hơn nữa, mã độc này sử dụng cơ chế bảo đảm sự bền vững bằng cách giả mạo tập tin etc/rc.local, nhằm duy trì sự lây nhiễm khi thiết bị khởi động lại. Bên cạnh đó, đặc trưng nổi bật của mã độc này là sử dụng luồng SendInfo để tính toán hiệu năng của thiết bị và gửi về máy chủ C&C, khi đó kẻ tấn công có thể triển khai mật độ thực hiện tấn công từ chối dịch vụ phân tán trên mỗi thiết bị bot hiệu quả. BASHLITE/Gafgyt/Q-Bot/Torlus/Lizkebab/LizardStresser) là loại mã độc xuất hiện vào năm 2014, có nhiều đặc điểm tương tự như dòng mã độc Spike như kiến trúc mạng botnet sử dụng Agent-Handler, có khả năng lây nhiễm trên các thiết bị đa kiến trúc, thực hiện tấn công từ chối dịch vụ phân tán bằng một số kỹ thuật đơn giản như SYN, UDP, TCP ACK Flood. - Máy hỗ trợ vector (SVM – Support Vector Machine): Ý tưởng của SVM đến từ việc phân tách các mẫu mã độc (dương tính) và lành tính (âm tính), trong không gian đặc trưng sử dụng một đường thẳng (trong không gian 2 chiều), hoặc thường sử dụng siêu phẳng (hyperlane) tối ưu cho phép chia các điểm thành 2 phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này.Thuật toán này xây dựng một hoặc nhiều siêu phẳng (hyperplanes) để chia tập dữ liệu cho việc phân loại.

Hình 1.3. Số lượng mã độc botnet trên các thiết bị IoT giai đoạn 201 6– 2018
Hình 1.3. Số lượng mã độc botnet trên các thiết bị IoT giai đoạn 201 6– 2018

PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC IOT BOTNET

So sánh, đánh giá các phương pháp dựa trên phân tích tích trong phát hiện mã độc IoT botnet

Các nghiên cứu dựa trên phân tích tĩnh trong phát hiện mã độc thường sử dụng những đặc trưng phổ biến như [78], [95]: tiêu đề tập tin (header), các lời gọi hàm system- calls, lời gọi API (Application Programming Interfaces), PSI (Printable Strings Information), FLF (Function Length Frequency), các thư viện liên kết, OpCode (trích xuất từ mã assembly), … Dịch ngược là hướng tiếp cận phổ biến để trích xuất những thông tin đặc trưng trên từ một tập tin thực thi. Để đạt được mục tiêu này, nhóm tác giả đã phân tích cấu trúc thông qua các đặc trưng lý thuyết đồ thị như kích thước đồ thị (số lượng đỉnh, số lượng cạnh), trung bình đường đi ngắn nhất trong đồ thị, độ trung tâm ở giữa (betweeness centrality), độ trung tâm dựa trên sự gần gũi (closeness centrality) - chỉ ra vị trí các nút trong mạng và khả năng kết nối các thành phân hoặc nhóm trong mạng), độ trung tâm dựa trên trị riêng (eigenvalue centrality) - chỉ ra nút đó có độ trung tâm nhất trong toàn đồ thị, độ trung tâm dựa trên bậc của nút (degree centrality) - là độ đo chỉ dựa vào bậc của nút và được xác định bằng số cạnh hay số kết nối mà một nút có), … Kết quả thực nghiệm trên bộ dữ liệu chứa 2874 mẫu mã độc IoT botnet và 201 mẫu mã độc Android đã cho thấy mã độc IoT có số lượng đỉnh và cạnh ít hơn nhiều so với mã độc Android, và các đặc trưng lý thuyết đồ thị luồng điều khiển giữa mã độc IoT botnet và Android cũng có biến thiên lớn.

Hình 2.4. Phân loại các đặc trưng tĩnh trong phát hiện mã độc IoT botnet
Hình 2.4. Phân loại các đặc trưng tĩnh trong phát hiện mã độc IoT botnet

ĐẶC TRƯNG ĐỒ THỊ PSI TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET

Phát biểu bài toán

Thứ hai, phương pháp còn phụ thuộc nhiều vào giá trị của các chuỗi trong các tập tin nên với các chuỗi bị mã hóa thì sẽ không hiệu quả, đồng thời không mô tả được thông tin ngữ nghĩa phức tạp (ví dụ dữ liệu phụ thuộc xuất hiện trong vòng đời mã độc IoT botnet). Với mô tả chi tiết các đặc trưng của các công trình nghiên cứu tiêu biểu trong phân tích tĩnh phát hiện mã độc botnet trên thiết bị IoT, đặc trưng mới trong phát biểu bài toán nghiên cứu tại Chương này sẽ tận dụng được các điểm mạnh cũng như giải quyết được những hạn chế của các đặc trưng đã có, từ đó đem lại hiệu quả cao trong bài toán phát hiện mã độc IoT botnet với các thuật toán học máy, học sâu.

Xây dựng đồ thị PSI 1. Các khái ni m liên quan

Chính vì thế, dựa trên cơ sở đồ thị lời gọi hàm, luận án hướng tới xây dựng một đặc trưng đồ thị mới, có hiệu quả cao (độ phức tạp thấp khi có thể giảm số lượng đỉnh và số lượng cạnh của đặc trưng đồ thị nhưng vẫn đảm bảo tỷ lệ phát hiện chính xác cao) trong bài toán phát hiện mã độc IoT botnet khi áp dụng với các kỹ thuật học máy, học sâu. Xây dựng đồ thị PSI. 4) Cố gắng tìm kiếm các loại mã độc khác trên thiết bị để hủy hoặc xóa chúng ngay khi lây nhiễm thành công để đảm bảo tài nguyên bởi các thiết bị IoT là những thiết. Bên cạnh đó, đồ thị PSI được sinh ra dựa trên việc cắt tỉa đồ thị lời gọi hàm, điều này khiến xảy ra trường hợp hai tập tin thực thi mẫu (𝑆1, 2) được biểu diễn đặc trưng bởi hai đồ thị lời gọi hàm khác nhau (𝑆1 → 𝑆 𝑆 1𝑆, 𝑆2 → 𝑆 𝑆 2𝑆); tuy nhiên qua quá trình cắt tỉa đồ thị lời gọi hàm, luận án chỉ giữ lại các hàm (các đỉnh) chứa thông tin dạng chuỗi; điều này khiến hai đồ thị PSI được sinh ra có khả năng giống nhau (𝑆 𝑆 1𝑆, 𝑆 𝑆 2𝑆→.

Hình 3.6. Các chuỗi bị mã hóa trong Linux.Mirai
Hình 3.6. Các chuỗi bị mã hóa trong Linux.Mirai

ĐẶC TRƯNG ĐỒ THỊ CON PSI Cể GỐC TRONG PHÁT HIỆN MÃ ĐỘC IOT BOTNET

Phát biểu bài toán

Xây dựng đặc trưng đồ thị PSI-rooted subgraph 1. Khái ni m

Luận án tiếp cận kỹ thuật lựa chọn đặc trưng theo phương pháp Wrapper, tức là đánh giá dựa trên một thuật toán học máy cụ thể để tìm các đặc trưng tối ưu, thuật toán mà luận án sử dụng là SVM tuyến tính (SVM linear) vì SVM tuyến tính hiệu quả tốt trong việc xây dựng một đường phân chia các lớp để chọn các đặc trưng có tầm ảnh hưởng, thứ hai SVM tuyến tính có khả năng tính được độ quan trọng của đặc trưng và thứ ba là SVM tuyến tính tương đối nhanh. Với dữ liệu đặc trưng thu được, luận án lựa không sử dụng các thuật toán học máy phức tạp mà chọn một số thuật toán học máy phổ biến trong bài toán phát hiện mã độc như SVM, Decision Tree, Random Forest, cùng với nhưng thuật toán học máy đơn giản, ít được sử dụng như Bagging và kNN, để chứng tỏ tính mạnh mẽ và hiệu quả của đặc trưng đồ thị con PSI có gốc trong bài toán phát hiện mã độc IoT botnet.

Hình 4.4. Kết quả thử nghiệm với các độ sâu khác nhau khi duyệt đồ thị con PSI
Hình 4.4. Kết quả thử nghiệm với các độ sâu khác nhau khi duyệt đồ thị con PSI