Phân loại hành vi phần mềm độc hại thiết bị IoT dựa vào system call Hoàng Đăng Kiên, Nguyễn Đại Thọ, Vũ Duy Lợi Đại học Công nghệ, Đại học quốc gia Hà Nội Email: {15021363, nguyendaitho}@vnu.edu.vn, vuduyloi55@gmail.com Tóm tắt Phần mềm độc hại từ lâu bị IoT, khiến cho thiết bị dễ dàng bị khai thác thông mối nguy hại lớn hệ thống máy tính, chuyển sang thiết bị IoT Trong báo qua lỗ hổng bảo mật [3] [9] thực phân tích 32 356 firmware thiết bị nhúng phát đề xuất sử dụng thuật toán FRNN để thay 38 lỗ hổng bảo mật Theo thống kê cho thuật tốn 1-NN quy trình đề xuất Rieck cộng [2] Kết thực nghiệm cho thấy Kaspersky, số lượng mã độc thu thập thiết bị IoT nửa đầu năm 2018 gấp lần năm 2017 phương pháp đề xuất mang lại hiệu phân lớp cao mã độc biết với độ đo 10 lần so với năm 2016 Cách công lây nhiễm chủ yếu bẻ khóa mật Telnet SSH thiết micro-𝐹1 lên tới 98% trì khả phát loại mã độc lên tới 97%, khả chống lại ảnh hưởng liệu nhiễu so với phương bị cấu hình mật yếu [1] Năm 2016, mã độc Mirai lợi dụng lỗ hổng để gây công từ chối pháp gốc tăng lên đáng kể tới 620Gbps với 380000 thiết bị lây nhiễm tham gia dịch vụ phân tán lớn lịch sử với lưu lượng mạng lên Từ khóa Phần mềm độc hại, IoT, system call Nghiên cứu mã độc thiết bị IoT I GIỚI THIỆU quan tâm sâu sắc lĩnh vực an tồn thơng tin Các chủ đề nghiên cứu trước tập trung vào Cuộc cách mạng công nghiệp lần thứ tư hiểu phát triển vượt bậc loạt công mã độc hệ điều hành Windows kiến trúc vi xử lý Intel gần thiết bị di động Các đề tài nghệ mới, xóa nhịa ranh giới lĩnh vực vật lý, kỹ thuật số, sinh học, ảnh hưởng đến kinh tế, xã hội, giáo nghiên cứu mã độc thiết bị IoT cịn hạn chế Detux [5] cung cấp mơi trường phân tích động phục vụ dục trị Các lĩnh vực quan tâm cách mạng 4.0 bao gồm: Robotics, trí cho thu thập mã độc nhiên kết thu có liệu mạng (tập tin pcap) thơng tin phân tích thơng minh nhân tạo, cơng nghệ nano, cơng nghệ sinh tĩnh [7] phân tích hành vi mã độc IoT học, Internet vạn vật (IOT), in 3D, xe tự hành Trong thiết bị IoT đóng vai trị vơ quan trọng nhiên tập trung vào mã độc Mirai hành vi đặc trưng qt cổng [8] phân tích mã độc kiến Theo thống kê từ trang web https://iot-analytics.com, giới có 17 tỉ thiết bị kết nối trúc ARM cách tiếp cận phân lớp khơng có khả phát lớp phần mềm độc hại Internet có tỉ thiết bị IoT điển hình CameraIP, VoIp, smart TV, thiết bị định tuyến, … Các thiết bị IoT có đa dạng kiến trúc vi xử lý xây dựng đánh giá quy trình phân tích hành vi mã độc MIPS, MIPSEL, ARM, PowerPC, SuperH, SPARC…, hệ điều hành phổ biến Linux [6] thiết bị IoT dựa system call Báo cáo xây dựng dựa phương pháp Các thiết bị thường có tài nguyên hạn chế thiết kế cho chức chuyên biệt đưa báo [2] Hai bước quy trình phân tích là: phân lớp nhằm dự báo nhãn Do việc cạnh tranh phát triển công nghệ, nhà sản xuất không trọng tới an ninh thiết Trước thực trạng đó, tiến hành nghiên cứu lớp mã độc thuộc họ biết , phân cụm giúp gom nhóm hành vi mã độc chưa biết giống tạo thành lớp cập nhật tự động vào phân lớp Chúng đề xuất sử dụng thuật toán FRNN để thay cho thuật toán 1-NN nhằm giảm thiểu ảnh hưởng liệu nhiễu Kết thực nghiệm cho thấy phương pháp đề xuất mang lạị hiệu phân lớp cao mã độc biết với độ đo micro-𝐹1 lên tới 98% trì khả phát Hình 1: Quy trình phân loại mã độc loại mã độc lên tới 97%, khả chống lại ảnh hưởng liệu nhiễu so với phương pháp gốc tăng lên đáng kể II CƠNG TRÌNH LIÊN QUAN qua CWSandbox Các báo cáo sau biểu diễn khơng gian vector cách sau: Giả sử có tất n system call vector có n2 chiều tương ứng với số lượng tất 2-gram system call có thể, chiều đại diện cho 2-gram Nếu 2-gram có xuất Năm 2011, Rieck cộng áp dụng quy trình tự động phân tích hành vi mã độc dựa system call sử dụng kết hợp phân cụm phân lớp chuỗi system call mã độc chiều tương ứng với 2-gram 1, ngược lại Vector Trong phân lớp giúp gán nhãn cho mã độc biết sau chuẩn hóa cách chia tất chiều cho độ dài vector Kết thu phát mã độc chưa biết Phân cụm giúp gom mã độc chưa biết có hành vi giống tạo vector có độ dài 1, kéo gốc vector gốc tọa độ lấy điểm đầu vector làm điểm đại diện cho thành cụm Các cụm đủ mặt số lượng đươc coi lớp mã độc tự động cập nhật vào mã độc phân lớp Các tham số tối ưu cho phân lớp phân cụm tìm thơng qua liệu có nhãn Sau gian vector, việc phân lớp mã độc thực theo thuật toán 1-NN Nhược điểm thuật toán k-NN nói có tham số, việc phân tích mã độc chung 1-NN nói riêng thời gian phân lớp với liệu lớn Để giảm thời gian phân lớp thực theo quy trình hình Đầu tiên mã độc chạy môi trường sandbox để thu thập system call thời gian thực thi, sau mã độc biểu diễn điểm không gian vector Các điểm đưa qua phân lớp để phân loại, mã độc thuộc lớp biết đựa nhãn lớp, mã độc thuộc lớp chưa biết đưa vào tập riêng Việc phân cụm thực tập mã độc chưa biết để tìm Sau có điểm biểu diễn mã độc khơng liệu mới, kỹ thuật trích xuất điểm nguyên mẫu sử dụng để chọn số điểm đại diện cho tập liệu biết nhãn Việc tính tốn để phân lớp cho liệu thực điểm nguyên mẫu tập liệu Giải thuật đề xuất Gonzalez 1985 [13] Chi tiết thuật tốn trình bày thuật tốn Thuật tốn có tham số ngưỡng 𝑑𝑝 khoảng mã độc có hành vi giống đưa chúng vào cụm cách tối đa điểm liệu điểm Các cụm đủ mặt số lượng coi họ mã độc chưa biết tới cập nhật tự động vào nguyên mẫu gần với Các điểm nguyên mẫu phân lớp Trong báo cáo tập chung vào cải tiến giải thuật phân lớp tác giả nên tập chung giới thiệu vào giải thuật Các báo cáo system call thu thập thông chọn từ tập liệu khoảng cách từ liệu điểm với điểm mẫu gần với nhỏ 𝑑𝑝 Các điểm liệu đại diện điểm nguyên mẫu gần Minh họa việc trích xuất điểm mẫu thể hình Thuật tốn 1: Trích xuất điểm ngun mẫu gần Nếu 𝑑𝑟 lớn nhiều mã độc chưa biết 2: distance[x]← ∞ for all x ∈ reports gán vào họ mã độc biết, 𝑑𝑟 nhỏ nhiều mã độc thuộc họ biết coi mã độc 3: while (1) chưa biết Thuật toán dựa k-NN với k=1 có 1: prototypes ← ∅ 4: find z that distance[z]=max(distance) 5: if (distance[z] d(x,z) then distance[x]=d(x,z) add z to prototypes thêm chút chỉnh sửa bổ xung thêm ngưỡng 𝑑𝑟 để phát mã độc Độ phức tạp cho lần phân lớp mã độc O(N) với N số điểm nguyên mẫu, áp dụng cách lưu trữ điểm nguyên mẫu dạng K-D tree độ phức tạp giảm xuống cịn O(log N) [10] Thuật tốn 2: Phân lớp mã độc 1: for x ∈ reports 2: 3: 4: 5: z← nearest prototype to x if d(z, x) > 𝑑𝑟 then reject x as unknown class else 6: assign label of x equal to label of z III ĐĨNG GĨP CỦA CHÚNG TƠI Chúng tơi tiến hành áp dụng đưa cải tiến Hình 2: Minh họa việc trích xuất điểm mẫu Tồn chấm hình biểu diễn cho tập liệu, điểm đen điểm nguyên mẫu điểm trắng điểm liệu thông thường Các điểm trắng nối với điểm đen gần nhất, đại diện điểm đen Sau trích chọn điểm đen, điểm trắng loại bỏ khơng có ý nghĩa phân lớp liệu Sau q trình lựa chọn, việc thực thuật tốn phân lớp liệu thực thuật tốn Thuật tốn có tham số 𝑑𝑟 khoảng cách tối đa cho phép tới điểm mẫu gần để mã độc coi thuộc lớp biết Với mã độc mới, thuật tốn tìm điểm ngun mẫu gần nhất, khoảng cách tới điểm gần lớn ngưỡng 𝑑𝑟 chứng tỏ độ khác biệt với mã độc biết lớn mã độc gán nhãn mã độc chưa biết, ngược lại liệu gán nhãn với nhãn điểm nguyên mẫu thuật toán phân lớp sử dụng tác giả [2] liệu mã độc thiết bị IoT Một nhược điểm thuật toán tác giả [2] việc nhạy cảm với liệu nhiễu nhãn lớp Sự nhạy cảm với liệu nhiễu thuật toán k-NN với k=1 thử nghiệm báo [12] nhiều liệu khác Các nhà nghiên cứu cố gắng gán nhãn mã độc cách xác để có liệu tốt cho việc học nhiên việc gần khơng thể Bailey cộng hầu hết tất antivirus cung cấp nhãn lớp khơng hồn hảo cho huấn luyện [11], chúng tơi xem xét trường hợp nhãn lớp liệu bị nhiễu nhãn lớp Để giải vấn đề đó, chúng tơi xem xét nhiều điểm nguyên mẫu riêng điểm nguyên mẫu, phân lớp dựa tất điểm nguyên mẫu, phân lớp dựa tất điểm nguyên mẫu biết khu vực bán kính 𝑑𝑟 , thuật tốn có tên Fixed Radius Nearest Neighbor (FRNN) [15], chi tiết giải thuật xem thuật toán Thuật toán 3: Fixed Radius Nearest Neighbor 1: for x ∈ reports 2: neighbors ←{ z : d(x, z) < 𝑑𝑟 3: 4: 5: if neighbors is ∅ then reject x as unknown class else 6: assign x to the label that biggest number of neighbors belong to A Thu thập tiền xử lý liệu Các mẫu mã độc thiết bị IoT thu thập nhiều nguồn khác bao gồm Detux.com, VirusShare.com IoTPot [4] Sau loại bỏ liệu trùng lặp liệu lại 3900 mẫu B Đánh giá a Các Độ đo cho đánh giá phân lớp Độ đo sử dụng cho đánh giá phân lớp độ đo 𝑭𝟏𝒎𝒊𝒄𝒓𝒐 Độ đo 𝑭𝟏𝒎𝒊𝒄𝒓𝒐 định nghĩa dựa khái niệm sau: 𝑻𝑷𝒊 : Các điểm liệu thuộc lớp i gán vào lớp i 𝑻𝑵𝒊 : Các điểm liệu nhãn i gán nhãn nhãn i 𝑭𝑷𝒊 : Các điểm liệu không thuộc nhãn i THỰC NGHIỆM VÀ ĐÁNH GIÁ IV } 929 mẫu với lớp mã độc Các liệu system call thu thập trình thực thi thơng qua sandbox xây dựng Các system call phát sinh thu thập công cụ Strace, môi trường để lại gán nhãn i 𝑭𝑵𝒊 : Các điểm liệu thuộc nhãn i lại gán nhãn i Độ xác trung bình mịn tồn lớp: ∑ 𝑻𝑷𝒊 𝑷𝒎𝒊𝒄𝒓𝒐 = ∑(𝑻𝑷𝒊 +𝑭𝑷𝒊 ) Độ hồi tưởng bình mịn tồn lớp: ∑ 𝑻𝑷𝒊 𝑹𝒎𝒊𝒄𝒓𝒐 = ∑(𝑻𝑷𝒊 +𝑭𝑵𝒊 ) Độ đo F toàn lớp: chạy mã độc kiến trúc vi xử lý thiết bị IoT giả lập QEMU, môi trường Internet mô INetSim Các kết giới thiệu [14] Tổng cộng thu 2200 báo cáo system call lớp mã độc thiết bị IoT từ 3900 mẫu thu thập Các liệu gán nhãn hãng antivirus tiếng là: Kaspersky, Avast, Avira, Symantec Cách trích xuất điểm biểu diễn mã độc không gian vector thực dựa 2gram system call theo [2] trình bày 𝑭𝟏𝒎𝒊𝒄𝒓𝒐 =2 ∙ Các điểm ngoại lai phát loại bỏ khỏi tập liệu thuật tốn DBSCAN [15] Các lớp có số lượng liệu lớn loại bỏ bớt để đảm bảo nhãn lớp không lệch nhiều Lớp có 13 liệu, lớp nhiều lấy tối đa 300 mẫu liệu Sau loại bỏ bớt, liệu 𝑷𝒎𝒊𝒄𝒓𝒐 +𝑹𝒎𝒊𝒄𝒓𝒐 b Đánh giá phân lớp Tập liệu chia làm tập huấn luyện đánh giá Chúng tiến hành chọn điểm nguyên mẫu để đại diện cho cho tập huấn luyện theo thuật tốn trích xuất điểm ngun mẫu đề xuất bên Để đánh giá khả phát mã độc chưa biết, lần thử coi lớp mã độc chưa biết không cung cấp ví dụ cho tập huấn luyện Hai độ đo sử dụng để đánh giá là: Fk độ đo 𝑭𝟏𝒎𝒊𝒄𝒓𝒐 tính phần mã độc biết tập đánh giá để đánh giá khả phân lớp mã độc biết (Thuộc lớp 𝑷𝒎𝒊𝒄𝒓𝒐 ∙𝑹𝒎𝒊𝒄𝒓𝒐 cung cấp ví dụ cho tập huấn luyện) Fk độ đo 𝑭𝟏𝒎𝒊𝒄𝒓𝒐 tính phần mã độc chưa biết tập đánh giá (Thuộc lớp không cung cấp ví dụ cho tập huấn luyện), nhằm đánh giá khả phát mã độc chưa biết, có định xem xét coi chưa biết coi biết (tức phân vào lớp biết) Ngưỡng 𝑑𝑝 dùng cho thuật tốn trích xuất ngun mẫu chọn 0,8 theo cách chọn giới thiệu [2] Sau liệu tập đánh giá gán nhãn dựa vào điểm nguyên mẫu trích xuất từ tập huấn luyện theo thuật toán phân lớp 1-NN FRNN Ngưỡng 𝑑𝑟 thay đổi nhiều mức khác Kết cho bảng Cả hai thuật toán cho kết tốt ngưỡng 1-NN 𝑑𝑟 FRNN 𝐹𝑘 𝐹𝑢 𝐹𝑘 𝐹𝑢 0.65 0.9812 0.9739 0.9844 0.9739 0.7 0.9863 0.9728 0.9895 0.9728 0.75 0.9887 0.9689 0.9919 0.9689 0.8 0.9907 0.9625 0.9939 0.9625 0.85 0.9907 0.8467 0.9939 0.8467 𝑑𝑟 =0.75 kết hai thuật tốn có giống nhau, ngun nhân áp dụng thuật tốn trích xuất điểm mẫu, mật độ điểm nguyên mẫu thưa (khoảng cách nguyên mẫu lớn 𝑑𝑝 ) 𝑑𝑟 nhỏ khu vực bán kính 𝑑𝑟 xung quanh điểm thường tồn nguyên mẫu thuật tốn Bảng 2: Kết 1-NN FRNN không sử dụng điểm mẫu tập huấn luyện không riêng điểm mẫu Kết cho bảng Với 𝑑𝑟 =0.8 thấy kết 𝑭𝒖 nên FRNN 1-NN cho kết giống Khi 𝑑𝑟 lớn ta tìm nhiều điểm mẫu xung quanh điểm không tiếp tục thử 𝑑𝑟 lớn Kết cho thấy hiệu suất thuật toán tốt cao tương đương xét, kết hai thuật tốn có khác biệt Tuy ngưỡng tốt 𝑑𝑟 =0.7, độ đo 𝑭𝒖 khơng có khác nhiên 𝑑𝑟 lớn nhiều mã độc chưa biết coi thuộc loại mã độc biết ảnh hưởng tới 𝐹𝑢 biệt, 𝑭𝒌 có khác không đáng kể, so sánh thống kê kết cho giá trị p-value > 0.05 theo kiểm định Wilcoxon tức khác biệt ý 1-NN 𝑑𝑟 FRNN nghĩa thống kê Cuối thử nghiệm sức mạnh hai 𝐹𝑘 𝐹𝑢 𝐹𝑘 𝐹𝑢 0.7 0.8820 0.9720 0.8820 0.9720 0.75 0.9572 0.9698 0.9572 0.9698 phần trăm định, nhiễu gọi nhiễu nhãn lớp đồng dạng (uniform class noise), loại nhiễu phổ 0.8 0.9730 0.8734 0.9702 0.8734 biến nhiễu cặp (pairwise class noise) 0.85 0.9799 0.7854 0.9739 0.7854 trình thử nghiệm đánh giá Chúng cung cấp thêm kiểm định thống kê Wilcoxon để so sánh kết 0.9 0.9843 0.7359 0.9769 0.7359 Bảng 1: So sánh thuật toán 1-NN thuật tốn FRNN trường hợp có sử dụng điểm mẫu Việc lựa chọn điểm nguyên mẫu để đại diện cho tập huấn luyện gây mát thông tin ảnh hưởng tới hiệu suất phân lớp Chúng thử nghiệm ảnh hưởng việc dùng điểm mẫu để đại diện cho tập huấn luyện Tại thử nghiệm dự đốn nhãn lớp cho tập đánh giá tồn điểm thuật toán liệu nhiễu Các liệu tập huấn luyện ngẫu nhiên làm sai nhãn lớp số khách quan Tham số 𝑑𝑟 cố định giá trị 0.7 tốt tìm bên Do việc làm sai nhãn lớp ngẫu nhiên không ảnh hưởng tới khả phát mã độc nên xem xét 𝑭𝒌 Kết cho bảng Kết cho thấy thuật toán FRNN mạnh mẽ liệu cung cấp có sai lệch nhãn lớp Tức antivirus cung cấp nhãn lớp sai phần nhỏ thuật tốn FRNN mang lại kết dự báo nhãn lớp tốt mã độc biết Mức nhiễu 𝐹𝑘 (1-NN) 𝐹𝑘 (FRNN ) p-value phát triển phương pháp phân lớp cải thiện tốc độ đảm bảo mặt hiệu suất có khả 5% 89.28% 98.42% 3.51e-07 10% 85.41% 98.16% 5.677e-07 phát mã độc chưa biết, việc phân cụm mã độc chưa biết tiếp tục phát triển để hoàn 20% 78.71% 97.66% 1.563e-06 thiện quy trình Bảng 3: Kết so sánh 1-NN FRNN với liệu nhiễu c Một số hạn chế thuật toán cách đánh giá Về mặt tốc độ: Việc sử dụng liệu điểm mẫu giúp giảm số lượng liệu huấn luyện cần xét 20 lần tốc độ phân lớp giảm 20 lần không dùng cấu TÀI LIỆU THAM KHẢO [1] https://securelist.com/new-trends-in-the-worldof-iot-threats/87991/ [2] Konrad Rieck, Philipp Trinius, trúc liệu thuật toán Khi biểu diễn Carsten Willems, and liệu huấn luyện dạng hỗ trợ thư viện sklearn Python, tốc độ trung bình 30 lần chạy Thorsten Holz "Automatic Analysis of Malware Behavior using Machine Learning”, 1-NN FRNN sử dụng điểm mẫu liệu 0.09 giây, 1-NN không dùng điểm mẫu Journal of Computer Security 19 (4) 639-668, 2011 0.35 giây FRNN không sử dụng điểm mẫu 0.85 giây Như vậy, số lượng liệu lớn, cần [3] Michele De Donno, Nicola Dragoni, Alberto Giaretta, Angelo Spognardi: “DDoS-Capable IoT Malwares: Comparative Analysis and Mirai Investigation” Security and Communication Networks 2018: 7178164:17178164:30 (2018) [4] no 3, Pa YMP, Suzuki, S Yoshioka, K Matsumoto, TKasama, T Rossow, C 2016, “IoTPOT: A honeypot for revealing current IoT threats” Journal of Information Processing, vol 24, pp 522-533 DOI: 10.2197/ipsjjip.24.522 [5] Detux [6] https://github.com/detuxsandbox/detux https://www.itprotoday.com/iot/survey- cân nhắc nên sử dụng điểm mẫu để giảm tốc độ xử lý chấp nhận giảm hiệu suất hay chọn thời gian phân lớp lớn Chênh lệch nhãn lớp: Một vấn đề khác thuật tốn FRNN vấn đề chênh lệch nhãn lớp, hai lớp gần mà có số lượng chênh lệch nhiều gây phân lớp sai việc phân lớp liệu thuộc lớp Việc xem xét nhiễu: Chúng tơi chưa mơ hình hóa nhiễu nhãn lớp antivirus gán nhãn mã độc, thử nghiệm số hai loại quy luật nhiễu phổ biến novel [7] Using Association Rule Learning”, Procedia Computer Science, Volume 144, 2018, Pages toán 1-NN mang lại hiệu tốt nhiên lại nhạy cảm với liệu nhiễu Thuật toán FRNN mạnh mẽ với điểm hai phương pháp thời gian phân lớp liệu so với phương pháp sử dụng mơ hình Trong tương lai, chúng tơi tiếp tục kiếm Naoki Hashimoto, Seiichi Ozawa, Tao Ban, Junji Nakazato, Jumpei Shimamura, “A Darknet Traffic Analysis for IoT Malwares nghiệm hai phương pháp phân loại có khả phát mã độc chưa biết với độ hiệu cao Thuật nhiễu mang lại hiệu tốt Tuy nhiên nhược sandbox: showslinux-top-operating-system-internetthingsdevices KẾT LUẬN Trong báo cáo giới thiệu thực (JCS), [8] 118-123 Ensiyeh Modiri, Amin Azmoodeh, Ali Dehghantanha, David Ellis Newton, Reza M Parizi, Hadis Karimipour, “A deep Recurrent Neural Recurrent Neural Network based approach [13] maximum intercluster distance” Theoretical Computer Science 38, pages 293–306, 1985 for Internet of Things malware threat hunting”, In Journal of Systems Architecture [9] [10] “A Large-Scale Analysis of the Security of Embedded Firmwares“, Andrei Costin, Jonas Nghi Phu Tran and Quoc Dung Ngo and Dang Kien Hoang and Ngoc Binh Nguyen and Dai Zaddach, Aurélien Francillon, and Davide Balzaro, Eurecom https://www.usenix.org/conference Tho Nguyen (2018) “Phát hiện mã độc thiết bị IoT dựa lời gọi Syscall phân /usenixsecurity14/technical-sessions/presentation/ loại một lớp costin “Multidimensional binary search trees used for Một số vấn đề chọn lọc an tồn an ninh thơng tin, December 6-7, 2018, Da Nang associative searching”, Bentley, Communications of the ACM (1975) [11] [14] J.L., M Bailey, J Oberheide, J Andersen, Z M Mao, F Jahanian, and J Nazario Automated classification Symposium on Recent Advances in Intrusion Detection (RAID), pages 178–197, Queensland, Australia, 2007 Springer José A Sáez, Mikel Galar, Julián Luengo, Francisco Herrera, Tackling the Problem of Classification with Noisy Data using Multiple Classifier Systems: Analysis of the Performance [15] SVM.” In: Hội thảo lần thứ III Bentley, Jon Louis (1975), A survey of techniques for fixed-radius near and analysis of internet malware In Proceedings of [12] T Gonzalez “Clustering to minimize the and Robustness Information Sciences, 247 (2013) 1-20 neighbor searching (PDF), Technical Report SLAC-186 and STAN-CS-75 513, Stanford Linear Accelerator Center ... động phân tích hành vi mã độc dựa system call sử dụng kết hợp phân cụm phân lớp chuỗi system call mã độc chiều tương ứng với 2-gram 1, ngược lại Vector Trong phân lớp giúp gán nhãn cho mã độc. .. cho thành cụm Các cụm đủ mặt số lượng đươc coi lớp mã độc tự động cập nhật vào mã độc phân lớp Các tham số tối ưu cho phân lớp phân cụm tìm thơng qua liệu có nhãn Sau gian vector, vi? ??c phân lớp... lớp: chạy mã độc kiến trúc vi xử lý thiết bị IoT giả lập QEMU, môi trường Internet mô INetSim Các kết giới thiệu [14] Tổng cộng thu 2200 báo cáo system call lớp mã độc thiết bị IoT từ 3900 mẫu