Phân loại mã độc dựa trên các kỹ thuật N-gram và học máy

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	10
Dung lượng	1,56 MB

Nội dung

Bài viết nghiên cứu và cải tiến giải thuật trích rút điểm mẫu trong quy trình phân loại mở mã độc dựa trên điểm mẫu được đề xuất bởi Rieck và các cộng sự.

Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi Khoa Công nghệ thông tin, Trường Đại học Cơng nghệ, Đại học Quốc gia Hà Nội Tóm tắt: Mã độc mối đe dọa lớn đến an ninh hệ thống máy tính Vì phân loại mã độc để có biện pháp đối phó thích hợp phần quan trọng lĩnh vực an tồn thơng tin Trong báo này, chúng tơi cải tiến giải thuật trích rút điểm mẫu quy trình phân loại mở mã độc dựa điểm mẫu đề xuất Rieck công [1] Chúng áp dụng tư tưởng hai phương pháp phân loại dựa điểm đặc trưng Dendroid [2] phương pháp đề xuất P.Shrestha cộng [3], trích rút điểm mẫu họ mã độc thay dựa tồn họ mã độc Thực nghiệm cho thấy phương pháp cho kết phân loại tốt với khả nhận biết mã độc 0.981% phát mã độc 0.988% cao phiên gốc phương pháp dựa điểm mẫu [1].1 Từ khóa: Phân loại mã độc, n-gram, điểm mẫu I GIỚI THIỆU Phần mềm độc hại (hay mã độc) chương trình chèn vào hệ thống, thường cố tình, với mục đích xâm phạm tính bảo mật, tồn vẹn, tính khả dụng liệu, ứng dụng, hệ điều hành nạn nhân gây phiền nhiễu, làm gián đoạn nạn nhân [4] Phần mềm độc hại có nhiều loại virus, Trojan, worm, phần mềm gián điệp, rootkit, v.v Cùng với phát triển nhanh chóng Internet, phần mềm độc hại ngày gia tăng Theo thống kê Kaspersky, 21.643.947 đối tượng phần mềm độc hại phát vào năm 2018 gấp lần so với năm 2015 [5] Mặc dù có cải thiện đáng kể chế an ninh, phần mềm độc hại ngày tinh vi có chế lẩn trốn nên chúng mối đe dọa lớn hệ thống máy tính Vì phát phân tích hành vi phần mềm độc hại nhiệm vụ quan trọng để làm giảm tối đa thiệt hại chúng gây ra.2 Phân tích mã độc đề cập đến q trình xác định mục đích, hành vi, phương pháp công cách thức lan truyền chúng Phân tích mã độc chia làm hai loại phân tích tĩnh phân tích động Phân tích tĩnh hay cịn gọi phân tích mã tĩnh để cố gắng suy hành vi phần mềm, q trình phân tích phần mềm mà khơng cần thực thi mã chương trình Các mẫu phát trích xuất phân tích tĩnh như: Lời gọi hệ thống, API, signature, biểu đồ điều khiển, opcode, bytecode, file DLL gọi Ưu điểm phân tích tĩnh an tồn quan sát hết phần chương trình Tác giả liên hệ: Nguyễn Đại Thọ Email: nguyendaitho@vnu.edu.vn Đến tòa soạn: 8/2019, chỉnh sửa 11/2019, chấp nhận đăng 12/2019 SỐ 03&04 (CS.01) 2019 Nhược điểm phân tích tĩnh khó phân tích với phần mềm sử dụng kỹ thuật che giấu, mã hóa đóng gói Phân tích động tiến hành thực thi phần mềm độc hại môi trường sandbox giám sát để thu thập hành vi mã độc Vì sandbox cần phải an tồn Trong loại phân tích này, thu thập tất thuộc tính hành vi, chẳng hạn tệp tin đc mở, tạo mutexes, hàm xác gọi, đối số hàm Ưu điểm phân tích động nhanh nhiều phân tích tĩnh Nhược điểm phân tích động, nhìn thấy kịch có liên quan đến hệ thốngvà hành vi phân tích (ví dụ virus chờ đến thời điểm hoạt động) Theo [6], phân tích tự động mã độc hướng tới ba mục tiêu phát hiện, phân tích độ tương tự phân loại.Chúng tâm nghiên cứu đến vấn đề phân loại mã độc Trong nghiên cứu, người ta thường sử dụng phương pháp học máy có giám sát để giải toán phân loại cách tự động Theo [7] có hai cách tiếp cận bật dựa mơ hình (model-based learning) dựa thể (instance-based learning) Với học máy dựa mơ hình (SVM, định, Naive Bayes v.v.), giải thuật tạo mơ hình khái qt hố liệu huấn luyện khơng thích hợp với tốn có liệu phức tạp Mặt khác, phương pháp học máy dựa thể (k-NN, ) khơng khái qt hố liệu mà sử dụng ln liệu để phân loại cách so sánh liệu cần phân loại với liệu huấn luyện, tối ưu hố trường hợp cụ thể thích hợp với tốn phức tạp phân loại Với học máy dựa thể sử dụng tồn tập liệu huấn luyện để phân loại, nhược điểm thời gian phân loại lâu Vì người ta sử dụng phương pháp khác học máy dựa thể phương pháp sử dụng điểm mẫu để đại diện cho tập liệu huấn luyện phân loại dựa điểm mẫu thay sử dụng tồn tập liệu huấn luyện Vì lý trên, chọn sử dụng phương pháp học máy dưạ thể có sử dụng điểm mẫu để phân loại mã độc” Ba cơng trình nghiên cứu phân loại mã độc sử dụng điểm mẫu quan tâm đến là: phương pháp phân loại mở dựa điểm mẫu Rieck cộng [1],hai phương pháp dựa điểm đặc trưng phương pháp Dendroid- áp dụng với mã độc Android [2] phương pháp đề suất P Shrestha cộng sự[3] Phương pháp thứ sử dụng thông tin n-gram chuỗi lời gọi hệ thống, đặc trưng xuất hay không n-gram sử dụng điểm mẫu (prototype) để đại diện cho cụm mã độc Phương pháp có ba thành phần là: trích rút điểm mẫu giúp tìm điểm mẫu đại diện cho cụm, TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 62 PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY phân cụm sử dụng điểm mẫu giúp gộp nhóm cụm tương tự thành cụm lớn hơn, phân lớp sử dụng điểm mẫu để dự báo nhãn lớp cho mã độc chưa biết phát mẫu mã độc Phương pháp thứ hai – Dendroid [2] phương pháp phân loại dựa điểm đặc trưng, áp dụng kỹ thuật lĩnh vực phân loại văn Điểm đặc biệt phương pháp sử dụng điểm đặc trưng tạo từ mã độc họ để đại diện cho tồn họ Kết q trình trích rút đặc trưng vector đại diện chung cho họ mã độc thay đại diện cho mã độc cụ thể Các điểm đặc trưng dùng kết hợp với thuật toán 1NN (One Nearest Neighbor) để phân loại mã độc Mã độc phân vào họ điểm đặc trưng gần Phương pháp phân loại đóng Một điểm liệu cho vào phân loại chắn phân vào lớp biết Phương pháp thứ xây dựng điểm đặc trưng từ mã độc họ họ mã độc đại diện điểm điểm đặc trưng giống phương pháp Dendroid Sau mẫu mã độc cần phân loại tính độ tương tự với điểm đặc trưng họ phân vào họ có độ tương tự lớn Chúng tơi vận dụng tư tưởng phương pháp thứ hai ba để cải tiến giải thuật trích rút điểm mẫu phương pháp thứ Trong q trình trích rút điểm mẫu, thay trích rút điểm mẫu dựa tồn liệu huấn luyện, chúng tơi trích rút điểm mẫu liệu họ Khi họ có nhiều điểm mẫu Chúng tơi giữ quy trình tổng qt chung phương pháp dựa điểm mẫu [1] để phân loại mở mã độc, phân loại mã độc biết nhận biết mã độc có hành vi Chúng đánh giá hiệu phương pháp đề xuất theo hai khả phân loại mã độc biết nhận biết mã độc sử dụng độ đo F1micro (tổng hợp hai thơng số phổ biến độ xác độ hồi tưởng) Kết thực nghiệm cho thấy phương pháp đạtF1microlà 98.1% mã độc biết 98.8% mã độc mới, cao độ đo tương ứng phiên gốc phương pháp thứ Đầu tiên mã độc chạy môitrườngsandbox để giám sát hành vi thu thập chuỗi lời gọi hệ thống đặc trưng cho hành vi chúng 2) Giai đoạn 2: Nhúng hành vi vào khơng gian vector • Đầu vào:Chuỗi lời gọi hệ thống • Đầu ra: Vector đặc trưng đại diện cho mãđộc Chuỗi lời gọi hệ thống sau nhúng vào không gian vector sử dụng n-gram Mỗi thành phần vector đặc trưng thể xuất hay không ngram tương ứng chuỗi lời gọi hệ thống Giả sử tập S= {(x1,x2,x3,x4, , xn)| xi Є A với 1≤ i≤ n} tập tất n-gram có A tập tất lời gọi hệ thống khác Với báo cáo x, hành vi mã độc nhúng vào khơng gian vector có |S| chiều Mỗi chiều tương ứng với n-gram Giá trị chiều vector tính sau: φ(x) = (φs(x))sЄS (1) Trong đó: φs(x) = mẫu báo cáo hành vi x chứa ngram s, ngược lại φs(x) = Ví dụ: A = {a1, a2} → S= {a1a1, a1a2, a2a1, a2a2} Mẫu báo cáo x = a1a2a1a1a2 Bảng I Sự xuất 2-gram 2-gram xuất a1a1 a1a2 a 2a 1 a2a2 →Vector đặc trưng cho mẫu báo cáo x là: x=(1, 1, 1, 0) Chuẩn hóa vector: Sau thu vector đặc trưng mẫu báo cáo x, chuẩn hóa vector để đưa vector có độ dài bằng cách chia cho độ dài Euclid vector đó: II CÁC CƠNG TRÌNH LIÊN QUAN A Phương pháp dựa điểm mẫu Theo phương pháp dựa điểm mẫu [1], mẫu mã độc cần phân loại đưa vào sandbox (một môi trường thực thi giả lập) để thu thập hành vi Thông tin hành vi mã độc nhúng vào không gian vector đặc trưng sau đưa vào thành phần phân loại sử dụng điểm mẫu Nếu phân loại thành cơng mã độc gán nhãn họ mã độc biết, khơng đưa vào tập mã độc chưa biết để làm đầu vào cho giai đoạn trích rút điểm mẫu để tìm điểm mẫu đại diện cho mã độc Thành phần phân cụm sử dụng điểm mẫu thu để phân cụm điểm mẫu Tập điểm mẫu cụm cịn sử dụng cho q trình phân loại Quy trình tổng thể phương pháp mơ tả Hình Cụ thể, ta có quy trình sau: 1) Giai đoạn 1: Chạy mã độc mơi trường sandbox • Đầu vào: File thực thi mã độc • Đầu ra:Chuỗi lời gọi hệ thống SỐ 03&04 (CS.01) 2019 Sau bước 2, ta thu vector đặc trưng cho mã độc 3) Giai đoạn 3: Phân loại sử dụng điểm mẫu • Đầu vào: Vector đặc trưng đại diện cho mã độc • Đầu ra: Nhãn lớp dự đoán cho mã độc Sau bước 2, vector đặc trưng cho mã độc đưa vào mơ hình phân lớp để dự đốn nhãn lớp cho mã độc Thuật tốn sử dụng để phân lớp 1NN ngưỡng dr để loại mẫu mã độc Khi điểm liệu đưa vào, xem khoảng cách tới điểm mẫu Nếu khoảng cách đến điểm mẫu gần nhỏ ngưỡng dr điểm liệu phân vào lớp điểm mẫu gần đưa báo cáo lớp dự đoán được, ngược lại đưa vào tập mã độc chưa biết đưa vào giai đoạn trích rút điểm mẫu Tại thời điểm đầu tiên, chưa có điểm mẫu nên giai đoạn khơng thực TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 63 Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii 4) Giai đoạnn 4: Trích rút điểm mẫu • Đầu vào:: Tập mã độc đ chưa biết nhãn lớp • Đầu ra: Tập T điểm mẫu đại diện cho mã độộc Rieck v cộng ự sử dụng giải thuật đềề xuất Gonzalezz cơng trình [9] để trích t rút điểm mẫu từ tập cáác mã độc chư ưa biết nhãn lớ ớp.Bằng cách tham chiếu khoảngg cách tới điểểm mẫu gần nhất, ta tììm điểểm mẫu đại diiện cho mã m độc Phư ương pháp dựa trêên ý tưởng mã m độc có khooảng càngg gần khả thuộc m họ cààng cao Do chúng g thuật tríchh rút điểm mẫuu nên tập trung vào cải tiến giải chúng tơi trìnnh bày giải thuuật Hìnhh2và giải thíchh bên 5) Giai đoạnn 5: Phân cụm m sử dụng điểm m mẫu • Đầu vào:: Tập điểm m mẫu đại diệnn cho mã độc • Đầu ra: Tập T cụm điểm đ mẫu Phân cụm m điểểm mẫu thay v tồn tập liệu để goom nhóm cụm thành cụm lớn hơ ơn sử dụng phân cụụm phân cấp (hierarchical ( c clustering) [8] Kết sử dụng quuá trình phân lớp l m Gonzzalez Giải thích giải thuật trích rút điểm mẫu [9]: K tạo tập prototypes p = Ø, Ø biến protottypes Bước 1: Khởi lưu điểm m mẫu mảnng distance lư ưu khoảng cácch có giá trị ∞ lưu lại khooảng cách củaa điểm liệuu đến điểm mẫu gầần Bước 2: Kiểm tra khooảng cách lớnn có lớnn ngưỡng dp khhơng lặp đếến điều kiiện khơng thỏa mãn thìì kết thúc Tạii vịng lặp đầuu tiên, khhoảng cách ∞ nêên ta chọn nggẫu nhiên mộtt điểm z làm điểm mẫu Với cáác vòng lặp ta chhọn điểm mẫuu z điểm liệu có khoảng cáách lớn m liệu khhác điểm mẫuu lưu Bước 3: Với điểm p tínnh khoảng cáách tất cảả biến prototypes, điểm liệuu so với điểm đ mẫu tìm Nếu khoảng cách vừa tính đượcc nhỏ khooảng cách với điểm mẫu trước đóó, cậpp nhật lại khoảng cách điểm liệu v thêm z vào tập protootypes quaay lại bước Sau lần lặp chúng c ta thhu điểm m liệu mẫu đại diệnn cho cụm Hìình Giải thuật trích rút điểm mẫu Gonzalez Nhận N xét phư ương pháp: P Phương pháp phân loại dựaa điểm mẫu [1] phươngg pháp phân loại l mở, giúpp ng ta phân p loại pphát nh hững mẫu mãã chún độc Bên cạạnh phươnng pháp sử s dụng điểm m u (tương tự nhhư nén liệuu) làm giảm ữ liệu phải xử mẫu lý nên n giảm thời gian phân loại Phương ph háp cũngg có tíính học tăng cường ccho phép cập nhật mơ hìnhh phân n loại có thêm liệuu mà khô ông cần huấnn luyệện lại Nhược điểm làcác điểm mẫu m tríchh rút t tồn tậập liệu dẫn đến n liệuu khôn ng họ h mã độc thuộc chu ung cụm,, hoặcc điểm mẫu chưa c ccùng lớp với đại đa số cácc điểm m liệu trongg cụm lại dùng g làm đại diệnn cho cụm đó, điều khơng nnên Hình Quy trình phương pháp p sử dụng g điểm mẫu B Cáác phương pháp dựa điểm đ đặc trưngg a, Phương P pháp Dendroid Phhương pháp dựa d điểm m đặc trưng Dendroid D [2] làà phươngg pháp dựa trêên kỹ thuật khai k thác văn truy xuuất thông tin trrên tảng Android A SỐ 03&04 (CS.01) 2019 Từ T tất mẫu m mã độc ttrong họ, phương phápp tổng t hợp tíính vecctor đặc trưng g đại diện choo họ h thay vector đđặc trưng đại diện cho mỗii mẫu m mã độc (ví ( dụ có họọ mã độc có ó vector đặcc trưng) t Vectorr đặc trưng nnày điểm ảoo h trùùng với điểm thật, đượcc tính dựa trênn TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG 64 PHÂN N LOẠI MÃ ĐỘ ỘC DỰA TRÊN CÁC KỸ TH HUẬT N-GRAM M VÀ HỌC MÁ ÁY tiếp cận khai thác văn v Sau đ sử dụng veector đặc trưng đại diện cho họ để phân looại Điểm liệu v vector đặc trưng họọ dự gần với đoán đ thuộc họọ Quy trìnnh phương ph háp trìnhh bày b Hìnhh diiễn giải saau: Hình Quy trính phươn ng pháp sử dụ ụng điểm đặc trưng - Dendrroid 1) Giai đoạnn mô hình hóaa Bước 1: Trích T rút cấu c trúc mã lệnh • Đầu vào: v Tập mẫu mã độc huấn luyện (được gán nhhãn theo họ) • Đầu ra: r Tập cấu c trúc mã lệnh theo từngg mã độc d liệu huấn luyện l họ phần Đầu tiênn tất mẫu mềm độc hạii đưa vàoo giai đoạn tríích rút cấuu trúc mã lệnh Troong bước phương p pháp trích t rút cácc cấu trúc mã lệnh mẫuu mã độc M hình hóa v trích rút đặặc trưng Bước 2: Mơ • Đầu vào: v Tập cấu trúc mã lệnh l theo từngg mã độc r Các vectorr đặc trưng đạại diện cho cáác họ • Đầu ra: mã độộc (không phảải cho mã m độc) tậpp cấu trúc mã m lệnhcủa cácc họ Trong giaai đoạn này, từ t mẫu mãã độc đơn lẻ thuộc t họọ, tổnng hợpcác cấuu trúc mã lệnnhcủa họ để tínhh vector đặc trrưng cho họ đ Các thành phần vector đặặc trưng đượcc tính theo cơnng thức tf-idf t khai phá vănn truy xuất thông tinn áp dụng vớ ới cấu trúc mã lệnh l 2) Giai đoạnn phân tích • Đầu vào:Các v vectoor đặc trưng chho họ mã độc đ • Đầu ra:Cây r phân cấp họọ mã độc Trong giiai đoạn sử dụng thuậật toán phân cụm phân cấp phân tích liênn kết để tìm raa mối quan hệ họ mã độộc 3) Giai đoạnn phân loại Bước 1: Trích rút cấu trúc mã lệnh (giống t giai đoạn mơơ hình hóa) nhhưng đầu vào mãã độc cần phân loại T rút đặc trưng t Bước 2: Trích • Đầu vào: v SỐ 03&04 (CS.01) 2019 o Cấu trúc t mã lệnh ccủa mã độc cầần phân loại o Tập c cấu trúc m mã lệnh cáác họ • Đầu ra: Vector V đặc trư ưng cho mẫu u mã độc cầnn phân loại Sử dụng độ đoo tf-idf khai phá văn n truyy xuấtt thông tin để tạo vector đđặc trưng cho mẫu mã độc Bước B 3: Phân loại • Đầu vào: đ cần phânn o Vectorr đặc trưng chho mẫu mã độc loại ho họ mãã o Các veector đặc trưnng đại diện ch độc • Đầu ra:Nhhãn lớp dự đoáán Trong T bước nàày sử dụng thhuật toán 1-NN N để dự đoánn nhãn n lớp mẫuu mã độc b,, Phương phááp đề xuuất P Shrrestha cácc cộng g sự[3] Phương pháp n sử ddụng điểm đặcc trưng để đạii n cho họ, m họ mã độộc đạii diện mộtt diện vecttor đặc trưng giống g phư ương pháp Deendroid 1) Giai G đoạn xâyy dựng điểm m mẫu • Đầu vào:T Tập mẫu m mã độc huấn luyện l • Đầu ra: Các C vector đặặc trưng đại diện d cho từngg họ mã độc Cũng C tương tự ự phươngg pháp Dendrroid, chúng taa gộp tất file mã độc thhuộc mộ ột họ, trích rútt c chuỗi t in ((printable strin ng) cácc file mã độc c họ, sau ttính trọng số c chuỗii g giá trị tf-idff xây dựngg vector đặc trưng t đại diệnn cho họ với chiều c giá trị trọng số củaa chuỗi tươngg g Trong phươ ơng pháp này, người ta xây dựng hai loạii tứng điểm m đặc trưng Điểm Đ đặc trưnng thứ đư ược tập hợp từ tất c chuỗi có c thể có, điểểm đặc trưng thứ hai đượcc xây dựng từ nhữnng chuỗi bbật họ mã độc (kk TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 65 Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii chuỗi có trọnng số cao nhấất), chuỗii bật trongg họ mã độc khhác có thhể khác 2) Giai đoạn n phân loại • Đầu vào: v Mã độc cần c phân loại • Đầu rra: Nhãn lớp dự đốn đượcc mã độc đ Sau S hìnnh minh họa điểm mẫu, điiểm đặc trưngg phương pháp p để phân bbiệt khác k củaa p pháp dựa điểm m mẫu [1], phương phápp phương dựa điểm đặcc trưng Dendrooid [2], phươn ng pháp [3] vàà phươ ơng pháp cải tiến t Chú C thích: Δ: lớp 1,O: lớp 22, ☐: lớp Đầu tiên, người n ta tính danh sách tf-iidf chuỗi c in đượ ợc mẫu mã m độc cần phhân loại Các điểm tôô đậm nhữnng điểm mẫu h điểm đặcc ng lớp tập lliệu huấn luyệện trưn Với chuuỗi xuất điểm đặc trưng, chúnng ta chọn giáá trị tf-idf củaa chuỗi danh sách trêên để tạo vector v đặc trư ưng đại diện cho mã độc chưa biết Nếu mộột chuỗi có troong điểm mẫuu khơnng có mã độcc cần phân loại giá trị c chiều t vector đặc trrưng tương ứnng Mỗỗi điểm đặc trrưng, tìm t mộtt vector khác đại diệnn cho mã độc chưaa biết Cuối cùùng, tính độ tư ương tự cosin vector vớ ới vector đặc trưng Mã độộc phânn vào lớp điểm m đặc trưng màà có độ tươ ơng tự cao nhấất Nhận xétt phươn ng pháp dựaa điểm đặc trưng: Denddroid [2] phương phápp đề xuất bở ởi P Shrestha cộng ự[3] đưa phhương pháp huấn ới thông thườ ờng Xây dựngg mơ luyện khhác biệt so vớ hình từ tất cảả điểm ữ liệu huấn luuyện mộột lúc (xử lý theo lơơ) thay huấnn luyện d với ữ liệu thờii điểm (xử lý l theo luồngg) Ưu điểm m phương phápp vectoor đặc trưng đ xây dựnng từ tất tậpp liệu tronng họ v có tínhh đại diện riêng chho họ Và m vector đạại diện cho mộột họ mã độc thayy đại diện cho mã độc phư ương pháp thông thường t giúp giảm g thời giaan xử lý trongg trình phân looại Nhược điiểm phươnng pháp l sử dụng điểm m để đại diệnn cho tất ữ liệu k bị m mát nhiềuu thơng tin cóó thể họ làm cho q trình phân loạại khơng đượcc xác ẤT PHƯƠNG G PHÁP TRÍC CH RÚT ĐIỂM M III ĐỀ XUẤ MẪU CẢ ẢI TIẾN Với phươ ơng pháp phânn loại dựa điểm mẫu [1]], điểm mẫu đư ược trích rút tồn bộộ tập liệu thhì có nhữngg sai sót k có nhữ ững liệu khơng k họ thuộc chung c cụụm, điểm m mẫu đ lớp với v đại đa số điểm ữ liệu chưa nhóm n lại đượ ợc dùng làm đại đ diện cho nhóm n Trong khhi đó, ý tưởng phương pháp p phân loại dựa điểm đặc trưng lấyy điểm đặc trưng tậập V vậy, chúngg muốn theeo tư liệu thuộc cùùng lớp Vì tưởng phhương pháp Dendroid D [2] vàà phương phááp [3] áp dụng cải c tiến phươnng pháp dựa t điểm mẫuu [1] Chúng muốn m lấy nhhững điểm mẫu từ điểm m họ mã độcc Khi mộtt điểm mẫu chhỉ đại diện cho mộtt họ mà thhuộc vào, khơnng đại diện chho họ khác Từ khắc phụcc nhược điểm phư ương pháp dựa trêên điểm mẫu [1] nói Ngồi sauu q trình trích rúút sẽẽ thu mộột hay nhiều điểm mẫu để đại diện cho mộtt họ mã độc, khác với phư ương pháp Dendrooid [2] phhương pháp đ đề xuấtt P.Shrestha [33] với họ trích rút r điểm đại diện, giúpp giảm mấtt mát thông tinn SỐ 03&04 (CS.01) 2019 Hìình Minh họ ọa điểm mẫu ccủa phương ph háp trích rút điểm m mẫu [1] Hình h mơ tả trườ ờng hợp có thhể xảy điiểm thuộc lớpp Δ có ó thể bị phân vào nhóm cóó điểm mẫu làà lớp O, hoặcc điểm m thuộc lớp Δ đại diện chho nhiều điểm thuộc lớp O Hình H Minh họa h điểm đặc trưng phư ương pháp Dend droid phươn ơng pháp đề xu uất P Shrestha cộng sự[ ự[3] Chú C thích: ✸ điểm đặc trrưng cho lớp p Từ T Hình 5, m điểm đặc trưng tổng t hợp mộtt điểm m đặc trưng đ tổng hợpp từ tất điểm liệuu tron ng lớp Điiểm đặc trưngg làà điểm đãã tồn t điểm đ ảo khôngg tồn g điểm ữ liệu biết Và m lớp ccó điểm đặc trưng đạii n cho diện TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 66 PHÂN LOẠI MÃ ĐỘC DỰA A TRÊN CÁC KỸ THUẬT N-GRAM N VÀ HỌC H MÁY thêm m cải tiến tronng giai đoạn hhuấn luyện để thu quyy trình h cải tiến đượcc trình bày troong Hình Quy Q trình gồm m giai đoạn giai đoạn huấn h luyện vàà giai đoạn dự đoánn Trong T giai đooạn huấn luyệện: Hình Min nh họa điểm mẫu m phươ ơng pháp cải tiến ti Hình chho thấy tất điểm mẫẫu đại diện củaa lớp ☐ điểểm liệu thuuộc lớp ☐ Các C điểm mẫuu lớp O điểm m liệu thuuộc lớp O vàccác điểm mẫuu lớp Δ điểm m liệu thuộộc lớp Δ Mặc dù có điểểm Δ mình, nóó tự đại diện cho c nó, khơng bị điểm liệu lớp l khác đại diện d nhầm Vì V trích rúút đặc trưng phương p pháp cải tiến đạt trường hợ ợp tốt nhất, tất c điểm trongg cụm đặc đ trưng điểm mẫu thuộc chhính lớp Từ tư tưở ởng trên, cải tiến chúnng can thiệp vào giai đoạạn trích rút điểm đ mẫu tronng q trình huấn luyện, cịn q q trình dự đốn đượ ợc thực theo phương thứ ức truyền thốống sử dụngg độ đo khhoảng cách.Chúng dựa quy trình tổnng quát chungg phương phápp phân loại dựa d điểm m mẫu bổ xung • Giữ nguyêên giải thuật phhân loại sử dụ ụng điểm mẫu • Thay đổi giải g thuật tríchh rút điểm mẫẫu có áp dụngg ý tưởng củủa phương pháp sử dụng điiểm đặc trưngg – Dendroiid [2] Chúngg trích rút điểm m mẫu tậập liệu củaa họ mã độc đ riêng biệt Một họ mã m độc đư ược đại diện hayy nhiều điểm m liệu thuộộc họ mã độc Giải thuậtt trìnhh bày sơ đồ khối Hìình đượcc giải thích bên b • Khơng sử dụng giải thhuật phân cụ ụm giaii đoạn huấn luyện Trong T giai đooạn dự đốn: • Giữ nguên giải thuật trích rút điểm m mẫu tạo raa điểm mẫu tập liiệu chưa phân n loại đểể tìm cụm mã độc m g thuật phâân cụm sử dụ ụng điểm m • Sử dụng giải mẫuđược trích t rút trênn q trrình phân tíchh gia tăng t điểm m • Giải thuậtt phân cụm cchỉ áp dụng mẫu xây dựng từ ddữ liệu chưa phân p loại đượcc ớp biết, khhông áp dụng phân cụm sử vào lớ dụng điểm m mẫu cho cáác điểm mẫu tập huấnn luyện c điểm mẫuu thuộcc họọ mã độc, khhơng cần phânn cụm Hình Quy trìn nh cải tiến SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 67 Nguyễn Thị Thu Tra ang, Nguyễ ễn Đại Thọ, Vũ Duy Lợii T NGHIIỆM VÀ ĐÁN NH GIÁ IV THỰC A Chuẩn C bị liệu l Chúng C sử dụng liệu referencce dataset củaa phươ ơng pháp dựaa điểm m mẫu [1] cho cơng trình củaa h Tập liệuu gồm tồn mã độc tríích xuất từ sở d liệu lớn v phần mềm m độc hại đượ ợc trì tạii CW WSandbox webbsite gán nhãn bở ởi sản phẩm m Antiivirus khác nhhau loại bỏỏ lớp có 20 mẫuu lấấy lớ ớp tối đa 300 m mẫu thực thi nhị n phân Phầnn mã nhị n phân đượcc thực thi ggiám sát g CWSandboxx thu 3133 mẫu m báo cáo hành vi thỏa mãn chuẩnn ST với 24 mẫẫu mã độc vàà 85 lời gọi hệ thống Vìì MIS phươ ơng pháp củaa vàà phương phááp [1] tậpp trun ng vào phân looại mã độc thhay phát hiiện nên ữ liệu sử dụngg chứa nhữ ững mẫu mã độc, đ khơng cóó s mã Hìn nh Mơ tả ttập liệu Hình Giiải thuật đề xu uất Giải th hích giải thuậtt đề xuất: Bước 1:: Khởi tạo tậpp prototypes = Ø, mảng disttance có giá trị b ∞ để lưuu khoảng cáchh điểm m liệu họọ đến điểm mẫu m gần nhhất thời điểm Bước 2:((cải tiến) • Bướ ớc 2.1: Chọn tất vecctor đặc trưngg mộtt lớp để tiến hành h trích rút điểm mẫu trêên họ mã độc đ • Bướ ớc 2.2: Kiểm tra khoảng cáách lớn t mảnng distance có c nhỏ dp hay khơng,, khơnng nghĩa tấất điểm m họ mãã độc đ điểm m mẫu đại diệện cho chúng t ta tiến hành thực hiệện bước vớii họ mã độộ cịn n có ta tiến hành tìm điểm m mẫu lại, Bước 3: Chọn C điểm cóó khoảng cáchh lớn đếnn điểm mẫu tìm m trướcc làm điểm m mẫu tiếp theeo thêm vàoo tập prototypes Sau cậập nhật lại khhoảng cách cácc điểm liệuu họ với điểm mẫuu gần Lặp lại bước 2.2 đến điều kiện không thỏa mãn m SỐ 03&04 (CS.01) 2019 B Trích T rút đặc trưng Trên T tập liệu, l chúng tôôi thực trích t xuất cácc chuỗ ỗi lời gọi hệ thống t theo chhuẩn MIST leever (chỉ cóó tên lời gọọi hệ thống, kkhơng có thơn ng tin đối số)) t có 85 lời gọi hệ thống khác tậpp thu liệu l Sau thu cáác chuỗi lời gọi g hệ thống,, chún ng tơi tiến hànnh trích xuất vector theo 2-gram lờii gọi hệ thống (2 lờ ời gọi hệ thốnng liên tiếp tro ong báo cáo) Sau thực nghiiệm, chúng tôôi thấy kết quảả trích rútt đặc trưng dựa xuất hiệnn lời gọi hệ thốngss h cao trích rút đđặc trưng dựaa tần suấtt đạt hiệu xuấtt cácc lời gọi hệ thốống Do đó, chúng c tơi tríchh rút đặc đ trưng dựaa xuất hhiện hay khôn ng lờii gọi hệ h thống Trong tập liệuu có 85 lờii gọi hệ thốngg khácc nên khhông gian củaa vector 85*85 Nhưngg có c nhiều chiềuu nênn khai thác để tríchh xuấtt đặc trưng vàà so sánh vvector th hời gian tuyếnn tính Thảo luận chi tiết phhương pháp th hời gian tuyếnn ược cung cấp p Rieck vàà tính cho trích xuấất đặc trưng đư kov [10] Lask C Đánh Đ giá so s sánh Chúng C đánnh giá giai đoạn phân loại sử dụng điểm m mẫu u trích rúút theo phươnng pháp cải tiiến chúngg mà m không đánnh giá giaai đoạn trích rút r điểm mẫuu phân p cụm báoo [1] với giai g đoạn tríchh rút điểm đ mẫu, theeo phương phháp cải tiến th hì độ đo chínhh xác (precision) củủa cụm luuôn đạt giá trịị tốt TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 68 PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY chúng tơi trích rút điểm mẫu từ liệu cụm thay tồn tập liệu Do sử dụng liệu phương pháp dựa điểm mẫu [1] nên chúng tơi sử dụng ngưỡng dp(được trình bày giải thuật trích rút điểm mẫu Hình 2) 0.65 (là ngưỡng tốt để chọn điểm mẫu thực nghiệm nêu báo [1]) để trích rút điểm mẫu lớp phương pháp cải tiến chúng tơi Sau đó, chúng tơi tiến hành phân loại đánh giá khả phân loại lớp biết khả nhận biết lớp Để đánh giá khả phân lớp, sử dụng độ đo phân lớp F1microlà độ đo tổng hợp từ hai độ đo độ đo xác P (precision) độ hồi tưởng R (recall) Định nghĩa độ đo: • TPi: Số mẫu thuộc lớp i phân vào lớp i • FPi: Số mẫu không thuộc lớp i bị phân sai vào lớp i • TNi: Số mẫu khơng thuộc lớp i phân khơng thuộc lớp i • FNi: Số mẫu thuộc lớp i bị phân sai vào lớp i so với mẫu mã độc biết nên chia Những thể lớp để đánh giá khả nhận biết lớp dùng để đánh giá khơng cho vào giai đoạn huấn luyện Cịn tập 18 lớp chia tỷ lệ 70 :30 với 70% dùng để huấn luyện 30% dùng để đánh giá khả phân lớp Chúng thực 10 lần lấy kết trung bình với phương pháp cải tiến phương pháp [1] Kết phương pháp dựa điểm mẫu [1] : Bảng II Kết phương pháp dựa điểm mẫu [1] dr 0.3 0.4 0.5 0.6 0.7 Fk 0.830 0.890 0.932 0.94 0.943 Fu 0.994 0.992 0.901 0.80 0.716 Do mục tiêu chọn ngưỡng dr cho hai độ đo Fk, Fu đạt giá trị cao Với dr= 0.7 độ đo Fu giảm mạnh Fk tăng nên dừng thực nghiệm ngưỡng dr= 0.7 Từ bảng II, ta thấy giá trị dr để Fkvà Fu đạt giá trị cao dr = 0.5, Fk = 0.932, Fu = 0.901 Độ xác trung bình: (2) Độ hồi tưởng trung bình: (3) Độ đo F1micro: (4) Hình 10 Biểu đồ kết phương pháp [1] Kết phương pháp đề xuất F1micronằm khoảng [0;1] giá trị cao thể độ phân lớp tốt Độ đo lựa chọn để đánh giálà: Fk: F1microtrên tập liệu biết nhãn để đánh giá khả phân lớp thuật toán Fu: F1microtrên tập liệu chưa biết nhãn nhằm đánh giá khả nhận biết lớp chưa xuất tập huấn luyện Khả nhận biết mã độc (Fu) khả phân loại mã độc biết (Fk) phụ thuộc vào việc chọn ngưỡng khoảng cách đểxác định mẫu mã độc (dr) Nếu chọn drcàng lớn, độ loại mã độc thấp nên độ đo Fu thấp, độ đo Fk cao, ngược lại drcàng nhỏ Fu cao Fk thấp Mục tiêu chọn ngưỡng drsao cho hai độ đo cao Tập liệu thử nghiệm có 24 lớp Chúng tơi sử dụng tập liệu 18 lớp để huấn luyện đánh giá khả phân lớp với độ đo Fk Dữ liệu lớp lại đưa vào để đánh giá khả nhận biết lớp với độ đo Fu Chúng không chia tập liệu báo [1], xuất mã độc thường SỐ 03&04 (CS.01) 2019 Bảng III Kết phương pháp cải tiến dr 0.3 0.4 0.5 0.6 0.7 Fk 0.777 0.962 0.981 0.989 0.995 Fu 0.999 0.994 0.988 0.854 0.728 Tương tự, dừng ngưỡng dr= 0.7 độ đo Fu giảm mạnh.Từ bảng III, trường hợp tốt với dr = 0.5, Fk = 0.981, Fu = 0.988 hai Fkvà Fuđều cao TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 69 Nguyễn Thị Thu Trang, Nguyễn Đại Thọ, Vũ Duy Lợi [2] Suarez-Tangil, Guillermo et al “Dendroid: A text mining approach to analyzing and classifying code structures in Android malware families.” Expert Syst Appl 41 (2014): 1104-1117 [3] Prasha Shrestha,Suraj Maharajan,Gabriela Ramirez de la Rosa, Alan Sprague, Thamar Solorio and Gracy Warner, "Using String Information for Malware Family Identification" @Springer International Publishing Switzerland 2014,A.L.C.Bazzan and K.Pichara(Eds.): IBERAMIA 2014, LNAI 8864,pp.686- 697, 2014.DOI:10.1007/978-3-31912027-0_55 [4] Souppaya, M., and Scarfone, K Guide to Malware Incident Prevention and Handling for Desktops and Laptops NIST Special Publication SP 800-83, July 2013 [5] https://securelist.com/it-threat-evolution-q3-2018statistics/88689/ [6] Daniele Ucci, Leonardo Aniello, Roberto Baldoni: Survey of machine learning techniques for malware analysis Computers & Security 81: 123-147 (2019) [7] Quinlan, J Ross “Combining Instance-Based and Model-Based Learning.” ICML (1993) [8] R Duda, P.E.Hart, and D.G.Stork Pattern classification John Wiley & Sons, second edition, 2001 [9] T Gonzalez Clustering to minimize the maximum intercluster distance Theoretical Computer Science 38, pages 293–306, 1985 [10] K Rieck and P Laskov Linear-time computation of similarity measures for sequential data Journal of Machine Learning Research, 9(Jan):23–48, 2008 Hình 11 Biểu đồ kết phương pháp đề xuất MALWARE CLASSIFICATION BASED ON NGRAM AND MACHINE LEARNING TECHNIQUES Hình 12 Biểu đồ so sánh kết hai phương pháp So sánh hai trường hợp tốt nhất, ta thấy giải thuật cải tiến cho kết tốt với Fk = 0.981, Fu = 0.988 (tương đương Fk = 98.1%, Fu = 98.8%) V KẾT LUẬN Bài báo cáo chúng tơi trình bày cải tiến giai đoạn trích rút điểm mẫu quy trình phân loại mở mã độc dựa điểm mẫu đề xuất Rieck cộng vào năm 2011 Kết thực nghiệm cho thấy phương pháp cải tiến cho hiệu tốt - đạt độ đo F1micro 98.1% với khả phân loại khả nhận biết mã độc 98.8%, khắc phục nhược điểm phương pháp sử dụng điểm mẫu [1] Tuy nhiên, phương phápcủachúng tơi cịn hạn chế chọn điểm mẫu hoàn toàn theo khoảng cách dẫn thiên lệch hướng khơng gian nhiều chiều Để khắc phục vấn đề này, chúng tơi nghiên cứu sử dụng mơ hình siêu lập phương chọn điểm mẫu theo hướng siêu lập phương để hồn thiện quy trình cải tiến đề xuất báo cáo Ngoài ra, vấn đề an ninh điện thoại thông minh mối quan tâm lớn Vì vậy, tương lai nghiên cứu áp dụng phương pháp cho thiết bị điện thoại thông minh sử dụng hệ điều hành Android Abstract: Malware is oneof the biggest threats to the security of computer systems Therefore, accurate classification of malware is important for appropriate responses In this paper, we present an improvement to the prototype extraction algorithm in the prototype based framework for malware clustering and classification proposed by Rieck et al [1] In our improvement, the prototype extraction is performed on each malware family instead of the whole malware collection The idea is inspired from the two previous methods for malware classification using representative points [2, 3] Experimental results show that our methodis more efficient than the original methodwith F1-score of 0.981% on known malware and 0.988% on unknown malware Keyword: Malware classification, n-gram, prototype SƠ LƯỢC VỀ TÁC GIẢ NguyễnThịThu Trang, Hiện công tác Trường đại học Công nghệ - Đại học Quốc Gia Hà Nội Lĩnh vực nghiên cứu: An toàn thông tin TÀI LIỆU THAM KHẢO [1] “Automatic Analysis of Malware Behavior using Machine Learning” KonradRieck, Philipp Trinius, Carsten Willems, and Thorsten Holz Journal of ComputerSecurity (JCS), 19 (4) 639-668, 2011 SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CƠNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 70 PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY Nguyễn Đại Thọ, Bảo vệ luận án Tiến sỹ Trường Đại học Cơng nghệ Compiegne, Cộng hịa Pháp, năm 2000 Hiện công tác Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Lĩnh vực nghiên cứu: An tồn thơng tin, mạng máy tính, tính tốn phân tán Vũ Duy Lợi, Nhận học vị Tiến sỹ năm 1989 Đại học Karlsruhe, CHLB Đức, học hàm Phó giáo sư năm 2003 Từ 1981-2001 công tác Viện Công nghệ thông tin, Viện KHVN, Viện HLKHCNVN Từ 2001-2015 cơng tác Trung tâm CNTT, Văn phịng Trung ương Đảng Hiện cộng tác viên khoa CNTT, trường ĐHCN, ĐHQGHN Lĩnh vực nghiên cứu: Mạng máy tính; Mạng hệ mới; Đánh giá hiệu suất mạng; An tồn thơng tin SỐ 03&04 (CS.01) 2019 TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 71 ...PHÂN LOẠI MÃ ĐỘC DỰA TRÊN CÁC KỸ THUẬT N-GRAM VÀ HỌC MÁY phân cụm sử dụng điểm mẫu giúp gộp nhóm cụm tương tự thành cụm lớn hơn, phân lớp sử dụng điểm mẫu để dự báo nhãn lớp cho mã độc chưa... họ mã độc thay đại diện cho mã độc cụ thể Các điểm đặc trưng dùng kết hợp với thuật toán 1NN (One Nearest Neighbor) để phân loại mã độc Mã độc phân vào họ điểm đặc trưng gần Phương pháp phân loại. .. điểm ữ liệu biết Và m lớp ccó điểm đặc trưng đạii n cho diện TẠP CHÍ KHOA HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THÔNG 66 PHÂN LOẠI MÃ ĐỘC DỰA A TRÊN CÁC KỸ THUẬT N-GRAM N VÀ HỌC H MÁY thêm m cải tiến

Ngày đăng: 26/10/2020, 03:33