Luận văn nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy

42 3 0
Luận văn nâng cao hiệu quả phát hiện mã độc sử dụng các kỹ thuật học máy

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

1 MỞ ĐẦU Ngày với phát triển mạnh mẽ công nghệ thông tin phát triển Internet toàn cầu nguy an tồn thơng tin trở nên nguy hiểm khó lường hơn, mã độc hại (malware) mối hiểm họa nghiêm trọng Internet Mã độc ngày tiến hóa với biến thể đa dạng từ virus máy tính, worm, botnet…với hình thức xâm nhập, che dấu ngày tinh vi Số lượng hình thái đa dạng mã độc ngày tăng, phần mềm phòng chống mã độc phát hiện, ngăn chặn hết dẫn đến hàng triệu máy tính bị nhiễm mã độc Ở Việt Nam, theo số liệu thống kê BKAV năm 2017 có đến 15 triệu máy tính Việt Nam bị nhiễm mã độc tương ứng thiệt hại khoảng 12.300 tỷ đồng Ngoài ra, ngày để phát triển mã độc không yêu cầu nhiều kỹ cao tính sẵn có cơng cụ cơng internet Tính sẵn sàng cao kỹ thuật chống phát khả mua phần mềm độc hại thị trường chợ đen dẫn đến hội trở thành kẻ công cho ai, không phụ thuộc vào cấp độ kỹ trình độ chun mơn Do đó, bảo vệ hệ thống máy tính khỏi phần mềm độc hại Intenet nhiệm vụ quan trọng an ninh mạng cho người dùng, doanh nghiệp Một cơng đơn lẻ dẫn đến liệu bị xâm phạm gây hậu to lớn Sự mát lớn công thường xuyên đặt yêu cầu cần thiết phải có phương pháp phát xác kịp thời Các kỹ thuật phân tích tĩnh phân tích động thường dựa vào sở liệu xây dựng trước nên có số hạn chế khó có khả phát mã độc mới, lỗ hổng chưa công bố (zero-day) hay biến thể mã độc biết Hơn nữa, ngày số lượng mã độc ngày tăng cao dẫn đến số lương mẫu ngày nhiểu đòi hỏi phải có phương pháp phù hợp để phát mã độc Do hướng nghiên cứu dựa vào mơ hình học máy để phát phân loại mã độc tỏ phương pháp tìm hiệu số lượng mẫu mã độc lớn biến thể mã độc ngày đa dạng Tuy nhiên vấn đề quan tâm làm để xây dựng mô hình học máy hiệu mang lại kết xác cao Trong có yếu tố quan trọng ảnh hưởng đến mơ hình hiệu qủa thuật toán học máy lựa chọn đặc trưng phương pháp trích chọn đặc trưng phù hợp Trong phần nghiên cứu luận văn lựa chọn đặc trưng mạng đặc trưng mạng nâng cao khả phát lỗ hổng chưa biết (zeroday) khắc phục hạn chế hiệu học máy việc lựa chon đặc trưng khác đặc trưng byte sequence, strings, API, opcode, system call sử dụng làm đầu vào cho thuật toán học máy thường cho kết không tốt mã độc mã hóa, ngụy trang (obfucated), biến thể mã độc Đồng thời, chúng tơi trình bày 02 phương pháp trích chọn đặc trưng gói tin mạng gồm phương pháp trích chọn đặc trưng từ tiêu đề (header) gói tin mạng phương pháp trích chọn đặc trưng từ tải (payload) gói tin mạng dựa phương án 2-gram Sau liệu đặc trưng trích chọn đặc trưng phù hợp làm đầu vào cho thuật toán học máy, luận văn chúng tơi lựa chọn thuật tốn one-class SVM thuật toán one-class SVM thuật tốn phân loại phổ biến có khả phát mã độc biết, mã độc (zero-day), biến thể mã độc phân loại mã độc Kết luận văn thực nghiệm dựa liệu mẫu Android Malware dataset (CICAndMal2017) gồm 212788 mẫu, có 168186 mẫu 44202 mẫu mã độc thuộc họ Ransomware gồm loại Charger, Jisut, Wannalocker Kết thực nghiệm với độ đo F1, Precision, Recall để đánh giá hiệu thuật tốn cho thấy phương pháp trích xuất từ header có độ xác cao so với phương pháp trích xuất từ payload, cụ thể: phương pháp trích xuất từ header có kết với độ đo Precision, Recall, F1 95,93%, 95,83%, 95,84% so với phương pháp trích xuất từ payload cho kết là 87,78%, 71,16%, 78,60% tập liệu huấn luyện kết 95,91%, 95,73%, 95,82% so với kết 85,58%, 69,82%, 76,91% tập liệu kiểm thử Nội dung luận văn chia làm 04 phần sau: Chương 1: Tổng quan mã độc Chương này giới thiệu loại mã độc, phân loại mã độc, kỹ thuật phân tích mã độc, đặc trưng trích chọn đặc trưng Chương 2: Tổng quan kỹ thuật học máy Chương giới thiệu học máy, phân loại phương pháp học máy, thuật toán học máy svm, thuật toán one-class svm phương pháp đánh giá hiệu học máy Chương 3: Giải pháp áp dụng học máy vào phân tích mã độc Chương trình bày mơ hình đề xuất, 02 phương pháp trích chọn đặc trưng gói tin mạng, lựa chọn đặc trưng, thực nghiệm đánh giá kết thực nghiệm Kết luận hướng phát triển đề tài CHƯƠNG 1: TỔNG QUAN VỀ MÃ ĐỘC Chương giới thiệu khái niệm mã độc, phân loại mã độc, mục đích phân tích mã độc kỹ thuật phân tích mã độc 1.1 Giới thiệu mã độc Mã độc (tên tiếng anh malware – viết tắt từ malicious software) loại phần mềm thiết kế có mục đích để gây tổn hại cho máy tính, máy chủ, máy khách mạng máy tính Các chương trình độc hại thực nhiều chức năng, bao gồm ăn cắp, mã hóa xóa liệu nhạy cảm, thay đổi chiếm đoạt chức tính tốn lõi giám sát hoạt động máy tính người dùng mà không cho phép họ Mã độc gây thiệt hại sau cấy đưa vào máy tính mục tiêu dạng mã lệnh thực thi, tập lệnh, nội dung hoạt động phần mềm khác Mã độc có mục đích xấu, hoạt động trái phép với người dùng máy tính bình thường mã độc khơng bao gồm phần mềm gây tác hại vô ý số thiếu sót liên quan đến lỗi phần mềm Các chương trình cung cấp thức cơng ty coi phần mềm độc hại họ bí mật hành động chống lại lợi ích người dùng máy tính Ví dụ, thời điểm, đĩa nhạc Compact hãng Sony bí mật cài đặt rootkit máy tính người mua với đích ngăn chặn chép bất hợp pháp đồng thời thu thập thơng tin thói quen nghe nhạc người dùng vơ tình tạo lỗ hổng bảo mật Các giải pháp phần mềm antivirus, tường lữa…thường sử dụng để kiểm tra tồn tại, hoạt động độc hại ngăn chặn phần mềm độc hại truy cập vào máy tính 1.2 Phân loại mã độc Có nhiều cách tiếp cận khác để phân loại mã độc thành số loại nhật định với đặc điểm cụ thể như: tính nhân bản, nhiễm độc, tàng hình, lệnh điểu khiển (C&C), kỹ thuật che dấu, tập hợp hành vi thể trình chạy hệ điều hành Hơn nữa, ngày khó xác định phần mềm độc hại ngày tác giả phần mềm độc hại dễ dàng tiếp cận mã nguồn số mẫu phần mềm độc hại kết hợp chức chúng để tạo mẫu có chế tự mở rộng khả nhỏ gọn Mặc dù khơng có thống chung việc phân loại phần mềm độc hại, loại phần mềm độc hại dựa mục đích hành vi chúng phân loại sau: 1.2.1 Virus [5] 1.2.1.1 Khái niệm Virus máy tính loại phần mềm độc hại phổ biến nhất, ẩn dấu chương trình vơ hại, tự tạo lây lan vào chương trình khác tệp (file) khác để thực hành vi độc hại xóa file, chép nội dung, mã hóa file 1.2.1.2 Thành phần Một virus máy tình gồm 03 thành phần: o Cơ chế lây nhiễm: phương tiện mà virus lây lan, cho phép tự nhân bản, chế gọi vec-tơ lây nhiễm o Bộ kích khởi (trigger): kiện hay điều kiện mà định tải (payload) kích hoạt o Payload: đoạn mã chạy máy nạn nhân, dùng để thực số hoạt động phá hoại liên quan đến hoạt động lành tính đáng ý 1.2.1.3 Vòng đời Virus Vòng đời Virus, thường bao gồm 04 giai đoạn sau: o Giai đoạn ngủ đông: Giai đoạn virus không hoạt động, Virus kích hoạt số kiện như: ngày, có mặt chương trình khác tệp tin dung lượng ổ đĩa vượt giới hạn Khơng phải tất virus có giai đoạn o Giai đoạn nhân bản: Virus chép vào chương trình khác vào vùng hệ thống ổ cứng Bản khơng giống với phiên lan truyền, virus thường biến hình để tránh phát Mỗi chương trình bị nhiễm chứa virus, thân virus bước vào giai đoạn nhân o Giai đoạn kích hoạt: Virus kích hoạt để thực chức mà dự định Cũng giai đoạn khơng hoạt động, giai đoạn kích hoạt thực loạt kiện hệ thống, bao gồm số lần virus tạo o Giai đoạn thực thi: Chức virus thực hiện, chức vơ hại thơng báo hình phá hoại chương trình tệp liệu 1.2.1.4 Phân loại virus: Virus phân làm hai loại: theo loại mục đích mà virus cố gắng lây nhiễm theo phương pháp mà virus sử dụng để che dấu thân nhằm tránh phát người dùng phần mềm chống virus Phân loại theo mục đích bao gồm loại sau:  Lây nhiễm vào vùng khởi động (Boot sector infector): lây nhiễm ghi khởi động khởi động lây lan hệ thống khởi động từ đĩa chứa virus  Lây nhiễm têp tin (file infector): lây nhiễm vào tệp tin hệ điều hành shell thực thi  Macro virus: lây nhiễm tệp tin với mã macro biên dịch ứng dụng Phân loại theo phương pháp mà Virus sử dụng bao gồm loại sau:  Virus mã hóa (Encrypted virus): phương pháp thực sau Một phần virus tạo khóa mã hóa ngẫu nhiên mã hóa phần cịn lại virus Khóa lưu với virus Khi chương trình bị nhiễm gọi, virus sử dụng khóa ngẫu nhiên lưu trữ để giải mã virus Khi virus nhân bản, khóa ngẫu nhiên khác lựa chọn Bởi phần lớn virus mã hóa khóa khác cho trường hợp dẫn đến khơng có mẫu bit cố định để quan sát  Virus tàng hình (Stealth virus): hình thức virus thiết kế để che dấu thân khỏi phát phần mềm chống virus  Virus đa hình (Polymorphic virus): loại virus biến đổi theo lây nhiễm, khiến cho việc phát virus chữ ký trở nên  Virus biến hóa (Metamorphic virus): giống virus biến hình, virus biến hóa biến đổi với lây nhiễm Sự khác biệt virus biến hóa tự viết lại hồn tồn vịng lặp để tăng độ khó phát Virus biến hóa thay đổi hành vi, ngoại hình chúng 1.2.2 Worm [5] Sâu (Worm) chương trình tự chép gửi từ máy tính sang máy tính khác qua kết nối mạng Khi đến nơi, worm kích hoạt nhân lần Ngoài việc nhân bản, worm thường thực số chức không mong muốn thu thập thơng tin hệ thống, tìm kiếm lỗ hổng bảo mật Worm loại phần mềm độc hại ẩn náu máy tính, khơng phải virus khơng nhúng vào chương trình khác.Worm lây nhiễm từ máy tính đến máy tính khác cách khai thác lổ hổng bảo mật lỗ hổng tác giả tạo Để tự nhân bản, worm mạng sử dụng số phương tiện mạng sau:  Chức thư điện tử (Electronic mail facility): worm thư điện tử gửi đến hệ thống khác, mã kích hoạt thư điện tử tệp đính kèm nhận xem  Khả thực thi từ xa (Remote execution capability): worm thực thi hệ thống khác cách sử dụng chế thực thi từ xa cách khai thác lỗ hổng chương trình dịch vụ mạng để phá hủy hoạt động chúng  Khả truy cập từ xa (Remote login capability): worm đăng nhập vào hệ thống từ xa người dùng, sau sử dụng lệnh để chép từ hệ thống đến hệ thống khác thực thi lệnh Ví dụ, sâu máy tính tiếng lịch sử máy tính có tên Confiker Confiker mục tiêu công vào hệ điều hành Microsoft Window, phiên sâu Confiker phát vào tháng 10 năm 2008 lây nhiễm hàng triệu máy tính giới Confiker khai thác lỗ hổng dịch vụ mạng xây dựng hệ điều hành Window, bao gồm tất các phiên từ Window 2008 đến Windows server 2008 nhân qua Internet Lỗ hổng có tên MS08_067, cho phép kẻ cống thực thi mã lệnh từ xa chiếm tồn quyền điều khiển máy tính từ xa 1.2.3 Ransomware Ransomware (mã độc tống tiền) gồm nhiều lớp phần mềm độc hại với mục đích hạn chế truy cập đến hệ thống máy tính mà lây nhiễm đòi hỏi phải trả khoản tiền cho kẻ cơng nhằm xóa bỏ hạn chế truy cập mà tạo trước Một vài dạng ransomware mã hóa tệp tin, liệu ổ đĩa cứng nhằm tống tiền, vài dạng khác đơn giản chúng khóa hệ thống lại hiển thị thông báo để thuyết phục nạn nhân trả tiền Mã độc tống tiền thường lan truyền qua email với file đính kèm, virus máy tính khác, mở file đính kèm máy tính người dùng bị kiểm sốt Khi đó, mã độc qt tồn ổ đĩa máy tính mã hóa file mã hóa cơng khai Hầu hết tập tin quan trọng máy tính người dùng với định dạng doc, pdf, xls, zip không mở Để giải mã bắt buộc phải có khóa bí bật, mà khóa bí mật có kẻ cơng có nạn nhân nhận thông báo hình (desktop) địi tiền chuộc muốn giải mã file Một số loại mã độc ransomware sau:  Charger: mã độc chép tất liệu từ tin nhắn dạng text, danh bạ, nhật ký tìm kiếm quyền admin từ người dùng Nếu người dùng chấp nhận yêu cầu mã độc, phần mềm mềm độc hại công người dùng tin nhắn cảnh báo cho người dùng biết thiết bị người dùng bị khóa liệu cá nhân bán thị trường người dùng không chấp nhận trả tiền chuộc Các nạn nhân mã độc Charger yêu cầu phải trả khoảng 0.2 bitcoins (khoảng 8000$ USD) muốn mở khóa (unblock) thiết bị  Jisut: Khơng giống mã độc ransomware khác thường yêu cầu tiền chuộc Jisut tiếp cận theo cách khác khơng quan tâm nặc danh Trên hình xuất ngựa bao gồm thông tin liên quan mạng xã hội QQ Trung Quốc thuyết phục nạn nhân liên hệ với tác giả để lấy lại tệp tin họ Nếu thông tin QQ chủ nhân mã độc niên từ 16 đến 21 tuổi xuất Các biến thể Jisut Android/LockScreen xuất đầu năm 2014, từ thời điểm 2014 đến phát hàng trăm biến thể Jisut với hành vi khác tin nhắn đòi tiền chuộc khác tất dựa mẫu mã độc Khi mã độc Jisut kích hoạt tạo hình hoạt động lên với đầy đủ hình với màu đen, người dùng thay đổi giao diện tắt, khởi động lại thiết bị thông báo hiển thị lên hát thực thi  WannaLocker: mã độc loại khác ransomware Wannacry, ban đầu nhắm đến người dùng Android Trung Quốc mở rộng toàn giới Mã độc lây nhiễm tệp tin (files) lưu trữ thiết bị mã hóa tệp tin thuật tốt mã hóa AES Khi tệp tin bị mã hóa, mã độc lên thơng báo địi tiền chuộc tương tự WannaCry, cung cấp thơng tin liệu mã hóa khả đê phục hội chúng ngôn ngữ tiếng trung WannaLocker yêu cầu số tiền chuộc 40 Renmibi Trung Quốc cách liên lạc để thực giao dịch chuyển tiền khôi phục liệu 10 1.2.4 Trojan Trojan loại phần mềm giả mạo phổ biến, chúng thường ẩn náu chương trình phần mềm hữu ích để thực nhiệm vụ mong muốn hợp pháp thực chất thực số chức độc hại xóa file, thu thập thơng tin hệ thống gửi cho máy chủ điều khiển, ăn cắp thông tin tài khoản người dùng Những chức mong muốn hợp pháp phần bề mặt giả tạo nhằm che dấu cho thao táo độc hại Khơng giống virus, trojan khơng có chức tự chép lại có chức phá hoại tương tự virus Một số dạng Trojans sau:  Remote Access Trojans: cho phép kẻ cơng kiểm sốt tồn hệ thống từ xa  Data-Sending Trojans: Trojan gửi thông tin nhạy cảm nạn nhân cho kẻ công  Destructive Trojans: Trojan phá hủy hệ thống  Denied-of-Service – DoS Attack Trojan: Trojan phục vụ công Ddos  HTTP, FTP Trojans: Trojan tự tạo thành HTTP hay FTP server để kẻ cơng khai thác lỗi  Security Software Disable Trojan: Có tác dụng tắt tính bảo mật máy tính nạn nhân 1.2.5 Backdoor [6] Backdoor (cửa hậu) loại phần mềm độc hại cung cấp cho kẻ công quyền truy cập từ xa vào máy nạn nhân Backdoor loại phần mềm độc hại phổ biến chúng có đủ hình dạng, kích cỡ với khả khác Mã backdoor thường thực đầy đủ khả năng, sử dụng backdoor kẻ công thường không cần tải thêm phần mềm độc hại khác mã chương trình Backdoor thường cho phép kẻ cơng kết nối đến máy tính từ xa với quyền khơng cần xác thực kèm với số chức phổ biến khả thao tác khóa registry, liệt kê cửa sổ thị, tạo thư mục, tìm kiếm tập tin, truy cập từ xa tài khoản riêng, thực thi lệnh hệ thống Một số loại backdoor sau: 28 O F1: tiêu chí đánh giá 𝐹1 kết hợp tiêu chí đánh giá Precision Recall: 𝐹1 = 2.𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛.𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙 = 1 + 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑅𝑒𝑐𝑎𝑙𝑙 𝑭𝟏 trung bình điều hịa tiêu chí Precision Recall 𝑭𝟏 có xu hướng lấy giá trị gần với giá trị nhỏ giá trị Precision Recall 𝑭𝟏 có giá trị lớn giá trị Precision Recall lớn 2.4.2 Phương pháp Hold-out Toàn tập mẫu D chia thành tập không giao nhau, tập huấn luyện D_train để huấn luyện mơ hình, tập kiểm thử D_test để đánh giá hiệu mơ hình học D = D_train ᴗ D_test thường |D_train| >> |D_test| Các yêu cầu đặt phương pháp Hold-out sau:  Bất kỳ mẫu thuộc vào tập kiểm thử D_test khơng sử dụng vào q trình huấn luyện mơ hình  Bất kỳ mẫu sử dụng q trình huấn luyện hệ thống D_train khơng sử dụng vào đánh giá mơ hình  Các mẫu kiểm thử tập D_test cho phép đánh giá cách khách quan hiệu mơ hình Các tỷ lệ thường gặp phân chia liệu để huấn luyện kiểm thử mơ hình là: ||D_train| = (2/3) |D_test| = (1/3) 2.4.3 Lấy mẫu phân tầng (Stratified sample) Đối với tập mẫu có kích thước nhỏ không cân xứng, tập mẫu tập huấn luyện kiểm thử khơng phải đại diện Ví dụ, có khơng có mẫu số lớp mục đích phân bố lớp tập huấn luyện tập kiểm thử phải xấp xỉ toàn mẫu tập D Lấy mẫu phân tầng phương pháp để cân xứng phân bố phân lớp đảm bảo tỷ lệ phân bố lớp tập huấn luyện kiểm thử phải xấp xỉ Phương pháp lấy mẫu phân tầng không áp dụng 29 cho toán học máy dự đoán/hồi quy đầu mơ hình giá trị số, nhãn lớp 2.4.4 Kiểm tra chéo (Cross-validation) Để tránh việc trùng lặp tập kiểm thử số mẫu xuất mẫu kiểm thử khác ta sử dụng số phương pháp sau: Kiểm tra chéo k-fold (k-fold cross-validation): toàn mẫu D chia thành k tập khơng giao (gọi “fold”) có kích thước xấp xỉ Mỗi lần số k lần lặp, tập sử dụng làm tập kiểm thử k-1 tập lại sử dụng làm tập huấn luyện K giá trị lỗi (mỗi giá trị tương ứng với fold) tính trung bình cộng để thu giá trị tổng thể Các tùy chọn thông thường k 10 5, tập (fold) lấy mẫu xấp xỉ phân bố lớp trước áp dụng trình đánh giá kiểm tra chéo phương pháp phù hợp mẫu D vừa nhỏ 30 CHƯƠNG 3: PHƯƠNG PHÁP ÁP DỤNG HỌC MÁY VÀO PHÂN TÍCH MÃ ĐỘC Chương tập trung đề cập đến việc lựa chọn phương pháp trích xuất đặc trưng từ tiêu đề (header) từ tải (payload) gói tin mạng sở áp dụng thuật toán học máy có giám sát Oneclass SVM vào việc phát phân loại mã độc 3.1 Mơ hình đề xuất thực gồm bước sau: Hình 3.1: mơ hình phân tích mã độc o Bước 1: Thu thập (capture) liệu mạng chứa gói tin độc hại ta thu file pcap o Bước 2: Xử lý file pcap để lấy nội dung text từ header từ payload o Bước 3: Trích chọn đặc trưng:  Từ header: lấy thông tin địa ip, giao thức, thời gian, độ dài gói tin tương tự báo [14-15]  Từ payload: sử dụng phương pháp n-gram [4] để biểu diễn ký tự từ payload tính tần suất xuất Trong phạm vi nghiên cứu sử dụng kích thước 2-gram 31 o Bước 4: Sau thu đặc trưng bước 3, thực lựa chọn đặc trưng phù hợp từ header giảm số lượng đặc trưng từ payload o Bước 5: Từ đặc trưng lựa chọn bước đưa chúng vào xây dựng mơ hình học máy, phần tơi sử dụng thuật tốn Oneclass SVM theo phương pháp tác giả Schölkopf o Bước 6: Sau hồn thành xây dựng mơ hình đưa liệu thực nghiệm vào để đánh giá kết 3.2 Thu thập tiền xử lý xử liệu liệu 3.2.1 Thu thập liệu gói tin mạng Trong phạm vi nghiên cứu không thực thu thập (capture) thơng tin gói tin mạng công cụ tcpdump, STA , IDS/IPS … mà sử dụng liệu nguồn thu thập tệp tin pcap từ sở liệu CICDS2017 [12] Ví dụ, nội dung thơng tin file pcap xem cơng cụ wireshark sau: Hình 3.2: thơng tin gói tin http Ví dụ thơng tin header giao thức http sau: 32 Hình 3.3: thơng tin header giao thức http Ví dụ thơng tin payload loại cơng shell-code http sau: Hình 3.4: thơng tin payload gói tin http 3.2.2 Trích chọn đặc trưng header gói tin Với đầu vào file pcap trích xuất đặc trưng header giống báo [14-15] gồm: địa IP nguồn, địa IP đích, cổng nguồn, cổng đích, giao thức, độ dài gói tin (length), thời gian…Kết đầu việc trích xuất đặc trưng header thu danh sách file csv chứa thơng tin trên, ví dụ nội dụng file csv sau: Hình 3.5: trích xuất đặc trưng từ header 33 3.2.3 Trích chọn đặc trưng từ payload gói tin Từ file pcap thu được, tơi lập trình để trích xuất payload gói tin tương tự báo [4], phạm vi nghiên cứu tơi trích xuất payload gói tin theo giao thức http Thơng tin nội dung file payload sau lập trình để trích xuất nội dung file text có dạng sau: Hình 3.6: nội dung payload trích xuất từ file pcap Từ nội dung payload trích xuất tơi lập trình để chuyển đổi nội dung payload theo phương pháp 2-gram tính tần suất xuất 2-gram để thu tập hợp vector Vector gồm có hàng chứa thơng tin 2-gram cột chứa giá trị tần suất xuất 2-gram Thống tin 2-gram cách tính tần số xuất sau: 3.2.3.1 Khái niệm n-gram Một n-gram dãy byte liền có độ dài n Ví dụ dãy byte liền payload trích xuất “AB C0 EF 12” dãy n-gram byte thu là: Hình 3.7: mơ tả biểu diễn byte theo n-gram Có thể thấy với độ dài n cao kích thước đặc trưng lớn Đối với byte có bit khơng gian đặc trưng 1-gram 28 = 256 2-gram 28 Trong phạm vi luận văn tập trung vào 2-gram 34 3.2.3.2 Tính tần số xuất Sau thu 2-gram, tơi thực tính tần số xuất 2-gram khác liệu mẫu Các kết lưu vào vector đặc trưng trước đưa vào mơ hình học để chọn đặc trưng tốt Công thức để tính tần số xuất hiên (turm frequency -TF) sau: TF(T,D) = 𝐅(𝐓,𝐃) ⅀{𝑭(𝑾,𝑫):𝑾 𝝐 𝑫} Tần số xuất mã 2-gram byte tập mẫu (file payload trích xuất đưa dạng text) tính thương số lần xuất 2-gram byte tập mẫu số lần xuất nhiều 2-gram byte tập mẫu  𝐅(𝐓, 𝐃): số lần xuất 2-gram byte T tập mẫu D  ⅀{𝑭(𝑾, 𝑫): 𝑾 𝝐 𝑫} : tổng số lần xuất 2-gram tập mẫu Kết sau lập trình tính tần suất xuất 2-gram byte thu vector đặc trưng có dạng sau: Hình 3.8: payload trích xuất theo phương pháp 2-gram 3.3 Lựa chọn đặc trưng 3.3.1 Lựa chọn đặc trưng từ header Do số lượng đặc trưng từ header nên tơi lựa chọn đặc trưng điển hình giống báo [14-15] gồm: thông tin dung lượng gói tin gửi, dung lượng gói tin nhận, giao thức, thời gian loại mã độc 35 3.3.2 Lựa chọn đặc trưng từ payload Theo báo số [4] học máy nhận thấy số lượng đặc trưng lớn gặp khó khăn việc xử lý chất lượng mơ hình Các véc tơ đặc trưng phương pháp có số chiều lớn lên đến gần hai triệu chiều, tương ứng với số điểm liệu lớn thực lưu trữ tính tốn trực tiếp liệu có số chiều lớn gặp khó khăn việc lưu trữ, tài ngun tốc độ tính tốn Do giảm số chiều liệu bước quan trọng nhiều tốn học máy, phần bên tơi giới thiệu khái niệm giảm số chiều lựa chọn đặc trưng Giảm số chiều (demension reduction) việc tìm hàm số, hàm số lấy đầu vào điểm liệu ban đầu điểm liệu với D lớn tạo có số chiều K < D Có số thuật toán thực giảm chiều liệu thuật tốn phân tích thành phần (PCA), phân tích phân biệt tuyến tính (LDA) phạm vi luận văn tơi chọn thuật tốn PCA Cách đơn giản để giảm chiều liệu từ D K

Ngày đăng: 05/01/2023, 15:44

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan