1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin

69 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • LỜI CAM ĐOAN

  • LỜI CẢM ƠN

    • MỤC LỤC

  • DANH MỤC KÝ HIỆU VÀ VIẾT TẮT

  • DANH MỤC HÌNH VẼ

  • DANH MỤC BẢNG

  • MỞ ĐẦU

    • 1. Tính cấp thiết của luận văn

    • 2. Mục tiêu nghiên cứu của luận văn

    • 3. Các nội dung nghiên cứu của luận văn

  • CHƯƠNG 1. TỔNG QUAN VỀ MÃ ĐỘC VÀ PHÂN TÍCH MÃ ĐỘC

    • 1.1. Khái niệm mã độc

    • 1.2. Mục đích của mã độc

    • 1.3. Hiện trạng phát triển của mã độc

    • 1.4. Phân loại mã độc

      • 1.4.1. Các loại mã độc phổ biến

      • 1.4.2. Xác định loại mã độc bằng dịch vụ virustotal

    • 1.5. Kỹ thuật phân tích mã độc

      • 1.5.1. Phân tích động

      • 1.5.2. Phân tích tĩnh

    • 1.6. Kết luận chương 1

  • CHƯƠNG 2. PHÁT HIỆN MÃ ĐỘC DỰA TRÊN METADATA CỦA TỆP TIN BẰNG PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH TRONG HỌC MÁY

    • 2.1. Khái niệm về meta-data

      • 2.1.1. Định nghĩa

      • 2.1.2. Cách sử dụng siêu dữ liệu

      • 2.1.3. Mô tả dữ liệu

    • 2.2. Cấu trúc tệp tin thực thi trên hệ điều hành Windows

      • 2.2.1. Cấu trúc cơ bản

      • 2.2.2. DOS Header

      • 2.2.3. PE Header

      • 2.2.4. Data Directory

      • 2.2.5. Section Table

    • 2.3. Phương pháp phát hiện mã độc dựa trên meta-data của tệp tin bằng kỹ thuật cây quyết định trong học máy

      • 2.3.1. Tổng quan về cây quyết định trong học máy

      • 2.3.2. Thuật toán Quinlan

      • 2.3.3. Thuật toán ID3

      • 2.3.4. Thuật toán C4.5

      • 2.3.5. Thuật toán RandomForest

    • 2.4. Kết luận chương 2

  • CHƯƠNG 3. TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ

    • 3.1. Triển khai giải pháp

      • 3.1.1. Giới thiệu giải pháp

      • 3.1.2. Lựa chọn thuật toán để xây dựng mô hình đánh giá

      • 3.1.3. Các bước triển khai cơ sở dữ liệu

    • 3.2. Cài đặt thử nghiệm

      • 3.2.1. Môi trường cài đặt

      • 3.2.2. Thử nghiệm

    • 3.3. Đánh giá kết quả

      • 3.3.1. Đánh giá kết quả sau thực nghiệm

    • 3.4. Kết luận chương 3

  • Chương 4. KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

Nội dung

BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Anh Tuấn NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC DỰA TRÊN DỮ LIỆU META-DATA CỦA TỆP TIN LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH Hà Nội - 2021 BỘ GIÁO DỤC VIỆN HÀN LÂM VÀ ĐÀO TẠO KHOA HỌC VÀ CÔNG NGHỆ VN HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Anh Tuấn NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC DỰA TRÊN DỮ LIỆU META-DATA CỦA TỆP TIN Chuyên ngành : Hệ thống thông tin Mã số : 8480104 LUẬN VĂN THẠC SĨ NGÀNH MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC : TS TRẦN ĐỨC NGHĨA Hà Nội - 2021 LỜI CAM ĐOAN Tôi Nguyễn Anh Tuấn, học viên khóa 2019B, ngành máy tính, chuyên ngành Hệ Thống Thông Tin Tôi xin cam đoan luận văn “Nghiên cứu phương pháp phát mã độc dựa liệu meta data tệp tin” tơi nghiên cứu, tìm hiểu phát triển hướng dẫn TS Trần Đức Nghĩa, chép từ tài liệu, cơng trình nghiên cứu người khác mà không ghi rõ tài liệu tham khảo Tôi xin chịu trách nhiệm lời cam đoan Hà Nội, ngày tháng năm 2021 Học viên Nguyễn Anh Tuấn i LỜI CẢM ƠN Lời cảm ơn trân trọng muốn dành tới thầy cô Học viện khoa học công nghệ Việt Nam, Viện công nghệ thông tin, Viện Hàn lâm khoa học cơng nghệ Việt Nam tận tình giảng dạy truyền đạt kiến thức quý báu, tạo môi trường học tập, nghiên cứu khoa học nghiêm túc suốt thời gian vừa qua, giúp tơi có kiến thức chuyên môn tảng để làm sở lý luận khoa học cho luận văn Đặc biệt xin chân thành cảm ơn thầy TS Trần Đức Nghĩa định hướng, dìu dắt hướng dẫn tơi suốt trình làm luận văn, bảo thầy giúp tự tin nghiên cứu vấn đề giải toán cách khoa học Tôi xin trân trọng cảm ơn Ban giám hiệu Học viện khoa học công nghệ Việt Nam - Viện Hàn lâm khoa học công nghệ Việt Nam tạo điều kiện cho học tập làm luận văn cách thuận lợi Tôi xin cảm ơn hỗ trợ nhóm nghiên cứu tiềm Cảm nhận thông minh ứng dụng (SSA), Trường đại học Phenikaa Trong trình học tập thực luận văn, thực với tinh thần nghiêm túc, chắn không tránh khỏi thiết sót Tơi mong thơng cảm bảo tận tình thầy bạn TÁC GIẢ LUẬN VĂN Nguyễn Anh Tuấn ii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii DANH MỤC KÝ HIỆU VÀ VIẾT TẮT v DANH MỤC HÌNH VẼ vi DANH MỤC BẢNG vii MỞ ĐẦU 1 Tính cấp thiết luận văn Mục tiêu nghiên cứu luận văn Các nội dung nghiên cứu luận văn CHƯƠNG TỔNG QUAN VỀ MÃ ĐỘC VÀ PHÂN TÍCH MÃ ĐỘC 1.1 Khái niệm mã độc 1.2 Mục đích mã độc 1.3 Hiện trạng phát triển mã độc 1.4 Phân loại mã độc 1.4.1 Các loại mã độc phổ biến 1.4.2 Xác định loại mã độc dịch vụ virustotal 1.5 Kỹ thuật phân tích mã độc 1.5.1 Phân tích động 1.5.2 Phân tích tĩnh 1.6 Kết luận chương 11 CHƯƠNG PHÁT HIỆN MÃ ĐỘC DỰA TRÊN METADATA CỦA TỆP TIN BẰNG PHƯƠNG PHÁP CÂY QUYẾT ĐỊNH TRONG HỌC MÁY 12 2.1 Khái niệm meta-data 12 2.1.1 Định nghĩa 12 2.1.2 Cách sử dụng siêu liệu 13 2.1.3 Mô tả liệu 14 2.2 Cấu trúc tệp tin thực thi hệ điều hành Windows 16 2.2.1 Cấu trúc 16 2.2.2 DOS Header 18 2.2.3 PE Header 19 2.2.4 Data Directory 22 2.2.5 Section Table 23 2.3 Phương pháp phát mã độc dựa meta-data tệp tin kỹ thuật định học máy 25 2.3.1 Tổng quan định học máy 25 2.3.2 Thuật toán Quinlan 31 2.3.3 Thuật toán ID3 31 2.3.4 Thuật toán C4.5 34 iii 2.3.5 Thuật toán RandomForest 36 2.4 Kết luận chương 39 CHƯƠNG TRIỂN KHAI VÀ ĐÁNH GIÁ KẾT QUẢ 40 3.1 Triển khai giải pháp 40 3.1.1 Giới thiệu giải pháp 40 3.1.2 Lựa chọn thuật tốn để xây dựng mơ hình đánh giá 40 3.1.3 Các bước triển khai sở liệu 42 3.2 Cài đặt thử nghiệm 47 3.2.1 Môi trường cài đặt 47 3.2.2 Thử nghiệm 48 3.3 Đánh giá kết 49 3.3.1 Đánh giá kết sau thực nghiệm 49 3.4 Kết luận chương 54 Chương KẾT LUẬN 55 TÀI LIỆU THAM KHẢO 57 iv DANH MỤC KÝ HIỆU VÀ VIẾT TẮT APT Advanced Persistent Threat API Application Programming Interface CPL Control Panel CSDL Cơ Sở Dữ Liệu CLS Concept Learning System CPU Central Processing Unit DNS Domain Name System DoS Denial of Service RF Relative Frequency TEI Text Encoding Initiative EAD Encoded Archival Description PE Portable Executable RDF RandomForest KDD Knowledge Discovery in Database v DANH MỤC HÌNH VẼ Hình 1.1 Chức Pseudocode-A tạo mã giả C IDA pro 10 Hình 1.2 Chương trình phân tích IDA pro 10 Hình 2.1 Cấu trúc tệp tin thực thi PE 17 Hình 2.2 Cấu trúc Image_Dos_Header 18 Hình 2.3 Giá trị lfanew hex dump 19 Hình 2.4 Cấu trúc Image_NT_Header 19 Hình 2.5 Cấu trúc Image_File_Header 20 Hình 2.6 Cấu trúc Image_Optional_Header32 21 Hình 2.7 Cấu trúc liệu định nghĩa Data Directory 22 Hình 2.8 Cấu trúc Image_Data_Directory 22 Hình 2.9 Cấu trúc Image_Section_Header 23 Hình 2.10 Mơ phân tách định 28 Hình 2.11 Mơ phân tách định 38 Hình 3.1 KDD process 43 Hình 3.2 Bản ghi liệu sau trích rút thuộc tính gán nhãn 46 Hình 3.3 Bảng tương quan thuộc tính 47 Hình 3.4 Báo cáo thử nghiệm đánh giá kết sử dụng kết hợp mơ hình thuật toán 49 Hình 3.5 Kết đánh giá không biến đổi giảm chiều liệu 50 Hình 3.6 Kết đánh giá biến đổi giảm chiều liệu 51 Hình 3.7 Kết đánh giá biến đổi lựa chọn thuộc tính liệu 51 vi DANH MỤC BẢNG Bảng 3.1 Bảng yêu cầu chức 48 Bảng 3.2 Bảng phần mềm hỗ trợ 48 Bảng 3.3 Bảng tổng hợp kết thử nghiệm với thuật toán Random Forest 52 vii MỞ ĐẦU Tính cấp thiết luận văn Dưới phát triển nhanh chóng mã độc độ phức tạp số lượng, không gian mạng trở nên nóng hết Các nhà phân tích nghiên cứu mã độc khơng thể áp dụng đơn điệu kỹ thuật phân tích Hiện có nhiều giải pháp tích cực như: sandbox, virustotal, … giải pháp mang lại tính hiệu cao, thay vào phụ thuộc nhiều vào hãng chống phần mềm độc hại Đối với mẫu mã độc xuất hay loại mã độc công có chủ đích (APT) giải pháp chưa thực tốt Và quan trọng đơn vị nghiên cứu giải pháp chống mã độc phải tự phát triển giải pháp riêng song song với việc ứng dụng dịch vụ bên thứ ba Bên cạnh xu tương lai học máy trí tuệ nhân tạo có tính ứng dụng lớn Để giảm thời gian phân tích mã độc, tăng tính hiệu quả, mã độc cần phát cách tự động nhanh chóng Để xây dựng hệ thống phát mã độc, cách tiếp cận đề xuất luận văn sử dụng kỹ thuật học máy mang tên định để phân tích meta-data (siêu liệu) tệp tin mã độc, Đây hướng tiếp cận việc phát mã độc trước để phát mã độc phát theo hành vi, theo mã nguồn hay theo đặc trưng mã độc Điều sở đắn tốn thời gian hiệu thấp có nhiều chế chống phát tích hợp Siêu liệu liệu gắn liền với tệp tin điều gần khó để thay đổi mã độc mang đặc trưng chúng Mục tiêu nghiên cứu luận văn Từ nội dung nêu tính cấp thiết luận văn, học viên xác định mục tiêu nghiên cứu luận án “nghiên cứu kỹ thuật học máy định nhằm nâng cao độ xác tốc độ phát loại mã độc dựa siêu liệu (meta data) tệp tin” Các nội dung nghiên cứu luận văn Với mục tiêu nghiên cứu trình bày trên, học viên xác định nghiên cứu Gán nhãn liệu Mã độc có giá trị Tệp tin giá trị Hình 3.2 Bản ghi liệu sau trích rút thuộc tính gán nhãn Chuẩn hóa liệu Báo cáo sử dụng thử nghiệm trường hợp để đánh giá với loại mơ hình phân lớp: - Khơng biến đổi liệu - Min-max normalization: Chuẩn hóa liệu việc scale liệu phân bố giá trị trung bình quan sát độ lệch chuẩn = Nhờ việc chuẩn hóa, thuật tốn linear regression, logistic regression cải thiện - Z-score normalization: Bộ scaler MinMaxScaler đưa biến miền giá trị [0, 1] Lựa chọn thuộc tính giảm chiều liệu Báo cáo sử dụng thử nghiệm trường hợp lựa chọn thuộc tính giảm chiều liệu (hình 3.3) - Khơng sử dụng lựa chọn thuộc tính, giảm chiều liệu - ExtraTreeClassifier: Đây loại kỹ thuật học tập tổng hợp , tổng hợp kết nhiều định không tương quan thu thập “khu rừng” để tạo kết phân loại 46 Hình 3.3 Bảng tương quan thuộc tính Khai phá liệu Báo cáo thử nghiệm thuật toán phân lớp với siêu tham số khác (21 mơ hình): - DecisionTreeClassifier - RandomForestClassifier - GradientBoosting - AdaBoost - MLP - LogisticRegression - GNB - SVM - KNeighborsClassifier 3.2 Cài đặt thử nghiệm 3.2.1 Môi trường cài đặt Công cụ cài đặt môi trường hệ điều hành Windows 10 máy có cấu sau (bảng 3.1): 47 Bảng 3.1 Bảng yêu cầu chức Phần cứng Phần mềm môi trường phát triển CPU Core(TM) i5- HĐH: Windows 10 1135G7 @ 2.40GHz IDE: Spyder Anacoda RAM 8GB Môi trường: Python SSD 256 GB Thư viện hỗ trợ: Sklearn, Pickle, Pefile Yêu cầu phần mềm hỗ trợ (minh họa bảng 3.2) Bảng 3.2 Bảng phần mềm hỗ trợ STT Tên Python 3.8 Anacoda Giấy phép Địa tải GPL https://www.python.org/ Anaconda https://repo.anaconda.com/archive/Anacond Inc a3-2021.05-Windows-x86_64.exe 3.2.2 Thử nghiệm Các bước thực Bước 1: Chạy file Get_benign_file.py Bước 2: Chạy file Feature_extraction.py Bước 3: Chạy file Training.py Bước 4: Chạy file Savedmodel.py Bước 5: Chạy Using_model.py Phương pháp huấn luyện mẫu thử nghiệm Phương pháp đánh giá: Hold-out method (80% cho Training 20% cho Testing) Phương pháp triển khai mơ hình 48 Báo cáo thử nghiệm đánh giá kết sử dụng kết hợp mơ hình thuật tốn sau (Hình 3.4): Hình 3.4 Phương pháp chuẩn hóa, lựa chọn thuộc tính mơ hình học máy 3.3 Đánh giá kết 3.3.1 Đánh giá kết sau thực nghiệm Đánh giá Confusions Matrix Cách đơn giản hay sử dụng Accuracy (độ xác) Cách đánh giá đơn giản tính tỉ lệ số điểm dự đoán tổng số điểm tập liệu kiểm thử  Accuracy = 𝑇𝑃+𝑇𝑁 𝑇𝑃+𝐹𝑃+𝑇𝑁+𝐹𝑁 Đánh giá Precision Recall Trong thực nghiệm thực hiện, số lượng lớp không đồng đều, có chút chênh lệch Với trường hợp phép đo hiệu sử dụng Precision - Recall  Precision =  Recall = 𝑇𝑃 𝑇𝑃+𝐹𝑃 𝑇𝑃 𝑇𝑃+𝐹𝑁 Precision Recall số không âm nhỏ bẳng Precision cao đồng nghĩa với việc độ xác điểm tìm cao Recall cao đồng đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ 49 sót điểm thực positive thấp Từ hai đại lượng tính ta thấy mơ hình phân lớp triển khai tốt Đánh giá F1-score $F_1$ hay F1-score harmonic mean precision recall F1 – score có giá trị nằm nửa khoảng (0,1] F1 cao, phân lớp tốt Khi recall precision (tốt có thể), F1 = 𝐹1 = 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 + 𝑟𝑒𝑐𝑎𝑙𝑙 hay F1 = 1 + 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 =2 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 𝑟𝑒𝑐𝑎𝑙𝑙 𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑟𝑒𝑐𝑎𝑙𝑙 F1-score cao cho thấy chất lượng mơ hình cao Kết thử nghiệm với lựa chọn “Không biến đổi liệu không giảm chiều liệu” (hình 3.5) Hình 3.5 Kết đánh giá không biến đổi giảm chiều liệu Khi khơng biến đổi liệu: Các thuật tốn dạng định cho hiệu tốt đặc biệt RandomForest Mơ hình có độ xác chung cao Randomforest với tham số số lượng dự đốn n=100 Các mơ hình dựa khoảng cách Logictic Regression, SVM cho hiệu chung thấp Kết thử nghiệm với lựa chọn “Biến đổi liệu khơng giảm chiều liệu” (hình 3.6) 50 Hình 3.6 Kết đánh giá biến đổi giảm chiều liệu Khi thực đổi liệu: Các thuật toán dạng định cho hiệu tốt đặc biệt RandomForest Mơ hình có độ xác chung cao Randomforest với tham số số lượng dự đốn n=100 Các mơ hình dựa khoảng cách Logictic Regression, SVM cho hiệu chung cao nhiều so với không thực biến đổi liệu Đánh giá kết với lựa chọn “Biến đổi liệu lựa chọn thuộc tính” (hình 3.7) Hình 3.7 Kết đánh giá biến đổi lựa chọn thuộc tính liệu Khi thực đổi liệu: Các thuật toán dạng định cho hiệu tốt đặc biệt RandomForest 51 Mơ hình có độ xác chung cao Randomforest với tham số số lượng dự đốn n=100 Khi lựa chọn thuộc tính hơn, độ xác có giảm đơi chút so với mơ hình ban đầu Các mơ hình dựa khoảng cách Logictic Regression, SVM cho hiệu chung cao nhiều so với không thực biến đổi liệu Bảng 3.3 Bảng tổng hợp kết thử nghiệm với thuật tốn Random Forest Kết luận Mơ hình Random Forest cho kết tốt trường hợp Khi khơng sử dụng phương pháp chuẩn hóa liệu, độ xác mơ hình khơng dựa khoảng cách DS, RDF, … không ảnh hưởng nhiều phương pháp dựa khoảng cách Logistic Regression hay SVM ảnh hưởng lớn Khi lựa chọn thuộc tính giảm chiều liệu, độ xác mơ hình có giảm đơi chút so với việc sử dụng liệu đầy đủ, tốc độ thực thi cao Sử dụng mơ hình để xây dựng chương trình quét mã độc thực tế Sau q trình huấn luyện, chọn mơ hình RandomForest với n=100 để lưu lại sử dụng 52 Sau chọn mơ hình RandomForest n=100, lưu mơ hình lại thư viện pickle thành tệp classifier.pkl Kết thử nghiệm 100 file quét cho kết quả: + 99 file nhận dạng file + file bị nhận nhầm thành mã độc  99% phát 300 mẫu mã độc: + 297 file nhận dạng mã độc, file bị nhận dạng nhầm bỏ sót  99% phát Các trường hợp xảy quét mã độc cụ thể Trường hợp nhận dạng mã độc Trường hợp tệp nhận dạng thành mã độc Trường hợp nhận dạng file Trường hợp mã độc nhận dạng thành file 53 3.4 Kết luận chương Chương mơ hình hóa, triển khai thuật tốn nghiên cứu từ chương Từ mơ hình triển khai này, đánh giá kết nghiên cứu, tính ứng dụng khả mở rộng luận văn 54 CHƯƠNG KẾT LUẬN Ba chương luận văn thể mục tiêu đặt thực luận văn đạt Cụ thể: Chương trình bày tranh tổng quan phương pháp phân tích mã độc Qua thấy ưu nhược điểm phương pháp Và tầm quan trọng giải pháp phát mẫu trước phân tích Chương giải thích khái niệm siêu liệu, cấu trúc tệp tin thực thi hệ điều hành Windows, trường quan trọng sử dụng làm siêu liệu Bên cạnh trình bày số thuật tốn phân lớp liệu dựa vào định Nêu ưu nhược điểm thuật toán, dựa vào tính thực tế để lựa chọn thuật tốn phù hợp Từ ví dụ thực tế cơng thức tường minh, nội dung chương nêu sở khoa học cho hướng nghiên cứu, tạo giải pháp giải toán đặt Chương thực hóa thuật tốn sở khoa học tìm hiểu được, mơ hình hóa toán cụ thể cần giải vào giải pháp mang hướng mở triển khai thực tế Trong q trình làm luận văn tơi thu nhiều kiến thức cấu trúc tệp tin thực thi hệ điều hành Windows, cô đọng lại kiến thức mã độc, tiếp cận nhiều thuật toán khai phá liệu với hướng tiếp cận định Hiểu cách để phát liệu học máy, hiểu quy trình triển khai thuật tốn học máy Hiểu tầm quan trọng việc phát liệu, liệu mã độc Ngoài thu nhiều kiến thức thực tế triển khai mơ hình phát mã độc Bên cạnh khó khăn, hạn chế q trình thực nghiên cứu hồn thiện luận văn Vì giới hạn thời gian nghiên cứu, lượng liệu, thuật tốn tiếp cận cịn ít, lực thân giới hạn kiến thức kinh nghiệm Nhưng thay vào đề tài đưa vấn đề thực tế, xu hướng tại, có bước dài hướng phát triển nên tơi cố gắng nghiên cứu sâu học máy, tiếp cận nhiều với nhiều thuật toán tối 55 ưu hơn, xây dựng thêm module tự động lấy mẫu sở liệu mở lớn, xây dựng GUI giao diện đồ họa cho ứng dụng (có thể local web), xây dựng sở liệu (local web) có phân quyền, bảo vệ liệu, nhiều tham vọng khác hướng phát triển nghiên cứu Ngồi ra, Việt Nam cơng ty bảo mật hàng đầu chạy đua để tích hợp trí tuệ nhân tạo, học máy vào hệ thống phát hiện, xử lý mã độc nên nghiên cứu phát triển tốt tơi hy vọng module quan trọng với ý nghĩa phát mã độc dựa kỹ thuật học máy, trí tuệ nhân tạo Ngồi tơi mở rộng ứng dụng cho nâng cao an toàn cho mạng cảm biến vốn ngày sử dụng phổ biến [39][40][41] 56 TÀI LIỆU THAM KHẢO [1] Daniel Gibert, Carles Mateu, Jordi Planes, The rise of machine learning for detection and classification of malware, Research developments, trends and challenges, Journal of Network and Computer Applications, Volume 153, March 2020, 102526 [2] Kateryna Chumachenko, Machine Learning Methods for Malware Detection and Classification, Cuckoo Sandbox, 2017 [3] John Aycock Computer Viruses and Malware, Springer Science + Business Media, Definitions and Timeline, Pages 11-25 2006 [4] Nguyen Ngoc Quan Nghiên cứu phương pháp phân tích động mã độc 2015 [5] Báo Nhân Dân, Bkis xác định: Tin tặc Anh công website phủ Hàn Quốc, https://nhandan.vn/thong-tin-so/Bkis-x%C3%A1c- %C4%91%E1%BB%8Bnh:-Tin-t%E1%BA%B7c-Anht%E1%BA%A5n-c%C3%B4ng-website-ch%C3%ADnhph%E1%BB%A7-H%C3%A0n-Qu%E1%BB%91c-541556, online 257-2021 [6] Báo Tuổi Trẻ, Bộ Công an điều tra vụ báo điện tử VOV bị công mạng, https://tuoitre.vn/bo-cong-an-dieu-tra-vu-bao-dien-tu-vov-bi-tancong-mang-20210614132001071.htm, online 25-7-2021 [7] Sophos, SOPHOS 2021 THREAT REPORT https://www.sophos.com/en-us/medialibrary/PDFs/technicalpapers/sophos-2021-threat-report.pdf/ , online 28-8-2021 [8] Umbreen Fatima, Mubasher Ali, Nauman Ahmed, M.Rafiq, Numerical modeling of susceptible latent breaking-out quarantine computer virus epidemic dynamics, 21 May 2018 [9] Jialiang Zhang, Application of Artificial Intelligence Technology in Computer Network Security, International Journal of Network Security, Vol.20, No.6, PP.1016-1021, Nov 2018 [10] H Berghel, The code red worm Commun of the ACM 12 (2001), 15–19 57 [11] D Moore, C Shannon, K.Claffy, Code-red a case study on the spread and victims of an Internet worm, In: Proc of 2nd ACM SIGCOMM Workshop on Internet measurement IEEE Secur Privacy (2002), 273–84 [12] Z Chen, L Gao, K Kwiat, Modeling the spread of active worms IEEE Comput Commun IEEE Societies, INFOCOM, In: 22nd Annu Joint Conf, 3; (2003) pp 1890–900 [13] C Shannon, D Moore, The spread of the witty worm IEEE Secur Privacy 3(2), (2004), 46–50 [14] Leian Liu, Zuanxing Yin, Yuli Shen, Haitao Lin, Hongjiang Wang Research and Design of Rootkit Detection Method Physics Procedia Volume 33, 2012, Pages 852-857 [15] Bitdefender, Giới thiệu phần mềm độc hại, https://www.bitdefender.vn/post/malware/, online 29-8-2021 [16] LenaY Connolly, David S.Wall The rise of crypto-ransomware in a changing cybercrime landscape Taxonomising countermeasures, 2019 [17] Virustotal, VirusTotal Intelligence Introduction In https://support.virustotal.com/hc/en-us/articles/360001387057VirusTotal-Intelligence-Introduction/, online 24-09-2021 [18] Michael Sikorski, Andrew Honig Practical Malware Analysis, February 2012, 800 pp [19] Yassine Lemmou, Jean-Louis Lanet, El Mamoun Souidi, A behavioural in-depth analysis of ransomware infection, ORIGINAL RESEARCH PAPER, 30 December 2020 [20] John Aycock, Rennie deGraaf, Michael Jacobson Jr, Anti-Disassembly using Cryptographic Hash Functions, Department of Computer Science University of Calgary, TR 2005-793-24 [21] Jonathan Furner, Definitions of “Metadata”: A Brief Survey of International Standards, ASIST journal, 23 August 2019 58 [22] Bojana Dimić, Branko Milosavljević, Dušan Surla, XML schtema for UNIMARC and MARC 21, The Electronic Library, Vol 28 No 2, pp 245-262, 2010 [23] Jung-ran Park, Eric Childress, Dublin Core metadata semantics: an analysis of the perspectives of information professionals, Journal of Information Science, May 29, 2009 [24] E Peis, Felix de Moya-Anegon, Juan-Carlos Fernández-Molina, Encoded archival description (EAD) conversion: A methodological proposal, Library Hi Tech, December 2000 [25] Microsoft, Microsoft Joins Meta Data Coalition to Foster Meta Data Standard, https://news.microsoft.com/1998/12/07/microsoft-joins-metadata-coalition-to-foster-meta-data-standard/, online 26-7-2021 [26] Mohamed Belaoued, Smaine Mazouzi, A Real-Time PE-Malware Detection System Based on CHI-Square Test and PE-File Features, Computer Science and Its Applications, pp 416-425, 2015 [27] Max Kuhn, Building Predictive Models in R Using the caret Package, Journal of Statistical Software, November 2008, Volume 28, Issue [28] Yan-yan SONG, Ying LU, Decision tree methods: applications for classification and prediction, Shanghai Arch Psychiatry 2015 Apr 25; 27(2): 130–135 [29] Wei-Yin Loh, Classification and regression trees, Computer Science, 2011 [30] J.R, QUINLAN, Induction of Decision Trees, Computer Science, Machine Learning, 2004 [31] Don Coppersmith, Se June Hong, Jonathan R M Hosking, Partitioning Nominal Attributes in Decision Trees, Journal of Data Mining and Knowledge Discovery, 1999 [32] Elteir, Marwa K Pseudocode of ID3 Decision Tree Algorithm, 2006, www.researchgate.net/figure/Pseudocode-of-ID3-Decision-TreeAlgorithm_fig13_259754610 “The ID3 Algorithm.” www.cise.ufl.edu/~ddd/cap6635/Fall-97/Short-papers/2.htm 59 ID3, [33] STEVEN L SALZBERG, Book Review: C4.5: by J Ross Quinlan Inc., 1993, Machine Learning, 16, 235-240 (1994) [34] Efron B., (1979) Bootstrap Methods: Another look at the Jackknife The Annals of statistics, Vol.7, (No.1), pp.1-26 [35] Đồng Thị Ngọc Lan, (2011) Nghiên cứu, xây dựng phương pháp trích chọn thuộc tính nhằm làm tăng hiệu phân lớp liệu đa chiều Luận văn Thạc sĩ ngành Công nghệ phần mềm Mã số: 60.48.10, Đại học công nghệ [36] Breiman L and Cutler A., (2007) Random Forests [Online] Available: https://www.stat.berkeley.edu/~breiman/RandomForests/, 22-7-2021 [37] Breiman L., (2001) Random Forests Machine Learning Journal Paper , vol 45, (no.1), p 5-32 Oct 2001 [38] Machine Learning Cơ bản, Random Forest algorithm, https://machinelearningcoban.com/tabml_book/ch_model/random_forest html, online 24-9-2021 [39] Gian Quoc, Anh, Chinh Nguyen Dinh, Nghia Tran Duc, Tan Tran Duc, and Sandrasegaran Kumbesan "Wireless technology for monitoring sitespecific landslide in Vietnam." International Journal of Electrical and Computer Engineering 8, no (2018): 4448-4455 [40] Do, D D., H V Nguyen, N X Tran, T D Ta, T D Tran, and Y V Vu "Wireless ad hoc network based on global positioning system for marine monitoring, searching and rescuing (MSnR)." In Asia-Pacific Microwave Conference 2011, pp 1510-1513 IEEE, 2011 [41] Nguyen, Dinh-Chinh, Tran Duc-Tan, and Duc-Nghia Tran "Application of compressed sensing in effective power consumption of WSN for landslide scenario." In 2015 Asia Pacific Conference on Multimedia and Broadcasting, pp 1-5 IEEE, 2015 60 ... VIỆN KHOA HỌC VÀ CÔNG NGHỆ Nguyễn Anh Tuấn NGHIÊN CỨU PHƯƠNG PHÁP PHÁT HIỆN MÃ ĐỘC DỰA TRÊN DỮ LIỆU META- DATA CỦA TỆP TIN Chuyên ngành : Hệ thống thông tin Mã số : 8480104 LUẬN VĂN THẠC SĨ NGÀNH... Thông Tin Tôi xin cam đoan luận văn ? ?Nghiên cứu phương pháp phát mã độc dựa liệu meta data tệp tin? ?? nghiên cứu, tìm hiểu phát triển hướng dẫn TS Trần Đức Nghĩa, chép từ tài liệu, cơng trình nghiên. .. phát mã độc Cuối cùng, đề xuất cách gián tiếp phát dựa meta- data mã độc kỹ thuật định 2.1 Khái niệm meta- data 2.1.1 Định nghĩa Siêu liệu (meta- data) dạng liệu miêu tả liệu Trong sở liệu, metadata

Ngày đăng: 12/01/2022, 15:18

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Chương trình được phân tích bởi IDA pro - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 1.2 Chương trình được phân tích bởi IDA pro (Trang 19)
Hình 1.1 Chức năng Pseudocode-A tạo mã giả C của IDA pro - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 1.1 Chức năng Pseudocode-A tạo mã giả C của IDA pro (Trang 19)
Hình 2.1 Cấu trúc tệp tin thực thi PE - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.1 Cấu trúc tệp tin thực thi PE (Trang 26)
Hình 2.2 Cấu trúc Image_Dos_Header - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.2 Cấu trúc Image_Dos_Header (Trang 27)
Hình 2.3 Giá trị của lfanew trên hex dump - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.3 Giá trị của lfanew trên hex dump (Trang 28)
Hình 2.5 Cấu trúc Image_File_Header Machine: Bộ vi xử lý tạo tệp tin. - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.5 Cấu trúc Image_File_Header Machine: Bộ vi xử lý tạo tệp tin (Trang 29)
Hình 2.6 Cấu trúc Image_Optional_Header32 - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.6 Cấu trúc Image_Optional_Header32 (Trang 30)
Hình 2.7 Cấu trúc dữ liệu được định nghĩa bởi Data Directory - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.7 Cấu trúc dữ liệu được định nghĩa bởi Data Directory (Trang 31)
Hình 2.10. Mô phỏng sự phân tách trong cây quyết định - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 2.10. Mô phỏng sự phân tách trong cây quyết định (Trang 37)
- Lấy kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô hình. - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
y kết quả có số lượng vote lớn nhất làm kết quả cuối cho mô hình (Trang 47)
Hình 3.1 KDD process - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 3.1 KDD process (Trang 52)
Hình 3.2 Bản ghi dữ liệu sau khi trích rút thuộc tính và gán nhãn - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 3.2 Bản ghi dữ liệu sau khi trích rút thuộc tính và gán nhãn (Trang 55)
Hình 3.3 Bảng tương quan giữa các thuộc tính - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 3.3 Bảng tương quan giữa các thuộc tính (Trang 56)
Bảng 3.1 Bảng yêu cầu chức năng - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Bảng 3.1 Bảng yêu cầu chức năng (Trang 57)
Báo cáo thử nghiệm và đánh giá kết quả sử dụng kết hợp các mô hình và thuật toán sau (Hình 3.4):  - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
o cáo thử nghiệm và đánh giá kết quả sử dụng kết hợp các mô hình và thuật toán sau (Hình 3.4): (Trang 58)
F1-score cao cho thấy chất lượng của mô hình cao. - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
1 score cao cho thấy chất lượng của mô hình cao (Trang 59)
Mô hình có độ chính xác chung cao nhất là Randomforest với tham số là số lượng cây dự đoán n=100 - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
h ình có độ chính xác chung cao nhất là Randomforest với tham số là số lượng cây dự đoán n=100 (Trang 60)
Hình 3.6 Kết quả đánh giá biến đổi và giảm chiều dữ liệu - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
Hình 3.6 Kết quả đánh giá biến đổi và giảm chiều dữ liệu (Trang 60)
Mô hình có độ chính xác chung cao nhất là Randomforest với tham số là số lượng cây dự đoán n=100 - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
h ình có độ chính xác chung cao nhất là Randomforest với tham số là số lượng cây dự đoán n=100 (Trang 61)
Các mô hình dựa trên khoảng cách như Logictic Regression, SVM cho hiệu quả chung cao hơn nhiều so với khi không thực hiện biến đổi dữ liệu - Nghiên cứu phương pháp phát hiện mã độc dựa trên dữ liệu meta data của tệp tin
c mô hình dựa trên khoảng cách như Logictic Regression, SVM cho hiệu quả chung cao hơn nhiều so với khi không thực hiện biến đổi dữ liệu (Trang 61)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w