1. Trang chủ
  2. » Tất cả

Ứng dụng học máy trong phát hiện mã độc

51 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 51
Dung lượng 2,13 MB

Nội dung

BAN CƠ YẾU CHÍNH PHỦ HỌC VIỆN KỸ THUẬT MẬT Mà ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯ BÁO CÁO BÀI TẬP LỚN ỨNG DỤNG HỌC MÁY TRONG PHÁT HIỆN Mà ĐỘC Ngành : An toàn thơng tin Mơn học: Cơ sở an tồn thơng tin Giảng viên : Nguyễn Mạnh Thắng Khoa ATTT – Học Viện Kỹ Thuật Mật Mã LỜI CẢM ƠN Đầu tiên, xin gửi lời cảm ơn chân thành tới thầy cô học viện Kỹ thuật Mật Mã nói chung thầy hệ quản lý sinh viên khoa An tồn thơng tin nói riêng tận tình giảng dạy, truyền đạt cho tơi kiến thức kinh nghiệm quý báu suốt thời gian sinh viên học viện; quan tâm tạo điều kiện thuận lợi cho q trình thực đồ án Và để hồn thành báo cáo này, xin gửi lời cảm ơn chân thành biết ơn sâu sắc tới giảng viên hướng dẫn Nguyễn Mạnh Thắng, người thầy tận tình giúp đỡ, trực tiếp dạy, hướng dẫn tơi suốt q trình làm báo cáo Trong thời gian làm việc với thầy, không tiếp thu kiến thức chun mơn mà tơi cịn học hỏi tinh thần trách nhiệm, thái độ làm việc nghiêm túc, hiệu từ thầy Sau xin gửi lời cảm ơn chân thành tới gia đình, bạn bè động viên, đóng góp ý kiến giúp đỡ tơi q trình học tập, nghiên cứu hồn thành báo cáo Tôi xin chân thành cảm ơn! MỤC LỤC LỜI CẢM ƠN MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ HỌC MÁY .7 1.1 Học máy gì? 1.2 Các hình thức học 1.2.1 Học có giám sát .7 1.2.2 Học không giám sát 1.2.3 Học bán giám sát 1.2.4 Học tăng cường CHƯƠNG CÁC THUẬT TOÁN CƠ BẢN TRONG HỌC MÁY .10 2.1 Hồi quy tuyến tính 10 2.1.1 Báo cáo vấn đề 10 2.1.2 Cách giải 12 2.2 Hồi quy logistic 17 2.2.1 Đặt vấn đề .17 2.2.2 Cách giải 19 2.3 Cây định 20 2.3.1 Báo cáo vấn đề 21 2.3.2 Cách giải 21 2.4 Support Vector Machine 24 2.4.1 Đối phó với nhiễu .28 2.4.2 Đối phó với phi tuyến tính .29 2.5 k-Nearest Neighbors 32 CHƯƠNG ỨNG DỤNG CỦA HỌC MÁY TRONG PHÂN TÍCH VÀ PHÁT HIỆN Mà ĐỘC 35 3.1 Một số ứng dụng học máy an tồn thơng tin 35 3.1.1 Phát lạm dụng\chữ ký 35 3.1.2 Phát bất thường 35 3.1.3 Phát kết hợp .36 3.1.4 Phát quét 36 3.2 Mục tiêu việc phân tích mã độc 36 3.2.1 Phát mã độc 37 3.2.2 Phân tích tương tự mã độc 37 3.2.3 Phân loại mã độc 38 3.3 Phân tích đặc trưng mã độc 38 3.3.1 Khai thác đặc trưng .38 3.3.2 Các đặc trưng Portable Executable .38 CHƯƠNG TRIỂN KHAI VÀ ĐÁNH GIÁ MỘT MƠ HÌNH HỌC MÁY .40 4.1 Triển khai dự án 40 4.1.1 Thông tin dự án sử dụng 40 4.1.2 Các bước triển khai dự án 40 4.1.3 Thực nghiệm số trang web 42 4.1.4 Thực đào tạo mơ hình với tệp liệu đầu vào cho trước 45 4.2 Nhận định 47 KẾT LUẬN .50 TÀI LIỆU THAM KHẢO 51 MỞ ĐẦU Ngày song song với bùng nổ mạnh mẽ công nghệ thông tin phát triển Internet tồn cầu nguy an tồn thơng tin trở nên trầm trọng nguy hiểm hơn, mã độc hại hiểm họa hàng đầu khả lây lan phát tán hệ thống máy tính thực hành vi công bất hợp pháp Mã độc ngày tiến hóa với biết thể đa dạng, với cách thức che dấu ngày tinh vi Có thể nói phát ngăn chặn mã độc thách thức đặt lĩnh vực An tồn thơng tin Các phương pháp phát mã độc thông thường chủ yếu sử dụng kĩ thuật so sánh mẫu dựa sở liệu mã độc xây dựng định nghĩa từ trước, nhiên phương pháp bộc lộ nhiều nhược điểm khơng có khả phát mẫu mã độc mới, số lượng liệu mã độc ngày gia tăng làm cho sở liệu mẫu trở nên ngày lớn Hiện hướng nghiên cứu dựa vào mơ hình học máy để phân loại phát mã độc tỏ phương pháp tiềm hiệu cải thiện nhược điểm nêu so với phương pháp truyền thống Tài liệu trình bày cách tổng quan học máy ứng dụng học máy An tồn thơng tin nói chung phát mã độc nói riêng Kết cấu tài liệu chia thành bốn chương: Chương 1: Tổng quan học máy Chương giới thiệu học máy, bao gồm: khái niệm, số ví dụ, loại học máy Chương 2: Các thuật toán học máy Mơ tả năm thuật tốn khơng biết đến nhiều mà tiềm sử dụng làm khối xây dựng cho thuật tốn học tập tiềm có Chương 3: Học máy an tồn thơng tin Nói số ứng dụng học máy an tồn thơng tin nói chung kỹ thuật phân tích mã độc Chương 4: Triển khai đánh giá mơ hình học máy việc phát mã độc từ URL Trình bày trình cài đặt vận hành dự án phân tích, đánh giá mơ hình CHƯƠNG TỔNG QUAN VỀ HỌC MÁY 1.1 Học máy gì? Học máy lĩnh vực khoa học máy tính liên quan đến việc xây dựng thuật toán dựa sưu tập ví dụ số tượng để trở nên hữu ích Những ví dụ đến từ tự nhiên, người làm thủ công tạo thuật tốn khác Học máy định nghĩa trình giải vấn đề thực tế cách thu thập tập liệu xây dựng mơ hình thống kê theo thuật tốn dựa tập liệu Mơ hình thống kê giả định sử dụng cách để giải vấn đề thực tế Một số ứng dụng thực tiễn học máy:  Nhận dạng giọng nói  Nhận dạng hình ảnh  Dự đốn giao thơng  Đề xuất sản phẩm  1.2 Các hình thức học Các hình thức học học có giám sát, học không giám sát, học bán giám sắt hay học tăng cường 1.2.1 Học có giám sát Trong học tập có giám sát, tập liệu tập hợp ví dụ gắn nhãn {( x i , y i )}Ni=1 Mỗi phần tử x i số N gọi vector đặc trưng Vectơ đặc trưng vectơ chiều j=1, , D chứa giá trị mô tả ví dụ Giá trị gọi đặc trưng ký hiệu x( j) Ví dụ: ví dụ x sưu tập đại diện cho người, đối tượng đầu tiên, x(1)có thể chứa chiều cao tính cm, đặc trưng thứ hai, x(2), chứa trọng lượng tính kg, x(3)có thể chứa giới tính, v.v Đối với tất ví dụ tập liệu, đối tượng vị trí j vectơ đặc trưng ln chứa loại thơng tin Có nghĩa x(2) i chứa trọng lượng tính kg số ví dụ x i, x(2) k chứa trọng lượng tính kg ví dụ x k , k=1, , N Nhãn y i phần tử thuộc tập hữu hạn lớp {1, 2, , C } số thực, cấu trúc phức tạp hơn, vectơ, ma trận, đồ thị Bạn xem lớp danh mục mà ví dụ thuộc Ví dụ: ví dụ bạn thư email vấn đề bạn phát spam, bạn có hai lớp {spam ,not spam } Mục tiêu thuật tốn học có giám sát sử dụng tập liệu để tạo mơ hình lấy vectơ đặc trưng x làm thông tin đầu vào đầu cho phép suy nhãn cho vectơ đặc trưng Ví dụ: mơ hình tạo cách sử dụng tập liệu người lấy làm đầu vào vectơ đặc trưng mô tả người đưa xác suất người bị ung thư 1.2.2 Học khơng giám sát Trong học tập không giám sát, tập liệu tập hợp ví dụ khơng gắn nhãn N {x i }i=1 Trong đó, x vectơ đặc trưng mục tiêu thuật toán học khơng giám sát tạo mơ hình lấy vectơ đặc trưng x làm đầu vào biến thành vectơ khác thành giá trị sử dụng để giải vấn đề thực tế Ví dụ, phân nhóm, mơ hình trả id nhóm cho vectơ đặc trưng tập liệu Khi giảm kích thước, đầu mơ hình vectơ đặc trưng có tính đầu vào x ; Trong phát ngoại lệ, đầu số thực cho biết x khác với ví dụ 'điển hình' tập liệu 1.2.3 Học bán giám sát Trong học tập bán giám sát, tập liệu chứa ví dụ gắn nhãn khơng gắn nhãn Thơng thường, số lượng ví dụ khơng gắn nhãn cao nhiều so với số lượng ví dụ gắn nhãn Mục tiêu thuật tốn học bán giám sát giống mục tiêu thuật tốn học có giám sát Hy vọng việc sử dụng nhiều ví dụ khơng gắn nhãn giúp thuật tốn học tìm (chúng ta nói “sản xuất” “tính tốn”) mơ hình tốt 1.2.4 Học tăng cường Học tăng cường trường học máy máy “sống” mơi trường có khả nhận thức trạng thái mơi trường vectơ đặc trưng Máy thực hành động trạng thái Các hành động khác mang lại phần thưởng khác di chuyển máy sang trạng thái khác mơi trường Mục tiêu thuật tốn học tăng cường tìm hiểu sách Chính sách hàm f (tương tự mơ hình học có giám sát) lấy vectơ đặc trưng trạng thái làm đầu vào đầu hành động tối ưu để thực thi trạng thái Hành động tối ưu tối đa hóa phần thưởng trung bình mong đợi Học tăng cường giải loại vấn đề cụ thể việc định mục tiêu dài hạn, chẳng hạn chơi trò chơi, chế tạo người máy, quản lý tài nguyên hậu cần CHƯƠNG CÁC THUẬT TOÁN CƠ BẢN TRONG HỌC MÁY 2.1 Hồi quy tuyến tính Hồi quy tuyến tính thuật toán học hồi quy phổ biến để học mơ hình kết hợp tuyến tính đặc trưng ví dụ đầu vào 2.1.1 Báo cáo vấn đề Có tập hợp ví dụ gắn nhãn {( x i , y i )}Ni=1, N kích thước tập hợp, x i vectơ đặc trưng D -chiều ví dụ i=1, , N , y i mục tiêu có giá trị thực đặc trưng x(i j) , j=1, , D, số thực Ta muốn xây dựng mơ hình f w ,b ( x )dưới dạng kết hợp tuyến tính đặc trưng ví dụ x : f w ,b ( x )=wx+b (1) đów vectơ D chiều tham số b số thực Kí hiệu f w ,b có nghĩa mơ hình f tham số hoá hai giá trị: w b Ta sử dụng mơ hình để dự đoán y chưa biết x cho trước sau: y ← f w ,b ( x) Hai mơ hình tham số hóa hai cặp khác ( w ,b) tạo hai dự đoán khác áp dụng cho ví dụ Ta muốn tìm giá trị tối ưu (w ¿, b ¿) Rõ ràng, giá trị tối ưu tham số xác định mơ hình đưa dự đốn xác Bạn nhận thấy dạng mơ hình tuyến tính cơng thức (1) giống với dạng mơ hình SVM Sự khác biệt toán tử dấu hiệu bị thiếu Hai mơ hình thực tương tự Tuy nhiên, siêu phẳng SVM đóng vai trị ranh giới định: sử dụng để tách hai nhóm ví dụ với Như vậy, phải xa nhóm 10 ... 32 CHƯƠNG ỨNG DỤNG CỦA HỌC MÁY TRONG PHÂN TÍCH VÀ PHÁT HIỆN Mà ĐỘC 35 3.1 Một số ứng dụng học máy an tồn thơng tin 35 3.1.1 Phát lạm dụng\ chữ ký 35 3.1.2 Phát bất thường... toán học tập tiềm có Chương 3: Học máy an tồn thơng tin Nói số ứng dụng học máy an tồn thơng tin nói chung kỹ thuật phân tích mã độc Chương 4: Triển khai đánh giá mơ hình học máy việc phát mã độc. .. điểm khơng có khả phát mẫu mã độc mới, số lượng liệu mã độc ngày gia tăng làm cho sở liệu mẫu trở nên ngày lớn Hiện hướng nghiên cứu dựa vào mô hình học máy để phân loại phát mã độc tỏ phương pháp

Ngày đăng: 26/02/2023, 12:20

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w