(Tóm tắt đề án) phát hiện url độc hại dựa trên học sâu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lê Minh Đăng PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU Chun ngành: Khoa học máy tính Mã số: 8.48.01.01 TĨM TẮT ĐỀ ÁN TỐT NGHIỆP THẠC SĨ HÀ NỘI - NĂM 2023 Đề án tốt nghiệp hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS HOÀNG XUÂN DẬU Phản biện 1: ……………………………………………………………… Phản biện 2: …………………………………………………………… Đề án tốt nghiệp bảo vệ trước Hội đồng chấm đề án tốt nghiệp thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: ngày tháng năm Có thể tìm hiểu đề án tốt nghiệp tại: - Thư viện Học viện Cơng nghệ Bưu viễn thơng TĨM TẮT ĐỀ ÁN An tồn thơng tin khơng gian mạng đóng vai trò quan trọng việc bảo vệ liệu hệ thống khỏi mối đe dọa trực tuyến Với phát triển nhanh chóng cơng nghệ thơng tin phổ biến Internet, việc đảm bảo an tồn thơng tin trở thành thách thức ngày lớn đề án sử dụng phương pháp học sâu để phát URL độc hại dựa việc phân tích yếu tố mẫu URL Điều giúp cải thiện khả phát ngăn chặn hoạt động độc hại Internet Đề án phát URL độc hại dựa học sâu hệ thống thiết kế để tự động phân loại độc hại hay không Nó sử dụng phương pháp học sâu, phương pháp lĩnh vực trí tuệ nhân tạo, để học từ liệu huấn luyện dự đoán xem URL có khả độc hại hay khơng Mơ hình học sâu xây dựng thơng qua q trình huấn luyện liệu Mơ hình học cách phân tích yếu tố mẫu URL để xác định xem có tính chất độc hại hay khơng Q trình huấn luyện sử dụng thuật tốn học sâu mạng nơ-ron học sâu (deep neural networks) để tối ưu hóa điều chỉnh tham số mơ hình Sau mơ hình huấn luyện, triển khai để phân loại URL Khi URL cung cấp, mô hình áp dụng kỹ thuật học sâu học để dự đốn xem URL có khả độc hại hay không Kết từ mô hình cho biết mức độ độc hại ước tính URL Đề án sử dụng tập liệu Malicious URLs dataset thử nghiệm bao gồm 651.191 URL gán nhãn 428.103 gán nhãn “benign”, 96.457 gãn nhãn “defacement” URLs, 94.111 “phishing” URLs 32.520 gán nhãn “malware” URLs Nội dung đề án chưa thành chương, cụ thể sau: CHƯƠNG 1: TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT HIỆN URL ĐỘC HẠI Chương tập trung vào giới thiệu URL, URL độc hại phương pháp để phát chúng Phần đầu tác giả giới thiệu tổng quan URL URL chuỗi ký tự đại diện cho địa tài nguyên internet Cùng với giới thiệu thành phần URL lịch sử hình hình thành URL Tiếp theo tác giả giới thiệu tổng quan URL độc hại phân loại chúng URL đọc hại đường dẫn web thiết kế để thực hoạt động độc hại gian lận Cuối tác giả giới thiệu phương pháp mơ hình phát URL độc hại tồn Chương giới thiệu khái quát URL, URL độc hại số phương phát phát URL độc hại Đồng thời ưu nhược điểm mơ hình tồn đưa ý tưởng cho đề án nghiên cứu dựa ưu nhược điểm cải tiến đề xuất từ nghiên cứu CHƯƠNG 2: PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU Ở chương 2, tác giả sâu vào nghiên cứu mơ hình học máy, học sâu giúp người đọc hiểu biết nhận dạng mơ hình trí tuệ nhân tạo Về học máy tác giả đưa khái niệm phân loại mơ hình học máy như: học có giám sat, học khơng giám sát, học tăng cương, học bán giám sát Về học sâu tác giả giới thiệu học sâu mơ hình học sâu tiêu biểu như: DNN, CNN, LSTM, v.v Chương trình bày áp dụng mơ hình học sâu CNN vào phát URL độc hại Cùng với đưa kiến trúc mơ hình tiêu chuẩn đánh mơ hình CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ Trong lĩnh vực trí tuệ nhân tạo nói chung học sâu nói riêng, tập liệu đóng vai trị quan trọng việc phát triển đánh giá thuật tốn, ứng dụng Việc phân tích đánh giá chất lượng tập liệu yếu tố quan trọng để đảm bảo tính đắn đáng tin cậy kết thu Trong chương này, tác giả trình bày chi tiết tập liệu, phân tích đánh giá tập liệu Sau xây dựng ứng dụng chạy thử Chương tác giả thực tiền sử lý liệu để tích hợp với mơ hình CNN Tác giã thực chạy thu độ xác F1 = 98,99% Chương vào chi tiết thực nghiệm đề tài, việc lựa chọn tệp liệu đào tạo định thành công mơ hình Chính tác giả lựa chọn kỹ lưỡng mơ hình liệu thử nghiệm Trong chương sâu vào phân tích đánh giá mơ hình Thơng qua định hướng cho mở rộng đề án 7 KẾT LUẬN Kết đạt được: Đề án giới thiệu URL, URL độc hại, phương pháp phát URL độc hại Bên cạnh đề án cung cấp kiến thức học máy, học sâu khác chúng Trình bày chi tiết mơ hình CNN phương pháp phát URL độc hại sử dụng mơ hình CNN Thu thập tiền xử lý tập liệu lớn gồm URL huấn luyện mơ hình Kết thử nghiệm cho thấy mơ hình đạt độ đo F1 cao: 98.99% Đề án xây dựng ứng dụng cho phép phân loại URL dựa mơ hình học sâu CNN Hướng phát triển tương lai: Đề án phát triển theo hướng: Khám phá kiến trúc mô hình khác nhau: Mặc dù mơ hình CNN hoạt động tốt đề án này, có kiến trúc mơ hình khác đạt kết tốt Ví dụ: kết hợp loại mạng nơ ron khác nhau, chẳng hạn CNN, RNN, LSTM, có khả cải thiện hiệu suất Tăng kích thước tập liệu: Tập liệu lớn mơ hình học nhiều mơ hình hoạt động tốt Việc tăng kích thước tập liệu có khả dẫn đến cải tiến độ xác mơ hình Kiểm tra mơ hình tập hợp URL đa dạng: Tập liệu sử dụng dự án chủ yếu bao gồm URL từ nguồn Thử nghiệm mơ hình nhóm URL đa dạng hơn, chẳng hạn URL từ nhiều nguồn quốc gia, mang lại đánh giá thực tế hiệu suất

Định dạng
Số trang	7
Dung lượng	88,61 KB