Phát hiện url độc hại dựa trên học sâu

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - Lê Minh Đăng PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU ĐỀ ÁN ĐỀ ÁN TỐT NGHIỆP THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI – NĂM 2023 iii MỤC LỤC LỜI CẢM ƠN LỜI CAM ĐOAN II DANH MỤC CHỮ VÀ KÍ HIỆU VIẾT TẮT V DANH MỤC BẢNG BIỂU VI DANH MỤC HÌNH VẼ VII LỜI MỞ ĐẦU CHƯƠNG I TỔNG QUAN VỀ URL ĐỘC HẠI VÀ PHƯƠNG PHÁP PHÁT HIỆN URL ĐỘC HẠI 1.1 Khái quát URL 1.1.1 Khái niệm URL 1.1.2 Các thành phần URL 1.1.3 Lịch sử phát triển 1.2 Khái quát URL độc hại 1.2.1 URL độc hại 1.2.2 Các dạng URL độc hại 1.3 Các phương pháp phát URL độc hại 11 1.3.1 Phát dựa danh sách đen, chữ ký 11 1.3.2 Phát dựa phân tích nội dung trang web 12 1.3.3 Phát dựa phân tích URL 13 1.3.4 Phát dựa thống kê, học máy, học sâu 14 1.4 Một số công cụ phát URL độc hại 15 1.5 Kết chương 16 CHƯƠNG II: PHÁT HIỆN URL ĐỘC HẠI DỰA TRÊN HỌC SÂU 17 2.1 Khái quát học máy học sâu 17 2.1.1 Khái quát học máy 17 2.1.2 Khái quát học sâu 21 2.1.3 Một số phương pháp học sâu 23 2.2 Mơ hình phát URL độc hại dựa học sâu 32 iv 2.2.1 Giới thiệu mơ hình 32 2.2.2 Kiến trúc mơ hình 33 2.2.3 Tiêu chuẩn đánh giá mơ hình 34 2.3 Kết chương 36 CHƯƠNG III THỬ NGHIỆM VÀ ĐÁNH GIÁ 37 3.1 Tập liệu thử nghiệm 37 3.2 Tiền xử lý liệu 38 3.3 Cài đặt, thử nghiệm kết 41 3.3.1 Môi trường thử nghiệm 41 3.3.2 Kết nhận xét 41 3.4 Cài đặt thử nghiệm mô đun phát URL độc hại 43 3.5 Nhận xét, đánh giá 45 3.6 Kết chương 46 KẾT LUẬN 47 TÀI LIỆU THAM KHẢO 48 v DANH MỤC CHỮ VÀ KÍ HIỆU VIẾT TẮT Chữ/Ký hiệu Tiếng Anh AI Artificial intelligence Tiếng Việt/Giải thích Trí tuệ nhân tạo Túi đựng từ BoW Bag of word CNN Convolutional neural network CSS Cascading style sheet DDos Distributed Denial of Service Từ chối dịch vụ phân tán DGA Domain Generation Algorithm Thuật toán sinh tên miền DNN Deep Neural Network Mạng nơ ron sâu DNS Domain name system Hệ thống tên miền Mạng nơ ron tích chập Ngôn ngữ để định dạng trang HTML Kết nối đầy đủ FC Fully Connected FTP File Transfer Protocol Giao thức truyền tải tệp tin Hyper text markup language Ngôn ngữ đánh dấu siêu văn Internet protocol address Giao thức mạng IP HTML IP LSTM Long Short Term Memory networks Mạng nhớ ngắn dài Mạng nơ ron hồi quy RNN Recurrent neural networks SVM Support vector machine TTL Time To Live URL Uniform resource locator Địa định vị tài nguyên thống Web World wide web Mạng web toàn cầu Máy vector hỗ trợ Thời gian sống vi DANH MỤC BẢNG BIỂU Bảng 2-1 Dữ liệu bệnh nhân 18 Bảng 2-2 Bảng liệu giới tính, tuổi bệnh nhân 19 Bảng 3-1 Môi trường thử nghiệm 41 Bảng 3-2 Kết thử nghiệm với CNN 42 Bảng 3-3 Kết phân loại 20 URL 44 vii DANH MỤC HÌNH VẼ Hình 1-1 Cấu trúc URL Hình 1-2 Các thành phần cụ thể URL Hình 2-1 Mơ hình DNN 23 Hình 2-2 Mơ hình CNN 27 Hình 2-3 Mơ hình RNN 29 Hình 2-4 Mơ hình LSTM 31 Hình 2-5 Mơ hình phát URL độc hại dựa học sâu CNN 32 Hình 2-6 Confusion matrix TN, FN, FP, TP 34 Hình 3-1 Một số mẫu URL gán nhãn “ bad” 37 Hình 3-2 Một số URL gán nhãn “good” 37 Hình 3-3 Tỉ lệ tập Train Validation 38 Hình 3-4 Tỷ lệ số nhãn gán 38 Hình 3-5 Số domain, sub domain, domain suffix 39 Hình 3-6 Đặc điểm domain 39 Hình 3-7 Đặc điểm subdomain 40 Hình 3-8 Đặc điểm domain suffix 40 Hình 3-9 Quá trình training liệu 41 Hình 3-10 Biểu đồ trình trainning liệu 42 Hình 3-11 Kết trả Url độc hại 43 Hình 3-12 Kết trả Url an toàn 44 LỜI MỞ ĐẦU Trong thời đại công nghệ thông tin đại, Internet trở thành phần thiếu sống Sự phát triển Internet mang lại nhiều lợi ích, đồng thời tạo mối đe dọa mới, cơng mạng Một hình thức công phổ biến công sử dụng URL (Uniform Resource Locator), nơi kẻ công tạo URL độc hại để lừa đảo người dùng chiếm quyền kiểm sốt máy tính họ Vấn đề phát URL độc hại toán quan trọng lĩnh vực an ninh mạng Việc phân biệt URL độc hại URL hợp lệ thách thức lớn, kẻ cơng liên tục thay đổi mơ hình cơng phát triển phương thức che giấu tinh vi Hơn nữa, số lượng URL độc hại tạo hàng ngày lớn, vượt khả người để kiểm tra phân loại chúng cách hiệu Để giải vấn đề này, đề án sử dụng học sâu (deep learning) để phát URL độc hại Học sâu phương pháp học máy xây dựng dựa mạng nơ-ron nhân tạo (artificial neural networks) với nhiều tầng ẩn Phương pháp chứng minh hiệu nhiều nhiệm vụ phân loại nhận dạng lĩnh vực xử lý ngôn ngữ tự nhiên (natural language processing) thị giác máy tính (computer vision) Mục tiêu đề án xây dựng mơ hình phát URL độc hại dựa học sâu để phân loại phát URL độc hại với độ xác cao, có khả phát mẫu URL độc hại Đề án cấu trúc thành chương với nội dung sau: Chương 1: Tổng quan URL độc hại phương pháp phát URL độc hại: chương đưa khái niệm URL, URL độc hại giới thiệu số mơ hình cơng cụ phát URL độc hại tồn 38 Hình 3-3 Tỉ lệ tập Train Validation Trong tổng số URL tập liệu, có 34.3% số URL gán nhãn “bad” 65.7% số URL gán nhãn “good” Hình 3-4 Tỷ lệ số nhãn gán 3.2 Tiền xử lý liệu Ta cần trích xuất giá trị subdomain, domain domain suffix để thực phân tích Số domain, subdomain domain suffix trích xuất: 39 Hình 3-5 Số domain, sub domain, domain suffix Hình 3-6 Đặc điểm domain Từ biểu đồ Hình 3-6, ta thấy có nhiều domain tiếng xuất URL gắn nhãn “bad” google, facebook… Điều nguy hiểm cho người dùng 40 Hình 3-7 Đặc điểm subdomain Hình 3-8 Đặc điểm domain suffix Tương tự, Hình 3-7 3-8 biểu diễn top subdomain domain suffix xuất URL dán nhãn good bad Tiếp theo ta cần thực tokenization URL để chúng sử dụng làm đầu vào mơ hình học sâu CNN Mỗi URL có độ dài khác nhau, việc padding cần thiết để cân độ dài URL Ta cần encode giá trị subdomain, domain, domain suffix thành biến số, ví dụ nhãn bad trở thành nhãn good trở thành 41 Cuối bước tiến hành tạo mơ hình và huấn luyện liệu 3.3 Cài đặt, thử nghiệm kết 3.3.1 Môi trường thử nghiệm Môi trường thử nghiệm hiển thị bảng sau: Bảng 3-1 Môi trường thử nghiệm Thông số Giá trị CPU AMD Ryzen 5700G with Radeon Graphics Bộ nhớ RAM Hệ điều hành 64 GB Windows 11 64b Platform Pycharm Python 3.9 3.3.2 Kết nhận xét 3.3.2.1 Kết Với dự định sử dụng 25 vòng lặp để training liệu, nhiên giá trị validation khơng có cải thiện, q trình training model dừng lại Hình 3-9 Quá trình training liệu Giá trị số: loss, val loss, precision, val precision thử nghiệm với mơ hình CNN thể bảng 3-2 42 Bảng 3-2 Kết thử nghiệm với CNN Lần lặp\ Chỉ số Loss 10 11 12 13 0.1151 0.0671 0.0534 0.0446 0.0387 0.0341 0.0309 0.0289 0.0264 0.0248 0.0232 0.0227 0.0214 Val loss Precision 0.0688 0.0576 0.0536 0.0598 0.0519 0.0601 0.0537 0.0570 0.0566 0.0587 0.0606 0.0573 0.0612 0.954 0.9748 0.9802 0.9838 0.9862 0.988 0.9889 0.9897 0.9909 0.9913 0.9917 0.9922 0.9926 Val Recall Val recall precision 0.9746 0.9718 0.9816 0.9869 0.9828 0.9870 0.9831 0.9828 0.9800 0.9803 0.9838 0.9814 0.9847 0.9263 0.9589 0.9669 0.9727 0.9766 0.9792 0.9814 0.9827 0.9838 0.9854 0.9861 0.9868 0.9873 0.9554 0.9702 0.9658 0.9544 0.9671 0.9581 0.9671 0.9677 0.9699 0.9696 0.9648 0.9689 0.9666 Hình 3-10 Biểu đồ trình trainning liệu F1 Val F1 0.9399 0.9668 0.9735 0.9782 0.9814 0.9836 0.9851 0.9862 0.9873 0.9883 0.9889 0.9895 0.9899 0.9649 0.9710 0.9736 0.9704 0.9749 0.9723 0.9750 0.9752 0.9749 0.9749 0.9742 0.9751 0.9756 43 Sau 13 vòng lặp training liệu đầu vào, kết tốt mơ hình CNN đạt độ đo F1 98.99% 3.3.2.2 Nhận xét Kết thử nghiệm cho thấy, mơ hình học sâu CNN sử dụng để phát URL độc hại với độ xác cao Mơ hình huấn luyện tập liệu gồm URL gắn nhãn độc hại lành tính đạt độ đo F1 98,99% tập thử nghiệm Điều chứng tỏ tính hiệu việc sử dụng kỹ thuật học sâu, đặc biệt CNN, để xác định xác URL độc hại Một lợi việc sử dụng mơ hình CNN cho thử thách khả tự động trích xuất tính có liên quan từ liệu đầu vào Trong trường hợp URL, điều bao gồm trích xuất tính diện từ khóa định cấu trúc URL Mơ hình CNN học tính thơng qua q trình đào tạo mà khơng cần kỹ thuật tính thủ cơng 3.4 Cài đặt thử nghiệm mô đun phát URL độc hại Việc phân loại URL tiến hành cách cài đặt mô đun hai kịch bản: Kịch thứ cho phép nhập phân loại URL, kịch lại cho phép chọn file chứa URL phân loại chúng Nhập URL phân loại: + Đầu vào URL độc hại - cannabispicture.com/ + Đầu trả Malicious url Hình 3-11 Kết trả Url độc hại + Đầu vào URL an toàn - https://chat.openai.com/ 44 + Đầu trả Safe URL Hình 3-12 Kết trả Url an toàn Nhập danh sách URL phân loại: Đối với kịch đọc danh sách 20 Url gán nhãn cho URL Sau thực phân loại ta kết Bảng Bảng 3-3 Kết phân loại 20 URL STT URL Nhãn thực Nhãn phân loại https://google.com Safe Safe https://vnexpress.com.vn Safe Safe http://www.xacnhanvay247.com Malicious Malicious http://www.downloadappios.com Malicious Malicious https://lolesports.com/ Safe Safe http://giaoducthoidai.vn Safe Safe https://stackjava.com/ Safe Safe http://www.baohungyen.org.vn/, Safe Safe http://www.my-acb-bank.com/ Malicious Malicious 10 http://phimvietnam610.ddns.net/ Malicious Malicious 11 http://www.viet69xlxx004.ga/ Malicious Malicious 12 http://www.dantri.com Safe Malicious 13 https://openai.com/blog/chatgpt, Safe Safe 14 http://www.vietinbank-ipay.com/ Safe Malicious 45 15 https://www.ff.sieuhack.work Malicious Malicious 16 https://www.khoataikhoanhack-garena.xyz/ Malicious Malicious 17 https://moneygram-ripple24-7.weebly.com Malicious Safe 18 http://www.thanhtra.gov.vn / Safe Safe 19 https://rikadv469.cpctvn.com Malicious Malicious 20 https://app.memrise.com/ Safe Safe 3.5 Nhận xét, đánh giá Từ kết mục 3.4, phần lớn URL cần phân loại dự đốn Tuy nhiên có số URL dự đốn sai Mơ hình học sâu phân loại sai số trường hợp, phần tập huấn luyện chưa đầy đủ, làm việc với liệu không cân ranh giới lớp không rõ ràng Trong trường hợp phát URL độc hại, có khả có đặc điểm mẫu tinh vi URL mà mơ hình khơng thể nắm bắt được, dẫn đến phân loại sai Một cách để đánh giá hiệu suất mơ hình xác định nguồn lỗi phân tích URL bị phân loại sai cố gắng hiểu lý chúng bị phân loại sai Điều thực cách kiểm tra thủ cơng URL tìm kiếm mẫu tính ảnh hưởng đến định mơ hình Cũng hữu ích so sánh URL phân loại sai với URL phân loại xác để xem liệu có khác biệt đáng ý không Một cách tiếp cận khác sử dụng kỹ thuật xác thực chéo lấy mẫu phân tầng để đánh giá hiệu suất mơ hình xác định sai lệch điểm yếu tiềm ẩn Điều giúp xác định khu vực mà mơ hình cần cải thiện nơi cần thêm liệu Nhìn chung, điều quan trọng phải tiếp tục đánh giá hiệu suất mơ hình tìm cách cải thiện độ xác mơ hình, điều quan trọng để đảm 46 bảo mơ hình phát hiệu URL độc hại bảo vệ người dùng khỏi tác hại tiềm ẩn 3.6 Kết chương Chương tập trung vào việc thử nghiệm đánh giá mơ hình phát URL độc hại dựa học sâu Kết thử nghiệm cấp thông tin khả phát URL độc hại Trong chương thực cài đặt mơ hình phân loại thử nghiệm phân loại cho URL 47 KẾT LUẬN Kết đạt được: Đề án giới thiệu URL, URL độc hại, phương pháp phát URL độc hại Bên cạnh đề án cung cấp kiến thức học máy, học sâu khác chúng Trình bày chi tiết mơ hình CNN phương pháp phát URL độc hại sử dụng mơ hình CNN Thu thập tiền xử lý tập liệu lớn gồm URL huấn luyện mơ hình Kết thử nghiệm cho thấy mơ hình đạt độ đo F1 cao: 98.99% Đề án xây dựng ứng dụng cho phép phân loại URL dựa mơ hình học sâu CNN Hướng phát triển tương lai: Đề án phát triển theo hướng: Khám phá kiến trúc mơ hình khác nhau: Mặc dù mơ hình CNN hoạt động tốt đề án này, có kiến trúc mơ hình khác đạt kết tốt Ví dụ: kết hợp loại mạng nơ ron khác nhau, chẳng hạn CNN, RNN, LSTM, có khả cải thiện hiệu suất Tăng kích thước tập liệu: Tập liệu lớn mơ hình học nhiều mơ hình hoạt động tốt Việc tăng kích thước tập liệu có khả dẫn đến cải tiến độ xác mơ hình Kiểm tra mơ hình tập hợp URL đa dạng: Tập liệu sử dụng dự án chủ yếu bao gồm URL từ nguồn Thử nghiệm mơ hình nhóm URL đa dạng hơn, chẳng hạn URL từ nhiều nguồn quốc gia, mang lại đánh giá thực tế hiệu suất 48 TÀI LIỆU THAM KHẢO [1] “URL gì,” [Online] Available: https://trainghiemkhac.vn/giai-dap-URLla-gitim-hieu-cac-thong-tin-lien-quan [Accessed December 2022] [2] Tìm hiểu đánh giá thuật tốn phân lớp phát URL độc hại, https://123docz.net/document/6990298-tim-hieu-danh-gia-cac-thuat-toan-phanlop-phat-hien-url-doc-hai.htm [3] Các mơ hình học sâu (Deep Learning) sử dụng cho phát xâm nhập mạng, https://whitehat.vn/threads/cac-mo-hinh-hoc-sau-deep-learning-su-dung-chophat-hien-xam-nhap-mang.16557 [4] Cho Do Xuan, Hoa Dinh Nguyen, Tisenko Victor Nikolaevich Malicious URL Detection based on Machine Learning International Journal of Advanced Computer Science and Applications (IJACSA), Vol 11, No 1, 2020 [5] Chaochao Luo, Shen Su, Yanbin Sun, Qingji Tan, Meng Han, Zhihong Tian A convolution-based system for malicious URLs detection Computers, Materials & Continua, vol 62, no.1, pp 399–411, 2020 [6] Doyen Sahoo, Chenghao Liu, Steven C.H Hoi Malicious URL Detection using Machine Learning: A Survey arXiv:1701.07179 [cs.LG], https://doi.org/10.48550/arXiv.1701.07179, 2019 [7] A Lakshmanarao, M R Babu and M M Bala Krishna, "Malicious URL Detection using NLP, Machine Learning and FLASK," 2021 International Conference on Innovative Computing, Intelligent Communication and Smart Electrical Systems (ICSES), 2021, pp 1-4, doi: 10.1109/ICSES52305.2021.9633889 [8] Angadi, S., Shukla, S (2022) Malicious URL Detection Using Machine Learning Techniques In: Raj, J.S., Shi, Y., Pelusi, D., Balas, V.E (eds) Intelligent Sustainable Systems Lecture Notes in Networks and Systems, vol 458 Springer, Singapore https://doi.org/10.1007/978-981-19-2894-9_50 49 [9] Bravin Wasike, Detecting Malicious URL using Machine Learning, https://www.section.io/engineering-education/detecting-malicious-url-usingmachine-learning/, truy cập tháng 1.2023 [10] Snort IDS, https://snort.org, truy cập tháng 1.2023 [11] Suricata IDS, https://suricata.io, truy cập tháng 1.2023 [12] Malicious URLs dataset | Kaggle, truy cập tháng 3.2023 https://www.kaggle.com/datasets/sid321axn/malicious-urls-dataset [13] Recurrent Neural Network (Phần 1): Tổng quan ứng dụng, truy cập tháng 5.2023, https://viblo.asia/p/recurrent-neural-networkphan-1-tong-quan-va-ungdung-jvElaB4m5kw [14] Thuật tốn CNN gì? Cấu trúc mạng Convolutional Neural Network, try cập tháng 5.2023, https://topdev.vn/blog/thuat-toan-cnn-convolutional-neuralnetwork/ [15] Jianguo Jiang , Jiuming Chen, Kim-Kwang Raymond Choo , Chao Liu , Kunying Liu , Min, and Yongjian Wang A Deep Learning Based Online Malicious URL and DNS Detection Scheme , In: Lin, X., Ghorbani, A., Ren, K., Zhu, S., Zhang, A (eds) Security and Privacy in Communication Networks SecureComm 2017 Lecture Notes of the Institute for Computer Sciences, Social Informatics and Telecommunications Engineering, vol 238 Springer, Cham https://doi.org/10.1007/978-3-319-78813-5_22 [16] Mr.Harish S, Ms.Veni Priya T, Mr.Suraj B, Mr.Venkataramana MALICIOUS URL DETECTION USING 1D CNN AND TENSORFLOW JS, International Journal of Creative Research Thoughts (IJCRT), Volume 8, Issue 9, September 2020 [17] Clayton Johnson1, Bishal Khadka1, Ram B Basnet1*, and Tenzin Doleck Towards Detecting and Classifying Malicious URLs Using Deep Learning, Journal of Wireless Mobile Networks, Ubiquitous Computing, and Dependable Applications (JoWUA), 11(4):31-48, Dec 2020DOI:10.22667/JOWUA.2020.12.31.031 [18] Long Short-Term Memory| Neural Computation , https://dl.acm.org/doi/10.1162/neco.1997.9.8.1735

Định dạng
Số trang	61
Dung lượng	3,54 MB