1. Trang chủ
  2. » Luận Văn - Báo Cáo

2020 httt tranhuynhtien ttlv 1794

22 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 22
Dung lượng 574,81 KB

Nội dung

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Trần Huỳnh Tiến ỨNG DỤNG REPRESENTATION LEARNING PHÁT HIỆN TẤN CÔNG PHISHING Chuyên ngành: Mã số: Hệ thống thơng tin 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ TP.HCM - NĂM 2023 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THÔNG Người hướng dẫn khoa học: TS NGUYỄN HỒNG SƠN Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm 2023 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng 1 PHẦN MỞ ĐẦU Lý chọn đề tài Tấn cơng lừa đảo (Phishing) hình thức cơng phi kỹ thuật tội phạm mạng sử dụng nhiều nhằm đánh cắp liệu bí mật từ máy tính hay mạng máy tính người dùng, sau sử dụng liệu cho nhiều mục đích khác nhau, lấy cắp tiền nạn nhân bán lại liệu đánh cắp Sự phát triển trí tuệ nhân tạo, máy học năm gần có tiềm áp dụng để phát cơng Phishing với độ xác cao Trong mơ hình dựa vào máy học phát huy nhiều ưu điểm cho toán Xuất phát từ thực tế đề cương luận văn tập trung nghiên cứu: “Ứng dụng representation learning phát công Phishing” Tổng quan vấn đề nghiên cứu Nghiên cứu tài liệu liên quan đến đề tài, học viên nhận thấy độ xác thời gian phát cơng giả mạo hai yếu tố quan Trong đề tài tập trung vào hai yếu tố để tăng hiệu khả phát xâm nhập với thời gian phù hợp Mục đích nghiên cứu Mục tiêu chính: Xây dựng mơ hình máy học sử dụng phương pháp representation learning để phát cơng phishing nhằm nâng cao độ xác phát Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu cơng Phishing phương pháp representation learning nghiên cứu mơ hình dự báo áp dụng vào phương pháp representation learning Phạm vi nghiên cứu Xây dựng mơ hình mơ máy học, sử dụng phương pháp để phát công Phishing Phương pháp nghiên cứu Phương pháp luận: Dựa sở lý thuyết phương pháp RL; Dự kiến dùng mơ hình RL học viên áp dụng phương pháp Deep Learning HTML Analysis Phương pháp đánh giá dựa sở toán học: Trên sở lý thuyết phương pháp RL 3 Phương pháp đánh giá mơ hình mơ thực nghiệm: Xây dựng mơ hình mơ thực nghiệm đề hoàn thành đề xuất Bố cục luận văn Chương 1: Tổng quan công phishing representation learning Chương 2: Xây dựng mơ hình phát cơng phishing Chương 3: Thí nghiệm đánh giá CHƯƠNG 1: TỔNG QUAN TẤN CÔNG PHISHING VÀ REPRESENTATION LEARNING 1.1 Tổng quan công phishing Phishing loại công mạng nguy hiểm tội phạm mạng gây cách tạo thông tin giả mạo từ website, sở, doanh nghiệp uy tín nhằm lừa đảo chiếm đoạt thơng tin người dùngTổng quan cân tải điện toán đám mây 1.2 Các phương pháp phòng chống phát Phishing mạng Tấn công Phishing tiềm ẩn khó nhận biết mức độ tinh vi với cá nhân tổ chức nào, cá nhân tổ chức cần nâng cao cảnh giác loại tài khoản thơng tin cá nhân Một số cách phịng chống cơng Phishing đề xuất sau: Cấu hình tài khoản: tổ chức nên cấu hình loại tài khoản nhân viên theo nguyên tắc giảm thiểu tối đa loại đặc quyền, cấp quyền cần thiết cho nhân viên Tập huấn cho nhân viên: Các nhân viên tổ chức cần tập huấn kiến thức nhận biết lúc hệ thống có hoạt động bất thường Kiểm tra dấu hiệu Phishing: nâng cao cảnh giác với số email đến từ nước ngoài, có nội dung khơng hồn chỉnh (lỗi tả, sai dấu chấm câu,…) Báo cáo lại tất công: báo cáo lại với cấp để hỗ trợ kịp thời, tránh rủi ro đáng tiếc xảy Kiểm tra dấu vết thông tin cá nhân: cần ý thức đến việc chia sẻ thông tin nhạy cảm quan, tổ chức thông tin cá nhân trang mạng xã hội để tránh cơng xảy đến 1.3 Tổng quan về representation learning Representation learning tập hợp kỹ thuật cho phép hệ thống tự động khám phá biểu diễn cần thiết để phát phân loại đặc trưng từ liệu thô 6 Supervised representation learning: học biểu diễn nhiệm vụ A cách sử dụng liệu thích sử dụng để giải nhiệm vụ B Unsupervised representation learning: học biểu diễn nhiệm vụ theo cách không giám sát (dữ liệu nhãn Các kĩ thuật Representation Learning lần phát triển để phục vụ cho trình xử lí ngơn ngữ tự nhiên, nhiên chúng mở rộng sang kiểu xử lí liệu khác hình ảnh, video hệ thống mạng 1.4 Một số đặc điểm bật representation learning Ưu tiên cho RL AI Smoothness: giả sử hàm học f s.t x ≈ y thường ngụ ý f (x) ≈ f (y) Nhiều yếu tố giải thích: phân phối tạo liệu tạo yếu tố khác phần lớn người ta tìm hiểu yếu tố khái quát nhiều cấu hình yếu tố khác Một tổ chức có thứ bậc yếu tố giải thích: khái niệm hữu ích để mơ tả giới xung quanh định nghĩa theo khái niệm khác, hệ thống thứ bậc, với khái niệm trừu tượng hệ thống thứ bậc, định nghĩa theo khái niệm trừu tượng Học bán giám sát: với đầu vào X mục tiêu Y để dự đoán, tập hợp yếu tố giải thích phân phối X giải thích phần lớn Y, cho X Do đó, biểu diễn hữu ích cho P (X) có xu hướng hữu ích học P (Y | X), cho phép chia sẻ sức mạnh thống kê nhiệm vụ học tập giám sát không giám sát Các yếu tố chia sẻ nhiệm vụ: với nhiều Y quan tâm nhiều nhiệm vụ học tập nói chung, nhiệm vụ (ví dụ: tương ứng với P (Y | X, nhiệm vụ)) giải thích yếu tố chia sẻ với nhiệm vụ khác, cho phép chia sẻ điểm mạnh thống kê qua nhiệm vụ Manifolds: khối lượng xác suất tập trung gần vùng có kích thước nhỏ nhiều so với không gian ban đầu nơi liệu tồn Phân cụm tự nhiên: giá trị khác biến phân loại lớp đối tượng liên kết với đa tạp riêng biệt 8 Tính quán theo thời gian không gian: quan sát liên tiếp (từ trường hợp) quan sát gần mặt không gian có xu hướng liên kết với giá trị khái niệm phân loại có liên quan, dẫn đến chuyển động nhỏ bề mặt đa tạp mật độ cao Độ thưa thớt: quan sát x cho nào, phần nhỏ yếu tố có liên quan Tính đơn giản yếu tố phụ thuộc: biểu diễn cấp cao, yếu tố có liên quan với thơng qua phụ thuộc tuyến tính, đơn giản Các yếu tố bất đồng thay đổi Các yếu tố giải thích khác liệu có xu hướng thay đổi độc lập với phân phối đầu vào số yếu tố thời điểm có xu hướng thay đổi người ta xem xét chuỗi đầu vào liên tiếp giới thực 1.5 Mạng Nơ-ron Deep learning 1.5.1 Mạng Nơ-ron Neural network mạng lưới thần kinh tạo thành từ nút xử lý kết nối dày đặc, tương tự tế bào thần kinh não 1.5.2 Deep learning Deep learning (DL) hay học sâu tập học máy (ML), mạng nơ-ron có ba lớp trở lên DL thúc đẩy nhiều ứng dụng dịch vụ trí tuệ nhân tạo (AI) nhằm cải thiện tự động hóa, thực tác vụ phân tích vật lý mà khơng cần can thiệp người 1.6 Các công trình nghiên cứu liên quan nước Vào năm 2014, tác giả Phạm Tuấn Anh cộng đề xuất giải pháp chống cơng Phishing Genetic Programming (GP) giải pháp chứng minh tính hiệu cao nhóm tác giả cho giải pháp tốt cho việc phát công lừa đảo Tác giả Le Dang Nguyen, Đại học Hải Phòng, năm 2014 cộng nghiên cứu đề xuất giải pháp để phát trang web lừa đảo, giả mạo đựa 10 cấu trúc DOM (DOM-Tree) thuật toán Graph Matching Vào năm 2018, Do Xuan Cho cộng thực nghiên cứu hệ thống phịng chống cơng Phishing qua email cho người Việt Nam 1.7 Các cơng trình nghiên cứu liên quan giới Một số cơng trình tiêu biểu; Yoshua Bengio cộng thực đánh giá giới thiệu thuật tốn vơ mạnh mẽ lĩnh vực ML DL RL “An overview on data representation learning: From traditional feature learning to recent deep learning” báo xem xét nghiên cứu học biểu diễn liệu, bao gồm học tập tính truyền thống học tập sâu “RLOSD: Representation Learning based Opinion Spam Detection” báo đề xuất phương pháp dựa định để tiết lộ đánh giá lừa đảo từ người đáng tin cậy “A Survey on Representation Learning Efforts in Cybersecurity Domain” báo thảo luận 11 công mạng khác sáng kiến thực khu tổ chức quốc tế 12 CHƯƠNG 2: XÂY DỰNG MÔ HÌNH PHÁT HIỆN TẤN CƠNG PHISHING 2.1 Thiết kế mơ hình Trong luận văn này, với tính chất url cách công phishing, sử dụng tokenization để chuyển thành ma trận số dựa vào xử lý ngôn ngữ tự nhiên url Từ đó, chuyển ma trận url thành ma trận hình ảnh grayscale áp dụng ResNet18 để training xây dựng mơ hình nhận diện Phishing Với ý tưởng này, luận văn đề xuất xây dựng mơ sau: (1) Url → Tokenization → Text_to_matrix → numpy Matrix (2) Numpy Matrix → convert to Image Matrix (Gray scale) → Array of images (3) Array of Images → training with ResNet → Model Trong thử nghiệm, tính trang web chuyển đổi thành vectơ đặc trưng sử dụng làm đầu vào cho mơ hình DL - Với ý tưởng phát triên mơ hình làm việc phân loại Mơ hình nhận liệu chuỗi URL từ đó, xác liệu cơng phishing hay khơng Một mơ hình representation learning đơn giản RestNet18, cách biến đổi URL thành ma trận 13 thông qua Tokenizer TensorFlow Từ kỹ thuật phổ biến này, luận văn tích hợp xây dựng mơ hình phát cơng Phishing 2.2 Bộ liệu toán Luận văn sử dụng liệu Web page Phishing Detection Bộ liệu bao gồm 11,430 dòng 89 cột cung cấp 11,429 URL với 87 tính trích xuất Trong tổng số 89 trường liệu, trường url status mang giá trị chuỗi, trường lại mang kiểu liệu số nguyên (chiếm đa số) số thực Với thuộc tính, quan sát đặc điểm miêu tả tổng số liệu hợp lệ, giá trị trung bình, độ lệch chuẩn, giá trị nhỏ nhất, từ giá trị liệu trở xuống chiếm 25%, 50% 75%, giá trị lớn 2.3 Phương pháp đánh giá Độ xác (hay cịn gọi accuracy) sử dụng trường hợp đo công thức sau: 𝑁𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑐𝑜𝑟𝑟𝑒𝑐𝑡 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 𝑇𝑜𝑡𝑎𝑙 𝑛𝑢𝑚𝑏𝑒𝑟 𝑜𝑓 𝑝𝑟𝑒𝑑𝑖𝑐𝑡𝑖𝑜𝑛𝑠 Đối với phân loại nhị phân, độ xác tính theo mặt tích cực (Positive) tiêu cực (Negative) với công thức sau: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 14 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝑇𝑁 + 𝐹𝑃 + 𝐹𝑁 2.4 Hiện thực mơ hình Sử dụng máy chủ đám mây cho phép tận dụng sức mạnh phần cứng Google Colab để luyện mô hình Ngơn ngữ lập trình viết mã Python với trợ giúp gói TensorFlow 2.4.1 Xử lý URL Sử dụng Keras Tokenizer để chuyển liệu url thành tập ma trận Sau xử lý, ma trận có kích thước (37x37) Sau chuyển sang hình ảnh gray-scale 2.4.2 Xây dựng mơ hình ResNet18 Để xác định tiền xử lý cho liệu ảnh, phải lật ngang ngẫu nhiên, xoay, chuẩn hóa, v.v Sau đó, thay đổi kích thước hình ảnh phải (n * n) Resnet chấp nhận kích thước hình ảnh đầu vào (n * n) Chia tập liệu thành train test với tỉ lệ 8:2 Tạo trọng số train trước cho mơ hình resnet18 thay đổi lớp phân loại lớp cụ thể, Resnet-18 đào tạo nhiều lớp Xây dựng mơ hình sử dụng chức tối ưu hóa mát: trình tối ưu hóa SGD mất mát 15 Cross-Entropy Xây dựng mơ hình, huấn luyện với 150 vòng trở lên 16 CHƯƠNG THI NGHIỆM VÀ ĐÁNH GIÁ 3.1 Các trường hợp thí nghiệm Sử dụng máy chủ đám mây cho phép tận dụng sức mạnh phần cứng Google Colab để luyện mơ hình Bộ liệu bao gồm 11,430 dòng 89 cột cung cấp 11,429 URL với 87 tính trích xuất Trong q trình thí nghiệm huấn luyện xây dựng mơ hình, để tìm mơ hình phù hợp với liệu, luận văn đề xuất trường hợp chuyền liệu URL dạng text sang liệu URL dạng numpy matrix với kích thước từ 37x37 sang (75x75), (100x100), (192x192), (224x224) từ convert thành ảnh grayscale Sau chạy huấn luyện với tỷ lệ tập train / tập test 80 / 20 Số epoch chạy cho trường hợp 150 epoches 3.2 Luyện kiểm thử mơ hình Về cài đặt, trường hợp cài đặt nhau: 17 Kết thu sau chạy trường hợp Kết thu sau chạy trường hợp Kết thu sau chạy trường hợp 18 Kết thu sau chạy trường hợp 3.3 Kết nhận xét Biểu đồ thể Loss mơ hình ResNet18 0,6498 0,5129 1,0184 0,1575 0,7716 0,4426 0,8344 0,3198 75 x 75 100 x 100 192 x 192 224 x 224 Kích thước ảnh Tập Train Tập Test Hình 3.1: Biểu đồ thể Loss mơ hình ResNet18 với trường hợp Độ mát tập Train thấp tập test 19 Biểu đồ thể độ xác mơ hình ResNet18 100,00% 73,64%68,85% 93,24% 68,85% 77,79% 58,97% 85,21% 59,10% 75 x 75 100 x 100 192 x 192 224 x 224 50,00% 0,00% Tập Train Tập Test Hình 3.2: Biểu đồ thể Accuracy mơ hình ResNet18 với trường hợp Ở trường hợp kích thước ảnh (100x100) tập train đạt độ xác cao 93.24% Tuy nhiên, trường hợp kích thước ảnh (75x75), (192x192), (224x224) tập test tập train chênh lệch khơng cao, độ xác dao động từ 58% tới 85% Vì vậy, kích thước ảnh thay đổi dẫn đến chất lượng mơ hình thay đổi theo Với kết rõ ràng với kích thước ảnh (100x100) đạt độ xác cao kích thước ảnh thuận lợi cho việc học suy diễn mạng CNN Việc sử dụng máy chủ đám mây cho phép tận dụng sức mạnh phần cứng Google Colab để luyện mơ hình phù hợp với liệu có dung lượng nhỏ nên kết độ xác chưa cao Bộ liệu bao gồm 11,430 dòng 89 cột cung cấp 11,429 URL với 87 tính trích xuất 20 KẾT LUẬN Kết nghiên cứu đề tài Phát công Phishing trở thành đề tài nghiên cứu tốn vơ quan trọng an tồn thơng tin Sự phát triển trí tuệ nhân tạo thời gian gần góp phần ngăn chặn, phát cơng Phishing với độ xác cao Trong mơ hình representation learning phát huy nhiều ưu điểm cho vấn đề Hạn chế luận văn Luận văn sử dụng liệu công bố, nên cần phải đưa liệu thực tế để tiến hành nghiên cứu đo đạc Chưa cài đặt môi trường mạng thực tế mà dừng lại mức thực nghiệm phân tích xây dựng mơ hình dataset Vấn đề kiến nghị hướng nghiên cứu: - Xây dựng liệu thực tế với tình hình cyber security Việt Nam thời điểm tại, cập nhật liên tục - Cài đặt mơ hình ứng dụng realtime vào mơ hình cho việc phát Phishing mạng thực

Ngày đăng: 07/08/2023, 07:45

w