Chương 1TONG QUAN DE TÀI Tom tat chuong Trong chương này, chúng tôi trình bay tom tắt về hiện trạng lừa đảo nghiêm trọngtrên không gian mạng hiện nay, các phương pháp và công nghệ đang đ
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG
VÕ QUANG MINH - 20520248
BUI TAN HAI DANG - 20520173
KHOA LUAN TOT NGHIEP
A STUDY ON ADVERSARIAL SAMPLE RESISTANCE AND DEFENSE MECHANISM FOR MULTIMODAL LEARNING-
BASED PHISHING WEBSITE DETECTION
CU NHAN NGANH AN TOAN THONG TIN
GIANG VIEN HUONG DAN
TS PHAM VAN HAU
THS PHAN THE DUY
TP HO CHI MINH, 2024
Trang 2LOI CAM ON
Đề hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Ban giám hiệu Trường Đại học Công nghệ Thông tin — Dai học Quốc Gia Thành Phó Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng dạy tại trường nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đã truyền đạt không chỉ những kiến thức chuyên môn bổ ích mà còn là những kinh
nghiệm thực tế quý báu mà nhóm đã học hỏi được trong suốt quá trình học tập tại
trong toàn bộ những thành tựu chúng tôi đã đạt được.
Bên cạnh đó, nhóm xin chân thành cảm ơn các thầy cô, anh chị đang công tác
tại Phòng thí nghiệm An toàn thông tin - InSecLab vì đã luôn tạo điều kiện về cơ sở
vật chất với hệ thống máy chủ hiện đại, luôn sẵn sàng nhiệt tình hỗ trợ chúng tôi về
chuyên môn lẫn kinh nghiệm trong các hoạt động nghiên cứu và thực hiện khoá luận.
Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn
không tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng đề khóa luận được hoàn thiện hơn.
Nhóm thực hiện.
Trang 3Mục lục
TÓM TẮT KHOÁ LUẬN 1
1 TONG QUAN ĐỀ TÀI 2
11 Lýdochọnđểtài ee 2
12 Phuong pháp nghiên cứu - 6
13 Mục tiêu nghiêncứu 6
1.4 Phạm vi và đối tượng nghiên cứu 7
1.5 Công bố khoa học và giải hưởng - 7
1.6 Cấu trúc Khóa luận tốt nghiệp 8
2 COSO LY THUYET 9 2.1 Tình hình nghiên cứu các ki thuật xây dựng va phat hiện Website lừa đảo hiénnay 1 ẶQ QQ Q Q Q Q Q sỦ 9 2.11 Các kỹ thuật xây dựng Website lừa đảo hiện nay 10
2.1.2 Các phương pháp phát hiện Website lừa đảo 10
2.1.3 Ví dụ về tên miễn lừa đảo nguyên bản và tên miễn lừa đảo đối kháng ee 11 Tên miễn lừa đảo nguyên bản 11
Tên miễn lừa đảo nguyên bản đối kháng 11
22_ Mô hình học Đa thểthức 12
2.2.1 Phân loại các mô hình học đa thểthức 12
2.2.2 Mô hình phân loại website áp dụng học Da thé thức 13
2.3 Khung sinh mẫu AWG và các chiến lược tan công, phòng thủ 14
2.3.1 Tổng quan Mạng sinh đối kháng GAN 14
Mô hình WassersteinGAN 16
2.3.2 Kỹ thuật tan công đối kháng 16
2.3.3 Kỹ thuật tấn công chuyển giao đối kháng 17
Trang 42.3.4 Tân công giả mạo đồng hình
Các hình thức tan công giả mạo đồng hình
2.3.5 Các chiến lược phòng thủ trước cuộc tân công đối khang 2.4 Mô hình Mạng khả diễn giải
XAI -Tổng QUân ee Một số đặc điểm của Mang khả diễn giải XAI
2.5 So sánh với những nghiên cứu trước đây
PHƯƠNG PHÁP THỰC HIỆN 3.1 Thu thập dữ liệu phục vụ cho nghiên cứu
3.1.1 Tổng quan vẻ bộ dữ
liệu -3.12 Cách thứcthuthập
3.2 Mô hình học sâu đa thể thức Shark-Eyes [42]
3.2.1 NhánhcâutrúcDOM
Xử lý dữ liệu
Cá may: $®$ \ /
3.2.2 Nhánh cau trúc từ ngữ tên miển
xấn; dd q@18./ `
Cấu trúc II đẾ ef ens 3.2.3 Nhánh hình ảnh tên miền
Xử lý dữ liệu
-Cau trúc mạng Ặ co 3.24 Lớp đưa ra
quyếtđịnh -3.3 Các nghiên cứu về học sâu đơn thể thức và da thể thức gần đây
3.3.1 Các mô hình học sâu đơn thé thttc
3.3.2 Mô hình học sâu đa thểthức
3.4 Xây dung và huấn luyện bộ khung tan công AWG
3.4.1 Các tập dữ liệu cần
thiết -3.4.2 Kiến trúc khung tan công AWG
Mô hình phát hiện hộp đen Blackbox
Bộ sinh Ặ.Ặ QẶ eee Bộ phân biệt
3.43 Quá trìnhhuấn luyện
-35 Bộ khung cải thiện XAI Homo
VI
19
Trang 53.7
3.8
Chiến lược tan công đối kháng nhắm vào các mô hình phát hiện
trang web lừa đảo ee ee
Chiến lược phòng thủ trước tan công đối kháng
Tổng quan quá trình hoạt động của tiện ích Shark-Eyes
HIỆN THỰC VÀ ĐÁNH GIÁ, THẢO LUẬN 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Môi trường thực nghiệm
4.1.1 Môi trường huấn luyện và kiểm thử các mô hình dé xuất 4.1.2 Môi trường phát triển tiện ích Shark-Eyes
Dữ liệu thực nghiệm
Tiêu chí đánh giá Ặ ees 43.1 Hiệu năng củabộsinh
4.3.2 Chỉ số pháthiện - DetectionRate
4.3.3 Tỉ lệ trốn tránh -Evasion Rate
Mô hình nạn nhân
Mô hình hộp đen Blackbox
Khung sinh mẫu đối kháng AWG_
Kịch bản thử nghiệm
4.7.1 Đánh giá hiệu năng của các mô hình phân loại tên miễn
4.7.2 Đánh giá hiệu năng của các mô hình phân loại Website
4.7.3 Khảo sát khả năng phòng thủ của các mô hình trước tấn công đối kháng chuyển giao
4.74 Khảo sát khả năng phòng thủ của các mô hình phân loại website trước tân công nâng cao áp dụng bộ khung cải thiện XAI Homo Ặ.Ặ.ẶẶẶẶ
4.7.5 Đánh giá hiệu năng của khung sinh mẫu AWG
4.7.6 Tăng cường khả năng phòng thủ của các mô hình
Kết quả nghiệm thu
4.8.1 Đánh giá hiệu nang của các mô hình phân loại tên miền
4.8.2 Đánh giá hiệu nang của các mô hình phân loại Website
4.8.3 Khảo sát khả năng phòng thủ của các mô hình trước tấn công đối kháng chuyển giao
-vii
55
55
55
56 56 57 58 58 58 59 60 60
61
62 62
62
62
63
63 63 63 64
Trang 64.8.4 Khảo sát khả năng phòng thủ của các mô hình phân loại
website trước tân công nâng cao áp dụng bộ khung cải thiện
XAI Homo Ặ.Ặ eee 69
4.8.5 Đánh giá hiệu năng của khung sinh mẫu AWG 70
4.8.6 Tăng cường khả năng phòng thủ của các mô hình 71
4.9 Hiện thực tiện ich Shark-Eyes trên trình duyệt web 74
5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76
5.1 Kétluan 0 Ta Ga 76 5.2 Hướng phát triển ee 78
viii
Trang 7Danh sách hình ve
1.1
2.1
2.2
2.3
2.4
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
4.1
4.2
Thống kê số lượng các cuộc tấn công Phishing diễn ra từ Quy
1/2021 đến Quy 4/2023 - 3
Tổng quan kiến trúc mô hình hoc đa thể thức 13
Tổng quan kiến trúc mô hình đa thể thức sử dụng trong phân loại Website 2⁄2 c ấnh 14
Anh mặt người được sinh ra bởi mang sinh đối kháng 15
Các đặc điểm nổi bật của công nghệ Explainable AI 22
Kiến trúc tổng quan của mô hình đa thể thức Shark-Eyes [42] 26
Cấu trúc tệp HTML cơbản - 28
Câu trú tùy DOME TÀ 6M /J 28
Chuyển đổi danh sách thẻ thành vectơ 29
Chuyển đổi danh sách ký tự thành vectơ 30
Chuyển đổi tên miền thành ảnhxám 32
Cấu trúc mang CNN trích xuất thuộc tính ảnh 33
Sơ lược kiến trúc của mô hình Multi-Modal DL[8] 36
Sơ lược kiến trúc của bộ khung tan công AWG_ 37
Tổng quan kiến trúc bộ khung cải thiện XAI Homo_ 47
Tổng quan cơ ché tấn công chuyển giao đối kháng 48
Tổng quan cơ ché tắn công sử dụng khung AWG 50
Tổng quan chiến lược phòng thủ - 52
Sơ đồ triển khai hoạt động của tiện ích Shark-Eyes 53
Úng dụng nhận diện trang Web an toàn 75
Ung dụng nhận diện trang Web lừa đảo 75
ix
Trang 8Danh sách bảng
2.1
3.1
3.2
3.3
4.1
4.2
4.3
4.4
4.5
4.6
4.7
4.8
4.9
4.10
4.11
4.12
4.13
4.14
4.15
Bảng so sánh dé tai của nhóm với các nghiên cứu trước 23
Bảng thiết kế Bộ sinh 40
Bảng thiết kế Bộ phân biệt - 42
Bảng mô tả các kí tự được sử dụng trong thuật toán huấn luyện mô hình WGAN Z2 el — — 44
Thống kê bộ dữ liệu trang web - 56
Thống kê tập dữ liệu tên miển - 57
Các mô hình được sử dụng trong thực nghiệm 59
Các siêu tham số của các mô hình nhóm dé xuất 60
Siêu tham số của mô hình mạng sinh đối kháng WGAN 61
Thống kê hiệu năng của các mô hình phân loại tên miễn 64
Thống kê hiệu năng của các mô hình phân loại Website 66
Thống kê thời gian và tài nguyên tiêu thụ của các mô hình G7 Tỉ lệ phát hiện các mẫu đối kháng của các mô hình phân loại tên Tỉ lệ phát hiện các mẫu đối kháng của mô hình phân loại Website 69 Thống kê khả năng phát hiện các mẫu đối kháng Homo của các mô hình Q Q Q Q ee 70 Thống kê tỉ lệ sinh mẫu hợp lệ của bộ sinhG_ Z1 Ví dụ về các mẫu đối kháng sinh ra bởi khung AWG được huấn luyện với mô hình hộp đen là MM và RF 72
Thống kê thời gian và tài nguyên tiêu thu trong quá trình sinh mẫu đối kháng của Bộ sinhG_ 72 Thống kê tỉ lệ trốn tránh thành công của mẫu đối kháng trước các
Trang 94.16 Hiệu năng của các mô hình sau khi sử dụng chiến lược phòng thủ
do nhóm đề xuất ẶẶc
bái
Trang 10Danh mục từ viết tắt
AE Adversarial Example AWG Adversarial Website Generation
BB Black Box CNN Convolutional Neural Network
DL Deep Learning
DT Decision Tree
EL Ensemble Learning GAN Generative Adversarial Network
WGAN Wasserstein Generative Adversarial Network
xii
Trang 11Hàm giá trị Hàm kích hoạt
Hàm mat mátHọc đa thể thức
Học sâu Học máy
Học tổng hợpLớp đầu vàoLớp đầu raLớp an
Mạng nơ-ron
Siêu tham sốThuật toán tối ưuTốc độ học
Tan công giả mạo đồng hìnhTrọng số mạng
Tỉ lệ phát hiện
Tỉ lệ trốn tránh
Danh mục từ tạm dịch
Value function Activation function Loss function
Multimodal Learning
Deep Learning
Machine Learning Ensemble Learning Input layer
Output layer
Hidden layer Neural network
Hyperparameter
Optimizer
Learning rate Homograph Phishing Attack
Weight
Detection Rate Evasion Rate
xiii
Trang 12TÓM TẮT KHOÁ LUẬN
Ngày nay, hiện trạng lừa đảo trên không gian mạng xảy ra ngày càng nhiềutrên toàn thế giới Trong số đó, các cuộc tấn công lừa đảo nhắm vào các trang
web của những tổ chức, doanh nghiệp lớn để giả mạo nhằm đánh cắp tài sản của
người dùng là một trong các hình thức lừa đảo mạng diễn ra phổ biến nhất Điềunày gây thiệt hại lớn không chỉ về tài sản mà còn là uy tín của tổ chức, doanhnghiệp hay thậm chí là một quốc gia, tạo nên một không gian mạng không lànhmạnh và không đáng tin cậy gây ra cảm giác bất an lo sợ cho người dùng duyệtweb Do đó các phương pháp để phát hiện các website lừa đảo đang được các nhàkhoa học trên toàn thế giới quan tâm và nghiên cứu nhằm giảm thiểu tối đa rủi rocủa các cuộc tấn công này gây ra Đã có nhiều giải pháp được dé xuất như danh
sách các trang được chấp nhận/chặn (danh sách trắng /đen), kiếm tra điện mao
của trang web, nổi bật trong những giải pháp được dé xuất là phương pháp
phát hiện dựa trên công nghệ trí tuệ nhân tạo với khả năng phát hiện các trang
web zero-day, có độ chính xác cao và thời gian nhận định không quá lâu Các mô
hình học máy được nghiên cứu ngày càng hoàn thiện với khả năng đưa ra nhận
định có độ chính xác cao trong một thời ngắn Trong đó, mô hình học đa thể thức
là một công nghệ đang nổi lên với những tiềm năng vượt trội về khả năng dự
đoán Tuy nhiên, các nhà nghiên cứu đã chỉ ra rằng các mô hình học máy thường
dé bị ảnh hưởng bởi các cuộc tan công đối kháng và các mô hình học da thể thứcđược giới thiệu là có khả năng vượt trội nhưng vẫn chưa có nhiều nghiên cứu vềkhả năng chống lại các cuộc tân công đối kháng của các mô hình này
Do đó, trong dé tài khoá luận này, nhóm tiến hành khảo sát hiệu xuất phát hiệntrang web lừa đảo, khả năng chống lại các cuộc tấn công đối kháng của các môhình da thể thức va đơn thể thức Đồng thời dé xuất phương pháp tấn công đểsinh mẫu đối kháng với độ hiệu quả cao, cùng với chiến lược phòng thủ tăng
cường kha năng chống chịu của các mô hình học máy trước các cuộc tan công đối
kháng tỉnh vi.
Trang 13Chương 1
TONG QUAN DE TÀI
Tom tat chuong
Trong chương này, chúng tôi trình bay tom tắt về hiện trạng lừa đảo nghiêm trọngtrên không gian mạng hiện nay, các phương pháp và công nghệ đang được thếgiới sử dụng để giải quyết van dé nay cũng như điểm mạnh của phương pháp sử
dụng AI trong lĩnh vực phát hiện trang web lừa đảo Bên cạnh đó, nhóm làm rõ
mục tiêu, phạm vi nghiên cứu và câu trúc chỉ tiết của khoá luận
11 Lý do chọn đề tài
Trong kỉ nguyên công nghệ bùng nổ ngày nay, sự tiện lợi và phổ biến của Internetngày càng tăng cao, số lượng người dùng tiếp xúc và sử dụng Internet cũng tăngdần theo thời gian Chỉ tính riêng ở Việt Nam, theo thống kê của DataReportal[26] số lượng người dùng Internet đã lên đến 78.44 triệu người dùng, tăng 0.6%
so với năm ngoái Hơn nữa, số lượng người dùng Internet tại Việt Nam chiếm tỉ
lệ 79.1% trên tổng dân số Việt Nam và van còn dấu hiệu sẽ tiếp tục tăng Chi tiết
số liệu thống kê người dùng Internet tại Việt Nam được biểu diễn tại Hình ??
Tuy số lượng người sử dụng Internet rất nhiều, nhưng tỉ lệ người có kiến thức
về an toàn thông tin và ý thức bảo vệ bản thân khi sử dung Internet chỉ chiếmphần ít Đây được xem là "mỏ vàng" để những kẻ xấu triển khai các cuộc tan công
lừa đảo giả mạo nhằm đánh cắp các thông tin nhạy cảm, tài sản số, gây ra tổn thất
về tài chính cũng như danh tiếng của các tổ chức và doanh nghiệp lớn Tan cônglừa đảo mạng còn được gọi với cái tên phổ biến là Phishing, là một dạng tan côngmạng phổ biến, tồn tại nhiều hình thức như Phishing Email, Phishing SMS, Voice
2
Trang 14Chương 1 TỔNG QUAN ĐỀ TÀI
Phishing hay một phương pháp phổ biến là Phishing Website mà nhóm sẽ nghiêncứu trong dé tài khoá luận này Với Phishing Website, kẻ xấu xây dựng các trang
web lừa đảo có giao diện rất giống các trang web chính thống hoặc xây dựng các
trang web trúng thưởng, shopping giả Các trang web Phishing này đều tạo cảmgiác tin cây và thuyết phục, nếu người dùng không cảnh giác hay thiếu kiến thức
về công nghệ thì rat dé mắc bay của kẻ tan công mà tương tác với trang web lừađảo mà kẻ xấu xây dựng, chúng có thể thu thập thông tin và đánh cap tài sản số
của nạn nhân khi họ điển vào các thông tin hay thực hiện các giao dịch bat chính[50] Theo như thống kê của tổ chức Anti-Phishing Working Group [17], số lượng
các cuộc tan công Phishing có số lượng tăng mạnh qua các năm, thống kê gần đây
cho thay số lượng các cuộc tan công Phishing được triển khai với số lượng lớn va
tăng mạnh trong thời gian đại dịch Covid và sau Covid tính từ Quý 1 năm 2021
đến Quý 4 năm 2023, chỉ tiết được biểu diễn ở Hình 1.1 Năm 2023 đã chứng kiến
sự bùng nổ của các cuộc tấn công Phishing, đạt đỉnh điểm hơn 600.000 cuộc vàotháng 3, mức cao nhất kể từ năm 2021
HINH 1.1: Thống kê số lượng các cuộc tan công Phishing diễn ra từ
Quý 1/2021 đến Quý 4/2023
Để lừa người dùng truy cập vào các trang web giả mạo, kẻ tấn công thiết kế
3
Trang 15Chương 1 TỔNG QUAN ĐỀ TÀI
các trang web có giao diện và URL gần như giống hệt với những trang chínhthống hay có diện mạo trong đáng tin cậy và uy tín Hơn nữa, chúng sử dụng
các kỹ thuật tấn công Social Engineering tỉnh vi để khai thác lòng tin và sự thiếu
hiểu biết về an toàn thông tin của người dùng, khiến họ dễ dàng tương tác vớicác trang web lừa đảo này Những phương thức tan công phổ biến bao gồm gửi
thông báo trúng thưởng qua SMS, email, mạng xã hội, hoặc thậm chí là thông
báo giả mạo từ các tổ chức uy tín, đi kèm với các URL dẫn đến trang web lừa đảo[50] Các trang web này chủ yếu được thiết kế để lừa nạn nhân cung cấp thông
tin cá nhân, thông tin đăng nhập tài khoản, tham gia vào các giao dịch tài chính
bất hợp pháp hoặc phát tán mã độc bằng cách lừa nạn nhân tải về các tệp trên
web Thông thường, các trang web phishing này được tích hợp các kỹ thuật né
tránh để tránh bị phát hiện bởi các hệ thống thu thập dữ liệu và phát hiện trang
web độc hại, đồng thời che giấu các hoạt động bat thường của chúng [29] Ngoài
ra các công cụ phát triển trang web lừa đảo đang được phát tán chia sẽ rộng rãi trên không gian mạng, do đó số lượng và mức độ tinh vi của các cuộc tân công phishing gần đây đang gia tăng đáng kể Khi người dùng rơi vào bẫy, hậu quả cóthé là mất thông tin nhạy cảm, tài sản cá nhân hoặc, nghiêm trong hơn, nếu ngườidùng đó thuộc một tổ chức, thì tổ chức cũng bị ảnh hưởng cả về danh tiếng lẫn
tài chính.
Số lượng các cuộc tân công Phishing vẫn không ngừng gia tăng, kèm theo đó
là những hậu quả nghiêm trọng Để đối phó, các nhà khoa học đang nghiên cứu
và triển khai các phương pháp phát hiện trang web lừa đảo Ban đầu, các phươngpháp phát hiện truyền thống đã được đề xuất, bao gồm sử dụng danh sách đen,
danh sách trắng hoặc so sánh sự tương đồng giữa các trang web giả mạo và chính
thống [24] Tuy nhiên, các phương pháp này bị hạn chế về độ chính xác, thời gian
và khả năng phát hiện các URL lừa đảo mới đồng thời tốn nhiều tài nguyên vàcông sức của con người Điều này trở nên ngày càng khó khăn do tội phạm mạng
có thể sử dụng những kĩ thuật tinh vi và công cụ để tạo ra hàng loạt URL Phishing
và các trang web lừa đảo trong một thời gian ngắn [41] Do đó cần thêm các giải
pháp phòng thủ hiệu quả trước các cuộc tân công Phishing Website hàng loạt
Trước thách thức day nan giải này, các nhà nghiên cứu đang tập trung vàoviệc áp dụng công nghệ Trí tuệ nhân tạo để giải quyết vấn dé Nhờ việc tríchxuất, và phân tích các đặc trưng của một trang web lừa đảo từ URL, giao diện
Trang 16Chương 1 TỔNG QUAN ĐỀ TÀI
Các nghiên cứu về học máy và học sâu ngày càng chứng tỏ hiệu quả vượt trội,
với độ chính xác cao và thời gian dự đoán nhanh chóng trong việc phát hiện các
trang web lừa đảo [3, 2, 20].
Tuy nhiên, những mô hình học máy, học sâu thường chỉ tập trung vào một
phương thức của trang web như URL, mã nguồn, các đoạn văn bản, hình ảnh
trang web để đưa ra dự đoán Điều này khiến kẻ tân công có thể sử dụng các kĩthuật tấn công tỉnh vi để qua mặt các mô hình phát hiện sử dụng học máy hoặc
học sâu Theo nghiên cứu [10], các mô hình học máy, học sâu thường dễ bị qua
mặt trước các cuộc tấn công đối kháng Tan công đối kháng là kĩ thuật mà kẻ tancông thao túng dt liệu đầu vào bằng cách thêm nhiễu loạn nhằm qua mặt cáctrình phát hiện sử dụng công nghệ học máy /học sâu Vì vậy cần những nghiêncứu mới để giúp các mô hình này phát hiện và phòng tránh trước các cuộc tấn
công đối kháng Mặt khác, tấn công chuyển giao là kĩ thuật tận dụng kiến thức
từ mô hình hoc máy nguồn để tạo mẫu đối kháng có khả năng qua mặt các môhình học máy khác Đây là một phương pháp khai thác vào tính chuyển giao của mẫu đối kháng trên các mô hình học máy, tăng mức độ nguy hiểm của các mẫuđối kháng [12] Phương pháp tan công chuyển giao này thường được kẻ tấn công
sử dụng và đặc biệt là trong ngữ cảnh tân công Black-box
Mô hình học máy Đa thể thức nổi lên như một giải pháp tiềm năng để khắc
phục các thách thức nêu trên Nhờ vào đặc tính tận dụng nguồn thông tin từnhiều nguồn khác nhau, mô hình học máy da thể thức đưa ra dự đoán với độchính xác cao và tổng quan hơn so với các mô hình chỉ tập trung vào phân tíchmột khía cạnh đặc trưng [6] Da có nhiều nghiên cứu dé xuất các kiến trúc môhình hoc đã thể thức khác nhau được công bồ trong thời gian gan đây, tuy nhiên
có rất ít nghiên cứu về khả năng chống mẫu đối kháng của mô hình đa thể thức
trong ngữ cảnh phát hiện Website lừa đảo.
Với lý do trên, trong nghiên cứu này, nhóm chúng tôi mong muốn khảo sátkhả năng chống chịu của các mô hình học máy, học sâu, và đặc biệt là các môhình da thể thức trước các mẫu đối kháng Để thực hiện điều này, chúng tôi déxuất xây dựng một khung tấn công để tạo ra các mẫu đối kháng với hiệu quả cao.Đồng thời, nhóm dé xuất xây dựng riêng một mô hình Đa thể thức có khả năngphát hiện các Website lừa đảo với tỉ lệ cao và ngay cả khi đó là mẫu đối kháng.Hơn nữa, nhằm hạn chế các cuộc tấn công lừa đảo tinh vi, chúng tôi nghiên cứu
Trang 17Chương 1 TỔNG QUAN ĐỀ TÀI
và dé xuất một chiến lược phòng thủ hiệu quả, giúp tăng cường khả năng kháng
mẫu đối kháng nhưng van đảm bảo hiệu suất của các mô hình.
1.2 Phương pháp nghiên cứu
Chúng tôi tiến hành tìm hiểu và khảo sát các công trình nghiên cứu liên quan đến
phát hiện trang web lừa đảo sử dụng công nghệ học máy, học sâu và mô hình học
đa thể thức đồng thời vận dụng và tự xây dựng một mô hình đa thể thức pháthiện trang web lừa đảo Chúng tôi cũng tham khảo các nghiên cứu về xây dựngkhung tan công để sinh mẫu đối kháng có hiệu quả cao, cùng với việc nghiên cứucác chiến lược phòng thủ mới trước các cuộc tấn công đối kháng hiện nay Cáccông trình từ các hội nghị và tạp chí uy tín sẽ được sử dụng như nguồn thamkhảo chính Qua đánh giá và so sánh kết quả thực nghiệm thu được, chúng tôi sẽ
có cái nhìn rõ ràng và chỉ tiết hơn về tiền bộ và thách thức trong lĩnh vực này
1.3 Mục tiêu nghiên cứu
Đề tài nghiên cứu của chúng tôi bao gồm các mục tiêu chính như sau:
¢ Nghiên cứu và triển khai xây dung mô hình đa thể thức có khả năng phat
hiện các trang web lừa đảo và các mẫu đối kháng của chúng
* Khảo sát hiệu suất phát hiện các trang web lừa đảo của các mô hình học
máy, học sâu và mô hình học đa thể thức.
e Xây dựng khung tấn công sinh mẫu đối kháng có khả năng qua mặt các mô
hình phát hiện sử dụng trí tuệ nhân tạo.
© Khảo sát khả năng kháng mẫu trốn tránh của các mô hình học máy, học sâu
và mô hình học đa thể thức.
° Dé xuất chiến lược phòng thủ hiệu qua cho các mô hình phát hiện website
lừa đảo.
Trang 18Chương 1 TỔNG QUAN ĐỀ TÀI
1.4 Phạm vi và đối tượng nghiên cứu
Trong nghiên cứu này, chúng tôi tập trung khảo sát và làm rõ các ưu nhược điểm
của việc áp dụng trí tuệ nhân tạo trong lĩnh vực phát hiện website lừa đảo Các
mô hình được nghiên cứu bao gồm các mô hình học máy, học sâu, học tổng hợp
và học đa thể thức Ngoài ra, nhóm chúng tôi nghiên cứu về mạng sinh đối kháng
và mô hình học diễn giải cùng với đó là kĩ thuật tan công trốn tránh, kĩ thuật tancông chuyển giao để phát triển một khung tấn công sinh mẫu đối kháng hiệuquả Cuối cùng, dựa trên khảo sát các công trình liên quan, nhóm dé xuất mộtchiến lược phòng thủ đơn giản và có độ hiệu quả cao cho các mô hình sử dụng
trí tuệ nhân tạo.
ere
1.5 Công bố khoa học và giải thưởng
Trong quá trình thực hiện luận văn tốt nghiệp, nhóm của chúng tôi đã có nhữngcông trình khoa học và dự án nghiên cứu liên quan đến một phần của nội dungđược trình bày trong luận văn Các công trình này đã được chấp nhận để đăng tảitại các hội nghị quốc tế và đã đạt giải tại các cuộc thi uy tín trong nước, bao gồm:
* Bài dự thi "Phuong pháp phát hiện Website lừa đảo dựa trên học sâu đa thể
thức kháng mẫu trốn tránh bảo vệ người dùng cuối" đạt Giải Ba chung kết
Cuộc thi “Dữ liệu với cuộc sống 2023” do Bộ Công An, ĐH Bách Khoa Hà
Nội, Đài Truyền hình Việt Nam và Báo VNExpress phối hợp tổ chức.
® The 12th International Symposium on Information and Communication
Tech-nology (SOICT 2023 - https://dl.acm.org/doi/10.1145/3628797.3629003)
¢ The 6th International Conference on Multimedia Analysis and Pattern
Recog-nition (MAPR 2023 - https: / /ieeexplore.ieee.org / document / 10288821)
¢ The International Conference on Advanced Technologies for
Communica-tions (ATC 2023 - https: / /ieeexplore.ieee.org /document/10318944)
® Bai báo "A study on adversarial sample resistance and defense mechanism
for multimodal learning-based phishing website detection" dang trong giai đoạn bình duyệt tại tap chí IEEE-Access (Journal Q1).
7
Trang 19Chương 1 TỔNG QUAN ĐỀ TÀI
1.6 Cau trúc Khóa luận tốt nghiệp
Khóa luận được tổ chức trong 5 chương như sau:
e Chương 1: TONG QUAN ĐỀ TÀI
Khái quát mục tiêu dé tài của khoá luận cũng như động lực nghiên cứu củanhóm được trình bày tại chương này Bên cạnh đó, công bố khoa học và cácsản phẩm nghiên cứu đạt giải trong quá trình thực hiện dé tài khóa luậncũng được nhóm đề cập
* Chương 2: CƠ SỞ LÝ THUYET
Tại chương này, nhóm trình bày các định nghĩa, kiến thức nền tảng cũngnhư các công nghệ được sử dụng trong khoá luận Đồng thời cung cấpthông tin về các công trình nghiên cứu liên quan
e Chương 3: PHƯƠNG PHÁP THỰC HIỆN
Chương này chúng tôi trình bày chỉ tiết về phương pháp, chiến lược tấncông, phòng thủ và kiến trúc mô hình đa thể thức Shark-Eyes mà nhóm đểxuất
¢ Chương 4: HIỆN THUC, ĐÁNH GIÁ VÀ THẢO LUẬN
Nhóm trình bày chỉ tiết đến quá trình hiện thực hóa phương pháp đề cập
ở Chương 3 Sau đó trình bày phương pháp thực nghiệm, đánh giá kết quả
thực nghiệm qua các kịch bản và thảo luận chung của nhóm.
e Chương 5: KET LUẬN VÀ HUONG PHÁT TRIỂN
Tại chương này, nhóm sẽ đưa ra kết luận vé dé tài nghiên cứu bao gồm cả
ưu điểm và nhược điểm về phương pháp mà nhóm đề xuất Bên cạnh đó,chúng tôi sẽ thảo luận về các hướng phát triển mở rộng có tiém năng pháttriển trong tương lai.
Trang 20Chương 2
CƠ SỞ LÝ THUYÊT
Tóm tắt chương
Trong chương này, chúng tôi trình bày chỉ tiết cơ sở lý thuyết của các công nghệ
mà nhóm sử dụng trong khóa luận, bao gồm cái nhìn tổng quan về các mô hìnhtrí tuệ nhân tạo nổi bật hiện đang được sử dụng trong ngữ cảnh phát hiện website lừa đảo Bên cạnh đó, nhóm cũng sẽ đi sâu vào cơ sở lý thuyết của các mô hìnhmạng sinh đối kháng và mạng khả diễn giải, cũng như các kỹ thuật tắn công trốntránh và tấn công chuyển giao phục vụ cho khung tấn công mà nhóm dé xuất
Đồng thời, chúng tôi tóm tắt các công trình nghiên cứu liên quan, so sánh ưu
nhược điểm của các công trình này với để tài của nhóm, và chỉ ra những điểmmới, sáng tạo của dé tài nhóm so với các nghiên cứu trước đây
2.1 Tình hình nghiên cứu các ki thuật xây dựng và
phát hiện Website lừa dao hiện nay
Tính đến thời điểm hiện tại, tình hình nghiên cứu các kỹ thuật xây dựng và pháthiện website lừa đảo đang tiếp tục phát triển mạnh mẽ Đồng thời đối mặt với
sự phức tạp và ngày càng tinh vi hóa của các phương thức lừa đảo trên mạng,
các nghiên cứu mới tập trung vào việc phát triển công nghệ và phương pháp tiêntiến được dé xuất Nhiều nghiên cứu mới được công bồ với khả năng nhận diện
và ngăn chặn các trang web lừa đảo, đồng thời cung cấp cái nhìn sâu sắc về các
công nghệ mới nhất để tạo ra các trang web giả mạo ngày càng phức tạp
Trang 21Chương 2 COSO LY THUYẾT
2.1.1 Các ky thuật xây dung Website lừa dao hiện nay
Trong thời đại công nghệ phát triển, kẻ gian liên tục tinh vi hóa các kỹ thuật xâydựng website lừa đảo Các phương pháp mới bao gồm sự sáng tạo trong việc tạo
ra giao diện giống hệt các trang web chính thống hay giao diện trang web muabán, trúng thưởng đem lại sự tin cậy và thuyết phục, sử dụng kỹ thuật tối ưu hóaSEO để thu hút nhiều người truy cập, và tận dụng các phương tiện truyền thông
xã hội để lan truyền thông điệp lừa đảo Các kỹ thuật này thường kết hợp sự lừa
đảo tâm lý với công nghệ thông tin, tạo nên những trang web mà người dùng khó phân biệt được giữa thật và giả mạo Bên cạnh đó, việc sử dụng các công cụ tạo
trang web Phishing được chia sẽ trên mạng, kẻ xấu có thể tạo ra hàng loạt trang
web với các diện mạo khác nhau trong thời gian ngắn
Có thể thấy, khả năng xây dựng trang web lừa đảo đang tăng mạnh về chấtlượng và số lượng trong khoảng thời gian gần đây
2.1.2 Các phương pháp phát hiện Website lừa dao
Các nhà nghiên cứu và chuyên gia bảo mật trong lĩnh vực an toàn thông tin đã và
đang liên tục nỗ lực phát triển các công nghệ và phương pháp mới để phát hiện
và ngăn chặn kịp thời các website lừa đảo Bên cạnh các kĩ thuật truyền thốngnhư sử dụng danh sách đen hoặc danh sách trắng thì các kỹ thuật tiên tiến đangđược nghiên cứu mạnh mẽ Nổi bật là việc sử dụng trí tuệ nhân tạo và học máy
để phân tích tự động các đặc điểm của các trang web, từ tên miền, cấu trúc mãnguồn đến nội dung và hoạt động mạng, nhằm xác định các dau hiệu của sự lừadao kết hợp với các kỹ thuật khác để tăng tốc độ nhận định và tính chính xác cũngnhư giảm tối đa sức lực và tài nguyên con người [18] Ngoài ra, các cơ quan chínhphủ và tổ chức phi lợi nhuận cũng đang tăng cường hợp tác và cung cấp nguồn
lực để phát hiện và cảnh báo về các trang web lừa đảo, nhằm bảo vệ người tiêu
dùng và đảm bảo sự an toàn trên mạng.
10
Trang 22Chương 2 COSO LY THUYẾT
2.1.3 Ví dụ về tên miễn lừa dao nguyên ban và tên miễn lừa dao
đối kháng
Một trong những phương pháp phát hiện website lừa đảo hiệu quả trước đây là
dựa vào tên miền để nhận định Tuy nhiên, với kĩ thuật ngày càng tỉnh vi của kẻtấn công, tên miễn lừa đảo đối kháng đã được ra đời Day là ví dụ về tên miềnnguyên bản và tên miễn lừa đảo đối kháng
Tên miền lừa đảo nguyên bản
Tên miễn lừa đảo thường được sử dụng để đánh lừa người dùng bằng cách làm
giống giao diện và cấu trúc của các tên miễn hợp lệ, chỉ thay đổi một vài điểmnhỏ để khó phát hiện.
Ví dụ:
e Tên miễn hợp lệ: www.vietnamairlines.com
e Tên miền lừa đảo nguyên bản: www.vietnamairslines.com (chữ ’s’ được
thêm vào để đánh lừa người dùng)
Tên miễn lừa đảo nguyên bản đối kháng
Tên miền đối kháng được tạo ra bằng các kỹ thuật như GANs, nhằm qua mặt các
hệ thống phân loại tên miễn Loại tên miền này thường khó phát hiện hơn do đãđược biến đổi và có nhiều đặc điểm phức tạp Các tên miễn lừa đảo đối khángthường được thiết kế để vượt qua các hệ thống phát hiện dựa trên các mẫu tênmiễn lừa đảo đã biết
Ví dụ:
e Tên miễn lừa đảo đối kháng: www.v1ietn4maislines.com (chữ “s“ được thêm
vào, chữ ‘i’ được thay bang số “1 và chữ “a' được thay bang số ’4’)
So sánh:
Tên miên lừa dao nguyên ban:
¢ Tập trung đánh lừa sự thiếu cảnh giác của người dùng Do đó người dùng
vẫn có thể phát hiện nếu chú ý
11
Trang 23Chương 2 COSO LY THUYẾT
* Các hệ thống phân loại có thể nhận biết được
Tên miễn lừa đảo đối kháng:
¢ Tập trung đánh lừa các hệ thống phân loại và người dùng Do đó tên miền
này thường khó nhận biết bằng mắt thường và chúng có nhiều biến đổi
thông tin đang được xử lý Sự tích hợp này cho phép tạo ra các mô hình mạnh mẽ
hơn có thể xử lý các kịch bản phức tạp trong thế giới thực một cách hiệu quả hơn[7] Các mô hình học đa thể thức hiện đang được nghiên cứu và áp dụng rộng rãitrong nhiều lĩnh vực khác nhau như Thị giác máy tính, An toàn thông tin, Xử lý
ngôn ngữ tự nhiên, Y học, và Robotics.
2.2.1 Phân loại các mô hình học đa thể thức
Có ba loại hợp nhất chính (fusion) trong học đa thể thức: hợp nhất sớm, nơi dữliệu từ các phương thức khác nhau được kết hợp trước khi được đưa vào môhình học tập; hợp nhất muộn, nơi các dự đoán từ các mô hình riêng biệt cho từngphương thức được kết hợp; và hợp nhất lai, kết hợp các yêu tố của cả hợp nhấtsớm và hợp nhất muộn, tối ưu hóa các điểm mạnh của mỗi loại để cải thiện hiệusuất tổng thể Hợp nhất sớm tập trung vào việc tích hợp dữ liệu thô, hợp nhấtmuộn nhân mạnh việc kết hop các quyết định từ nhiều mô hình, và hợp nhất laitận dụng cả dữ liệu thô và thông tin ở mức độ quyết định để có một cách tiếp cận
toàn diện Kiến trúc của các mô hình học đa thể thức được miêu tả trong Hình
2.1.
12
Trang 24Chương 2 COSO LY THUYẾT
2.2.2 Mô hình phân loại website áp dụng học Da thể thức
Sử dụng các mô hình đa thể thức để phát hiện trang web lừa đảo (Phishing site Detection - PWD) đang thu hút sự chú ý nhờ khả năng tổng hợp thông tin từnhiều nguồn và kết hợp các kỹ thuật xử lý dữ liệu tiên tiền, dẫn đến hiệu quả caotrong phát hiện trang web lừa đảo và khả năng chống lại nhiễu loạn mạnh mẽ.Các chỉ tiết được trình bày trong Hình 2.2, phương pháp học đa thể thức hướngđến xây dựng các nhánh khác nhau, mỗi nhánh tập trung vào một thực thể cùngvới một phương pháp xử lý để xử lí dữ liệu đầu vào cho các thuật toán học máy.
Web-Cuối cùng, kết quả sẽ được hợp nhất theo nhiều cách khác nhau, chẳng hạn như
nối và nhập vào mạng nhận diện, hoặc bỏ phiếu trung bình nếu các nhánh đượcthiết kế để đưa ra quyết định thay vì trích xuất đặc trưng
Các phương pháp tiếp cận đa thể thức có tiểm năng lớn cho các nghiên cứu
sau này trong việc phân loại trang web lừa đảo Sự biến đổi trong việc kết hợp
các nhóm thuộc tính khác nhau cùng với các phương pháp xử lý dữ liệu đa dạng
có thể dẫn đến một hệ thống đa thể thức mới đạt được độ tin cậy và hiệu quả cao
mà không yêu cầu quá nhiều tài nguyên cho triển khai thực tế
13
Trang 25Chương 2 COSO LY THUYẾT
\ =e ©
HINH 2.2: Tổng quan kiến trúc mô hình da thể thức sử dung trong
phân loại Website
2.3 Khung sinh mau AWG và các chiến lược tan công,
phòng thủ
2.3.1 Tổng quan Mạng sinh đối kháng GAN
Trong dé tài nghiên cứu này, nhóm dé xuất một khung sinh mẫu tên AWG sử
dụng mạng sinh đối kháng GAN Mô hình GAN là mô hình sinh mẫu trong lĩnh
vực học máy, được quan tâm nghiên cứu và ứng dụng rất nhiều trong việc giảiquyết các vân đề thuộc các lĩnh vực đời sống, kinh doanh cũng như các lĩnh vực
an toàn bảo mật thông tin hệ thống GAN có khả năng sinh ra các mẫu dữ liệumới dựa trên các dữ liệu ban đầu mà nó học được, ví dụ ở Hình 2.3, là các khuôn
mặt được GAN sinh ra dựa trên các khuôn mặt ban đầu, trải qua nhiều lần học
hỏi, GAN sinh ra các khuôn mặt càng giống ban đầu hơn Dữ liệu được GANsinh ra gần như thật nhưng không phải thật Nói cách khác, GAN có khả năngsinh ra các dữ liệu sát với dữ liệu gốc ban đầu Kiến trúc mô hình GAN sẽ gồmhai thành phần chính là Bộ sinh và bộ phân biệt Trong đó:
* Bộ sinh: sẽ tìm cách sinh ra các mẫu dữ liệu giả có thể đánh lừa được bộ
phân biệt thông qua học tập Bộ sinh sẽ nhận lại các đánh giá về các mẫuđược sinh ra mà bộ phân biệt trả về để cải thiện khả năng sinh mẫu của bảnthân Mục tiêu là sinh ra các mẫu chất lượng, càng giống thật càng tốt
14
Trang 26Chương 2 COSO LY THUYẾT
* Bộ phan biệt: như một người hướng dẫn, đánh giá để bộ sinh có thể cải
thiện tốt hơn, đồng thời bộ phân biệt cũng phải tự cải thiện bản thân dựa
trên dữ liệu thật và dữ liệu được bộ sinh sinh ra để không dé dang bị dánh
lừa bởi bởi bộ sinh nữa.
Ý tưởng của mô hình mạng sinh đối kháng GAN bắt nguồn từ zero-sum
non-cooperative game, tức là trò chơi đối kháng giữa hai người mà ở đó cả hai đều
muốn tối đa hóa khả năng chiến thắng của mình và tối thiểu hóa cơ hội thắng
của đối phương Trong mô hình GAN, bộ sinh và bộ phân biệt là hai đối thủ của
nhau, mỗi lượt đều dựa trên thông tin của đối phương để cé gắng cải thiện bảnthân nhằm tối đa cơ hội thắng của chính mình đồng thời tối thiểu cơ hội thắngcủa đối phương Mô hình GAN hội tụ khi cả bộ sinh và bộ phân biệt đạt tới trạngthái Nash equilibrium, tức là hai người chơi đạt trạng thái cân bằng và cho dù cólàm gì tiếp đi chăng nữa thì cũng không cải thiện được cơ hội thắng Lúc này trò
chơi nên cham dứt với kết quả hòa và cả hai người chơi đang ở trang thái tốt nhất
15
Trang 27Chương 2 COSO LY THUYẾT
M6 hinh Wasserstein-GAN
Mặc du GAN đã đạt được nhiều thành công trong việc tạo ra dữ liệu mới, nhưngvan dé của GAN gốc là việc đánh giá chất lượng của dir liệu được tạo ra Dé
khắc phục van dé này, mô hình WGAN (Wasserstein GAN) đã được dé xuất bởi
Martin Arjovsky, Soumith Chintala và Léon Bottou vào năm 2017 Và đây chính
là mô hình mạng sinh đối kháng mà nhóm tận dụng trong dé tài khoá luận này
Mô hình WGAN sử dụng hàm mắt mát dựa trên khoảng cách Wasserstein thay
vì hàm mất mát thường được sử dụng trong GAN gốc Khoảng cách Wasserstein
được coi là một độ đo đúng đắn hơn để đo lường sự khác biệt giữa phân phối dữ
liệu thật và phân phối dữ liệu giả Thay vì đánh giá xác suất, WGAN tập trungvào việc tối ưu hóa một hàm hiệu suất, được gọi là hàm tiện ích, để đưa phânphối dữ liệu giả gần với phân phối di liệu thật nhất
Mô hình WGAN đã cho thấy kết quả an tượng trong việc tạo ra dữ liệu chấtlượng cao và cải thiện khả năng đánh giá chất lượng của GAN Nó đã được ápdụng rộng rãi trong nhiều lĩnh vực như xử lý ảnh, âm nhạc, và tạo nội dung sángtạo Trong nghiên cứu này, nhóm quyết định sử dụng WGAN để cải thiện độ ổnđịnh trong quá trình tạo các mẫu tên mién có nghĩa
2.3.2 Kỹ thuật tan công đối kháng
Trong những năm gan day, các cuộc tân công dựa trên mẫu đối kháng đã trởthành trọng tâm nghiên cứu vì nó đã cho thấy hầu hết các mô hình học máy hiệnnay đều có thể bị qua mặt bởi mẫu đối kháng Mẫu đối kháng là một mẫu dữ liệuđầu vào đã được sửa đổi để đánh lừa trình phát hiện Các nghiên cứu trước đây[10, 9] đã phát hiện ra rằng các mô hình học máy và học sâu thường dé bị tan công
bằng cách chèn nhiễu loạn vào đầu vào để cho ra kết quả phân loại không tin cậy
Vì lý do đó, các hệ thống phát hiện ngày càng dé bi tắn công vì các mẫu đối khángđang được sử dụng ngày càng nhiều để đánh lừa các mô hình ML/DL Một cuộc
tan công đối kháng có thể được chia thành tân công hộp trắng, hộp xám và hộp
đen tùy thuộc vào thông tin mà kẻ tan công có được từ mô hình mục tiêu Trong
điều kiện hộp trắng, kẻ tan công có tất cả thông tin về mô hình mục tiêu bao gồm
kiến trúc, tham số va gradient của ham mat mát liên quan đến đầu vào Tronglĩnh vực thị giác máy tính, cuộc tấn công đối kháng đầu tiên (FGSM) sử dụng
1ó
Trang 28Chương 2 COSO LY THUYẾT
thông tin gradient đối với phân loại hình anh đã được khám phá bởi Goodfellow[14] Lay cảm hứng từ lĩnh vực thị giác máy tính, các cuộc tấn công đối khángđược sử dụng để tạo ra các mẫu mã độc đối kháng Tuy nhiên, những mẫu nàygặp khó khăn trong việc bảo toàn chức năng ban đầu của mã độc Sau khi ápdụng FSGM để tạo ra mã độc đối kháng, Grosse và đồng nghiệp [16] đã chứngminh các mẫu mã độc đối kháng hoàn toàn có thể được sử dụng để qua mặt cáctrình phát hiện mã độc trên điện thoại di động Tuy nhiên, cách thức tan công đốikháng này yêu cầu cần biết thông tin, kiến trúc của mô hình nạn nhân Đây làmột hạn chế lớn bởi vì trong thực tế, thông tin các mô hình thường được che giấu
và bảo toàn cẩn thận Do đó, đã có một số nghiên cứu về cuộc tan công đối khánghộp xám [36] và cuộc tan công đối kháng hộp đen [11] Các nghiên cứu gan đâycho thấy việc sử dụng GAN để tạo ra các mẫu đối kháng đạt hiệu quả cao trong
ngữ cảnh tan công hộp đen Trong bài báo [21] MalGan là nghiên cứu tiên phong
trong việc tạo ra mẫu đối kháng sử dụng mạng sinh đối kháng GAN để né tránhviệc phát hiện của các trình phát hiện mã độc Android trong ngữ cảnh tan công
một nguồn đáng tin cậy Khi người dùng nhập dữ liệu bảo mật của họ, chẳng hạn
như thông tin đăng nhập hoặc thông tin tài chính, những kẻ tan công có thể thuthập và khai thác dữ liệu nhạy cảm này cho các mục đích xâu, có thể dẫn đến việc
đánh cắp danh tính, gian lận tài chính hoặc các hậu quả có hại khác
2.3.3 Kỹ thuật tan công chuyển giao đối kháng
Các cuộc tấn công chuyển giao đối kháng dựa trên việc tận dụng kiến thức từ một
mô hình nguồn để tạo ra các mẫu đối kháng có thể đánh lừa các mô hình khác Kĩthuật tấn công này khai thác đặc tính chuyển giao của các mẫu đối kháng giữa các
mô hình, mở rộng tầm vực cho cuộc tân công đối kháng [12] Loại tan công này
17
Trang 29Chương 2 COSO LY THUYẾT
thường được sử dung đặc biệt trong bối cảnh tan công hộp đen Do đó, phươngpháp này rất hữu ích cho kẻ gian bởi vì trong thực tế chúng thường có rất ít thôngtin về mô hình mục tiêu Đáng chú ý, trong nghiên cứu của [37] đã nhắn mạnhmức độ hiệu quả của các cuộc tấn đối kháng nhắm vào các mô hình ML trongngữ cảnh hộp đen Công trình của họ chứng minh rằng nếu một mẫu đối kháng
có khả năng qua mặt mô hình M,, thi cũng có khả năng qua mặt mô hình M; Lợi
dụng đặc tính chuyển giao đối kháng này, kẻ xấu có thể xây dựng các chiến lược
tấn công các mô hình mục tiêu bằng việc tân công mô hình nguồn của chúng Với
đặc điểm thú vị trên, các nhà nghiên cứu đã tận dụng tính chất này để triển khai
các cuộc tấn công hộp đen Với cách tiếp cận trên, Papernot et al [32] triển khaimột cuộc tan công bằng cách huấn luyện một mô hình thay thế có kha năng đưa
ra quyết định giống như mô hình BB mục tiêu Kết quả thực nghiệm của họ chothấy mô hình nạn nhân bị tân công bởi các mẫu đối kháng được tạo ra từ mô hìnhthay thế Ngoài ra, với các mô hình có kiến trúc khác nhau như SVM, mô hình
LR và mạng nơ-ron, các nhà nghiên cứu đã chứng minh trong [32] rằng các mẫuđôi kháng hoàn toàn có thể tân công chuyển giao thành công, mặc dù có sự khácbiệt đáng kể trong kiến trúc mô hình của chúng Hơn nữa, trong nghiên cứu do
[5] và cộng sự thực hiện, các tác giả đã tích hợp một mô hình học máy hộp đen
vào quá trình huấn luyện mạng sinh đối kháng GAN để tạo ra các mẫu URL đốikháng Kết quả nghiệm thu cho thấy các mẫu mới do PWDGAN [5] tạo ra có thể
né tránh hoặc giảm hiệu quả của các mô hình ML.
2.3.4 Tan công giả mạo đồng hình
Các cuộc tấn công giả mạo đồng hình dựa trên ý tưởng sử dụng các ký tự có
vẻ ngoài tương tự nhau để giả mạo tên miền hoặc URI của một trang web chínhthống Trong đó kẻ tan công tạo ra các URL hoặc tên miễn trông giống với các tên
miễn hợp lệ bằng cách sử dụng các ký tự từ các bộ ký tự khác nhau trông tương
tự với các ký tự trong tên miễn gốc
Ví dụ, kẻ tấn công có thể thay thế một số chữ cái trong tên miễn hợp lệ bằng
các ký tự trông tương tự từ các bảng chữ cái khác, chẳng hạn như sử dụng ký tự
Cyrillic, Hy Lạp, hoặc các ký tự không phải Latin khác giống với các ký tự Latin
Điều này có thể đánh lừa người dùng nghĩ rằng họ đang truy cập vào một trang
18
Trang 30Chương 2 COSO LY THUYẾT
web chính thống, trong khi thực tế ho dang bị điều hướng đến một trang web độchại do kẻ tấn công kiểm soát
Tan công giả mạo đồng hình là một kĩ thuật tấn công hiệu quả vì chúng lợi
dụng nhận thức của con người và cách người dùng xử lý hình ảnh các tên miễn,khiến người dùng khó phân biệt giữa các URL/tên miền hợp lệ và độc hại Kiểutấn công này có thể được tận dụng cho nhiều mục đích xấu khi thuyết phục thànhcông người dùng Internet vô tình truy cập vào trang wrb lừa đảo, bao gồm lay
cắp thông tin nhạy cảm như tên người dùng, mật khẩu, hoặc thông tin tài chính
của các tổ chức doanh nghiệp, hay thậm chí là phát tán phần mềm độc hại Gầnđây, tan công giả mao tên miền đã thu hút nhiều sự chú ý hơn và được đề cậptrong nhiều bài viết trên các blog sau: [19, 30, 44]
Do đó, đã có nhiều nghiên cứu nỗ lực tổng hợp và tìm ra giải pháp để đối phóvới các cuộc tân công này, nổi bật là nghiên cứu [34, 36]
Các hình thức tấn công giả mạo đồng hình
Trong nghiên cứu này, nhóm tập trung vào tan công đồng hình giả mạo tên miền.
Đây là hình thức tân công mà kẻ tan công dang ký các tên miễn trông giống tênmiễn hợp pháp bang cách thay thế các ký tự bằng các ký tự tương tự từ các bộ
ký tự khác nhau, như thay chữ "o" bằng số "0" hoặc sử dụng các ký tu Cyrillic
trông giống chữ Latin Người dùng có thể không nhận ra sự khác biệt và vô tìnhtruy cập vào trang web độc hại Ngoài ra, tấn công đồng hình còn có thể xuất
hiện dưới các hình thức khác như: tạo địa chỉ email giả mạo bằng các ký tự tương
tự; sử dụng tên miễn quốc tế (IDN) với các ký tự từ các bảng chữ cái khác trônggiống ky tự Latin; tạo tên tập tin giả mạo để che giấu phần mềm độc hại; và tạo
tên người dùng trông giống tên của người dùng hợp pháp nhằm mạo danh hoặc
lừa đảo.
2.3.5 Các chiến lược phòng thủ trước cuộc tan công đối kháng
Vì cuộc tấn công trốn tránh đã được sử dụng rộng rãi trong thực tế, nhiều nỗlực nghiên cứu đã được thực hiện để giảm thiểu các hậu quả của chúng Có gần
ba loại chiến lược phòng thủ để tăng khả năng chống mẫu đối kháng Một trong
số đó là huấn luyện lại mô hình với các mẫu đối kháng [15] [31] [39] Trong đó,
19
Trang 31Chương 2 COSO LY THUYẾT
tác giả thêm các mẫu đối kháng vào dữ liệu huấn luyện để nâng cao kha năng
nhận diện của mô hình Madry et al [31] sử dụng các mẫu được tao ra từ cuộc
tấn công Project Gradient Descent để bổ sung bộ dir liệu huấn luyện Kết quả cho
thấy các mô hình được retrain đều có khả năng phát hiện tốt hơn và phương phápnày vẫn cho thấy sự hiệu quả đến ngày nay Tuy nhiên, các tiếp cận này có thể bịphản tác dụng nếu thực hiện quá nhiều lần huấn luyện với một số lượng mẫulớn, dẫn đến suy giảm hiệu suất chung của mô hình Do đó, Khoda et al [27] déxuất hai phương pháp mới để chọn lọc mẫu đối kháng một cách kĩ càng hơn dựatrên khoảng cách từ trung tâm cụm và xác suất thu được thông qua học dựa trênkernel (KBL) Kết quả thực nghiệm của ông cho thấy những phương pháp này
đã giúp mô hình phân biệt các mẫu đối kháng hiệu quả đáng kể Mặc dù manglại hiệu quả, tác giả Kurakin chứng minh rằng phương pháp này vẫn đòi hỏi tínhtoán phức tạp khi phải xử lí trên tập dữ liệu khổng 16 sau khi thêm vào các mẫuđộc hại [28] Phương pháp thứ hai là biến đổi đầu vào, trong đó đầu tiên tiền xử
lý đầu vào để sửa các sự méo mó của AE mà không làm ảnh hưởng đến độ chínhxác trong việc phân loại hình ảnh bình thường Được truyền cảm hứng từ phươngpháp này trong lĩnh vực CV, một bộ phân loại phần mềm độc hại dựa trên DNN
đã sử dụng các hình ảnh biến đổi từ các mẫu nhị phân để tăng độ chính xác của
có khả năng lí giải những quyết định mà mô hình AI đưa ra Và đó cũng chính
là lí do mà công nghệ mạng khả diễn giải - Explainable AI (XA]) ra đời Với mục
tiêu giúp con người trả lời được những câu hỏi mà những mô hình học máy trước
20
Trang 32Chương 2 COSO LY THUYẾT
đó không thé, ví du như vì sao mô hình AI lại đưa ra dự đoán như vậy va nó dựa
cụ thể vào đặc trưng nào của đầu vào?
Việc giải thích được những quyết định của hệ thống AI, công nghệ XAI không
chỉ đảm bảo tính minh bạch của các mô hình AI mà còn củng cố niềm tin của con
người vào công nghệ Trí tuệ nhân tạo này Bên cạnh đó, ở khía cạnh An toàn
Thông tin, kẻ tan công hoàn toàn có thể tận dụng những lí giải của hệ thống XAI
để có thể phân tích điểm yếu của mô hình AI và từ đó tăng xác xuất tấn công
thành công vào các mô hình AI đó.
Một số đặc điểm của Mạng khả diễn giải XAI
Hình 2.4 trong blog [25] cho thấy các đặc điểm nổi bật của công nghệ Explainable
AT trong việc xây dựng niềm tin và đảm bảo minh bạch cho các mô hình học máy
¢ Tính minh bạch: Dam bảo các bên liên quan đều có thể hiểu và lí giải được
những quyết định của các mô hình AI
e Tính công bang: Đảm quyết định của các mô hình AI là công bằng.
® Độ tin cậy: Tăng cường độ tin cậy cho các tổ chức sử dụng XAI.
° Độ ben vững: Có khả nang chóng chịu với sự thay đổi của dữ liệu đầu vào
hoặc tham số mô hình, duy trì hiệu suất nhất quán và đáng tin cậy ngay cảkhi đối mặt với tình huống không chắc chắn hoặc không mong đợi
s Tính riêng tư: Có khả năng bảo vệ thông tin nhạy cam của người dùng.
¢ Khả năng lí giải: Cung cấp các giải thích dé hiểu cho con người về các dự
đoán và kết quả của mô hình
2.5 So sánh với những nghiên cứu trước đây
Trong khóa luận này, nhóm đã nghiên cứu các công trình trước đây và sử dụng
những hạn chế của các nghiên cứu đó làm nền tang để phát triển Hình 2.1 mô tảnhững đóng góp chính cũng như những hạn chế của các nghiên cứu trước đây so
với công trình của nhóm Nhóm tin rằng việc có một cái nhìn tổng quát sẽ làm rõ
21
Trang 33Chương 2 COSO LY THUYẾT
Robustness
tk Zoumana KEITA
HINH 2.4: Các đặc điểm nổi bat của công nghệ Explainable AI.
những đóng góp của mình trong lĩnh vực này và đồng thời giúp các nghiên cứu
sau này phát triển hơn nữa.
22
Trang 34Chương 2 COSO LY THUYẾT
BANG 2.1: Bang so sánh dé tai của nhóm với các nghiên cứu trước
Zhang et al [48] Học đa thể thức
Một trong những nghiên cứu tiên phong
sử dụng học đa thể thức để phát hiện trang
web lừa đảo.
Thiều khảo sát về khả năng chồng đối kháng của mô hình da thể thức.
Bac et al [5]
Apruzzese et al [4, 47]
Tan công đối kháng
Sử dụng mạng GAN để tạo ra các URL
đối kháng nhằm qua mặt mô hình phát
hiện trang web lừa đảo.
Chưa có thông kê về các mô hình
DL, EL và MM trước mẫu đối kháng.
Các chỉ số của bộ sinh vẫn có thể được
cải thiện.
Nghiên cứu tiên phong thông kê khả năng phòng thủ của các mô hình học máy tiên
tiến trước 12 cuộc tấn công trốn tránh.
Thiếu thực nghiệm đánh giá về các mô
hình DL, EL, và MM.
Madry et al [31] Phòng thủ trước
tan công đối kháng Đề xuất các phương pháp phòng,thủ chống lại tan công đối kháng
Phương pháp tái huan luyện có thể
giảm hiệu quả nếu không có kĩ thuật
Nghiên cứu khả nang chong các trang
web lừa đảo và đối kháng của các mô
hình, đặc biệt là các mô hình đa thể thức.
Đề xuất một khung sinh mẫu sử dụng WGAN và chiến lược tan công/phòng thủ
để nâng cao tính khả năng chịu đựng của
các mô hình AI.
Khung công cụ AWG cần được cải tiến
để sinh mẫu với tỷ lệ trồn tránh cao hơn.
Mô hình đa thể thức cần được tôi ưu
về tài nguyên và thời gian để tăng hiệu năng và đáp ứng được như cau thực tế.
23
Trang 35Chi tiết quá trình xây dựng, và huấn luyện các mô hình phân loại trang web.
Mô tả kiến trúc, cách hoạt động và chi tiết phương pháp xây dựng khungtấn công AWG
So sánh hiệu suất và tính kháng mẫu trốn tránh của các mô hình phân loạitên miền, và website
Mô tả chiến lược phòng thủ trước các cuộc tấn công đối kháng
Chỉ tiết quá trình triển khai công cụ tiện ích Shark-Eyes trên trình duyệt
web.
Thu thập dư liệu phục vụ cho nghiên cứu
3.1.1 Tổng quan về bộ dữ liệu
Trong nghiên cứu nay, chúng tôi sử dụng 2 bộ dữ liệu chính bao gồm:
Bộ dữ liệu các trang web lừa đảo và lành tính dùng để huấn luyện các mô
hình phân loại trang web.
24
Trang 36Chương 3 PHƯƠNG PHÁP THỤC HIỆN
¢ Bộ dữ liệu các tên miễn lừa đảo và lành tính dùng để huấn luyện các mô
hình phát hiện các tên miền độc hại và huấn luyện mô hình WGAN
3.1.2 Cách thức thu thập
Đối với Bộ dữ liệu các tên miễn lừa dao và lành tính, nhóm tiến hành thu thập
các tên miền lành tính nổi tiếng được xếp hạn bởi Alexa và dùng công cụ finder để làm giàu số lượng tên miễn lành tính thông qua việc lay thêm các tênmién phụ liên quan Các tên miễn lừa đảo được thu thập từ các nguồn báo cáolừa đảo như PhishDB, PhishTank, , và tiến hành thu thập định kì để có bộ dữ
sub-liệu phong phú.
Đối với Bộ dữ liệu các trang web lừa đảo và lành tính, sau khi thu thập các
URL lừa đảo từ các trang báo cáo lừa đảo và các URL lành tính từ các trang thống
kê trang web đáng tin tưởng Từ các URL thu thập được, nhóm tiến hành truycập va lay về mã nguồn của các trang web, xử lý và chia thành các thành phankhác nhau Tóm lại bộ dữ liệu sẽ gồm có: ULR, tên miễn, nội dung trang web, các
HTML tag và các mã javascript.
3.2 Mô hình hoc sâu da thể thức Shark-Eyes [42]
Trong khóa luận này, nhóm đã tiến hành nghiên cứu và triển khai một mô hìnhhọc sâu đa thể thức tên Shark-Eyes [42] phát hiện trang web lừa đảo dựa vào tênmiễn và các thẻ tags HTML, chỉ tiết cầu trúc mô hình được biểu diển ở hình 3.1
Mô hình Shark-Eyes [42] sau khi được huấn luyện sẽ có khả năng phân biệt trangweb lừa đảo và trang web lành tính, cùng với đó là khả năng kháng các cuộc tancông đối kháng tinh vi Từ đó trở thành một công cụ hữu ích có thể triển khai vàomôi trường thực tế.
Theo như các nghiên cứu trước đây về việc triển khai đa mô hình trong lĩnhvực phát hiện trang web lừa đảo [13][45][46], có rất nhiều cấu trúc triển khai khácnhau nhưng nhìn chung sẽ có hai hướng là song song và nối tiếp Kiến trúc môhình chúng tôi dé xuất sẽ xây dung theo hướng song song và gồm có 3 nhánh,mỗi nhánh sẽ là một mô hình học sâu đảm nhận chức năng phân tích, trích xuất
25
Trang 37Chương 3 PHƯƠNG PHÁP THỤC HIỆN
thuộc tính đặc trưng khác nhau nhằm cung cấp thông tin cho việc đưa ra quyết
định cuối cùng ở các lớp ẩn nằm ở cuối mô hình
tôi tập trung vào tên miễn bởi đây là một phần cốt yếu trong việc triển khai tấn
công Phishing, kẻ tan công phải đăng ký tên miền dé sử dung chúng cho việctriển khai trang web và mỗi tên miễn là duy nhất, không trùng lập lại với nhau.Theo nghiên cứu [35], tên miễn là phần khó có khả năng thay đổi nhiều trong mộttrang web và nó góp phần cung cấp rất nhiều thông tin cho việc phát hiện một
trang web lừa đảo Khi kẻ tấn công bị phát hiện và bị chặn tên miễn, họ phải bỏ
tiền để đăng ký một tên miền mới, giải quyết triệt để được trang web lừa đảo Ở
nhánh còn lại, chúng tôi phân tích cầu trúc DOM của tệp HTML của trang web,
nắm bắt được cách sử dụng các thẻ này có thể giúp mô hình phát hiện được cáctrang web lừa đảo Theo [50], các trang web được xây dựng bằng các công cụ hỗ
trợ tấn công Phishing thường sẽ có câu trúc DOM giống nhau và các trang weblừa đảo sẽ có cầu trúc DOM đơn giản hơn rất nhiều so với các trang web lành tính.Sau khi trích xuất được các thuộc tính từ các khía cạnh khác nhau của trang web,
26
Trang 38Chương 3 PHƯƠNG PHÁP THỤC HIỆN
chúng tôi sử dụng cơ chế Attention để xác định các thuộc tính nào quan trọng vàlàm nổi bật chúng lên và tiến hành ghép các thuộc tính lại với nhau thành mộtvectơ Attention là một cơ chế cho phép mô hình lựa chọn một cách chọn lọc cácphần tử quan trọng để thực hiện dự đoán dựa vào dit liệu đầu vào Thông quaquá trình huấn luyện nó sẽ tự động xác định được các thuộc tính quan trọng cầnquan tâm để giải quyết bài toán phát hiện trang web lừa đảo Cuối cùng các vectơthuộc tính được kết nối lại với nhau và đổ vào các lớp ẩn để tiến hành đưa raquyết định phân loại cuối cùng
Chỉ tiết cách xử lý dữ liệu và câu trúc mạng ở mỗi nhánh được trình bày ở
Một trang web sẽ được cầu thành từ các tập hợp có tệp HTML, CSS và JS trong
đó tệp HTML đóng vai trò quan trọng quyết định câu trúc các phần tử có trongtrang web Câu trúc DOM là một cây phân cấp các thẻ được sử dụng trong tệpHTML, thông thường thẻ cha lớn nhất là thẻ HTML sau đó có các thẻ con header
và body, nhỏ hơn nữa là sẽ có các thẻ phổ biến như div, a, h1, Hình 3.2 minh
họa cho một tệp HTML phổ thông và hình 3.3 mô tả câu trúc của một cây phâncấp DOM Tùy theo chức năng của trang web mà các phần tử cần có sẽ nhiều hay
ít từ đó dẫn đến sự phức tạp trong cấu trúc cây DOM Các trang web lừa đảo
chỉ mang mục đích chính là lừa người dùng nhập vào hay bam vào để đánh cắp
các thông tin nhạy cảm hoặc tài chính nên thường có cau trúc cây DOM khôngquá phức tạp và số lượng loại thẻ được sử dụng cũng khá hạn ché Trong khi cáctrang web lành tính nổi tiếng sẽ cung cấp các dịch vụ chức năng rất đa dạng do
đó sẽ có cầu trúc cây DOM phức tạp hơn và các loại thẻ khác nhau duoc sử dụngcũng da dang hơn Phương pháp xử lý và trích xuất thuộc tính từ cấu trúc DOM
của trang web được chúng tôi tham khảo từ nghiên cứu Web2vec [13].
27
Trang 39Chương 3 PHƯƠNG PHÁP THỤC HIỆN
Simple HTML Page
Item 1
Item 2
Item 3
Visit Example Website
html, header, title, body, h1, p, ul, li, li, li, a
HÌNH 3.3: Cầu trúc cay DOM
Chúng tôi tiến hành thu thập toàn bộ thẻ được sử dụng trong tệp HTML Khi
có danh sách các thẻ, chúng tôi sử dụng one-hot encoding để chuyển cái loại thẻ
có trong danh sách thành dạng số, mỗi loại thẻ sẽ được chuyển thành một sốriêng lẻ duy nhất Ví dụ chuyển đổi một danh sách thành vectơ số được biểu diễn
ở hình 3.4 Chúng tôi giới han độ dài của danh sách ở một mốc có định va sẽ lược
bỏ nếu danh sách quá dài và thêm vào nếu danh sách chưa đủ độ dài đã đặt ra.Kết thúc quá trình xử lý chúng tôi thu được một vectơ các số nguyên đại diện cho
các thẻ được sử dụng với thứ tự như cấu trúc trong tệp HTML
28
Trang 40Chương 3 PHƯƠNG PHÁP THỤC HIỆN
bảo trích xuất được các thuộc tính liên quan đến sự liên kết, mối quan hệ liên tục
giữa các thẻ có trong danh sách Các trang web lành tính sẽ có cách triển khai cácthẻ khác với các trang web lừa đảo, vì vậy các đặc trưng vẻ sự liên tục và liên kếtgiữa các thẻ được trích xuất bởi BiLSTM sẽ có giá trị to lớn trong việc phát hiệntrang web lừa đảo Lớp Attention được đặt ở cuối cùng để đánh giá các thuộctính, nhấn mạnh làm rõ các thuộc tính đóng góp nhiều cho sự phát hiện trang
web lừa đảo.
Tóm lại cấu trúc mạng của nhánh câu trúc DOM này gồm:
¢ Lớp Embedding: chuyển đổi vectơ một chiều thành ma trận số thực
© Lớp Conv1D: tích chập một chiều
¢ Lớp MaxPooling1D: tóm tắt
¢ Lớp BiLSTM: trích xuất đặt trưng tính liên tục
¢ Lớp Attention: làm rõ các đặc trưng cần quan tâm
3.2.2 Nhánh cau trúc từ ngữ tên mien
Dựa vào hành vi của kẻ tan công thường thay đổi tên miễn sao cho giống với cáctên miễn nổi tiếng hay có sự hiện điện của tên miền mục tiêu trong URL Vì vậy
29