Trong dé tài này, tác giả nghiên cứu và đề xuất một mô hình phát sinh dữ liệu sử dụng mạng sinh đối kháng, giúp tái huấn luyện nâng cao khả năng phát hiện trang web lừa đảo của các trình
Trang 1ĐẠI HỌC QUÓC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRỊNH NGUYÊN BÁC
LUAN VAN THAC SI
NGANH CONG NGHE THONG TIN
MA SO: 8480201
Trang 2ĐẠI HỌC QUÓC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
TRỊNH NGUYÊN BÁC
PHAT HIEN CÁC CUỘC TAN CONG LUA DAO DỰA TREN
URL VA DUA TREN SU TUONG DONG TRUC QUAN BANG
LUẬN VĂN THAC SĨ
NGÀNH CÔNG NGHỆ THÔNG TIN
MÃ SỐ: 8480201
NGƯỜI HƯỚNG DẪN KHOA HỌC
TS PHẠM VĂN HẬU
TP HO CHÍ MINH - 2021
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn tốt nghiệp với Dé tài “Phát hiện các cuộc tắn cônglừa đảo dựa trên URL và dựa trên sự tương đồng trực quan bằng cách sử dụng mạngđối kháng tạo sinh” là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Phạm
Trang 4LỜI CẢM ƠN
Trong suốt quá trình thực hiện Luận văn này, từ lúc hình thành ý tưởng ban đầuđến khi hoàn thành các mục tiêu đề ra, tác giả may mắn nhận được nhiều sự hỗ trợ và
động viên từ phía nhà trường và gia đình.
Trên hết, tác giả xin gửi lời tri ân chân thành nhất đến TS Phạm Văn Hậu vì đãnhận lời hướng dẫn tác giả thực hiện đề tài này, thầy đã dành rất nhiều thời gian vàtâm huyết dé định hướng, động viên và chỉ bao tận tinh dé tác giả có thể thực hiện
Luận văn.
Tác giả cũng xin gửi lời cảm ơn đến Khoa Khoa Học và Kỹ Thuật Thông Tin,
Phòng Dao Tạo SDH, Trung tâm An ninh mang CNSC, Trường Đại học Công nghệ
Thông Tin, đã hỗ trợ và tạo điều kiện, giúp đỡ tác giả trong suốt quá trình học tập và
nghiên cứu tại trường.
Xin gửi lời cảm ơn đến các anh chị, bạn bè và đồng nghiệp tại Trung tâm An
ninh Mạng CNSC và Phòng thí nghiệm An toàn thông tin đã luôn nhiệt tình giúp đỡ,
chia sẻ kiến thức và góp ý cho đề tài của tác giả, đặc biệt gửi lời cảm ơn vì những lờinhận xét, góp ý chân thành của ThS Phan Thé Duy trong suốt thời gian tác giả thực
hiện Luận văn.
Và cuối cùng nhưng không kém phần quan trọng, tác giả cũng xin gửi lời cảm
ơn sâu sắc nhất đến Ba mẹ và gia đình đã là nguồn động lực lớn lao và là chỗ dựatỉnh thần vững chắc nhất giúp tác giả vượt qua mọi khó khăn đề hoàn thành Luận văn
Tác giả
Trịnh Nguyên Bác
Trang 51.6 Nội dung và phương pháp nghiên cứu
1.6.1 Nội dung I
1.6.2 Nội dung 2.
1⁄7 Đóng góp và công bô khoa học của tác giả
17.1 Đóng góp chính
1.7.2 Công bố khoa học liên quan
1.8 Câu trúc của luận văn
CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIEP
Trang 6MỤC LỤC
2.1 Các vấn đề nghiên cứu
2.2 Các nghiên cứu liên quan
2.2.1 Phương pháp phòng chống các cuộc tan công lừa đảo qua mang 82.2.2 Giải pháp, hướng tiếp cận phát hiện trang web lừa đảo dựa trên học
máy 12
2.3 Mạng sinh đôi kháng và hướng tiép cận tiêm năng aoe 2
2.3.1 Cơ sở lý thuyết Mang sinh đối kháng 132.3.2 Ứng dung phát sinh dữ liệu tấn công các bộ phát hiện trang web
„14
2.4 Kếtchươn, 16CHƯƠNG 3 MÔ HÌNH DE XUẤT -173.1 Đề xuất mô hình PWDGAN và thuật toán huấn luyện 173.1.1 Tiền xử lý dữ liệu 18
3.1.2 BO sinh 218
3.1.3 Bộ phân biệt
3.1.4 Trình phát hiện trang web lừa đảo hộp đen dựa trên học máy 20
3.1.5 Tái huấn luyện các trình học máy phát hiện trang web lừa dao 21
22
3.1.6 Thuật toán huấn luyện
3.2 Ứng dụng mô hình dé xuất cho kỹ thuật phát hiện dựa trên URL 253.2.1 Kỹ thuật phát hiện trang web lừa đảo dựa trên phân tích đường dẫn
URL 125
3.2.2 Mô hình phát sinh dit liệu uPWDGAN 28
3.3 Ứng dụng mô hình đề xuất cho kỹ thuật phát hiện dựa trên sự tươngđồng trực quan 128
3.3.1 Kỹ thuật phát hiện trang web lừa dao dựa trên phân tích sự tương
đồng trực quan 20
Trang 7MỤC LỤC
3.3.2 Mô hình phát sinh dữ liệu VPWDGAN
3.4 KếtchươngCHƯƠNG 4 THỰC NGHIỆM VA KET QUA
4.1 Môi trường thực nghiệm 4.2 — Quy trình thực nghiệm 4.3 Thực nghiệm trên mô hình uPWDGAN
TÀI LIEU THAM KHẢO
PHU LUC 1 DANH MỤC CÁC CÔNG BO KHOA HỌCHội nghị quốc tẾ
PHU LUC 2 DANH MỤC CÁC HO SƠ LIÊN QUAN
Trang 8DANH MỤC CÁC TỪ VIET TAT
DANH MỤC CAC TU VIET TAT
Từ Nội dung Diễn giải
GAN _ Generative Adversarial Network Mang sinh đối kháng
URL Uniform Resource Locator Định vị tài nguyên thống nhất
DL Deep Learning Học sâu
ML Machine Learning Hoc may
NN Neural Network Mang no-ron
CNN Convolutional Neural Network Mang no-ron tich chap
SVM _— Support Vector Machine May vectơ hỗ trợ
DT Decision Tree Cây quyết định
RF Random Forest Rừng ngẫu nhiên
LR Logistic Regession Hồi quy logistic
MLP Multi-layer Perceptron Mang nơron truyền thang nhiều lớp
NB Naive Bayes “Thuật toán Naive Bayes
iv
Trang 9DANH MỤC CÁC BANG BIÊU
DANH MUC CAC BANG BIEU
Các loại kỹ thuật làm xáo trộn đường dẫn URL
Các thành phần và phiên bản trong môi trường thực nghiệm
Mô tả tập dữ liệu Alexa và Phishtank
Kết quả do lường các giá tri TPR va Fl trong kịch bản 1
Y nghĩa giá trị đặc trưng được trích xuất từ nghiên cứu [22]
Các đặc trưng URL được trích xuất từ nghiên cứu [22]
Kết quả phát sinh dữ liệu tắn công trình phát hiện lừa đảo RF-PWD 46Kết quả tái huấn luyện trình phát hiện lừa đảo RF-PWD
Mô tả tập dữ liệu VisualPhish
Kết quả thực nghiệm với độ do TPR và độ đo F1
Trang 10DANH MỤC CÁC HÌNH VE DO THỊ
DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ
Hình 2.1 Minh hoạt kiến trúc của Mạng sinh đối kháng (GAN)
Hình 3.1 Mô hình phát sinh dữ liệu và nâng cao khả năng phát
mạng dựa trên mạng sinh đối kháng
Hình 3.2 Mô phỏng cau tạo của bộ sinh trong mô hình PWDGAN
Hình 3.3 Mô phỏng cấu tạo của bộ phân biệt trong mô hình PWDGAN
Hình 3.4 Quy trình huấn luyện đầy đủ của mô hình đề xuất PWDGAN
Hình 3.5 Luồng thực thi chính huấn luyện mô hình đề xuất
Hình 3.6 Sự phân tách chuỗi URL thành các chuỗi con [24]
Hình 3.7 Tiền xử lý đầu vào của mô hình để xuất gốc (a) và
mô hình uPWDGAN ()
Hình 3.8 Ví dụ về trang web Paypal tin cậy (a) và trang web Paypal lừa dao tị .30
Hình 3.9 Kiến trúc VGG16 kết hợp cùng PWDGAN thông qua phương pháp học
lừa đảo qua
chuyển giao wee d2
Hinh 3.10 Minh hoa kiên trúc của VGGI6
=-Hình 3.11 Trực quan hóa bản đồ đặc trưng của 5 k trong VGG16 sử dụng thang mau viridis giữa trang web chính thức và trang web lừa đảo của Facebook .35
Hình 3.12 Quá trình trích xuất đặc trưng và huấn luyện các thuật toán học máy dựa
.35
Hình 4.1 Minh họa về sự thay đổi giá trị TPR (a) và giá trị các mât mát của bộ sinh
và bộ phân biệt (b) trong quá trình thực hiện phát sinh dữ liệu tấn công thuật toántrên phương pháp học chuyên giao
SVM b wel
Hình 4.2 Phân phôi dữ liệu ‘ban lâu (original) và dữ liệu được phat sinh
(adversarial) thông qua phương pháp t-SNE 43
Hình 4.3 Giá trị TPR và Điểm F1 Score khi tấn công mô hình RF-PWD ATHình 4.4 Giá tri mat mát của bộ sinh và bộ phân bi ATHinh 4.5 Két quả thử nghiệm: (a) là các giá trị Độ chính xác (%) (b) là giá tri ROC-
AUC sonal
Hình 4.6 Minh họa đường cong ROC khi huân luyện thuật toán LR @ va RF (b)
với tập dữ liệu ban dau 52Hình 4.7 Thống kê sô lượng mẫu dữ liệu ban dau (Trước) và sau khi mẫu đã đượcphát sinh thêm từ mẫu lừa đảo gốc thông qua vPWDGAN (Sau) 53
Hình 4.8 (a) Giá trị Độ chính xác (%) va (b) Giá tri ROC-AUC trước và sau khi tái
huấn luyện 53
Hình 4.9 Minh họa đường cong ROC khi tái huân luyện thuật toán LR (a) và RF
(b) với tập dữ liệu cân bằng 154
Trang 11MỞ ĐÀU
MỞ ĐÀU
Trong những năm gan đây, thách thức về tội phạm mạng là mối đe dọa an ninhlớn nhất trên không gian mạng, trong đó lừa đảo là một hình thức tấn công phổ biếnnhất đối với các cá nhân, tô chức, doanh nghiệp trong và ngoài nước Tan công lừađảo là các hoạt động phi pháp nhằm lấy cắp thông tin có tính chất quan trọng như tên
người dùng, mật khẩu, tài khoản ngân hàng và các dữ liệu nhạy cảm khác Có nhiều
phương thức lừa đảo khác nhau nhưng tắn công lừa đảo thông qua trang web là cáchhiệu quả nhất dé tiếp cận người dùng mạng Ví dụ: kẻ tắn công làm giả thư điện tử
chính thức của ngân hàng và đính kèm đường dẫn URL lừa đảo vào một thông báo
khẩn cấp yêu cầu người bị tắn công cung cấp thông tin đăng nhập dé tài khoản không
bị khóa trong một khoảng thời gian ngắn Các cuộc tan công này có thé sẽ trở nênkhó phát hiện hơn trong tương lai vì những kẻ tan công mạng đang có gang thay đổichiến lược và cố gắng tạo ra các mẫu trang web mới khiến chúng trông giống thậtnhất có thé, bằng cách sử dụng trí thông minh nhân tạo dé lần tránh và qua mặt cáctrình phát hiện lừa đảo dựa trên các kỹ thuật phát hiện truyền thống hoặc thậm chí là
trình phát hiện lừa đảo dựa trên học máy.
Trong dé tài này, tác giả nghiên cứu và đề xuất một mô hình phát sinh dữ liệu
sử dụng mạng sinh đối kháng, giúp tái huấn luyện nâng cao khả năng phát hiện trang
web lừa đảo của các trình phát hiện dựa trên học máy, được đặt tên là là mô hình
PWDGAN PWDGAN tiến hành các cuộc tắn công hộp đen thông qua việc phát sinh
dữ liệu đối kháng dựa trên các bộ dữ liệu Phishtank và Alexa, cố găng trốn tránh vàvượt qua các trình phát hiện lừa đảo dựa trên học máy Kết quả thực nghiệm chứngminh hiệu quả của việc 4p dụng mạng sinh đối kháng trong việc phát sinh các mẫumới có thé đánh lừa thành công các trình phát hiện lừa đảo, đồng thời các mẫu mớiđược phát sinh có thể được áp dụng trong quá trình tái huấn luyện các trình phát hiệnlừa đảo dựa trên học máy, giúp cải thiện khả năng phát hiện các cuộc tấn công bất
thường mới.
TP Hồ Chí Minh, tháng 4 năm 2021
Tác giả
Trang 12GIỚI THIỆU DE TÀI
CHƯƠNG 1 GIỚI THIỆU ĐÈ TÀI
11 Tên dé tai
Tên Tiếng Việt: Phát hiện các cuộc tắn công lừa đảo dựa trên URL và dựatrên sự tương đồng trực quan bằng cách sử dụng mạng đối kháng tạo sinh
Tên Tiếng Anh: URL-based and visual-similarity-based phishing attacks
detection using generative adversarial networks.
1.2 Từ khóa
Mang sinh đối kháng, tan công hộp đen, tăng cường dữ liệu
1.3 Tính khoa học, tính mới của đề tài
Trong thời điểm hiện tại, mạng sinh đối kháng là một chủ đề nghiên cứu mới,tiềm năng và đang nhận được sự quan tâm đặc biệt không chỉ dành cho bài toán xử
lý hình ảnh mà đang được nghiên cứu và phát triển rộng ra các lĩnh vực khác, trong
đó có lĩnh vực an toàn thông tin Đặc biệt, trong giai đoạn phát triên nhanh chóng của khoa học công nghệ, các thuật toán học máy và học sâu được ứng dụng rộng rãi, kéo
theo đó là các rủi ro về mat an toàn thông tin gia tăng đáng kể và đặc biệt là các cuộctắn công lừa dao vẫn duy trì mức độ nguy hiểm cao trên không gian mạng Các nghiêncứu về nâng cao khả năng phát hiện tan công lừa đảo vi thé có ý nghĩa rất quan trong
Tinh khoa học của luận văn được thé hiện thông qua việc nghiên cứu về kiếntrúc và hoạt động của mô hình mạng sinh đối kháng; các kỹ thuật phân tích và cácgiải pháp học máy được sử dụng đề phát hiện trang web lừa đảo Thông qua đó, đềtài luận văn dé xuất mô hình phát sinh dữ liệu đối kháng, tăng cường dữ liệu huấnluyện, giải quyết van đề mat cân bằng lớp và hỗ trợ tái huấn luyện giúp nâng cao hiệusuất của các trình phát hiện dựa trên học máy
Tinh mới của luận văn thê hiện ở việc xây dựng một mô hình phát sinh dữ liệu
dựa trên mạng sinh đối kháng có tính linh hoạt, nghĩa là có khả năng ứng dụng trêncác loại kỹ thuật phân tích phát hiện trang web lừa đảo khác nhau, cụ thể trong đề tàinày là kỹ thuật phân tích dựa trên URL và dựa trên sự tương đồng trực quan Mộthướng tiếp cận mới khác của đề tài là áp dụng phương pháp học chuyền giao, sử dụng
1
Trang 13GIỚI THIỆU DE TÀI
mô hình phân loại ảnh học sâu VGG16 được huấn luyện trước dé trích xuất đặc trưng
từ ảnh chụp giao diện trang web, làm đầu vào cho các thuật toán học máy trong bài
toán phát hiện trang web lừa đảo.
1.4 Mục tiêu của đề tài
Nghiên cứu áp dụng mạng sinh đối kháng trong nghiên cứu nâng cao hiệu suất
phát hiện trang web lừa đảo, với các hướng:
e _ Đánh giá hiệu suất và tính khả thi khi áp dụng mạng sinh đối kháng trong việcphát sinh các mẫu dữ liệu từ các đặc trưng được trích xuất thông qua đườngdẫn URL của trang web, cố gắng lan tránh và qua mặt các trình phát hiện lừa
đảo dựa trên học máy.
¢ anh giá hiệu suất và tính khả thi khi áp dung mạng sinh đối kháng trong việcphát sinh các mẫu dữ liệu từ các đặc trưng tương đồng trực quan của trang web(cụ thê trong đề tài này là giao điện của các trang web), có gắng lần tránh và
qua mặt các trình phát hiện lừa đảo dựa trên học máy.
¢ Đánh giá khả năng áp dụng các mẫu phát sinh từ mô hình đề xuất dựa trênmạng sinh đối kháng đề giải quyết van đề mất cân bằng lớp huấn luyện, đồngthời sử dụng dé tái huấn luyện nâng cao hiệu suất của các trình phát hiện trang
web lừa dao dựa trên học máy.
1.5 Đối tượng áp dụng, phạm vi nghiên cứu của dé tài
1.5.1 Đối tượng áp dụng
- Tấn công lừa đảo thông qua trang web
- Mô hình mang sinh đối kháng GAN
Trang 14Nội dung: Nghiên cứu kỹ thuật phát hiện trang web lừa đảo dựa trên URL và
dựa trên sự tương đồng trực quan
Nội dung: Nghiên cứu xây dựng mô hình nâng cao khả năng phát hiện trang
web lừa đảo dựa trên Mạng sinh đối kháng.
17
1.7.1
Phuong phap:
Nghiên cứu, khảo sát các công trình liên quan đến mô hình phát sinh dữ liệu,
cụ thể là Mạng sinh đối kháng trong việc tăng cường dữ liệu huấn luyện vàphát sinh dữ liệu tan công các trình phát hiện trang web lừa đảo Xây dựngkịch bản tấn công lần tránh, qua mặt các trình phát hiện trang web lừa đảo dựa
© VỀ mặt khoa học, nghiên cứu đề xuất và triển khai thực nghiệm mô hìnhPWDGAN - mô hình phát sinh dữ liệu dựa trên mạng sinh đối kháng, sử
3
Trang 15GIỚI THIỆU DE TÀI
dụng các đặc trưng được trích xuất bằng kỹ thuật phát hiện trang web lừa
đảo dựa trên URL (uPWDGAN) và dựa trên sự tương đồng trực quan(vPWDGAN) PWDGAN có khả năng phát sinh các mẫu đối kháng mới
qua mặt thành công các trình phát hiện trang web lừa đảo dựa trên học
máy, góp phan giải quyết vấn đề mat cân bằng lớp trong việc huấn luyện
và nâng cao hiệu suất của các trình phát hiện học máy này
© Vẻ mặt thực tiễn, tập đữ liệu được trích xuất và chuẩn hóa dựa trên kỹthuật phân tích URL và dựa trên sự tương đồng trực quan từ tập Phishtank
va Alexa có thé được áp dụng cho các nghiên cứu liên quan đến miễn bài
toán phát hiện trang web lừa đảo trong tương lai; mô hình PWDGAN sau
huấn luyện có khả năng phát sinh dữ liệu đối kháng, tăng cường kíchthước mẫu, hỗ trợ tái huấn luyện các trình phát hiện trang web lừa đảo
dựa trên học máy.
1.7.2 Công bố khoa học liên quan
Tác giả đã công bó bài báo “PWDGAN: Generating Adversarial Malicious
URL Examples for Deceiving Black-Box Phishing Website Detector using GANS”
tại Hội nghị quốc tế lần thứ sáu Nghiên cứu về các tính toán thông minh trong kỹ
thuật năm 2021 (Sixth International Conference on Research in Intelligent and
Computing in Engineering 2021) (Bài báo được đính kèm trong phan Phụ lục của
Trang 16GIỚI THIỆU DE TÀI
18 Cấu trúc của luận văn
Luận văn sẽ được tác giả trình bày trong 5 chương.
CHUONG 1 GIỚI THIỆU ĐÈ TÀI
Trinh bày tổng quan về dé tài, mục tiêu, đối tượng, phạm vi nghiên cứu của détài, đồng thời cũng liệt kê các nội dung và phương pháp sẽ được nghiên cứu, tínhkhoa học, tính mới và cấu trúc của đề tài
CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VA HƯỚNG TIẾPCẬN CỦA ĐÈ TÀI
Giới thiệu các kiến thức về lừa đảo qua mạng, phương pháp và kỹ thuật để pháthiện và phòng chống các cuộc tấn công lừa đảo thông qua trang web Khảo sát, tìmhiểu và trình bày các hướng nghiên cứu, giải pháp, thuật toán học máy đã được ápdụng trong vấn đề phát hiện trang web lừa đảo Trong chương này, mạng sinh đốikháng cũng được giới thiệu như một hướng tiếp cần tiềm năng dé giải quyết vấn dé
mà đề tài đặt ra
CHƯƠNG 3 MÔ HÌNH ĐÈ XUẤT
Trình bày hướng tiếp cận sử dụng mạng sinh đối kháng trong việc xây dựng môhình phát sinh dữ liệu đối kháng, tắn công các trình phát hiện trang web lừa đảo thôngqua phương pháp tan công hộp đen Ứng dụng mô hình đề xuất trong việc tăng cường
dữ liệu, tái huấn luyện nâng cao hiệu suất phát hiện các trang web lừa đảo
CHUONG 4 THỰC NGHIEM VÀ KET QUA
Trinh bày chi tiết về các bộ dữ liệu, môi trường được sử dung đề thực nghiệm;chỉ tiết các kịch bản được hiện thực để kiểm chứng hiệu quả mô hình đề xuất Các dữliệu sẽ được thu thập, tổng hợp dé phân tích kết quả
CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHÁT TRIEN
Chương này sẽ tông kết lại kết quả giải quyết những van dé trong phạm vi đềtài này và cung cấp những hướng phát triển tiếp theo cho đề tài
Trang 17TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI
CHƯƠNG2 TONG QUAN VẤN ĐÈ NGHIÊN CỨU
VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI2.1 Các vấn đề nghiên cứu
Lita đảo qua mạng (phishing) là một cuộc tan công nhằm đánh lừa người dùngmang va thu thập các thông tin cá nhân như tên người dùng, mật khâu, thẻ tín dụng,tài khoản ngân hàng và các dữ liệu nhạy cảm khác Cuộc tắn công lừa đảo qua mạngđược ghi nhận lần đầu tiên vào năm 1996, từ đó đến nay lừa đảo qua mạng trở thànhmột trong những mối đe doa nguy hiểm nhất trên không gian mạng, gây thiệt hại vềtài sản và uy tín không chỉ người dùng mạng mà cả các doanh nghiệp và tổ chức Cáccuộc tấn công lừa đảo qua mạng thường được thực hiện thông qua hình thức một
trang web hoặc một thư điện tử giả mạo, trong đó, việc sử dụng các trang web lừa
đảo là hình thức phô biến [1] Theo định nghĩa của Viện Tiêu chuẩn và Công nghệ NIST (NIST SP 800-69 va NIST SP 800-44 V2), các trang web được tạo ra giống vớimột trang web tin cậy được sử dụng cho mục đích xấu được xem là một trang weblừa đảo/trang web độc hai (phishing websites) Trong kiểu tấn công này, những kẻlừa đảo tạo ra các trang web giả mạo trang web gốc của một doanh nghiệp hoặc tổchức và gửi đường dẫn URL của trang web giả mạo này đến các nạn nhân thông quathư điện tử, tin nhắn điện thoại hay thông qua mạng xã hội, nhằm mục đích lừa nạnnhân thực hiện theo những yêu cầu mà kẻ lừa đảo đã giăng bẫy từ trước Trong nhữngnăm gan đây, Internet đã chứng kiến sự gia tăng đáng ké của các cuộc tan công lừa
-đảo, đặc biệt là trong giai đoạn đại dịch COVID-19 bùng phát [2] Những giải pháp
nhận dạng, phòng chống loại hình tấn công này cũng vì thế được quan tâm nghiên
cứu.
Để đối phó với mối đe dọa từ lừa đảo qua mạng, các thuật toán học máy và họcsâu đã chứng minh được hiệu quả trong vấn đề nay [3] [4] [5] Các thuật toán phát
hiện lừa đảo dựa trên học máy thường được thêm vào trình duyệt dưới dạng tiện ích
mở rộng hoặc được tích hợp vào phần mềm chống vi-rút Tuy nhiên, mặt hạn chế củahọc máy chính là yêu cầu về tập dữ liệu huấn luyện cần phải đủ lớn cho miễn bài toáncần giải quyết Thế nhưng, các tập dữ liệu chuyên về trang web lừa đảo thì còn hạnchế và các biến thể trang web lừa đảo thì ngày một gia tăng và tỉnh vi hơn lan
Trang 18TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
Goodfellow và cộng sự [6] đã đề xuất Mạng sinh đối kháng (GAN) - một nền tảng
dựa trên học sâu để tự động đào tạo một mô hình phát sinh dữ liệu Trong để tài này,tác giả đề xuất một mô hình dựa trên GAN dé phát sinh dữ liệu, tiến hành tấn côngchống lại các bộ phân loại dựa trên học máy dựa trên phương pháp tan công hộp den
tương tự như các nghiên cứu: [5] [7] [8].
Trong phạm vi nghiên cứu của dé tài này, tác giả thực hiện nghiên cứu và đềxuất một mô hình giúp nâng cao khả năng phát hiện trang web lừa đảo, đặc biệt làkhả năng chủ động phát hiện một cuộc tấn công chưa được biết đến trước đó, cụ thể:
- _ Nghiên cứu các phương pháp, kỹ thuật phát hiện trang web lừa đảo và dé tài
tập trung nghiên cứu chính vào phân tích dựa trên URL và phân tích dựa trên
sự tương đồng trực quan
-_ Nghiên cứu phát triển mô hình dựa trên mạng sinh đối kháng trong việc phátsinh dữ liệu đối kháng mới và ứng dụng đê tái huấn luyện các bộ phát hiện dựa
trên học máy.
2.2 _ Các nghiên cứu liên quan
Lừa đảo qua mạng chủ yếu khai thác vào điểm yếu tâm lý của con người (ngườidùng mạng) và chìa khóa của một cuộc tấn công lừa đảo thành công là chiếm đượcniềm tin của người dùng Vì vậy, một trong những phương pháp thông thường và hữudụng nhất mà những kẻ lừa đảo sử dụng đề đánh lừa người dùng mạng đó là có gắngbắt chước, giả dạng một cơ quan, tổ chức uy tín Cụ thể trong một cuộc tấn công lừađảo thông qua trang web đó là những thành phần được hiển thị rõ ràng, trực quan vớingười dùng đầu cuối, thông thường là những đường dẫn URL và nội dung, cách trìnhbay trang web được hiển thị trên trình duyệt web Hiện nay, những vụ án lừa đảo quamạng vẫn xảy ra không chỉ do một bộ phận người dùng mạng còn nhẹ dạ, thiếu cảnhgiác mà vì thủ đoạn của các đối tượng lừa đảo ngày càng tỉnh vi với nhiều phươngthức và kỹ thuật mới Do sự phát triển mạnh mẽ của các cuộc tắn công lừa đảo đã làmthúc đẩy mạnh mẽ sự phát triển của các nghiên cứu về phát hiện và phòng chốngtrước các cuộc tan công này, đặc biệt là thành quả từ việc ứng dụng các phương pháphọc máy, học sâu làm tăng tốc độ phát hiện, độ chính xác và khả năng điều tra chỉ tiếtnguồn gốc của một cuộc tan công nhắm vào người dùng mạng và các tổ chức [1]
Trang 19TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
Trong những phan tiếp theo của chương này, tác giả sẽ trình bày những nghiêncứu và hướng tiếp cận liên quan đến phương pháp phát hiện và phòng chồng các cuộctan công lừa đảo qua mang và những giải pháp giúp phát hiện trang web lừa đảo dựatrên học máy đã được nghiên cứu và công bố trước đó
2.2.1 Phương pháp phòng chống các cuộc tan công lừa đảo qua mang
Đối với bài toán phòng chống các cuộc tấn công lừa đảo qua mạng, đã có rấtnhiều các công trình nghiên cứu trong lĩnh vực được đề xuất và phát triển Các giảipháp được đề xuất [9] bao gồm:
¢ Đào tạo người dùng về các dấu hiệu liên quan đến lừa đảo;
e Phat hiện và ngăn chặn lừa đảo;
© _ Sử dụng phần mềm chống lừa đảo;
e _ Tiện ích và công cụ mở rộng trên trình duyệt;
© _ Các thông tin trích xuất từ máy chủ phân giải tên miền DNS và thông tin
từ giao thức truy vấn phản hồi, kiểm tra tên miền whois của các đường
dẫn URL;
e Các biện pháp xác thực người dùng mới;
e Loc thư điện tử và các trang web lừa đảo;
© Chi động phát hiện, giám sát và ngăn chặn các trang web lừa đảo thời
gian thực; thiết lập xác thực hai yếu tố;
e V6 hiệu hóa các tập lệnh thực thi mã độc hại;
e Phat triên trình duyệt an toàn
Các giải pháp chống lừa đảo chủ yếu có thể được phân loại thành ba nhóm chính:
giải pháp ngăn chặn lừa đảo, giải pháp đào tạo người dùng và giải pháp phát hiện lừa
dao Mỗi giải pháp đều có ưu và nhược điểm riêng, cụ thể như sau:
© Giải pháp ngăn chặn lừa đáo là ngăn chặn các cuộc tấn công lừa đảo
bằng cách xây dựng thêm các lớp bảo mật vào lược đồ xác thực và nền
tảng tương tác người dùng (ví dụ xác thực hai bước hoặc xác thực hai
yếu tố) Điều này giúp giảm thiêu rủi ro người dùng bị lừa gạt bởi kẻ tancông Kỹ thuật này có thé ngăn chặn đáng kể các cuộc tấn công lửa đảo,tuy nhiên nó lại khá phức tạp khi yêu cầu các cài đặt về mặt kỹ thuật, gây
Trang 20TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
phức tạp ở phía giao diện người dùng, tốn kém chỉ phí triển khai, biếngiải pháp ngăn chặn lừa đảo trở nên khó tiếp cận đối với người dùng cuối
© Giải pháp đào tạo người dùng cuối được triển khai nhằm hướng dẫnngười dùng nhận biết các cuộc tấn lừa đảo đang nhắm vào họ thông quanhư thư điện tử và các phương tiện truyền thông trung gian khác Dù đây
là một giải pháp có ý nghĩa tốt nhưng nhược điểm là không thê cung cấprộng rãi kiến thức tới số lượng lớn người dùng mạng trên thực tế, ngườidùng mạng có thể quên các chỉ dẫn đảm bảo an toàn thông tin sau mộtthời gian dài không được tập huấn lại hoặc người dùng thậm chí bỏ qua
các cảnh báo bảo mật khi thực hiện những tác vụ khẩn cấp dù biết mối
nguy hại có thể xảy ra
© Giải pháp phát hiện lừa đảo có thé được triển khai ở phía máy chủ lưutrữ hoặc được cài đặt tại phía người dùng cuối như là một phần mềmchống lừa đảo hoặc một tiện tích mở rộng trên trình duyệt web Giải phápnày được xem là tốt hơn giải pháp ngăn chặn lừa đảo và giải pháp đàotạo người dùng cuối Bởi vì, giải pháp này đòi hỏi rất ít chỉ phí tập huấnngười dùng và không yêu cầu bat kỳ thay đồi nào đối với các sơ đồ xác
thực hiện có được sử dụng bởi một trang web Khi một trang web bị phát
hiện là lừa đảo hoặc có thể là trang web lừa đảo, quyền truy cập vào trangweb sẽ bị chặn và người dùng sẽ nhận được thông báo rằng trang web đó
có thé tìm ẩn rủi ro mắt an toàn thông tin khi truy cập
Trong đề tài này tác giả lựa chọn giải pháp phát hiện lừa đảo đề tiến anh nghiên cứu và thực nghiệm, vì giải pháp này có khả năng ứng dụng vào thực tiên rộng rãi
hơn, tiết kiệm chỉ phí hơn giải pháp ngăn chặn lừa đảo và giải pháp đào tạo ngườidùng cuối Trên thực tế, mỗi kiểu tan công lừa đảo thì sử dung các phương thức, đặcđiểm kỹ thuật khác nhau Để ứng phó với mỗi dạng tắn công như vậy, các kỹ thuật
và phương pháp phát hiện được phát triển giúp nhanh chóng nhận diện và giảm thiểutác động mà cuộc tấn công lừa đảo gây ra Tuy nhiên, các phương pháp tiếp cận pháthiện lừa đảo có thể được phân thành năm loại như theo nghiên cứu của Aung và cộng
sự [10], bao gồm:
Trang 21TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
© Phương pháp phát hiện dựa trên danh sách trắng (whitelist-based):
“Trong công trình nghiên cứu của Kang và cộng sự [11] thực hié kiểmtra sự giống nhau của URL để phân biệt các trang web lừa đảo với cáctrang web bình thường thông qua cơ chế so sánh với truy vấn hệ thốngphân giải tên miền (DNS) Phương pháp phát hiện dựa trên danh sáchtrắng có vẻ hiệu quả khi phát hiện trang web lừa đảo, tuy nhiên điểm hạnchế là không thé thu thập và tổng hợp được hết hết tat cả các trang webhợp pháp trên toàn thế giới Từ đó sẽ làm tỉ lệ dương tính giả (falsepositive) tăng cao, do thiếu hụt thông tin các trang web được liệt kê trong.danh sách trắng
© Phương pháp phát hiện dựa trên danh sách den (blacklist-based): Các
công trình nghiên cứu của Sharifi và cộng sự [12] và PhishNet [13] đã đềxuất các kỹ thuật giúp phát hiện các trang web lừa đảo dựa trên danh sáchđen Mặc dù tỉ lệ phát hiện cao nhưng phương pháp này vẫn còn xuấthiện một vài điểm yếu như sử dụng các dịch vụ của bên thứ ba nhưGoogle Safe Browsing (cung cấp danh sách URL cho các tài nguyên web
có chứa phần mềm độc hại hoặc nội dung lừa đảo do Google cung cấp)nên thời gian phản hồi lâu, dẫn đến hiệu suất bị giảm đáng kể; tỉ lệ dươngtính giả vẫn tồn tại đáng ké khi thực nghiệm trên tập dữ liệu lớn và những
trang web lừa đảo mới phát sinh sẽ không được cập nhật vào danh sách đen.
© Phương pháp phát hiện dựa trên phân tích nội dung trang web
(content-based): Mô hình dé xuất của Zhang và cộng sự [14] —
CANTINA dựa trên kỹ thuật phân tích nội dung trang web, sử dụng thuật
toán trích xuất thông tin TF-IDF (Term Frequency - Inverse DocumentFrequency), giúp thống kê số học nhằm phản ánh tầm quan trọng của một
từ đối với một văn bản trong một tập hợp hay một ngữ liệu văn bản Cáchtiếp cận này đạt được kết quả tốt hơn so với các công cụ chống lừa đảophổ biến tại thời điểm đó, đạt tỉ lệ dương tính thật là 97% và tỉ lệ dươngtính giả là 1% Sau đó, Xiang và cộng sự đã cải tiến và đề xuất mô hìnhCANTINA+ [15] giúp giảm tỉ lệ đương tính giả xuống còn 0.4% và tỉ lệ
Trang 22TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI
dương tính thật là 92% Tuy nhiên, điểm yếu của cả hai phương pháp này
là sử dụng dịch vụ của bên thứ ba, do đó khi máy chủ phân giải
DNS bị
rủi ro tiềm an khác
n mình
ém có thé dẫn đến sự sai lệch trong phát hiện lừa đảo và những
© Phương pháp phát hiện dựa trên phân tích các đặc điểm tương đồngtrực quan (visual similarity-based): Chen và cộng sự [16] đã đề xuất mộtgiải pháp chống lừa đảo theo phương pháp dựa trên kinh nghiệm(heuristic) để mô hình hóa sự tương đồng trực quan, sử dụng một thuậttoán hồi quy logistic dé chuẩn hóa các đặc trưng nội dung trang Mặc dùphương pháp được đề xuất đạt được tỷ lệ dương tính thật là 100% nhưng
vẫn có tỷ lệ dương tính giả là 0,74% Tuy nhiên, các phương pháp phát
hiện dựa trên sự tương đồng cũ không cung cấp đủ khả năng bảo vệ trướccác cuộc tấn công lừa đảo mới, chưa được công bố (zero-day attack), vivay Sahar va cong su đề xuất mô hình VisualPhishNet [17] dựa trên mạngCNN có kết quả vượt trội hơn so với các phương pháp phát hiện dựa trêntương đồng trực quan trước đó Điểm hạn ché của phương pháp dựa trêntương đồng trực quan này là cần phải thu thập nội dung hoặc một phầnnội dung của trang web, các hình ảnh, thành phần có liên quan đề kiểmtra sự tương đồng, điều này có thê dẫn đến việc tiêu tốn nhiều tài nguyên
xử lý hơn các phương pháp khác.
© Phương pháp phát hiện dựa trên phân tích đường dẫn URL
(URL-based): Có nhiều công trình nghiên cứu về phương pháp phát hiện dựatrên phân tích đường dẫn URL như công trình của Banik và cộng sự [18]trong đó sử dụng các đặc tính được trích xuất từ URL và áp dụng làmđầu vào huấn luyện bộ phân loại dựa trên thuật toán máy véc tơ hỗ trợ
(SVM) hay công trình của Aaron và cộng sự [19] sử dụng các đặc trưng
ngữ pháp trong URL để phát hiên trang web lừa đảo Nhìn chung, phương
pháp phát hiện dựa trên phân tích đường dẫn URL được chứng minh là
phương pháp nhanh hơn so với phương pháp phát hiện dựa trên nội dung
và phương pháp phát hiện dựa trên tương đồng trực quan Đồng thời,phương pháp này hoạt động hiệu quả với những cuộc tan công lừa đảo
11
Trang 23TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
chưa được công bố, những cuộc tan công này đang trở thành một mốiquan tâm lớn trong việc chống lừa đảo hiện nay
Trong số các phương pháp đã được liệt kê, những nghiên cứu với hướng tiếpcận dựa trên phương pháp phát hiện dựa trên URL và dựa trên sự tương đồng trực
quan đã và đang được nghiên cứu rộng rãi, chứng minh được tính hiệu quả trong việc
phát hiện các trang web độc hại Bên cạnh đó, do hạn chế về mặt thời gian khi thực
hiện Luận văn, tác giả luận văn sẽ sử dụng phương pháp phát hiện dựa trên phân tích
đường dẫn URL và phương pháp phát hiện dựa trên các đặc điểm tương đồng trựcquan dé nghiên cứu và thực nghiệm cùng mô hình phát sinh dữ liệu dé xuất trong đề
tài này.
2.2.2 Giải pháp, hướng tiếp cận phát hiện trang web lừa đảo dựa trên học máy
Học máy (machine learning) là một nhánh của trí tuệ nhân tạo, mục đích của
học máy là sử dụng dữ liệu sẵn có đề học và có khả năng tự ra quyết định khi đối mặtvới các trường hợp mới Học máy có mối liên hệ chặt chẽ với các kỹ thuật toán họctrong quá trình trích xuất thông tin, khám phá mẫu và rút ra kết luận từ tập dữ liệu.Học máy đã được áp dụng khá phô biến trong việc phát hiện các trang web lừa đảo
Nghiên cứu của Ankit và cộng sự [20] áp dụng các thuật toán máy học LR, RE, SVM,
NB, NN trong việc phát hiện trang web độc hại với tỉ lệ dương tính thật lên tới 99,39%
và tỉ lệ chính xác tông cộng là 99,09% Nghiên cứu của Mouad và Benaceur [21] sử
dụng thuật toán SVM với tỉ lệ phát hiện công bố là 95,80% Hay nghiên cứu của
Abdulhamit và cộng sự [22] phát hiện trang web lừa dao thông qua thuật toán RF với
tỉ lệ chính xác cao nhất lên đến 97,36%
Trong đề tài này, tác giả không đi sâu vào lý thuyết của mỗi thuật toán học máynhưng sẽ sử dụng một số các thuật toán học máy này đề nghiên cứu và thực nghiệmcùng với mạng sinh đối kháng Trên thực tế, nhiều giải pháp học máy đã được ứngdụng vào các thành phần khác nhau như được tích hợp vào các phần mềm phòngchống mã độc, các tiện ích trên trình duyệt web hoặc được triển khai trên hệ thốngđám mây Một sô thuật toán sử dụng là công khai và một số khác thì không Do đó,
ở góc độ của kẻ tan công/kẻ lừa đảo, các cuộc tắn công vào các thuật toán học máyđôi khi được coi là một cuộc tan công hộp den do kẻ tắn công không biết rõ kiến trúc
Trang 24TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
mô hình thực tế, các tham số của thuật toán mà hệ thông hoặc ứng dụng đó đang triểnkhai Trong phạm vi dé tài này, tác giả giả định rằng những kẻ tan công không biết
về cau trúc mô hình học máy được sử dụng nhưng biết về các đặc trưng/thuộc tínhđầu vào mà thuật toán đó sử dụng
2.3 Mạng sinh đối kháng và hướng tiếp cận tiềm năng
2.3.1 Cơ sở lý thuyết Mạng sinh đối kháng
Vào năm 2014, Ian Goodfellow và cộng sự đã đề xuất Mạng sinh đối kháng(Generative Adversarial Network) [6], hay còn được viết tắt là GAN, là một hướngtiếp cận đề thiết lập một mô hình phát sinh dữ liệu thông qua việc kết hợp giữa phươngpháp học sâu và lý thuyết trò chơi trong quá trình huấn luyện mô hình Quá trình huấnluyện được thực hiện bằng cách đóng khung vấn đề cần giải quyết như một vấn đềhọc tập có giám sát bao gồm hai mô hình con, được minh họa theo Hình 2.1:
¢ Mô hình sinh (generator model): đầu vào là một chuỗi véc tơ biến ngẫu nhiên
có độ dài cố định và có gắng phát sinh dữ liệu mới, có tính hợp lý từ miền bài
toán.
© Mô hình phân biệt (discriminator model): đầu vào là các mẫu dữ liệu lấy từmiễn bài toán với mẫu dữ liệu thật lấy từ tập huấn luyện và mẫu dữ liệu giảlấy từ kết quả đầu ra của mô hình sinh Mô hình phân biệt cố gắng phân loạimột lớp nhị phân các mẫu thật (từ miền bài toán) và mẫu giả (được tạo ra từ
mô hình sinh).
Hai mô hình được huấn luyện cùng nhau nhưng với hai vai trò riêng biệt, trong
đó nhiệm vụ của mô hình sinh là cố gắng đánh lừa mô hình phân biệt và mô hìnhphân biệt thì cố gắng trở nên tốt hơn để không bị đánh lừa bởi mô hình sinh Quátrình huấn luyện kết thúc khi mô hình phân biệt bị đánh lừa bởi các mẫu được tạo ra
từ mô hình sinh, nghĩa là mô hình phân biệt không thé phân loại chính xác giữa cácmẫu thật và mẫu giả Thông qua các nghiên cứu gần đây [5] [7] [8], GAN được chứngminh là một phương pháp day tiềm năng và hiệu quả đối với mô hình phát sinh dữliệu đối kháng trong lĩnh vực An toàn thông tin
13
Trang 25TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
Dữ liệu thật Mẫu dữ liệu
3ổiq ueud quịu, OW eno 3U IE
MO HINH PHAN BIET|
MO HINH SINH Mẫu dữ liệu ( UỊ OW eno UN IPA
Biên ngẫu nhiên
Hình 2.1 Minh hoạt kiến trúc của Mạng sinh đối kháng (GAN)
GAN được kỳ vọng là một mô hình giúp giải quyết vấn đề mắt cân bằng lớptrong huấn luyện các thuật toán học máy, thông qua việc phát sinh các mẫu mới mộtcách đa dang từ tập dữ liệu góc, từ đó biến tập dữ liệu mat cân bằng thành cân bằng,làm tăng hiệu quả trong việc huấn luyện Vì GAN luôn có gắng phát sinh các mẫuđầu ra có tính hợp lý, một trường hợp có thé gặp phải đó là bộ sinh sẽ học cách tạo ramẫu hợp lý nhất, nghĩa là chỉ tạo ra cùng một mẫu đầu ra lặp đi lặp lại, dẫn đến mẫuphát sinh mat tính đa đạng Vấn đề này được gọi là chế độ sup đồ (mode collapse).Trong quá trình xây dựng và trién khai mô hình đề xuất, tác giả đã áp dụng một số kỹthuật để giải quyết vấn đề này và sẽ được trình bày chỉ tiết trong chương sau Ngoài
ra, kết quả của quá trình thực nghiệm cũng sẽ được phân tích để chứng minh mẫuđược tạo từ mô hình sẽ không rơi vào chế độ sụp đô
2.3.2 Ứng dung phat sinh dữ liệu tan công các bộ phát hiện trang web lừa dao
Van dé gặp phải trong nhiệm vụ phân loại nhị phân chính là sự mat cân bằng vềlớp, nếu một lớp có số lượng vượt trội lớp còn lại thi các trình phân loại có xu hướngchịu ảnh hưởng bởi lớp đa số Dac biệt là cho miền bài toán phân biệt các trang weblừa đảo Trong thực tế, các đường dẫn URL tin cậy thì nhiều hơn số đường dẫn URLđộc hại được thu thập và huấn luyện, do đó các trình phân loại sẽ khó khăn hơn trongviệc phân loại các đường dẫn URL độc hại Một trong những cải tiến chính khi áp
dụng phương pháp học sâu là kỹ thuật tăng cường dữ liệu (data augmentation) - một
kỹ thuật dé tăng tính đa dang của tập huấn luyện cách áp dụng các phép biến đổi ngẫunhiên Các kỹ thuật này thường được áp dụng đối với dữ liệu hình ảnh bao gồm cắt,
Trang 26TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
lật, phóng to, thu nhỏ và các biến đổi đơn giản khác các hình ảnh hiện có trong tập
dữ liệu đào tạo Tăng cường dữ liệu giúp các mô hình hoạt động tốt hơn, vừa tăng kỹ
năng của mô hình vừa đảm bảo khả năng chính quy hóa tránh hiện tượng mô hình dự
đoán quá khớp với tập huấn luyện, đồng thời giảm thiểu lỗi khi tạo dữ liệu Kỹ thuậtnày hoạt động bằng cách tao ra các mau dữ liệu mới nhưng vẫn đảm bảo được tínhhợp lý từ miền của vấn dé đầu vào mà mô hình được đào tạo Trên thực tế, tăng cường
di liệu là phiên bản đơn giản hóa của một mô hình sinh (generative model) Trong
các miên phức tạp hoặc các miền có lượng dir liệu hạn chế, mô hình sinh cung cấpkhả năng phát sinh dữ liệu huấn luyện nhiều hơn cho mô hình
Ngoài ra, một vấn đề đáng được lưu tâm trong lĩnh vực an toàn thông tin đó làphát hiện các cuộc tắn công mới, chưa được biết đến (zero-day / zero-hour attacks).Cùng với sự phát triển nhanh chóng của khoa học công nghé, các cuộc tan công lừađảo trên không gian mạng ngày càng tinh vi và phức tạp, không chỉ về cách thức tiếp
cận, khai thác mục tiêu mà còn về khả năng lân trốn, qua mặt các trình phát hiện trang
web lừa đảo Do đó, các kỹ thuật phát hiện dựa trên dấu hiệu (signature-based) dầntrở nên yếu thé trước các mối đe dọa mới này Các mô hình sinh đã mở ra một hướngtiếp cận tiềm năng giúp tăng cường khả năng phát hiện các cuộc tắn công mới, chưađược biết đến trước đó thông qua việc chủ động phát sinh các mẫu tan công tiềm ẩn,
sử dụng để huấn luyện các thuật toán học máy Đây được xem như là một phươngpháp chủ động phòng thủ trước các mối đe dọa tiềm an
Có nhiều nghiên cứu, thảo luận tại sao GAN lại là một hướng tiếp cận tiềm năng,quan trọng và cần được nghiên cứu thêm Trong bài phát biểu tại hội nghị NIPS 2016[23] tác giả lan Goodfellow đã nhấn mạnh khả năng thành công của GAN để thiếtlập mô hình với dữ liệu có số chiều cao, xử lý dữ liệu bị thiếu và khả năng cung cấpđầu ra có nhiều mẫu hợp lý Đối với lĩnh vực về an toàn thông tin, công trình của tácgiả Lin và cộng sự [8] dé xuất mô hình IDSGAN sử dụng mạng sinh đối kháng dé
phát sinh dữ liệu dựa trên tập dữ liệu NSL-KDD có khả năng đánh lừa và lân tránh
hệ thống phát hiện xâm nhập mạng; công trình của Hu và Tan [7] đề xuất một môhình dựa trên mạng sinh đối kháng là MalGAN để tạo các mẫu mã độc đối kháng, tancông vượt qua các mô hình phát hiện dựa trên máy học Và liên quan đến phát hiện
15
Trang 27TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI
trang web lừa đảo, gần đây nhất là công trình của Ahmed và George [5] ứng dụngGAN trong việc phát sinh dữ liệu tắn công các mô hình phát hiện URL lừa đảo dựatrên học máy Đầu vào của mô hình bao gồm 30 đặc trưng được trích xuất từ đườngdẫn URL của trang web và giá trị các đặc trưng gồm các giá trị nhị phân Nghiên cứu
của Ankesh và cộng sự [24] áp dụng GAN trong việc tăng cường dữ liệu thông qua
phát sinh các mẫu URL tổng hợp trong không gian dữ liệu (URL dạng chuỗi, khôngphải không gian đặc trưng) Điểm khác biệt của đề tài này là xây dựng mô hình phát
sinh dữ liệu trong không gian đặc trưng có tính linh hoạt cao, các dữ liệu phát sinh
giúp tăng cường dữ liệu và dựa trên các mẫu URL từ tập dữ liệu lừa đảo tạo ra các
mẫu URL độc hại tiềm an, đại diện cho các cuộc tấn không có thê xảy ra trong tươnglai Đồng thời mô hình có thé được tái sử dụng trong các nghiên cứu tiếp theo thôngqua việc điều chỉnh, tùy biến mô hình phù hợp với tập dữ liệu huấn luyện của bài toáncần nghiên cứu một cách đơn giản
24 Kếtchương
Thông qua quá trình khảo sát, tìm hiểu các công trình nghiên cứu liên quan đến
đề tài, tác giả đã thu thập và nắm được một số van đề liên quan và hướng tiếp cận củabài toán phòng chồng các cuộc tan công lừa đảo qua mạng mà cụ thể là phát hiện cáctrang web lừa đảo Bên cạnh đó, tác giả cũng đã phân tích những ưu và nhược điểmcủa các phương pháp phát hiện trang web lừa đảo, cũng như những vấn đề cần giảiquyết của các nghiên cứu hiện nay Đề xuất việc sử dụng mạng sinh đối kháng giúpphát sinh các mẫu dữ liệu tan công tiềm ẩn, qua mặt các trình phát hiện học máy hộpđen, từ đó hỗ trợ tăng cường tập dữ liệu huấn luyện, cải thiện hiệu suất của các trình
phát hiện trang web lừa đảo.
Trong những chương tiếp theo, tác giả sẽ trình bày cụ thê về kiến trúc và thuậttoán huấn luyện của mô hình đề xuất, ứng dụng mô hình đề xuất dé phát sinh dữ liệuđối kháng cho kỹ thuật phân tích dựa trên đường dẫn URL và kỹ thuật phân tích sựtương đồng trực quan
Trang 28MÔ HÌNH DE XUÁT
CHUONG 3 MÔ HÌNH DE XUẤT
Trong chương này, tác giả sẽ trình bày cụ thể về cấu trúc và thuật toán huấnluyện của mô hình đề xuất trong nhiệm vụ phát sinh dữ liệu dựa trên mạng sinh đốikháng, tái huấn luyện giúp nâng cao khả năng phát hiện trang web độc hại của các
trình phát hiện dựa trên học máy Ngoài ra, tác giả cũng trình bày khả năng ứng dụng
của mô hình đề xuất đối với hai kỹ thuật phát hiện trang web lừa đảo là phát hiện duatrên phân tích URL và phát hiện dựa trên sự tương đồng trực quan
3.1 Đề xuất mô hình PWDGAN và thuật toán huấn luyện
Dựa trên những lợi ích tiềm năng mà mạng sinh đối kháng tạo ra, tác giả đề xuấtmột mô hình phát sinh dữ liệu, tăng kích thước mẫu làm cân bằng tập dữ liệu huấn
luyện, giúp nâng cao khả năng phát hiện trang web lừa đảo, được đặt tên là là mô
hình PWDGAN Về mặt tổng quan, mô hình dé xuất bao gồm hai thành phan:
-_ Khối tiền xứ lý dữ liệu: trích xuất đặc trưng và chuẩn hóa dữ liệu đầu vàophù hợp với mô hình huấn luyện
- Khối mô hình hudn luyện: gồm một hình GAN tiêu chuẩn với bộ sinh dữ
liệu (kí hiệu là G), bộ phân biệt (kí hiệu là D) và một trình phát hiện trang
web lừa đảo hộp đen dựa trên học máy (kí hiệu là PWD).
Trong mô hình huấn luyện, bộ sinh đóng vai trò là bộ phát sinh các mau dữ liệu
mới; bộ phân biệt được sử dụng đề bắt chước trình phát hiện trang web lừa đảo, phânbiệt giữa các mẫu thật và các mẫu lừa đảo; cung cấp thông tin độ dốc trong quá trìnhhuấn luyện bộ sinh Minh họa mô hình đề xuất được trình bày như trong Hình 3.1
Trích xuất đặc trưng | >| miuBiến đầu vào
aie ngẫu nhiện j 7
Tiền xử lý dữ liệu Bộ sinh f(t
h
Thông tin phản hỏi đề huần luyện‘etn pha ơi Bộ phân biệt
Mô hình huan luyện |
Bộ dữ liệu tin cdy Bộ dữ liệu độc hại
Hình 3.1 Mô hình phát sinh dữ liệu và nâng cao khả năng phát hiện lừa đảo qua mạng
dựa trên mạng sinh đối kháng
17
Trang 29MÔ HÌNH DE XUÁT
3.1.1 Tiền xử lý đữ liệu
Trong mô hình dé xuất, khối tiền xử lý dữ liệu đảm nhiệm vai trò trích xuất cácđặc trưng và chuân hóa dữ liệu đầu vào đã gan nhãn từ các bộ dữ liệu tin cậy và bộ
dữ liệu độc hại Tùy thuộc vào kỹ thuật phát hiện trang web độc hại, các dữ liệu đưa
vào bộ tiền xử lý sẽ khác nhau (ở dạng chuỗi, dạng hình ảnh, tệp mã html, ) Trong
dé tài này, tác giả dé xuất sử dụng các mẫu đầu vào được trích xuất và chuẩn hóa cógiá trị thuộc miền không gian đặc trưng, nghĩa là tiến hành véc tơ hóa định dang dữliệu đầu vào gốc Mục đích là xây dựng một mô hình huấn luyện có tính linh hoạt
cao, có khả năng áp dụng được cho nhiều kỹ thuật với nhiều dang dit liệu dau vao
khác nhau Mở ra co hội ứng dụng mô hình dé xuất PWDGAN cho các nghiên cứutrong tương lai, thông qua việc tỉnh chỉnh khối tiền xử lý dữ liệu và một vài cài đặttrong mô hình huấn luyện sao cho phù hợp với kỹ thuật cần nghiên cứu và thựcnghiệm một cách đơn giản, thuận tiện Đề chứng minh tính khả thi của mô hình đềxuất có thể ứng dụng cho nhiều dạng kỹ thuật khác nhau, trong CHƯƠNG 4 tác giả
sẽ hiện thực mô hình để xuất và thực nghiệm dựa trên hai kỹ thuật phát hiện trangweb lừa đảo là dựa trên phân tích URL và dựa trên phân tích sự tương đồng trực quan
3.1.2 Bộ sinh
Bộ sinh (Generator - G) mục dich là chuyển đồi véc tơ đặc trưng của một mẫuvéc tơ độc hại thành một phiên bản véc tơ đặc trưng mới Đầu vào của bộ sinh baogồm một véc tơ đặc trưng n và một véc tơ nhiễu z Với n là một véc tơ N chiều vớimỗi thành phần của n tương ứng với một đặc trưng được trích xuất tuân theo phân
phối chuẩn có giá trị trong khoảng [0;1) z là một véc tơ có độ dài cố định và mỗi
thành phần được sinh ngẫu nhiên theo hàm phân phối Gauss cũng có giá trị trongkhoảng [0;1) Mục đích của việc thêm z làm đầu vào cho bộ sinh nhằm mục đích chophép bộ sinh tạo ra nhiều biến thể mới chỉ từ một mẫu véc tơ đặc trưng trích xuất từ
một URL/từ một hình ảnh chụp giao diện trang web.
Về cầu tạo, bộ sinh gồm có một lớp đầu vào, ba lớp ân với số nơ ron an của mỗilớp lần lượt gồm có 256, 512, 1024 và lớp đầu ra của bộ sinh bao gồm N nơ ron được
kích hoạt bởi hàm kích hoạt sigmoid được trình bay theo công thức (3.1), đảm bao
Trang 30Ngoài ra, mỗi lớp an trong bộ sinh được kích hoạt bởi ham kích hoạt
LeakyReLU và được chuẩn hóa bởi phương pháp chuẩn hóa hàng hoạt (BatchNormalization) giúp bộ sinh được én dinh trong qua trinh hudn luyện [25]
Hình 3.2 Mô phỏng cấu tạo của bộ sinh trong mô hình PWDGAN
3.1.3 Bộ phân biệt
Bộ phân biệt trong mô hình PWDGAN về bản chất tương đồng với một mô hìnhphân lớp thông thường Bộ phân biệt lấy một véc tơ đặc trưng của một URL làm đầuvào và dự đoán mẫu dữ liệu đối kháng này là độc hại hay bình thường Bởi vì kẻ tắncông không biết được cấu trúc bên trong của một trình phát hiện trang web lừa đảohộp đen, bộ phân biệt có nhiệm vụ mô phỏng, bắt chước trình phát hiện và cung cấpthông tin độ dốc (gradient information) dé bộ sinh tìm cách tối ưu tốt nhất
Đầu vào của bộ phân biệt bao gồm các mẫu phát sinh mới m được bộ sinh tạo
ra và các mẫu véc-tơ đặc trưng của các mẫu tin cậy được lấy từ tập cơ sở dữ liệu Đầu
tiên, cả hai nhóm mẫu véc tơ này được gán nhãn bởi trình phát hiện trang web lừa
đảo dựa trên học máy Tiếp theo, mẫu và nhãn vừa được gán sẽ được sử dụng như là
19
Trang 31MÔ HÌNH DE XUÁT
tập cơ sở dữ liệu huấn luyện cho bộ phân biệt Điều này có mục đích đảm bảo rằng
bộ phân biệt sẽ tương đồng với các trình phát hiện trang web lừa đảo
Cấu trúc của bộ phân biệt được minh họa ở Hình 3.3 sẽ có thêm hai lớp ân với
số nơ ron ân lần lượt là 512 và 256 và cả hai lớp ân này đều được kích hoạt bởi hamkích hoạt LeakyReLU Lớp đầu ra của mạng có một nơ ron và sử dụng hàm kích hoạtsigmoid, đảm bảo giá trị của no ron dau ra nằm trong khoảng giữa 0 và 1
)
SS <2 ⁄4 O
us © IN X77) RNLPR
L2 đầu ra
Hình 3.3 Mô phỏng cấu tạo của bộ phân biệt trong mô hình PWDGAN
3.1.4 Trình phát hiện trang web lừa đảo hộp đen dựa trên học máy
Trong mô hình đề xuất PWDGAN, trình phát hiện trang web lừa đảo hộp đen
dựa trên học máy (hay trình phân loại trang web lừa đảo và trang web tin cậy dựa trên
học máy), được thiết lập nhằm mục đích mô phỏng một trình phát hiện trang web lừađảo trong thực tế, xác thực khả năng tạo ra các mẫu dữ liệu đối nghịch do PWDGANtạo ra, hỗ trợ gán nhãn huấn luyện cho bộ phân biệt và là cơ sở dé nghiên cứu, thựcnghiệm nâng cao hiệu suất phát hiện các trang web lừa đảo
Trong thực tế, người dùng đầu cuối hay kẻ lừa đảo không thể hoặc có rất ít khảnăng biết được cấu trúc, thuật toán cụ thể mà các trình phát hiện trang web lừa đảo
sử dụng Do đó, phương pháp tan công hộp đen được áp dụng trong quá trình huấnluyện PWDGAN với mục đích mô phỏng sát thực tế nhất quá trình phát sinh dữ liệu,
Trang 32MÔ HÌNH DE XUÁT
cố gắng lan tránh và qua mặt các trình phát hiện trang web lừa đảo dựa trên máy học.Trong dé tài này, tác giả đã sử dụng một số thuật toán học máy khác nhau đề thựcnghiệm, đánh giá kết quả và hiệu suất của PWDGAN trong việc qua mặt các trìnhphát hiện trang web lừa đảo bao gồm: Máy véc tơ hỗ trợ (Support Vector Machine -SVM), Cây quyết định (Decision Tree - DT), Rừng quyết định ngẫu nhiên (RandomForest - RF), Hồi quy logic (Logistic Regression - LR), Mạng nơron truyền thẳngnhiều lớp (Multi-layer Perceptron - MLP)
3.1.5 Tái huấn luyện các trình học máy phát hiện trang web lừa dao
Kết thúc quá trình huấn luyện PWDGAN để tn công các bộ phát hiện dựa trênhọc máy, PWDGAN có khả năng tạo ra các mẫu đối nghịch mới, qua mặt được hầuhết các bộ phát hiện hộp đen Điều này đem lại tiềm năng trong việc tăng cường sốlượng mẫu và sự đa dang biến thể về tính chất của mẫu huấn luyện giúp cải thiện hiệusuất của các trình phát hiện trang hiện trang web lừa đảo Trong thực tế, các công tygiải pháp an ninh mạng sẽ thường xuyên cập nhật các giải pháp phần mềm bảo mật,phát hiện lừa đảo, phát hiện mã độc thông qua việc thu thập mẫu mới và tái huấnluyện các giải pháp phần mềm này dé tăng cường khả năng nhận diện sự bất thườnghay mối đe dọa an ninh mạng Giả sử rằng, các công ty giải pháp an ninh mạng này
có khả năng thu thập được các mẫu trang web độc hại mới trên không gian mạng déhuấn luyện cho các trình học máy phát hiện trang web lừa đảo học và phân loại cácmẫu này Ngay khi các bản cập nhật được phát hành, kẻ tắn công / kẻ lừa đảo có thể
sử dụng phiên ban phần mềm mới nhất này dé tái huấn luyện PWDGAN, tạo ra cácmẫu đối kháng mới mạnh hơn, có khả năng vượt mặt các giải pháp phần mềm pháthiện trang web lừa đảo Kết thúc quá trình này, các giải pháp phần mềm phát hiện lừađảo trở nên mất tác dụng trước các mẫu trang web đối nghịch độc hại mới Dé tăng
cường khả năng phát hiện các mẫu trang web độc hại, các công ty giải pháp an ninh
mạng cần thu thập được hết các mẫu đối nghịch mới này và tái huấn luyện cho cácgiải pháp phần mềm của họ Nhưng điều này là bất kha thi trên thực tế vi rất khó déthu thập số lượng lớn các trang web được gán nhãn là độc hại được tạo ra trên không
gian mạng.
21