Luận văn thạc sĩ Công nghệ thông tin: Phát hiện các cuộc tấn công lừa đảo dựa trên URL và dựa trên sự tương đồng trực quan bằng cách sử dụng mạng đối kháng tạo sinh

Trong dé tài này, tác giả nghiên cứu và đề xuất một mô hình phát sinh dữ liệu sử dụng mạng sinh đối kháng, giúp tái huấn luyện nâng cao khả năng phát hiện trang web lừa đảo của các trình

Trang 1

ĐẠI HỌC QUÓC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRỊNH NGUYÊN BÁC

LUAN VAN THAC SI

NGANH CONG NGHE THONG TIN

MA SO: 8480201

Trang 2

ĐẠI HỌC QUÓC GIA TP.HCMTRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRỊNH NGUYÊN BÁC

PHAT HIEN CÁC CUỘC TAN CONG LUA DAO DỰA TREN

URL VA DUA TREN SU TUONG DONG TRUC QUAN BANG

LUẬN VĂN THAC SĨ

NGÀNH CÔNG NGHỆ THÔNG TIN

MÃ SỐ: 8480201

NGƯỜI HƯỚNG DẪN KHOA HỌC

TS PHẠM VĂN HẬU

TP HO CHÍ MINH - 2021

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan: Luận văn tốt nghiệp với Dé tài “Phát hiện các cuộc tắn cônglừa đảo dựa trên URL và dựa trên sự tương đồng trực quan bằng cách sử dụng mạngđối kháng tạo sinh” là công trình nghiên cứu của tôi, dưới sự hướng dẫn của TS Phạm

Trang 4

LỜI CẢM ƠN

Trong suốt quá trình thực hiện Luận văn này, từ lúc hình thành ý tưởng ban đầuđến khi hoàn thành các mục tiêu đề ra, tác giả may mắn nhận được nhiều sự hỗ trợ và

động viên từ phía nhà trường và gia đình.

Trên hết, tác giả xin gửi lời tri ân chân thành nhất đến TS Phạm Văn Hậu vì đãnhận lời hướng dẫn tác giả thực hiện đề tài này, thầy đã dành rất nhiều thời gian vàtâm huyết dé định hướng, động viên và chỉ bao tận tinh dé tác giả có thể thực hiện

Luận văn.

Tác giả cũng xin gửi lời cảm ơn đến Khoa Khoa Học và Kỹ Thuật Thông Tin,

Phòng Dao Tạo SDH, Trung tâm An ninh mang CNSC, Trường Đại học Công nghệ

Thông Tin, đã hỗ trợ và tạo điều kiện, giúp đỡ tác giả trong suốt quá trình học tập và

nghiên cứu tại trường.

Xin gửi lời cảm ơn đến các anh chị, bạn bè và đồng nghiệp tại Trung tâm An

ninh Mạng CNSC và Phòng thí nghiệm An toàn thông tin đã luôn nhiệt tình giúp đỡ,

chia sẻ kiến thức và góp ý cho đề tài của tác giả, đặc biệt gửi lời cảm ơn vì những lờinhận xét, góp ý chân thành của ThS Phan Thé Duy trong suốt thời gian tác giả thực

hiện Luận văn.

Và cuối cùng nhưng không kém phần quan trọng, tác giả cũng xin gửi lời cảm

ơn sâu sắc nhất đến Ba mẹ và gia đình đã là nguồn động lực lớn lao và là chỗ dựatỉnh thần vững chắc nhất giúp tác giả vượt qua mọi khó khăn đề hoàn thành Luận văn

Tác giả

Trịnh Nguyên Bác

Trang 5

1.6 Nội dung và phương pháp nghiên cứu

1.6.1 Nội dung I

1.6.2 Nội dung 2.

1⁄7 Đóng góp và công bô khoa học của tác giả

17.1 Đóng góp chính

1.7.2 Công bố khoa học liên quan

1.8 Câu trúc của luận văn

CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIEP

Trang 6

MỤC LỤC

2.1 Các vấn đề nghiên cứu

2.2 Các nghiên cứu liên quan

2.2.1 Phương pháp phòng chống các cuộc tan công lừa đảo qua mang 82.2.2 Giải pháp, hướng tiếp cận phát hiện trang web lừa đảo dựa trên học

máy 12

2.3 Mạng sinh đôi kháng và hướng tiép cận tiêm năng aoe 2

2.3.1 Cơ sở lý thuyết Mang sinh đối kháng 132.3.2 Ứng dung phát sinh dữ liệu tấn công các bộ phát hiện trang web

„14

2.4 Kếtchươn, 16CHƯƠNG 3 MÔ HÌNH DE XUẤT -173.1 Đề xuất mô hình PWDGAN và thuật toán huấn luyện 173.1.1 Tiền xử lý dữ liệu 18

3.1.2 BO sinh 218

3.1.3 Bộ phân biệt

3.1.4 Trình phát hiện trang web lừa đảo hộp đen dựa trên học máy 20

3.1.5 Tái huấn luyện các trình học máy phát hiện trang web lừa dao 21

22

3.1.6 Thuật toán huấn luyện

3.2 Ứng dụng mô hình dé xuất cho kỹ thuật phát hiện dựa trên URL 253.2.1 Kỹ thuật phát hiện trang web lừa đảo dựa trên phân tích đường dẫn

URL 125

3.2.2 Mô hình phát sinh dit liệu uPWDGAN 28

3.3 Ứng dụng mô hình đề xuất cho kỹ thuật phát hiện dựa trên sự tươngđồng trực quan 128

3.3.1 Kỹ thuật phát hiện trang web lừa dao dựa trên phân tích sự tương

đồng trực quan 20

Trang 7

MỤC LỤC

3.3.2 Mô hình phát sinh dữ liệu VPWDGAN

3.4 KếtchươngCHƯƠNG 4 THỰC NGHIỆM VA KET QUA

4.1 Môi trường thực nghiệm 4.2 — Quy trình thực nghiệm 4.3 Thực nghiệm trên mô hình uPWDGAN

TÀI LIEU THAM KHẢO

PHU LUC 1 DANH MỤC CÁC CÔNG BO KHOA HỌCHội nghị quốc tẾ

PHU LUC 2 DANH MỤC CÁC HO SƠ LIÊN QUAN

Trang 8

DANH MỤC CÁC TỪ VIET TAT

DANH MỤC CAC TU VIET TAT

Từ Nội dung Diễn giải

GAN _ Generative Adversarial Network Mang sinh đối kháng

URL Uniform Resource Locator Định vị tài nguyên thống nhất

DL Deep Learning Học sâu

ML Machine Learning Hoc may

NN Neural Network Mang no-ron

CNN Convolutional Neural Network Mang no-ron tich chap

SVM _— Support Vector Machine May vectơ hỗ trợ

DT Decision Tree Cây quyết định

RF Random Forest Rừng ngẫu nhiên

LR Logistic Regession Hồi quy logistic

MLP Multi-layer Perceptron Mang nơron truyền thang nhiều lớp

NB Naive Bayes “Thuật toán Naive Bayes

iv

Trang 9

DANH MỤC CÁC BANG BIÊU

DANH MUC CAC BANG BIEU

Các loại kỹ thuật làm xáo trộn đường dẫn URL

Các thành phần và phiên bản trong môi trường thực nghiệm

Mô tả tập dữ liệu Alexa và Phishtank

Kết quả do lường các giá tri TPR va Fl trong kịch bản 1

Y nghĩa giá trị đặc trưng được trích xuất từ nghiên cứu [22]

Các đặc trưng URL được trích xuất từ nghiên cứu [22]

Kết quả phát sinh dữ liệu tắn công trình phát hiện lừa đảo RF-PWD 46Kết quả tái huấn luyện trình phát hiện lừa đảo RF-PWD

Mô tả tập dữ liệu VisualPhish

Kết quả thực nghiệm với độ do TPR và độ đo F1

Trang 10

DANH MỤC CÁC HÌNH VE DO THỊ

DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ

Hình 2.1 Minh hoạt kiến trúc của Mạng sinh đối kháng (GAN)

Hình 3.1 Mô hình phát sinh dữ liệu và nâng cao khả năng phát

mạng dựa trên mạng sinh đối kháng

Hình 3.2 Mô phỏng cau tạo của bộ sinh trong mô hình PWDGAN

Hình 3.3 Mô phỏng cấu tạo của bộ phân biệt trong mô hình PWDGAN

Hình 3.4 Quy trình huấn luyện đầy đủ của mô hình đề xuất PWDGAN

Hình 3.5 Luồng thực thi chính huấn luyện mô hình đề xuất

Hình 3.6 Sự phân tách chuỗi URL thành các chuỗi con [24]

Hình 3.7 Tiền xử lý đầu vào của mô hình để xuất gốc (a) và

mô hình uPWDGAN ()

Hình 3.8 Ví dụ về trang web Paypal tin cậy (a) và trang web Paypal lừa dao tị .30

Hình 3.9 Kiến trúc VGG16 kết hợp cùng PWDGAN thông qua phương pháp học

lừa đảo qua

chuyển giao wee d2

Hinh 3.10 Minh hoa kiên trúc của VGGI6

=-Hình 3.11 Trực quan hóa bản đồ đặc trưng của 5 k trong VGG16 sử dụng thang mau viridis giữa trang web chính thức và trang web lừa đảo của Facebook .35

Hình 3.12 Quá trình trích xuất đặc trưng và huấn luyện các thuật toán học máy dựa

.35

Hình 4.1 Minh họa về sự thay đổi giá trị TPR (a) và giá trị các mât mát của bộ sinh

và bộ phân biệt (b) trong quá trình thực hiện phát sinh dữ liệu tấn công thuật toántrên phương pháp học chuyên giao

SVM b wel

Hình 4.2 Phân phôi dữ liệu ‘ban lâu (original) và dữ liệu được phat sinh

(adversarial) thông qua phương pháp t-SNE 43

Hình 4.3 Giá trị TPR và Điểm F1 Score khi tấn công mô hình RF-PWD ATHình 4.4 Giá tri mat mát của bộ sinh và bộ phân bi ATHinh 4.5 Két quả thử nghiệm: (a) là các giá trị Độ chính xác (%) (b) là giá tri ROC-

AUC sonal

Hình 4.6 Minh họa đường cong ROC khi huân luyện thuật toán LR @ va RF (b)

với tập dữ liệu ban dau 52Hình 4.7 Thống kê sô lượng mẫu dữ liệu ban dau (Trước) và sau khi mẫu đã đượcphát sinh thêm từ mẫu lừa đảo gốc thông qua vPWDGAN (Sau) 53

Hình 4.8 (a) Giá trị Độ chính xác (%) va (b) Giá tri ROC-AUC trước và sau khi tái

huấn luyện 53

Hình 4.9 Minh họa đường cong ROC khi tái huân luyện thuật toán LR (a) và RF

(b) với tập dữ liệu cân bằng 154

Trang 11

MỞ ĐÀU

Trong những năm gan đây, thách thức về tội phạm mạng là mối đe dọa an ninhlớn nhất trên không gian mạng, trong đó lừa đảo là một hình thức tấn công phổ biếnnhất đối với các cá nhân, tô chức, doanh nghiệp trong và ngoài nước Tan công lừađảo là các hoạt động phi pháp nhằm lấy cắp thông tin có tính chất quan trọng như tên

người dùng, mật khẩu, tài khoản ngân hàng và các dữ liệu nhạy cảm khác Có nhiều

phương thức lừa đảo khác nhau nhưng tắn công lừa đảo thông qua trang web là cáchhiệu quả nhất dé tiếp cận người dùng mạng Ví dụ: kẻ tắn công làm giả thư điện tử

chính thức của ngân hàng và đính kèm đường dẫn URL lừa đảo vào một thông báo

khẩn cấp yêu cầu người bị tắn công cung cấp thông tin đăng nhập dé tài khoản không

bị khóa trong một khoảng thời gian ngắn Các cuộc tan công này có thé sẽ trở nênkhó phát hiện hơn trong tương lai vì những kẻ tan công mạng đang có gang thay đổichiến lược và cố gắng tạo ra các mẫu trang web mới khiến chúng trông giống thậtnhất có thé, bằng cách sử dụng trí thông minh nhân tạo dé lần tránh và qua mặt cáctrình phát hiện lừa đảo dựa trên các kỹ thuật phát hiện truyền thống hoặc thậm chí là

trình phát hiện lừa đảo dựa trên học máy.

Trong dé tài này, tác giả nghiên cứu và đề xuất một mô hình phát sinh dữ liệu

sử dụng mạng sinh đối kháng, giúp tái huấn luyện nâng cao khả năng phát hiện trang

web lừa đảo của các trình phát hiện dựa trên học máy, được đặt tên là là mô hình

PWDGAN PWDGAN tiến hành các cuộc tắn công hộp đen thông qua việc phát sinh

dữ liệu đối kháng dựa trên các bộ dữ liệu Phishtank và Alexa, cố găng trốn tránh vàvượt qua các trình phát hiện lừa đảo dựa trên học máy Kết quả thực nghiệm chứngminh hiệu quả của việc 4p dụng mạng sinh đối kháng trong việc phát sinh các mẫumới có thé đánh lừa thành công các trình phát hiện lừa đảo, đồng thời các mẫu mớiđược phát sinh có thể được áp dụng trong quá trình tái huấn luyện các trình phát hiệnlừa đảo dựa trên học máy, giúp cải thiện khả năng phát hiện các cuộc tấn công bất

thường mới.

TP Hồ Chí Minh, tháng 4 năm 2021

Tác giả

Trang 12

GIỚI THIỆU DE TÀI

CHƯƠNG 1 GIỚI THIỆU ĐÈ TÀI

11 Tên dé tai

Tên Tiếng Việt: Phát hiện các cuộc tắn công lừa đảo dựa trên URL và dựatrên sự tương đồng trực quan bằng cách sử dụng mạng đối kháng tạo sinh

Tên Tiếng Anh: URL-based and visual-similarity-based phishing attacks

detection using generative adversarial networks.

1.2 Từ khóa

Mang sinh đối kháng, tan công hộp đen, tăng cường dữ liệu

1.3 Tính khoa học, tính mới của đề tài

Trong thời điểm hiện tại, mạng sinh đối kháng là một chủ đề nghiên cứu mới,tiềm năng và đang nhận được sự quan tâm đặc biệt không chỉ dành cho bài toán xử

lý hình ảnh mà đang được nghiên cứu và phát triển rộng ra các lĩnh vực khác, trong

đó có lĩnh vực an toàn thông tin Đặc biệt, trong giai đoạn phát triên nhanh chóng của khoa học công nghệ, các thuật toán học máy và học sâu được ứng dụng rộng rãi, kéo

theo đó là các rủi ro về mat an toàn thông tin gia tăng đáng kể và đặc biệt là các cuộctắn công lừa dao vẫn duy trì mức độ nguy hiểm cao trên không gian mạng Các nghiêncứu về nâng cao khả năng phát hiện tan công lừa đảo vi thé có ý nghĩa rất quan trong

Tinh khoa học của luận văn được thé hiện thông qua việc nghiên cứu về kiếntrúc và hoạt động của mô hình mạng sinh đối kháng; các kỹ thuật phân tích và cácgiải pháp học máy được sử dụng đề phát hiện trang web lừa đảo Thông qua đó, đềtài luận văn dé xuất mô hình phát sinh dữ liệu đối kháng, tăng cường dữ liệu huấnluyện, giải quyết van đề mat cân bằng lớp và hỗ trợ tái huấn luyện giúp nâng cao hiệusuất của các trình phát hiện dựa trên học máy

Tinh mới của luận văn thê hiện ở việc xây dựng một mô hình phát sinh dữ liệu

dựa trên mạng sinh đối kháng có tính linh hoạt, nghĩa là có khả năng ứng dụng trêncác loại kỹ thuật phân tích phát hiện trang web lừa đảo khác nhau, cụ thể trong đề tàinày là kỹ thuật phân tích dựa trên URL và dựa trên sự tương đồng trực quan Mộthướng tiếp cận mới khác của đề tài là áp dụng phương pháp học chuyền giao, sử dụng

1

Trang 13

mô hình phân loại ảnh học sâu VGG16 được huấn luyện trước dé trích xuất đặc trưng

từ ảnh chụp giao diện trang web, làm đầu vào cho các thuật toán học máy trong bài

toán phát hiện trang web lừa đảo.

1.4 Mục tiêu của đề tài

Nghiên cứu áp dụng mạng sinh đối kháng trong nghiên cứu nâng cao hiệu suất

phát hiện trang web lừa đảo, với các hướng:

e _ Đánh giá hiệu suất và tính khả thi khi áp dụng mạng sinh đối kháng trong việcphát sinh các mẫu dữ liệu từ các đặc trưng được trích xuất thông qua đườngdẫn URL của trang web, cố gắng lan tránh và qua mặt các trình phát hiện lừa

đảo dựa trên học máy.

¢ anh giá hiệu suất và tính khả thi khi áp dung mạng sinh đối kháng trong việcphát sinh các mẫu dữ liệu từ các đặc trưng tương đồng trực quan của trang web(cụ thê trong đề tài này là giao điện của các trang web), có gắng lần tránh và

qua mặt các trình phát hiện lừa đảo dựa trên học máy.

¢ Đánh giá khả năng áp dụng các mẫu phát sinh từ mô hình đề xuất dựa trênmạng sinh đối kháng đề giải quyết van đề mất cân bằng lớp huấn luyện, đồngthời sử dụng dé tái huấn luyện nâng cao hiệu suất của các trình phát hiện trang

web lừa dao dựa trên học máy.

1.5 Đối tượng áp dụng, phạm vi nghiên cứu của dé tài

1.5.1 Đối tượng áp dụng

- Tấn công lừa đảo thông qua trang web

- Mô hình mang sinh đối kháng GAN

Trang 14

Nội dung: Nghiên cứu kỹ thuật phát hiện trang web lừa đảo dựa trên URL và

dựa trên sự tương đồng trực quan

Nội dung: Nghiên cứu xây dựng mô hình nâng cao khả năng phát hiện trang

web lừa đảo dựa trên Mạng sinh đối kháng.

17

1.7.1

Phuong phap:

Nghiên cứu, khảo sát các công trình liên quan đến mô hình phát sinh dữ liệu,

cụ thể là Mạng sinh đối kháng trong việc tăng cường dữ liệu huấn luyện vàphát sinh dữ liệu tan công các trình phát hiện trang web lừa đảo Xây dựngkịch bản tấn công lần tránh, qua mặt các trình phát hiện trang web lừa đảo dựa

3

Trang 15

dụng các đặc trưng được trích xuất bằng kỹ thuật phát hiện trang web lừa

đảo dựa trên URL (uPWDGAN) và dựa trên sự tương đồng trực quan(vPWDGAN) PWDGAN có khả năng phát sinh các mẫu đối kháng mới

qua mặt thành công các trình phát hiện trang web lừa đảo dựa trên học

máy, góp phan giải quyết vấn đề mat cân bằng lớp trong việc huấn luyện

và nâng cao hiệu suất của các trình phát hiện học máy này

va Alexa có thé được áp dụng cho các nghiên cứu liên quan đến miễn bài

toán phát hiện trang web lừa đảo trong tương lai; mô hình PWDGAN sau

huấn luyện có khả năng phát sinh dữ liệu đối kháng, tăng cường kíchthước mẫu, hỗ trợ tái huấn luyện các trình phát hiện trang web lừa đảo

dựa trên học máy.

1.7.2 Công bố khoa học liên quan

Tác giả đã công bó bài báo “PWDGAN: Generating Adversarial Malicious

URL Examples for Deceiving Black-Box Phishing Website Detector using GANS”

tại Hội nghị quốc tế lần thứ sáu Nghiên cứu về các tính toán thông minh trong kỹ

thuật năm 2021 (Sixth International Conference on Research in Intelligent and

Computing in Engineering 2021) (Bài báo được đính kèm trong phan Phụ lục của

Trang 16

18 Cấu trúc của luận văn

Luận văn sẽ được tác giả trình bày trong 5 chương.

CHUONG 1 GIỚI THIỆU ĐÈ TÀI

Trinh bày tổng quan về dé tài, mục tiêu, đối tượng, phạm vi nghiên cứu của détài, đồng thời cũng liệt kê các nội dung và phương pháp sẽ được nghiên cứu, tínhkhoa học, tính mới và cấu trúc của đề tài

CHƯƠNG 2 TONG QUAN VAN ĐÈ NGHIÊN CỨU VA HƯỚNG TIẾPCẬN CỦA ĐÈ TÀI

Giới thiệu các kiến thức về lừa đảo qua mạng, phương pháp và kỹ thuật để pháthiện và phòng chống các cuộc tấn công lừa đảo thông qua trang web Khảo sát, tìmhiểu và trình bày các hướng nghiên cứu, giải pháp, thuật toán học máy đã được ápdụng trong vấn đề phát hiện trang web lừa đảo Trong chương này, mạng sinh đốikháng cũng được giới thiệu như một hướng tiếp cần tiềm năng dé giải quyết vấn dé

mà đề tài đặt ra

CHƯƠNG 3 MÔ HÌNH ĐÈ XUẤT

Trình bày hướng tiếp cận sử dụng mạng sinh đối kháng trong việc xây dựng môhình phát sinh dữ liệu đối kháng, tắn công các trình phát hiện trang web lừa đảo thôngqua phương pháp tan công hộp đen Ứng dụng mô hình đề xuất trong việc tăng cường

dữ liệu, tái huấn luyện nâng cao hiệu suất phát hiện các trang web lừa đảo

CHUONG 4 THỰC NGHIEM VÀ KET QUA

Trinh bày chi tiết về các bộ dữ liệu, môi trường được sử dung đề thực nghiệm;chỉ tiết các kịch bản được hiện thực để kiểm chứng hiệu quả mô hình đề xuất Các dữliệu sẽ được thu thập, tổng hợp dé phân tích kết quả

CHƯƠNG 5 KET LUẬN VÀ HƯỚNG PHÁT TRIEN

Chương này sẽ tông kết lại kết quả giải quyết những van dé trong phạm vi đềtài này và cung cấp những hướng phát triển tiếp theo cho đề tài

Trang 17

TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI

CHƯƠNG2 TONG QUAN VẤN ĐÈ NGHIÊN CỨU

VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI2.1 Các vấn đề nghiên cứu

Lita đảo qua mạng (phishing) là một cuộc tan công nhằm đánh lừa người dùngmang va thu thập các thông tin cá nhân như tên người dùng, mật khâu, thẻ tín dụng,tài khoản ngân hàng và các dữ liệu nhạy cảm khác Cuộc tắn công lừa đảo qua mạngđược ghi nhận lần đầu tiên vào năm 1996, từ đó đến nay lừa đảo qua mạng trở thànhmột trong những mối đe doa nguy hiểm nhất trên không gian mạng, gây thiệt hại vềtài sản và uy tín không chỉ người dùng mạng mà cả các doanh nghiệp và tổ chức Cáccuộc tấn công lừa đảo qua mạng thường được thực hiện thông qua hình thức một

trang web hoặc một thư điện tử giả mạo, trong đó, việc sử dụng các trang web lừa

đảo là hình thức phô biến [1] Theo định nghĩa của Viện Tiêu chuẩn và Công nghệ NIST (NIST SP 800-69 va NIST SP 800-44 V2), các trang web được tạo ra giống vớimột trang web tin cậy được sử dụng cho mục đích xấu được xem là một trang weblừa đảo/trang web độc hai (phishing websites) Trong kiểu tấn công này, những kẻlừa đảo tạo ra các trang web giả mạo trang web gốc của một doanh nghiệp hoặc tổchức và gửi đường dẫn URL của trang web giả mạo này đến các nạn nhân thông quathư điện tử, tin nhắn điện thoại hay thông qua mạng xã hội, nhằm mục đích lừa nạnnhân thực hiện theo những yêu cầu mà kẻ lừa đảo đã giăng bẫy từ trước Trong nhữngnăm gan đây, Internet đã chứng kiến sự gia tăng đáng ké của các cuộc tan công lừa

-đảo, đặc biệt là trong giai đoạn đại dịch COVID-19 bùng phát [2] Những giải pháp

nhận dạng, phòng chống loại hình tấn công này cũng vì thế được quan tâm nghiên

cứu.

Để đối phó với mối đe dọa từ lừa đảo qua mạng, các thuật toán học máy và họcsâu đã chứng minh được hiệu quả trong vấn đề nay [3] [4] [5] Các thuật toán phát

hiện lừa đảo dựa trên học máy thường được thêm vào trình duyệt dưới dạng tiện ích

mở rộng hoặc được tích hợp vào phần mềm chống vi-rút Tuy nhiên, mặt hạn chế củahọc máy chính là yêu cầu về tập dữ liệu huấn luyện cần phải đủ lớn cho miễn bài toáncần giải quyết Thế nhưng, các tập dữ liệu chuyên về trang web lừa đảo thì còn hạnchế và các biến thể trang web lừa đảo thì ngày một gia tăng và tỉnh vi hơn lan

Trang 18

TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA DE TÀI

Goodfellow và cộng sự [6] đã đề xuất Mạng sinh đối kháng (GAN) - một nền tảng

dựa trên học sâu để tự động đào tạo một mô hình phát sinh dữ liệu Trong để tài này,tác giả đề xuất một mô hình dựa trên GAN dé phát sinh dữ liệu, tiến hành tấn côngchống lại các bộ phân loại dựa trên học máy dựa trên phương pháp tan công hộp den

tương tự như các nghiên cứu: [5] [7] [8].

Trong phạm vi nghiên cứu của dé tài này, tác giả thực hiện nghiên cứu và đềxuất một mô hình giúp nâng cao khả năng phát hiện trang web lừa đảo, đặc biệt làkhả năng chủ động phát hiện một cuộc tấn công chưa được biết đến trước đó, cụ thể:

- _ Nghiên cứu các phương pháp, kỹ thuật phát hiện trang web lừa đảo và dé tài

tập trung nghiên cứu chính vào phân tích dựa trên URL và phân tích dựa trên

sự tương đồng trực quan

-_ Nghiên cứu phát triển mô hình dựa trên mạng sinh đối kháng trong việc phátsinh dữ liệu đối kháng mới và ứng dụng đê tái huấn luyện các bộ phát hiện dựa

trên học máy.

2.2 _ Các nghiên cứu liên quan

Lừa đảo qua mạng chủ yếu khai thác vào điểm yếu tâm lý của con người (ngườidùng mạng) và chìa khóa của một cuộc tấn công lừa đảo thành công là chiếm đượcniềm tin của người dùng Vì vậy, một trong những phương pháp thông thường và hữudụng nhất mà những kẻ lừa đảo sử dụng đề đánh lừa người dùng mạng đó là có gắngbắt chước, giả dạng một cơ quan, tổ chức uy tín Cụ thể trong một cuộc tấn công lừađảo thông qua trang web đó là những thành phần được hiển thị rõ ràng, trực quan vớingười dùng đầu cuối, thông thường là những đường dẫn URL và nội dung, cách trìnhbay trang web được hiển thị trên trình duyệt web Hiện nay, những vụ án lừa đảo quamạng vẫn xảy ra không chỉ do một bộ phận người dùng mạng còn nhẹ dạ, thiếu cảnhgiác mà vì thủ đoạn của các đối tượng lừa đảo ngày càng tỉnh vi với nhiều phươngthức và kỹ thuật mới Do sự phát triển mạnh mẽ của các cuộc tắn công lừa đảo đã làmthúc đẩy mạnh mẽ sự phát triển của các nghiên cứu về phát hiện và phòng chốngtrước các cuộc tan công này, đặc biệt là thành quả từ việc ứng dụng các phương pháphọc máy, học sâu làm tăng tốc độ phát hiện, độ chính xác và khả năng điều tra chỉ tiếtnguồn gốc của một cuộc tan công nhắm vào người dùng mạng và các tổ chức [1]

Trang 19

Trong những phan tiếp theo của chương này, tác giả sẽ trình bày những nghiêncứu và hướng tiếp cận liên quan đến phương pháp phát hiện và phòng chồng các cuộctan công lừa đảo qua mang và những giải pháp giúp phát hiện trang web lừa đảo dựatrên học máy đã được nghiên cứu và công bố trước đó

2.2.1 Phương pháp phòng chống các cuộc tan công lừa đảo qua mang

Đối với bài toán phòng chống các cuộc tấn công lừa đảo qua mạng, đã có rấtnhiều các công trình nghiên cứu trong lĩnh vực được đề xuất và phát triển Các giảipháp được đề xuất [9] bao gồm:

¢ Đào tạo người dùng về các dấu hiệu liên quan đến lừa đảo;

e Phat hiện và ngăn chặn lừa đảo;

e _ Tiện ích và công cụ mở rộng trên trình duyệt;

từ giao thức truy vấn phản hồi, kiểm tra tên miền whois của các đường

dẫn URL;

e Các biện pháp xác thực người dùng mới;

e Loc thư điện tử và các trang web lừa đảo;

gian thực; thiết lập xác thực hai yếu tố;

e V6 hiệu hóa các tập lệnh thực thi mã độc hại;

e Phat triên trình duyệt an toàn

Các giải pháp chống lừa đảo chủ yếu có thể được phân loại thành ba nhóm chính:

giải pháp ngăn chặn lừa đảo, giải pháp đào tạo người dùng và giải pháp phát hiện lừa

dao Mỗi giải pháp đều có ưu và nhược điểm riêng, cụ thể như sau:

bằng cách xây dựng thêm các lớp bảo mật vào lược đồ xác thực và nền

tảng tương tác người dùng (ví dụ xác thực hai bước hoặc xác thực hai

yếu tố) Điều này giúp giảm thiêu rủi ro người dùng bị lừa gạt bởi kẻ tancông Kỹ thuật này có thé ngăn chặn đáng kể các cuộc tấn công lửa đảo,tuy nhiên nó lại khá phức tạp khi yêu cầu các cài đặt về mặt kỹ thuật, gây

Trang 20

phức tạp ở phía giao diện người dùng, tốn kém chỉ phí triển khai, biếngiải pháp ngăn chặn lừa đảo trở nên khó tiếp cận đối với người dùng cuối

© Giải pháp đào tạo người dùng cuối được triển khai nhằm hướng dẫnngười dùng nhận biết các cuộc tấn lừa đảo đang nhắm vào họ thông quanhư thư điện tử và các phương tiện truyền thông trung gian khác Dù đây

là một giải pháp có ý nghĩa tốt nhưng nhược điểm là không thê cung cấprộng rãi kiến thức tới số lượng lớn người dùng mạng trên thực tế, ngườidùng mạng có thể quên các chỉ dẫn đảm bảo an toàn thông tin sau mộtthời gian dài không được tập huấn lại hoặc người dùng thậm chí bỏ qua

các cảnh báo bảo mật khi thực hiện những tác vụ khẩn cấp dù biết mối

nguy hại có thể xảy ra

© Giải pháp phát hiện lừa đảo có thé được triển khai ở phía máy chủ lưutrữ hoặc được cài đặt tại phía người dùng cuối như là một phần mềmchống lừa đảo hoặc một tiện tích mở rộng trên trình duyệt web Giải phápnày được xem là tốt hơn giải pháp ngăn chặn lừa đảo và giải pháp đàotạo người dùng cuối Bởi vì, giải pháp này đòi hỏi rất ít chỉ phí tập huấnngười dùng và không yêu cầu bat kỳ thay đồi nào đối với các sơ đồ xác

thực hiện có được sử dụng bởi một trang web Khi một trang web bị phát

hiện là lừa đảo hoặc có thể là trang web lừa đảo, quyền truy cập vào trangweb sẽ bị chặn và người dùng sẽ nhận được thông báo rằng trang web đó

có thé tìm ẩn rủi ro mắt an toàn thông tin khi truy cập

Trong đề tài này tác giả lựa chọn giải pháp phát hiện lừa đảo đề tiến anh nghiên cứu và thực nghiệm, vì giải pháp này có khả năng ứng dụng vào thực tiên rộng rãi

hơn, tiết kiệm chỉ phí hơn giải pháp ngăn chặn lừa đảo và giải pháp đào tạo ngườidùng cuối Trên thực tế, mỗi kiểu tan công lừa đảo thì sử dung các phương thức, đặcđiểm kỹ thuật khác nhau Để ứng phó với mỗi dạng tắn công như vậy, các kỹ thuật

và phương pháp phát hiện được phát triển giúp nhanh chóng nhận diện và giảm thiểutác động mà cuộc tấn công lừa đảo gây ra Tuy nhiên, các phương pháp tiếp cận pháthiện lừa đảo có thể được phân thành năm loại như theo nghiên cứu của Aung và cộng

sự [10], bao gồm:

Trang 21

“Trong công trình nghiên cứu của Kang và cộng sự [11] thực hié kiểmtra sự giống nhau của URL để phân biệt các trang web lừa đảo với cáctrang web bình thường thông qua cơ chế so sánh với truy vấn hệ thốngphân giải tên miền (DNS) Phương pháp phát hiện dựa trên danh sáchtrắng có vẻ hiệu quả khi phát hiện trang web lừa đảo, tuy nhiên điểm hạnchế là không thé thu thập và tổng hợp được hết hết tat cả các trang webhợp pháp trên toàn thế giới Từ đó sẽ làm tỉ lệ dương tính giả (falsepositive) tăng cao, do thiếu hụt thông tin các trang web được liệt kê trong.danh sách trắng

công trình nghiên cứu của Sharifi và cộng sự [12] và PhishNet [13] đã đềxuất các kỹ thuật giúp phát hiện các trang web lừa đảo dựa trên danh sáchđen Mặc dù tỉ lệ phát hiện cao nhưng phương pháp này vẫn còn xuấthiện một vài điểm yếu như sử dụng các dịch vụ của bên thứ ba nhưGoogle Safe Browsing (cung cấp danh sách URL cho các tài nguyên web

có chứa phần mềm độc hại hoặc nội dung lừa đảo do Google cung cấp)nên thời gian phản hồi lâu, dẫn đến hiệu suất bị giảm đáng kể; tỉ lệ dươngtính giả vẫn tồn tại đáng ké khi thực nghiệm trên tập dữ liệu lớn và những

trang web lừa đảo mới phát sinh sẽ không được cập nhật vào danh sách đen.

(content-based): Mô hình dé xuất của Zhang và cộng sự [14] —

CANTINA dựa trên kỹ thuật phân tích nội dung trang web, sử dụng thuật

toán trích xuất thông tin TF-IDF (Term Frequency - Inverse DocumentFrequency), giúp thống kê số học nhằm phản ánh tầm quan trọng của một

từ đối với một văn bản trong một tập hợp hay một ngữ liệu văn bản Cáchtiếp cận này đạt được kết quả tốt hơn so với các công cụ chống lừa đảophổ biến tại thời điểm đó, đạt tỉ lệ dương tính thật là 97% và tỉ lệ dươngtính giả là 1% Sau đó, Xiang và cộng sự đã cải tiến và đề xuất mô hìnhCANTINA+ [15] giúp giảm tỉ lệ đương tính giả xuống còn 0.4% và tỉ lệ

Trang 22

TONG QUAN VAN ĐÈ NGHIÊN CỨU VÀ HƯỚNG TIẾP CAN CUA ĐÈ TÀI

dương tính thật là 92% Tuy nhiên, điểm yếu của cả hai phương pháp này

là sử dụng dịch vụ của bên thứ ba, do đó khi máy chủ phân giải

DNS bị

rủi ro tiềm an khác

n mình

ém có thé dẫn đến sự sai lệch trong phát hiện lừa đảo và những

© Phương pháp phát hiện dựa trên phân tích các đặc điểm tương đồngtrực quan (visual similarity-based): Chen và cộng sự [16] đã đề xuất mộtgiải pháp chống lừa đảo theo phương pháp dựa trên kinh nghiệm(heuristic) để mô hình hóa sự tương đồng trực quan, sử dụng một thuậttoán hồi quy logistic dé chuẩn hóa các đặc trưng nội dung trang Mặc dùphương pháp được đề xuất đạt được tỷ lệ dương tính thật là 100% nhưng

vẫn có tỷ lệ dương tính giả là 0,74% Tuy nhiên, các phương pháp phát

hiện dựa trên sự tương đồng cũ không cung cấp đủ khả năng bảo vệ trướccác cuộc tấn công lừa đảo mới, chưa được công bố (zero-day attack), vivay Sahar va cong su đề xuất mô hình VisualPhishNet [17] dựa trên mạngCNN có kết quả vượt trội hơn so với các phương pháp phát hiện dựa trêntương đồng trực quan trước đó Điểm hạn ché của phương pháp dựa trêntương đồng trực quan này là cần phải thu thập nội dung hoặc một phầnnội dung của trang web, các hình ảnh, thành phần có liên quan đề kiểmtra sự tương đồng, điều này có thê dẫn đến việc tiêu tốn nhiều tài nguyên

xử lý hơn các phương pháp khác.

(URL-based): Có nhiều công trình nghiên cứu về phương pháp phát hiện dựatrên phân tích đường dẫn URL như công trình của Banik và cộng sự [18]trong đó sử dụng các đặc tính được trích xuất từ URL và áp dụng làmđầu vào huấn luyện bộ phân loại dựa trên thuật toán máy véc tơ hỗ trợ

(SVM) hay công trình của Aaron và cộng sự [19] sử dụng các đặc trưng

ngữ pháp trong URL để phát hiên trang web lừa đảo Nhìn chung, phương

pháp phát hiện dựa trên phân tích đường dẫn URL được chứng minh là

phương pháp nhanh hơn so với phương pháp phát hiện dựa trên nội dung

và phương pháp phát hiện dựa trên tương đồng trực quan Đồng thời,phương pháp này hoạt động hiệu quả với những cuộc tan công lừa đảo

11

Trang 23

chưa được công bố, những cuộc tan công này đang trở thành một mốiquan tâm lớn trong việc chống lừa đảo hiện nay

Trong số các phương pháp đã được liệt kê, những nghiên cứu với hướng tiếpcận dựa trên phương pháp phát hiện dựa trên URL và dựa trên sự tương đồng trực

quan đã và đang được nghiên cứu rộng rãi, chứng minh được tính hiệu quả trong việc

phát hiện các trang web độc hại Bên cạnh đó, do hạn chế về mặt thời gian khi thực

hiện Luận văn, tác giả luận văn sẽ sử dụng phương pháp phát hiện dựa trên phân tích

đường dẫn URL và phương pháp phát hiện dựa trên các đặc điểm tương đồng trựcquan dé nghiên cứu và thực nghiệm cùng mô hình phát sinh dữ liệu dé xuất trong đề

tài này.

2.2.2 Giải pháp, hướng tiếp cận phát hiện trang web lừa đảo dựa trên học máy

Học máy (machine learning) là một nhánh của trí tuệ nhân tạo, mục đích của

học máy là sử dụng dữ liệu sẵn có đề học và có khả năng tự ra quyết định khi đối mặtvới các trường hợp mới Học máy có mối liên hệ chặt chẽ với các kỹ thuật toán họctrong quá trình trích xuất thông tin, khám phá mẫu và rút ra kết luận từ tập dữ liệu.Học máy đã được áp dụng khá phô biến trong việc phát hiện các trang web lừa đảo

Nghiên cứu của Ankit và cộng sự [20] áp dụng các thuật toán máy học LR, RE, SVM,

NB, NN trong việc phát hiện trang web độc hại với tỉ lệ dương tính thật lên tới 99,39%

và tỉ lệ chính xác tông cộng là 99,09% Nghiên cứu của Mouad và Benaceur [21] sử

dụng thuật toán SVM với tỉ lệ phát hiện công bố là 95,80% Hay nghiên cứu của

Abdulhamit và cộng sự [22] phát hiện trang web lừa dao thông qua thuật toán RF với

tỉ lệ chính xác cao nhất lên đến 97,36%

Trong đề tài này, tác giả không đi sâu vào lý thuyết của mỗi thuật toán học máynhưng sẽ sử dụng một số các thuật toán học máy này đề nghiên cứu và thực nghiệmcùng với mạng sinh đối kháng Trên thực tế, nhiều giải pháp học máy đã được ứngdụng vào các thành phần khác nhau như được tích hợp vào các phần mềm phòngchống mã độc, các tiện ích trên trình duyệt web hoặc được triển khai trên hệ thốngđám mây Một sô thuật toán sử dụng là công khai và một số khác thì không Do đó,

ở góc độ của kẻ tan công/kẻ lừa đảo, các cuộc tắn công vào các thuật toán học máyđôi khi được coi là một cuộc tan công hộp den do kẻ tắn công không biết rõ kiến trúc

Trang 24

mô hình thực tế, các tham số của thuật toán mà hệ thông hoặc ứng dụng đó đang triểnkhai Trong phạm vi dé tài này, tác giả giả định rằng những kẻ tan công không biết

về cau trúc mô hình học máy được sử dụng nhưng biết về các đặc trưng/thuộc tínhđầu vào mà thuật toán đó sử dụng

2.3 Mạng sinh đối kháng và hướng tiếp cận tiềm năng

2.3.1 Cơ sở lý thuyết Mạng sinh đối kháng

Vào năm 2014, Ian Goodfellow và cộng sự đã đề xuất Mạng sinh đối kháng(Generative Adversarial Network) [6], hay còn được viết tắt là GAN, là một hướngtiếp cận đề thiết lập một mô hình phát sinh dữ liệu thông qua việc kết hợp giữa phươngpháp học sâu và lý thuyết trò chơi trong quá trình huấn luyện mô hình Quá trình huấnluyện được thực hiện bằng cách đóng khung vấn đề cần giải quyết như một vấn đềhọc tập có giám sát bao gồm hai mô hình con, được minh họa theo Hình 2.1:

¢ Mô hình sinh (generator model): đầu vào là một chuỗi véc tơ biến ngẫu nhiên

có độ dài cố định và có gắng phát sinh dữ liệu mới, có tính hợp lý từ miền bài

toán.

© Mô hình phân biệt (discriminator model): đầu vào là các mẫu dữ liệu lấy từmiễn bài toán với mẫu dữ liệu thật lấy từ tập huấn luyện và mẫu dữ liệu giảlấy từ kết quả đầu ra của mô hình sinh Mô hình phân biệt cố gắng phân loạimột lớp nhị phân các mẫu thật (từ miền bài toán) và mẫu giả (được tạo ra từ

mô hình sinh).

Hai mô hình được huấn luyện cùng nhau nhưng với hai vai trò riêng biệt, trong

đó nhiệm vụ của mô hình sinh là cố gắng đánh lừa mô hình phân biệt và mô hìnhphân biệt thì cố gắng trở nên tốt hơn để không bị đánh lừa bởi mô hình sinh Quátrình huấn luyện kết thúc khi mô hình phân biệt bị đánh lừa bởi các mẫu được tạo ra

từ mô hình sinh, nghĩa là mô hình phân biệt không thé phân loại chính xác giữa cácmẫu thật và mẫu giả Thông qua các nghiên cứu gần đây [5] [7] [8], GAN được chứngminh là một phương pháp day tiềm năng và hiệu quả đối với mô hình phát sinh dữliệu đối kháng trong lĩnh vực An toàn thông tin

13

Trang 25

Dữ liệu thật Mẫu dữ liệu

3ổiq ueud quịu, OW eno 3U IE

MO HINH PHAN BIET|

MO HINH SINH Mẫu dữ liệu ( UỊ OW eno UN IPA

Biên ngẫu nhiên

Hình 2.1 Minh hoạt kiến trúc của Mạng sinh đối kháng (GAN)

GAN được kỳ vọng là một mô hình giúp giải quyết vấn đề mắt cân bằng lớptrong huấn luyện các thuật toán học máy, thông qua việc phát sinh các mẫu mới mộtcách đa dang từ tập dữ liệu góc, từ đó biến tập dữ liệu mat cân bằng thành cân bằng,làm tăng hiệu quả trong việc huấn luyện Vì GAN luôn có gắng phát sinh các mẫuđầu ra có tính hợp lý, một trường hợp có thé gặp phải đó là bộ sinh sẽ học cách tạo ramẫu hợp lý nhất, nghĩa là chỉ tạo ra cùng một mẫu đầu ra lặp đi lặp lại, dẫn đến mẫuphát sinh mat tính đa đạng Vấn đề này được gọi là chế độ sup đồ (mode collapse).Trong quá trình xây dựng và trién khai mô hình đề xuất, tác giả đã áp dụng một số kỹthuật để giải quyết vấn đề này và sẽ được trình bày chỉ tiết trong chương sau Ngoài

ra, kết quả của quá trình thực nghiệm cũng sẽ được phân tích để chứng minh mẫuđược tạo từ mô hình sẽ không rơi vào chế độ sụp đô

2.3.2 Ứng dung phat sinh dữ liệu tan công các bộ phát hiện trang web lừa dao

Van dé gặp phải trong nhiệm vụ phân loại nhị phân chính là sự mat cân bằng vềlớp, nếu một lớp có số lượng vượt trội lớp còn lại thi các trình phân loại có xu hướngchịu ảnh hưởng bởi lớp đa số Dac biệt là cho miền bài toán phân biệt các trang weblừa đảo Trong thực tế, các đường dẫn URL tin cậy thì nhiều hơn số đường dẫn URLđộc hại được thu thập và huấn luyện, do đó các trình phân loại sẽ khó khăn hơn trongviệc phân loại các đường dẫn URL độc hại Một trong những cải tiến chính khi áp

dụng phương pháp học sâu là kỹ thuật tăng cường dữ liệu (data augmentation) - một

kỹ thuật dé tăng tính đa dang của tập huấn luyện cách áp dụng các phép biến đổi ngẫunhiên Các kỹ thuật này thường được áp dụng đối với dữ liệu hình ảnh bao gồm cắt,

Trang 26

lật, phóng to, thu nhỏ và các biến đổi đơn giản khác các hình ảnh hiện có trong tập

dữ liệu đào tạo Tăng cường dữ liệu giúp các mô hình hoạt động tốt hơn, vừa tăng kỹ

năng của mô hình vừa đảm bảo khả năng chính quy hóa tránh hiện tượng mô hình dự

đoán quá khớp với tập huấn luyện, đồng thời giảm thiểu lỗi khi tạo dữ liệu Kỹ thuậtnày hoạt động bằng cách tao ra các mau dữ liệu mới nhưng vẫn đảm bảo được tínhhợp lý từ miền của vấn dé đầu vào mà mô hình được đào tạo Trên thực tế, tăng cường

di liệu là phiên bản đơn giản hóa của một mô hình sinh (generative model) Trong

các miên phức tạp hoặc các miền có lượng dir liệu hạn chế, mô hình sinh cung cấpkhả năng phát sinh dữ liệu huấn luyện nhiều hơn cho mô hình

Ngoài ra, một vấn đề đáng được lưu tâm trong lĩnh vực an toàn thông tin đó làphát hiện các cuộc tắn công mới, chưa được biết đến (zero-day / zero-hour attacks).Cùng với sự phát triển nhanh chóng của khoa học công nghé, các cuộc tan công lừađảo trên không gian mạng ngày càng tinh vi và phức tạp, không chỉ về cách thức tiếp

cận, khai thác mục tiêu mà còn về khả năng lân trốn, qua mặt các trình phát hiện trang

web lừa đảo Do đó, các kỹ thuật phát hiện dựa trên dấu hiệu (signature-based) dầntrở nên yếu thé trước các mối đe dọa mới này Các mô hình sinh đã mở ra một hướngtiếp cận tiềm năng giúp tăng cường khả năng phát hiện các cuộc tắn công mới, chưađược biết đến trước đó thông qua việc chủ động phát sinh các mẫu tan công tiềm ẩn,

sử dụng để huấn luyện các thuật toán học máy Đây được xem như là một phươngpháp chủ động phòng thủ trước các mối đe dọa tiềm an

Có nhiều nghiên cứu, thảo luận tại sao GAN lại là một hướng tiếp cận tiềm năng,quan trọng và cần được nghiên cứu thêm Trong bài phát biểu tại hội nghị NIPS 2016[23] tác giả lan Goodfellow đã nhấn mạnh khả năng thành công của GAN để thiếtlập mô hình với dữ liệu có số chiều cao, xử lý dữ liệu bị thiếu và khả năng cung cấpđầu ra có nhiều mẫu hợp lý Đối với lĩnh vực về an toàn thông tin, công trình của tácgiả Lin và cộng sự [8] dé xuất mô hình IDSGAN sử dụng mạng sinh đối kháng dé

phát sinh dữ liệu dựa trên tập dữ liệu NSL-KDD có khả năng đánh lừa và lân tránh

hệ thống phát hiện xâm nhập mạng; công trình của Hu và Tan [7] đề xuất một môhình dựa trên mạng sinh đối kháng là MalGAN để tạo các mẫu mã độc đối kháng, tancông vượt qua các mô hình phát hiện dựa trên máy học Và liên quan đến phát hiện

15

Trang 27

trang web lừa đảo, gần đây nhất là công trình của Ahmed và George [5] ứng dụngGAN trong việc phát sinh dữ liệu tắn công các mô hình phát hiện URL lừa đảo dựatrên học máy Đầu vào của mô hình bao gồm 30 đặc trưng được trích xuất từ đườngdẫn URL của trang web và giá trị các đặc trưng gồm các giá trị nhị phân Nghiên cứu

của Ankesh và cộng sự [24] áp dụng GAN trong việc tăng cường dữ liệu thông qua

phát sinh các mẫu URL tổng hợp trong không gian dữ liệu (URL dạng chuỗi, khôngphải không gian đặc trưng) Điểm khác biệt của đề tài này là xây dựng mô hình phát

sinh dữ liệu trong không gian đặc trưng có tính linh hoạt cao, các dữ liệu phát sinh

giúp tăng cường dữ liệu và dựa trên các mẫu URL từ tập dữ liệu lừa đảo tạo ra các

mẫu URL độc hại tiềm an, đại diện cho các cuộc tấn không có thê xảy ra trong tươnglai Đồng thời mô hình có thé được tái sử dụng trong các nghiên cứu tiếp theo thôngqua việc điều chỉnh, tùy biến mô hình phù hợp với tập dữ liệu huấn luyện của bài toáncần nghiên cứu một cách đơn giản

24 Kếtchương

Thông qua quá trình khảo sát, tìm hiểu các công trình nghiên cứu liên quan đến

đề tài, tác giả đã thu thập và nắm được một số van đề liên quan và hướng tiếp cận củabài toán phòng chồng các cuộc tan công lừa đảo qua mạng mà cụ thể là phát hiện cáctrang web lừa đảo Bên cạnh đó, tác giả cũng đã phân tích những ưu và nhược điểmcủa các phương pháp phát hiện trang web lừa đảo, cũng như những vấn đề cần giảiquyết của các nghiên cứu hiện nay Đề xuất việc sử dụng mạng sinh đối kháng giúpphát sinh các mẫu dữ liệu tan công tiềm ẩn, qua mặt các trình phát hiện học máy hộpđen, từ đó hỗ trợ tăng cường tập dữ liệu huấn luyện, cải thiện hiệu suất của các trình

phát hiện trang web lừa đảo.

Trong những chương tiếp theo, tác giả sẽ trình bày cụ thê về kiến trúc và thuậttoán huấn luyện của mô hình đề xuất, ứng dụng mô hình đề xuất dé phát sinh dữ liệuđối kháng cho kỹ thuật phân tích dựa trên đường dẫn URL và kỹ thuật phân tích sựtương đồng trực quan

Trang 28

MÔ HÌNH DE XUÁT

CHUONG 3 MÔ HÌNH DE XUẤT

Trong chương này, tác giả sẽ trình bày cụ thể về cấu trúc và thuật toán huấnluyện của mô hình đề xuất trong nhiệm vụ phát sinh dữ liệu dựa trên mạng sinh đốikháng, tái huấn luyện giúp nâng cao khả năng phát hiện trang web độc hại của các

trình phát hiện dựa trên học máy Ngoài ra, tác giả cũng trình bày khả năng ứng dụng

của mô hình đề xuất đối với hai kỹ thuật phát hiện trang web lừa đảo là phát hiện duatrên phân tích URL và phát hiện dựa trên sự tương đồng trực quan

3.1 Đề xuất mô hình PWDGAN và thuật toán huấn luyện

Dựa trên những lợi ích tiềm năng mà mạng sinh đối kháng tạo ra, tác giả đề xuấtmột mô hình phát sinh dữ liệu, tăng kích thước mẫu làm cân bằng tập dữ liệu huấn

luyện, giúp nâng cao khả năng phát hiện trang web lừa đảo, được đặt tên là là mô

hình PWDGAN Về mặt tổng quan, mô hình dé xuất bao gồm hai thành phan:

-_ Khối tiền xứ lý dữ liệu: trích xuất đặc trưng và chuẩn hóa dữ liệu đầu vàophù hợp với mô hình huấn luyện

- Khối mô hình hudn luyện: gồm một hình GAN tiêu chuẩn với bộ sinh dữ

liệu (kí hiệu là G), bộ phân biệt (kí hiệu là D) và một trình phát hiện trang

web lừa đảo hộp đen dựa trên học máy (kí hiệu là PWD).

Trong mô hình huấn luyện, bộ sinh đóng vai trò là bộ phát sinh các mau dữ liệu

mới; bộ phân biệt được sử dụng đề bắt chước trình phát hiện trang web lừa đảo, phânbiệt giữa các mẫu thật và các mẫu lừa đảo; cung cấp thông tin độ dốc trong quá trìnhhuấn luyện bộ sinh Minh họa mô hình đề xuất được trình bày như trong Hình 3.1

Trích xuất đặc trưng | >| miuBiến đầu vào

aie ngẫu nhiện j 7

Tiền xử lý dữ liệu Bộ sinh f(t

h

Thông tin phản hỏi đề huần luyện‘etn pha ơi Bộ phân biệt

Mô hình huan luyện |

Bộ dữ liệu tin cdy Bộ dữ liệu độc hại

Hình 3.1 Mô hình phát sinh dữ liệu và nâng cao khả năng phát hiện lừa đảo qua mạng

dựa trên mạng sinh đối kháng

17

Trang 29

MÔ HÌNH DE XUÁT

3.1.1 Tiền xử lý đữ liệu

Trong mô hình dé xuất, khối tiền xử lý dữ liệu đảm nhiệm vai trò trích xuất cácđặc trưng và chuân hóa dữ liệu đầu vào đã gan nhãn từ các bộ dữ liệu tin cậy và bộ

dữ liệu độc hại Tùy thuộc vào kỹ thuật phát hiện trang web độc hại, các dữ liệu đưa

vào bộ tiền xử lý sẽ khác nhau (ở dạng chuỗi, dạng hình ảnh, tệp mã html, ) Trong

dé tài này, tác giả dé xuất sử dụng các mẫu đầu vào được trích xuất và chuẩn hóa cógiá trị thuộc miền không gian đặc trưng, nghĩa là tiến hành véc tơ hóa định dang dữliệu đầu vào gốc Mục đích là xây dựng một mô hình huấn luyện có tính linh hoạt

cao, có khả năng áp dụng được cho nhiều kỹ thuật với nhiều dang dit liệu dau vao

khác nhau Mở ra co hội ứng dụng mô hình dé xuất PWDGAN cho các nghiên cứutrong tương lai, thông qua việc tỉnh chỉnh khối tiền xử lý dữ liệu và một vài cài đặttrong mô hình huấn luyện sao cho phù hợp với kỹ thuật cần nghiên cứu và thựcnghiệm một cách đơn giản, thuận tiện Đề chứng minh tính khả thi của mô hình đềxuất có thể ứng dụng cho nhiều dạng kỹ thuật khác nhau, trong CHƯƠNG 4 tác giả

sẽ hiện thực mô hình để xuất và thực nghiệm dựa trên hai kỹ thuật phát hiện trangweb lừa đảo là dựa trên phân tích URL và dựa trên phân tích sự tương đồng trực quan

3.1.2 Bộ sinh

Bộ sinh (Generator - G) mục dich là chuyển đồi véc tơ đặc trưng của một mẫuvéc tơ độc hại thành một phiên bản véc tơ đặc trưng mới Đầu vào của bộ sinh baogồm một véc tơ đặc trưng n và một véc tơ nhiễu z Với n là một véc tơ N chiều vớimỗi thành phần của n tương ứng với một đặc trưng được trích xuất tuân theo phân

phối chuẩn có giá trị trong khoảng [0;1) z là một véc tơ có độ dài cố định và mỗi

thành phần được sinh ngẫu nhiên theo hàm phân phối Gauss cũng có giá trị trongkhoảng [0;1) Mục đích của việc thêm z làm đầu vào cho bộ sinh nhằm mục đích chophép bộ sinh tạo ra nhiều biến thể mới chỉ từ một mẫu véc tơ đặc trưng trích xuất từ

một URL/từ một hình ảnh chụp giao diện trang web.

Về cầu tạo, bộ sinh gồm có một lớp đầu vào, ba lớp ân với số nơ ron an của mỗilớp lần lượt gồm có 256, 512, 1024 và lớp đầu ra của bộ sinh bao gồm N nơ ron được

kích hoạt bởi hàm kích hoạt sigmoid được trình bay theo công thức (3.1), đảm bao

Trang 30

Ngoài ra, mỗi lớp an trong bộ sinh được kích hoạt bởi ham kích hoạt

LeakyReLU và được chuẩn hóa bởi phương pháp chuẩn hóa hàng hoạt (BatchNormalization) giúp bộ sinh được én dinh trong qua trinh hudn luyện [25]

Hình 3.2 Mô phỏng cấu tạo của bộ sinh trong mô hình PWDGAN

3.1.3 Bộ phân biệt

Bộ phân biệt trong mô hình PWDGAN về bản chất tương đồng với một mô hìnhphân lớp thông thường Bộ phân biệt lấy một véc tơ đặc trưng của một URL làm đầuvào và dự đoán mẫu dữ liệu đối kháng này là độc hại hay bình thường Bởi vì kẻ tắncông không biết được cấu trúc bên trong của một trình phát hiện trang web lừa đảohộp đen, bộ phân biệt có nhiệm vụ mô phỏng, bắt chước trình phát hiện và cung cấpthông tin độ dốc (gradient information) dé bộ sinh tìm cách tối ưu tốt nhất

Đầu vào của bộ phân biệt bao gồm các mẫu phát sinh mới m được bộ sinh tạo

ra và các mẫu véc-tơ đặc trưng của các mẫu tin cậy được lấy từ tập cơ sở dữ liệu Đầu

tiên, cả hai nhóm mẫu véc tơ này được gán nhãn bởi trình phát hiện trang web lừa

đảo dựa trên học máy Tiếp theo, mẫu và nhãn vừa được gán sẽ được sử dụng như là

19

Trang 31

MÔ HÌNH DE XUÁT

tập cơ sở dữ liệu huấn luyện cho bộ phân biệt Điều này có mục đích đảm bảo rằng

bộ phân biệt sẽ tương đồng với các trình phát hiện trang web lừa đảo

Cấu trúc của bộ phân biệt được minh họa ở Hình 3.3 sẽ có thêm hai lớp ân với

số nơ ron ân lần lượt là 512 và 256 và cả hai lớp ân này đều được kích hoạt bởi hamkích hoạt LeakyReLU Lớp đầu ra của mạng có một nơ ron và sử dụng hàm kích hoạtsigmoid, đảm bảo giá trị của no ron dau ra nằm trong khoảng giữa 0 và 1

)

SS <2 ⁄4 O

L2 đầu ra

Hình 3.3 Mô phỏng cấu tạo của bộ phân biệt trong mô hình PWDGAN

3.1.4 Trình phát hiện trang web lừa đảo hộp đen dựa trên học máy

Trong mô hình đề xuất PWDGAN, trình phát hiện trang web lừa đảo hộp đen

dựa trên học máy (hay trình phân loại trang web lừa đảo và trang web tin cậy dựa trên

học máy), được thiết lập nhằm mục đích mô phỏng một trình phát hiện trang web lừađảo trong thực tế, xác thực khả năng tạo ra các mẫu dữ liệu đối nghịch do PWDGANtạo ra, hỗ trợ gán nhãn huấn luyện cho bộ phân biệt và là cơ sở dé nghiên cứu, thựcnghiệm nâng cao hiệu suất phát hiện các trang web lừa đảo

Trong thực tế, người dùng đầu cuối hay kẻ lừa đảo không thể hoặc có rất ít khảnăng biết được cấu trúc, thuật toán cụ thể mà các trình phát hiện trang web lừa đảo

sử dụng Do đó, phương pháp tan công hộp đen được áp dụng trong quá trình huấnluyện PWDGAN với mục đích mô phỏng sát thực tế nhất quá trình phát sinh dữ liệu,

Trang 32

MÔ HÌNH DE XUÁT

cố gắng lan tránh và qua mặt các trình phát hiện trang web lừa đảo dựa trên máy học.Trong dé tài này, tác giả đã sử dụng một số thuật toán học máy khác nhau đề thựcnghiệm, đánh giá kết quả và hiệu suất của PWDGAN trong việc qua mặt các trìnhphát hiện trang web lừa đảo bao gồm: Máy véc tơ hỗ trợ (Support Vector Machine -SVM), Cây quyết định (Decision Tree - DT), Rừng quyết định ngẫu nhiên (RandomForest - RF), Hồi quy logic (Logistic Regression - LR), Mạng nơron truyền thẳngnhiều lớp (Multi-layer Perceptron - MLP)

3.1.5 Tái huấn luyện các trình học máy phát hiện trang web lừa dao

Kết thúc quá trình huấn luyện PWDGAN để tn công các bộ phát hiện dựa trênhọc máy, PWDGAN có khả năng tạo ra các mẫu đối nghịch mới, qua mặt được hầuhết các bộ phát hiện hộp đen Điều này đem lại tiềm năng trong việc tăng cường sốlượng mẫu và sự đa dang biến thể về tính chất của mẫu huấn luyện giúp cải thiện hiệusuất của các trình phát hiện trang hiện trang web lừa đảo Trong thực tế, các công tygiải pháp an ninh mạng sẽ thường xuyên cập nhật các giải pháp phần mềm bảo mật,phát hiện lừa đảo, phát hiện mã độc thông qua việc thu thập mẫu mới và tái huấnluyện các giải pháp phần mềm này dé tăng cường khả năng nhận diện sự bất thườnghay mối đe dọa an ninh mạng Giả sử rằng, các công ty giải pháp an ninh mạng này

có khả năng thu thập được các mẫu trang web độc hại mới trên không gian mạng déhuấn luyện cho các trình học máy phát hiện trang web lừa đảo học và phân loại cácmẫu này Ngay khi các bản cập nhật được phát hành, kẻ tắn công / kẻ lừa đảo có thể

sử dụng phiên ban phần mềm mới nhất này dé tái huấn luyện PWDGAN, tạo ra cácmẫu đối kháng mới mạnh hơn, có khả năng vượt mặt các giải pháp phần mềm pháthiện trang web lừa đảo Kết thúc quá trình này, các giải pháp phần mềm phát hiện lừađảo trở nên mất tác dụng trước các mẫu trang web đối nghịch độc hại mới Dé tăng

cường khả năng phát hiện các mẫu trang web độc hại, các công ty giải pháp an ninh

mạng cần thu thập được hết các mẫu đối nghịch mới này và tái huấn luyện cho cácgiải pháp phần mềm của họ Nhưng điều này là bất kha thi trên thực tế vi rất khó déthu thập số lượng lớn các trang web được gán nhãn là độc hại được tạo ra trên không

gian mạng.

21

Tiêu đề	Phát hiện các cuộc tấn công lừa đảo dựa trên URL và dựa trên sự tương đồng trực quan bằng cách sử dụng mạng đối kháng tạo sinh
Tác giả	Trịnh Nguyên Bác
Người hướng dẫn	TS. Phạm Văn Hậu
Trường học	Đại học Quốc gia TP.HCM
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2021
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	64
Dung lượng	30,65 MB