1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Nghiên cứu phương pháp phát hiện website lừa đảo dựa trên cách tiếp cận học đa thể thức và học máy đối kháng

96 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp phát hiện website lừa đảo dựa trên cách tiếp cận học đa thể thức và học máy đối kháng
Tác giả Võ Quang Minh, Bùi Tấn Hải Đăng
Người hướng dẫn TS. Phạm Văn Hậu, ThS. Phan Thế Duy
Trường học Đại học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành Cử nhân ngành An toàn thông tin
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 96
Dung lượng 35,78 MB

Nội dung

Chương 1TONG QUAN DE TÀI Tom tat chuong Trong chương này, chúng tôi trình bay tom tắt về hiện trạng lừa đảo nghiêm trọngtrên không gian mạng hiện nay, các phương pháp và công nghệ đang đ

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA MẠNG MAY TÍNH VÀ TRUYEN THONG

VÕ QUANG MINH - 20520248

BUI TAN HAI DANG - 20520173

KHOA LUAN TOT NGHIEP

A STUDY ON ADVERSARIAL SAMPLE RESISTANCE AND DEFENSE MECHANISM FOR MULTIMODAL LEARNING-

BASED PHISHING WEBSITE DETECTION

CU NHAN NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS PHAM VAN HAU

THS PHAN THE DUY

TP HO CHI MINH, 2024

Trang 2

LOI CAM ON

Đề hoàn thành khóa luận tốt nghiệp này, chúng tôi xin gửi lời cảm ơn đến Ban giám hiệu Trường Đại học Công nghệ Thông tin — Dai học Quốc Gia Thành Phó Hồ Chí Minh vì đã tạo điều kiện học tập, nghiên cứu tốt nhất Cảm ơn quý thầy cô giảng dạy tại trường nói chung và Khoa Mạng máy tính & Truyền thông nói riêng vì đã truyền đạt không chỉ những kiến thức chuyên môn bổ ích mà còn là những kinh

nghiệm thực tế quý báu mà nhóm đã học hỏi được trong suốt quá trình học tập tại

trong toàn bộ những thành tựu chúng tôi đã đạt được.

Bên cạnh đó, nhóm xin chân thành cảm ơn các thầy cô, anh chị đang công tác

tại Phòng thí nghiệm An toàn thông tin - InSecLab vì đã luôn tạo điều kiện về cơ sở

vật chất với hệ thống máy chủ hiện đại, luôn sẵn sàng nhiệt tình hỗ trợ chúng tôi về

chuyên môn lẫn kinh nghiệm trong các hoạt động nghiên cứu và thực hiện khoá luận.

Cuối cùng, do kiến thức chuyên môn còn hạn chế nên khóa luận chắc chắn

không tránh khỏi những thiếu sót Rất mong nhận được nhận xét, ý kiến đóng góp, phê bình từ quý thầy cô trong hội đồng đề khóa luận được hoàn thiện hơn.

Nhóm thực hiện.

Trang 3

Mục lục

TÓM TẮT KHOÁ LUẬN 1

1 TONG QUAN ĐỀ TÀI 2

11 Lýdochọnđểtài ee 2

12 Phuong pháp nghiên cứu - 6

13 Mục tiêu nghiêncứu 6

1.4 Phạm vi và đối tượng nghiên cứu 7

1.5 Công bố khoa học và giải hưởng - 7

1.6 Cấu trúc Khóa luận tốt nghiệp 8

2 COSO LY THUYET 9 2.1 Tình hình nghiên cứu các ki thuật xây dựng va phat hiện Website lừa đảo hiénnay 1 ẶQ QQ Q Q Q Q Q sỦ 9 2.11 Các kỹ thuật xây dựng Website lừa đảo hiện nay 10

2.1.2 Các phương pháp phát hiện Website lừa đảo 10

2.1.3 Ví dụ về tên miễn lừa đảo nguyên bản và tên miễn lừa đảo đối kháng ee 11 Tên miễn lừa đảo nguyên bản 11

Tên miễn lừa đảo nguyên bản đối kháng 11

22_ Mô hình học Đa thểthức 12

2.2.1 Phân loại các mô hình học đa thểthức 12

2.2.2 Mô hình phân loại website áp dụng học Da thé thức 13

2.3 Khung sinh mẫu AWG và các chiến lược tan công, phòng thủ 14

2.3.1 Tổng quan Mạng sinh đối kháng GAN 14

Mô hình WassersteinGAN 16

2.3.2 Kỹ thuật tan công đối kháng 16

2.3.3 Kỹ thuật tấn công chuyển giao đối kháng 17

Trang 4

2.3.4 Tân công giả mạo đồng hình

Các hình thức tan công giả mạo đồng hình

2.3.5 Các chiến lược phòng thủ trước cuộc tân công đối khang 2.4 Mô hình Mạng khả diễn giải

XAI -Tổng QUân ee Một số đặc điểm của Mang khả diễn giải XAI

2.5 So sánh với những nghiên cứu trước đây

PHƯƠNG PHÁP THỰC HIỆN 3.1 Thu thập dữ liệu phục vụ cho nghiên cứu

3.1.1 Tổng quan vẻ bộ dữ

liệu -3.12 Cách thứcthuthập

3.2 Mô hình học sâu đa thể thức Shark-Eyes [42]

3.2.1 NhánhcâutrúcDOM

Xử lý dữ liệu

Cá may: $®$ \ /

3.2.2 Nhánh cau trúc từ ngữ tên miển

xấn; dd q@18./ `

Cấu trúc II đẾ ef ens 3.2.3 Nhánh hình ảnh tên miền

Xử lý dữ liệu

-Cau trúc mạng Ặ co 3.24 Lớp đưa ra

quyếtđịnh -3.3 Các nghiên cứu về học sâu đơn thể thức và da thể thức gần đây

3.3.1 Các mô hình học sâu đơn thé thttc

3.3.2 Mô hình học sâu đa thểthức

3.4 Xây dung và huấn luyện bộ khung tan công AWG

3.4.1 Các tập dữ liệu cần

thiết -3.4.2 Kiến trúc khung tan công AWG

Mô hình phát hiện hộp đen Blackbox

Bộ sinh Ặ.Ặ QẶ eee Bộ phân biệt

3.43 Quá trìnhhuấn luyện

-35 Bộ khung cải thiện XAI Homo

VI

19

Trang 5

3.7

3.8

Chiến lược tan công đối kháng nhắm vào các mô hình phát hiện

trang web lừa đảo ee ee

Chiến lược phòng thủ trước tan công đối kháng

Tổng quan quá trình hoạt động của tiện ích Shark-Eyes

HIỆN THỰC VÀ ĐÁNH GIÁ, THẢO LUẬN 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 Môi trường thực nghiệm

4.1.1 Môi trường huấn luyện và kiểm thử các mô hình dé xuất 4.1.2 Môi trường phát triển tiện ích Shark-Eyes

Dữ liệu thực nghiệm

Tiêu chí đánh giá Ặ ees 43.1 Hiệu năng củabộsinh

4.3.2 Chỉ số pháthiện - DetectionRate

4.3.3 Tỉ lệ trốn tránh -Evasion Rate

Mô hình nạn nhân

Mô hình hộp đen Blackbox

Khung sinh mẫu đối kháng AWG_

Kịch bản thử nghiệm

4.7.1 Đánh giá hiệu năng của các mô hình phân loại tên miễn

4.7.2 Đánh giá hiệu năng của các mô hình phân loại Website

4.7.3 Khảo sát khả năng phòng thủ của các mô hình trước tấn công đối kháng chuyển giao

4.74 Khảo sát khả năng phòng thủ của các mô hình phân loại website trước tân công nâng cao áp dụng bộ khung cải thiện XAI Homo Ặ.Ặ.ẶẶẶẶ

4.7.5 Đánh giá hiệu năng của khung sinh mẫu AWG

4.7.6 Tăng cường khả năng phòng thủ của các mô hình

Kết quả nghiệm thu

4.8.1 Đánh giá hiệu nang của các mô hình phân loại tên miền

4.8.2 Đánh giá hiệu nang của các mô hình phân loại Website

4.8.3 Khảo sát khả năng phòng thủ của các mô hình trước tấn công đối kháng chuyển giao

-vii

55

55

55

56 56 57 58 58 58 59 60 60

61

62 62

62

62

63

63 63 63 64

Trang 6

4.8.4 Khảo sát khả năng phòng thủ của các mô hình phân loại

website trước tân công nâng cao áp dụng bộ khung cải thiện

XAI Homo Ặ.Ặ eee 69

4.8.5 Đánh giá hiệu năng của khung sinh mẫu AWG 70

4.8.6 Tăng cường khả năng phòng thủ của các mô hình 71

4.9 Hiện thực tiện ich Shark-Eyes trên trình duyệt web 74

5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 76

5.1 Kétluan 0 Ta Ga 76 5.2 Hướng phát triển ee 78

viii

Trang 7

Danh sách hình ve

1.1

2.1

2.2

2.3

2.4

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

3.10

3.11

3.12

3.13

3.14

4.1

4.2

Thống kê số lượng các cuộc tấn công Phishing diễn ra từ Quy

1/2021 đến Quy 4/2023 - 3

Tổng quan kiến trúc mô hình hoc đa thể thức 13

Tổng quan kiến trúc mô hình đa thể thức sử dụng trong phân loại Website 2⁄2 c ấnh 14

Anh mặt người được sinh ra bởi mang sinh đối kháng 15

Các đặc điểm nổi bật của công nghệ Explainable AI 22

Kiến trúc tổng quan của mô hình đa thể thức Shark-Eyes [42] 26

Cấu trúc tệp HTML cơbản - 28

Câu trú tùy DOME TÀ 6M /J 28

Chuyển đổi danh sách thẻ thành vectơ 29

Chuyển đổi danh sách ký tự thành vectơ 30

Chuyển đổi tên miền thành ảnhxám 32

Cấu trúc mang CNN trích xuất thuộc tính ảnh 33

Sơ lược kiến trúc của mô hình Multi-Modal DL[8] 36

Sơ lược kiến trúc của bộ khung tan công AWG_ 37

Tổng quan kiến trúc bộ khung cải thiện XAI Homo_ 47

Tổng quan cơ ché tấn công chuyển giao đối kháng 48

Tổng quan cơ ché tắn công sử dụng khung AWG 50

Tổng quan chiến lược phòng thủ - 52

Sơ đồ triển khai hoạt động của tiện ích Shark-Eyes 53

Úng dụng nhận diện trang Web an toàn 75

Ung dụng nhận diện trang Web lừa đảo 75

ix

Trang 8

Danh sách bảng

2.1

3.1

3.2

3.3

4.1

4.2

4.3

4.4

4.5

4.6

4.7

4.8

4.9

4.10

4.11

4.12

4.13

4.14

4.15

Bảng so sánh dé tai của nhóm với các nghiên cứu trước 23

Bảng thiết kế Bộ sinh 40

Bảng thiết kế Bộ phân biệt - 42

Bảng mô tả các kí tự được sử dụng trong thuật toán huấn luyện mô hình WGAN Z2 el — — 44

Thống kê bộ dữ liệu trang web - 56

Thống kê tập dữ liệu tên miển - 57

Các mô hình được sử dụng trong thực nghiệm 59

Các siêu tham số của các mô hình nhóm dé xuất 60

Siêu tham số của mô hình mạng sinh đối kháng WGAN 61

Thống kê hiệu năng của các mô hình phân loại tên miễn 64

Thống kê hiệu năng của các mô hình phân loại Website 66

Thống kê thời gian và tài nguyên tiêu thụ của các mô hình G7 Tỉ lệ phát hiện các mẫu đối kháng của các mô hình phân loại tên Tỉ lệ phát hiện các mẫu đối kháng của mô hình phân loại Website 69 Thống kê khả năng phát hiện các mẫu đối kháng Homo của các mô hình Q Q Q Q ee 70 Thống kê tỉ lệ sinh mẫu hợp lệ của bộ sinhG_ Z1 Ví dụ về các mẫu đối kháng sinh ra bởi khung AWG được huấn luyện với mô hình hộp đen là MM và RF 72

Thống kê thời gian và tài nguyên tiêu thu trong quá trình sinh mẫu đối kháng của Bộ sinhG_ 72 Thống kê tỉ lệ trốn tránh thành công của mẫu đối kháng trước các

Trang 9

4.16 Hiệu năng của các mô hình sau khi sử dụng chiến lược phòng thủ

do nhóm đề xuất ẶẶc

bái

Trang 10

Danh mục từ viết tắt

AE Adversarial Example AWG Adversarial Website Generation

BB Black Box CNN Convolutional Neural Network

DL Deep Learning

DT Decision Tree

EL Ensemble Learning GAN Generative Adversarial Network

WGAN Wasserstein Generative Adversarial Network

xii

Trang 11

Hàm giá trị Hàm kích hoạt

Hàm mat mátHọc đa thể thức

Học sâu Học máy

Học tổng hợpLớp đầu vàoLớp đầu raLớp an

Mạng nơ-ron

Siêu tham sốThuật toán tối ưuTốc độ học

Tan công giả mạo đồng hìnhTrọng số mạng

Tỉ lệ phát hiện

Tỉ lệ trốn tránh

Danh mục từ tạm dịch

Value function Activation function Loss function

Multimodal Learning

Deep Learning

Machine Learning Ensemble Learning Input layer

Output layer

Hidden layer Neural network

Hyperparameter

Optimizer

Learning rate Homograph Phishing Attack

Weight

Detection Rate Evasion Rate

xiii

Trang 12

TÓM TẮT KHOÁ LUẬN

Ngày nay, hiện trạng lừa đảo trên không gian mạng xảy ra ngày càng nhiềutrên toàn thế giới Trong số đó, các cuộc tấn công lừa đảo nhắm vào các trang

web của những tổ chức, doanh nghiệp lớn để giả mạo nhằm đánh cắp tài sản của

người dùng là một trong các hình thức lừa đảo mạng diễn ra phổ biến nhất Điềunày gây thiệt hại lớn không chỉ về tài sản mà còn là uy tín của tổ chức, doanhnghiệp hay thậm chí là một quốc gia, tạo nên một không gian mạng không lànhmạnh và không đáng tin cậy gây ra cảm giác bất an lo sợ cho người dùng duyệtweb Do đó các phương pháp để phát hiện các website lừa đảo đang được các nhàkhoa học trên toàn thế giới quan tâm và nghiên cứu nhằm giảm thiểu tối đa rủi rocủa các cuộc tấn công này gây ra Đã có nhiều giải pháp được dé xuất như danh

sách các trang được chấp nhận/chặn (danh sách trắng /đen), kiếm tra điện mao

của trang web, nổi bật trong những giải pháp được dé xuất là phương pháp

phát hiện dựa trên công nghệ trí tuệ nhân tạo với khả năng phát hiện các trang

web zero-day, có độ chính xác cao và thời gian nhận định không quá lâu Các mô

hình học máy được nghiên cứu ngày càng hoàn thiện với khả năng đưa ra nhận

định có độ chính xác cao trong một thời ngắn Trong đó, mô hình học đa thể thức

là một công nghệ đang nổi lên với những tiềm năng vượt trội về khả năng dự

đoán Tuy nhiên, các nhà nghiên cứu đã chỉ ra rằng các mô hình học máy thường

dé bị ảnh hưởng bởi các cuộc tan công đối kháng và các mô hình học da thể thứcđược giới thiệu là có khả năng vượt trội nhưng vẫn chưa có nhiều nghiên cứu vềkhả năng chống lại các cuộc tân công đối kháng của các mô hình này

Do đó, trong dé tài khoá luận này, nhóm tiến hành khảo sát hiệu xuất phát hiệntrang web lừa đảo, khả năng chống lại các cuộc tấn công đối kháng của các môhình da thể thức va đơn thể thức Đồng thời dé xuất phương pháp tấn công đểsinh mẫu đối kháng với độ hiệu quả cao, cùng với chiến lược phòng thủ tăng

cường kha năng chống chịu của các mô hình học máy trước các cuộc tan công đối

kháng tỉnh vi.

Trang 13

Chương 1

TONG QUAN DE TÀI

Tom tat chuong

Trong chương này, chúng tôi trình bay tom tắt về hiện trạng lừa đảo nghiêm trọngtrên không gian mạng hiện nay, các phương pháp và công nghệ đang được thếgiới sử dụng để giải quyết van dé nay cũng như điểm mạnh của phương pháp sử

dụng AI trong lĩnh vực phát hiện trang web lừa đảo Bên cạnh đó, nhóm làm rõ

mục tiêu, phạm vi nghiên cứu và câu trúc chỉ tiết của khoá luận

11 Lý do chọn đề tài

Trong kỉ nguyên công nghệ bùng nổ ngày nay, sự tiện lợi và phổ biến của Internetngày càng tăng cao, số lượng người dùng tiếp xúc và sử dụng Internet cũng tăngdần theo thời gian Chỉ tính riêng ở Việt Nam, theo thống kê của DataReportal[26] số lượng người dùng Internet đã lên đến 78.44 triệu người dùng, tăng 0.6%

so với năm ngoái Hơn nữa, số lượng người dùng Internet tại Việt Nam chiếm tỉ

lệ 79.1% trên tổng dân số Việt Nam và van còn dấu hiệu sẽ tiếp tục tăng Chi tiết

số liệu thống kê người dùng Internet tại Việt Nam được biểu diễn tại Hình ??

Tuy số lượng người sử dụng Internet rất nhiều, nhưng tỉ lệ người có kiến thức

về an toàn thông tin và ý thức bảo vệ bản thân khi sử dung Internet chỉ chiếmphần ít Đây được xem là "mỏ vàng" để những kẻ xấu triển khai các cuộc tan công

lừa đảo giả mạo nhằm đánh cắp các thông tin nhạy cảm, tài sản số, gây ra tổn thất

về tài chính cũng như danh tiếng của các tổ chức và doanh nghiệp lớn Tan cônglừa đảo mạng còn được gọi với cái tên phổ biến là Phishing, là một dạng tan côngmạng phổ biến, tồn tại nhiều hình thức như Phishing Email, Phishing SMS, Voice

2

Trang 14

Chương 1 TỔNG QUAN ĐỀ TÀI

Phishing hay một phương pháp phổ biến là Phishing Website mà nhóm sẽ nghiêncứu trong dé tài khoá luận này Với Phishing Website, kẻ xấu xây dựng các trang

web lừa đảo có giao diện rất giống các trang web chính thống hoặc xây dựng các

trang web trúng thưởng, shopping giả Các trang web Phishing này đều tạo cảmgiác tin cây và thuyết phục, nếu người dùng không cảnh giác hay thiếu kiến thức

về công nghệ thì rat dé mắc bay của kẻ tan công mà tương tác với trang web lừađảo mà kẻ xấu xây dựng, chúng có thể thu thập thông tin và đánh cap tài sản số

của nạn nhân khi họ điển vào các thông tin hay thực hiện các giao dịch bat chính[50] Theo như thống kê của tổ chức Anti-Phishing Working Group [17], số lượng

các cuộc tan công Phishing có số lượng tăng mạnh qua các năm, thống kê gần đây

cho thay số lượng các cuộc tan công Phishing được triển khai với số lượng lớn va

tăng mạnh trong thời gian đại dịch Covid và sau Covid tính từ Quý 1 năm 2021

đến Quý 4 năm 2023, chỉ tiết được biểu diễn ở Hình 1.1 Năm 2023 đã chứng kiến

sự bùng nổ của các cuộc tấn công Phishing, đạt đỉnh điểm hơn 600.000 cuộc vàotháng 3, mức cao nhất kể từ năm 2021

HINH 1.1: Thống kê số lượng các cuộc tan công Phishing diễn ra từ

Quý 1/2021 đến Quý 4/2023

Để lừa người dùng truy cập vào các trang web giả mạo, kẻ tấn công thiết kế

3

Trang 15

Chương 1 TỔNG QUAN ĐỀ TÀI

các trang web có giao diện và URL gần như giống hệt với những trang chínhthống hay có diện mạo trong đáng tin cậy và uy tín Hơn nữa, chúng sử dụng

các kỹ thuật tấn công Social Engineering tỉnh vi để khai thác lòng tin và sự thiếu

hiểu biết về an toàn thông tin của người dùng, khiến họ dễ dàng tương tác vớicác trang web lừa đảo này Những phương thức tan công phổ biến bao gồm gửi

thông báo trúng thưởng qua SMS, email, mạng xã hội, hoặc thậm chí là thông

báo giả mạo từ các tổ chức uy tín, đi kèm với các URL dẫn đến trang web lừa đảo[50] Các trang web này chủ yếu được thiết kế để lừa nạn nhân cung cấp thông

tin cá nhân, thông tin đăng nhập tài khoản, tham gia vào các giao dịch tài chính

bất hợp pháp hoặc phát tán mã độc bằng cách lừa nạn nhân tải về các tệp trên

web Thông thường, các trang web phishing này được tích hợp các kỹ thuật né

tránh để tránh bị phát hiện bởi các hệ thống thu thập dữ liệu và phát hiện trang

web độc hại, đồng thời che giấu các hoạt động bat thường của chúng [29] Ngoài

ra các công cụ phát triển trang web lừa đảo đang được phát tán chia sẽ rộng rãi trên không gian mạng, do đó số lượng và mức độ tinh vi của các cuộc tân công phishing gần đây đang gia tăng đáng kể Khi người dùng rơi vào bẫy, hậu quả cóthé là mất thông tin nhạy cảm, tài sản cá nhân hoặc, nghiêm trong hơn, nếu ngườidùng đó thuộc một tổ chức, thì tổ chức cũng bị ảnh hưởng cả về danh tiếng lẫn

tài chính.

Số lượng các cuộc tân công Phishing vẫn không ngừng gia tăng, kèm theo đó

là những hậu quả nghiêm trọng Để đối phó, các nhà khoa học đang nghiên cứu

và triển khai các phương pháp phát hiện trang web lừa đảo Ban đầu, các phươngpháp phát hiện truyền thống đã được đề xuất, bao gồm sử dụng danh sách đen,

danh sách trắng hoặc so sánh sự tương đồng giữa các trang web giả mạo và chính

thống [24] Tuy nhiên, các phương pháp này bị hạn chế về độ chính xác, thời gian

và khả năng phát hiện các URL lừa đảo mới đồng thời tốn nhiều tài nguyên vàcông sức của con người Điều này trở nên ngày càng khó khăn do tội phạm mạng

có thể sử dụng những kĩ thuật tinh vi và công cụ để tạo ra hàng loạt URL Phishing

và các trang web lừa đảo trong một thời gian ngắn [41] Do đó cần thêm các giải

pháp phòng thủ hiệu quả trước các cuộc tân công Phishing Website hàng loạt

Trước thách thức day nan giải này, các nhà nghiên cứu đang tập trung vàoviệc áp dụng công nghệ Trí tuệ nhân tạo để giải quyết vấn dé Nhờ việc tríchxuất, và phân tích các đặc trưng của một trang web lừa đảo từ URL, giao diện

Trang 16

Chương 1 TỔNG QUAN ĐỀ TÀI

Các nghiên cứu về học máy và học sâu ngày càng chứng tỏ hiệu quả vượt trội,

với độ chính xác cao và thời gian dự đoán nhanh chóng trong việc phát hiện các

trang web lừa đảo [3, 2, 20].

Tuy nhiên, những mô hình học máy, học sâu thường chỉ tập trung vào một

phương thức của trang web như URL, mã nguồn, các đoạn văn bản, hình ảnh

trang web để đưa ra dự đoán Điều này khiến kẻ tân công có thể sử dụng các kĩthuật tấn công tỉnh vi để qua mặt các mô hình phát hiện sử dụng học máy hoặc

học sâu Theo nghiên cứu [10], các mô hình học máy, học sâu thường dễ bị qua

mặt trước các cuộc tấn công đối kháng Tan công đối kháng là kĩ thuật mà kẻ tancông thao túng dt liệu đầu vào bằng cách thêm nhiễu loạn nhằm qua mặt cáctrình phát hiện sử dụng công nghệ học máy /học sâu Vì vậy cần những nghiêncứu mới để giúp các mô hình này phát hiện và phòng tránh trước các cuộc tấn

công đối kháng Mặt khác, tấn công chuyển giao là kĩ thuật tận dụng kiến thức

từ mô hình hoc máy nguồn để tạo mẫu đối kháng có khả năng qua mặt các môhình học máy khác Đây là một phương pháp khai thác vào tính chuyển giao của mẫu đối kháng trên các mô hình học máy, tăng mức độ nguy hiểm của các mẫuđối kháng [12] Phương pháp tan công chuyển giao này thường được kẻ tấn công

sử dụng và đặc biệt là trong ngữ cảnh tân công Black-box

Mô hình học máy Đa thể thức nổi lên như một giải pháp tiềm năng để khắc

phục các thách thức nêu trên Nhờ vào đặc tính tận dụng nguồn thông tin từnhiều nguồn khác nhau, mô hình học máy da thể thức đưa ra dự đoán với độchính xác cao và tổng quan hơn so với các mô hình chỉ tập trung vào phân tíchmột khía cạnh đặc trưng [6] Da có nhiều nghiên cứu dé xuất các kiến trúc môhình hoc đã thể thức khác nhau được công bồ trong thời gian gan đây, tuy nhiên

có rất ít nghiên cứu về khả năng chống mẫu đối kháng của mô hình đa thể thức

trong ngữ cảnh phát hiện Website lừa đảo.

Với lý do trên, trong nghiên cứu này, nhóm chúng tôi mong muốn khảo sátkhả năng chống chịu của các mô hình học máy, học sâu, và đặc biệt là các môhình da thể thức trước các mẫu đối kháng Để thực hiện điều này, chúng tôi déxuất xây dựng một khung tấn công để tạo ra các mẫu đối kháng với hiệu quả cao.Đồng thời, nhóm dé xuất xây dựng riêng một mô hình Đa thể thức có khả năngphát hiện các Website lừa đảo với tỉ lệ cao và ngay cả khi đó là mẫu đối kháng.Hơn nữa, nhằm hạn chế các cuộc tấn công lừa đảo tinh vi, chúng tôi nghiên cứu

Trang 17

Chương 1 TỔNG QUAN ĐỀ TÀI

và dé xuất một chiến lược phòng thủ hiệu quả, giúp tăng cường khả năng kháng

mẫu đối kháng nhưng van đảm bảo hiệu suất của các mô hình.

1.2 Phương pháp nghiên cứu

Chúng tôi tiến hành tìm hiểu và khảo sát các công trình nghiên cứu liên quan đến

phát hiện trang web lừa đảo sử dụng công nghệ học máy, học sâu và mô hình học

đa thể thức đồng thời vận dụng và tự xây dựng một mô hình đa thể thức pháthiện trang web lừa đảo Chúng tôi cũng tham khảo các nghiên cứu về xây dựngkhung tan công để sinh mẫu đối kháng có hiệu quả cao, cùng với việc nghiên cứucác chiến lược phòng thủ mới trước các cuộc tấn công đối kháng hiện nay Cáccông trình từ các hội nghị và tạp chí uy tín sẽ được sử dụng như nguồn thamkhảo chính Qua đánh giá và so sánh kết quả thực nghiệm thu được, chúng tôi sẽ

có cái nhìn rõ ràng và chỉ tiết hơn về tiền bộ và thách thức trong lĩnh vực này

1.3 Mục tiêu nghiên cứu

Đề tài nghiên cứu của chúng tôi bao gồm các mục tiêu chính như sau:

¢ Nghiên cứu và triển khai xây dung mô hình đa thể thức có khả năng phat

hiện các trang web lừa đảo và các mẫu đối kháng của chúng

* Khảo sát hiệu suất phát hiện các trang web lừa đảo của các mô hình học

máy, học sâu và mô hình học đa thể thức.

e Xây dựng khung tấn công sinh mẫu đối kháng có khả năng qua mặt các mô

hình phát hiện sử dụng trí tuệ nhân tạo.

© Khảo sát khả năng kháng mẫu trốn tránh của các mô hình học máy, học sâu

và mô hình học đa thể thức.

° Dé xuất chiến lược phòng thủ hiệu qua cho các mô hình phát hiện website

lừa đảo.

Trang 18

Chương 1 TỔNG QUAN ĐỀ TÀI

1.4 Phạm vi và đối tượng nghiên cứu

Trong nghiên cứu này, chúng tôi tập trung khảo sát và làm rõ các ưu nhược điểm

của việc áp dụng trí tuệ nhân tạo trong lĩnh vực phát hiện website lừa đảo Các

mô hình được nghiên cứu bao gồm các mô hình học máy, học sâu, học tổng hợp

và học đa thể thức Ngoài ra, nhóm chúng tôi nghiên cứu về mạng sinh đối kháng

và mô hình học diễn giải cùng với đó là kĩ thuật tan công trốn tránh, kĩ thuật tancông chuyển giao để phát triển một khung tấn công sinh mẫu đối kháng hiệuquả Cuối cùng, dựa trên khảo sát các công trình liên quan, nhóm dé xuất mộtchiến lược phòng thủ đơn giản và có độ hiệu quả cao cho các mô hình sử dụng

trí tuệ nhân tạo.

ere

1.5 Công bố khoa học và giải thưởng

Trong quá trình thực hiện luận văn tốt nghiệp, nhóm của chúng tôi đã có nhữngcông trình khoa học và dự án nghiên cứu liên quan đến một phần của nội dungđược trình bày trong luận văn Các công trình này đã được chấp nhận để đăng tảitại các hội nghị quốc tế và đã đạt giải tại các cuộc thi uy tín trong nước, bao gồm:

* Bài dự thi "Phuong pháp phát hiện Website lừa đảo dựa trên học sâu đa thể

thức kháng mẫu trốn tránh bảo vệ người dùng cuối" đạt Giải Ba chung kết

Cuộc thi “Dữ liệu với cuộc sống 2023” do Bộ Công An, ĐH Bách Khoa Hà

Nội, Đài Truyền hình Việt Nam và Báo VNExpress phối hợp tổ chức.

® The 12th International Symposium on Information and Communication

Tech-nology (SOICT 2023 - https://dl.acm.org/doi/10.1145/3628797.3629003)

¢ The 6th International Conference on Multimedia Analysis and Pattern

Recog-nition (MAPR 2023 - https: / /ieeexplore.ieee.org / document / 10288821)

¢ The International Conference on Advanced Technologies for

Communica-tions (ATC 2023 - https: / /ieeexplore.ieee.org /document/10318944)

® Bai báo "A study on adversarial sample resistance and defense mechanism

for multimodal learning-based phishing website detection" dang trong giai đoạn bình duyệt tại tap chí IEEE-Access (Journal Q1).

7

Trang 19

Chương 1 TỔNG QUAN ĐỀ TÀI

1.6 Cau trúc Khóa luận tốt nghiệp

Khóa luận được tổ chức trong 5 chương như sau:

e Chương 1: TONG QUAN ĐỀ TÀI

Khái quát mục tiêu dé tài của khoá luận cũng như động lực nghiên cứu củanhóm được trình bày tại chương này Bên cạnh đó, công bố khoa học và cácsản phẩm nghiên cứu đạt giải trong quá trình thực hiện dé tài khóa luậncũng được nhóm đề cập

* Chương 2: CƠ SỞ LÝ THUYET

Tại chương này, nhóm trình bày các định nghĩa, kiến thức nền tảng cũngnhư các công nghệ được sử dụng trong khoá luận Đồng thời cung cấpthông tin về các công trình nghiên cứu liên quan

e Chương 3: PHƯƠNG PHÁP THỰC HIỆN

Chương này chúng tôi trình bày chỉ tiết về phương pháp, chiến lược tấncông, phòng thủ và kiến trúc mô hình đa thể thức Shark-Eyes mà nhóm đểxuất

¢ Chương 4: HIỆN THUC, ĐÁNH GIÁ VÀ THẢO LUẬN

Nhóm trình bày chỉ tiết đến quá trình hiện thực hóa phương pháp đề cập

ở Chương 3 Sau đó trình bày phương pháp thực nghiệm, đánh giá kết quả

thực nghiệm qua các kịch bản và thảo luận chung của nhóm.

e Chương 5: KET LUẬN VÀ HUONG PHÁT TRIỂN

Tại chương này, nhóm sẽ đưa ra kết luận vé dé tài nghiên cứu bao gồm cả

ưu điểm và nhược điểm về phương pháp mà nhóm đề xuất Bên cạnh đó,chúng tôi sẽ thảo luận về các hướng phát triển mở rộng có tiém năng pháttriển trong tương lai.

Trang 20

Chương 2

CƠ SỞ LÝ THUYÊT

Tóm tắt chương

Trong chương này, chúng tôi trình bày chỉ tiết cơ sở lý thuyết của các công nghệ

mà nhóm sử dụng trong khóa luận, bao gồm cái nhìn tổng quan về các mô hìnhtrí tuệ nhân tạo nổi bật hiện đang được sử dụng trong ngữ cảnh phát hiện website lừa đảo Bên cạnh đó, nhóm cũng sẽ đi sâu vào cơ sở lý thuyết của các mô hìnhmạng sinh đối kháng và mạng khả diễn giải, cũng như các kỹ thuật tắn công trốntránh và tấn công chuyển giao phục vụ cho khung tấn công mà nhóm dé xuất

Đồng thời, chúng tôi tóm tắt các công trình nghiên cứu liên quan, so sánh ưu

nhược điểm của các công trình này với để tài của nhóm, và chỉ ra những điểmmới, sáng tạo của dé tài nhóm so với các nghiên cứu trước đây

2.1 Tình hình nghiên cứu các ki thuật xây dựng và

phát hiện Website lừa dao hiện nay

Tính đến thời điểm hiện tại, tình hình nghiên cứu các kỹ thuật xây dựng và pháthiện website lừa đảo đang tiếp tục phát triển mạnh mẽ Đồng thời đối mặt với

sự phức tạp và ngày càng tinh vi hóa của các phương thức lừa đảo trên mạng,

các nghiên cứu mới tập trung vào việc phát triển công nghệ và phương pháp tiêntiến được dé xuất Nhiều nghiên cứu mới được công bồ với khả năng nhận diện

và ngăn chặn các trang web lừa đảo, đồng thời cung cấp cái nhìn sâu sắc về các

công nghệ mới nhất để tạo ra các trang web giả mạo ngày càng phức tạp

Trang 21

Chương 2 COSO LY THUYẾT

2.1.1 Các ky thuật xây dung Website lừa dao hiện nay

Trong thời đại công nghệ phát triển, kẻ gian liên tục tinh vi hóa các kỹ thuật xâydựng website lừa đảo Các phương pháp mới bao gồm sự sáng tạo trong việc tạo

ra giao diện giống hệt các trang web chính thống hay giao diện trang web muabán, trúng thưởng đem lại sự tin cậy và thuyết phục, sử dụng kỹ thuật tối ưu hóaSEO để thu hút nhiều người truy cập, và tận dụng các phương tiện truyền thông

xã hội để lan truyền thông điệp lừa đảo Các kỹ thuật này thường kết hợp sự lừa

đảo tâm lý với công nghệ thông tin, tạo nên những trang web mà người dùng khó phân biệt được giữa thật và giả mạo Bên cạnh đó, việc sử dụng các công cụ tạo

trang web Phishing được chia sẽ trên mạng, kẻ xấu có thể tạo ra hàng loạt trang

web với các diện mạo khác nhau trong thời gian ngắn

Có thể thấy, khả năng xây dựng trang web lừa đảo đang tăng mạnh về chấtlượng và số lượng trong khoảng thời gian gần đây

2.1.2 Các phương pháp phát hiện Website lừa dao

Các nhà nghiên cứu và chuyên gia bảo mật trong lĩnh vực an toàn thông tin đã và

đang liên tục nỗ lực phát triển các công nghệ và phương pháp mới để phát hiện

và ngăn chặn kịp thời các website lừa đảo Bên cạnh các kĩ thuật truyền thốngnhư sử dụng danh sách đen hoặc danh sách trắng thì các kỹ thuật tiên tiến đangđược nghiên cứu mạnh mẽ Nổi bật là việc sử dụng trí tuệ nhân tạo và học máy

để phân tích tự động các đặc điểm của các trang web, từ tên miền, cấu trúc mãnguồn đến nội dung và hoạt động mạng, nhằm xác định các dau hiệu của sự lừadao kết hợp với các kỹ thuật khác để tăng tốc độ nhận định và tính chính xác cũngnhư giảm tối đa sức lực và tài nguyên con người [18] Ngoài ra, các cơ quan chínhphủ và tổ chức phi lợi nhuận cũng đang tăng cường hợp tác và cung cấp nguồn

lực để phát hiện và cảnh báo về các trang web lừa đảo, nhằm bảo vệ người tiêu

dùng và đảm bảo sự an toàn trên mạng.

10

Trang 22

Chương 2 COSO LY THUYẾT

2.1.3 Ví dụ về tên miễn lừa dao nguyên ban và tên miễn lừa dao

đối kháng

Một trong những phương pháp phát hiện website lừa đảo hiệu quả trước đây là

dựa vào tên miền để nhận định Tuy nhiên, với kĩ thuật ngày càng tỉnh vi của kẻtấn công, tên miễn lừa đảo đối kháng đã được ra đời Day là ví dụ về tên miềnnguyên bản và tên miễn lừa đảo đối kháng

Tên miền lừa đảo nguyên bản

Tên miễn lừa đảo thường được sử dụng để đánh lừa người dùng bằng cách làm

giống giao diện và cấu trúc của các tên miễn hợp lệ, chỉ thay đổi một vài điểmnhỏ để khó phát hiện.

Ví dụ:

e Tên miễn hợp lệ: www.vietnamairlines.com

e Tên miền lừa đảo nguyên bản: www.vietnamairslines.com (chữ ’s’ được

thêm vào để đánh lừa người dùng)

Tên miễn lừa đảo nguyên bản đối kháng

Tên miền đối kháng được tạo ra bằng các kỹ thuật như GANs, nhằm qua mặt các

hệ thống phân loại tên miễn Loại tên miền này thường khó phát hiện hơn do đãđược biến đổi và có nhiều đặc điểm phức tạp Các tên miễn lừa đảo đối khángthường được thiết kế để vượt qua các hệ thống phát hiện dựa trên các mẫu tênmiễn lừa đảo đã biết

Ví dụ:

e Tên miễn lừa đảo đối kháng: www.v1ietn4maislines.com (chữ “s“ được thêm

vào, chữ ‘i’ được thay bang số “1 và chữ “a' được thay bang số ’4’)

So sánh:

Tên miên lừa dao nguyên ban:

¢ Tập trung đánh lừa sự thiếu cảnh giác của người dùng Do đó người dùng

vẫn có thể phát hiện nếu chú ý

11

Trang 23

Chương 2 COSO LY THUYẾT

* Các hệ thống phân loại có thể nhận biết được

Tên miễn lừa đảo đối kháng:

¢ Tập trung đánh lừa các hệ thống phân loại và người dùng Do đó tên miền

này thường khó nhận biết bằng mắt thường và chúng có nhiều biến đổi

thông tin đang được xử lý Sự tích hợp này cho phép tạo ra các mô hình mạnh mẽ

hơn có thể xử lý các kịch bản phức tạp trong thế giới thực một cách hiệu quả hơn[7] Các mô hình học đa thể thức hiện đang được nghiên cứu và áp dụng rộng rãitrong nhiều lĩnh vực khác nhau như Thị giác máy tính, An toàn thông tin, Xử lý

ngôn ngữ tự nhiên, Y học, và Robotics.

2.2.1 Phân loại các mô hình học đa thể thức

Có ba loại hợp nhất chính (fusion) trong học đa thể thức: hợp nhất sớm, nơi dữliệu từ các phương thức khác nhau được kết hợp trước khi được đưa vào môhình học tập; hợp nhất muộn, nơi các dự đoán từ các mô hình riêng biệt cho từngphương thức được kết hợp; và hợp nhất lai, kết hợp các yêu tố của cả hợp nhấtsớm và hợp nhất muộn, tối ưu hóa các điểm mạnh của mỗi loại để cải thiện hiệusuất tổng thể Hợp nhất sớm tập trung vào việc tích hợp dữ liệu thô, hợp nhấtmuộn nhân mạnh việc kết hop các quyết định từ nhiều mô hình, và hợp nhất laitận dụng cả dữ liệu thô và thông tin ở mức độ quyết định để có một cách tiếp cận

toàn diện Kiến trúc của các mô hình học đa thể thức được miêu tả trong Hình

2.1.

12

Trang 24

Chương 2 COSO LY THUYẾT

2.2.2 Mô hình phân loại website áp dụng học Da thể thức

Sử dụng các mô hình đa thể thức để phát hiện trang web lừa đảo (Phishing site Detection - PWD) đang thu hút sự chú ý nhờ khả năng tổng hợp thông tin từnhiều nguồn và kết hợp các kỹ thuật xử lý dữ liệu tiên tiền, dẫn đến hiệu quả caotrong phát hiện trang web lừa đảo và khả năng chống lại nhiễu loạn mạnh mẽ.Các chỉ tiết được trình bày trong Hình 2.2, phương pháp học đa thể thức hướngđến xây dựng các nhánh khác nhau, mỗi nhánh tập trung vào một thực thể cùngvới một phương pháp xử lý để xử lí dữ liệu đầu vào cho các thuật toán học máy.

Web-Cuối cùng, kết quả sẽ được hợp nhất theo nhiều cách khác nhau, chẳng hạn như

nối và nhập vào mạng nhận diện, hoặc bỏ phiếu trung bình nếu các nhánh đượcthiết kế để đưa ra quyết định thay vì trích xuất đặc trưng

Các phương pháp tiếp cận đa thể thức có tiểm năng lớn cho các nghiên cứu

sau này trong việc phân loại trang web lừa đảo Sự biến đổi trong việc kết hợp

các nhóm thuộc tính khác nhau cùng với các phương pháp xử lý dữ liệu đa dạng

có thể dẫn đến một hệ thống đa thể thức mới đạt được độ tin cậy và hiệu quả cao

mà không yêu cầu quá nhiều tài nguyên cho triển khai thực tế

13

Trang 25

Chương 2 COSO LY THUYẾT

\ =e ©

HINH 2.2: Tổng quan kiến trúc mô hình da thể thức sử dung trong

phân loại Website

2.3 Khung sinh mau AWG và các chiến lược tan công,

phòng thủ

2.3.1 Tổng quan Mạng sinh đối kháng GAN

Trong dé tài nghiên cứu này, nhóm dé xuất một khung sinh mẫu tên AWG sử

dụng mạng sinh đối kháng GAN Mô hình GAN là mô hình sinh mẫu trong lĩnh

vực học máy, được quan tâm nghiên cứu và ứng dụng rất nhiều trong việc giảiquyết các vân đề thuộc các lĩnh vực đời sống, kinh doanh cũng như các lĩnh vực

an toàn bảo mật thông tin hệ thống GAN có khả năng sinh ra các mẫu dữ liệumới dựa trên các dữ liệu ban đầu mà nó học được, ví dụ ở Hình 2.3, là các khuôn

mặt được GAN sinh ra dựa trên các khuôn mặt ban đầu, trải qua nhiều lần học

hỏi, GAN sinh ra các khuôn mặt càng giống ban đầu hơn Dữ liệu được GANsinh ra gần như thật nhưng không phải thật Nói cách khác, GAN có khả năngsinh ra các dữ liệu sát với dữ liệu gốc ban đầu Kiến trúc mô hình GAN sẽ gồmhai thành phần chính là Bộ sinh và bộ phân biệt Trong đó:

* Bộ sinh: sẽ tìm cách sinh ra các mẫu dữ liệu giả có thể đánh lừa được bộ

phân biệt thông qua học tập Bộ sinh sẽ nhận lại các đánh giá về các mẫuđược sinh ra mà bộ phân biệt trả về để cải thiện khả năng sinh mẫu của bảnthân Mục tiêu là sinh ra các mẫu chất lượng, càng giống thật càng tốt

14

Trang 26

Chương 2 COSO LY THUYẾT

* Bộ phan biệt: như một người hướng dẫn, đánh giá để bộ sinh có thể cải

thiện tốt hơn, đồng thời bộ phân biệt cũng phải tự cải thiện bản thân dựa

trên dữ liệu thật và dữ liệu được bộ sinh sinh ra để không dé dang bị dánh

lừa bởi bởi bộ sinh nữa.

Ý tưởng của mô hình mạng sinh đối kháng GAN bắt nguồn từ zero-sum

non-cooperative game, tức là trò chơi đối kháng giữa hai người mà ở đó cả hai đều

muốn tối đa hóa khả năng chiến thắng của mình và tối thiểu hóa cơ hội thắng

của đối phương Trong mô hình GAN, bộ sinh và bộ phân biệt là hai đối thủ của

nhau, mỗi lượt đều dựa trên thông tin của đối phương để cé gắng cải thiện bảnthân nhằm tối đa cơ hội thắng của chính mình đồng thời tối thiểu cơ hội thắngcủa đối phương Mô hình GAN hội tụ khi cả bộ sinh và bộ phân biệt đạt tới trạngthái Nash equilibrium, tức là hai người chơi đạt trạng thái cân bằng và cho dù cólàm gì tiếp đi chăng nữa thì cũng không cải thiện được cơ hội thắng Lúc này trò

chơi nên cham dứt với kết quả hòa và cả hai người chơi đang ở trang thái tốt nhất

15

Trang 27

Chương 2 COSO LY THUYẾT

M6 hinh Wasserstein-GAN

Mặc du GAN đã đạt được nhiều thành công trong việc tạo ra dữ liệu mới, nhưngvan dé của GAN gốc là việc đánh giá chất lượng của dir liệu được tạo ra Dé

khắc phục van dé này, mô hình WGAN (Wasserstein GAN) đã được dé xuất bởi

Martin Arjovsky, Soumith Chintala và Léon Bottou vào năm 2017 Và đây chính

là mô hình mạng sinh đối kháng mà nhóm tận dụng trong dé tài khoá luận này

Mô hình WGAN sử dụng hàm mắt mát dựa trên khoảng cách Wasserstein thay

vì hàm mất mát thường được sử dụng trong GAN gốc Khoảng cách Wasserstein

được coi là một độ đo đúng đắn hơn để đo lường sự khác biệt giữa phân phối dữ

liệu thật và phân phối dữ liệu giả Thay vì đánh giá xác suất, WGAN tập trungvào việc tối ưu hóa một hàm hiệu suất, được gọi là hàm tiện ích, để đưa phânphối dữ liệu giả gần với phân phối di liệu thật nhất

Mô hình WGAN đã cho thấy kết quả an tượng trong việc tạo ra dữ liệu chấtlượng cao và cải thiện khả năng đánh giá chất lượng của GAN Nó đã được ápdụng rộng rãi trong nhiều lĩnh vực như xử lý ảnh, âm nhạc, và tạo nội dung sángtạo Trong nghiên cứu này, nhóm quyết định sử dụng WGAN để cải thiện độ ổnđịnh trong quá trình tạo các mẫu tên mién có nghĩa

2.3.2 Kỹ thuật tan công đối kháng

Trong những năm gan day, các cuộc tân công dựa trên mẫu đối kháng đã trởthành trọng tâm nghiên cứu vì nó đã cho thấy hầu hết các mô hình học máy hiệnnay đều có thể bị qua mặt bởi mẫu đối kháng Mẫu đối kháng là một mẫu dữ liệuđầu vào đã được sửa đổi để đánh lừa trình phát hiện Các nghiên cứu trước đây[10, 9] đã phát hiện ra rằng các mô hình học máy và học sâu thường dé bị tan công

bằng cách chèn nhiễu loạn vào đầu vào để cho ra kết quả phân loại không tin cậy

Vì lý do đó, các hệ thống phát hiện ngày càng dé bi tắn công vì các mẫu đối khángđang được sử dụng ngày càng nhiều để đánh lừa các mô hình ML/DL Một cuộc

tan công đối kháng có thể được chia thành tân công hộp trắng, hộp xám và hộp

đen tùy thuộc vào thông tin mà kẻ tan công có được từ mô hình mục tiêu Trong

điều kiện hộp trắng, kẻ tan công có tất cả thông tin về mô hình mục tiêu bao gồm

kiến trúc, tham số va gradient của ham mat mát liên quan đến đầu vào Tronglĩnh vực thị giác máy tính, cuộc tấn công đối kháng đầu tiên (FGSM) sử dụng

Trang 28

Chương 2 COSO LY THUYẾT

thông tin gradient đối với phân loại hình anh đã được khám phá bởi Goodfellow[14] Lay cảm hứng từ lĩnh vực thị giác máy tính, các cuộc tấn công đối khángđược sử dụng để tạo ra các mẫu mã độc đối kháng Tuy nhiên, những mẫu nàygặp khó khăn trong việc bảo toàn chức năng ban đầu của mã độc Sau khi ápdụng FSGM để tạo ra mã độc đối kháng, Grosse và đồng nghiệp [16] đã chứngminh các mẫu mã độc đối kháng hoàn toàn có thể được sử dụng để qua mặt cáctrình phát hiện mã độc trên điện thoại di động Tuy nhiên, cách thức tan công đốikháng này yêu cầu cần biết thông tin, kiến trúc của mô hình nạn nhân Đây làmột hạn chế lớn bởi vì trong thực tế, thông tin các mô hình thường được che giấu

và bảo toàn cẩn thận Do đó, đã có một số nghiên cứu về cuộc tan công đối khánghộp xám [36] và cuộc tan công đối kháng hộp đen [11] Các nghiên cứu gan đâycho thấy việc sử dụng GAN để tạo ra các mẫu đối kháng đạt hiệu quả cao trong

ngữ cảnh tan công hộp đen Trong bài báo [21] MalGan là nghiên cứu tiên phong

trong việc tạo ra mẫu đối kháng sử dụng mạng sinh đối kháng GAN để né tránhviệc phát hiện của các trình phát hiện mã độc Android trong ngữ cảnh tan công

một nguồn đáng tin cậy Khi người dùng nhập dữ liệu bảo mật của họ, chẳng hạn

như thông tin đăng nhập hoặc thông tin tài chính, những kẻ tan công có thể thuthập và khai thác dữ liệu nhạy cảm này cho các mục đích xâu, có thể dẫn đến việc

đánh cắp danh tính, gian lận tài chính hoặc các hậu quả có hại khác

2.3.3 Kỹ thuật tan công chuyển giao đối kháng

Các cuộc tấn công chuyển giao đối kháng dựa trên việc tận dụng kiến thức từ một

mô hình nguồn để tạo ra các mẫu đối kháng có thể đánh lừa các mô hình khác Kĩthuật tấn công này khai thác đặc tính chuyển giao của các mẫu đối kháng giữa các

mô hình, mở rộng tầm vực cho cuộc tân công đối kháng [12] Loại tan công này

17

Trang 29

Chương 2 COSO LY THUYẾT

thường được sử dung đặc biệt trong bối cảnh tan công hộp đen Do đó, phươngpháp này rất hữu ích cho kẻ gian bởi vì trong thực tế chúng thường có rất ít thôngtin về mô hình mục tiêu Đáng chú ý, trong nghiên cứu của [37] đã nhắn mạnhmức độ hiệu quả của các cuộc tấn đối kháng nhắm vào các mô hình ML trongngữ cảnh hộp đen Công trình của họ chứng minh rằng nếu một mẫu đối kháng

có khả năng qua mặt mô hình M,, thi cũng có khả năng qua mặt mô hình M; Lợi

dụng đặc tính chuyển giao đối kháng này, kẻ xấu có thể xây dựng các chiến lược

tấn công các mô hình mục tiêu bằng việc tân công mô hình nguồn của chúng Với

đặc điểm thú vị trên, các nhà nghiên cứu đã tận dụng tính chất này để triển khai

các cuộc tấn công hộp đen Với cách tiếp cận trên, Papernot et al [32] triển khaimột cuộc tan công bằng cách huấn luyện một mô hình thay thế có kha năng đưa

ra quyết định giống như mô hình BB mục tiêu Kết quả thực nghiệm của họ chothấy mô hình nạn nhân bị tân công bởi các mẫu đối kháng được tạo ra từ mô hìnhthay thế Ngoài ra, với các mô hình có kiến trúc khác nhau như SVM, mô hình

LR và mạng nơ-ron, các nhà nghiên cứu đã chứng minh trong [32] rằng các mẫuđôi kháng hoàn toàn có thể tân công chuyển giao thành công, mặc dù có sự khácbiệt đáng kể trong kiến trúc mô hình của chúng Hơn nữa, trong nghiên cứu do

[5] và cộng sự thực hiện, các tác giả đã tích hợp một mô hình học máy hộp đen

vào quá trình huấn luyện mạng sinh đối kháng GAN để tạo ra các mẫu URL đốikháng Kết quả nghiệm thu cho thấy các mẫu mới do PWDGAN [5] tạo ra có thể

né tránh hoặc giảm hiệu quả của các mô hình ML.

2.3.4 Tan công giả mạo đồng hình

Các cuộc tấn công giả mạo đồng hình dựa trên ý tưởng sử dụng các ký tự có

vẻ ngoài tương tự nhau để giả mạo tên miền hoặc URI của một trang web chínhthống Trong đó kẻ tan công tạo ra các URL hoặc tên miễn trông giống với các tên

miễn hợp lệ bằng cách sử dụng các ký tự từ các bộ ký tự khác nhau trông tương

tự với các ký tự trong tên miễn gốc

Ví dụ, kẻ tấn công có thể thay thế một số chữ cái trong tên miễn hợp lệ bằng

các ký tự trông tương tự từ các bảng chữ cái khác, chẳng hạn như sử dụng ký tự

Cyrillic, Hy Lạp, hoặc các ký tự không phải Latin khác giống với các ký tự Latin

Điều này có thể đánh lừa người dùng nghĩ rằng họ đang truy cập vào một trang

18

Trang 30

Chương 2 COSO LY THUYẾT

web chính thống, trong khi thực tế ho dang bị điều hướng đến một trang web độchại do kẻ tấn công kiểm soát

Tan công giả mạo đồng hình là một kĩ thuật tấn công hiệu quả vì chúng lợi

dụng nhận thức của con người và cách người dùng xử lý hình ảnh các tên miễn,khiến người dùng khó phân biệt giữa các URL/tên miền hợp lệ và độc hại Kiểutấn công này có thể được tận dụng cho nhiều mục đích xấu khi thuyết phục thànhcông người dùng Internet vô tình truy cập vào trang wrb lừa đảo, bao gồm lay

cắp thông tin nhạy cảm như tên người dùng, mật khẩu, hoặc thông tin tài chính

của các tổ chức doanh nghiệp, hay thậm chí là phát tán phần mềm độc hại Gầnđây, tan công giả mao tên miền đã thu hút nhiều sự chú ý hơn và được đề cậptrong nhiều bài viết trên các blog sau: [19, 30, 44]

Do đó, đã có nhiều nghiên cứu nỗ lực tổng hợp và tìm ra giải pháp để đối phóvới các cuộc tân công này, nổi bật là nghiên cứu [34, 36]

Các hình thức tấn công giả mạo đồng hình

Trong nghiên cứu này, nhóm tập trung vào tan công đồng hình giả mạo tên miền.

Đây là hình thức tân công mà kẻ tan công dang ký các tên miễn trông giống tênmiễn hợp pháp bang cách thay thế các ký tự bằng các ký tự tương tự từ các bộ

ký tự khác nhau, như thay chữ "o" bằng số "0" hoặc sử dụng các ký tu Cyrillic

trông giống chữ Latin Người dùng có thể không nhận ra sự khác biệt và vô tìnhtruy cập vào trang web độc hại Ngoài ra, tấn công đồng hình còn có thể xuất

hiện dưới các hình thức khác như: tạo địa chỉ email giả mạo bằng các ký tự tương

tự; sử dụng tên miễn quốc tế (IDN) với các ký tự từ các bảng chữ cái khác trônggiống ky tự Latin; tạo tên tập tin giả mạo để che giấu phần mềm độc hại; và tạo

tên người dùng trông giống tên của người dùng hợp pháp nhằm mạo danh hoặc

lừa đảo.

2.3.5 Các chiến lược phòng thủ trước cuộc tan công đối kháng

Vì cuộc tấn công trốn tránh đã được sử dụng rộng rãi trong thực tế, nhiều nỗlực nghiên cứu đã được thực hiện để giảm thiểu các hậu quả của chúng Có gần

ba loại chiến lược phòng thủ để tăng khả năng chống mẫu đối kháng Một trong

số đó là huấn luyện lại mô hình với các mẫu đối kháng [15] [31] [39] Trong đó,

19

Trang 31

Chương 2 COSO LY THUYẾT

tác giả thêm các mẫu đối kháng vào dữ liệu huấn luyện để nâng cao kha năng

nhận diện của mô hình Madry et al [31] sử dụng các mẫu được tao ra từ cuộc

tấn công Project Gradient Descent để bổ sung bộ dir liệu huấn luyện Kết quả cho

thấy các mô hình được retrain đều có khả năng phát hiện tốt hơn và phương phápnày vẫn cho thấy sự hiệu quả đến ngày nay Tuy nhiên, các tiếp cận này có thể bịphản tác dụng nếu thực hiện quá nhiều lần huấn luyện với một số lượng mẫulớn, dẫn đến suy giảm hiệu suất chung của mô hình Do đó, Khoda et al [27] déxuất hai phương pháp mới để chọn lọc mẫu đối kháng một cách kĩ càng hơn dựatrên khoảng cách từ trung tâm cụm và xác suất thu được thông qua học dựa trênkernel (KBL) Kết quả thực nghiệm của ông cho thấy những phương pháp này

đã giúp mô hình phân biệt các mẫu đối kháng hiệu quả đáng kể Mặc dù manglại hiệu quả, tác giả Kurakin chứng minh rằng phương pháp này vẫn đòi hỏi tínhtoán phức tạp khi phải xử lí trên tập dữ liệu khổng 16 sau khi thêm vào các mẫuđộc hại [28] Phương pháp thứ hai là biến đổi đầu vào, trong đó đầu tiên tiền xử

lý đầu vào để sửa các sự méo mó của AE mà không làm ảnh hưởng đến độ chínhxác trong việc phân loại hình ảnh bình thường Được truyền cảm hứng từ phươngpháp này trong lĩnh vực CV, một bộ phân loại phần mềm độc hại dựa trên DNN

đã sử dụng các hình ảnh biến đổi từ các mẫu nhị phân để tăng độ chính xác của

có khả năng lí giải những quyết định mà mô hình AI đưa ra Và đó cũng chính

là lí do mà công nghệ mạng khả diễn giải - Explainable AI (XA]) ra đời Với mục

tiêu giúp con người trả lời được những câu hỏi mà những mô hình học máy trước

20

Trang 32

Chương 2 COSO LY THUYẾT

đó không thé, ví du như vì sao mô hình AI lại đưa ra dự đoán như vậy va nó dựa

cụ thể vào đặc trưng nào của đầu vào?

Việc giải thích được những quyết định của hệ thống AI, công nghệ XAI không

chỉ đảm bảo tính minh bạch của các mô hình AI mà còn củng cố niềm tin của con

người vào công nghệ Trí tuệ nhân tạo này Bên cạnh đó, ở khía cạnh An toàn

Thông tin, kẻ tan công hoàn toàn có thể tận dụng những lí giải của hệ thống XAI

để có thể phân tích điểm yếu của mô hình AI và từ đó tăng xác xuất tấn công

thành công vào các mô hình AI đó.

Một số đặc điểm của Mạng khả diễn giải XAI

Hình 2.4 trong blog [25] cho thấy các đặc điểm nổi bật của công nghệ Explainable

AT trong việc xây dựng niềm tin và đảm bảo minh bạch cho các mô hình học máy

¢ Tính minh bạch: Dam bảo các bên liên quan đều có thể hiểu và lí giải được

những quyết định của các mô hình AI

e Tính công bang: Đảm quyết định của các mô hình AI là công bằng.

® Độ tin cậy: Tăng cường độ tin cậy cho các tổ chức sử dụng XAI.

° Độ ben vững: Có khả nang chóng chịu với sự thay đổi của dữ liệu đầu vào

hoặc tham số mô hình, duy trì hiệu suất nhất quán và đáng tin cậy ngay cảkhi đối mặt với tình huống không chắc chắn hoặc không mong đợi

s Tính riêng tư: Có khả năng bảo vệ thông tin nhạy cam của người dùng.

¢ Khả năng lí giải: Cung cấp các giải thích dé hiểu cho con người về các dự

đoán và kết quả của mô hình

2.5 So sánh với những nghiên cứu trước đây

Trong khóa luận này, nhóm đã nghiên cứu các công trình trước đây và sử dụng

những hạn chế của các nghiên cứu đó làm nền tang để phát triển Hình 2.1 mô tảnhững đóng góp chính cũng như những hạn chế của các nghiên cứu trước đây so

với công trình của nhóm Nhóm tin rằng việc có một cái nhìn tổng quát sẽ làm rõ

21

Trang 33

Chương 2 COSO LY THUYẾT

Robustness

tk Zoumana KEITA

HINH 2.4: Các đặc điểm nổi bat của công nghệ Explainable AI.

những đóng góp của mình trong lĩnh vực này và đồng thời giúp các nghiên cứu

sau này phát triển hơn nữa.

22

Trang 34

Chương 2 COSO LY THUYẾT

BANG 2.1: Bang so sánh dé tai của nhóm với các nghiên cứu trước

Zhang et al [48] Học đa thể thức

Một trong những nghiên cứu tiên phong

sử dụng học đa thể thức để phát hiện trang

web lừa đảo.

Thiều khảo sát về khả năng chồng đối kháng của mô hình da thể thức.

Bac et al [5]

Apruzzese et al [4, 47]

Tan công đối kháng

Sử dụng mạng GAN để tạo ra các URL

đối kháng nhằm qua mặt mô hình phát

hiện trang web lừa đảo.

Chưa có thông kê về các mô hình

DL, EL và MM trước mẫu đối kháng.

Các chỉ số của bộ sinh vẫn có thể được

cải thiện.

Nghiên cứu tiên phong thông kê khả năng phòng thủ của các mô hình học máy tiên

tiến trước 12 cuộc tấn công trốn tránh.

Thiếu thực nghiệm đánh giá về các mô

hình DL, EL, và MM.

Madry et al [31] Phòng thủ trước

tan công đối kháng Đề xuất các phương pháp phòng,thủ chống lại tan công đối kháng

Phương pháp tái huan luyện có thể

giảm hiệu quả nếu không có kĩ thuật

Nghiên cứu khả nang chong các trang

web lừa đảo và đối kháng của các mô

hình, đặc biệt là các mô hình đa thể thức.

Đề xuất một khung sinh mẫu sử dụng WGAN và chiến lược tan công/phòng thủ

để nâng cao tính khả năng chịu đựng của

các mô hình AI.

Khung công cụ AWG cần được cải tiến

để sinh mẫu với tỷ lệ trồn tránh cao hơn.

Mô hình đa thể thức cần được tôi ưu

về tài nguyên và thời gian để tăng hiệu năng và đáp ứng được như cau thực tế.

23

Trang 35

Chi tiết quá trình xây dựng, và huấn luyện các mô hình phân loại trang web.

Mô tả kiến trúc, cách hoạt động và chi tiết phương pháp xây dựng khungtấn công AWG

So sánh hiệu suất và tính kháng mẫu trốn tránh của các mô hình phân loạitên miền, và website

Mô tả chiến lược phòng thủ trước các cuộc tấn công đối kháng

Chỉ tiết quá trình triển khai công cụ tiện ích Shark-Eyes trên trình duyệt

web.

Thu thập dư liệu phục vụ cho nghiên cứu

3.1.1 Tổng quan về bộ dữ liệu

Trong nghiên cứu nay, chúng tôi sử dụng 2 bộ dữ liệu chính bao gồm:

Bộ dữ liệu các trang web lừa đảo và lành tính dùng để huấn luyện các mô

hình phân loại trang web.

24

Trang 36

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

¢ Bộ dữ liệu các tên miễn lừa đảo và lành tính dùng để huấn luyện các mô

hình phát hiện các tên miền độc hại và huấn luyện mô hình WGAN

3.1.2 Cách thức thu thập

Đối với Bộ dữ liệu các tên miễn lừa dao và lành tính, nhóm tiến hành thu thập

các tên miền lành tính nổi tiếng được xếp hạn bởi Alexa và dùng công cụ finder để làm giàu số lượng tên miễn lành tính thông qua việc lay thêm các tênmién phụ liên quan Các tên miễn lừa đảo được thu thập từ các nguồn báo cáolừa đảo như PhishDB, PhishTank, , và tiến hành thu thập định kì để có bộ dữ

sub-liệu phong phú.

Đối với Bộ dữ liệu các trang web lừa đảo và lành tính, sau khi thu thập các

URL lừa đảo từ các trang báo cáo lừa đảo và các URL lành tính từ các trang thống

kê trang web đáng tin tưởng Từ các URL thu thập được, nhóm tiến hành truycập va lay về mã nguồn của các trang web, xử lý và chia thành các thành phankhác nhau Tóm lại bộ dữ liệu sẽ gồm có: ULR, tên miễn, nội dung trang web, các

HTML tag và các mã javascript.

3.2 Mô hình hoc sâu da thể thức Shark-Eyes [42]

Trong khóa luận này, nhóm đã tiến hành nghiên cứu và triển khai một mô hìnhhọc sâu đa thể thức tên Shark-Eyes [42] phát hiện trang web lừa đảo dựa vào tênmiễn và các thẻ tags HTML, chỉ tiết cầu trúc mô hình được biểu diển ở hình 3.1

Mô hình Shark-Eyes [42] sau khi được huấn luyện sẽ có khả năng phân biệt trangweb lừa đảo và trang web lành tính, cùng với đó là khả năng kháng các cuộc tancông đối kháng tinh vi Từ đó trở thành một công cụ hữu ích có thể triển khai vàomôi trường thực tế.

Theo như các nghiên cứu trước đây về việc triển khai đa mô hình trong lĩnhvực phát hiện trang web lừa đảo [13][45][46], có rất nhiều cấu trúc triển khai khácnhau nhưng nhìn chung sẽ có hai hướng là song song và nối tiếp Kiến trúc môhình chúng tôi dé xuất sẽ xây dung theo hướng song song và gồm có 3 nhánh,mỗi nhánh sẽ là một mô hình học sâu đảm nhận chức năng phân tích, trích xuất

25

Trang 37

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

thuộc tính đặc trưng khác nhau nhằm cung cấp thông tin cho việc đưa ra quyết

định cuối cùng ở các lớp ẩn nằm ở cuối mô hình

tôi tập trung vào tên miễn bởi đây là một phần cốt yếu trong việc triển khai tấn

công Phishing, kẻ tan công phải đăng ký tên miền dé sử dung chúng cho việctriển khai trang web và mỗi tên miễn là duy nhất, không trùng lập lại với nhau.Theo nghiên cứu [35], tên miễn là phần khó có khả năng thay đổi nhiều trong mộttrang web và nó góp phần cung cấp rất nhiều thông tin cho việc phát hiện một

trang web lừa đảo Khi kẻ tấn công bị phát hiện và bị chặn tên miễn, họ phải bỏ

tiền để đăng ký một tên miền mới, giải quyết triệt để được trang web lừa đảo Ở

nhánh còn lại, chúng tôi phân tích cầu trúc DOM của tệp HTML của trang web,

nắm bắt được cách sử dụng các thẻ này có thể giúp mô hình phát hiện được cáctrang web lừa đảo Theo [50], các trang web được xây dựng bằng các công cụ hỗ

trợ tấn công Phishing thường sẽ có câu trúc DOM giống nhau và các trang weblừa đảo sẽ có cầu trúc DOM đơn giản hơn rất nhiều so với các trang web lành tính.Sau khi trích xuất được các thuộc tính từ các khía cạnh khác nhau của trang web,

26

Trang 38

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

chúng tôi sử dụng cơ chế Attention để xác định các thuộc tính nào quan trọng vàlàm nổi bật chúng lên và tiến hành ghép các thuộc tính lại với nhau thành mộtvectơ Attention là một cơ chế cho phép mô hình lựa chọn một cách chọn lọc cácphần tử quan trọng để thực hiện dự đoán dựa vào dit liệu đầu vào Thông quaquá trình huấn luyện nó sẽ tự động xác định được các thuộc tính quan trọng cầnquan tâm để giải quyết bài toán phát hiện trang web lừa đảo Cuối cùng các vectơthuộc tính được kết nối lại với nhau và đổ vào các lớp ẩn để tiến hành đưa raquyết định phân loại cuối cùng

Chỉ tiết cách xử lý dữ liệu và câu trúc mạng ở mỗi nhánh được trình bày ở

Một trang web sẽ được cầu thành từ các tập hợp có tệp HTML, CSS và JS trong

đó tệp HTML đóng vai trò quan trọng quyết định câu trúc các phần tử có trongtrang web Câu trúc DOM là một cây phân cấp các thẻ được sử dụng trong tệpHTML, thông thường thẻ cha lớn nhất là thẻ HTML sau đó có các thẻ con header

và body, nhỏ hơn nữa là sẽ có các thẻ phổ biến như div, a, h1, Hình 3.2 minh

họa cho một tệp HTML phổ thông và hình 3.3 mô tả câu trúc của một cây phâncấp DOM Tùy theo chức năng của trang web mà các phần tử cần có sẽ nhiều hay

ít từ đó dẫn đến sự phức tạp trong cấu trúc cây DOM Các trang web lừa đảo

chỉ mang mục đích chính là lừa người dùng nhập vào hay bam vào để đánh cắp

các thông tin nhạy cảm hoặc tài chính nên thường có cau trúc cây DOM khôngquá phức tạp và số lượng loại thẻ được sử dụng cũng khá hạn ché Trong khi cáctrang web lành tính nổi tiếng sẽ cung cấp các dịch vụ chức năng rất đa dạng do

đó sẽ có cầu trúc cây DOM phức tạp hơn và các loại thẻ khác nhau duoc sử dụngcũng da dang hơn Phương pháp xử lý và trích xuất thuộc tính từ cấu trúc DOM

của trang web được chúng tôi tham khảo từ nghiên cứu Web2vec [13].

27

Trang 39

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

Simple HTML Page

Item 1

Item 2

Item 3

Visit Example Website

html, header, title, body, h1, p, ul, li, li, li, a

HÌNH 3.3: Cầu trúc cay DOM

Chúng tôi tiến hành thu thập toàn bộ thẻ được sử dụng trong tệp HTML Khi

có danh sách các thẻ, chúng tôi sử dụng one-hot encoding để chuyển cái loại thẻ

có trong danh sách thành dạng số, mỗi loại thẻ sẽ được chuyển thành một sốriêng lẻ duy nhất Ví dụ chuyển đổi một danh sách thành vectơ số được biểu diễn

ở hình 3.4 Chúng tôi giới han độ dài của danh sách ở một mốc có định va sẽ lược

bỏ nếu danh sách quá dài và thêm vào nếu danh sách chưa đủ độ dài đã đặt ra.Kết thúc quá trình xử lý chúng tôi thu được một vectơ các số nguyên đại diện cho

các thẻ được sử dụng với thứ tự như cấu trúc trong tệp HTML

28

Trang 40

Chương 3 PHƯƠNG PHÁP THỤC HIỆN

bảo trích xuất được các thuộc tính liên quan đến sự liên kết, mối quan hệ liên tục

giữa các thẻ có trong danh sách Các trang web lành tính sẽ có cách triển khai cácthẻ khác với các trang web lừa đảo, vì vậy các đặc trưng vẻ sự liên tục và liên kếtgiữa các thẻ được trích xuất bởi BiLSTM sẽ có giá trị to lớn trong việc phát hiệntrang web lừa đảo Lớp Attention được đặt ở cuối cùng để đánh giá các thuộctính, nhấn mạnh làm rõ các thuộc tính đóng góp nhiều cho sự phát hiện trang

web lừa đảo.

Tóm lại cấu trúc mạng của nhánh câu trúc DOM này gồm:

¢ Lớp Embedding: chuyển đổi vectơ một chiều thành ma trận số thực

© Lớp Conv1D: tích chập một chiều

¢ Lớp MaxPooling1D: tóm tắt

¢ Lớp BiLSTM: trích xuất đặt trưng tính liên tục

¢ Lớp Attention: làm rõ các đặc trưng cần quan tâm

3.2.2 Nhánh cau trúc từ ngữ tên mien

Dựa vào hành vi của kẻ tan công thường thay đổi tên miễn sao cho giống với cáctên miễn nổi tiếng hay có sự hiện điện của tên miền mục tiêu trong URL Vì vậy

29

Ngày đăng: 23/12/2024, 23:54

TÀI LIỆU CÙNG NGƯỜI DÙNG

  • Đang cập nhật ...

TÀI LIỆU LIÊN QUAN