1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp An toàn thông tin: Xây dựng giải pháp phát hiện phishing link sử dụng máy học

82 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Giải Pháp Phát Hiện Phishing Link Sử Dụng Máy Học
Tác giả Le Ton Nhân, Lam Thanh Ngân
Người hướng dẫn TS. Le Kim Hung, THS. Le Minh Khanh Hoi
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành An Toàn Thông Tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 82
Dung lượng 46,08 MB

Nội dung

Nhánh đầu tiên, gọi là nhánh phát hiệnURL lừa đảo từ thông tin giao diện, sử dụng một hệ thống Hybrid deep learning để giảiquyết hai thách thức kỹ thuật quan trọng trong việc phát hiện l

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA MẠNG MÁY TÍNH VÀ TRUYÈN THÔNG

LE TON NHÂN - 19520199 LAM THANH NGÂN - 19521884

KHÓA LUẬN TOT NGHIỆP

XÂY DỰNG GIẢI PHÁP PHÁT HIỆN PHISHING LINK

SỬ DỤNG MÁY HỌC

BUILDING A MACHINE LEARNING-BASED SOLUTION FOR

DETECTING PHISHING LINK

KY SU NGANH AN TOAN THONG TIN

GIANG VIEN HUONG DAN

TS LE KIM HUNG

THS LE MINH KHANH HOI

TP HO CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Trong suốt thời gian học tập và nghiên cứu tại Trường Đại Học Công Nghệ ThôngTin - Đại Học Quốc Gia Thành Phó Hồ Chí Minh, chúng em đã nhận được sự hướng dẫnnhiệt tình và giúp đỡ tận tâm từ các Thầy Cô Chúng em cũng muốn bày tỏ lòng biết ơnđặc biệt đến bạn bè và những người đồng nghiệp, cũng như những anh, chị sinh viên đã và

đang học tập và làm việc tại trường Cảm ơn sự hỗ trợ của các cá nhân và nhóm sau đây vì

đã đóng góp quan trọng vào thành công của khóa luận này:

Đầu tiên, chúng em xin chân thành cảm ơn và bày tỏ lòng biết ơn sâu sắc nhất dànhcho thay, Tiến sĩ Lê Kim Hùng và cô, Thạc sĩ Lê Minh Khánh Hội — những người đã trựctiếp hướng dẫn nghiên cứu, phát triển khoá luận Thầy cô đã truyền cảm hứng nghiên cứukhoa học đến không chỉ chúng em mà còn với nhiều bạn sinh viên khác, thầy cô luôn hướng

dẫn tận tình, giúp đỡ chúng em trong không những việc học hỏi, nghiên cứu mà còn hỗ trợ

cân bang việc học với công việc, cuộc sống Sự dẫn dat và hướng dẫn của thay và cô không

chỉ giúp chúng em trong việc hiểu rõ hơn về đề tài, mà còn khơi dậy niềm đam mê và khát

khao nghiên cứu khoa học.

Chúng em cũng xin gửi lời cảm ơn đến tất cả các giáo viên và cán bộ khoa Mạng

Máy Tính và Truyền Thông đã tạo điều kiện và đồng hành cùng chúng em trong quá trình

học tập và nghiên cứu tại Trường Dai Học Công Nghệ Thông Tin Sự hỗ trợ và khuyến

khích từ phía các Thầy Cô đã là động lực quan trọng giúp chúng em vượt qua những tháchthức và phát triển trong suốt thời gian nghiên cứu

Cuối cùng, chúng em cũng muốn gửi lời cảm ơn chân thành đến bạn bè, đồng nghiệp

và những người sinh viên khác đã chia sẻ kiến thức và kinh nghiệm, đặc biệt các bạn ở lớpATTN2019, cùng chúng em thảo luận và hỗ trợ trong quá trình nghiên cứu Sự đoàn kết và

hỗ trợ của mọi người đã tạo nên một môi trường nghiên cứu tích cực và khích lệ chúng em

vượt qua mọi khó khăn.

Cuôi cùng, chúng em xin gửi lời cảm ơn sâu sắc tới bô mẹ, gia đình và những người

thân yêu của chúng em Sự hỗ trợ, tin tưởng và quan tâm từ phía họ đã luôn đồng hành và

Trang 3

giúp đỡ chúng em trong những thời điểm khó khăn nhất Thiếu đi sự hỗ trợ quý giá đó,chúng em không thé có được thành quả ngày hôm nay Với lòng biết ơn chân thành, chúng

em xin gửi lời cảm ơn sâu sắc nhất tới bố mẹ, gia đình và những người thân yêu vì những

đóng góp và sự hồ trợ vô giá của họ.

Chúng em xin chân thành cảm ơn.

Trang 4

LD TO ca nẽäả.25Ö 21.2 Đặt van đề 6zZ œx§P 21.3 Mục tiêu của để tài ¿-22-25c 222 22x 2322121127121 tre 41.4 Đối tượng và phạm vi nghiên ŒỨu ¿- + 22x+2+£+E++EE+£EEtzEerxzxeerxerreers 5

1.4.1 Đối tượng nghiên cứu -©<+2E+cEeEESEEEEEEEEEEEEEEEEEkerkerkerreeg 5

1.4.2 Pham vi nghiÊn CỨU (11111 nh 6

Chương 2 Tổng quan -5 52 SE SE9EE‡EEEEEEE21121121121121171 212121 xe 7

2.1 Cơ sở lý thUYẾT cc2- 22212521 2t 2 21211211221211211011211111211011211211 011011 1 1e 7

2.1.1 Tổng quan về tấn công lừa đảo +: ©2+ x22£+EE2EEtEEeEkerkeerxerresree 72.1.2 Tổng quan về kỹ thuật phát hiện tan công lừa đảo từ thông tin tĩnh 102.1.3 Tổng quan về kỹ thuật phát hiện tan công lừa dao từ thông tin giao điện 122.1.4 _ Tổng quan về các thư viện sử dụng trong module web - 16

2.2 Các công trình lIiÊn QUa11 - 5 (219911311 11911 911931 1 1 ng nh ng 26

Chương 3 Nội dung và phương pháp, - - 5 5 6 +11 1 E91 231 81 v1 1v nen 29

KEINHAV 0 v00 11 s-.‹i4 29

3.2 Các bộ dữ liỆu - L4 k1 1121 HH TH TH TH HH HH TH 31

Trang 5

3.3 Mô hình phát hiện URL lừa dao từ thông tin tinh va từ thông tin giao dién 32

3.3.1 _ Xử lí dữ liệu đầu vào -:-©-c2k2Ek22EEEE21 2212122121 32

3.3.2 _ Mô hình phát hiện URL lừa đảo từ thông tin tinh - - « s< 34

3.3.3 Mô hình phát hiện URL lừa đảo từ thông tin giao diện - - 40

3.3.4 Chỉ số đánh giá mô hình phát hiện và nhận dang URL lừa đảo 473.4 Triển khai ứng dung web PhishDetect - 2-22 ©xz22xc£x2zxezxeerxrrreerxeee 49

3.4.1 Xử lý dữ liệu đầu vào -¿-+-©++2cx2E2EEEEEEEEEEErrkrrrrerkrrrrerkee 50

3.4.2 Phat hiện URL lừa dao từ thông tin tĩnh 5 55+ *+ss+sssereeesse 51

3.4.3 Phát hiện URL lừa dao từ thông tin g1ao điỆn «++s<+<<+s+2 52

3.4.4, Báo cáo kết quả ccccccccs.cci2cĂccc 229 1221881111121 11EErkrrrrree 53

Chương 4 Thực nghiệm và đánh giá - 5 5< + 3+ E93 E +2 E#EESsEeeEserersserekrre 55

4.1 Môi trường thực nghiỆm - c- G2 18 911111E511811 1911 11 1 1 11 111 vn nrry 55

4.1.1 Môi trường huấn luyện mô hình - 2-2 2 s2 x2 £++£E££+£+££z£++zzzzxz 55

4.1.2 Môi trường triển khai mô hình và ứng dụng web -: -: 55

4.2 Kết quả nghiên COU o ceccccceccsscsssessssesssessseessecssscssecssssssessssssssecssecssecssecssecasecesecssess 56

4.2.1 Két quả huấn luyện mô hình phát hiện URL lừa đảo từ thông tin tĩnh 564.2.2 Kết quả huấn luyện mô hình phát hiện URL lừa đảo từ giao dién 584.2.3 Kết quả thực tế thông qua giao diện WeD o c.ccccccecsesssessesssesseessesseessesseeeseess 62

Chương 5 Tổng kết và hướng phát triỀn -2- ©£++++£+E++EE£2EEtEEeerkerrerrkeres 65

5.I Kết luận c2 HH He 655.2 Y nghĩa khoa hỌC ¿- 2-2-5 +E+SE+E2EE2E12E12712112717171717171.1 1.1.1 xe, 655.3 Hiệu quả về mặt kinh tế - xã hội + 2 2 2 +E+EE+EE+EE+EEEEEeEEEErEerrrrrerrree 665.4 Hướng phát triển trong tương lai -¿ 2 £++++E++E++ExtEkerEerkerkerrerrerrerree 66

Tai 1i@u tham Khao cccc 67

Trang 6

DANH MỤC HÌNH

Hình 1: Tổng quan hệ thong dé XUdt cecceccecscecscsssessesssesssessesssessesssessusssessusssessuessessusssessseeses 29

Hình 2: Tinh quan trọng của các đặc trưng với mô hình Random Foresf 35 Hình 3: Mô hình phát hiện URL lừa dao từ thông tin fĨnh c se ssesseeseee 40

;0/1,5.88 (/8./,80 /2 7.40) 41

Hình 5: Mô hình nhận dạng thương hiỆU SG S Sky 44

Hình 6: Biến thể logo của YoufuĐ€ 2+©5++5£+Se+EE+EE+EEEEESEEEEEEEEEEEEEEEEEEEEEEEEErrkerrek 46

Hình 7: Phishing target brand dựa trên khoảng 30.000 trang web lừa đảo được thu thập.

Các thương hiệu hàng dau bị lừa đảo bao gồm Microsoft (7962), Paypal (4811), Chase

Personal Banking (1085), Facebook (993) và Amazon (7) «<<+<ss+++ss++ 47

Hình 8: Luong hoạt động của ứng dụng Web - -©c- 5s St+E‡EeE+ESEEEEEEEEEerkerkerrrerssrs 50Hình 9: Quá trình xử lý dữ liệu đầu vào đối VOID URL -z©-scse+cs+csc>zsecse+ 51Hình 10: Triển khai ứng dụng web trên môi trường Clouid -z©-s+cse+cs+cse+cs2 56

Hình 11: Confusion matrix trên tập đữ liệu 2000 L, S255 55 S5ss‡s++sse+sseerxeeesxs 57

Hình 12: Độ chính xác của mô hình Siamese (Precision-Recall Curve) - - 60

Hình 13: Kết quả phát hiện URL hợp pháp dựa trên giao điỆN -««<-s«<<s<+++ 61Hình 14: Kết quả phát hiện URL lừa đảo dựa trên giao điỆN ~-«<<s<<s<++s++ 61Hình 16: Trang nhập URL dé kiểm tra lừa đảo - 2 c©5e c++cteEeEteEkerkerkerrrrrerrres 63Hình 17: Trang hiển thị kết quả chính - 2-52 S£+E‡SE£EE+E£EEEEESEEEEEEEEEEEEerEerksrrkerssrs 64

DANH MỤC BANG

Bảng 1: Phân loại các đặc trưng và ý nghĩa của CHUNG . «-s «<< sssseeseess 36

Bang 2: Các chỉ số đánh giá trên tập dữ liệu 2000 URL - 2-5552 ©52©csccc+cccss 57Bảng 3: So sánh các dé XIT 55-555 SE EESEEEEEEEE211211211211211211.11111111 1111 re 58Bảng 4: Độ chính xác trung bình của phát hiện đối tượng : 5-©5+©5s55c5csccse2 59Bang 5: So sánh đầu vào, giải pháp sử dung và tập dit liệu với các hệ thong khác 62Bảng 6: Kết quả phát hiện lừa đảo và hợp pháp trên tập dữ liệu 5000 URLs 62

Trang 7

DANH MỤC TỪ VIET TAT

Mô tả Convolutional Neural Network

Số thứtự | Thuật ngữ

CNN CPU Central Processing Unit EMD Earth Mover’s Distance

FP

FPNs Feature Pyrmaid Network-based FPR False Positive Rate

GPU OG IDE Integrated Development Environment

False Positive

Graphics Processing Unit

tệ Histogram of Oriented Gradients

R-CNN Region-based Convolutional Neural Network

NN RPN

SIFT Scale-Invariant Feature Transform SSD Single Shot MultiBox Detector SVM Support Vector Machines

True Negative Recurrent Neural Network

True Positive Rate

You Only Look Once

Trang 8

TÓM TÁT KHÓA LUẬN

Trong khóa luận này, chúng em đã thiết kế một hệ thống được chia thành hai nhánhchính, với input đầu vào là một đoạn text message Nhánh đầu tiên, gọi là nhánh phát hiệnURL lừa đảo từ thông tin giao diện, sử dụng một hệ thống Hybrid deep learning để giảiquyết hai thách thức kỹ thuật quan trọng trong việc phát hiện lừa đảo từ thông tin giao diện.Thách thức đầu tiên là nhận dạng chính xác logo thương hiệu dựa trên ảnh chụp màn hìnhcủa trang web, và thách thức thứ hai là xử lý các biến thể của logo.

Đề giải quyết van đề đầu tiên, chúng em đề xuất sử dung mô hình học sâu Objectdetection, kết hợp với mô hình học sâu Siamese để giải quyết vấn đề thứ hai Nhờ sự kết

hợp này, chúng em đã dat được độ chính xác cao và giảm chi phí thời gian chạy trong

nhánh này Điều quan trong là chúng em không cần huấn luyện với bat kỳ mẫu lừa đảo cụthé nào, mà đã thực hiện thử nghiệm trực tiếp trên dữ liệu lừa đảo thực tế

Kết quả chúng em đã chứng minh rằng hệ thống Hybrid deep learning của chúng

em vượt trội đáng ké so với các phương pháp nhận dang cơ bản như EMD, PhishZoo và

LogoSENSE trong việc xác định chính xác các trang web lừa đảo Bên cạnh đó, dé tăng độ

chính xác trong việc phát hiện lừa đảo, chúng em đã phát trién một nhánh thứ hai sử dụng

kỹ thuật học máy có giám sát Random Forest Chúng em đã chọn ra 47 đặc trưng quan

trọng nhất và có ảnh hưởng nhất dé đào tạo mô hình, sau khi kiểm tra tính quan trọng và ý

nghĩa của các đặc trưng đôi với việc phát hiện lừa đảo.

Kết quả đạt được cho thấy độ chính xác rất cao lên đến 97% Kết hợp kết quả từ cảhai nhánh phát hiện, chúng em đưa ra kết luận cuối cùng về URL và hién thị các thông tinchỉ tiết lên ứng dụng web mà chúng em xây dựng cho người dùng quan sát Có thể nói hệthống của chúng em cải thiện hơn rất nhiều so với các giải pháp khác khi phát hiện URLlừa dao sử dụng cả thông tin tĩnh và thông tin giao diện, từ đó cho ra kết quả tối ưu nhất có

thê với mỗi URL đầu vào.

Trang 9

Chương 1 MO DAU

1.1 Tén dé tai

Tên tiếng Việt: XÂY DUNG GIẢI PHAP PHAT HIEN PHISHING LINK SỬ DUNG

MAY HOC

Tén tiéng Anh: BUILDING A MACHINE LEARNING-BASED SOLUTION FOR

DETECTING PHISHING LINK

1.2 Dat van dé

Trong những năm gần đây, tấn công lừa đảo đã phát triển một cách nhanh chóng vàtrở thành một dịch vụ phổ biến, đến mức hiện nay, nó được cung cấp như một dich vụ [1][2] [3] Đặc biệt, trong đại dịch COVID-19, số lượng cuộc tan công lừa đảo đã tăng lên gap

4-5 lần [4] Dé đối phó với tình hình này, các nhà nghiên cứu đang rất quan tâm va đưa ra

nhiều giải pháp phát hiện tan công lừa đảo mới và đa dang Có hai loại giải pháp chính déphat hiện các trang web lừa đảo Dau tiên là phát hiện lừa dao dựa trên thông tin tĩnh, nghĩa

là dựa trên những dữ liệu có định của trang web như nội dung và đặc điểm kỹ thuật Loại

thứ hai là phát hiện lừa đảo dựa trên thông tin giao diện, nghĩa là dựa trên cách trang web

tương tác và hiển thị với người dùng

Các giải pháp phát hiện lừa đảo dựa trên thông tin tinh thường sử dụng các mô hình

máy học được huấn luyện trên các bộ dữ liệu Một số mô hình phát hiện lừa đảo chỉ sửdụng URL dé huấn luyện và dự đoán [5] [6] [7] [8], trong khi những mô hình khác sử dụng

nội dung HTML để trích xuất các đặc trưng [9] [10] [11] [12] Tuy nhiên, giải pháp này có

những hạn chế Một trong những hạn chế là việc cập nhật mô hình đòi hỏi liên tục cungcấp các bộ dữ liệu lừa đảo đã được gắn nhãn một cách lớn Điều này đòi hỏi sự đầu tư vàcông sức đáng ké dé thu thập và xử lý các dữ liệu này Ngoài ra, các kẻ tấn công có thé ápdụng các kỹ thuật trốn tránh đề đánh lừa các giải pháp này [13] [14] Điều nay đặt ra tháchthức với việc xác định và phát hiện các hình thức tan công mới và tiên tiến hơn

Trái ngược với giải pháp phát hiện lừa đảo dựa trên thông tin tĩnh, các giải pháp phát

2

Trang 10

hiện lừa đảo từ thông tin giao diện dựa trên việc lưu trữ một tập hợp các thương hiệu hoặc

trang web của các thương hiệu, thường là mục tiêu của các cuộc tấn công lừa đảo Các môhình được xây dựng dựa trên dữ liệu đã được lưu trữ Trong quá trình hoạt động, nếu môhình dự đoán rằng một trang web nhất định tương tự với trang web của một thương hiệu

cụ thể trong cơ sở dữ liệu, nhưng có tên miền khác với thương hiệu được xác định, thì trang web đó được phân loại là trang web lừa đảo [15] [16] [17] [18] Tuy nhiên, cách tiếp cận

như vậy có những hạn chế Một trong những hạn chế là tính linh động và sự thay đổi thường

xuyên của các trang web và nội dung của chúng [19] [20] Điều này đồng nghĩa với việc

cơ sở dữ liệu cần được cập nhật liên tục dé bắt kịp với sự thay đổi này, đồng thời tao ramột danh sách thương hiệu hoàn chỉnh và chính xác Việc này có thé gây ra độ chính xácthấp hơn trong việc phát hiện tan công lừa đảo, vì các trang web lừa đảo có thé sử dụng tên

miền mới hoặc các biện pháp thay đổi khác dé tránh bị phát hiện

Trong năm 2021, một kỹ thuật mới đã được giới thiệu đề giải quyết các vấn đề trên,

đó là sử dụng hệ thống hybrid deep learning, tức là kết hợp hai mô hình deep learning vớinhau Cụ thể, kỹ thuật này tách phát hiện lừa đảo từ thông tin giao diện thành hai vấn đềchính: nhận dạng logo và nhận dạng thương hiệu Mô hình được dé xuất sử dụng để nhậndạng logo là mô hình Object Detection, trong khi mô hình được sử dụng để nhận dạngthương hiệu là mô hình Siamese Mô hình Siamese không yêu cau bat kỳ bộ dữ liệu lừađảo nào dé huấn luyện, giúp giảm thiểu sự sai lệch do đữ liệu đầu vào tạo ra Đề đảm bảotính bảo mật và đối phó với các cuộc tan công né tránh (evasion attacks)[21] [22], các nhànghiên cứu đã kết hợp kỹ thuật gradient masking vào hệ thống Kỹ thuật này giúp chốnglại các cuộc tan công né tránh bang cách che giấu thông tin quan trong trong quá trình huấnluyện mô hình Việc sử dụng hệ thống hybrid deep learning và kỹ thuật gradient masking

trong phát hiện tấn công lừa đảo từ thông tin giao diện mang lại nhiều lợi ích Nó giúp cải

thiện độ chính xác và độ tin cậy của hệ thống, đồng thời giảm thiểu tác động của dữ liệu

không chính xác và đảm bảo tính bảo mật trong quá trình phát hiện tấn công lừa đảo

Dé tăng cường độ chính xác trong việc phát hiện lừa đảo, chúng em đề xuất cải tiễn

hệ thống bằng cách thêm một nhánh sử dụng kỹ thuật học máy với giảm sát Random Forest

3

Trang 11

dé phát hiện các URL lừa dao.

Với đề tài này, mục tiêu của chúng em là phát triển một hệ thống phát hiện URL lừa

đảo từ cả thông tin tinh và thông tin giao diện Phương pháp của chúng em không chi đơn

giản hóa việc phát hiện và nhận dạng các trang web lừa đảo, mà còn giúp tiết kiệm chi phí.Đồng thời, hiệu quả và độ chính xác của hệ thống sẽ được cải thiện đáng kể Chúng em tinrằng phương pháp này sẽ mang lại kết quả tốt hơn trong việc phát hiện các trang web lừađảo, cung cấp một hệ thống hiệu quả và đáng tin cậy hơn cho việc bảo vệ người dùng trựctuyến

1.3 Mục tiêu của đề tài

Nghiên cứu này xuất phát từ nhận thức về sự gia tăng đáng ké của các trang web lừa

đảo và tình hình ngày càng phức tạp của tội phạm trực tuyến Các cuộc tấn công lừa đảo

trực tuyến ngày càng phô biến và gây thiệt hại lớn đến người dùng, doanh nghiệp và tổ

hành động gian lận khác.

Điều này làm tăng sự cần thiết của việc phát triển các công cụ và giải pháp phát hiệnURL lừa đảo trong các đoạn text, văn bản, email và tin nhăn SMS Mục tiêu chính của đềtài này có thể miêu tả như sau:

- _ Cung cấp một hệ thống phát hiện hiệu quả và chính xác dé xác định các URL lừa

đảo, giúp người dùng tránh tiếp cận và rơi vào các cuộc tấn công lừa đảo trựctuyến Hệ thống được thiết kế dé cung cấp kết quả phát hiện lừa đảo chính xác và

4

Trang 12

tin cậy Từ việc phân tích đoạn văn bản và các yếu tố liên quan, hệ thống sẽ đưa

ra đánh giá về tính xác thực của URL được kiểm tra.

Các module trong hệ thống được thiết kế tường minh và mở rộng, nhằm hỗ trợcho các nghiên cứu tiếp theo và phát triển công nghệ phát hiện lừa đảo Điều nàyđảm bảo tính linh hoạt và khả năng tiến bộ của hệ thống, đồng thời giúp nâng cao

hiệu quả và chính xác trong phát hiện các trang web lừa đảo.

Nâng cao chất lượng bộ dữ liệu, đảm bảo tính đáng tin cậy và đa dạng, tạo cơ sởcho các nghiên cứu và phát triển tiếp theo trong lĩnh vực phát hiện URL lừa đảo

Sự cải thiện bộ dữ liệu không chỉ giúp đánh giá chính xác hơn hiệu suất của hệthống, mà còn tạo ra cơ sở cho các nghiên cứu và phát triển tiếp theo Nhờ đó,những nghiên cứu sau này có thé dé dang sử dụng và mở rộng bộ dữ liệu, đồng

thời nâng cao khả năng áp dụng và hiệu quả của các giải pháp phát hiện URL lừa

đảo.

Không những thế, nghiên cứu này còn hướng đến việc thiết kế giao điện web thânthiện dé giúp người dùng dé dàng hiểu và đưa ra quyết định an toàn khi tiếp cận các URLnghỉ ngờ Giao diện web sẽ hiển thị kết quả phát hiện lừa đảo một cách rõ ràng và trựcquan, cung cấp cho người dùng thông tin cần thiết để đánh giá tính xác thực của URL.Đồng thời, thông qua hình ảnh minh họa và thông tin liên quan, người dùng sẽ được hỗ trợtrong việc đưa ra quyết định an toàn khi gặp phải các URL đáng ngờ Mục tiêu của chúng

em là đảm bảo rang người dùng có được cái nhìn tông quan và tin cậy đê tự bảo vệ minh trước các cuộc tân công lừa đảo trực tuyên.

1.4. Đối tượng và phạm vi nghiên cứu

1.4.1 Đối tượng nghiên cứu

- _ Mô hình học sâu Object detection được sử dung dé phat hién cac đối tượng.

Mô hình học sâu Siamese.

Mô hình học máy có giám sát Random forest.

Trang 13

- Ky thuật trích xuất các đặc trưng của URL: Bao gồm các đặc trưng dựa trên URL,

nội dung và thông tin từ các dịch vụ bên ngoài Những đặc trưng này sẽ được sử

dụng dé phân loại và đánh giá tính xác thực của URL

- Ma nguồn mở EvalML, URLSandbox: Là các công cụ hoặc thư viện sẽ được sử

dụng dé đánh giá và kiểm thử hiệu suất của hệ thống phát hiện URL lừa đảo.

- _ Thư viện hỗ trợ máy học Tensorflow, Scikit-learn, Keras.

- Thu viện chụp ảnh màn hình Selenium.

1.4.2 Phạm vi nghiên cứu

Phạm vi nghiên cứu của đề tài này được tập trung vào các URL lừa đảo được gửi quacác hình thức truyền thông như đoạn text, email và tin nhắn SMS Dựa vào các kiến thức

đã học, chúng em tiếp tục nghiên cứu đề đưa ra đề xuất về một hệ thống phát hiện hiệu quả

và chính xác dé xác định các URL lừa đảo bằng việc kết hợp hệ thống hybrid deep learning

và mô hình học máy có giám sát.

Hệ thống đề xuất sẽ cho phép người dùng kiểm tra tính xác thực của các đoạn textchứa URL, danh sách URL hoặc một URL cụ thể Người dùng có thé nhap cac doan texthoặc URL và hệ thống sẽ phân tích và đánh giá tính xác thực của chúng Giao diện thânthiện và trực quan sẽ hiển thị kết quả phát hiện lừa đảo, bao gồm các hình ảnh minh họa vàthông tin liên quan dé hỗ trợ người dùng đưa ra quyết định an toàn khi tiếp cận các URL

nghi ngờ.

Đề đảm bảo tính đa dạng và độ chính xác của hệ thống, nghiên cứu này sẽ sử dụngmột bộ dữ liệu đáng tin cậy Bộ dữ liệu này sẽ chứa các ví dụ về URL lừa đảo và URLđáng tin cậy, đảm bảo rằng hệ thống được huấn luyện và đánh giá trên các trường hợp thựctế

Phạm vi nghiên cứu này giới hạn việc tập trung vào việc phát hiện và đánh giá tính

xác thực của các URL lừa đảo được gửi qua các hình thức truyền thông Bang cách cungcấp một hệ thống kiểm tra và đánh giá URL, người dùng có thể tự bảo vệ mình khỏi các

cuộc tân công lừa đảo trực tuyên.

Trang 14

Chương 2 Tổng quan

2.1 Cơ sé lý thuyết

2.1.1 Tổng quan về tấn công lừa đảoTan công lừa dao là một loại tấn công mạng trong đó kẻ tấn công mạo danh một thựcthể hoặc tổ chức đáng tin cậy dé đánh lừa các cá nhân tiết lộ thông tin nhạy cảm, chăng

hạn như thông tin đăng nhập, chỉ tiết tài chính hoặc đữ liệu cá nhân Mục tiêu chính của

một cuộc tan công lừa đảo là lừa nạn nhân thực hiện một hành động cu thé, chăng hạn nhưnhấp vào liên kết độc hại, mở tệp đính kèm độc hại hoặc cung cấp thông tin bí mật

Dưới đây là tổng quan về cách một cuộc tan công lừa đảo điển hình có thé xảy ra:

Email/Social Engineering: Các cuộc tan công lừa đảo thường bắt đầu bang một emailhoặc tin nhắn trên nền tảng truyền thông xã hội Kẻ tấn công cải trang thành một tô chứchợp pháp, chăng hạn như ngân hàng, nhà cung cấp dịch vụ trực tuyến hoặc công ty có uytín, sử dụng các biểu trưng (logo), địa chỉ email hoặc liên kết trang web Họ cũng có thé sửdụng các kỹ thuật xã hội dé tạo cảm giác cấp bách hoặc khai thác cảm xúc của người nhận

dé tăng khả năng thành công

Deceptive Content: Email hoặc tin nhắn thường chứa một câu chuyện hấp dẫn hoặc

lý do thuyết phục người nhận hành động ngay lập tức Nó có thé tuyên bố rằng có van dévới tài khoản của họ, vi phạm bảo mật hoặc cơ hội dé nhận phần thưởng Nội dung thườngbao gồm lời kêu gọi hành động, chăng hạn như nhấp vào liên kết hoặc mở tệp đính kèm

Liên két/Tép đính kèm độc hại: Email hoặc tin nhắn có thé bao gồm một liên kết có

vẻ hợp pháp nhưng lại dẫn đến một trang web lừa đảo được thiết kế dé thu thập thông tincủa nạn nhân Ngoài ra, nó có thé chứa tệp đính kèm, chang hạn như tài liệu PDF hoặc Word, chứa mã độc có thể lây nhiễm sang thiết bị của nạn nhân khi được mở.

Thu thập dữ liệu: Nếu nạn nhân rơi vào nỗ lực lừa đảo và tương tác với liên kết hoặctệp đính kèm độc hại, họ có thé được chuyền hướng đến một trang web lừa dao gần giốngvới trang web hợp pháp Nạn nhân được nhắc nhập thông tin nhạy cảm của họ, chăng hạnnhư thông tin đăng nhập, chi tiết thẻ tín dụng hoặc số an sinh xã hội Thông tin này sau đó

7

Trang 15

bị bắt bởi kẻ tấn công.

Khai thác: Một khi kẻ tan công lay được thông tin nhạy cam cua nạn nhân, chúng

có thé sử dụng nó cho nhiều mục đích xấu khác nhau Họ có thể có quyền truy cập tráiphép vào tài khoản của nạn nhân, đánh cắp danh tính của họ, thực hiện các giao dịch muahàng gian lận hoặc bán thông tin trên web tối

Dé bảo vệ bạn khỏi các cuộc tan công lừa đảo, điều cần thiết là luôn cảnh giác vàlàm theo các phương pháp hay nhất như xác minh danh tính của người gửi, xem xét kỹlưỡng email dé tìm dấu hiệu của hoạt động đáng ngờ (ví dụ: ngữ pháp kém, yêu cầu khôngmong muốn), tránh nhấp vào liên kết lạ hoặc tải xuống tệp đính kèm từ các nguồn khôngđáng tin cậy và sử dụng mật khâu mạnh, duy nhất cho các tài khoản trực tuyến khác nhau.Các tổ chức cũng sử dụng nhiều biện pháp bảo mật khác nhau như bộ loc email, xác thực

đa yếu tố và đào tạo nhân viên dé giảm thiểu nguy cơ bị tan công lừa đảo

Các cuộc tan công lừa đảo đã phát triển theo thời gian và những kẻ tan công sử dụngnhiều kỹ thuật khác nhau đề đánh lừa các cá nhân và tô chức Dưới đây là một số hình thứctan công lừa đảo phô biến hiện nay:

Email Phishing: Đây là hình thức tân công lừa đảo phô biến nhất Những kẻ tancông gửi email lừa đảo có vẻ như đến từ các tổ chức hợp pháp, chăng hạn như ngân hàng,dịch vụ trực tuyến hoặc cơ quan chính phủ Các email thường chứa đựng cảm giác cấpbách, khuyến khích người nhận nhấp vào liên kết độc hại hoặc cung cấp thông tin nhạy

cảm.

Spear Phishing: Spear phishing nhằm vào các cá nhân hoặc tô chức cụ thể, làm cho

nó trở nên cá nhân hóa và thuyết phục hơn Những kẻ tan công thu thập thông tin về mụctiêu của chúng thông qua phương tiện truyền thông xã hội, hồ sơ công khai hoặc vi phạm

dữ liệu để tạo các thông báo lừa đảo tùy chỉnh Những email này thường có vẻ như đến từmột người mà người nhận biết hoặc tin tưởng

Smishing: Smishing, hoặc SMS phishing, liên quan đến việc gửi tin nhắn văn banlừa dao dé đánh lừa người nhận Các tin nhắn có thể chứa một liên kết hoặc nhắc ngườinhận trả lời với thông tin nhạy cảm Các cuộc tấn công Smishing thường mạo danh các

8

Trang 16

công ty hoặc tô chức tài chính nổi tiếng.

Vishing: Vishing hay còn gọi là lừa đảo bằng giọng nói, sử dụng các cuộc gọi điệnthoại dé lừa các cá nhân tiết lộ thông tin nhạy cảm Những kẻ tan công có thé giả làm đại

diện của ngân hàng, cơ quan chính phủ hoặc bộ phận hỗ trợ kỹ thuật và sử dụng các kỹ

thuật tấn công xã hội dé thuyét phuc nan nhan tiét 16 thông tin cá nhân hoặc thông tin taichính Whaling/CEO Fraud: Whaling nhắm vào các giám đốc điều hành cấp cao và các cánhân ở các vị trí có thâm quyền Những kẻ tan công mạo danh CEO, giám đốc điều hànhhoặc những nhân vật nổi bật khác trong một tổ chức dé lừa nhân viên thực hiện các hànhđộng xâm phạm bảo mật hoặc cung cấp quyền truy cập vào đữ liệu nhạy cảm

Pharming: Các cuộc tân công pharming thao túng hệ thống tên miền (DNS) đểchuyên hướng người dùng từ các trang web hợp pháp sang các trang web độc hại mà họkhông hề hay biết Kỹ thuật này nhằm đánh lừa người dùng nhập thông tin đăng nhập hoặcthông tin tài chính của họ trên các trang web lừa đảo gần giống với các trang web hợp pháp

Clone Phishing: Lua đảo nhan bản liên quan đến việc tạo một bản sao của email,trang web hoặc trang đăng nhập hợp pháp đề lừa người dùng nghĩ rằng họ đang tương tácvới một nguồn đáng tin cậy Những kẻ tan công thực hiện các sửa đổi nhỏ đối với nội dunggốc, chăng hạn như thay thé liên kết hoặc tệp đính kèm bằng liên kết hoặc tệp đính kèmđộc hại để đánh lừa người nhận.

Malware-Based Phishing: Các cuộc tân công lừa đảo thường sử dụng phần mềmđộc hại dé xâm nhập hệ thống Những kẻ tan công có thé bao gồm các tệp đính kèm hoặcliên kết độc hại trong email lừa đảo của chúng, dẫn đến việc tải phần mềm độc hại xuốngthiết bị của nạn nhân Sau đó, phần mềm độc hại có thể lay cap thông tin nhạy cam, ghi laicác lần gõ phím hoặc giành quyền truy cập trái phép vào hệ thống

Điều quan trọng dé hạn chế các cuộc tan công lừa đảo là luôn cập nhật thông tin vềcác hình thức tấn công lừa đảo khác nhau này và luôn cảnh giác khi tương tác với email,tin nhắn hoặc cuộc gọi điện thoại Triển khai các biện pháp bảo mật tốt nhất, chăng hạnnhư xác minh danh tính người gửi, tránh nhấp vào các liên kết hoặc tệp đính kèm đángngờ, đồng thời thường xuyên cập nhật và sử dụng phần mềm chống Virus, có thé giúp bảo

9

Trang 17

vệ chống lại các cuộc tấn công này.

Trong báo cáo tổng quan về mối đe dọa di động năm 2020 (Wandera, 2020) [23],Wandera đã khăng định rằng mỗi 20 giây sẽ xuất hiện một trang web lừa đảo mới Trongnăm 2021, APWG[24] đã ghi nhận hon 300.000 cuộc tan công, đây là số lượng tan cônglớn nhất từ trước đến nay, và tăng gấp ba lần so với đầu năm 2020 lừa đảo nhằm lấy cắp

thông tin xác thực.

Trong năm 2023, Zcaler - một trong những công ty về security cloud lớn nhất thé

giới - cũng đưa ra báo cáo tổng quan về các cuộc tan công lừa dao Ho cho rằng các cuộctan công lừa đảo tiếp tục là một trong những mối đe dọa nghiêm trọng nhất mà các tổ chứcphải đối mặt ngày nay, khi các doanh nghiệp ngày càng phụ thuộc vào các kênh liên lạc kỹthuật số, tội phạm mạng khai thác các lỗ hồng trong email, SMS và liên lạc bằng giọng nói

dé khởi động các cuộc tân công lừa đảo tinh vi Với việc đại dịch COVID-19 dẫn đến tìnhtrạng làm việc từ xa gia tăng trong vài năm qua, nguy cơ bị tấn công lừa đảo ngày càngtăng Zscaler tiết lộ rằng các cuộc tân công lừa đảo vẫn đang gia tăng, nêu chỉ tiết mức tăng41,2% trong các cuộc tấn công lừa đảo vào năm 2022 so với năm trước, là kết quả của việctội phạm mạng sử dụng các kỹ thuật ngày càng tinh vi dé thực hiện các cuộc tan công quy

mô lớn Sự tăng đáng kể này là minh chứng cho sự ton tại của các cuộc tan công lừa đảocùng với sự gia tăng đáng ké về mức độ thiệt hại mà chúng gây ra

2.1.2 Tong quan về kỹ thuật phát hiện tan công lừa đảo từ thông tin tĩnh

Có một số kỹ thuật học máy có thể được sử dụng dé phat hién tan công lừa đảo từthông tin tĩnh Dưới đây là một vài cách tiếp cận thường được sử dụng:

- Hoc có giám sát: Phát hiện tấn công lừa đảo có thể được xem như một vấn đề phân

loại nhị phan, trong đó mục tiêu là phân loại một URL nhất định là hợp pháp hoặc

lừa đảo Các thuật toán học tập có giảm sát như Decision tree, Random forests,

Support vector machines (SVM) và Neural networks có thể được đào tạo trên các

bộ dữ liệu được gắn nhãn có chứa các ví dụ về cả URL hợp pháp và lừa đảo Các

tính năng như cầu trúc URL, danh tiếng tên miễn, sự hiện diện của các từ khóa đáng

10

Trang 18

ngờ và nội dung HTML có thé được trích xuất và sử dụng dé đào tao các mô hình.

Xử lý ngôn ngữ tự nhiên (Natural language processing - NLP): URL lừa đảo thường

chứa văn bản lừa đảo hoặc bắt chước URL hợp pháp dé lừa người dùng Kỹ thuậtNLP có thể được sử dụng đề phân tích nội dung văn bản của một URL và xác địnhcác mẫu đáng ngờ Điều này có thể liên quan đến các phương pháp như phân tích

từ khóa, phân tích tình cảm, gan thẻ một phan giọng nói và nhận dạng thực thé đượcđặt tên để xác định ý định độc hại hoặc thông tin gây hiểu lầm.

Feature engineering: Các tính năng khác nhau có thê được lấy từ chính URL hoặc siêu đữ liệu được liên kết của nó dé hỗ trợ phát hiện URL lừa đảo Các tính năng

như độ dai URL, sử dụng tên miền phụ, sự hiện diện của các ký tự không chuẩn và

thông tin chứng chi SSL có thé được trích xuất Ngoài ra, các tính năng như danhtiếng của địa chi IP hoặc vi trí địa lý của máy chủ cũng có thé được xem xét

Ensemble learning: Kết hợp nhiều mô hình học máy thành một tập hợp thường cóthé dẫn đến cải thiện độ chính xác phát hiện Các kỹ thuật tong hợp như tăng cường

và xếp chồng có thé được sử dụng dé kết hợp các dự đoán của nhiều bộ phân loại

và đưa ra quyết định cuối cùng về bản chất của một URL nhất định

Deep Learning: Các mô hình hoc sâu, đặc biệt là mạng nơ-ron tích chập

(Convolutional Neural Network - CNN) và mạng nơ-ron tái phát (Recurrent neural

network - RNN), đã được áp dụng thành công dé phát hiện URL lừa đảo Các môhình này có thé tìm hiểu các mẫu “phức tạp và phụ thuộc” trong đữ liệu, làm cho

chúng có hiệu quả trong việc năm bắt các đặc điêm tỉnh tê của các URL lừa đảo.

Điều đáng chú ý là các phương pháp tiếp cận dựa trên máy học không phải là hoànhảo và những kẻ tấn công liên tục phát triển các kỹ thuật của chúng để vượt qua các hệthống phát hiện Do đó, người ta thường kết hợp các kỹ thuật máy học với các biện phápbảo mật khác, chăng hạn như đưa các miền lừa đảo đã biết vào danh sách đen, phân tích

hành vi của người dùng và tiên hành đào tạo nâng cao nhận thức bảo mật thường xuyên đê tạo ra biện pháp bảo vệ mạnh mẽ trước các cuộc tân công lừa đảo.

11

Trang 19

2.1.3 Tổng quan về kỹ thuật phát hiện tan công lừa dao từ thông tin giao diện

Phát hiện lừa đảo từ thông tin giao diện là quá trình tập trung vào việc xác định và

nhận diện các trang web lừa đảo dựa trên giao diện của trang web Trong các giải pháp

phát hiện lừa đảo này, có một tập hợp các thương hiệu hoặc trang web bị nhắm mục tiêubởi các cuộc tấn công lừa đảo được lưu trữ như là một tham chiếu Dựa trên cơ sở dữ liệu

tham chiếu này, một mô hình được xây dựng Khi hoạt động, mô hình sẽ so sánh một trang

web cụ thê với các thông tin trong cơ sở dữ liệu tham chiếu Nếu mô hình dự đoán rằngtrang web đó tương tự với một thương hiệu cụ thể trong cơ sở dữ liệu, nhưng lại có tênmiền khác với thương hiệu đó, thì trang web sẽ được xem như là một trang web lừa dao

Mục tiêu của các mô hình phát hiện lừa đảo từ thông tin giao diện không chỉ là phát hiện

các trang web lừa đảo mà còn là xác định các mục tiêu bị tấn công lừa đảo

Tổng quan về kỹ thuật phát hiện logo

Logo là một biéu tượng được tạo thành từ văn bản và hình ảnh dé nhận diện mộtdoanh nghiệp Mặc dù logo có thé có nhiều hình thức, màu sắc và phong cách khác nhau,nhưng chúng phải tuân thủ các hạn chế thiết kế nhất định dé trở nên nổi bật và dé nhậnbiết.

Kỹ thuật phát hiện logo là quá trình xác định và nhận dạng logo trong hình ảnh hoặc

video Mục tiêu là tự động tìm kiếm, phát hiện và xác định vi trí của logo trong nội dunghình ảnh hoặc video, bat ké kích thước, màu sắc, biến đổi hình dạng hoặc môi trường xungquanh Kỹ thuật này thường sử dụng các phương pháp và thuật toán máy học dé phan tich

và so khớp các đặc trưng cua logo, chăng hạn như hình dạng, màu sắc, vị trí hoặc biểu đồ độc nhất.

Phân loại logo là một nhiệm vụ trong kỹ thuật phát hiện logo Phân loại logo nhằmnhận dạng tên logo tương ứng với hình ảnh đầu vào Các phương pháp phân loại hiện cóbao gồm:

- Ky thuật này sử dụng các đặc trưng độc đáo của logo, chang hạn như hình dạng,

12

Trang 20

mau sắc hoặc vùng chứa logo, dé phát hiện sự hiện diện của logo Các phương phápphô biến trong này bao gồm việc sử dụng các mô hình học máy như Support VectorMachines (SVM) hoặc Random Forests kết hợp với các đặc trưng như HOG

(Histogram of Oriented Gradients) hoặc SIFT (Scale-Invariant Feature Transform).

Sử dụng phương pháp dựa trên deep learning: Kỹ thuật này sử dung các mang neural

mạnh mẽ dé học va phát hiện logo Các mô hình CNN được huấn luyện trên mộtlượng lớn dit liệu logo dé phát hiện và phân loại chúng Các mô hình nổi tiếng như

YOLO (You Only Look Once) va SSD (Single Shot MultiBox Detector) đã được

su dung trong viéc phat hién logo.

Trước khi phát triển Deep learning, các phương pháp ban dau cho việc phát hiện logođược thực hiện dựa trên các đặc trưng hình ảnh được tạo bằng tay (ví dụ: SIFT va HOG)

và các mô hình phân loại truyền thống (ví dụ: SVM) Tuy nhiên, các phương pháp pháthiện logo truyền thong như vậy có những hạn chế nhất định: (1) Thuật toán tìm kiếm vùngdựa trên cửa số trượt thiếu tính liên quan, đặc biệt là với độ phức tạp thời gian cao (2) Cácđặc trưng được thiết kế bằng tay thiếu tính ôn định đối với sự biến đổi đa dạng của logo.Trong các nghiên cứu gần đây, Deep learning đã trở thành phương pháp chính trong phát

hiện logo Dựa trên các chiên lược học khác nhau, chúng ta có thê phân loại các mô hình này như sau: region-based Convolutional Neural Network models, Single Shot Detector- based models, Feature Pyramid Networkbased models va các mô hình khác.

Region-based Convolutional Neural Network models (R-CNN) [25]: 1a thuat toan

phát hiện đối tượng, ý tưởng thuật toán này chia làm 2 bước chính Dau tiên, sửdụng thuật toán Selective Search [26] để đi tìm những bounding-box phù hợp nhất(ROI hay region of interest) Sau đó sử dung CNN để trích xuất đặc trưng từ nhữngbounding-box đó Tuy nhiên, phương pháp này có nhược điểm là tốn thời gian tínhtoán và chiếm nhiều không gian lưu trữ Sau đó mô hình Fast-RCNN [27] và Faster-RCNN [28] được đề xuất dé cải thiện tốc độ.

YOLO-based models (YOLOs): là một nhóm mô hình dựa trên YOLO (You Only

13

Trang 21

Look Once) Thay vì chia ảnh thành các vùng nhỏ va dự đoán cho từng vùng, YOLO

nhìn vào toàn bộ ảnh và đưa ra các dự đoán trực tiếp Quá trình này giúp YOLO cótốc độ phát hiện nhanh hơn so với các phương pháp khác Thuật toán YOLO lấyhình ảnh làm đầu vào va sử dụng mang nơ-ron tích chập sâu đơn giản dé phát hiệncác đối tượng trong ảnh Phiên bản YOLO đầu tiên [29] có tốc độ phát hiện nhanh,nhưng đánh đổi độ chính xác, đặc biệt là đối với các đối tượng nhỏ Các cải tiễn sau

này, như YOLOv2 [30], YOLOv3 [31], YOLOv4 [32], YOLOF [33], YOLOR [34],

YOLOX [35], YOLOv6 [36], YOLOv7 [37] cải thiện hiệu suất tông thé của YOLO,cân băng giữa độ chính xác và tốc độ

- Mô hình dựa trên Single Shot Detector (SSD): Mô hình Single Shot MultiBox

Detector (SSD) sử dụng một mang neural duy nhất đề thực hiện phát hiện đối tượng

SSD nhận vào các tọa độ của bounding box (hay còn gọi là offsets của bounding

box) và nhãn của vật thé trong bounding box Tên của mô hình - Single ShotMultiBox Detector - cho thấy mô hình này sử dụng nhiều khung hình box với tỷ lệscales khác nhau đề nhận diện và phân loại các vùng vật thé Điều đặc biệt là môhình này giúp giảm số bước tạo region proposal network so với phương pháp FastR-CNN, điều này mang lại tốc độ xử lý nhanh hơn mà vẫn đảm bảo hiệu suất chính

xác của mô hình.

- Feature Pyramid Network-based models (FPNs): được dé xuất vào 2017 bởi Lin et

al [39] chủ yếu giải quyết van dé da ti lệ trong việc phát hiện đối tượng bằng cáchthay đổi kết nối của mang FPN cải thiện đáng kể hiệu suất phát hiện đối tượng nhỏ

mà không tăng thêm lượng tính toán Trong những năm gần đây, nhiều nghiên cứu

đã áp dụng FPN để giải quyết các van đề trong việc phát hiện logo, chang hạn như

việc xử lý đa tỉ lệ và các đối tượng nhỏ [40, 41, 42, 43], và các FPN này đã dat được

kết quả đáng kể.

- _ Ngoài ra, còn có các phương pháp kết hợp nhiều kỹ thuật và các thuật toán khác

nhau để tăng độ chính xác và hiệu suất phát hiện logo Sự thành công của kỹ thuậtphụ thuộc vào chất lượng của dữ liệu logo huấn luyện và đặc trưng độc đáo của từng

14

Trang 22

logo cụ thê.

Công nghệ phát hiện logo đã được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồmquảng cáo, truyền thông, giám sát an ninh và truyền thông xã hội Ví dụ, trong lĩnh vựcquảng cáo, kỹ thuật phát hiện logo có thê được sử dụng để tự động nhận dạng và theo dõi

sự xuất hiện của logo trong các quảng cáo trên truyền hình hoặc video trực tuyến Tronglĩnh vực giám sát an ninh, công nghệ này có thé giúp xác định logo của các tổ chức hoặc

thương hiệu trong hình ảnh hoặc video được ghi lại từ các camera an ninh, từ đó hỗ trợ

việc phân tích và điêu tra.

Trong bối cảnh phát hiện trang web lừa đảo, kỹ thuật phát hiện logo đóng vai tròquan trọng trong việc nhận dạng và xác định sự hiện diện của logo của các tổ chức, doanhnghiệp hoặc thương hiệu ni tiếng trên trang web Mục tiêu chính của kỹ thuật này là giúpphát hiện các trang web lừa đảo bằng cách so sánh logo trên trang web với các logo đã biếttrước đó của các tổ chức hoặc doanh nghiệp chính thống Kỹ thuật phát hiện logo trongphát hiện trang web lừa đảo có thê là một phần quan trọng trong việc xác định tính xácthực và đáng tin cậy của một trang web và giúp người dùng tránh tiềm năng rơi vào cáccuộc tấn công và lừa đảo trực tuyến

Tổng quan về kỹ thuật nhận dạng thương hiệu

Phát hiện logo được sử dụng rộng rãi với các ứng dụng khác nhau Trường hợp sử

dụng rõ ràng nhất cho việc nhận dạng logo là giám sát thương hiệu (brand monitoring),bao gồm bảo vệ thương hiệu (brand protection), đề xuất thương hiệu (brand

recommendation) và nhận dạng thương hiệu (brand identification).

Trong bảo vệ thương hiệu, việc nhận dạng logo giúp phát hiện các hành vi vi phạm

bản quyền thương hiệu và ngăn chặn việc sử dụng trái phép logo của một thương hiệu

Trong đề xuất thương hiệu, nhận dạng logo giúp xác định thương hiệu phù hợp dựatrên hình anh logo và ứng dụng các thuật toán thông minh dé đề xuất các sản phẩm hoặc

dịch vụ liên quan mà người dùng có thê quan tâm.

15

Trang 23

Trong nhận dạng thương hiệu, việc nhận dạng logo giúp nhận biết thương hiệu của

một sản phẩm hoặc dịch vu cụ thé, từ đó xây dựng sự nhận thức thương hiệu va tang cường

khả năng nhận dạng của người tiêu dùng.

Logo đóng vai trò quan trọng trong marketing doanh nghiệp như một định danhthương hiệu duy nhất Tuy nhiên, có nhiều loại thương hiệu trong đời sống thực và có thể

có sự khác biệt logo tinh tế giữa hai sản phâm Sự tương đồng giữa các lớp và sự khác biệttrong cùng một lớp sẽ làm tăng độ khó của việc nhận dạng Ngoài ra, hình ảnh có thể cóngữ cảnh đa dạng, ánh sáng, biến đổi chiếu sáng và độ phân giải khác nhau Do đó, việcnhận dạng thương hiệu một cách hiệu quả trong hình ảnh là một nhiệm vụ đầy thách thức.Hiện nay, có rất nhiều nghiên cứu về xác định thương hiệu [41, 44, 45, 46] Đối với logothương hiệu, hình ảnh thường bao gồm một số mô tả văn bản Thông tin văn bản là mộtnguồn thông tin quan trong cho xác định thương hiệu Hu et al [44] đề xuất một frameworkthống nhất đa phương thức cho việc nhận dạng logo Framework này kết hợp việc nhậndạng logo dựa trên hình ảnh với các đặc trưng ngữ cảnh dé nhận dang logo bang cách sửdụng mô hình ngôn ngữ tự nhiên Thông tin ngữ cảnh bồ sung có thé giảm thiểu các hạnchế của quá trình nhận dạng Hiệu suất của mô hình này cho việc nhận dạng logo đã được

cải thiện, nhưng vẫn còn nhược điểm về vị trí định vị.

2.1.4 Tông quan về các thư viện sử dụng trong module web Tensorflow

Tensorflow là một thư viện phân mém mã nguôn mở được thiệt kê đê tao điêu kiện thuận lợi cho việc phát triên và triên khai các mô hình học máy, đặc biệt là các mô hình học sâu, trên nhiêu nên tảng khác nhau, bao gôm CPU, GPU và bộ tăng tôc phân cứng chuyên dụng.

Tensorflow sử dụng "Tensor" là kiểu dữ liệu chính đề lưu trữ và thao tác với đữ liệutrong quá trình xây dựng và huấn luyện mô hình Một Tensor có ba thuộc tính cơ bản là

"rank", "shape", và "type".

16

Trang 24

- Rank: Rank của Tensor là số chiều (dimensions) của nó Khi Tensor có rank bang

0, nó được gọi là Scalar Khi Tensor có rank bằng 1, nó được gọi là Vector Matrix

là một Tensor rank 2, tương đương với một mảng hai chiều theo khái niệm của

Python Khi rank của Tensor lớn hơn 2, chúng được gọi chung là N-Tensor.

- Shape: Shape của Tensor là một tuple chứa các kích thước của mỗi chiều của Tensor.

Ví dụ, một Vector có thé có shape (n,), một Matrix có thể có shape (m, n), và mộtN-Tensor có thé có shape (d1, d2, , dn)

- Type: Type của Tensor xác định kiểu đữ liệu của các phan tử bên trong Tensor,

chăng hạn như số nguyên, số thực hoặc boolean

Nhờ vào cấu trúc linh hoạt của Tensor và khả năng thực hiện các phép toán Tensor,TensorFlow trở thành một công cụ mạnh mẽ cho tính toán số học và xây dựng các mô hình

học máy phức tạp.

Django

Django là một framework phát triển phan mềm bậc cao của Python, được thiết kế dégiúp day nhanh quá trình phát triển ứng dụng web Được xây dựng bởi một nhóm lập trìnhviên giàu kinh nghiệm, Django tập trung vào các van đề liên quan đến phát triển web, chophép bạn xây dựng các trang web một cách tinh gon ma không cần phải bắt đầu từ dau.Django cung cấp nhiều tinh năng mạnh mẽ như hệ thống quản lý cơ sở dit liệu, quản lýđịnh tuyến, tạo biểu mẫu, quản lý tài khoản người dùng, và hỗ trợ đa ngôn ngữ Djangocũng là một dự án mã nguồn mở và hoàn toàn miễn phí, điều này cho phép bạn tự do sửdụng, tùy chỉnh và phân phối mã nguồn của mình một cách tự do

Django là một framework phát triển phan mềm Python với tính hoàn thiện cao, thé

hiện qua triết lý "Batteries included" Framework này cung cấp mọi công cụ cần thiết cho

nhà phát triển, không cần phải đắn đo, suy nghĩ về việc sử dụng các thư viện bên ngoài.Điều này cho phép chúng ta tập trung mạnh vào việc xây dựng sản phẩm, vì tất cả cácthành phan đã được kết nối hoạt động một cách liền mạch với nhau Django rất đa năng và

có khả năng xây dựng hầu hết các loại website, từ hệ thống quản lý nội dung cho đến các

17

Trang 25

trang mạng xã hội hay web tin tức Nó cũng tương thích với các framework client-side, cho

phép tương tác hiệu quả với trình duyệt Đồng thời, Django có thé xử lý nội dung ở nhiều

định dạng khác nhau như HTML, RESS, JSON, XML, giúp đơn giản hóa quá trình xây

dựng ứng dụng và đáp ứng nhu cầu đa dạng của người dùng

Django rất chú trọng đến mặt bảo mật và cung cấp nhiều tính năng và thao tác giúp

nhà phát triển trang bị các biện pháp phòng chống lỗi bảo mật thông thường Ví dụ: Django

cung cấp hệ thông quản lý người dùng tích hợp sẵn, bao gồm cả chức năng đăng ký, đăngnhập, quên mật khẩu và cài đặt mật khâu mới Điều này giúp đảm bảo rang thông tin người

dùng được bảo vệ một cách an toàn và đáng tin cậy.

Tóm lai, Django là một lựa chọn mạnh mẽ và đáng tin cậy dé phát triển ứng dụng

web, nhờ tính hoàn thiện cao, tiện ích được tích hợp săn và khả năng đa năng trong việc

xây dựng nhiều loại website và tương tác với các định dạng dữ liệu khác nhau Nhờ vào

những biện pháp bảo mật tích hợp sẵn và các thao tác an toàn, Django giúp cho việc phát

triển ứng dụng web với mức độ bảo mật cao trở nên dễ dàng và đáng tin cậy.

Keras

Keras là một thư viện mức cao (high-level) được sử dụng để xây dựng và huấn luyệncác mạng neural Nó cung cấp một giao điện dé sử dụng và cú pháp đơn giản hơn so với

TensorFlow và một sô thư viện ‘low-level’ khác Một sô điêm nôi bật vê Keras bao gôm:

- Khả năng lựa chon backend: Keras cho phép người dùng chon backend mà ho muốn

sử dụng, như TensorFlow, CNTK hoặc Theano Điều này giúp Keras trở nên linh hoạt và có thể chạy trên nhiều nền tảng tính toán khác nhau.

- Cu pháp đơn giản: Keras cung cấp một cú pháp rõ ràng va dé hiểu hơn so với các

thư viện low-level Nó giúp giảm thiểu sự phức tạp trong quá trình xây dựng mạngneural và cho phép người lập trình tập trung vào việc thiết kế kiến trúc mạng và đào

tạo mô hình.

- Trai nghiệm người lập trình: Keras tập trung vào trải nghiệm của người lập trình

18

Trang 26

băng cách cung cấp các API dễ sử dụng và có tính tương tác cao Điều này giúpngười dùng dễ dàng tùy chỉnh và điều chỉnh mô hình của họ một cách linh hoạt.

- H6 trợ huấn luyện trên nhiều GPU: Keras hỗ trợ huấn luyện mô hình trên nhiều

GPU phân tán, giúp tăng tốc quá trình huấn luyện và xử lý dữ liệu lớn

- Giúp biến thiết kế thành sản phẩm: Nhờ vào tích hợp với các backend như

TensorFlow, Keras cho phép người dùng biến các thiết kế mô hình thành các ứngdụng thực tế và triển khai chúng vào sản phẩm

Vì những ưu điểm trên, Keras đã trở thành một trong những thư viện phổ biến được

sử dụng rộng rãi trong lĩnh vực học máy và deep learning.

Scikit-learn

Scikit-learn (Sklearn) là một thu viện hoc máy phô biến và mạnh mẽ được viết băngPython Thư viện này cung cấp một loạt các công cụ và thuật toán để giải quyết các bàitoán học máy và mô hình hóa thống kê, bao gồm phân loại (classification), hồi quy(regression), phân cụm (clustering) và giảm chiều dữ liệu (dimensionality reduction)

Các điểm nỗi bat của Scikit-learn bao gồm:

- Pham vi rộng: Scikit-learn cung cấp nhiều thuật toán học máy và mô hình thống kê

đa dạng, giúp người dùng lựa chọn phù hợp với từng bài toán cụ thé

- Bản quyền chuẩn FreeBSD: Scikit-learn là một phần mềm mã nguồn mở, được cấp

phép theo bản quyền chuân FreeBSD, cho phép người dùng tự do sử dụng, phânphối và chỉnh sửa mã nguồn

- Kha năng chạy trên nhiều nền tang Linux: Scikit-learn được thiết kế dé hoạt động

tốt trên nhiều hệ điều hành Linux, giúp người dùng có thê triển khai trên nhiều môi

trường tính toán khác nhau.

- Dễ sử dụng và dễ code: Scikit-learn tập trung vào việc cung cấp giao diện dễ sử

dụng và cú pháp rõ ràng, giúp người dùng dễ dàng xây dựng và đánh giá các mô

hình học máy.

- _ Hiệu quả cao: Scikit-learn được tối ưu hóa dé hoạt động hiệu quả và xử lý dữ liệu

19

Trang 27

lớn một cách nhanh chóng, giúp tiết kiệm thời gian trong quá trình huấn luyện mô

Selenium không chỉ đơn thuần là một công cụ duy nhất, mà thực tế là một bộ sưu tậpgồm 4 công cụ phục vụ cho các nhu cầu kiểm thử khác nhau

- Selenium IDE: Selenium Integrated Development Environment (IDE) là một plugin

dành cho trình duyệt Chrome và Firefox Nó cho phép bạn ghi lai (record) va phát

lại (playback) các tương tác của người dùng theo một quy trình hay test case cụ thé.Điều này giúp việc tao ra các kịch ban kiểm thử trở nên dễ dang hơn

- Selenium RC: Selenium Remote Control (RC), Selenium server khởi chạy và tương

tác với trình duyệt web.

- Selenium WebDriver: Selenium WebDriver cung cấp một API mạnh mẽ dé tương

tác với các trình duyệt web Nó cho phép bạn viết các kịch bản kiểm thử bằng cácngôn ngữ lập trình như Java, C#, Python, v.v WebDriver kết nối trực tiếp với trìnhduyệt và điều khiển các tương tác với ứng dụng web.

- Selenium Grid: Selenium Grid cho phép ban phân phối các kịch bản kiểm thử trên

nhiều máy tính và trình duyệt đồng thời Điều này giúp tăng hiệu suất và giảm thờigian thực thi kiêm thử cho các ứng dụng web phức tạp

Selenium là một bộ công cụ đa năng và linh hoạt, cho phép kiểm thử tự động trên

20

Trang 28

các ứng dụng web trên nhiều trình duyệt và nền tảng khác nhau Tuy nhiên, điểm mạnh của

Selenium không chỉ dừng lại ở đó.

Selenium cũng có khả năng kết hợp với các hệ thống CI/CD như Jenkins, CircleCI

dé tăng tốc quá trình kiểm tra và rút ngắn thời gian phát hành sản pham Điều này giúpdam bao chat lượng ứng dụng và nhanh chóng đưa sản pham ra thị trường.

Ngoài ra, Selenium cũng hỗ trợ kiểm thử trên các ứng dụng di động Bằng cách kếthợp với các công cụ như Appium, Selendroid, bạn có thể tiến hành kiểm thử trên các ứngdụng di động như ứng dụng native, hybrid và web mobile Điều này giúp đảm bảo tính ôn

định và hiệu suât của các ứng dụng di động trên các nên tảng khác nhau.

Với các tính năng và khả năng kết hợp này, Selenium trở thành một công cụ quantrong trong quy trình kiểm thử và phát trién phần mềm, giúp đảm bảo chất lượng và tối ưuhóa quy trình phát triển ứng dụng

PyTorch

PyTorch là một framework mã nguồn mở được sử dung chủ yếu dé giải quyết cácbài toán Deep Learning Nó đã trở thành một trong những framework phổ biến nhất và được ưa chuộng trong cộng đồng Deep Learning hiện nay Dưới đây là một số lợi ích khi

sử dụng PyTorch:

- Mã nguồn mở: PyTorch sử dụng mã nguồn mở, điều này thu hút một cộng đồng

rộng lớn với nhiều tài nguyên chất lượng và đa dạng Nó cho phép người dùng truycập và tùy chỉnh mã nguồn theo nhu cầu cụ thê của họ

- Kha năng xử lý đồ họa: PyTorch có kha năng xử ly đồ họa cao, và người dùng có

thể kiểm soát việc thực thi trên CPU và GPU một cách rõ ràng Điều này giúp tậndụng tối đa hiệu năng của phần cứng dé huấn luyện các mô hình Deep Learning

nhanh chóng.

- Pythonic và dé dàng xử lý lỗi: PyTorch được thiết kế dé dé sử dung và có cú pháp

Pythonic tự nhiên, giúp người dùng dé dang xây dựng và thay đổi các mô hình Nếu

21

Trang 29

gặp lỗi, việc xử lý và sửa chữa cũng trở nên dễ dàng hơn.

- TouchScript và quy mô sản xuẤt: PyTorch cung cấp TouchScript, một tập hợp con

của Python, giúp triển khai các ứng dụng vào quy mô sản xuất một cách hiệu quả

Nó cho phép mở rộng quy mô các ứng dụng Deep Learning một cách linh hoạt va

tiện lợi.

- _ Tốc độ và nhẹ nhàng: PyTorch thường được ưu tiên hơn Tensorflow trong việc xây

dựng các nguyên mẫu với tốc độ nhanh, bởi vì nó nhẹ nhàng và dễ dàng sử dụng

- Cac hàm và cú pháp cơ bản: PyTorch cung cấp nhiều hàm và cú pháp cơ ban dé xử

lý các bài toán AI một cách nhanh chóng và hiệu quả.

Nhờ vào những ưu điểm trên, PyTorch đã trở thành một trong những lựa chọn hàngđầu cho các nhà nghiên cứu và nhà phát triển trong lĩnh vực Deep Learning

Scipy

Scipy là một thư viện mã nguồn mở phổ biến trong ngôn ngữ lập trình Python, được

sử dụng rộng rãi trong lĩnh vực tính toán khoa học và kỹ thuật Nó cung cấp một tập hợpcác thuật toán và hàm số cho nhiều ứng dụng khoa học và kỹ thuật SciPy được xây dựngdựa trên NumPy, một thư viện cơ bản khác dành cho điện toán số trong Python và mở rộngchức năng của nó bằng cách cung cấp thêm các phép toán số cấp cao và các công cụ chuyên

dụng.

Scipy là một thành viên quan trọng trong hệ sinh thái Python cho tính toán khoa học,

phối hợp chặt chẽ với các thư viện khác như "NumPy", "matplotlib" và "pandas" Nó cung

cấp một lượng lớn các công cụ và thuật toán tiện ích, cùng với tài liệu phong phú và mộtcộng đồng sôi nổi để hỗ trợ người dùng trong việc thực hiện các tính toán phức tạp và

nghiên cứu khoa học.

Tóm lại, SciPy được sử dụng rộng rãi trong các ngành khoa học khác nhau, bao gồmvật lý, sinh học, hóa học, kỹ thuật và khoa học dữ liệu Chức năng, hiệu suất và tích hợptoàn diện của nó với các thư viện khác làm cho nó trở thành một công cụ mạnh mẽ để tínhtoán khoa học, phân tích số và phát triển thuật toán trong Python

22

Trang 30

Plotly là một thu viện đồ họa tương tác mã nguồn mở trong Python, dựa trên nềntảng trình duyệt So với các thư viện đồ họa khác như Matplotlib, Pandas Visualization,ggplot hay Seaborn, Plotly có một lợi thé lớn khi tạo ra các biểu đồ tương tác

Các ưu điểm của Plotly:

- _ Đồ họa tương tác: Plotly cho phép tạo các biểu đồ tương tác, có thể tương tác trực

tiếp với biểu đồ dé khám phá và thay đổi dữ liệu trực tiếp trên giao diện Điều này

tạo ra trải nghiệm tương tác và thú vị cho người dùng.

- Da nên tang: Plotly là một thư viện đồ họa dựa trên nền tảng trình duyệt, cho phép

hiền thị biểu đỗ trên nhiều nền tảng và thiết bị khác nhau một cách linh hoạt

- Dễ sử dụng: Plotly có cú pháp dé dàng dé tạo ra các biéu đồ tương tác một cách

nhanh chóng và dễ dàng.

- Da dạng loại biểu đồ: Plotly hỗ trợ nhiều loại biéu dé, bao gom biểu đồ đường, cột,

hình tròn, phân tán, heatmap, biéu đồ 3D và nhiều loại biéu đồ phức tạp khác

- _ Hỗ trợ cho dữ liệu lớn: Plotly hỗ trợ xử lý và hiển thị dữ liệu lớn một cách hiệu quả,

giúp hién thị các biểu đồ phức tạp và chất lượng cao.

- H6 trợ cho Dashboards: Plotly hỗ trợ việc xây dựng các trang Dashboards tương

tác, cho phép hiền thị nhiều biểu đồ và dữ liệu khác nhau trong một trang web

Nhờ những ưu điểm trên, Plotly đã trở thành một công cụ phô biến và mạnh mẽ choviệc hiền thị dữ liệu và tạo ra các biểu đồ tương tác trong lĩnh vực phân tích dữ liệu và trực

quan hóa dữ liệu.

Tính tương tác mà Plotly đem đến giúp các biéu đồ thêm trực quan và thú vị hơn.Không những thế Plotly còn nhanh, dé sử dụng và kết hợp tốt với các thư viện khác củaPython như NumPy và pandas Đây sẽ là một lựa chọn tuyệt vời đề tạo ra các biểu đồ tươngtác, đồ thị chất lượng cao trong xử lý dữ liệu địa lý, khoa học, thống kê và tài chính

Conda

23

Trang 31

Conda là một package manager và environment manager được viết bằng python và

có thê sử dụng nhiều ngôn ngữ khác nhau Conda có thê giúp chúng ta:

- Tao và quan lý các môi trường

- Tìm kiếm, cài đặt các package vào một môi trường có sẵn do đó giúp dé dàng

quản lý, kiểm soát các package này

Vì conda là một packages manager vì vậy nó có thé cài đặt, cập nhật hay gỡ bỏ cácpackage, tương tự vì là một environment manager, nên nó có thể quản lý các môi trường

ảo.

Pillow

Pillow được sử dung dé xử ly hình ảnh, nó là một fork từ thư viện PIL của Python

So với PIL thì Pillow được cập nhật thường xuyên và được đánh giá cao hơn.

Pillow và PIL không thé cùng tồn tại trong cùng một môi trường, do đó trước khi cài

Pillow hãy xóa PIL.

hỗ trợ và phát triển các giải pháp học sâu cho xử lý ảnh và nhận diện đối tượng

Một trong những ưu điểm nỗi bật của Detectron2 là hướng dan cài đặt và sử dung dễdàng hơn rất nhiều so với nhiều khuôn khổ khác, như YOLO API của Detectron2 đượcthiết kế dé dễ sử dụng, giúp trích xuất kết quả tính điểm một cách thuận tiện

So với YOLO và một số khuôn khổ khác có định dạng kết quả tính điểm phức tạp,

24

Trang 32

Detectron2 cung cấp kết quả tính điểm dưới dạng mang đa chiều rõ ràng và dé hiểu Điềunày giúp cho việc phân tích kết quả ghi điểm và sử dụng chúng trở nên đơn giản và hiệuquả hơn ngay từ đầu.

Những tính năng tiện dụng và giao diện dé sử dụng của Detectron2 làm nổi bật thưviện này trong lĩnh vực xử lý ảnh và nhận diện đối tượng, và thu hút sự quan tâm của cộng

đồng lập trình và nghiên cứu

Cuda core

CUDA là chữ viết tat của "Compute Unified Device Architecture,” là một kiến trúctích hợp tính toán trong các thiết bị điện tử, đặc biệt là GPU (Graphics Processing ỦnIt)của card đồ họa Nhân CUDA, còn được gọi là CUDA core, là các đơn vi xử lý năm trongGPU, chịu trách nhiệm tính toán các thông tin và dữ liệu đồ họa đề tạo ra hình ảnh

Số lượng CUDA core có trong GPU của card đồ họa rời quyết định đến khả năngtính toán đồng thời và tốc độ xử lý thông tin Những điều này rất quan trọng trong quá trìnhtính toán và xử lý thông tin của GPU Chắng hạn, số lượng CUDA core ảnh hưởng đếnchất lượng hình ảnh khi chơi game hoặc render các file đồ họa sau khi thiết kế, đảm bảo

độ tỉ mi và chính xác Nó cũng ảnh hưởng đến thời gian nghiên cứu các chủ đề khoa học,

có thê giúp tăng tốc quá trình nghiên cứu

Nhân CUDA đã và đang đóng góp rat nhiêu trong các công cuộc nghiên cứu, bao

gôm cả việc nghiên cứu vac-xin chông virus Corona, nơi nó giúp tăng hiệu quả tính toán

và giảm thời gian thực hiện các phân tích phức tạp liên quan đến dữ liệu và mô phỏng.

git-Ifs

Git-lfs (Large File Storage) là một phần mở rộng của Git, được phát triển bởiGitHub, Atlassian và một số đóng góp từ cộng đồng mã nguồn mở Chức năng chính củaGit-lfs là giúp giảm tác động của các tệp lớn trong kho lưu trữ Git bằng cách tải xuống cácphiên bản của tệp đó liên quan đến việc checkout thay vì trong quá trình clone hoặc

fetching.

25

Trang 33

Git-lfs đạt được điều này bằng cách thay thé các tệp lớn trong kho lưu trữ bang cáccon trỏ nhỏ Trong quá trình sử dụng, người dùng sẽ không bao giờ thấy các tệp con trỏ

này vì chúng được xử lý tự động bởi Git-lfs Những con trỏ này chỉ đơn giản là các tham

chiếu đến các phiên bản lớn của tệp được lưu trữ tại một nơi từ xa, giúp giảm kích thướccủa kho lưu trữ và tăng tốc độ làm việc với các tệp lớn.

2.2 Các công trình liên quan

Trong lĩnh vực phát hiện URL lừa đảo, đã có nhiều nghiên cứu khác nhau Mộtphương pháp là duy trì danh sách tên miền của các trang web lừa đảo đã được phát hiệntrước đó Một hệ thống được đề xuất gọi là Phishnet [47] duy trì một danh sách đen chứacác URL lừa đảo, và hệ thống sẽ kiểm tra xem tên máy chủ hoặc URL có nằm trong danhsách đen hay không Một phương pháp khác được đề xuất là duy trì danh sách trắng [48], bao gồm tên miền và địa chỉ IP của các trang web đáng tin cậy thay vì sử dụng danh sáchđen Một phương pháp khác kết hợp quy tắc được đề xuất trong nghiên cứu của Jeeva vàRajsingh [49] dé phát hiện URL lừa đảo và URL đáng tin cậy trong email Trong phương

pháp này, 14 đặc trưng khác nhau được trích xuất từ URL Thuật toán TF-IDF được sử

dụng dé tìm các từ có tần suất cao trong URL lừa dao.

Trong luận văn thạc sy của mình [50], Kenneth Fon Mbah đã trình bay một hệ thống

Cảnh báo Lừa đảo (PHAS), hệ thống này có khả năng phát hiện và cảnh báo tat ca các loạiemail lừa đảo nhằm giúp người dùng đưa ra những quyết định thông minh Nghiên cứu này

sử dụng tập dữ liệu email và dựa trên các đặc trưng được trích xuất, đã đạt được độ chínhxác khoảng 93.11% bang cách sử dụng các kỹ thuật máy học như cây quyết định J48 vàkNN Shamal M Firake [51] đã đề xuất một phương pháp dé phát hiện và ngăn chặn các

cuộc tân công lừa đảo trong email.

Các nghiên cứu trước đây tập trung vào hoạt động dựa trên danh sách tên miền vàcác đặc trưng của URL, cũng như việc trích xuất các đặc trưng khác từ trang web nhưWHOIS, Shodan, công cụ tìm kiếm, v.v Những nghiên cứu này đã đạt được những thành

26

Trang 34

tựu như trên, tuy nhiên vẫn còn một số hạn chế: (1) Các kẻ tấn công có thể sử dụng các

URL khác nhau cho mỗi lần tấn công; (2) Trích xuất các đặc trưng sử dụng sự các công cụcủa bên thứ ba như WHOIS hoặc Shodan hoặc các công cụ tìm kiếm khác đòi hỏi nhiềuthời gian; (3) Chưa có đề cập đến việc trích xuất các đặc trưng từ tên miền Để tăng hiệuquả, chúng em đã xem xét việc sử dụng các đặc trưng được trích xuất từ URL lừa đảo trongemail cũng như tên miền của URL để phát triển nghiên cứu tiếp theo

Đối với giải pháp nhận dạng lừa đảo, các giải pháp này thường duy trì một tập hợp

tham chiếu gồm các thương hiệu (hoặc trang web của họ) được nhắm mục tiêu bởi các cuộctan công lừa đảo, dựa trên cơ sở dit liệu tham khảo hợp pháp như vậy, mô hình được xâydựng Sau đó, khi hoạt động, nếu mô hình dự đoán rằng một trang web nhất định giống VỚItrang web của một thương hiệu cụ thé trong co so dữ liệu tham chiếu, nhưng lại có tênmiễn khác với thương hiệu đã xác định, thì trang web đó được phân loại là trang lừa đảo [

52, 53, 54, 55] Mục tiêu của các mô hình nhận dạng lừa đảo không chỉ là phát hiện các trang lừa đảo mà còn xác định các mục tiêu lừa đảo.

Một số đề xuất nhận dạng lừa đảo ban đầu là so sánh ảnh chụp màn hình của mộttrang web nhất định với ảnh chụp màn hình của tất cả các trang web trong cơ sở dit liệutham khảo Ví dụ, Fu et al [54] dé xuất tính toán sự giống nhau của ảnh chụp màn hình của hai trang web bằng cách sử dụng kỹ thuật Earth Mover's Distance (EMD) Tuy nhiên,cách tiếp cận như vậy bị hạn chế bởi thực tế là các trang web và nội dung của chúng làđộng và cũng được cập nhật thường xuyên [56,57] Điều này dẫn đến độ chính xác thấphơn; Ngoài ra, chỉ phí tính toán tăng lên cùng với sự gia tăng trong số lượng ảnh chụp mànhình được tham chiếu Do đó, nhiều công trình gần đây đã chuyền sang sử dụng chính đặc

điểm nhận dạng của các thương hiệu - logo - cho mục đích nhận dạng lừa đảo [52, 53, 58,

59] Việc so sánh logo của một trang web đáng ngờ với logo của các thương hiệu trong cơ

sở dữ liệu tham khảo có thể chấp nhận được các biến thé trong trang web và thiết kế của

chúng Bên cạnh đó, với sự ra đời của các kỹ thuật như Scale-Invariant Feature Transform

(SIFT), có thể so sánh các hình ảnh có sự khác biệt về tỷ lệ và hướng Tuy nhiên, các

27

Trang 35

phương pháp tiếp cận dựa trên SIFT [52, 59] không chỉ tốn kém về mặt tính toán, mà cònkhông chính xác Đồng thời, SIFT thường không trích xuất các điểm đặc trưng có liên quan

đề khớp với các logo tham chiếu

Dé giải quyết những hạn chế của nghiên cứu về phát hiện và nhận dạng lừa đảo, trongnghiên cứu này, chúng em đề xuất một hệ thống kết hợp giữa phát hiện và nhận dạng lừađảo Hệ thống của chúng em sẽ gồm 2 nhánh mô hình, nhánh trên sẽ là I hệ thống nhỏ gồm

2 mô hình học sâu kết hợp với nhau dé nhận dang các trang lừa dao Cụ thé hơn, chúng em

sẽ phân tách vấn đề nhận dạng lừa đảo thành (i) van đề nhận dang logo (ii) van đề nhậndạng dạng thương hiệu Chúng em giải quyết van đề đầu tiên bang mô hình object detection

và van đề thứ hai với mô hình siamese Hệ thống hybird deep learning của chúng em đạt

được độ chính xác cao trong việc xác định các trang web lừa đảo Nhánh dưới sẽ là mô

hình học máy dé phát hiện lừa đảo Dựa trên dữ liệu chúng em tu tạo ra, sau đó sử dungevalML dé tìm kiếm mô hình phù hợp nhất với dữ liệu đầu vào Mô hình random forest làlựa chọn tối ưu nhất, độ chính xác của mô hình này lên đến 97% Cuối cùng, kết hợp kết

quả của 2 mô hình lại với nhau và đưa ra ket luận cuôi cùng vê URL đâu vào

28

Trang 36

Chương 3 Nội dung và phương pháp

: DANH | Identity Nhén dién

SACH URL | | tương hiệu

]

i i

Í Phát hiện thành phần | ¬ Phân tích sự khác biệt

| | đc ) điện người dung | Ì Tên miền dự định trong tân miễn của URL Tớ

Xử lý dữ liệu đầu vào.

trưng từ URL này.

Hệ thống của chúng em gồm hai nhánh phân biệt (1) Nhánh trên — nhánh phát hiệnlừa đảo từ thông tin giao diện - sử dụng mô hình Hybrid deep learning dé nhận dang các

trang web lừa dao (2) Nhánh dưới — nhánh phát hiện lừa đảo từ thông tin tinh - sử dụng

mô hình học máy có giám sát, cụ thé là mô hình Random forest dé phát hiện các trang weblừa đảo Bằng cách kết hợp kết quả của hai nhánh này, hệ thống của chúng em cung cấpmột phương pháp toàn diện dé kiểm tra và phân loại URL khả nghi, giúp người dùng đánh

29

Trang 37

giá mức độ đáng tin cậy của các trang web và tránh rủi ro tiêm ân từ các hoạt động lừa đảo

hoặc độc hại trực tuyến.

Nhánh phát hiện URL lừa đảo từ thông tin giao diện (1) tập trung vào việc phát hiện các logo trên các trang web Khi một logo của một công ty được phát hiện trên một trang

web mà trang web đó không thuộc sở hữu của công ty đó, trang web đó được coi là trangweb lừa đảo Quá trình này được chia thành hai tác vụ: tác vụ phát hiện đối tượng và tác

vụ nhận dạng hình ảnh Đầu tiên, tác vụ phát hiện đối tượng sẽ thực hiện phát hiện các

thành phần giao diện người dùng quan trọng, cụ thể là logo nhận dạng và ô nhập liệu Quátrình này được thực hiện bang một mô hình học sau Object detection Mô hình nhận dạngđối tượng sử dụng mạng gốc (Resnet50) dé chuyên đổi ảnh chụp màn hình thành bản đồđặc trưng (Feature map) Sau đó, mạng RPN tạo ra các “đề xuất” (proposals) cho các đốitượng, và mô hình Fast-RCNN sẽ phát hiện, phân loại đối tượng (logo/input boxes) vàđiều chỉnh vị trí hình hộp của logo đã được phát hiện Bằng cách kết hợp các phần này, môhình nhận dạng đối tượng có khả năng hiệu quả phát hiện logo trên trang web Bước tiếptheo, hệ thống xác định mục tiêu lừa đảo bằng cách so sánh logo nhận dạng được phát hiện

với các logo trong danh sách thương hiệu mục tiêu thông qua mô hình Siamese [60] Khi

một logo trong danh sách thương hiệu mục tiêu (ví dụ: của Google) khớp với nhau, hệ

thống xem miền tương ứng của nó (ví dụ: google.com) là miền dự định cho ảnh chụp manhình đã chụp Tiếp theo, hệ thống phân tích sự khác biệt giữa miền dự định và miền củaURL đầu vào dé báo cáo kết quả về lừa đảo Cuối cùng, chúng em kết hợp logo nhận dạng,hộp nhập liệu và mục tiêu lừa đảo được báo cáo dé tổng hợp giải thích trực quan về lừađảo Qua đó, hệ thống cung cấp thông tin dễ hiểu và minh bạch cho người dùng dé giúp ho

tránh bi lừa dao trên internet.

Trong nhánh phát hiện URL lừa dao từ thông tin tinh (2), chúng em thực hiện trích

xuất 47 features từ URL đầu vào Các tính năng này sẽ được sử dụng làm đầu vào cho môhình học máy có giám sát Mô hình học máy có giám sát là một nhóm phổ biến trong cácthuật toán học máy, được chia thành hai loại chính: phân loại và hồi quy Học máy có giám

30

Trang 38

sát được sử dụng rộng rãi với bài toán phân loại nhị phân Chúng em sử dụng mô hình học

máy có giám sát dé phân loại các trang web vào các nhóm khác nhau (trang web an toàn

và trang web lừa đảo) Mô hình này được huấn luyện trên dữ liệu đã được gán nhãn, giúp

nó học các mẫu và quy tắc từ dir liệu huấn luyện để đưa ra dự đoán trên đữ liệu mới Dựa

trên bộ dữ liệu đảo tạo mà chúng em tự thu thập được, mô hình random forest là lựa chọn

tốt nhất cho bộ dữ liệu này trong việc phát hiện lừa đảo của các URL Thuật toán RandomForest xây dựng nhiều cây quyết định trên thuật toán cơ sở cây quyết định, tuy nhiên mỗicây quyết định sẽ khác nhau và có yếu tố random Cuối cùng kết quả dự đoán được tổnghợp từ các cây quyết định này

Cuối cùng, chúng em kết hợp kết quả từ cả 2 nhánh lại với nhau dé cho ra kết quacuối cùng và được hiện thị trên trang web trực quan Trang web này được chúng em thiết

kế và xây dựng với mục tiêu đem lại trải nghiệm thuận tiện và trực quan cho người dùng.Bằng cách truy cập vào trang web qua trình duyệt web, người dùng có thé dé dàng truy cập

và sử dụng dịch vụ của chúng em một cách tiện lợi và đơn giản.

sử dụng các trang web hợp pháp khoảng gần 30 nghìn từ Phishpedia và Yandex được thu

thập cùng với ảnh chụp màn hình của chúng.

Đối với nhánh phát hiện lừa đảo URL, tương tự với nhánh nhận dạng chúng em đã

31

Trang 39

tìm kiếm và sử dụng nhiều bộ dữ liệu lừa đảo có sẵn từ Phishpedia, PhishTank, OpenPhish,Yandex, Việc trích xuất đặc trưng cho mỗi URL tốn nhiều thời gian và công sức, điềunày có nhiều lý do khác nhau.Thứ nhất, số lượng URL trong bộ dữ liệu là rất lớn, đòi hỏiquá trình xử lý hàng nghìn URL Thứ hai, quá trình trích xuất đặc trưng phức tạp, bao gồmviệc xem xét nhiều yếu tố khác nhau của URL và trang web Thứ ba, dé đảm bảo tính chínhxác của dữ liệu, các URL không hoạt động hoặc không liên quan phải được loại bỏ Cuốicùng, việc áp dụng tiêu chuẩn đánh giá chặt chẽ là cần thiết để đảm bảo tính chính xác củaquá trình trích xuất đặc trưng Chúng em đã áp dụng các tiêu chuẩn đánh giá chặt chẽ déđảm bảo tính chính xác của quá trình trích xuất đặc trưng Kết quả là chúng em đã chọn ra

427 URL với các đặc trưng dé dàng nhận biết là lừa đảo và đảm bảo rằng các URL này vẫnđang hoạt động Tương tự với bộ dữ liệu lành tính chúng em đã chọn ra 1573 URL Tổng

số URL dùng dé đào tạo mô hình cho nhánh này là 2000 URL mà chúng em đã san lọc ra

3.3 Mô hình phát hiện URL lừa đảo từ thông tin tinh và từ thông tin giao

thành 3 loại:

- Lexical: Day là các đặc trưng thống kê được trích xuất từ chuỗi URL Ví dụ, độ dài

của URL, số lượng chữ số, số lượng tham số trong truy vấn, và nhiều đặc điểmkhác Các đặc trưng này giúp xác định các đặc điểm cấu trúc của URL và có thê

đóng vai trò quan trọng trong việc phát hiện lừa đảo.

- External service: Day là các đặc trưng chủ yếu liên quan đến máy chủ của trang

web Ví dụ, quôc gia đăng ký, thuộc tính tên miên, các công mở, tên máy chủ, tôc

32

Trang 40

độ kết nối, thời gian tồn tại của URL từ khi đăng ký và nhiều thông tin khác Đặctrưng này cung cấp thông tin về hệ thống phía sau trang web và có thê cho thấy các

biểu hiện của hoạt động lừa dao

- Content-based: Được trích xuất từ mã HTML của trang web Các đặc trưng này

liên quan đến cấu trúc của trang web và các phần tử được nhúng trong đó Bao gồm thông tin về các thé script, các đối tượng nhúng, tệp thực thi và các phần tử ẩn Đặctrưng này có thể tiết lộ các đặc điểm đáng ngờ hoặc độc hại của trang web và cungcấp thông tin quan trọng trong việc phát hiện lừa đảo

Việc kết hợp các đặc trưng từ ba nguồn thông tin này giúp xây dựng mô hình phát

hiện URL lừa đảo chính xác và hiệu quả.

Sau quá trình nghiên cứu và thử nghiệm, chúng em đã xác định được hơn 100 đặc

trưng khác nhau có thê trích xuất từ mỗi URL đầu vào Điều này đảm bảo rằng chúng ta có

đủ thông tin dé đại diện cho các thuộc tính đa dang của mỗi URL Băng cách áp dụng quátrình trích xuất này cho bộ dữ liệu chứa 2000 URL mà chúng em đã thu thập, chúng em đãtạo ra một bộ đữ liệu đầu vào cho mô hình học máy có giám sát Bộ dữ liệu này được lưutrữ dưới định dạng CSV, giúp dễ dàng quản lý và sử dụng cho các bước tiếp theo của quá

trình phân loại và phát hiện lừa đảo URL.

Chụp ảnh màn hình giao điện trang web

Truy cập vào URL và chụp ảnh màn hình trang web là một công việc rất quan trọng

dé lay dữ liệu đầu vào cho mô hình Object detection trong nhánh phát hiện URL lừa dao

từ thông tin giao diện Vì những URL này bao gồm cả URL lừa dao, do đó chúng ta cầntruy cập chúng trong môi trường sandbox đề tránh đề lại hậu quả nghiệm trọng.

Sử dụng công cụ Selenium WebDriver dé tương tác với các trình duyệt web và chụpmàn hình trang web WebDriver kết nối trực tiếp với trình duyệt và điều khién các tươngtác với ứng dụng web Điều này được thực hiện bởi một script code bằng ngôn ngữ Python

Cùng với đó chúng em tiễn hành trích xuất mã nguồn html và lưu trữ lại phòng trường

33

Ngày đăng: 02/10/2024, 05:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN