1. Trang chủ
  2. » Luận Văn - Báo Cáo

đồ án cơ sở phát hiện website lừa đảo dựa trên url

44 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP HCM

ĐỒ ÁN CƠ SỞ

PHÁT HIỆN WEBSITE LỪA ĐẢO DỰA TRÊN URL

Ngành: Công nghệ thông tinChuyên ngành: An ninh mạng

Giảng viên hướng dẫn : Văn Thiên HoàngSinh viên thực hiện MSSV

Võ Trùng Dương 2180604816Mai Văn Hải 2180600353Lớp: 21DTHA4

TP Hồ Chí Minh, năm 2024

Trang 2

LỜI CẢM ƠN

Ngay từ đầu khi bắt đầu thực hiện đồ án, em đã được thầy Văn Thiên Hoàng tậntình hướng dẫn về cách lựa chọn đề tài, phương pháp nghiên cứu, cách thu thập và xử lý thông tin, và cách trình bày kết quả nghiên cứu Thầy luôn dành thời gian để giải đáp những thắc mắc của em một cách cẩn thận và tỉ mỉ, giúp em hiểu rõ hơn về nội dung nghiên cứu và có thể hoàn thành tốt đồ án Em xin chân thành cảm ơn thầy Văn Thiên Hoàng vì tất cả những gì thầy đã dành cho em trong suốt quá trình thực hiện đồ án Em biết ơn thầy vì đã là người thầy tận tâm, nhiệt tình Do kiến thức còn nhiều hạnchế và khả năng tiếp thu còn nhiều hạn chế nên báo cáo sẽ còn nhiều thiếu sót, kinh mong sự góp ý và giúp đỡ từ Quý Thầy cô.

Một lần nữa, em xin chân thành cảm ơn!

Trang 3

1.3 Thực trạng các trang web lừa đảo 8

1.4 Mục tiêu nghiên cứu: 10

1.5 Tổng quan về phân loại các URL 10

2.3 Light GBM (Gradient Boosting Machine) 15

2.4 XGBoost (Extreme Gradient Boosting) 17

2.2.4 Bảng so sánh các thuật toán 19

2.3 Trích chọn các đặc trưng 19

CHƯƠNG 3 KẾT QUẢ THỰC NGHIỆM 21

3.1 Giới thiệu tập dữ liệu sẽ được sử dụng 21

3.2 Wordcloud của URL 21

3.3.6.Phân tách biến đặc trưng và biến mục tiêu 34

3.3.7.Chia dữ liệu thành tập huấn luyện và tập kiểm tra 35

3.3.8.Xây dựng mô hình 35

3.3.9.Đánh giá và so sánh mô hình 36

3.3.10 Tầm quan trọng của đặc trưng 37

3.3.11 Dự đoán của mô hình 38

CHƯƠNG 4 KẾT LUẬN VÀ KIẾN NGHỊ 41

Trang 4

DANH MỤC BẢNG

Bảng 2 1 Bảng so sánh chung các thuật toán 19Bảng 2 2 Các đặc trưng được trích chọn sử dụng để xây dựng mô hình 19

Trang 5

DANH MỤC HÌNH ẢNH

Hình 1 1 Các loại tấn công lừa đảo 7

Hình 1 2 Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022 8

Hình 1 3 Cách bước tấn công lừa đảo 9

Hình 2 1 Các thành phần của URL 12

Hình 2 2 Giải thuật Rừng ngẫu nhiên 14

Hình 2 3 quá trình học của thuật toán GTB 16

Hình 2 4 Công thức tính tham số 16

Hình 2 5 Mô hình thuật toán GTB 16

Hình 3 1 Wordcloud của URL an toàn 21

Hình 3 2 Wordcloud của phishing URL 22

Hình 3 3 Wordcloud của Malware URL 22

Hình 3 4 Wordcloud của Defacement URL 23

Hình 3 5 import các thư viện 24

Hình 3 33 Phân tách biến đặc trưng và biến mục tiêu 35

Hình 3 34 Chia dữ liệu thành tập huấn luyện và tập kiểm tra 35

Hình 3 35 Random Forest Classifier 36

Hình 3 36 Light GBM Classifier 36

Hình 3 37 Xgboost Classifier 36

Hình 3 38 Hiệu suất của Light GBM, XGBoost và Random Forest 37

Hình 3 39 Biểu đồ tầm quan trọng của đặc trưng 38

Trang 6

Hình 3 40 Hàm main 39Hình 3 41 Sử dụng kết quả phân tích URL từ hàm main dể đưa vào mô hình lbg dự đoán loạiURL 40Hình 3 42 Dự đoán URL 40

Trang 7

CHƯƠNG 1 TỔNG QUAN1.1 Lý do chọn đề tài

Trong thời đại số hóa hiện nay, Internet đã trở thành một phần thiết yếu của cuộc sống, mang lại nhiều tiện ích và cơ hội cho người dùng từ giao dịch tài chính, mua sắm trực tuyến, đến việc trao đổi thông tin Tuy nhiên, cùng với sự phát triển vượtbậc của công nghệ là sự gia tăng không ngừng của các mối đe dọa an ninh mạng, đặc biệt là các cuộc tấn công lừa đảo (phishing) Những cuộc tấn công này ngày càng trở nên phổ biến và tinh vi, gây ra hậu quả nghiêm trọng cho cả cá nhân và tổ chức

Tấn công lừa đảo không chỉ gây thiệt hại về tài chính mà còn làm mất uy tín và niềm tin của người dùng đối với các dịch vụ trực tuyến Đối với các tổ chức, thiệt hại từ các cuộc tấn công này có thể dẫn đến mất mát dữ liệu quan trọng, ảnh hưởng tiêu cực đến danh tiếng và thương hiệu Các phương pháp bảo mật truyền thống như phần mềm diệt virus và tường lửa đã không còn đủ hiệu quả để đối phó với những phương thức tấn công ngày càng phức tạp và tinh vi của tin tặc Do đó, việc phát triển các giải pháp mới, tiên tiến hơn là điều cần thiết.

Với những lý do trên, chúng em cho rằng đề tài “Phát hiện website lừa đảo dựa trên URL” là một lựa chọn đúng đắn và cấp thiết Nghiên cứu này không chỉ giải quyếtcác vấn đề thực tiễn mà còn đóng góp vào sự phát triển của lĩnh vực an ninh mạng, bảovệ người dùng và các tổ chức trước các mối đe dọa ngày càng gia tăng từ Internet Việc tiếp tục nghiên cứu và phát triển các phương pháp mới để đối phó với các cuộc tấn công này là điều cần thiết để bảo vệ an toàn thông tin và tài sản của người dùng trên mạng.

Tấn công lừa đảo (phishing) là một trong những hình thức tấn công mạng phổ biến và nguy hiểm nhất Tấn công lừa đảo thường nhằm mục đích đánh cắp thông tin nhạy cảm của người dùng như thông tin đăng nhập, thông tin tài chính và dữ liệu cá nhân Các cuộc tấn công này thường được thực hiện thông qua các email giả mạo, tin nhắn, hoặc các trang web lừa đảo

Trang 8

Phương pháp phổ biến nhất là tạo ra các trang web giả mạo có giao diện giống hệt trang web thật của các tổ chức uy tín như ngân hàng, công ty thương mại điện tử, và dịch vụ email Người dùng khi truy cập vào những trang web này sẽ bị lừa nhập thông tin cá nhân và tài chính, từ đó kẻ tấn công có thể thu thập và sử dụng thông tin này cho các hoạt động phạm pháp Đôi khi, những kẻ tấn công thực hiện các cuộc tấn công lừa đảo để phát tán phần mềm độc hại qua mạng Có nhiều loại tấn công lừa đảo khác nhau:

Hình 1 1 Các loại tấn công lừa đảo.

Các cuộc tấn công lừa đảo có nhiều hình thức và thường liên quan đến nhiều kênh liên lạc khác nhau, chẳng hạn như email, tin nhắn tức thời, mã phản hồi nhanh (QR) và phương tiện truyền thông xã hội Những kẻ tấn công thường giả mạo các ngânhàng nổi tiếng, đại lý thẻ tín dụng hoặc các trang web thương mại điện tử nổi tiếng để đe dọa hoặc thuyết phục người dùng đăng nhập vào trang web lừa đảo và cung cấp thông tin đăng nhập

Ví dụ: người dùng có thể nhận được tin nhắn cho biết có vấn đề với tài khoản ngân hàng của họ, người dùng nhấp vào link và được chuyển hướng đến trang web giống hệt với trang web của ngân hàng Khách hàng điền thông tin đăng nhập của họ mà không do dự từ đó rơi vào bẫy của những kẻ tấn công Tội phạm theo dõi dữ liệu này và khai thác nó để truy cập vào tài khoản hợp pháp của người dùng.

Trang 9

1.3.Thực trạng các trang web lừa đảo

Internet như một con dao hai lưỡi, mang đến vô số lợi ích cho đời sống con người trong mọi lĩnh vực, từ thông tin, giải trí đến mua sắm, giao dịch Tuy nhiên, bên cạnh những mặt tích cực, nó cũng tiềm ẩn nhiều nguy cơ, đặc biệt là vấn nạn lừa đảo trực tuyến thông qua các trang web giả mạo.

Trên thế giới, theo số liệu báo cáo của tổ chức APWG (Anti Phishing Working Group) [2] Trong quý đầu tiên của năm 2022 APWG OpSec Security báo cáo rằng các cuộc tấn công lừa đảo chống lại lĩnh vực tài chính, bao gồm các ngân hàng, chiếm 23,6% tổng số lừa đảo Các cuộc tấn công chống lại các nhà cung cấp dịch vụ webmailvà phần mềm dưới dạng dịch vụ (SAAS) vẫn còn phổ biến, trong khi các cuộc tấn công vào các trang web bán lẻ / thương mại điện tử giảm từ 17,3% xuống còn 14,6% sau mùa mua sắm cuối năm Lừa đảo chống lại các dịch vụ truyền thông xã hội đã tănglên rõ rệt, từ 8,5% tổng số cuộc tấn công trong quý 4/2021 lên 12,5% trong quý

1/2022 Lừa đảo chống lại các mục tiêu tiền điện tử như sàn giao dịch tiền điện tử và nhà cung cấp ví đã lên từ 6,5 trong quý trước lên 6,6% các cuộc tấn công.

Hình 1 2 Biểu đồ thể hiện số lượng các cuộc tấn công lừa đảo 04/2021-03/2022.

Còn ở Việt Nam theo tổng hợp của NCS [3], năm 2023 đã ghi nhận 13.900 vụ tấn công mạng vào các tổ chức tại Việt Nam, trung bình mỗi tháng xảy ra 1.160 vụ NCS chỉ ra Top 3 điểm yếu bị tấn công nhiều nhất tại Việt Nam năm 2023 Tỷ lệ cao nhất là điểm yếu con người, chiếm 32,6% tổng số vụ việc Theo đó hacker sử dụng email giả mạo (phishing) có file đính kèm mã độc dưới dạng file văn bản hoặc nội

Trang 10

dung có đường link đăng nhập giả mạo để chiếm tài khoản, kiểm soát máy tính người dùng từ xa.

Khi tạo ra một trang web lừa đảo, các đối tượng tội phạm nhanh chóng tạo ra hàng nghìn biến thể URL khác nhau trước khi phát tán đến người dùng Do đó, khi truy cập vào các địa chỉ này, người dùng đều bị điều hướng đến cùng một trang web lừa đảo Qua đó, dễ dàng nhận thấy số lượng trang web lừa đảo gia tăng liên tục trong những năm gần đây mà không có dấu hiệu chững lại Điều này gây ra những thiệt hại nặng nề cho nền kinh tế thế giới nói chung và những nguy cơ mất an toàn thông tin nóiriêng đối với các tổ chức, doanh nghiệp và đặc biệt là với cá nhân.

Để thực hiện thành công hành vi lừa đảo, đối tượng tấn công sẽ tiến hành nhữngcách thức như sau.

Hình 1 3 Cách bước tấn công lừa đảo

Tạo trang web giả mạo: Kẻ tấn công tạo ra một trang web có giao diện và tươngtác giống hệt trang web gốc.Sử dụng các yếu tố như logo, bố cục và nội dung của trang web thật để đánh lừa người dùng.

Gửi mail cho người dùng: Kẻ tấn công soạn email với nhiều nội dung gây tò mò, kích thích người dùng, ví dụ: Cập nhật thông tin tài khoản ngân hang, Khai báo thông tin cá nhân tham gia trúng thưởng, Gửi hàng loạt email đến người dung khuyến khích họ nhấp vào liên kết dẫn đến trang web giả mạo.

Trang 11

Người dùng truy cập vào URL độc hại: Người dùng không nhận ra URL độc hại trong email và nhấp chuột vào Họ bị chuyển hướng đến trang web giả mạo do kẻ tấn công tạo ra.

Người dùng nhập thông tin nhạy cảm: Trên trang web giả mạo, người dùng bị lừa nhập các thông tin nhạy cảm như: Tên đăng nhập, Mật khẩu, Mã số thẻ tín dụng, Thông tin cá nhân khác

Kẻ tấn công đã có được thông tin người dùng: Sau khi thu thập thông tin nhạy cảm, kẻ tấn công sử dụng chúng cho các mục đích bất hợp pháp như: Bán dữ liệu người dung, Thực hiện giao dịch gian lận, Rửa tiền

1.4.Mục tiêu nghiên cứu:

Dự án này hướng tới lĩnh vực an ninh mạng và trong đó sẽ phát triển một mô hình phát hiện URL độc hại bằng cách sử dụng học máy, em sẽ tìm hiểu cách có thể phát hiện tự động các URL độc hại có nghĩa là các URL bị xâm phạm bởi tin tặc hoặc được sử dụng cho tội phạm mạng hoặc tấn công mạng.

Trong nghiên cứu này em sẽ tập trung vào việc phát hiện các URL độc hại dướidạng bài toán phân loại đa lớp Chúng em sẽ phân loại các URL gốc thành các loại khác nhau, bao gồm URL an toàn (lành tính), URL lừa đảo (phishing), URL chứa phầnmềm độc hại (malware) hoặc URL bị thay đổi giao diện (defacement).

1.5 Tổng quan về phân loại các URL

URL lành tính: Đây là những URL an toàn để truy cập.

URL lừa đảo (Phishing): Bằng cách tạo URL lừa đảo, tin tặc cố gắng đánh cắp thông tin cá nhân hoặc tài chính nhạy cảm như thông tin đăng nhập, số thẻ tín dụng, chi tiết ngân hàng trực tuyến, v.v

URL chứa phần mềm độc hại (Malware): Loại URL này sẽ tiêm phần mềm độc hại vào hệ thống của nạn nhân khi họ truy cập

URL bị thay đổi giao diện (Defacement): URL bị thay đổi giao diện thường được tin tặc tạo ra với mục đích đột nhập vào một máy chủ web và thay thế trang web được lưu trữ bằng trang web của riêng chúng, bằng các kỹ thuật như tiêm mã, kịch bản

Trang 12

chéo trang (XSS), v.v Các mục tiêu phổ biến của URL bị thay đổi giao diện là các trang web tôn giáo, trang web chính phủ, trang web ngân hàng và trang web công ty

1.6.Quy trình dự án

Vì các thuật toán học máy chỉ hỗ trợ đầu vào dạng số, chúng em sẽ tạo các đặc trưng từ vựng (lexical features) dạng số từ các URL đầu vào Do đó, đầu vào cho các thuật toán học máy sẽ là các đặc trưng từ vựng dạng số thay vì URL gốc

Trong nghiên cứu này em sẽ sử dụng ba bộ phân loại học máy tổng hợp là Random Forest, Light GBM (Gradient Boosting Machine) và XGBoost (Extreme Gradient Boosting).

Sau đó, em cũng sẽ so sánh hiệu suất của chúng và vẽ biểu đồ tầm quan trọng của các đặc trưng để hiểu đặc trưng nào đóng vai trò quan trọng trong việc dự đoán cácURL độc hại.

1.7 Cấu trúc đồ án

CHƯƠNG 1 TỔNG QUAN

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

CHƯƠNG 3 KẾT QUẢ THỰC NGHIỆMCHƯƠNG 4 KẾT LUẬN VÀ KIẾN NGHỊ

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Khái niệm:

Trang 13

2.1.1 URL là gì?

Trước khi tìm hiểu về URL độc hại, trước tiên chúng ta phải hiểu rằng URL về cơ bản là một công cụ định vị tài nguyên thống nhất, nó là địa chỉ mà chúng ta có thể xác định tài nguyên bên trong đầu vào URL là địa chỉ duy nhất có định dạng có cấu trúc được xác định rõ ràng để truy cập các trang web qua World Wide Web (WWW).

Hình 2 1 Các thành phần của URL.

Nói chung, có ba thành phần cơ bản tạo nên một URL

a) Protocol (Giao thức): về cơ bản, nó là một định danh xác định giao thức nàosẽ sử dụng, ví dụ: HTTP, HTTPS, v.v.

b) Host name (Tên máy chủ): còn được gọi là resource name (tên tài nguyên) Nó chứa địa chỉ IP hoặc tên miền nơi đặt tài nguyên thực tế.

c) Path (Đường dẫn): Nó chỉ định đường dẫn thực tế nơi đặt tài nguyên

Theo hình 2.1 google.com.vn là tên miền Tên miền cấp cao nhất là một thành phần khác của tên miền cho biết bản chất của trang web, tức là mạng lưới (.net), giáo dục (.edu), tổ chức (.edu), thương mại (.com), cơ quan chính phủ (.gov) v.v.

2.1.2 URL độc hại là gì?

Các URL đã sửa đổi hoặc bị xâm phạm được sử dụng cho các cuộc tấn công mạng được gọi là URL độc hại.

Trang 14

Một URL hoặc trang web độc hại thường chứa các loại trojan, phần mềm độc hại, nội dung không mong muốn khác nhau dưới dạng lừa đảo, tự động tải xuống, thư rác.

Mục tiêu chính của trang web độc hại là gian lận hoặc đánh cắp thông tin cá nhân hoặc tài chính của những người dùng Theo Báo cáo mối đe dọa bảo mật Internet (ISTR) 2019 của Symantec [6], URL độc hại là một kỹ thuật được sử dụng nhiều trongtội phạm mạng.

Random Forest (Rừng ngẫu nhiên) là một thuật toán học máy có giám sát (supervised learning) được sử dụng phổ biến trong các bài toán phân loại và hồi quy Thuật toán này hoạt động bằng cách xây dựng một tập hợp lớn các cây quyết định (decision tree) và sử dụng kết quả dự đoán của tập hợp này để đưa ra dự đoán cuối cùng.

Giải thuật học máy rừng ngẫu nhiên (Random Forests - RF[9]) thực hiện huấn luyện mô hình phân lớp (Hình 2.2) qua các bước chính như sau:

 Chuẩn bị tập dữ liệu ta có m là số lượng phần tử trong tập dữ liệu huấn luyện, n là số lượng biến (thuộc tính) trong mỗi phần tử dữ liệu

 Xây dựng rừng cây: T là cây quyết định trong rừng Mô hình cây quyết địnhthứ T được xây dựng trên tập mẫu Bootstrap thứ T lấy ngầu nhiên m phần tửcó hoàn lại từ tập dữ liệu huấn luyện để tạo thành một tập con T tập con độclập được tạo ra cho T cây quyết định Mỗi cây quyết định được xây dựng từ đầu trên tập con tương ứng Tại mỗi nút trong cây, chọn ngẫu nhiên n’ biến (n’<< n) từ n biến ban đầu.Sử dụng n’ biến này để tính toán phân hoạch tốt nhất cho nút, cây được xây dựng đến độ sâu tối đa đã được cài đặt trước (không cắt nhánh).

 Phân loại dữ liệu mới ta có x là phần tử dữ liệu cần phân loại Cho x đi qua T cây quyết định trong rừng, mỗi cây quyết định sẽ dự đoán lớp cho x Lớp được dự đoán nhiều nhất bởi các cây quyết định sẽ là lớp cuối cùng cho x.

Trang 15

Hình 2 2 Giải thuật Rừng ngẫu nhiên

Nguyên tắc hoạt động:

a) Tạo tập hợp cây quyết định:

 Thuật toán ngẫu nhiên một tập con dữ liệu con (bootstrap sample) từ tập dữ liệu gốc với kích thước bằng kích thước tập dữ liệu gốc.

 Sử dụng tập con dữ liệu con này để xây dựng một cây quyết định. Lặp lại bước trên nhiều lần (thường là vài trăm hoặc vài nghìn lần) để

tạo ra một tập hợp lớn các cây quyết định.b) Dự đoán:

 Khi có một mẫu dữ liệu mới cần dự đoán, mỗi cây quyết định trong tập hợp sẽ dự đoán lớp cho mẫu dữ liệu này.

 Lớp được dự đoán bởi nhiều cây quyết định nhất sẽ được coi là lớp dự đoán cuối cùng cho mẫu dữ liệu mới.

Ưu điểm:

 Độ chính xác cao: Random Forest thường có độ chính xác cao hơn so với các thuật toán học máy khác như SVM (Support Vector Machine) hay K-Nearest Neighbors (KNN).

 Ít bị quá khớp (overfitting): Random Forest có khả năng chống quá khớptốt do sử dụng nhiều cây quyết định khác nhau để dự đoán.

Trang 16

 Có thể xử lý được dữ liệu có nhiễu: Random Forest có khả năng xử lý tốtdữ liệu có nhiễu do sử dụng tập con dữ liệu con để xây dựng cây quyết định.

 Dễ sử dụng: Random Forest tương đối dễ sử dụng và không đòi hỏi nhiều tham số cần điều chỉnh.

Nhược điểm:

 Có thể tốn nhiều thời gian để đào tạo: Do cần phải xây dựng nhiều cây quyết định, Random Forest có thể tốn nhiều thời gian để đào tạo, đặc biệtlà với các tập dữ liệu lớn.

 Có thể khó giải thích kết quả: Do sử dụng nhiều cây quyết định, RandomForest có thể khó giải thích kết quả dự đoán cho một mẫu dữ liệu cụ thể.

2.3.Light GBM (Gradient Boosting Machine)

Light GBM (Light Gradient Boosting Machine) là một thuật toán học máy có giám sát (supervised learning) mạnh mẽ được sử dụng cho các bài toán phân loại và hồi quy Thuật toán này là một cải tiến của Gradient Boosting Machine (GBM) truyền thống, khắc phục một số nhược điểm và mang lại hiệu suất cao hơn Nó hoạt động dựatrên nguyên tắc học theo hướng dốc (gradient boosting), tương tự như GBM (Gradient Boosting Machine) truyền thống, nhưng được cải tiến với nhiều ưu điểm vượt trội.

Để hiểu về nguyên lý thuật toán LightGBM, trước hết chúng ta cùng tìm hiểu lýthuyết của thuật toán GTB [10] Nguyên lý chung của GTB là kết hợp nhiều cây quyết định để thu được câu trả lời cuối cùng và bằng cách cộng kết quả của tất cả các cây quyết định Quá trình này đã được cải thiện để đạt được mức tăng cường độ dốc cực cao trong thuật toán XGBoost Sự khác biệt giữa XGBoost và GTB là ở cách phân chia cây và cách xác định giá trị của nút lá LightGBM được tối ưu hóa hơn nữa trên cơ sở cải tiến công thức GTB của XGBoost

Nguyên lý cơ bản được sử dụng trong thuật toán GTB là việc kết hợp các cây mô hình học tập cơ bản yếu (tức là có độ sai số cao) thành một cây mô hình học tập mạnh hơn theo kiểu tuần tự.Chúng ta có thể xem quá trình học của thuật toán GTB như minh họa trong Hình 2 3 Cây học sau được xây dựng nhằm mục đích ước lượng các giá trị của phần sai số của cây học ngay trước Mô hình cuối cùng sẽ có dạng [10]:

Trang 17

Hình 2 3 quá trình học của thuật toán GTB

Trong đó x là mẫu và hàm   ; h x i là cây ra quyết định thứ i [10] Các tham số khác được tính như sau:

Hình 2 4 Công thức tính tham số

Hình 2 5 Mô hình thuật toán GTB

Cơ chế hoạt động Light GBM:

a) Khởi tạo: Bắt đầu với một mô hình đơn giản, ví dụ như một cây quyết định (decision tree) có độ sâu nhỏ.

b) Lặp:

Trang 18

 Đánh giá lỗi: Tính toán lỗi dự đoán của mô hình hiện tại trên tập dữ liệu huấn luyện.

 Xây dựng cây tiếp theo: Xây dựng một cây quyết định mới nhằm giảm thiểu lỗi dự đoán được xác định ở bước trước.

 Cập nhật mô hình: Cập nhật mô hình hiện tại bằng cách kết hợp cây quyết định mới với trọng số phù hợp.

c) Lặp lại bước 2 cho đến khi đạt được số lượng cây tối ưu hoặc đáp ứng các tiêu chí dừng.

 Ít bị quá khớp (overfitting): Light GBM sử dụng các kỹ thuật

regularization để giảm thiểu overfitting, giúp mô hình tổng quát hóa tốt hơn

 Hỗ trợ cả dữ liệu thưa thớt (sparse data): Light GBM có khả năng xử lý hiệu quả các tập dữ liệu thưa thớt, thường gặp trong các ứng dụng thực tế.

2.4.XGBoost (Extreme Gradient Boosting)

XGBoost (eXtreme Gradient Boosting) là một thư viện mã nguồn mở, được phát triển bởi Tianqi Chen et al., là một trong những thuật toán Gradient Boosting Machine (GBM) hiệu quả và được sử dụng rộng rãi nhất hiện nay XGBoost kế thừa và cải tiến GBM truyền thống, mang lại hiệu suất vượt trội về tốc độ, độ chính xác và

Trang 19

khả năng xử lý các bài toán học máy phức tạp XGBoost cũng hoạt động dựa trên nguyên tắc học theo hướng dốc (gradient boosting) giống như LightGBM.

Cơ chế hoạt động: XGBoost lặp lại các bước sau

a) Khởi tạo: Bắt đầu với một mô hình đơn giản, ví dụ như một cây quyết định (decision tree) có độ sâu nhỏ.

 Cập nhật mô hình: Cập nhật mô hình hiện tại bằng cách kết hợp cây quyết định mới với trọng số phù hợp Trọng số được xác định bằng thuậttoán "learning rate", giúp điều chỉnh mức độ ảnh hưởng của từng cây quyết định trong mô hình tổng hợp.

c) Lặp lại bước 2 cho đến khi đạt được số lượng cây tối ưu hoặc đáp ứng các tiêu chí dừng.

Trang 20

 Do là một mô hình ensemble learning, XGBoost có thể khó giải thích kếtquả dự đoán cho một mẫu dữ liệu cụ thể.

2.2.4 Bảng so sánh các thuật toán.

Bảng 2 1. Bảng so sánh chung các thuật toán

quá khớp, có thể giải thích kết quả

Tốn nhiều thời gianđể đào tạo, có thể không hiệu quả với dữ liệu lớn

Phân loại, hồi quy, lựa chọn tính năng

hoạt, xử lý dữ liệu thưa thớt tốt

Khó điều chỉnh tham số, khó giải thích kết quả

Phân loại, hồi quy, xếp hạng, phát hiện gian lận, lựa chọn tính năng

không

Trang 21

11 count_http Kiểm tra http

CHƯƠNG 3 KẾT QUẢ THỰC NGHIỆM

3.1 Giới thiệu tập dữ liệu sẽ được sử dụng

Nghiên cứu điển hình này sẽ sử dụng một tập dữ liệu chứa 651.191 URL được phân loại thành các loại:

 428.103 URL lành tính (an toàn)

 96.457 URL bị thay đổi giao diện (defacement)

3.2 Wordcloud của URL

Biểu đồ đám mây từ khóa (Wordcloud) của URL giúp chúng ta hiểu được mẫu phân bố của các từ/ký hiệu trong các loại URL khác nhau Đây là một trong những kỹ

Trang 22

thuật của xử lý ngôn ngữ tự nhiên (Natural Language Processing) để phân tích sự phânbố của các từ.

Hình 3 1 Wordcloud của URL an toàn.

Như chúng ta có thể thấy trong hình trên đây, biểu đồ đám mây từ khóa của các URL an toàn (benign) hiển thị rõ ràng các ký hiệu thường gặp như html, com, org, wiki, v.v

Hình 3 2 Wordcloud của phishing URL.

Ngày đăng: 03/06/2024, 14:06

w