1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Phát triển kỹ thuật phát hiện tấn công deface

46 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG–HCM

Cán bộ hướng dẫn khoa học 1: TS Phan Trọng NhânCán bộ hướng dẫn khoa học 2: TS Trương Tuấn Anh

Cán bộ chấm nhận xét 1 : PGS TS Nguyễn Tuấn ĐăngCán bộ chấm nhận xét 2 : TS Nguyễn Quang Hùng

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.HCMngày 10 tháng 7 năm 2023

Thành phần hội đồng đánh giá luận văn thạc sĩ gồm:1 Chủ tịch: PGS TS Trần Minh Quang

2 Thư ký: TS Nguyễn Thị Ái Thảo

3 Phản biện 1: PGS TS Nguyễn Tuấn Đăng4 Phản biện 2: TS Nguyễn Quang Hùng5 Uỷ Viên: TS Đặng Trần Trí

Xác nhận của chủ tịch hội đồng đánh giá LV và Trưởng khoa quản lý chuyên ngànhsau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC VÀKỸ THUẬT MÁY TÍNH

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOACỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMĐộc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên:NGUYỄN TRỌNG ĐỨC……… MSHV: 207097

Ngày, tháng, năm sinh: 20/12/1998……….………Nơi sinh: Bình DươngChuyên ngành: Khoa học máy tính……….…………Mã số : 8480101

I TÊN ĐỀ TÀI: PHÁT TRIỂN KỸ THUẬT PHÁT HIỆN TẤN CÔNGDEFACE (DEVELOPING A TECHNIQUE TO DETECT DEFACEATTACKS)

II NHIỆM VỤ VÀ NỘI DUNG:

Một giải pháp phát hiện một cuộc tấn công deface trong thời gianthực.

Phải phân biệt được hành vi nào là hành vi tấn công, hành vi nào làbình thường, thông báo cho người quản trị hoặc tự động khôi phụclại trang web như ban đầu.

Đảm bảo thiệt hại tới trang web nằm ở mức tối thiểu.III NGÀY GIAO NHIỆM VỤ : 20/12/2022

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 04/06/2023

V CÁN BỘ HƯỚNG DẪN: TS PHAN TRỌNG NHÂN, TS TRƯƠNGTUẤN ANH

Tp HCM, ngày tháng 7 năm 2023

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký) HỘI ĐỒNG NGÀNH

(Họ tên và chữ ký)

TS Phan Trọng NhânTS Trương Tuấn Anh

TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

(Họ tên và chữ ký)

Trang 4

LỜI CẢM ƠN

Lời nói đầu, tôi xin được gửi lời cảm ơn chân thành và sâu sắc đến thầy giảng viênhướng dẫn TS Trương Tuấn Anh và TS Phan Trọng Nhân đã hỗ trợ và có nhữngđóng góp hết sức quý báu để giúp tôi hoàn thành đề cương luận văn thạc sĩ này mộtcách tốt nhất Trong suốt quá trình nghiên cứu đề tài, hai thầy luôn là người địnhhướng và đề xuất những kiến thức mới về mặt khoa học cho đề tài.

Bên cạnh đó, tôi cũng muốn thay mặt cho toàn thể sinh viên gửi lời biết ơn đến vớiquý thầy cô của trường Đại học Bách Khoa TPHCM nói chung và của Khoa Khoahọc và Kỹ thuật Máy Tính nói riêng vì đã tận tình chỉ bảo và truyền tải kiến thức thứcvô giá cho sinh viên trong khoảng thời gian học tập tại trường cũng như trong conđường sự nghiệp sau này.

Xin chân thành cảm ơn.Trân trọng

Tp Hồ Chí Minh, ngày tháng 7 năm 2023

Tác giả

Trang 5

TÓM TẮT LUẬN VĂN

Đây là đề án nghiên cứu về chủ đề tấn công deface đối với web và các phương án,kỹ thuật được xây dựng để tìm ra cách phát hiện một cuộc tấn công deface ngay khicó dấu hiệu, và tìm ra giải pháp phục hồi trang web lại nguyên trạng trước khi bị tấncông Kỹ thuật này sắp xếp, phân loại các thành phần càu HTML thành hai dạngchính, sau đó xử lí các thành phần này theo một quy tắc đặt sẵn Các phương phápxử lí bao gồm phát hiện thay đổi trên pixel, dùng thuật toán mã hóa hash để đảmbảo tính toàn vẹn, phân tích các DOM (Document Object Model) Kỹ thuật sau đósẽ gửi thông báo cho người quản trị và có hành động tương ứng để xử lí cuộc tấncông, phục hồi website lại trạng thái an toàn.

Trang 6

This is a research project on the topic of deface attacks against websites and theplans and techniques developed to detect signs of a deface attack and find solutionsto restore the website to its original state before the attack This technique organizesand classifies HTML components into two main forms, and then processes thesecomponents according to a predefined rule The processing methods includedetecting changes in pixels, using hash encryption algorithms to ensure integrity,and analyzing the Document Object Model (DOM) The technique then sendsnotifications to the administrator and takes corresponding actions to handle theattack and restore the website to a secure state.

Trang 7

Lời cam đoan

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân.

Các số liệu, kết quả trình bày trong luận văn là trung thực và chưa từng được aicông bố trong bất kỳ công trình nào trước đây.

Học viên

NGUYỄN TRỌNG ĐỨC

Trang 8

MỤC LỤC

Lời cam đoan iv

1 GIỚI THIỆU ĐỀ TÀI 1

1.1Tổng quan 1

1.2Nhiệm vụ luận văn 2

2 MỤC TIÊU, GIỚI HẠN, ĐỐI TƯỢNG VÀ PHƯƠNGPHÁP NGHIÊNCỨU TRONG ĐỀ TÀI 3

2.1Mục tiêu nghiên cứu 3

2.2Giới hạn nghiên cứu 3

2.3Đối tượng nghiên cứu 4

2.4Phương pháp nghiên cứu 4

3 KẾ HOẠCH TRIỂN KHAI 5

4 NỘI DUNG CỦA ĐỀ ÁN THẠC SĨ 7

4.1Tổng quan đề tài 7

4.2Cơ sở lý thuyết 7

4.3Các công trình nghiên cứu liên quan 13

4.4Phương pháp đề xuất 16

4.5Phát triển kỹ thuật phát hiện tấn công 19

4.6Triển khai, kiểm tra và so sánh độ chính xác của kỹ thuật 29

4.7Kết luận 32

5 KẾT LUẬN 34

TÀI LIỆU THAM KHẢO 35

Trang 9

DANH SÁCH HÌNH MINH HOẠ

Trang 10

DANH SÁCH BẢNG BIỂU

Bảng 3.1 Công việc dự kiến của luận văn 5

Bảng 3.2 Giản đồ Gantt trực quan hoá quá trình thực hiện luận văn dự kiến 6

Bảng 4.1 Kiểm tra tính chính xác của việc phân loại 29

Bảng 4.2 Kiểm tra tính chính xác lúc theo dõi 30

Bảng 4.3 Kiểm tra tài nguyên tiêu thụ 31

Bảng 4.4 Thông số trước và sau khi khởi chạy 32

Trang 11

1 GIỚI THIỆU ĐỀ TÀI

1.1 Tổng quan

World Wide Web (WWW) ra đời từ năm 1989 bởi Tim-Bernes Lee – một nhà khoahọc máy tính làm việc tại CERN Kể từ thời điểm đó, World Wide Web đã khôngngừng phát triển, trờ thành một thành phần không thể thiếu của Internet Mọi ngườidùng Website để chia sẻ thông tin, dùng để quảng cáo, giải trí và rất nhiều mục đíchkhác Điều này cũng gia tăng một số lượng lớn các hành vi có ý đồ xấu.

Các hành vi tấn công web, trong đó có tấn công deface là một trong những vấn đềlớn trong nền an ninh mạng Deface – tạm dịch là hủy hoại hình ảnh – là khi hacker,hoặc các cá nhân tổ chức có ý đồ xấu xâm nhập vào trang web và thay đổi cácthông tin hiển thị Các thông tin này có thể là toàn bộ giao diện trang web, hoặc đôikhi các thông tin nhỏ, khó để ý hơn như địa chỉ, liên lạc Các ảnh hưởng thì cáccuộc tấn công deface khá đa dạng, tùy theo thông tin gì đã bị thay đổi trên website.Một trong những kiểu tấn công deface phổ biến nhất là thay đổi toàn bộ trang webcủa nạn nhân thành trang web của kẻ tấn công, thay đổi các hiển thị trên trang webthành các thông tin như “Trang web này đã bị hack bởi hacker 00XX” hoặc cácthông diệp quấy phá đối với nạn nhân Các hành vi khó phát hiện hơn nhưng ảnhhưởng cũng không hề kém là các thay đổi nhỏ như thông tin liên lạc Kẻ tấn côngnhư tin tặc, hacker có thể thay đổi các email, số điện thoại liên lạc thành thông tincủa chính họ Khi một người dùng web có nhu cầu liên lạc với trang web, họ vôtình liên lạc thẳng đến kẻ tấn công, dẫn đến các tình huống lừa đảo, chiếm đoạt tàisản…

Lí do tấn công rất đa dạng và khó đoán, đôi khi hacker được thuê bởi các tổ chứcđối đầu để loại bỏ các sự cạnh tranh, đôi khi là do các mục đích chính trị, đôi khichẳng vì một lí do gì cả, hacker chỉ muốn thể hiện khả năng của mình Lí do cuốinghe có vẻ lạ lùng nhưng lại là một trong những lí do lớn nhất đứng đằng sau cáchacker Sự nghiêm trọng đặc biệt gia tăng khi các cuộc tấn công này nhằm vào cáctổ chức lớn hoặc vào các trang web của chính phủ, gây nên thiệt hại vô cùng lớn vềcả mặt tài chính và hình ảnh.[1]

Trang 12

Hình 1.1 insights.london.nhs.uk bị tấn công deface bởi hacker

Chính vì lí do trên, một biện pháp để phát hiện một cuộc tấn công deface là vô cùngcần thiết Đây cũng là lí do chính và cũng là động lực lớn để tác giả thực hiện để tàiluận văn thạc sĩ này Xây dựng một giải pháp giám sát website, có thể phát hiện mộtcuộc tấn công deface và thông báo cho người quản trị trang web Việt Nam luônnằm trong danh sách những nước bị tấn công mạng nhiều nhất, tác giả mong muốnđề tài này có thể cống hiến phần nào cho nền an ninh mạng quốc gia, đảm bảo mộtmôi trường web an toàn cho người sử dụng.

1.2 Nhiệm vụ luận văn

Luận văn tập trung vào trả lời và giải quyết hai vấn đề:

 Một giải pháp phát hiện một cuộc tấn công deface trong thời gian thực. Phải phân biệt được hành vi nào là hành vi tấn công, hành vi nào là bình

thường, thông báo cho người quản trị hoặc tự động khôi phục lại trang webnhư ban đầu.

 Đảm bảo thiệt hại tới trang web nằm ở mức tối thiểu.

Trang 13

2 MỤC TIÊU, GIỚI HẠN, ĐỐI TƯỢNG VÀ PHƯƠNGPHÁPNGHIÊN CỨU TRONG ĐỀ TÀI

2.1 Mục tiêu nghiên cứu

Mục tiêu nghiên cứu là phát triển một kỹ thuật chạy ngay trên server đang triển khaitrang web Kỹ thuật chạy liên tục song song với web, liên tục giám sát và kiểm tracác thay đổi, phân biệt được thay đổi nào là có chủ ý, thay đổi nào là ngoài ý muốncủa người quản trị Một số ví dụ hành vi có thể là:

 Người dùng web bình luận vào bài đăng: đây là hành vi bìnhthường

 Kẻ tấn công thay đổi tên công ty, đổi logo: đây là hành vi tấn côngKỹ thuật sau đó sẽ tìm phương án xử lí, có thể liên lạc và thông báo ngay lập tứcđến người quản trị web, hoặc sẽ tự động cập nhật các trang web lại trạng thái trướcđó tùy theo cấu hình Người quản trị cũng có thể thay đổi các thông số của kỹ thuật,như khoảng cách mỗi lần kỹ thuật quét website để phát hiện deface Kỹ thuật cũngcó thể áp dụng nhiều hình thức thông báo khác nhau như qua điện thoại… Nếukhông nhận được phản hồi từ người quản trị trong một khoảng thời gian nhất định,kỹ thuật sẽ xử lí trang web theo cách hiệu quả nhất đã được định nghĩa.

Do cách thức tấn công một trang web rất đa dạng và phức tạp, nghiên cứu này sẽtập trung vào việc làm cách nào để xử lí một cuộc tấn công đã xảy ra

2.2 Giới hạn nghiên cứu

Phạm vi nghiên cứu sẽ tập trung trả lời hai câu hỏi:

 Phương án nào là tối ưu để phát hiện một cuộc tấn công, phân biệt chúngvới các hành vi bình thường?

 Làm cách nào để đảm bảo việc giám sát là liên tục, đảm bảo việc pháthiện là theo giời gian thực

 Kỹ thuật có thể đưa ra phương án xử lí trong thời gian phù hợp?

 Làm sao để đảm bảo tỉ lệ giữa tài nguyên sử dụng để chạy kỹ thuật vàhiệu suất của kỹ thuật

Trang 14

2.3 Đối tượng nghiên cứu

Một website có lưu lượng truy cập vừa phải, có các tính năng cho người dùng thayđổi thông tin theo ý muốn (đăng tải ảnh đại diện, đăng bình luận…).

Không tập trung vào phương thức tấn công deface, chỉ tập trung vào cách phát hiệnvà phục hồi sau khi đã bị tấn công.

Giả lập hành vi tấn công deface lên trang web, phát hiện và xử lí cuộc tấncông này.

2.4 Phương pháp nghiên cứu

Phương pháp phân tích và tổng hợp: vấn đề lớn của luận văn được chia ra thành

những vấn đề nhỏ hơn và tập trung xử lý Phải phát hiện được thay đổi trong thẻHTML trong đó bao gồm rất nhiều thẻ nhỏ hơn như head, body… các thẻ này lại cónhiều thẻ con bên trong Mỗi thẻ sẽ có một thành phần riêng có thể được chỉnh sửa,các thành phần này phải được xử lí riêng biệt.

Phương pháp phân tích dữ liệu: Dữ liệu thu được từ các cuộc tấn công deface mô

phỏng sẽ được thu thập Đâu là điểm chung thường thấy của các cuộc tấn công, đâulà điểm chung giữa các thành phần website Dùng các điểm chung này để đưa raphương án, vận dụng phương pháp này để kiểm tra, tìm ra các điểm chung để đưara giải pháp xử lí hợp lí.

Phương pháp thực nghiệm: Để kiểm tra kết quả và tính hiệu quả từ các biện

pháp phát hiện được sử dụng, phải giả lập các tình huống tấn công khá nhau đểkiểm tra tính năng của kỹ thuật Các tình huống tấn công phải đa dạng, tấn côngvào nhiều vị trí khác nhau, đặc biệt vào những vị trí ngoài dự đoán Kỹ thuật phảiphát hiện tất cả các tình huống tấn công này.

Các thư viện và ngôn ngữ lập trình: Sử dụng thư viện về hệ thống và ngôn

ngữ python để lập trình kỹ thuật

Trang 15

3 KẾ HOẠCH TRIỂN KHAI

Các công việc dự kiến của luận văn (bao gồm ký hiệu, mô tả công việc, thời gianhoàn thành dự kiến):

Bảng 3.1 Công việc dự kiến của luận văn

Ký hiệu Mô tả công việc Thời gian dự kiếnK1

Nghiên cứu các phương thức tấn công

Nghiên cứu các kết quả từ cuộc tấn

công deface 1 tuần

Nghiên cứu hệ thống web, các

Document Object Model (DOM) 2 tuần

Trang 16

Bảng 3.2 Giản đồ Gantt trực quan hoá quá trình thực hiện luận văn dự kiến

12/20221/20233/20233/2023 4/20235/20236/2023K1

Trang 17

4 NỘI DUNG CỦA ĐỀ ÁN THẠC SĨ

4.1 Tổng quan đề tài

Đây là công trình nghiên cứu về tấn công deface với website và phát triển một kĩthuật phát hiện hiệu quả, nhanh trong thời gian thực và thông báo cho ngời quản trịviên của trang web.

Một website chất lượng không chỉ giúp tăng tính nhìn thấy của thương hiệu, mà cònmở rộng cơ hội tiếp cận thị trường, thu hút khách hàng mới và tăng doanh số bánhàng Song song với việc này, website cũng là một trong những đối tượng đầu tiêncho các cuộc tấn công an toàn an ninh mạng.

Một trong những kiểu tấn công phổ biến nhất nhắm vào website là tấn công deface,trong một cuộc tấn công deface, kẻ tấn công hay hacker thường cố gắng thay đổimột phần hoặc toàn bộ giao diện của trang web Mức độ của các cuộc tấn công tuỳthuộc vào hacker, đôi khi họ chỉ thay đổi một phần rất nhỏ của giao diện như thôngtin liên lạc (nhằm vào các tình huống đánh lừa người dùng), đôi khi họ thay đổitoàn bộ trang web Trong tình huống thứ hai, kẻ tấn công thường để lại một thôngđiệp, ví dụ như "Trang web của bạn đã bị hack".

Tất cả các tình huống tấn công deface đều gây ra hậu quả vô cùng to lớn, từ danh dự,hình ảnh của doanh nghiệp, cá nhân, đến những ảnh hưởng tài chính, hình sự khác.Chính vì những lí do trên, một biện pháp để phát hiện và phục hồi trang web khi cómột cuộc tấn công deface xảy ra là vô cùng cần thiết Đề án này đề xuất một kỹthuật phát hiện tấn công deface (sau khi đã xảy ra) và tìm cách khắc phục và phụchồi trang web, hạn chế tối thiểu thiệt hại từ các cuộc tấn công này.

4.2 Cơ sở lý thuyết

4.2.1 Một vài khái niệm liên quan

Web hay World Wide Web là một hệ thống toàn cầu dựa trên Internet, kết nối cácmáy tính và các thiết bị mạng lại thành một mạng lưới truyền tải và chia sẻ thôngđiệp vô cùng lớn.

Website là tập hợp một số các tài nguyên như: tài liệu, hình ảnh, video… Website

Trang 18

thường được truy cập qua một liên kết gọi là URL (Uniform Resource Locator).Website được tạo ra từ nhiều ngôn ngữ lập trình khác nhau, một số ngôn ngữ phổbiến là: HTML (HyperText Markup Language) để định dạng và cấu trúc nội dung.CSS (Cascading Style Sheets) được sử dụng để kiểm soát giao diện và trình bày củatrang web Các trang web có thể cũng sử dụng JavaScript để tạo ra các hiệu ứngtương tác và chức năng động.

Tấn công deface là hình thức tấn công an ninh mạng khi kẻ tấn công chủ động thayđổi nội dung của một trang web để hiển thị thông điệp hoặc hình ảnh mà họ muốntruyền tải.

Bảo vệ website khỏi các cuộc tấn công deface là bảo vệ uy tín và danh tiếng củadoanh nghiệp, bảo vệ khách hàng khỏi các rủi ro bảo mật.

4.2.2 Cấu trúc website và sự liên quan tới deface

Website, nói một cách đơn giản, có thể gọi là tập hợp các thẻ HTML tạo thành.HTML sử dụng cú pháp đánh dấu để mô tả các thành phần khác nhau của một trangweb, chẳng hạn như tiêu đề, đoạn văn, liên kết, hình ảnh, bảng, biểu mẫu và nhiềuhơn nữa.

Deface xảy ra khi một trong các thẻ này bị thay đổi nội dung mà không được sự chophép của người quản trị trang web Tuy nhiên, việc khó ở đây là nội dung của cácthẻ không phải luôn luôn là cố định mà có thể thay đổi theo thời gian để phù hợpvới việc hiển thị nội dung của trang web.

Một số thẻ HTML thông dụng thường được dùng trong một ví dụ trang web đơngiản:

<!DOCTYPE html>

<title>Tiêu đề trang</title>

Trang 19

<h1>Đầu đề</h1>

<p>Đây là một đoạn văn.</p>

<a href="https://www.example.com">Liên kết</a><img src="hình ảnh.jpg" alt="Hình ảnh">

 <!DOCTYPE html> khai báo loại tài liệu và phiên bản HTML được sử dụng(trong trường hợp này là HTML5).

 Thẻ <html> đại diện cho phần tử gốc và chứa tất cả các phần tử khác. Phần <head> chứa thông tin về tài liệu và siêu dữ liệu.

 Thẻ <title> xác định tiêu đề của trang web, hiển thị trên thanh tiêu đề hoặctab của trình duyệt.

 Phần <body> chứa nội dung hiển thị của trang web. Thẻ <h1> đại diện cho một đầu đề.

 Thẻ <p> xác định một đoạn văn. Thẻ <a> tạo một liên kết.

 Thẻ <img> nhúng một hình ảnh.

4.2.3 Mô hình máy học

Mô hình máy học SVM (Support Vector Machine):

Support Vector Machines (SVM) là một thuật toán phân loại mạnh mẽ trong lĩnhvực máy học SVM tìm cách tạo ra một đường ranh giới tuyến tính hoặc phi tuyếntính để phân tách các điểm dữ liệu thuộc các lớp khác nhau Cách hoạt động củaSVM là tìm ra đường ranh giới tốt nhất sao cho khoảng cách từ các điểm dữ liệugần nhất đến đường ranh giới là lớn nhất.

Để tạo ra đường ranh giới tối ưu, SVM sử dụng một khái niệm quan trọng gọi là"vector hỗ trợ" Vector hỗ trợ là các điểm dữ liệu nằm gần đường ranh giới SVMtìm cách tối đa hóa khoảng cách từ các vector hỗ trợ này đến đường ranh giới.

Trang 20

Tuy nhiên, không phải lúc nào các lớp dữ liệu cũng phân tách tuyến tính Để xử lýtrường hợp này, SVM sử dụng một phép ánh xạ không gian gọi là "kernel" đểchuyển đổi dữ liệu vào một không gian cao hơn, trong đó có thể tạo ra một đườngranh giới tuyến tính.

Quá trình huấn luyện SVM là quá trình tìm kiếm đường ranh giới tối ưu bằng cáchgiải quyết một bài toán tối ưu hóa Thuật toán SVM tìm cách tìm ra các hệ số tối ưucho đường ranh giới và các vector hỗ trợ bằng cách sử dụng phương pháp tối ưuhóa lề cứng (hard margin) hoặc lề mềm (soft margin).

Khi dự đoán, SVM sử dụng đường ranh giới đã học để xác định lớp của các điểmdữ liệu mới dựa trên vị trí của chúng đối với đường ranh giới SVM là một thuậttoán linh hoạt và có thể được áp dụng cho nhiều bài toán phân loại, bao gồm cảphân loại tuyến tính và phi tuyến tính.

Hình 4.1 Hình ảnh minh hoạ cho mô hình SVM

Random Forest là một thuật toán học tập tập hợp được sử dụng rộng rãi trong lĩnh

Trang 21

một tập hợp các cây quyết định và kết hợp kết quả từ các cây để đưa ra dự đoáncuối cùng.

Quá trình xây dựng Random Forest bắt đầu bằng việc lấy mẫu ngẫu nhiên từ tập dữliệu ban đầu để tạo thành các tập con dữ liệu cho mỗi cây quyết định Mỗi cây quyếtđịnh được huấn luyện độc lập trên một tập con dữ liệu này, theo nguyên tắc "chọnngẫu nhiên, lựa chọn và trích dẫn".

Khi dự đoán, các cây quyết định trong Random Forest được áp dụng đồng thời lênmột điểm dữ liệu mới Mỗi cây quyết định đưa ra dự đoán riêng của mình dựa trênđặc trưng của điểm dữ liệu đó Cuối cùng, kết quả cuối cùng được tính bằng cách ápdụng phương pháp "phiếu bầu" (voting) hoặc "trung bình" (averaging) trên các dựđoán của các cây.

Random Forest có nhiều ưu điểm quan trọng Đầu tiên, nó có khả năng xử lý hiệuquả cả dữ liệu số và dữ liệu hạng mục Thứ hai, việc kết hợp các cây quyết địnhgiúp giảm hiện tượng overfitting và cung cấp một mô hình dự đoán ổn định vàchính xác Thứ ba, Random Forest cung cấp một đánh giá về mức độ quan trọngcủa các đặc trưng trong quá trình dự đoán.

Random Forest được áp dụng trong nhiều bài toán, bao gồm phân loại, hồi quy vàphát hiện các đặc điểm quan trọng trong dữ liệu Nó là một công cụ mạnh mẽ vàđáng tin cậy trong việc xây dựng các mô hình dự đoán.

Trang 22

Hình 4.2 Hình ảnh minh họa Decision Tree

Gradient Boosting là một thuật toán học tập tập hợp được sử dụng trong lĩnh vựcmáy học Nó hoạt động bằng cách xây dựng các cây quyết định theo tuần tự để tạora một mô hình dự đoán mạnh mẽ.

Quá trình xây dựng mô hình Gradient Boosting bắt đầu với một cây quyết định đơngiản, được gọi là cây gốc Cây gốc được huấn luyện trên toàn bộ tập dữ liệu.

Sau đó, các cây quyết định tiếp theo được tạo ra để sửa các sai lầm dự đoán của câytrước đó Điểm đặc biệt ở đây là các cây mới chỉ được huấn luyện trên phần dư thừacủa dữ liệu, tức là dữ liệu mà cây trước đó chưa dự đoán chính xác.

Quá trình huấn luyện các cây tiếp theo trong Gradient Boosting dựa trên việc điềuchỉnh các cây để giảm gradient của hàm mất mát Gradient là đạo hàm của hàm mấtmát tại mỗi điểm dữ liệu Bằng cách điều chỉnh cây để giảm gradient, các cây mớiđược tạo ra có khả năng cải thiện dự đoán và tiếp tục giảm sai số dự đoán.

Kết quả cuối cùng của Gradient Boosting được tính bằng cách cộng dồn dự đoáncủa tất cả các cây trong tập hợp Quá trình này tạo ra một mô hình dự đoán mạnhmẽ, có khả năng xử lý cả các vấn đề hồi quy và phân loại.

Trang 23

cả dữ liệu tuyến tính và phi tuyến tính Thứ hai, quá trình tạo cây theo tuần tự giúptăng cường khả năng dự đoán và tạo ra một mô hình mạnh mẽ Tuy nhiên, điều nàycũng có thể làm tăng độ phức tạp tính toán và thời gian huấn luyện của thuật toán.Gradient Boosting được sử dụng trong nhiều bài toán, bao gồm phân loại, hồi quyvà xếp hạng Nó cung cấp một công cụ mạnh mẽ để xây dựng các mô hình dự đoánchính xác và linh hoạt.

4.3 Các công trình nghiên cứu liên quan

Trong quá trình nghiên cứu đề cương, một số giải pháp xử lí các cuộc tấn côngdeface thông dụng đã được xem qua và phân tích nhằm tìm ra các phương pháp tốiưu, vận dụng và phát triển, giảm thiểu các bất tiện của các giải pháp này.

Các giải pháp phòng chống về deface thường nằm trong một gói công cụ, ngườidùng có thể mua các công cụ này theo mô hình thuê bao Các công cụ này thườngsẽ được cài đặt trên đám mây và kiểm soát trang web qua internet Một số ví dụ chocác công cụ này có thể như là: site24x7, Fluxguard, Succuri…

Tác giả sẽ không tập trung nhiều vào các thương hiệu mà sẽ xem xét các kỹ thuật vàgiải pháp mà các công cụ này sử dụng, sau đó tổng quan chúng lại thành các hướngxử lí khả thi.

Một trong những giải pháp phổ biến được sử dụng là phát hiện thay đổi trên pixel.Một ảnh chụp hoặc bản ghi của trang web sẽ được công cụ lưu lại tại một thời điểmmà trang web được cho là an toàn Ảnh chụp này sẽ được lưu trữ an toàn ở một cơsở dữ liệu Kế đến, sau mỗi một khoảng thời gian xác định, công cụ sẽ tiếp tục lấymột ảnh ghi từ website, sau đó so sánh hình ảnh này với ảnh chụp trong khoảng thờigian “an toàn” theo từng pixel một, nếu có sự khác biệt giữa hay hình ảnh trên, chodù chỉ là một pixel, công cụ sẽ cho ra kết quả là trang web đã bị tấn công deface.[3]Phương pháp này có khả năng tìm ra nhưng thay đổi dù là nhỏ nhất (pixel) trên giaodiện của một website, tuy nhiên chính điều này cùng là điểm yếu lớn nhất củaphương pháp pixel Các thay đổi có chủ ý của người dùng cũng sẽ bị đánh dấu làtấn công deface, đặc biệt đối với các website có thông tin hiển thị thay đổi liên tục

Ngày đăng: 30/07/2024, 17:13

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w