1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phát hiện tấn công thay đổi giao diện trang web dựa trên học máy sử dụng ảnh chụp màn hình

79 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phát hiện tấn công thay đổi giao diện trang web dựa trên học máy sử dụng ảnh chụp màn hình
Tác giả Tưởng Quốc Trung
Người hướng dẫn PGS.TS. Hoàng Xuân Dậu
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành An toàn thông tin
Thể loại Đồ án tốt nghiệp
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 79
Dung lượng 23,6 MB

Nội dung

Phương pháp phát hiện defacementbang ảnh chụp màn hình trang web là một phương pháp giám sát trang web hiện đại, sử dụng kết hợp cả các công cụ học máy, học sâu trong quá trình giám sát,

Trang 1

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA AN TOÀN THÔNG TIN

SU DUNG ANH CHUP MAN HINH

TUONG QUOC TRUNG

Hà Nội, 01-2024

Trang 2

HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG

KHOA AN TOÀN THÔNG TIN

SỬ DUNG ANH CHỤP MAN HÌNH

Giảng viên hướng dẫn: PGS.TS Hoàng Xuân Dậu

Sinh viên thực hiện: Tưởng Quốc Trung

Mã sinh viên: B19DCA T199

Lớp: D19CQAT03-B

Khóa: 2019 — 2024

Hệ: Đại học chính quy

Hà Nội, 01-2024

Trang 4

LỜI CAM KẾT

Em xin cam đoan răng đây là đồ án nghiên cứu của em, có sự hỗ trợ từ giáo

viên hướng dẫn là PGS TS Hoàng Xuân Dậu Các nội dung nghiên cứu và kết

quả trong đề tài này là trung thực và do cá nhân em thực hiện Những số liệu

trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính

em thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham khảo hoặc

lay từ thực nghiệm

Nêu phát hiện co bat ky sự gian lận nao em xin hoàn toàn chịu trách nhiệm trước Hội đông cũng như kêt quả đồ án của em.

Trang 5

LỜI CẢM ƠN

Lời đầu tiên, em xin chân thành cảm ơn các thầy, cô trong Khoa An toàn

thông tin và toàn thé các thầy cô của nhiều bộ môn khác cùng các cán bộ củaHọc viện Công nghệ Bưu chính Viễn thông đã đồng hành, cung cấp kiến thứccho em trong suốt thời gian 4,5 năm học tại học viện Những kiến thức ấy lànhững hành trang rất vững chắc dé tương lai em có thé tự tin sử dụng dé tiếp tục

học tập và làm việc Ngoài kiến thức chuyên môn, những kinh nghiệm sống,

những trải nghiệm của thầy cô trong suốt thời gian qua cũng là những điều rất

quý giá mà em sẽ rất trân trọng

Đặc biệt, em xin gửi lời biết ơn sâu sắc tới Thầy giáo, giảng viên hướng

dẫn của em - PGS.TS Hoang Xuân Dậu Thay là người gợi ý, hướng dan dé tài

và rất sát sao trong quá trình em thực hiện, hoàn thiện đồ án Tuy có nhiều lúc

em còn chưa đạt được kỳ vọng của thầy hay còn để thầy phải nhắc nhở nhưng

thầy vẫn luôn theo dõi va tin tưởng dé em hoàn thành đồ án tốt nhất

Cuối cùng, em xin cảm ơn gia đình, bạn bè, người thân đã luôn giúp đỡ,đồng hành về cả vật chất lẫn tinh thần dé em có thé hoàn thành đồ án tốt nghiệp

Chắc chắn với khả năng và vốn kiến thức còn hạn chế về nhiều mặt nên đồ án

của em sẽ không tránh khỏi thiếu sót, em rất mong nhận được sự góp ý, đánh giá

từ các thầy cô và các ban dé đồ án của em được hoàn thiện hơn

Em xin chân thành cam on!

Hà Nội, tháng năm 2024

SINH VIÊN

(ký, họ tên)

li

Trang 6

NHAN XÉT, ĐÁNH GIÁ, CHO DIEM

(Của người hướng dẫn)

Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt

Trang 7

MO ĐẦU 5c 2S 21 221221211271211211711211 112121111111 11 11.11011111 re xiCHƯƠNG 1 TONG QUAN VE PHÁT HIEN TAN CÔNG THAY DOI GIAO

DIỆN TRANG WEB ccssssssssesssessesssessessssssecsecssessessesssessecsnsssessecssessesssessesseesesseees |

1.1 Khái quát về tan công web và tan công thay đổi giao điện trang web 1

1.1.1 Giới thiệu tan công Web eeceececccsessesssssesessessesscsessesesscetsvsseeestsesstsseeees |1.1.2 Giới thiệu tan công thay đổi giao điện trang web : 21.2 Phát hiện tan công thay đổi giao điện 2 252+£+E£+£zEzEerxrrered 5

1.2.1 Các phương pháp phát hiện tan công thay đổi giao diện trang web 5

1.2.1.1 Phát hiện dựa theo phương pháp truyền thống - 51.2.1.2 Phát hiện dựa trên thống kê, học máy, «« sex 6

1.2.1.3 Phát hiện sử dụng ảnh chụp màn hình trang web - - 7

1.2.2 Một số giải pháp giám sát tan công thay đổi giao diện - 8

1.2.2.1 Site 24x7 Website MonItOrInE - 5 3S ss+ssvvssseeersrreee 8 1.2.2.2 Nagios XI Website MonIfOTInE c5 c + s+sseveesseeeres 10 1.2.2.3 Fluxguard Website MonIforIng - s++sss+s++sseex++eeerxs+ 12 1.2.2.4 So sánh ba giải pháp - - - c3 1323 Eeirererrrererreeree 15

1.3 Một số nghiên cứu có liên quan 2 2s s+S£+E£EE£EE+EeEEeEzErkersred 16

1.3.1 Nghiên cứu thứ nhất - 2 ¿+ SE +E+EE2EE£EEEEEEEEEEEEEEEEErkrkerrrkee 16

iv

Trang 8

1.3.2 Nghiên cứu thứỨ hàa1 - G6 1E 1118911 835118331 81 E9 kg vn 17 1.3.3 Nghiên cứu thir Da -c c3 1331011391189 1 91119 11 ng vn ng 18 1.3.4 Nghién ctru thar 1 20

1.4 Kết luận ChUON go ececccsessessessessessessessessessessessessesstssessessessesseeseeseeseesees 21

CHUONG 2 PHAT HIEN THAY DOI GIAO DIEN DUA TREN HOC MAY

SỬ DUNG ANH CHỤP MAN HINH ccccccscsssscsssscsecsesececscsescevsessecececsvscseeees 22

2.1 Khái quát về học máy, học Sau cecceccscsseesessssesesessesessessesseseesesesseseseseeees 22

2.1.1 Giới thiệu học máy, học sâu c5 35+ *+2*‡*+*vc++eeeseeeeeeessss 22

2.1.1.1 Học máy, c 1111 TS TH TH vn ng vn rep 22 2.1.1.2 HOC sâu -. - QQQQQQSS S2 92303001 11T ng vu 24

2.1.2 Các thuật toán học sâu ứng dụng trong đề tài - - 25c c5: 25

2.1.2.1 CNN (Convolutional Neural Network) - «5+ ++<<ss52 25

"5c j 26 2.1.2.3 ResNet (Residual NetworkS) c n2 nh reo 27

2.1.2.4 So sánh đặc điểm ba mô hình thuật toán học sâu - 282.2 Xây dựng mô hình phát hiện tắn công thay đổi giao diện trang web dựa

trên hoc máy sử dụng ảnh chụp màn hình ¿+55 + 2+ + *s+++see++sxs 29

2.2.1 Thu thập dữ liệu .- - c2 1221113111315 1 1158 1111811118111 xee 29

2.2.2 Tiền xử lý đữ liệu - - 2-2 S2 +ES 9 2EEE1E112111111111 111111 xe 31

2.2.2.1 Giảm độ phân giải ảnh -2- 5552222222 2xE2xezxzrrrxerres 31 2.2.2.2 Lọc ảnh trùng lặp - ¿(c2 2c 3321111231113 1118111 exe+ 32

2.2.3 Huấn luyện và phát hiện ¿2 2 keSE+EE+EeEEeEE2EEEEEEEEEErkrrrrkes 32

2.2.3.1 Huấn luyện - - 2 + kSt+E EEEEE2EE118111111111111111 111111, 32

2.2.3.2 Phát hiện ¿- ¿52252 222221211211211211211211211211211211211 21111 cty 33 2.3 Các tiêu chí đánh giá, độ đo sử dụng - 55 Ssss+ksseerseeereses 33

2.4 Kết luận chương, -2- 2-2 +S2E£EE£EESEEEEEEEEEEEEEEEEEEEEEEE E111 35CHƯƠNG 3 CÀI ĐẶT VÀ THỬ NGHIỆM MÔ HÌNH PHÁT HIỆN TẤN

CÔNG Q0 21 21221 2112112112112112112111112111110111111111111211111211211211111111 111cc 36

3.1 Cài đặt và thử nghiỆm c2 3113211132113 1358115111111 xkE 36

Trang 9

3.1.1 Môi trường cài đặt và thử nghiệm 25 5+ + *++svesssess 36 3.1.2 Các mô đun chương trình chính - - - + + ++s*++*ee++seeeeseeesss 36

3.1.2.1 Mô đun nap dữ QU eececeseceseceseeeeeeeesseeeeeseeeeeseeeseaaees 36 3.1.2.2 Mô đun phân chia dữ liệu - - 5555 *£++++*esseerseerss 36

3.1.2.3 Mô đun chuẩn hoá dữ liệu c¿¿-5cccc2ccvvsrervrrrrrrrrrrea 373.1.2.4 Mô đun huấn luyện 2-2 2 2+E2+EE2EE2EE2EE2EE2EE2EEEExerkrrree 373.1.2.5 Mô đun tối ưu :-cs++222xtttExxtttEktrttrrtrrrttrrrrrrrirrrrrrrid 433.1.2.6 Mô đun vẽ đồ thị :-55sct222xtttErtrttrtrrrrrrrrrrrrrrrrrrrrree 443.1.2.7 Mô đun kiểm thử kết quả - 2 2 2+s+SE+E£EE+EeEEzEzxerxrxee 45

3.2 Thử nghiệm và đánh gIá - (c3 133211391 EEEEEErrrkererrvee 46

3.2.1 Tập dữ liệu thử nghiệm - 5 22c 332313 EEESEErserrerresreeree 46

3.2.2 Kết quả thử nghiệm ¿- 2 2 SE+SE+ESEEEEE2EEEEEEEEEEEEEEEEEEErkrrrree 47

3.2.3 Nhận xét đánh gIá - . - c1 2211121113111 11 111 111111181118 11 kg kp 51

3.3 Triển khai mô đun phát hiện tan công thay đổi giao diện trang web 52

3.3.1 Cai đặt mô đun trên trang web giám sắt - ¿+55 + + *+++sss2 52

Trang 10

DANH MỤC VIET TAT

Chữ/ Ký hiệu | Thuật ngữ tiếng Anh/ Giải | Thuật ngữ tiếng Việt/ Giải

thích thích

ACC Accuracy Độ chính xác

A.L/AI Artificial Intelligence Tri tuệ nhân tao

API Application Programming | Giao diện lập trình ứng dụng

Interface

CMS Content Management Hệ quản tri nội dung

System CNN Convolutional Neural Mang no-ron tich chap

Network

DDoS Distributed Denial-of- Tan công từ chối dich vụ phan

Service tán

DOM Document Object Model Mô hình các đối tượng tai liệu

HTML HyperText Markup Ngôn ngữ đánh dau siêu văn

Language bản

NLP Natural Language Xử lý ngôn ngữ tự nhiên

Processing

SEO Search Engine Optimization | Tối ưu hóa công cụ tìm kiếm

URL Uniform Resource Locator | Hệ thống định vị tài nguyên

thống nhất/Địa chỉ web

Vii

Trang 11

DANH MỤC HÌNH VE

Hình 1.1: Website của Vietnam Airlines bị tắn công 2-2 2+se+s+czzseẻ 4

Hình 1.2: Cảnh báo và tính năng phát hiện của giải pháp Site24x7 8

Hình 1.3: Thiết lap giám sát trang web với giải pháp Site24x7 9

Hình 1.4: Báo cáo giám sát của giải pháp SIte24X7 - 5S sscs+ssvseessse 9 Hình 1.5: Bảng điều khiển chung của Nagios XI 2-52 sccs+csrcszea 10 Hình 1.6: Một vài thiết lập giám sát thay đổi trang web của Nagios XI 11

Hình 1.7: Giao diện bang điều khiển của Fluxguard 2- 2 255s25s+szcs2 13 Hình 1.8: Tính năng đưa ra vị trí thay đổi cụ thé của trang web 14

Hình 1.9: Một trong số các tinh năng giám sát của Fluxguard - 15

Hình 1.10: Mô hình phát hiện do Kim và cộng sự dé xuất - 55+: 17 Hình 1.11: Kiến trúc mô hình Meerkat dựa trên học sâu -: 17

Hình 1.12: Sơ đồ thuật toán kiểm tra sự thay 0) rr 19 Hình 1.13: So đồ thuật toán phát hiện thay đồi nội dung 20

Hình 1.14: Giai đoạn huấn luyện của mô hình được đề xuắt 20

Hình 2.1: Mô hình mạng nơ-ron học sâu - ¿+ + + + + £++sevexeeeeerreses 25 Hình 2.2: Giai đoạn huấn luyện của mô hình học sâu - 2-2-2 s52 32 Hình 2.3: Giai đoạn phát hiện của mô hình học sâu - 5+5 5s«++s++++ 33 Hình 3.1: Cau trúc thuật toán EfficienfNet ccccccsccrrrrrrrrirrrrrrrirree 40 Hình 3.2: Cấu trúc chi tiết thuật toán ResNet - :-ccccccccrrrverrrrrrerree 41 Hình 3.3: Biểu điễn mô hình CNN truyền thống, mô hình EfficientNet 47

Hình 3.4: Biéu diễn mô hình ResNet50 với 50 layers ¿5-2 2+secs+s247 Hình 3.5: Biểu đồ độ chính xác và sai sót của mô hình CNN 48

Hình 3.6: Biéu đồ độ chính xác va sai sót của mô hình EfficientNet B0 49

Hình 3.7: Biéu đồ độ chính xác và sai sót của mô hình EfficientNet B2 50

Hình 3.8: Biểu đồ độ chính xác va sai sót của mô hình ResNet50 50 Hình 3.9: Giao diện công cụ theo đÕi c2 321132 E+EEsseerrsrereeres 53

Hình 3.10: Danh sách các trang web được theo dõi -+++++<s++++ 53

Trang 12

Hình 3.11: Ảnh chụp màn hình 2 trang web sạch ¿2 2+ +cs+s+zs+xezxd 54Hình 3.12: Ảnh chụp màn hình 2 trang web bị tan công thay đổi giao dién 55Hình 3.13: Kết quả phân loại, giám sát của 4 trang web -s- 5+: 56Hình 3.14: Kết quả giám sát được lưu lại - 2 s¿©z+z++x+x+zxerxesrxees 56

1X

Trang 13

DANH MỤC BANG BIEU

Bảng 3.1: Kết quả thực nghiệm của các thuật toán huấn luyện

Trang 14

MỞ DAU

Các trang web đã và đang trở thành một thành phần quan trọng của xã hội

con người, từ các trang phục vụ cơ quan chính phủ đến các trang cho giao dịch

thương mại và các trang phục vụ giáo dục, giải trí, v.v Chính vì vậy, các cuộc

tấn công vào các ứng dụng web nói chung và các trang web nói riêng đang trởthành một trong những nguy cơ chủ yếu đối với các tổ chức, doanh nghiệp

Giám sát các trang web, đặc biệt là phát hiện sớm tấn công trang web đang là

một nhu cầu thực tế cấp thiết

Tan công thay đổi giao diện (Defacement) trang web là một loại hình tan

công làm thay đổi nội dung, hình thức trình bày của trang web Điều này gây

ảnh hưởng lớn đến hoạt động của các tô chức doanh nghiệp, làm gián đoạn hoạtđộng, gây mat uy tín, đem lại hình ảnh xấu cho tổ chức và có thé gây ra nhữngmat mát lớn về dữ liệu và tài chính Phát hiện tan công thay đổi giao diện trangweb là cần thiết nhằm sớm phát hiện có sự thay đôi và đưa ra cảnh báo sớm cho

người quan tri trang web.

Đã có nhiều giải pháp phat hiện tan công thay đổi giao diện trang web tới

nay Các phương pháp phát hiện truyền thống thường dựa vào kiểm tra

Checksum hay so sánh sự khác biệt giữa hai bản sao hoặc dựa vao phát hiện sự

thay đổi trong cấu trúc trang web, ví dụ các thẻ HTML Các phương pháp học

máy và học sâu đang trở nên phô biến trong ít năm trở lại đây và có thé dem lại

những hiệu quả tốt trong phát hiện tan công Phương pháp phát hiện defacementbang ảnh chụp màn hình trang web là một phương pháp giám sát trang web hiện

đại, sử dụng kết hợp cả các công cụ học máy, học sâu trong quá trình giám sát,

phân tích va tự động hoá Đây là lý do em chọn đề tài đồ án tốt nghiệp nay

Đồ án nảy tập trung vào nghiên cứu phương pháp học máy, học sâu và áp

dụng vào phát hiện tấn công thay đổi giao diện trang web sử dụng ảnh chụp màn

hình Các nội dung cụ thé đã thực hiện trong đồ án được bố cục trong ba chươngchính, gồm:

CHƯƠNG 1 TONG QUAN VE PHÁT HIỆN TAN CÔNG THAY DOI

GIAO DIEN TRANG WEB

¢ Khảo sát ly thuyết, các hình thức tan công web, các phương pháp phát

hiện tan công thay đổi giao diện trang web truyền thống và hiện đại

© Trinh bày một số giải pháp giám sát phát hiện thay đổi giao diện trang

web điền hình và một số nghiên cứu liên quan

Xi

Trang 15

CHƯƠNG 2 PHÁT HIỆN THAY ĐỐI GIAO DIỆN DỰA TRÊN HỌCMÁY SỬ DỤNG ẢNH CHỤP MÀN HÌNH

e Nghiên cứu các thuật toán học máy, học sâu Thực hiện thử nghiệm so

sánh, đánh giá các thuật toán đề chọn lựa thuật toán phù hợp

e Xây dựng mô hình phát hiện tan công thay đổi giao diện trang web dựa

trên học máy sử dụng ảnh chụp màn hình.

e Thu thập dữ liệu ảnh chụp màn hình trang web, xây dựng tập dữ liệu

khoảng 20.000 mẫu, sau đó thực hiện tiền xử lý dữ liệu

CHUONG 3 CAI ĐẶT VÀ THU NGHIỆM MÔ HÌNH PHÁT HIỆN

TAN CONG

e Thuc hiện cài dat các mô đun va môi trường thử nghiệm.

e Thực hiện thử nghiệm các thuật toán khác nhau như CNN, EfficientNet

B0, B2, ResNet50 để đánh giá hiệu quả giữa các mô hình

e Xây dựng trang web giám sát, cảnh báo tan công defacement dé sử dụng

với đầu vào chỉ duy nhất là URL của trang web

XI

Trang 16

CHƯƠNG 1 TONG QUAN VE PHÁT HIỆN TAN CÔNG THAY DOI

GIAO DIEN TRANG WEB

1.1 Khái quát về tấn công web va tan công thay đỗi giao diện trang web

1.1.1 Giới thiệu tan công web

Cùng với sự phát triển của khoa học — kĩ thuật trên toàn thế giới, cách mang

Công nghiệp 4.0 dang làm thay đổi diện mạo của các ngành nghề nhanh chóng hơn

bao giờ hết Không gian mạng hay các website đang được phát triển rất mạnh mẽ

và phố biến Theo Forbes [1], hiện tại trên thế giới ta có hơn 1.13 ty trang web,

trong đó có hơn 200 triệu trang web đang hoạt động Đây chính là một “mỏ vàng”

cho các kẻ tan công dé khai thác các lỗ hồng hay lạm dụng dữ liệu các trang web

nhăm nhiều mục đích trục lợi từ các cá nhân, tô chức Vì thé, không thể tránh khỏi

việc các trang web bị tấn công bởi các kẻ tấn công hay nói cách khác là các

“hacker”.

Tan công web là hành động tan công vào các trang web hoặc hệ thống dựa trên

web, nhằm mục đích ăn cắp dữ liệu, phá hoại, hoặc chiếm quyền kiểm soát hệ

thống Ta có ké thể đến ở đây một số dạng tấn công web phô biến:

s® SQL Injection: Kẻ tấn công chèn các truy van SQL độc hại vào các biểu

mẫu đầu vào (input form) của trang web dé thay đổi hoặc truy xuất dir liệu

từ cơ sở dữ liệu.

® Cross-Site Scripting (XSS): Tan công XSS xảy ra khi kẻ tan công chèn mã

JavaScript hoặc các loại mã khác vào các trang web Khi người dùng truy

cập trang web nay, mã độc hại sẽ được thực thi, có thể dẫn đến việc ăn cắp

thông tin hoặc thao túng hành vi của người dùng.

® Cross-Site Request Forgery (CSRF): Kỹ thuật này lợi dụng quyền của người

dùng đã đăng nhập đề thực hiện các hành động không mong muốn trên trang

web mà họ đã đăng nhập.

® DDoS Attacks (Distributed Denial of Service): Tan công DDoS là việc gửi

một lượng lớn yêu cầu đến may chủ dé làm quá tải và ngăn máy chu cungcấp dịch vụ cho người dùng hợp lệ

¢ Session Hijacking va Cookie Theft: Tan công nhằm mục đích chiếm đoạt

hoặc lay cắp cookie của người dùng dé có thé giả mao danh tinh của họ trên

trang web.

e Phishing: Gửi email hoặc tao trang web giả mao dé lừa người dùng cung cấp

thông tin cá nhân hoặc thông tin đăng nhập từ đó lấy cắp tài khoản hay các

thông tin, dữ liệu nhạy cảm.

Trang 17

¢ Local File Inclusion (LFI) va Remote File Inclusion (RFI): Cac kỹ thuật nay

lién quan đến việc chèn các tệp từ hệ thống cục bộ hoặc từ xa vào máy chủ

web, thường nhằm mục đích thực thi mã độc hại

e Tấn công thay đổi giao diện (defacement attack): Kẻ tan công sẽ lợi dụng

các lỗ hong web, máy chủ hay kỹ thuật phishing dé lay được quyền quan trị

viên từ đó thay đổi hình ảnh, nội dung, hoặc giao diện của trang web đó,thậm chí đôi khi có thể chèn thêm mã độc hại

1.1.2 Giới thiệu tan công thay đổi giao diện trang web

Một trong những hình thức tan công web phổ biến và được biết đến rộng rãi làtan công thay đổi nội dung, giao diện của trang web (web defacement) Đây là mộthình thức tan công trang web mà trong đó kẻ tan công thay đổi giao diện của trang

web bằng cách thay thế trang chủ hoặc các trang khác trên trang web bằng một

trang hay nội dung, thông điệp do chính kẻ tấn công tạo ra Mục đích của loại tấn

công này thường không phải là dé ăn cắp dit liệu hoặc gây thiệt hai lâu dai, ma

thường nhằm mục đích phô trương sức mạnh của “hacker”, tuyên truyền chính trị,hoặc chỉ đơn giản là làm gián đoạn hoạt động, khiến mất uy tín của trang web bị

tấn công

Các hình thức tấn công thay đôi giao diện trang web thường sẽ lợi dụng các lỗ

hồng bảo mật của các trang web dé thay đổi nội dung hay giao diện của trang web

đó Cac lỗ hồng có thé bi “hacker” lợi dung có thé được ké đến như:

¢ Lỗ hồng bảo mật phần mềm: Kẻ tan công sử dụng các lỗ hồng trong phần

mềm của trang web, như các lỗ hồng trong hệ thống quản lý nội dung

(CMS) hoặc các plugin, để xâm nhập và thay đổi nội dung trang web Với lỗhồng này thông thường “hacker” sẽ lạm dụng kết hợp với lỗ héng SQL

Injection mà ở đó hacker có thé sử dụng các truy van SQL độc hại dé thâm

nhập vào cơ sở dữ liệu của trang web và thay đổi nội dung hoặc cau trúc của

trang web.

e Lỗ hồng mật khẩu và quyền quản trị: Lỗ hồng này tạo cơ hội cho kẻ tan

công có thể đoán hoặc vét cạn (bruteforce) mật khẩu của tài khoản quản trịviên trang web, cho phép họ thay đổi trực tiếp nội dung trang web Kẻ tấn

công cũng có thê tìm được tài khoản quản trị của trang web đo nhiều lí do

khác như tài khoản bị lộ ra ngoài hay do tài khoản admin không được thay

đối mật khâu mặc định, Ngoài ra kẻ tan công cũng có thé sử dụng các 16hồng liên quan đến xác thực (Authentication) hay phân quyền (Accesscontrol) dé có được quyên quản tri web Với các lỗ hồng liên quan đến xác

Trang 18

thực (Authentication) có thé gặp ở nhiều khâu trong quá trình xác thực: mật

khẩu không được mã hoá, URL hoặc request chứa session ID, vét cạn

session, Còn các lỗ hồng liên quan tới phân quyền (Access control) có thê

kế đến các sai sót trong các khâu phân quyền Quá trình phân quyền không

chính xác có thể nằm ở các hàm được gọi và trả về thông tin chưa chính xác

Điều này có thể cho phép người dùng không được phép truy cập vào những

khu vực hoặc thực hiện các hành động mà họ không nên có quyên Các lỗi

phân quyền thường xuất hiện do thiết kế hệ thống không chặt chẽ hoặc do

lỗi lập trình

® Cross-Site Scripting (XSS): Với lỗ hong này kẻ tan công có thể chèn mã độc

vào trang web, cho phép họ thay đổi giao điện hoặc nội dung khi trang web

được hiển thị cho người dùng

¢ Remote File Inclusion (RFI): Lỗ héng này liên quan đến việc kẻ tan công

chèn một đường dẫn hoặc script từ một nguồn bên ngoài vào trang web, cho

phép thực thi mã độc và thay đổi nội dung

© Local File Inclusion (LFI): Tương tự như RFI, nhưng trong trường hợp tan

công defacement, kẻ tấn công khai thác các lỗ héng dé chèn các tệp cục bộ

vào trang web, thay đồi nội dung hoặc giao diện

e Sử Dụng Mã Độc và Malware: Kẻ tấn công có thé sử dụng các loại malware

dé xâm nhập va thay đôi cấu trúc hoặc nội dung của trang web thông qua các

tính năng upload hay lưu trữ của trang web.

Tan công thay đôi giao diện trang web có thé gây ra rất nhiều hậu quả tiêu cực

về nhiều mặt đối với tô chức, doanh nghiệp, cá nhân bị ảnh hưởng Một số hậu

quả/ảnh hưởng có thê nhận ra như:

e Mất uy tín và giảm độ tin cậy: Khi trang web của một tổ chức bị sửa đổi trái

phép, điều này có thể gây ảnh hưởng nghiêm trọng đến hình ảnh và uy tíncủa tổ chức, người dung hay chủ quản trang web đó Người dùng có thé mat

lòng tin vào kha năng của tô chức dé bảo vệ dữ liệu và thông tin cá nhân của

họ.

s® Gian đoạn hoạt động kinh doanh, vận hành: Tùy thuộc vào thời gian và mức

độ của cuộc tấn công, hoạt động kinh doanh hay vận hành có thể bị giánđoạn, dẫn đến mất doanh thu và ảnh hưởng đến dịch vụ khách hàng

¢ Tổn hao chi phí phục hồi: Tổ chức có thé phải chi trả một khoản phi đáng kể

dé phục hồi trang web, bao gồm chi phí kỹ thuật và chi phí cho các dịch vụ

pháp lý hoặc quản lý khủng hoảng hoặc các chi phí đền bù liên quan tới cam

kết chất lượng dịch vụ (Service Level Agreement)

Trang 19

Mắt đữ liệu và rò rỉ thông tin: Trong một số trường hợp, cuộc tấn công

không chỉ dừng lại ở việc thay đổi giao điện mà còn bao gồm việc đánh cắp

hoặc rò ri dữ liệu, đặc biệt nêu kẻ tấn công có quyền truy cập sâu hơn vào hệ

thống Ở phạm vi bài này ta sẽ không đi sâu vào phần hậu quả này

Pháp lý và tuân thủ: Tùy thuộc vào loại dữ liệu bị ảnh hưởng và khu vực

pháp lý, tổ chức có thể phải đối mặt với hậu quả pháp lý, bao gồm phạt tiền

và các yêu cầu về tuân thủ bảo mật đữ liệu của các doanh nghiệp hay vớichính phủ và cơ quan có thâm quyền sở tại

Ảnh hưởng đến SEO và xếp hạng trang Web: Tan công thay đổi giao diện cóthê ảnh hưởng đến tối ưu hóa công cụ tìm kiếm (SEO) và xếp hạng của trang

web trên các công cụ tìm kiếm, do sự thay đôi nội dung va cau trúc trangweb khiến cho các BOT của các công cụ tìm kiếm có thể bỏ qua lượt xếp

hạng của trang web.

Tác động đến người dùng, khách hàng, đối tác, nhà đầu tư: Tương tự như

hậu quả về uy tín và độ tin cậy, khi web bị tấn công người dùng có thể cảm

thấy lo lắng hoặc bất an khi sử dụng dịch vụ, đặc biệt nếu họ lo ngại về antoàn thông tin cá nhân hoặc tai chính của họ Đối tác kinh doanh và nhà đầu

tư có thê xem xét lại mối quan hệ của họ với tô chức nếu họ cảm thấy rằng

tổ chức không đủ khả năng bảo vệ tài sản trực tuyến

Một vi dụ điển hình về tan công thay đổi giao diện trang web có thé ké đến

là: Một doanh nghiệp lớn ở Việt Nam đã từng bị tắn công defacement mà có

thê kế đến đó là Hãng hàng không Quốc gia Việt Nam Vietnam Airlines vàonăm 2017 [2] Hình 1.1 biểu thi màn hình trang web của Vietnam Airlines bitan công thay đổi giao diện

Trang 20

le File jit View History jokmarks People indow Help Qa œ@ “a! = @ aw%IE) Fri 4:

@ Chrome File Edit Vi Hi Bookmarks People Window Hel = = 40%) Fri4:28PM Q

WF @riackes ay china 19370" x

Hình 1.1: Website của Vietnam Airlines bị tan công1.2 Phát hiện tan công thay đổi giao diện

1.2.1 Các phương pháp phát hiện tan công thay doi giao diện trang web

Dé theo dõi, phát hiện tấn công defacement, ta có thể chia cách thức ra thành 2

nhóm: Phát hiện truyền thống và phát hiện dựa trên thống kê, học máy Các

phương pháp phát hiện truyền thống bao gồm: so sánh checksum, sự khác biệt giữa

hai bản sao (so sánh diff) và phân tích DOM tree Các phương pháp dựa trên thống

kê, học máy cũng khá da dạng Phan sau đây trình bày chi tiết các phương pháp

này.

1.2.1.1 Phát hiện dựa theo phương pháp truyền thống

Phương pháp phát hiện checksum của trang web sẽ dựa trên các thuật toán băm

(hash algorithm) Checksum là một gia tri được tính toán dựa trên nội dung cua

một tập tin hoặc dữ liệu, và bất kỳ thay đôi nao trong di liệu đều sẽ dẫn đến thay

đổi trong giá trị checksum Các thuật toán băm (hash algorithm) phố biến để tạo

checksum bao gồm MDS, SHA-1, và SHA-256 Đầu tiên, ta sẽ tạo checksum của

các tập tin và nội dung trang web khi chúng ở trạng thái an toàn và chưa bị thay

đổi Sau khi tao, checksum sẽ được lưu và kiểm tra định kỳ bằng cách tạo lạichecksum cho nội dung hiện tại của trang web và so sánh với giá trị đã lưu Nếu có

sự khác biệt, đó có thé là dấu hiệu của việc nội dung trang web đã bị thay đổi va

đưa ra cảnh báo Phương pháp này hữu hiệu với những trang web tĩnh, ví dụ như:

Trang 21

trang giới thiệu, trang thông tin, đọc báo đơn giản nhưng sẽ không hữu hiệu với những trang web động như forum hay thương mại điện tử, mạng xã hội.

Phương pháp so sánh sự khác biệt giữa hai bản sao (so sánh diff) của trang web

hoạt động dựa trên việc so sánh nội dung hiện tại của trang web với một bản sao đã

được coi là an toàn và không bị thay đổi Đầu tiên, một bản sao của trang webđược tạo và lưu trữ khi nó ở trạng thái không bị thay đôi và được xác định là antoàn Bản sao nay sẽ làm cơ sở dé so sánh với nội dung hiện tai của trang web

Tiếp đó, ta sử dụng các công cụ so sánh sự khác biệt giữa hai bản sao đã được pháttriển như: Diff, WinMerge, hoặc các công cụ so sánh trực tuyến có thé so sánh haiphiên bản của trang web và chỉ ra những khác biệt giữa chúng Quy trình này cần

tự động hoá để liên tục so sánh nội dung hiện tại của trang web với bản sao an

toàn Điều này có thể được thực hiện thông qua các script tự động hoặc sử dụng

công cụ giám sát website Khi công cụ so sánh phát hiện sự khác biệt, thông tin chi

tiết về những thay đôi này cần được phân tích dé xác định liệu chúng có phải là kết

quả của một cuộc tấn công defacement hay không Nếu phát hiện thay đổi đángngờ, hệ thong cảnh báo nên thông bao ngay lập tức cho quan tri viên hoặc đội an

ninh mạng dé họ có thé đánh giá va xử lý tinh huống Ngoài việc so sánh tự động,

quản trị viên cũng nên thường xuyên kiểm tra thủ công trang web dé phát hiện các

thay đôi không dễ nhận biết Phương pháp so sánh sự khác biệt giữa hai bản sao là

một cách tiếp cận hiệu quả dé phat hién cac tan cong defacement, dac biét khi két

hợp với các biện pháp bao mật khác như giám sát lưu lượng truy cập, phan tích

hành vi người dùng, và kiểm tra lỗ hong bảo mật

Phương pháp phân tích DOM (Document Object Model) tree là một phương

pháp tiên tiến hon 2 phương pháp trên trong việc phát hiện thay đổi trên trang web

DOM tree là cau trúc của một trang web, nó biéu diễn tất cả các thành phần như

thẻ HTML, CSS, và JavaScript đưới dạng một cấu trúc cây Phân tích DOM tree

giúp nhận diện sự thay đổi trong cấu trúc của trang web, điều này có thể chỉ ra một

cuộc tấn công defacement Đầu tiên, thu thập và lưu trữ DOM tree của trang webkhi nó ở trạng thái an toàn và chưa bị thay đổi Điều này thường được thực hiện

băng cách sử dụng các công cụ phát triển web hoặc qua các API Tiếp đến, sử dụngcác công cụ tự động đề phân tích và so sánh DOM tree hiện tại của trang web vớibản lưu trữ Bất kỳ sự khác biệt nào giữa hai bản có thể phát hiện một sự thay đôi

đáng ngờ dé đưa ra cảnh báo Phương pháp nay có điểm yếu trong trường hợp mã

nguồn của hai trang web có thé khác nhau nhưng khi hién thị chúng có chung một

giao diện tương tự nhau Do đó, việc tan dụng những bản ghi trước đó đã được lưu

Trang 22

dé phân tích DOM, hay mã nguồn của trang web hoặc các phần khác của chúng

khó có thé thành công khi phát hiện chính xác các thay đồi của trang web

1.2.1.2 Phát hiện dựa trên thống kê, học máy

Các phương pháp phát hiện web defacement dựa trên thống kê, học máy bao

gồm: phương pháp dựa trên số liệu thống kê, học máy có giám sát Các cách tiếp

cận này thường dựa trên các nguyên tắc của phân tích dé liệu lớn và học máy

Chúng đều có một cách tiếp cận, hướng đi chung Bước đầu của các phương pháploại này đều là thu thập dit liệu về trang web Trong phạm vi bai, đồ án tập trung

nghiên cứu nguồn dữ liệu bao gồm HTML file, script file, hình ảnh của trang web

Tiếp đến sử dụng dữ liệu đã thu thập để xác định những gì được đâu là mẫu bình

thường, không bị tan công Sau đó sẽ áp dụng các kỹ thuật phân tích thống kê và

học máy dé phân tích dữ liệu và xác định các xu hướng và mẫu Các mô hình họcđược huấn luyện dé nhận biết các hành vi bất thường Sau khi huấn luyện các mô

hình, dựa trên phân tích, thiết lập các ngưỡng cho các chỉ số khác nhau Khi hoạt

động của trang web vượt qua ngưỡng này, một cảnh báo sẽ được gửi di Trên thực

tế, tương tự như thư rác hay các nội dung lừa đảo (phishing), các trang web

defacement thường không chứa nhiều nội dung văn bản mà thay vào đó bao gồmhình anh dé hién thị thông điệp muốn truyền tải của kẻ tấn công, do đó với cách

thức phân tích dựa trên HTML file, script hay iframe là các phương pháp phát hiện

dựa trên văn ban thông thường đều có thé bị vượt qua

1.2.1.3 Phat hiện sử dụng ảnh chụp màn hình trang web

Phương pháp phát hiện defacement bang ảnh chụp màn hình trang web là một

phương pháp giám sát trang web hiện đại, sử dụng kết hợp cả các công cụ học

máy, học sâu trong quá trình giám sát, phân tích và tự động hoá Bài đồ án này sẽ

sẽ tập trung vào phương pháp phát hiện bằng phân tích ảnh chụp màn hình trang

web.

Về cách thức hoạt động, phương pháp này có 3 bước chính: Đầu tiên, hệ thống

sẽ xây dựng hồ sơ ảnh chụp màn hình của các trang web thông thường ở một thời

điểm cố định Sau đó, trang web được cai đặt theo dõi sẽ được chụp ảnh màn hìnhliên tục dựa trên các mốc thời gian được cài đặt rồi tiễn hành đưa vào mô hình dé

phân tích từ đó tìm ra điểm khác biệt và giữa ảnh chụp màn hình hiện tại của trang

và các ảnh chụp màn hình bình thường đã được lưu bằng các phương pháp học

nâng cao, chăng hạn như bộ mã hóa tự động xếp chồng và mạng nơ ron sâu

(DNN-Deep neural Network).

Trang 23

Ưu điểm lớn nhất của phương pháp này chính là nó không yêu cầu mã nguồn

phức tạp của trang web Thứ duy nhất cần là đường dẫn (URL) của trang web, từ

đó giảm thiểu yêu cầu kỹ thuật vì thế nó phù hợp với mọi trang web mà không cần

thêm bat kỳ một cấu hình, cài đặt đặc biệt nào khác Tiếp đến là nó có thé dé dàng

phát hiện thay đổi trong thời gian nhanh chóng về hình ảnh, layout và cả văn bản

Nhưng bằng bất kỳ phương pháp nảo, ta cũng đều có thể nhận ra điểm yếu của

phương pháp phát hiện dựa trên ảnh chụp màn hình nay Dé đảm bảo tốc độ và độ

chính xác cao, phương pháp này đòi hỏi tai nguyên đủ lớn dé lưu trữ ảnh chụp manhình định kỳ và với số lượng mẫu lớn Đối với các thay đối nhỏ như một vài đoạn

văn bản hay những hình ảnh có độ phân giải thấp, rất có thể sẽ bị bỏ qua trong môhình Mặt khác, cách thức này không phát hiện được toàn bộ các loại tấn côngweb, nhất là những tấn công không gây thay đổi giao diện quá lớn Không đưa ra

được chính xác loại tấn công bị khai thác ngoại trừ đưa ra kết luận có hoặc không

bị tấn công Vì thế phương pháp phát hiện dựa trên ảnh chụp màn hình vẫn cần

được sử dụng kết hợp các biện pháp bao mật khác dé đưa ra một hệ thống theo dõi,bảo vệ toản diện hơn Mặc dù vậy, phương pháp này có thể đạt được hiệu quả nhất

định khi sử dụng kết hợp học máy, học sâu trong so sánh với các phương pháp

truyền thống Cụ thể hơn về phương pháp này được trình bày trong chương 2 và

chương 3 của đồ án

Trang 24

1.2.2 Một số giải pháp giám sát tấn công thay đổi giao diện

1.2.2.1 Site 24x7 Website Monitoring

Webpage Stats

Page Name Money

Webpage URL http://money.rediff.com/

Page Size 169.32 KB Element Defacement Status 1/5 elements modified

Script Defacement Status

Anchor Defacement Status

Image Defacement Status Link Defacement Status lFrame Defacement Status Text Defacement Status

Anchor Elements

Original Value Modified Value

<a class="qreen” href="http://www.

&Ínk=sectornews_ auto&newservice=moneyrt);

rel="nofollow" target="_jbpinter">Business Standard</a> Sutm_medium%3D

&ink=sectornews_auto&

<a class="green" href="http://www.b

Ộ htmi _ &Ink=sectornews_auto& m udramurthy-by_8301121.html _&Ink=sectornews_auto&

newservice=moneyrt);" rel="nofollow" target="_jbpinter">Money Today</a> newservice=moneyrt};" rel="nofollow” target="_jbpinter">Money Control</a>

Hình 1.1: Cảnh bao và tính năng phát hiện cua giải pháp Site24x7

Giải pháp giám sát web của Site24x7 [3] giúp phát hiện các cuộc tấn công phá

hoại bằng cách theo dõi toàn điện dé bảo vệ các trang web khỏi những thay đổi tráiphép Với riêng tính năng theo dõi tan công thay đổi giao diện (defacement attack),

giải pháp này sử dụng phương pháp phân tích DOM đã nêu ở phan trên bài đồ án.Các yếu tố của trang web được sử dụng làm đầu vào phân tích là hình ảnh, script,

9

Trang 25

anchor link, các thẻ iframe, và nội dung văn bản (text) Sau khi giám sát và phân

tích, phát hiện bất thường, Site24x7 sẽ lập tức gửi cảnh báo dưới nhiều hình thức

tới người quản tri: SMS, Email, thông bao, âm thanh Hình 1.3 v minh họa việc

thiết lập giám sát trang web với giải pháp 24x7 va màn hình hiển thị kết quả giám

sát của giải pháp.

Add Website Defacement Monitor

Dispaly Name Byker

Dispaly Uri

‘Get website pages

Allow Domains

Defacement Type anew

Page Name Webpage URL Threshold Detection Script Modification Threshold Content Modification Threshold

Check Frequency w

Monitor Groups xẻ +

Hình 1.2: Thiết lập giám sát trang web với giải pháp Site24x7

Current Page Stats

Page Element Script Percentage Text Defacement Text Percentage

rics Size(KB) Defacement Status Modified Status Modified pm

Status Start Date End Date Start Time End Time Comments

la) January 18, January 19, Jan 18, 2017 2:32:36 Jan 18, 2017 2:32:36 !cgi-biziogin.cgi, ?se_cid=inhome pages are

2017 2017 PM PM changed.

Hình 1.3: Báo cáo giảm sát cua giải pháp Site24x7

Ưu điểm của giải pháp này là có thê thay đổi, tuỳ chỉnh các tham số giám sát từ

phần trăm các thay đổi so với baseline, ngưỡng phát hiện, cai đặt cảnh báo theo

10

Trang 26

nhu cầu cụ thé dé từ đó tối ưu độ chính xác của cảnh báo (Hình 1.3) Giao diện của

phần mềm cũng rat trực quan, nó cung cấp tổng quan chỉ tiết về trang thái thay đồi,

bao gồm ty lệ phan trăm sửa đổi văn bản và tập lệnh, ly do cụ thé dẫn đến biếndang và lịch sử của bat kỳ thay đổi nào Tuy nhiên, cũng giống như hạn chế của

phương pháp phân tích DOM nêu ở phan trên, giải pháp này sẽ có hạn chế về hiệu

quả sẽ phụ thuộc vào đường cơ sở (baseline): Độ chính xác của DOM cơ sở và có

thê không phát hiện được các thay đổi nhỏ không làm thay đổi đáng ké cấu trúc

DOM Việc theo déi, phân tích toàn diện, liên tục cũng gây tốn nhiều tài nguyên,chi phí và đòi hỏi quan lý phải hiệu quả Tóm lại, Site24x7 cung cấp giải pháp chi

tiết và hiệu quả để giám sát tấn công thay đổi giao diện trang web, kết hợp phân

tích DOM nâng cao cùng cảnh báo thời gian thực và giao diện thân thiện với người

dùng Cách tiếp cận này không chỉ phát hiện các hành vi phá hoại mà còn giúp duytrì tính toàn vẹn và hiệu suất tong thé của trang web

1.2.2.2 Nagios XI Website Monitoring

Một giải pháp thương mai cho giám sát trang web khá phố biến khác là Nagios

XI website monitoring [4] [5] Hình sau đây minh họa giao diện điều khiển chungcủa Nagios XI và màn hình dùng cho thiết lập một số tham số cụ thể để giám sátthay đôi trang web của Nagios XI

Nagios’ Home Views Dashboards Reports Configure Tools Help Admin Q

` Dashboard Tools

Add New Dashboard Administrative Tasks Getting Started

Manage My Dashboards

I Deploy Dashboards Administrative Tasks Getting Started Guide

Task ‘Common Tasks:

v My Dashboards

Initial Setup Tasks:

Home Page © Change your account settings

Change your account password and general Important Dashboard ® Configure system settings preferences.

Work Configure basic settings for your XI system. Change your notifications settings

® Reset security credentials Change the default credentials used by the XI

Change how and when you receive alert

notifications.

v Add Dashlets

Available Dashlets system R "Configure your monitoring setup

f*Manage Dashlets s® Configure mail settings Add or modify items to be monitored with

Configure email settings for your XI system easy-to-use wizards.

Ongoing Tasks: Getting Started:

Hình 1.1: Bang điều khiển chung của Nagios XI

II

Trang 27

Defacement Monitoring Services

Specify which defacement services you'd like to monitor your website with.

“) Defacement Content Locator

Monitors the website to locate string values that are inserted in the fie

You may also upload a text file to insert strings you want to keep trac

Insert a list of strings, each seperated with a new line (if using a singl

credit-card-debt credit-repart-4u day-trading

debt free debt-consolidation

debdt-consolidation-consultant

discreetordering

duty-free dutyfree free money

Browse: | Browse | No file selected.

[Profanity O Pharmaceuticals Gambling # Marketing

Common Settings

check_xi_deface + Config Name* Active [ự

nagios.com Command view

Description* $USER1$/check_http -H $HOSTADDRESS$ -r

‘'$ARG15$' -u '$ARG2$' $ARG3$

$ARG1$ credit-card-debt|credit+eport-4u|day-trading|di

_ Website Defacement

Display name

$ARG2$ Í

$ARG3$ —invert-regex -ffollow

4 Host  Service Ý Status J Duration J Attempt J Last Check Ï Status Information

Web Pag

gio n Regex Match : ze

N e Regex Match “W206 2/5 2016-12-07 11:33:31 HTTP CRITICAL: HTTP/1.1 301 Moved Permanently - pattern

L] of not found - 461 bytes in 0.582 second response time

HTTP OK: HTTP/1.1 301 Moved Permanently - 461 bytes in 0.525 second response time

Website Defacement 7s 1⁄5 2016-12-07 11:33:55

Hình 1.2: Một vài thiết lập giám sát thay đổi trang web của Nagios XI

Nagios XI [4] [5] cung cấp giải pháp giám sát giám sát toàn diện các website,

ứng dụng web, giao dịch web và dịch vụ web, bao gồm tính khả dụng, giám sátURL, trạng thái HTTP, giám sát nội dung, Tinh năng giám sát thay đổi trang web

được thực hiện thông qua công cụ Website Defacement Wizard Công cụ nay là

công cụ tự động giám sát các trang web nhằm phát hiện các hành vi phá hoại, sửađối và chèn các nội dung độc hại

12

Trang 28

Nagios XI giám sát định kỳ tính toàn vẹn của trang web dựa trên phương thức

phân tích DOM thông qua các yếu tố quan trọng như hình ảnh, tập lệnh, anchor

link và các thẻ iframe Nếu công cụ phát hiện bất kỳ nội dung không mong muốn

nào trên trang web sẽ đưa thông báo tới quan trị viên Ngoai ra, Nagios XI còn có

tinh năng giám sát văn bản cụ thể: Ngoài việc phát hiện hành vi thay đổi chung,

Nagios XI có thể giám sát các chuỗi văn bản cụ thé (như minh họa trên Hình 1.6)

trên một trang web để đảm bảo rằng một số nội dung nhất định tồn tại trong mã

nguồn của trang web Tinh năng này có thé đặc biệt hữu ích dé xác minh sự hiệndiện của nội dung thiết yêu và nhanh chóng phát hiện những thay đổi trái phép Lợi

ích chính của việc sử dụng Nagios XI để giám sát hành vi phá hoại trang web baogồm phát hiện nhanh các vi phạm bảo mật và chiếm quyền điều khiển trang web,tăng tính khả dụng của các ứng dụng web và hỗ trợ lập kế hoạch cho việc nâng cấp

ứng dụng và máy chủ web trong tương lai Giao điện của Nagios XI được thiết kế

khá trực quan để cả quản trị viên và người dùng cuối dé sử dung Quá trình quatrình thiết lập giám sát được thực hiện một cách đơn giản và điều chỉnh các cấu

hình khác nhau nếu cần Tóm lại, phương pháp phát hiện thay đổi của Nagios XI

nhân mạnh vào việc ngăn chặn các thay đổi nội dung trái phép và khả năng phảnhồi nhanh chóng với những sự cô như vậy, từ đó duy trì tính bảo mật và tính toànvẹn cho trang web Nhược điểm của Nagios XI là trả phí vì đây là giải phápthương mại và chỉ sử dụng kiểm tra và so sánh nội dung trang trực tiếp, điều nay

có thé tao ra số lượng lớn cảnh báo dương tinh giả trên các trang web động

1.2.2.3 Fluxguard Website Monitoring

Fluxguard [6] là một giải pháp giám sát web dựa trên nền tảng đám mây kếthợp cùng A.I cung cấp khả năng phát hiện hành vi phá hoại, thay đổi trang web

Hình 1.7 biểu thị giao diện bảng điều khiển của Fluxguard

13

Trang 29

fà Dashboard > @ Site > + Session F150 new pages

https://www.bbe.com Crawl frequency

BBC Sample Change Monitoring Hourly ` © @ữ &

Sort by :

x = Search for active page

Sequence 6 |) = pag Q

Captured: Jul 9, 9:32 pm [3 P Captured: Jul 9, 9:34 pm 3 PB Captured: Jul 9, 9:36 pm BP

Home - BBC News Business - BBC News Asia - BBC News

/news /news/business /news/world/asia

snipped snippe nipped:

* SRBGHE hours ago * 3da2d2 days ago * 4h4Sh5 hours ago

ipped snipped snipped:

* 5RBGh6 hours ago * 44a2d2 days ago * 4h48h5 hours ago

~snipped- —snipped:

—snipped-* 8h34h4 hours ago —snipped-* 189h189 hours ago

* ghaahd hours ago Diffs: Side-by-side / Text / Code / + BhEGh6 hours ago

IPI Screenshot / Net / Version nipped

CANADAS INTERNET OUTAGE CAUSED * 189h189 hours ago

BY ‘MAINTENANCE Lighthouse: ney

40 (92) (oY @ œ2) * 4h45h5 hours ago

Enadvaopoisaeises~bapldoa-aod-csxajl TH

perf ally avg seo bp Diffs: Side-by-side / Text / Code / Diffs: Side-by-side / Text / Code / Screenshot / Net / Version Screenshot / Net / Version

Lighthouse: Lighthouse:

⁄@@@@ @@®@@

perf ally avg seo bp perf ally avg seo bp

Captured: Jul 9, 9:38 pm [3 P Captured: Jul 9, 9:40 pm 3 Ƒ2 Captured: Jul 9, 9:43 pm [3 Ƒ2

BBC Weather - Home Technology - BBC News UK Politics - BBC News

{weather /news/technology /news/politles

snipped Advertisement snipped

142 hours agoLast updated 132 hours * 3h39-minute2h2 hours ago.

ago Homepage snipped:

: snipped * 3h39 minute2h2 hours ago

— 1 Posted at 3:543:54 nipped

*9h910h10 hours ago Diffs: Side-by-side / Text / Code / CANADA'S INTERNET OUTAGE CAUSED snipped:

Screenshot / Net / Version BY 'MAINTENANGE' * 1Z8h1Z8 hours ago.

Hình 1.1: Giao diện bảng điều khiển của Fluxguard

Fluxguard là công cụ giám sát theo thời gian thực được thiết kế để cảnh báo

người dùng ngay lập tức khi có thay đổi về pixel, DOM hoặc nội dung của trang

web Điểm vượt trội của Fluxguard có thể kế đến như nó có thé giám sát được toản

diện từ ảnh chụp màn hình, HTML, hoạt động mạng và nội dung Ngoài ra bộ lọc

của Fluxguard cũng rất nhiều tính năng hỗ trợ theo dõi cả trang web tĩnh lẫn trangweb động Ví dụ như có thể lưu trữ được cookies của trang web hay các bộ nhớ

cục bộ của web.

Fluxguard tự động giám sát các liên kết mới được tìm thấy và hỗ trợ nhiều trình

duyệt và độ phân giải Nó cũng có khả năng giám sát nội dung web bằng nhiều

ngôn ngữ khác nhau, bao gồm tiếng Trung, tiếng Hàn và tiếng Nhật, cũng như biéutượng cảm xúc Công cụ này cũng cung cấp tính năng vẽ biểu đồ trực quan và

giám sát hiệu suất của ứng dụng

14

Trang 30

[CDC changes]: Detected 52 changed, 3 new, 3 added, 3 initial pages in 1 site x8

P https:/Awww.ede gov/coronavirus/2019-ncov/php/rim-considerations htm! (ive ~ soresrshot]

\ Redivected lo hifas:! nr: cule, goulcoranauinus/2019-acoelptglindex.hieiVPDGDG AA reiValahtins 3A SOF So Fwww.cds govt

2Feoronavirus'.2F20 19-neov 2FpheTM2Fnm-cansiderations Ment

Title: Health Departments: information an COVID-f9 | CDC

Change detected at 2023-05-16 21:24:20 UTC

Health Departments: Information on COVID: | Health Departments:

For States, Tees, Localities, & Territories

Hình 1.2: Tinh năng đưa ra vị trí thay đổi cụ thể của trang web

Fluxguard phát hiện thay đổi bằng cách so sánh ảnh chụp man hình, source

code và nội dung của trang web từ đó đưa ra vị trí cụ thé của thay đổi trên trangweb (Hình 1.8) Fluxguard cũng có thé theo dõi được từng giá trị thường xuyênthay đổi trên trang web nhờ công cụ “Transform” (Hình 1.9) Do đó, công cụ này

có khả năng kết xuất trang toàn diện (Comprehensive page rendering) tat cả các

loại trang web, bao gồm cả những trang được bảo vệ bằng mật khẩu hoặc liên quanđến các biểu mẫu Điều này đảm bảo một quá trình giám sát kỹ lưỡng Các ưuđiểm của Fluxguard có thé tóm gon ở 2 yếu tố về tính linh hoạt về khả năng xử lýnhiều loại trang web khác nhau cùng với hỗ trợ giám sát đa ngôn ngữ Tóm lại,

Fluxguard là một giải pháp mạnh mẽ và linh hoạt dành cho các doanh nghiệp và

quản trị viên web trước các mỗi đe dọa an ninh mạng hay ở đây là tan công thayđổi giao diện Nhờ việc sử dụng nền tảng dựa trên đám mây kết hợp với khả năng

giám sát nâng cao hỗ trợ bởi A.I, học máy, Fluxguard trở vượt trội hơn các đối thủ

khác.

15

Trang 31

We monitor, detect, and alert key web changes to reveal an evol

SIDE-BY-SIDE TEXT DIFF text box to explore code, content, and design edits.

httpswww,cde.gov/TemplatePackage/4,0/assets/fonts/open-sans-light-webfont woff2 nes eB a ì

https /www,cde.gov/TemplatePackage/4.0/assets/fonts/apen-sans-semibold-webfont woff2 } ands

https://www.cde.gov/ TemplatePackage/4.0/assets/fonts/apen-sans-v1 Satin-regular.woff2 pề,

},

PROPER: {

African: 1, NY: 35,

stylesheet Netherlands: 2,

Syrian: 1

1 unchanged, 3 added, 3 removed sử g Two Pet Cats: 1,

us: 35

httpssviwww.ede 88/T9nSj3ESGENBSK /assetz/css/anp.min.css?_+09916 }

https /www.ede.gev/TemplataPackage/4 iat min.css?_=09916 NUMBER: {

: se RACAL TYPE_UNKNOWN: {

Two: 1, one: 1

Trong phần trên, bài đồ án đã giới thiệu tóm tắt ba giải pháp điển hình nhất cho

giám sát va phát hiện thay đổi trang web Có thé so sánh các giải pháp nay qua các

tiêu chí cơ bản sau đây.

e Về phạm vi và phương pháp giám sát: Site24x7 sử dung phân tích DOM dé

giám sát, Nagios XI tập trung vào tính toàn vẹn nội dung và giám sát văn ban cũng dựa trên phân tích DOM, trong khi FluxGuard sử dụng giám sát thời gian

thực các thành phan trang, bao gồm các thay đôi về pixel và DOM vượt trội hơn

2 đối thủ còn lại

se Về cơ chế cảnh báo: Cả ba đều cung cấp hệ thống cảnh báo nhưng có trọng tâm

khác nhau Site24x7 và FluxGuard cung cấp khả năng phát hiện thay đổi theo

thời gian thực nhiều hơn, trong khi Nagios XI cung cấp cách tiếp cận rộng hơn

về tính toàn vẹn của nội dung và cau trúc

16

Trang 32

e _ Về độ phức tạp khi tích hợp và cài đặt: Nagios XI là giải pháp dé dàng cài đặt

nhất Site24x7 và FluxGuard, tuy có các thiết lập phức tạp hơn, nhưng đổi lại sẽ

có các tùy chọn tùy chỉnh mở rộng giúp tuỳ biến tốt hơn nhu cầu giám sát

se Về các tính năng bố sung: FluxGuard cung cấp các tính năng mở rộng như tự

động hóa nhiều quy trình, giám sát chỉ tiết tới cả những giá trị thường xuyênthay đôi, hỗ trợ đa ngôn ngữ và sơ đồ hoá kết quả trực quan

¢ Tóm lại, FluxGuard là giải pháp toàn điện, đa dang nhất cho giám sát trang web

nói chung và giám sát thay đôi trang web nói riêng Tuy nhiên, cả ba giải pháp

nêu trên đều là giải pháp thương mại và giá cả sẽ phù hợp với tuỳ từng nhu cầu

và phạm vi giám sát của từng tổ chức Xét về phạm vi thì Site24x7 lại đạt ưu

thế do Site24x7 cung cấp các giải pháp giám sát toàn diện từ website đến máychủ, ứng dụng, cloud, mạng từ đó xét về tính đồng bộ, giải pháp này sẽ hữu

hiệu hơn hai giải pháp còn lại.

1.3 Một số nghiên cứu có liên quan

Các nghiên cứu về phát hiện tan công thay đổi giao điện trang web có sử dụng

hoc máy, học sâu khá da dạng Trong phạm vi bai đồ án, qua khảo sát và tìm hiểu

có bốn nghiên cứu tiêu biểu có liên quan đến nội dung bài được trình bay ở phan

sau đây.

1.3.1 Nghiên cứu thứ nhất

Với phương pháp phát hiện tan công thay đổi giao diện dựa trên số liệu thống

kê và học máy, Kim và cộng sự [7] đã đề xuất một mô hình sử dụng phương pháp

2-gram [8] dựa trên độ tương tu cosine.

Phương pháp 2-gram hay còn được gọi là bigram, là một phương pháp trong

lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phân tích dữ liệu văn bản Một 2-gram

là một chuỗi gồm hai phần tử liên tiếp (từ, ký tự) xuất hiện trong văn bản Trong

phân tích thống kê, 2-gram có thé được sử dụng dé tính toán tần suất của các cặp từ

xuất hiện trong một tập hợp đữ liệu lớn Phương pháp 2-gram được Kim và cộng

sự áp dụng vào bài toán phát hiện defacement bằng cách so sánh các mẫu bình

thường và phát hiện các thay đổi dựa trên nội dung của file HTML File HTML

của trang web được tải về và chuyên thành vectơ Bằng phương pháp 2-gram, tần

suất các chuỗi con được tính toán Sau đó, khi trang web đó được theo dõi, vectocủa trang web khi đó sẽ được so sánh với vectơ của trang khi bình thường đã được

lưu từ đó đưa ra độ tương đồng giữa 2 trang web Khi độ tương đồng lớn hơn

ngưỡng (threshold), mô hình sẽ đưa ra quyết định trang web đã bị thay đổi hay

chưa Nếu trang được đánh giá là bình thường, bộ điều chỉnh ngưỡng sẽ tạo một

17

Trang 33

ngưỡng mới cho trang hiện tại theo xu hướng thay đổi và điều chỉnh ngưỡngthường xuyên theo thời gian được chỉ định Hình 1.10 biểu thị mô hình phát hiện

dựa trên phương pháp 2-gram do Kim và cộng sự đề xuất

Nhược điểm của phương pháp này là với những trang web thay đổi nội dung

liên tục, ngưỡng cũng sẽ thay đổi liên tục và việc ngưỡng được thay đổi không phùhợp là hoàn toàn có thể xảy ra từ đó dẫn đến cảnh báo sai

Generator

Threshold Adjustor

Web Page Defacement Detection Process

Hình 1.1: Mô hình phát hiện do Kim và cộng sự dé xuất

1.3.2 Nghiên cứu thứ hai

Với cách phát hiện dựa trên ảnh chụp màn hình, ta có thé lay vi dụ từ mô hình

do Borgolte và cộng sự [9] đề xuất với tên “Meerkat” như mô tả trên Hình 1.11

XD Defaced

ne) Legitimate

160x160x3

18x18x3

1600x900x3 “ a Local L2 Local Feed-forward with

SG eceptive Pooling Contrast Dropout

: ï 7] Fields izati

Screenshot Collection Window Extraction Normalization

Deep Neural Network

Hình 1.1: Kiến trúc mô hình Meerkat dựa trên hoc sâu

Cách tiếp cận của Meerkat dé phát hiện thay đổi trên trang web khác biệt ở đặcđiểm tận dụng học máy, học sâu, do đó sẽ không cần quá trình trích chọn đặc trưng

(feature) khi huấn luyện mô hình Thay vào đó, Meerkat dựa vào sự tiên tiến của

18

Trang 34

học máy với bộ mã hóa tự động xếp chồng (stacked autoencoders) để tìm các đặc

trưng “high-level” trực tiếp từ đữ liệu Với mô hình này sẽ tối giản được yêu cầu

kỹ thuật nhờ việc không yêu cầu mã nguồn phức tạp của trang web, thứ duy nhất

cần là đường dan (URL) của trang web

Dựa trên bài nghiên cứu [9], ta thấy thử nghiệm được thực hiện trên tổng sé

khoảng 12 triệu trang web trong đó có 10 triệu trang web bi tan công deface và 2,5

triệu trang web thông thường đưa ra kết quả hệ thống đạt độ chính xác phát hiện

tan công cao trong khoảng 98% và tỷ lệ đương tính giả thấp khoảng 1% Ưu điểm

của Meerkat là hồ sơ có thể được xây dựng tự động và hệ thống đã được thử

nghiệm, huấn luyện trên một tập dữ liệu lớn Tuy nhiên, giống như nhược điểmchung của phương pháp này, nhược điểm lớn nhất của mô hình là mô hình đòi hỏi

cau hình hệ thống đủ tốt dé tính toán, huấn luyện và đòi hỏi lượng dữ liệu huấn

luyện đầu vào lớn và đã được tiền xử lý kỹ càng

1.3.3 Nghiên cứu thứ ba

Ngoài hai nghiên cứu nêu trên, tại Việt Nam, Trần Đắc Tốt và cộng sự [10]

cũng đề xuất một phương pháp phát hiện tấn công thay đổi giao diện kết hợp cùng

lúc nhiều yếu t6 như giám sát máy chủ, cơ sở dit liệu đồng thời sử dụng ham băm

và các kỹ thuật đối sánh chuỗi để phát hiện thay đổi dựa trên khác biệt trên file

HTML của một website ở các thời điểm khác nhau

Ở bài nghiên cứu đã công bố [10], các tác giả sử dụng ham băm MDS dé đảm

bảo tốc độ xử lý nhanh nhất Với thuật toán đối sánh chuỗi, các tác giả chọn thuậttoán Boyer-Moore để thực hiện tìm kiếm chuỗi Kết hợp với thuật toán tìm kiếm

chuỗi Boyer-Moore, thuật toán cây quyết định C4.5 [11] được áp dụng dé tăng độ

chính xác của các cảnh báo Thuật toán hàm băm và đối sánh chuỗi được thé hiện

như Hình 1.12.

19

Trang 35

( File Source ) ( File Destination )

Hình 1.1: So đồ thuật toán kiểm tra sự thay đổi

Với cơ chế phát hiện thay đổi nội dung, trước hết, hệ thống sẽ thu thập mã

nguồn của trang web định kỳ sau đó lưu vào cơ sở dit liệu Ở các bước kiểm tra

tiếp theo, mô hình sẽ kiểm tra độ dài của văn bản bằng cách so sánh độ dài nội

dung văn bản mới thu thập với nội dung văn bản đã lưu, nếu vượt ngưỡng cài đặt

thì đưa ra cảnh báo, ngược lại Ngoài ra, mô hình còn kiểm tra cụm từ bắt buộc có

trong Website Lý do là đặc thù của các website đều có các cụm từ đặc trưng củacông ty, tổ chức, cá nhân Bằng cách tìm kiếm nội dung của các cum từ này trong

nội dung hiện tại của Website, nếu bất cứ cụm từ nao mà không tìm thay thi dua ra

cảnh báo hoặc những cum từ không được cho phép, nếu xuất hiện cũng sé đưa ra

cảnh báo (Ví dụ: Hacked by, Hacker ) Trước khi sử dụng thuật toán đối sánh

chuỗi dé đưa ra sự thay đôi, thuật toán MD5 được chạy để băm kết quả thành một

chuỗi dé lưu trữ và so sánh từ đó giảm thiểu độ phức tạp của dit liệu và tăng thờigian xử lý Ngoài ra dé thời gian xử lý tốt hơn nữa, các thành phan của trang web

cũng được chia nhỏ theo cau trúc của HTML DOM trước khi so sánh, từ đó khi có

thay đổi ở bất kỳ thành phần nào, cảnh báo sẽ chỉ đích danh thành phần đó khi có

thay đổi như Hình 1.13

Ưu điểm của phương pháp này, do đây là cách thức truyền thống dé theo dõi và

cảnh báo nên về độ chính xác và tốc độ của phương pháp này sẽ đạt kết quả tốt khi

sử dụng để giám sát các trang web tĩnh như các trang web của chính phủ, trường

hoc hay cơ quan, ban nganh, Tuy nhiên với các trang web có nội dung thay đổi

liên tục như báo chí, diễn đàn, sẽ còn nhiều hạn chế về độ chính xác do tính linh

hoạt chưa cao.

20

Trang 36

Webpage check (new

and old webpage) Comparator

Presentation [mmm Notification

Hình 1.2: Sơ đô thuật toán phát hiện thay đổi nội dung

1.3.4 Nghiên cứu thứ tư

Nguyễn Trọng Hưng và cộng sự [12] dé xuất một mô hình phát hiện hiện đại

hơn Mô hình này kết hợp các mô hình, thuật toán học máy, dựa trên các đặc trưng

nội dung và hình ảnh của trang web, do đây là hai đặc trưng quan trọng nhất của

một trang web Các thuật toán học sâu được tác giả sử dung là BiLSTM [13] đốivới nội dung và EfficientNet [14] đối với hình ảnh chụp màn hình Các kết quả docác mô hình thành phần phát hiện tạo ra sau đó được kết hợp bằng phương pháp

Late fusion dé đưa ra kết quả cuối cùng Hình 1.14 mô tả mô hình được đề xuất

BiLSTM Cc

Normal Extract " Pre- F|mss|> Classifier

web-pages \ Xà text processing No.

Training SS dataset €_

Defaced 7 \ Capture Pre- " hi

web-pages screenshots] | processing Training No 2

NUS

EfficientNet ——”

Hình 1.1: Giai đoạn huấn luyện của mô hình được dé xuất

Qua bài nghiên cứu [12] ta có thé thấy, ưu điểm lớn nhất là việc sử dụng các

thuật toán học sâu dựa trên sự kết hợp của BiLSTM và EfficientNet, các tác gia cóthê thu được kết quả (ACC) tốt hơn nhiều so với các mô hình truyền thống sử dụng

các thuật toán truyền thống như Naive Bayes, Random Forest va cây quyết định

Cụ thé là độ chính xác đạt 97.49% so với lần lượt 74.69%, 86.03%, 84.73% của

mô hình truyền thống Tỷ lệ cảnh báo sai của mô hình (FPR và FNR) cũng đượcgiảm đáng ké cụ thé là 1.49% và 4.01% so với lần lượt 41.47% và 1.13%, 2.81%

và 32.87%, 3.51% và 32.87% của các mô hình truyền thống đã trình bày trong ba

nghiên cứu nêu trên Tuy nhiên mô hình vẫn còn thiếu sót do yêu cầu nguồn lực

21

Trang 37

tính toán cao cho quá trình huấn luyện sử dụng các kỹ thuật xử lý hình ảnh và học

sâu Đánh đôi lại, quá trình huấn luyện lại được thực hiện ngoài luồng xử lý của

trang web, điều đó không gây ra bất kỳ ảnh hưởng nào tới trang web hay quá trình

giám sát Với cách thức này, phạm vi giám sát của các loại trang web được mở

rộng hơn rất nhiều và tốc độ, tài nguyên khi giám sát sẽ được giảm tối đa, từ đó

tính tức thời và độ chính xác của cảnh báo sẽ được đảm bảo.

1.4 Kết luận chương

Trong chương này, đồ án đã thực hiện được quá trình khảo sát lý thuyết, trình

bày về các hình thức tan công web, nghiên cứu các phương pháp phát hiện tan

công thay đổi giao diện trang web truyền thống và hiện đại, trình bày một số giải

pháp giám sát phát hiện thay đổi giao diện trang web điển hình đang có trên thịtrường và một số nghiên cứu liên quan Dé án đã tóm lược các phương pháp phát

hiện từ truyền thống như checksum, so sánh sự khác biệt giữa hai bản sao (so sánh

diff), phân tích cây DOM đến các phương pháp phát hiện đại hơn sử dụng thống

kê, học máy cùng với các nghiên cứu có liên quan trước đó.

Trên cơ sở đó, đồ án đã nêu được lý do lựa chọn giải pháp phát hiện tấn công

thay đổi giao diện với phương pháp dựa trên ảnh chụp màn hình có sử dụng các

thuật toán học máy, học sâu như CNN, EfficientNet và ResNet Ưu điểm của

phương pháp này so với các phương pháp truyền thống là không cần phải tải tài

nguyên của trang web về cơ sở dữ liệu Thứ duy nhất cần để giám sát là đường dẫn(URL) của trang web, từ đó giảm đặc tính kỹ thuật đến mức tối đa Tiếp đến, với

các phương pháp sử dụng học sâu, việc trích chọn đặc trưng sẽ không cần thựchiện như các phương pháp học máy sử dụng các thuật toán học máy truyền thốngnhư Naive Bayes, Random Forest và cây quyết định mà van dam bảo được tốc độtính toán và độ chính xác cao Một hạn chế của giải pháp này là sẽ gặp khó khăn ở

việc huấn luyện do đòi hỏi nhiều tài nguyên máy huấn luyện cũng như đữ liệu

huấn luyện Các vấn đề này sẽ được trình bày cụ thể ở chương 2 và thực thi ở

chương 3 của đồ án

22

Trang 38

CHUONG 2 PHAT HIỆN THAY DOI GIAO DIỆN DỰA TREN HỌC MAY

SỬ DỤNG ẢNH CHỤP MÀN HÌNH

2.1 Khái quát về học máy, học sâu

2.1.1 Giới thiệu học may, học sâu

2.1.1.1 Học may

Học máy [15] là một nhánh cua trí tuệ nhân tao (AI) va khoa học máy tính, nó

tập trung vào sử dụng dir liệu và thuật toán để mô phỏng cách mà con người học,

dần dần cải thiện độ chính xác của nó Trong học máy, các mô hình được huấn

luyện dé đưa ra dự đoán hoặc quyết định dựa trên dữ liệu Các mô hình này có thể

được sử dụng trong nhiều ứng dụng khác nhau, từ phân loại hình ảnh, dự đoán xu

hướng đến tự động hóa quyết định Các hệ thống máy tinh sử dụng dé thực hiện

các tác vụ dựa vào khuôn mẫu huấn luyện và suy luận từ đó đưa ra kết luận màkhông cần hướng dẫn cụ thé Các hệ thống máy tinh sử dụng thuật toán học máy dé

xử lý các dữ liệu qua quá trình thu thập và có thé sử dụng cả những dữ liệu trong

quá khứ đã được huấn luyện Nhờ đặc điểm vượt trội này, học máy cho phép dự

đoán kết quả chính xác hơn từ cùng một tập dit liệu đầu vào cho trước

Học máy đóng vai trò quan trọng trong thời kỳ hiện nay Học máy được ứng

dụng vào rất nhiều ngành nghề, lĩnh vực như sản xuất, tài chính, bán lẻ, truyền

thông, giải trí, hay trong lĩnh vực khoa học công nghệ Học máy giúp tự động

hóa và tối ưu hóa quá trình phân tích, xử lý dir liệu của các chủ thé ở rất nhiều lĩnh

vuc Bang cach su dung phan mém phan tich khéi lượng lớn dữ liệu ở tốc độ cao,

các doanh nghiệp có thể đạt được kết quả nhanh hơn

Học máy có thể được phân loại theo bốn cách học tùy thuộc vào loại dữ liệu

đầu vào và kết quả kỳ vọng: Học máy có giám sát, học máy không có giám sát, học

máy nửa giám sát, học máy tăng cường.

e Học máy có giám sát là một phương pháp trong đó con người cung cấp

cung cấp dữ liệu đào tạo đã được gắn nhãn dé thuật toán có thé học và đánh

giá mối tương quan Trong quá trình này, cả dữ liệu đầu vào và kết quả

mong muốn của thuật toán đều được xác định rõ nhãn Trong phạm vi bài

nghiên cứu, phương pháp học máy có giám sát được sử dụng, khi cả dữ liệu

đầu vào và đầu ra đều được phân loại ra 2 loại ảnh chụp màn hình trang

web: bị tấn công và bình thường Ưu điểm của máy học có giám sát bao gồmtính đơn giản trong thiết kế và dé dang trong việc triển khai Phương pháp

này rất hữu ích trong việc dự đoán kết quả trong một phạm vi được giới hạn,

23

Trang 39

phân loại dữ liệu, hoặc kết hợp kết quả từ hai thuật toán máy học khác nhau.Tuy nhiên, khó khăn của phương pháp này là việc cần phải gắn nhãn cho cácmẫu đữ liệu khi chưa có nhãn Trong phạm vi bài đồ án, phương pháp học

máy có giám sát được sử dụng, khi cả dữ liệu đầu vào và đầu ra đều được

phân loại ra hai loại ảnh chụp màn hình trang web: bị tấn công và bình

thường.

Học máy không giám sát ngược lại với học máy có giám sát Học máy

không giám sát là mô hình học từ dit liệu không được gan nhãn dé tim ra cấu

trúc hoặc mẫu ấn Ví dụ: trong ngành bán lẻ, học không có giám sát có thé

tìm va phân tích từ đó đưa ra kết quả về xu hướng mua hàng của khách

hàng Học không có giám sát rất hữu ích trong việc phát hiện khuôn mẫu và

sự bất thường, cũng như tự động nhóm dữ liệu theo các hạng mục Việc thiếtlập học không giám sát dé dàng do dữ liệu đào tạo không cần gắn nhãn nên

các thuật toán này cũng có thể được sử dụng dé làm sạch và xử lý dữ liệu từ

đó là cơ sở dé tự động phát triển mô hình chuyên sâu hơn Đánh đổi lại, hạn

chế của phương pháp này là thuật toán không thê đưa ra dự đoán chính xác

mà có thé vẫn sẽ cần các bước dự đoán của con người dựa trên phân tích,

thống kê Thêm vào đó, phương pháp này không thé tự tách biệt một số loạikết quả đữ liệu cụ thê

Máy học nửa giám sát là phương pháp kết hợp cả học có giám sát lẫn không

có giám sát Phương pháp này dùng một lượng nhỏ dit liệu gắn nhãn và mộtlượng lớn dir liệu không gắn nhãn Đầu tiên, đữ liệu được gắn nhãn được sửdụng dé đào tạo một phần thuật toán Sau đó, thuật toán tự gan nhãn cho dữliệu chưa gắn nhãn (giả gắn nhãn) Mô hình sau đó được đảo tạo lại bằng

hỗn hợp đữ liệu kết quả mà không được lập trình cụ thể Ưu điểm của

phương pháp này là không cần một lượng lớn dit liệu được gắn nhãn Do đó,phương pháp này rất hữu ích khi xử lý với dit liệu như các tài liệu dai và tốnnhiều thời gian gắn nhãn

Học tăng cường là phương pháp dựa trên hệ thống thưởng phạt dé học từ trảinghiệm Ứng dụng của học tăng cường chủ yếu trong trò chơi điện tử ví dụ

trong các trò chơi cờ khi máy thi đấu với con người, máy móc sẽ ngày càng

“thông minh” hơn để chiến thắng con người [16] Học tăng cường sẽ đạthiệu quả trong môi trường không chắc chắn và phức tạp, hiếm khi được sửdụng trong kinh doanh Do đó hạn chế của chúng là không phù hợp với tác

vụ cụ thé đo có thé bị ảnh hưởng bởi thiên kiến của nhà phát trién

24

Ngày đăng: 09/03/2024, 13:29

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN