Phương pháp phát hiện defacementbang ảnh chụp màn hình trang web là một phương pháp giám sát trang web hiện đại, sử dụng kết hợp cả các công cụ học máy, học sâu trong quá trình giám sát,
Trang 1HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA AN TOÀN THÔNG TIN
SU DUNG ANH CHUP MAN HINH
TUONG QUOC TRUNG
Hà Nội, 01-2024
Trang 2HỌC VIEN CÔNG NGHỆ BƯU CHÍNH VIÊN THONG
KHOA AN TOÀN THÔNG TIN
SỬ DUNG ANH CHỤP MAN HÌNH
Giảng viên hướng dẫn: PGS.TS Hoàng Xuân Dậu
Sinh viên thực hiện: Tưởng Quốc Trung
Mã sinh viên: B19DCA T199
Lớp: D19CQAT03-B
Khóa: 2019 — 2024
Hệ: Đại học chính quy
Hà Nội, 01-2024
Trang 4LỜI CAM KẾT
Em xin cam đoan răng đây là đồ án nghiên cứu của em, có sự hỗ trợ từ giáo
viên hướng dẫn là PGS TS Hoàng Xuân Dậu Các nội dung nghiên cứu và kết
quả trong đề tài này là trung thực và do cá nhân em thực hiện Những số liệu
trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính
em thu thập từ các nguồn khác nhau có ghi trong phần tài liệu tham khảo hoặc
lay từ thực nghiệm
Nêu phát hiện co bat ky sự gian lận nao em xin hoàn toàn chịu trách nhiệm trước Hội đông cũng như kêt quả đồ án của em.
Trang 5LỜI CẢM ƠN
Lời đầu tiên, em xin chân thành cảm ơn các thầy, cô trong Khoa An toàn
thông tin và toàn thé các thầy cô của nhiều bộ môn khác cùng các cán bộ củaHọc viện Công nghệ Bưu chính Viễn thông đã đồng hành, cung cấp kiến thứccho em trong suốt thời gian 4,5 năm học tại học viện Những kiến thức ấy lànhững hành trang rất vững chắc dé tương lai em có thé tự tin sử dụng dé tiếp tục
học tập và làm việc Ngoài kiến thức chuyên môn, những kinh nghiệm sống,
những trải nghiệm của thầy cô trong suốt thời gian qua cũng là những điều rất
quý giá mà em sẽ rất trân trọng
Đặc biệt, em xin gửi lời biết ơn sâu sắc tới Thầy giáo, giảng viên hướng
dẫn của em - PGS.TS Hoang Xuân Dậu Thay là người gợi ý, hướng dan dé tài
và rất sát sao trong quá trình em thực hiện, hoàn thiện đồ án Tuy có nhiều lúc
em còn chưa đạt được kỳ vọng của thầy hay còn để thầy phải nhắc nhở nhưng
thầy vẫn luôn theo dõi va tin tưởng dé em hoàn thành đồ án tốt nhất
Cuối cùng, em xin cảm ơn gia đình, bạn bè, người thân đã luôn giúp đỡ,đồng hành về cả vật chất lẫn tinh thần dé em có thé hoàn thành đồ án tốt nghiệp
Chắc chắn với khả năng và vốn kiến thức còn hạn chế về nhiều mặt nên đồ án
của em sẽ không tránh khỏi thiếu sót, em rất mong nhận được sự góp ý, đánh giá
từ các thầy cô và các ban dé đồ án của em được hoàn thiện hơn
Em xin chân thành cam on!
Hà Nội, tháng năm 2024
SINH VIÊN
(ký, họ tên)
li
Trang 6NHAN XÉT, ĐÁNH GIÁ, CHO DIEM
(Của người hướng dẫn)
Đồng ý/Không đồng ý cho sinh viên bảo vệ trước hội đồng chấm đồ án tốt
Trang 7MO ĐẦU 5c 2S 21 221221211271211211711211 112121111111 11 11.11011111 re xiCHƯƠNG 1 TONG QUAN VE PHÁT HIEN TAN CÔNG THAY DOI GIAO
DIỆN TRANG WEB ccssssssssesssessesssessessssssecsecssessessesssessecsnsssessecssessesssessesseesesseees |
1.1 Khái quát về tan công web và tan công thay đổi giao điện trang web 1
1.1.1 Giới thiệu tan công Web eeceececccsessesssssesessessesscsessesesscetsvsseeestsesstsseeees |1.1.2 Giới thiệu tan công thay đổi giao điện trang web : 21.2 Phát hiện tan công thay đổi giao điện 2 252+£+E£+£zEzEerxrrered 5
1.2.1 Các phương pháp phát hiện tan công thay đổi giao diện trang web 5
1.2.1.1 Phát hiện dựa theo phương pháp truyền thống - 51.2.1.2 Phát hiện dựa trên thống kê, học máy, «« sex 6
1.2.1.3 Phát hiện sử dụng ảnh chụp màn hình trang web - - 7
1.2.2 Một số giải pháp giám sát tan công thay đổi giao diện - 8
1.2.2.1 Site 24x7 Website MonItOrInE - 5 3S ss+ssvvssseeersrreee 8 1.2.2.2 Nagios XI Website MonIfOTInE c5 c + s+sseveesseeeres 10 1.2.2.3 Fluxguard Website MonIforIng - s++sss+s++sseex++eeerxs+ 12 1.2.2.4 So sánh ba giải pháp - - - c3 1323 Eeirererrrererreeree 15
1.3 Một số nghiên cứu có liên quan 2 2s s+S£+E£EE£EE+EeEEeEzErkersred 16
1.3.1 Nghiên cứu thứ nhất - 2 ¿+ SE +E+EE2EE£EEEEEEEEEEEEEEEEErkrkerrrkee 16
iv
Trang 81.3.2 Nghiên cứu thứỨ hàa1 - G6 1E 1118911 835118331 81 E9 kg vn 17 1.3.3 Nghiên cứu thir Da -c c3 1331011391189 1 91119 11 ng vn ng 18 1.3.4 Nghién ctru thar 1 20
1.4 Kết luận ChUON go ececccsessessessessessessessessessessessessesstssessessessesseeseeseeseesees 21
CHUONG 2 PHAT HIEN THAY DOI GIAO DIEN DUA TREN HOC MAY
SỬ DUNG ANH CHỤP MAN HINH ccccccscsssscsssscsecsesececscsescevsessecececsvscseeees 22
2.1 Khái quát về học máy, học Sau cecceccscsseesessssesesessesessessesseseesesesseseseseeees 22
2.1.1 Giới thiệu học máy, học sâu c5 35+ *+2*‡*+*vc++eeeseeeeeeessss 22
2.1.1.1 Học máy, c 1111 TS TH TH vn ng vn rep 22 2.1.1.2 HOC sâu -. - QQQQQQSS S2 92303001 11T ng vu 24
2.1.2 Các thuật toán học sâu ứng dụng trong đề tài - - 25c c5: 25
2.1.2.1 CNN (Convolutional Neural Network) - «5+ ++<<ss52 25
"5c j 26 2.1.2.3 ResNet (Residual NetworkS) c n2 nh reo 27
2.1.2.4 So sánh đặc điểm ba mô hình thuật toán học sâu - 282.2 Xây dựng mô hình phát hiện tắn công thay đổi giao diện trang web dựa
trên hoc máy sử dụng ảnh chụp màn hình ¿+55 + 2+ + *s+++see++sxs 29
2.2.1 Thu thập dữ liệu .- - c2 1221113111315 1 1158 1111811118111 xee 29
2.2.2 Tiền xử lý đữ liệu - - 2-2 S2 +ES 9 2EEE1E112111111111 111111 xe 31
2.2.2.1 Giảm độ phân giải ảnh -2- 5552222222 2xE2xezxzrrrxerres 31 2.2.2.2 Lọc ảnh trùng lặp - ¿(c2 2c 3321111231113 1118111 exe+ 32
2.2.3 Huấn luyện và phát hiện ¿2 2 keSE+EE+EeEEeEE2EEEEEEEEEErkrrrrkes 32
2.2.3.1 Huấn luyện - - 2 + kSt+E EEEEE2EE118111111111111111 111111, 32
2.2.3.2 Phát hiện ¿- ¿52252 222221211211211211211211211211211211211 21111 cty 33 2.3 Các tiêu chí đánh giá, độ đo sử dụng - 55 Ssss+ksseerseeereses 33
2.4 Kết luận chương, -2- 2-2 +S2E£EE£EESEEEEEEEEEEEEEEEEEEEEEEE E111 35CHƯƠNG 3 CÀI ĐẶT VÀ THỬ NGHIỆM MÔ HÌNH PHÁT HIỆN TẤN
CÔNG Q0 21 21221 2112112112112112112111112111110111111111111211111211211211111111 111cc 36
3.1 Cài đặt và thử nghiỆm c2 3113211132113 1358115111111 xkE 36
Trang 93.1.1 Môi trường cài đặt và thử nghiệm 25 5+ + *++svesssess 36 3.1.2 Các mô đun chương trình chính - - - + + ++s*++*ee++seeeeseeesss 36
3.1.2.1 Mô đun nap dữ QU eececeseceseceseeeeeeeesseeeeeseeeeeseeeseaaees 36 3.1.2.2 Mô đun phân chia dữ liệu - - 5555 *£++++*esseerseerss 36
3.1.2.3 Mô đun chuẩn hoá dữ liệu c¿¿-5cccc2ccvvsrervrrrrrrrrrrea 373.1.2.4 Mô đun huấn luyện 2-2 2 2+E2+EE2EE2EE2EE2EE2EE2EEEExerkrrree 373.1.2.5 Mô đun tối ưu :-cs++222xtttExxtttEktrttrrtrrrttrrrrrrrirrrrrrrid 433.1.2.6 Mô đun vẽ đồ thị :-55sct222xtttErtrttrtrrrrrrrrrrrrrrrrrrrrree 443.1.2.7 Mô đun kiểm thử kết quả - 2 2 2+s+SE+E£EE+EeEEzEzxerxrxee 45
3.2 Thử nghiệm và đánh gIá - (c3 133211391 EEEEEErrrkererrvee 46
3.2.1 Tập dữ liệu thử nghiệm - 5 22c 332313 EEESEErserrerresreeree 46
3.2.2 Kết quả thử nghiệm ¿- 2 2 SE+SE+ESEEEEE2EEEEEEEEEEEEEEEEEEErkrrrree 47
3.2.3 Nhận xét đánh gIá - . - c1 2211121113111 11 111 111111181118 11 kg kp 51
3.3 Triển khai mô đun phát hiện tan công thay đổi giao diện trang web 52
3.3.1 Cai đặt mô đun trên trang web giám sắt - ¿+55 + + *+++sss2 52
Trang 10DANH MỤC VIET TAT
Chữ/ Ký hiệu | Thuật ngữ tiếng Anh/ Giải | Thuật ngữ tiếng Việt/ Giải
thích thích
ACC Accuracy Độ chính xác
A.L/AI Artificial Intelligence Tri tuệ nhân tao
API Application Programming | Giao diện lập trình ứng dụng
Interface
CMS Content Management Hệ quản tri nội dung
System CNN Convolutional Neural Mang no-ron tich chap
Network
DDoS Distributed Denial-of- Tan công từ chối dich vụ phan
Service tán
DOM Document Object Model Mô hình các đối tượng tai liệu
HTML HyperText Markup Ngôn ngữ đánh dau siêu văn
Language bản
NLP Natural Language Xử lý ngôn ngữ tự nhiên
Processing
SEO Search Engine Optimization | Tối ưu hóa công cụ tìm kiếm
URL Uniform Resource Locator | Hệ thống định vị tài nguyên
thống nhất/Địa chỉ web
Vii
Trang 11DANH MỤC HÌNH VE
Hình 1.1: Website của Vietnam Airlines bị tắn công 2-2 2+se+s+czzseẻ 4
Hình 1.2: Cảnh báo và tính năng phát hiện của giải pháp Site24x7 8
Hình 1.3: Thiết lap giám sát trang web với giải pháp Site24x7 9
Hình 1.4: Báo cáo giám sát của giải pháp SIte24X7 - 5S sscs+ssvseessse 9 Hình 1.5: Bảng điều khiển chung của Nagios XI 2-52 sccs+csrcszea 10 Hình 1.6: Một vài thiết lập giám sát thay đổi trang web của Nagios XI 11
Hình 1.7: Giao diện bang điều khiển của Fluxguard 2- 2 255s25s+szcs2 13 Hình 1.8: Tính năng đưa ra vị trí thay đổi cụ thé của trang web 14
Hình 1.9: Một trong số các tinh năng giám sát của Fluxguard - 15
Hình 1.10: Mô hình phát hiện do Kim và cộng sự dé xuất - 55+: 17 Hình 1.11: Kiến trúc mô hình Meerkat dựa trên học sâu -: 17
Hình 1.12: Sơ đồ thuật toán kiểm tra sự thay 0) rr 19 Hình 1.13: So đồ thuật toán phát hiện thay đồi nội dung 20
Hình 1.14: Giai đoạn huấn luyện của mô hình được đề xuắt 20
Hình 2.1: Mô hình mạng nơ-ron học sâu - ¿+ + + + + £++sevexeeeeerreses 25 Hình 2.2: Giai đoạn huấn luyện của mô hình học sâu - 2-2-2 s52 32 Hình 2.3: Giai đoạn phát hiện của mô hình học sâu - 5+5 5s«++s++++ 33 Hình 3.1: Cau trúc thuật toán EfficienfNet ccccccsccrrrrrrrrirrrrrrrirree 40 Hình 3.2: Cấu trúc chi tiết thuật toán ResNet - :-ccccccccrrrverrrrrrerree 41 Hình 3.3: Biểu điễn mô hình CNN truyền thống, mô hình EfficientNet 47
Hình 3.4: Biéu diễn mô hình ResNet50 với 50 layers ¿5-2 2+secs+s247 Hình 3.5: Biểu đồ độ chính xác và sai sót của mô hình CNN 48
Hình 3.6: Biéu đồ độ chính xác va sai sót của mô hình EfficientNet B0 49
Hình 3.7: Biéu đồ độ chính xác và sai sót của mô hình EfficientNet B2 50
Hình 3.8: Biểu đồ độ chính xác va sai sót của mô hình ResNet50 50 Hình 3.9: Giao diện công cụ theo đÕi c2 321132 E+EEsseerrsrereeres 53
Hình 3.10: Danh sách các trang web được theo dõi -+++++<s++++ 53
Trang 12Hình 3.11: Ảnh chụp màn hình 2 trang web sạch ¿2 2+ +cs+s+zs+xezxd 54Hình 3.12: Ảnh chụp màn hình 2 trang web bị tan công thay đổi giao dién 55Hình 3.13: Kết quả phân loại, giám sát của 4 trang web -s- 5+: 56Hình 3.14: Kết quả giám sát được lưu lại - 2 s¿©z+z++x+x+zxerxesrxees 56
1X
Trang 13DANH MỤC BANG BIEU
Bảng 3.1: Kết quả thực nghiệm của các thuật toán huấn luyện
Trang 14MỞ DAU
Các trang web đã và đang trở thành một thành phần quan trọng của xã hội
con người, từ các trang phục vụ cơ quan chính phủ đến các trang cho giao dịch
thương mại và các trang phục vụ giáo dục, giải trí, v.v Chính vì vậy, các cuộc
tấn công vào các ứng dụng web nói chung và các trang web nói riêng đang trởthành một trong những nguy cơ chủ yếu đối với các tổ chức, doanh nghiệp
Giám sát các trang web, đặc biệt là phát hiện sớm tấn công trang web đang là
một nhu cầu thực tế cấp thiết
Tan công thay đổi giao diện (Defacement) trang web là một loại hình tan
công làm thay đổi nội dung, hình thức trình bày của trang web Điều này gây
ảnh hưởng lớn đến hoạt động của các tô chức doanh nghiệp, làm gián đoạn hoạtđộng, gây mat uy tín, đem lại hình ảnh xấu cho tổ chức và có thé gây ra nhữngmat mát lớn về dữ liệu và tài chính Phát hiện tan công thay đổi giao diện trangweb là cần thiết nhằm sớm phát hiện có sự thay đôi và đưa ra cảnh báo sớm cho
người quan tri trang web.
Đã có nhiều giải pháp phat hiện tan công thay đổi giao diện trang web tới
nay Các phương pháp phát hiện truyền thống thường dựa vào kiểm tra
Checksum hay so sánh sự khác biệt giữa hai bản sao hoặc dựa vao phát hiện sự
thay đổi trong cấu trúc trang web, ví dụ các thẻ HTML Các phương pháp học
máy và học sâu đang trở nên phô biến trong ít năm trở lại đây và có thé dem lại
những hiệu quả tốt trong phát hiện tan công Phương pháp phát hiện defacementbang ảnh chụp màn hình trang web là một phương pháp giám sát trang web hiện
đại, sử dụng kết hợp cả các công cụ học máy, học sâu trong quá trình giám sát,
phân tích va tự động hoá Đây là lý do em chọn đề tài đồ án tốt nghiệp nay
Đồ án nảy tập trung vào nghiên cứu phương pháp học máy, học sâu và áp
dụng vào phát hiện tấn công thay đổi giao diện trang web sử dụng ảnh chụp màn
hình Các nội dung cụ thé đã thực hiện trong đồ án được bố cục trong ba chươngchính, gồm:
CHƯƠNG 1 TONG QUAN VE PHÁT HIỆN TAN CÔNG THAY DOI
GIAO DIEN TRANG WEB
¢ Khảo sát ly thuyết, các hình thức tan công web, các phương pháp phát
hiện tan công thay đổi giao diện trang web truyền thống và hiện đại
© Trinh bày một số giải pháp giám sát phát hiện thay đổi giao diện trang
web điền hình và một số nghiên cứu liên quan
Xi
Trang 15CHƯƠNG 2 PHÁT HIỆN THAY ĐỐI GIAO DIỆN DỰA TRÊN HỌCMÁY SỬ DỤNG ẢNH CHỤP MÀN HÌNH
e Nghiên cứu các thuật toán học máy, học sâu Thực hiện thử nghiệm so
sánh, đánh giá các thuật toán đề chọn lựa thuật toán phù hợp
e Xây dựng mô hình phát hiện tan công thay đổi giao diện trang web dựa
trên học máy sử dụng ảnh chụp màn hình.
e Thu thập dữ liệu ảnh chụp màn hình trang web, xây dựng tập dữ liệu
khoảng 20.000 mẫu, sau đó thực hiện tiền xử lý dữ liệu
CHUONG 3 CAI ĐẶT VÀ THU NGHIỆM MÔ HÌNH PHÁT HIỆN
TAN CONG
e Thuc hiện cài dat các mô đun va môi trường thử nghiệm.
e Thực hiện thử nghiệm các thuật toán khác nhau như CNN, EfficientNet
B0, B2, ResNet50 để đánh giá hiệu quả giữa các mô hình
e Xây dựng trang web giám sát, cảnh báo tan công defacement dé sử dụng
với đầu vào chỉ duy nhất là URL của trang web
XI
Trang 16CHƯƠNG 1 TONG QUAN VE PHÁT HIỆN TAN CÔNG THAY DOI
GIAO DIEN TRANG WEB
1.1 Khái quát về tấn công web va tan công thay đỗi giao diện trang web
1.1.1 Giới thiệu tan công web
Cùng với sự phát triển của khoa học — kĩ thuật trên toàn thế giới, cách mang
Công nghiệp 4.0 dang làm thay đổi diện mạo của các ngành nghề nhanh chóng hơn
bao giờ hết Không gian mạng hay các website đang được phát triển rất mạnh mẽ
và phố biến Theo Forbes [1], hiện tại trên thế giới ta có hơn 1.13 ty trang web,
trong đó có hơn 200 triệu trang web đang hoạt động Đây chính là một “mỏ vàng”
cho các kẻ tan công dé khai thác các lỗ hồng hay lạm dụng dữ liệu các trang web
nhăm nhiều mục đích trục lợi từ các cá nhân, tô chức Vì thé, không thể tránh khỏi
việc các trang web bị tấn công bởi các kẻ tấn công hay nói cách khác là các
“hacker”.
Tan công web là hành động tan công vào các trang web hoặc hệ thống dựa trên
web, nhằm mục đích ăn cắp dữ liệu, phá hoại, hoặc chiếm quyền kiểm soát hệ
thống Ta có ké thể đến ở đây một số dạng tấn công web phô biến:
s® SQL Injection: Kẻ tấn công chèn các truy van SQL độc hại vào các biểu
mẫu đầu vào (input form) của trang web dé thay đổi hoặc truy xuất dir liệu
từ cơ sở dữ liệu.
® Cross-Site Scripting (XSS): Tan công XSS xảy ra khi kẻ tan công chèn mã
JavaScript hoặc các loại mã khác vào các trang web Khi người dùng truy
cập trang web nay, mã độc hại sẽ được thực thi, có thể dẫn đến việc ăn cắp
thông tin hoặc thao túng hành vi của người dùng.
® Cross-Site Request Forgery (CSRF): Kỹ thuật này lợi dụng quyền của người
dùng đã đăng nhập đề thực hiện các hành động không mong muốn trên trang
web mà họ đã đăng nhập.
® DDoS Attacks (Distributed Denial of Service): Tan công DDoS là việc gửi
một lượng lớn yêu cầu đến may chủ dé làm quá tải và ngăn máy chu cungcấp dịch vụ cho người dùng hợp lệ
¢ Session Hijacking va Cookie Theft: Tan công nhằm mục đích chiếm đoạt
hoặc lay cắp cookie của người dùng dé có thé giả mao danh tinh của họ trên
trang web.
e Phishing: Gửi email hoặc tao trang web giả mao dé lừa người dùng cung cấp
thông tin cá nhân hoặc thông tin đăng nhập từ đó lấy cắp tài khoản hay các
thông tin, dữ liệu nhạy cảm.
Trang 17¢ Local File Inclusion (LFI) va Remote File Inclusion (RFI): Cac kỹ thuật nay
lién quan đến việc chèn các tệp từ hệ thống cục bộ hoặc từ xa vào máy chủ
web, thường nhằm mục đích thực thi mã độc hại
e Tấn công thay đổi giao diện (defacement attack): Kẻ tan công sẽ lợi dụng
các lỗ hong web, máy chủ hay kỹ thuật phishing dé lay được quyền quan trị
viên từ đó thay đổi hình ảnh, nội dung, hoặc giao diện của trang web đó,thậm chí đôi khi có thể chèn thêm mã độc hại
1.1.2 Giới thiệu tan công thay đổi giao diện trang web
Một trong những hình thức tan công web phổ biến và được biết đến rộng rãi làtan công thay đổi nội dung, giao diện của trang web (web defacement) Đây là mộthình thức tan công trang web mà trong đó kẻ tan công thay đổi giao diện của trang
web bằng cách thay thế trang chủ hoặc các trang khác trên trang web bằng một
trang hay nội dung, thông điệp do chính kẻ tấn công tạo ra Mục đích của loại tấn
công này thường không phải là dé ăn cắp dit liệu hoặc gây thiệt hai lâu dai, ma
thường nhằm mục đích phô trương sức mạnh của “hacker”, tuyên truyền chính trị,hoặc chỉ đơn giản là làm gián đoạn hoạt động, khiến mất uy tín của trang web bị
tấn công
Các hình thức tấn công thay đôi giao diện trang web thường sẽ lợi dụng các lỗ
hồng bảo mật của các trang web dé thay đổi nội dung hay giao diện của trang web
đó Cac lỗ hồng có thé bi “hacker” lợi dung có thé được ké đến như:
¢ Lỗ hồng bảo mật phần mềm: Kẻ tan công sử dụng các lỗ hồng trong phần
mềm của trang web, như các lỗ hồng trong hệ thống quản lý nội dung
(CMS) hoặc các plugin, để xâm nhập và thay đổi nội dung trang web Với lỗhồng này thông thường “hacker” sẽ lạm dụng kết hợp với lỗ héng SQL
Injection mà ở đó hacker có thé sử dụng các truy van SQL độc hại dé thâm
nhập vào cơ sở dữ liệu của trang web và thay đổi nội dung hoặc cau trúc của
trang web.
e Lỗ hồng mật khẩu và quyền quản trị: Lỗ hồng này tạo cơ hội cho kẻ tan
công có thể đoán hoặc vét cạn (bruteforce) mật khẩu của tài khoản quản trịviên trang web, cho phép họ thay đổi trực tiếp nội dung trang web Kẻ tấn
công cũng có thê tìm được tài khoản quản trị của trang web đo nhiều lí do
khác như tài khoản bị lộ ra ngoài hay do tài khoản admin không được thay
đối mật khâu mặc định, Ngoài ra kẻ tan công cũng có thé sử dụng các 16hồng liên quan đến xác thực (Authentication) hay phân quyền (Accesscontrol) dé có được quyên quản tri web Với các lỗ hồng liên quan đến xác
Trang 18thực (Authentication) có thé gặp ở nhiều khâu trong quá trình xác thực: mật
khẩu không được mã hoá, URL hoặc request chứa session ID, vét cạn
session, Còn các lỗ hồng liên quan tới phân quyền (Access control) có thê
kế đến các sai sót trong các khâu phân quyền Quá trình phân quyền không
chính xác có thể nằm ở các hàm được gọi và trả về thông tin chưa chính xác
Điều này có thể cho phép người dùng không được phép truy cập vào những
khu vực hoặc thực hiện các hành động mà họ không nên có quyên Các lỗi
phân quyền thường xuất hiện do thiết kế hệ thống không chặt chẽ hoặc do
lỗi lập trình
® Cross-Site Scripting (XSS): Với lỗ hong này kẻ tan công có thể chèn mã độc
vào trang web, cho phép họ thay đổi giao điện hoặc nội dung khi trang web
được hiển thị cho người dùng
¢ Remote File Inclusion (RFI): Lỗ héng này liên quan đến việc kẻ tan công
chèn một đường dẫn hoặc script từ một nguồn bên ngoài vào trang web, cho
phép thực thi mã độc và thay đổi nội dung
© Local File Inclusion (LFI): Tương tự như RFI, nhưng trong trường hợp tan
công defacement, kẻ tấn công khai thác các lỗ héng dé chèn các tệp cục bộ
vào trang web, thay đồi nội dung hoặc giao diện
e Sử Dụng Mã Độc và Malware: Kẻ tấn công có thé sử dụng các loại malware
dé xâm nhập va thay đôi cấu trúc hoặc nội dung của trang web thông qua các
tính năng upload hay lưu trữ của trang web.
Tan công thay đôi giao diện trang web có thé gây ra rất nhiều hậu quả tiêu cực
về nhiều mặt đối với tô chức, doanh nghiệp, cá nhân bị ảnh hưởng Một số hậu
quả/ảnh hưởng có thê nhận ra như:
e Mất uy tín và giảm độ tin cậy: Khi trang web của một tổ chức bị sửa đổi trái
phép, điều này có thể gây ảnh hưởng nghiêm trọng đến hình ảnh và uy tíncủa tổ chức, người dung hay chủ quản trang web đó Người dùng có thé mat
lòng tin vào kha năng của tô chức dé bảo vệ dữ liệu và thông tin cá nhân của
họ.
s® Gian đoạn hoạt động kinh doanh, vận hành: Tùy thuộc vào thời gian và mức
độ của cuộc tấn công, hoạt động kinh doanh hay vận hành có thể bị giánđoạn, dẫn đến mất doanh thu và ảnh hưởng đến dịch vụ khách hàng
¢ Tổn hao chi phí phục hồi: Tổ chức có thé phải chi trả một khoản phi đáng kể
dé phục hồi trang web, bao gồm chi phí kỹ thuật và chi phí cho các dịch vụ
pháp lý hoặc quản lý khủng hoảng hoặc các chi phí đền bù liên quan tới cam
kết chất lượng dịch vụ (Service Level Agreement)
Trang 19Mắt đữ liệu và rò rỉ thông tin: Trong một số trường hợp, cuộc tấn công
không chỉ dừng lại ở việc thay đổi giao điện mà còn bao gồm việc đánh cắp
hoặc rò ri dữ liệu, đặc biệt nêu kẻ tấn công có quyền truy cập sâu hơn vào hệ
thống Ở phạm vi bài này ta sẽ không đi sâu vào phần hậu quả này
Pháp lý và tuân thủ: Tùy thuộc vào loại dữ liệu bị ảnh hưởng và khu vực
pháp lý, tổ chức có thể phải đối mặt với hậu quả pháp lý, bao gồm phạt tiền
và các yêu cầu về tuân thủ bảo mật đữ liệu của các doanh nghiệp hay vớichính phủ và cơ quan có thâm quyền sở tại
Ảnh hưởng đến SEO và xếp hạng trang Web: Tan công thay đổi giao diện cóthê ảnh hưởng đến tối ưu hóa công cụ tìm kiếm (SEO) và xếp hạng của trang
web trên các công cụ tìm kiếm, do sự thay đôi nội dung va cau trúc trangweb khiến cho các BOT của các công cụ tìm kiếm có thể bỏ qua lượt xếp
hạng của trang web.
Tác động đến người dùng, khách hàng, đối tác, nhà đầu tư: Tương tự như
hậu quả về uy tín và độ tin cậy, khi web bị tấn công người dùng có thể cảm
thấy lo lắng hoặc bất an khi sử dụng dịch vụ, đặc biệt nếu họ lo ngại về antoàn thông tin cá nhân hoặc tai chính của họ Đối tác kinh doanh và nhà đầu
tư có thê xem xét lại mối quan hệ của họ với tô chức nếu họ cảm thấy rằng
tổ chức không đủ khả năng bảo vệ tài sản trực tuyến
Một vi dụ điển hình về tan công thay đổi giao diện trang web có thé ké đến
là: Một doanh nghiệp lớn ở Việt Nam đã từng bị tắn công defacement mà có
thê kế đến đó là Hãng hàng không Quốc gia Việt Nam Vietnam Airlines vàonăm 2017 [2] Hình 1.1 biểu thi màn hình trang web của Vietnam Airlines bitan công thay đổi giao diện
Trang 20le File jit View History jokmarks People indow Help Qa œ@ “a! = @ aw%IE) Fri 4:
@ Chrome File Edit Vi Hi Bookmarks People Window Hel = = 40%) Fri4:28PM Q
WF @riackes ay china 19370" x
Hình 1.1: Website của Vietnam Airlines bị tan công1.2 Phát hiện tan công thay đổi giao diện
1.2.1 Các phương pháp phát hiện tan công thay doi giao diện trang web
Dé theo dõi, phát hiện tấn công defacement, ta có thể chia cách thức ra thành 2
nhóm: Phát hiện truyền thống và phát hiện dựa trên thống kê, học máy Các
phương pháp phát hiện truyền thống bao gồm: so sánh checksum, sự khác biệt giữa
hai bản sao (so sánh diff) và phân tích DOM tree Các phương pháp dựa trên thống
kê, học máy cũng khá da dạng Phan sau đây trình bày chi tiết các phương pháp
này.
1.2.1.1 Phát hiện dựa theo phương pháp truyền thống
Phương pháp phát hiện checksum của trang web sẽ dựa trên các thuật toán băm
(hash algorithm) Checksum là một gia tri được tính toán dựa trên nội dung cua
một tập tin hoặc dữ liệu, và bất kỳ thay đôi nao trong di liệu đều sẽ dẫn đến thay
đổi trong giá trị checksum Các thuật toán băm (hash algorithm) phố biến để tạo
checksum bao gồm MDS, SHA-1, và SHA-256 Đầu tiên, ta sẽ tạo checksum của
các tập tin và nội dung trang web khi chúng ở trạng thái an toàn và chưa bị thay
đổi Sau khi tao, checksum sẽ được lưu và kiểm tra định kỳ bằng cách tạo lạichecksum cho nội dung hiện tại của trang web và so sánh với giá trị đã lưu Nếu có
sự khác biệt, đó có thé là dấu hiệu của việc nội dung trang web đã bị thay đổi va
đưa ra cảnh báo Phương pháp này hữu hiệu với những trang web tĩnh, ví dụ như:
Trang 21trang giới thiệu, trang thông tin, đọc báo đơn giản nhưng sẽ không hữu hiệu với những trang web động như forum hay thương mại điện tử, mạng xã hội.
Phương pháp so sánh sự khác biệt giữa hai bản sao (so sánh diff) của trang web
hoạt động dựa trên việc so sánh nội dung hiện tại của trang web với một bản sao đã
được coi là an toàn và không bị thay đổi Đầu tiên, một bản sao của trang webđược tạo và lưu trữ khi nó ở trạng thái không bị thay đôi và được xác định là antoàn Bản sao nay sẽ làm cơ sở dé so sánh với nội dung hiện tai của trang web
Tiếp đó, ta sử dụng các công cụ so sánh sự khác biệt giữa hai bản sao đã được pháttriển như: Diff, WinMerge, hoặc các công cụ so sánh trực tuyến có thé so sánh haiphiên bản của trang web và chỉ ra những khác biệt giữa chúng Quy trình này cần
tự động hoá để liên tục so sánh nội dung hiện tại của trang web với bản sao an
toàn Điều này có thể được thực hiện thông qua các script tự động hoặc sử dụng
công cụ giám sát website Khi công cụ so sánh phát hiện sự khác biệt, thông tin chi
tiết về những thay đôi này cần được phân tích dé xác định liệu chúng có phải là kết
quả của một cuộc tấn công defacement hay không Nếu phát hiện thay đổi đángngờ, hệ thong cảnh báo nên thông bao ngay lập tức cho quan tri viên hoặc đội an
ninh mạng dé họ có thé đánh giá va xử lý tinh huống Ngoài việc so sánh tự động,
quản trị viên cũng nên thường xuyên kiểm tra thủ công trang web dé phát hiện các
thay đôi không dễ nhận biết Phương pháp so sánh sự khác biệt giữa hai bản sao là
một cách tiếp cận hiệu quả dé phat hién cac tan cong defacement, dac biét khi két
hợp với các biện pháp bao mật khác như giám sát lưu lượng truy cập, phan tích
hành vi người dùng, và kiểm tra lỗ hong bảo mật
Phương pháp phân tích DOM (Document Object Model) tree là một phương
pháp tiên tiến hon 2 phương pháp trên trong việc phát hiện thay đổi trên trang web
DOM tree là cau trúc của một trang web, nó biéu diễn tất cả các thành phần như
thẻ HTML, CSS, và JavaScript đưới dạng một cấu trúc cây Phân tích DOM tree
giúp nhận diện sự thay đổi trong cấu trúc của trang web, điều này có thể chỉ ra một
cuộc tấn công defacement Đầu tiên, thu thập và lưu trữ DOM tree của trang webkhi nó ở trạng thái an toàn và chưa bị thay đổi Điều này thường được thực hiện
băng cách sử dụng các công cụ phát triển web hoặc qua các API Tiếp đến, sử dụngcác công cụ tự động đề phân tích và so sánh DOM tree hiện tại của trang web vớibản lưu trữ Bất kỳ sự khác biệt nào giữa hai bản có thể phát hiện một sự thay đôi
đáng ngờ dé đưa ra cảnh báo Phương pháp nay có điểm yếu trong trường hợp mã
nguồn của hai trang web có thé khác nhau nhưng khi hién thị chúng có chung một
giao diện tương tự nhau Do đó, việc tan dụng những bản ghi trước đó đã được lưu
Trang 22dé phân tích DOM, hay mã nguồn của trang web hoặc các phần khác của chúng
khó có thé thành công khi phát hiện chính xác các thay đồi của trang web
1.2.1.2 Phát hiện dựa trên thống kê, học máy
Các phương pháp phát hiện web defacement dựa trên thống kê, học máy bao
gồm: phương pháp dựa trên số liệu thống kê, học máy có giám sát Các cách tiếp
cận này thường dựa trên các nguyên tắc của phân tích dé liệu lớn và học máy
Chúng đều có một cách tiếp cận, hướng đi chung Bước đầu của các phương pháploại này đều là thu thập dit liệu về trang web Trong phạm vi bai, đồ án tập trung
nghiên cứu nguồn dữ liệu bao gồm HTML file, script file, hình ảnh của trang web
Tiếp đến sử dụng dữ liệu đã thu thập để xác định những gì được đâu là mẫu bình
thường, không bị tan công Sau đó sẽ áp dụng các kỹ thuật phân tích thống kê và
học máy dé phân tích dữ liệu và xác định các xu hướng và mẫu Các mô hình họcđược huấn luyện dé nhận biết các hành vi bất thường Sau khi huấn luyện các mô
hình, dựa trên phân tích, thiết lập các ngưỡng cho các chỉ số khác nhau Khi hoạt
động của trang web vượt qua ngưỡng này, một cảnh báo sẽ được gửi di Trên thực
tế, tương tự như thư rác hay các nội dung lừa đảo (phishing), các trang web
defacement thường không chứa nhiều nội dung văn bản mà thay vào đó bao gồmhình anh dé hién thị thông điệp muốn truyền tải của kẻ tấn công, do đó với cách
thức phân tích dựa trên HTML file, script hay iframe là các phương pháp phát hiện
dựa trên văn ban thông thường đều có thé bị vượt qua
1.2.1.3 Phat hiện sử dụng ảnh chụp màn hình trang web
Phương pháp phát hiện defacement bang ảnh chụp màn hình trang web là một
phương pháp giám sát trang web hiện đại, sử dụng kết hợp cả các công cụ học
máy, học sâu trong quá trình giám sát, phân tích và tự động hoá Bài đồ án này sẽ
sẽ tập trung vào phương pháp phát hiện bằng phân tích ảnh chụp màn hình trang
web.
Về cách thức hoạt động, phương pháp này có 3 bước chính: Đầu tiên, hệ thống
sẽ xây dựng hồ sơ ảnh chụp màn hình của các trang web thông thường ở một thời
điểm cố định Sau đó, trang web được cai đặt theo dõi sẽ được chụp ảnh màn hìnhliên tục dựa trên các mốc thời gian được cài đặt rồi tiễn hành đưa vào mô hình dé
phân tích từ đó tìm ra điểm khác biệt và giữa ảnh chụp màn hình hiện tại của trang
và các ảnh chụp màn hình bình thường đã được lưu bằng các phương pháp học
nâng cao, chăng hạn như bộ mã hóa tự động xếp chồng và mạng nơ ron sâu
(DNN-Deep neural Network).
Trang 23Ưu điểm lớn nhất của phương pháp này chính là nó không yêu cầu mã nguồn
phức tạp của trang web Thứ duy nhất cần là đường dẫn (URL) của trang web, từ
đó giảm thiểu yêu cầu kỹ thuật vì thế nó phù hợp với mọi trang web mà không cần
thêm bat kỳ một cấu hình, cài đặt đặc biệt nào khác Tiếp đến là nó có thé dé dàng
phát hiện thay đổi trong thời gian nhanh chóng về hình ảnh, layout và cả văn bản
Nhưng bằng bất kỳ phương pháp nảo, ta cũng đều có thể nhận ra điểm yếu của
phương pháp phát hiện dựa trên ảnh chụp màn hình nay Dé đảm bảo tốc độ và độ
chính xác cao, phương pháp này đòi hỏi tai nguyên đủ lớn dé lưu trữ ảnh chụp manhình định kỳ và với số lượng mẫu lớn Đối với các thay đối nhỏ như một vài đoạn
văn bản hay những hình ảnh có độ phân giải thấp, rất có thể sẽ bị bỏ qua trong môhình Mặt khác, cách thức này không phát hiện được toàn bộ các loại tấn côngweb, nhất là những tấn công không gây thay đổi giao diện quá lớn Không đưa ra
được chính xác loại tấn công bị khai thác ngoại trừ đưa ra kết luận có hoặc không
bị tấn công Vì thế phương pháp phát hiện dựa trên ảnh chụp màn hình vẫn cần
được sử dụng kết hợp các biện pháp bao mật khác dé đưa ra một hệ thống theo dõi,bảo vệ toản diện hơn Mặc dù vậy, phương pháp này có thể đạt được hiệu quả nhất
định khi sử dụng kết hợp học máy, học sâu trong so sánh với các phương pháp
truyền thống Cụ thể hơn về phương pháp này được trình bày trong chương 2 và
chương 3 của đồ án
Trang 241.2.2 Một số giải pháp giám sát tấn công thay đổi giao diện
1.2.2.1 Site 24x7 Website Monitoring
Webpage Stats
Page Name Money
Webpage URL http://money.rediff.com/
Page Size 169.32 KB Element Defacement Status 1/5 elements modified
Script Defacement Status
Anchor Defacement Status
Image Defacement Status Link Defacement Status lFrame Defacement Status Text Defacement Status
Anchor Elements
Original Value Modified Value
<a class="qreen” href="http://www.
&Ínk=sectornews_ auto&newservice=moneyrt);
rel="nofollow" target="_jbpinter">Business Standard</a> Sutm_medium%3D
&ink=sectornews_auto&
<a class="green" href="http://www.b
Ộ htmi _ &Ink=sectornews_auto& m udramurthy-by_8301121.html _&Ink=sectornews_auto&
newservice=moneyrt);" rel="nofollow" target="_jbpinter">Money Today</a> newservice=moneyrt};" rel="nofollow” target="_jbpinter">Money Control</a>
Hình 1.1: Cảnh bao và tính năng phát hiện cua giải pháp Site24x7
Giải pháp giám sát web của Site24x7 [3] giúp phát hiện các cuộc tấn công phá
hoại bằng cách theo dõi toàn điện dé bảo vệ các trang web khỏi những thay đổi tráiphép Với riêng tính năng theo dõi tan công thay đổi giao diện (defacement attack),
giải pháp này sử dụng phương pháp phân tích DOM đã nêu ở phan trên bài đồ án.Các yếu tố của trang web được sử dụng làm đầu vào phân tích là hình ảnh, script,
9
Trang 25anchor link, các thẻ iframe, và nội dung văn bản (text) Sau khi giám sát và phân
tích, phát hiện bất thường, Site24x7 sẽ lập tức gửi cảnh báo dưới nhiều hình thức
tới người quản tri: SMS, Email, thông bao, âm thanh Hình 1.3 v minh họa việc
thiết lập giám sát trang web với giải pháp 24x7 va màn hình hiển thị kết quả giám
sát của giải pháp.
Add Website Defacement Monitor
Dispaly Name Byker
Dispaly Uri
‘Get website pages
Allow Domains
Defacement Type anew
Page Name Webpage URL Threshold Detection Script Modification Threshold Content Modification Threshold
Check Frequency w
Monitor Groups xẻ +
Hình 1.2: Thiết lập giám sát trang web với giải pháp Site24x7
Current Page Stats
Page Element Script Percentage Text Defacement Text Percentage
rics Size(KB) Defacement Status Modified Status Modified pm
Status Start Date End Date Start Time End Time Comments
la) January 18, January 19, Jan 18, 2017 2:32:36 Jan 18, 2017 2:32:36 !cgi-biziogin.cgi, ?se_cid=inhome pages are
2017 2017 PM PM changed.
Hình 1.3: Báo cáo giảm sát cua giải pháp Site24x7
Ưu điểm của giải pháp này là có thê thay đổi, tuỳ chỉnh các tham số giám sát từ
phần trăm các thay đổi so với baseline, ngưỡng phát hiện, cai đặt cảnh báo theo
10
Trang 26nhu cầu cụ thé dé từ đó tối ưu độ chính xác của cảnh báo (Hình 1.3) Giao diện của
phần mềm cũng rat trực quan, nó cung cấp tổng quan chỉ tiết về trang thái thay đồi,
bao gồm ty lệ phan trăm sửa đổi văn bản và tập lệnh, ly do cụ thé dẫn đến biếndang và lịch sử của bat kỳ thay đổi nào Tuy nhiên, cũng giống như hạn chế của
phương pháp phân tích DOM nêu ở phan trên, giải pháp này sẽ có hạn chế về hiệu
quả sẽ phụ thuộc vào đường cơ sở (baseline): Độ chính xác của DOM cơ sở và có
thê không phát hiện được các thay đổi nhỏ không làm thay đổi đáng ké cấu trúc
DOM Việc theo déi, phân tích toàn diện, liên tục cũng gây tốn nhiều tài nguyên,chi phí và đòi hỏi quan lý phải hiệu quả Tóm lại, Site24x7 cung cấp giải pháp chi
tiết và hiệu quả để giám sát tấn công thay đổi giao diện trang web, kết hợp phân
tích DOM nâng cao cùng cảnh báo thời gian thực và giao diện thân thiện với người
dùng Cách tiếp cận này không chỉ phát hiện các hành vi phá hoại mà còn giúp duytrì tính toàn vẹn và hiệu suất tong thé của trang web
1.2.2.2 Nagios XI Website Monitoring
Một giải pháp thương mai cho giám sát trang web khá phố biến khác là Nagios
XI website monitoring [4] [5] Hình sau đây minh họa giao diện điều khiển chungcủa Nagios XI và màn hình dùng cho thiết lập một số tham số cụ thể để giám sátthay đôi trang web của Nagios XI
Nagios’ Home Views Dashboards Reports Configure Tools Help Admin Q
` Dashboard Tools
Add New Dashboard Administrative Tasks Getting Started
Manage My Dashboards
I Deploy Dashboards Administrative Tasks Getting Started Guide
Task ‘Common Tasks:
v My Dashboards
Initial Setup Tasks:
Home Page © Change your account settings
Change your account password and general Important Dashboard ® Configure system settings preferences.
Work Configure basic settings for your XI system. Change your notifications settings
® Reset security credentials Change the default credentials used by the XI
Change how and when you receive alert
notifications.
v Add Dashlets
Available Dashlets system R "Configure your monitoring setup
f*Manage Dashlets s® Configure mail settings Add or modify items to be monitored with
Configure email settings for your XI system easy-to-use wizards.
Ongoing Tasks: Getting Started:
Hình 1.1: Bang điều khiển chung của Nagios XI
II
Trang 27Defacement Monitoring Services
Specify which defacement services you'd like to monitor your website with.
“) Defacement Content Locator
Monitors the website to locate string values that are inserted in the fie
You may also upload a text file to insert strings you want to keep trac
Insert a list of strings, each seperated with a new line (if using a singl
credit-card-debt credit-repart-4u day-trading
debt free debt-consolidation
debdt-consolidation-consultant
discreetordering
duty-free dutyfree free money
Browse: | Browse | No file selected.
[Profanity O Pharmaceuticals Gambling # Marketing
Common Settings
check_xi_deface + Config Name* Active [ự
nagios.com Command view
Description* $USER1$/check_http -H $HOSTADDRESS$ -r
‘'$ARG15$' -u '$ARG2$' $ARG3$
$ARG1$ credit-card-debt|credit+eport-4u|day-trading|di
_ Website Defacement
Display name
$ARG2$ Í
$ARG3$ —invert-regex -ffollow
4 Host  Service Ý Status J Duration J Attempt J Last Check Ï Status Information
Web Pag
gio n Regex Match : ze
N e Regex Match “W206 2/5 2016-12-07 11:33:31 HTTP CRITICAL: HTTP/1.1 301 Moved Permanently - pattern
L] of not found - 461 bytes in 0.582 second response time
HTTP OK: HTTP/1.1 301 Moved Permanently - 461 bytes in 0.525 second response time
Website Defacement 7s 1⁄5 2016-12-07 11:33:55
Hình 1.2: Một vài thiết lập giám sát thay đổi trang web của Nagios XI
Nagios XI [4] [5] cung cấp giải pháp giám sát giám sát toàn diện các website,
ứng dụng web, giao dịch web và dịch vụ web, bao gồm tính khả dụng, giám sátURL, trạng thái HTTP, giám sát nội dung, Tinh năng giám sát thay đổi trang web
được thực hiện thông qua công cụ Website Defacement Wizard Công cụ nay là
công cụ tự động giám sát các trang web nhằm phát hiện các hành vi phá hoại, sửađối và chèn các nội dung độc hại
12
Trang 28Nagios XI giám sát định kỳ tính toàn vẹn của trang web dựa trên phương thức
phân tích DOM thông qua các yếu tố quan trọng như hình ảnh, tập lệnh, anchor
link và các thẻ iframe Nếu công cụ phát hiện bất kỳ nội dung không mong muốn
nào trên trang web sẽ đưa thông báo tới quan trị viên Ngoai ra, Nagios XI còn có
tinh năng giám sát văn bản cụ thể: Ngoài việc phát hiện hành vi thay đổi chung,
Nagios XI có thể giám sát các chuỗi văn bản cụ thé (như minh họa trên Hình 1.6)
trên một trang web để đảm bảo rằng một số nội dung nhất định tồn tại trong mã
nguồn của trang web Tinh năng này có thé đặc biệt hữu ích dé xác minh sự hiệndiện của nội dung thiết yêu và nhanh chóng phát hiện những thay đổi trái phép Lợi
ích chính của việc sử dụng Nagios XI để giám sát hành vi phá hoại trang web baogồm phát hiện nhanh các vi phạm bảo mật và chiếm quyền điều khiển trang web,tăng tính khả dụng của các ứng dụng web và hỗ trợ lập kế hoạch cho việc nâng cấp
ứng dụng và máy chủ web trong tương lai Giao điện của Nagios XI được thiết kế
khá trực quan để cả quản trị viên và người dùng cuối dé sử dung Quá trình quatrình thiết lập giám sát được thực hiện một cách đơn giản và điều chỉnh các cấu
hình khác nhau nếu cần Tóm lại, phương pháp phát hiện thay đổi của Nagios XI
nhân mạnh vào việc ngăn chặn các thay đổi nội dung trái phép và khả năng phảnhồi nhanh chóng với những sự cô như vậy, từ đó duy trì tính bảo mật và tính toànvẹn cho trang web Nhược điểm của Nagios XI là trả phí vì đây là giải phápthương mại và chỉ sử dụng kiểm tra và so sánh nội dung trang trực tiếp, điều nay
có thé tao ra số lượng lớn cảnh báo dương tinh giả trên các trang web động
1.2.2.3 Fluxguard Website Monitoring
Fluxguard [6] là một giải pháp giám sát web dựa trên nền tảng đám mây kếthợp cùng A.I cung cấp khả năng phát hiện hành vi phá hoại, thay đổi trang web
Hình 1.7 biểu thị giao diện bảng điều khiển của Fluxguard
13
Trang 29fà Dashboard > @ Site > + Session F150 new pages
https://www.bbe.com Crawl frequency
BBC Sample Change Monitoring Hourly ` © @ữ &
Sort by :
x = Search for active page
Sequence 6 |) = pag Q
Captured: Jul 9, 9:32 pm [3 P Captured: Jul 9, 9:34 pm 3 PB Captured: Jul 9, 9:36 pm BP
Home - BBC News Business - BBC News Asia - BBC News
/news /news/business /news/world/asia
snipped snippe nipped:
* SRBGHE hours ago * 3da2d2 days ago * 4h4Sh5 hours ago
ipped snipped snipped:
* 5RBGh6 hours ago * 44a2d2 days ago * 4h48h5 hours ago
~snipped- —snipped:
—snipped-* 8h34h4 hours ago —snipped-* 189h189 hours ago
* ghaahd hours ago Diffs: Side-by-side / Text / Code / + BhEGh6 hours ago
IPI Screenshot / Net / Version nipped
CANADAS INTERNET OUTAGE CAUSED * 189h189 hours ago
BY ‘MAINTENANCE Lighthouse: ney
40 (92) (oY @ œ2) * 4h45h5 hours ago
Enadvaopoisaeises~bapldoa-aod-csxajl TH
perf ally avg seo bp Diffs: Side-by-side / Text / Code / Diffs: Side-by-side / Text / Code / Screenshot / Net / Version Screenshot / Net / Version
Lighthouse: Lighthouse:
⁄@@@@ @@®@@
perf ally avg seo bp perf ally avg seo bp
Captured: Jul 9, 9:38 pm [3 P Captured: Jul 9, 9:40 pm 3 Ƒ2 Captured: Jul 9, 9:43 pm [3 Ƒ2
BBC Weather - Home Technology - BBC News UK Politics - BBC News
{weather /news/technology /news/politles
snipped Advertisement snipped
142 hours agoLast updated 132 hours * 3h39-minute2h2 hours ago.
ago Homepage snipped:
: snipped * 3h39 minute2h2 hours ago
— 1 Posted at 3:543:54 nipped
*9h910h10 hours ago Diffs: Side-by-side / Text / Code / CANADA'S INTERNET OUTAGE CAUSED snipped:
Screenshot / Net / Version BY 'MAINTENANGE' * 1Z8h1Z8 hours ago.
Hình 1.1: Giao diện bảng điều khiển của Fluxguard
Fluxguard là công cụ giám sát theo thời gian thực được thiết kế để cảnh báo
người dùng ngay lập tức khi có thay đổi về pixel, DOM hoặc nội dung của trang
web Điểm vượt trội của Fluxguard có thể kế đến như nó có thé giám sát được toản
diện từ ảnh chụp màn hình, HTML, hoạt động mạng và nội dung Ngoài ra bộ lọc
của Fluxguard cũng rất nhiều tính năng hỗ trợ theo dõi cả trang web tĩnh lẫn trangweb động Ví dụ như có thể lưu trữ được cookies của trang web hay các bộ nhớ
cục bộ của web.
Fluxguard tự động giám sát các liên kết mới được tìm thấy và hỗ trợ nhiều trình
duyệt và độ phân giải Nó cũng có khả năng giám sát nội dung web bằng nhiều
ngôn ngữ khác nhau, bao gồm tiếng Trung, tiếng Hàn và tiếng Nhật, cũng như biéutượng cảm xúc Công cụ này cũng cung cấp tính năng vẽ biểu đồ trực quan và
giám sát hiệu suất của ứng dụng
14
Trang 30[CDC changes]: Detected 52 changed, 3 new, 3 added, 3 initial pages in 1 site x8
P https:/Awww.ede gov/coronavirus/2019-ncov/php/rim-considerations htm! (ive ~ soresrshot]
\ Redivected lo hifas:! nr: cule, goulcoranauinus/2019-acoelptglindex.hieiVPDGDG AA reiValahtins 3A SOF So Fwww.cds govt
2Feoronavirus'.2F20 19-neov 2FpheTM2Fnm-cansiderations Ment
Title: Health Departments: information an COVID-f9 | CDC
Change detected at 2023-05-16 21:24:20 UTC
Health Departments: Information on COVID: | Health Departments:
For States, Tees, Localities, & Territories
Hình 1.2: Tinh năng đưa ra vị trí thay đổi cụ thể của trang web
Fluxguard phát hiện thay đổi bằng cách so sánh ảnh chụp man hình, source
code và nội dung của trang web từ đó đưa ra vị trí cụ thé của thay đổi trên trangweb (Hình 1.8) Fluxguard cũng có thé theo dõi được từng giá trị thường xuyênthay đổi trên trang web nhờ công cụ “Transform” (Hình 1.9) Do đó, công cụ này
có khả năng kết xuất trang toàn diện (Comprehensive page rendering) tat cả các
loại trang web, bao gồm cả những trang được bảo vệ bằng mật khẩu hoặc liên quanđến các biểu mẫu Điều này đảm bảo một quá trình giám sát kỹ lưỡng Các ưuđiểm của Fluxguard có thé tóm gon ở 2 yếu tố về tính linh hoạt về khả năng xử lýnhiều loại trang web khác nhau cùng với hỗ trợ giám sát đa ngôn ngữ Tóm lại,
Fluxguard là một giải pháp mạnh mẽ và linh hoạt dành cho các doanh nghiệp và
quản trị viên web trước các mỗi đe dọa an ninh mạng hay ở đây là tan công thayđổi giao diện Nhờ việc sử dụng nền tảng dựa trên đám mây kết hợp với khả năng
giám sát nâng cao hỗ trợ bởi A.I, học máy, Fluxguard trở vượt trội hơn các đối thủ
khác.
15
Trang 31We monitor, detect, and alert key web changes to reveal an evol
SIDE-BY-SIDE TEXT DIFF text box to explore code, content, and design edits.
httpswww,cde.gov/TemplatePackage/4,0/assets/fonts/open-sans-light-webfont woff2 nes eB a ì
https /www,cde.gov/TemplatePackage/4.0/assets/fonts/apen-sans-semibold-webfont woff2 } ands
https://www.cde.gov/ TemplatePackage/4.0/assets/fonts/apen-sans-v1 Satin-regular.woff2 pề,
},
PROPER: {
African: 1, NY: 35,
stylesheet Netherlands: 2,
Syrian: 1
1 unchanged, 3 added, 3 removed sử g Two Pet Cats: 1,
us: 35
httpssviwww.ede 88/T9nSj3ESGENBSK /assetz/css/anp.min.css?_+09916 }
https /www.ede.gev/TemplataPackage/4 iat min.css?_=09916 NUMBER: {
: se RACAL TYPE_UNKNOWN: {
Two: 1, one: 1
Trong phần trên, bài đồ án đã giới thiệu tóm tắt ba giải pháp điển hình nhất cho
giám sát va phát hiện thay đổi trang web Có thé so sánh các giải pháp nay qua các
tiêu chí cơ bản sau đây.
e Về phạm vi và phương pháp giám sát: Site24x7 sử dung phân tích DOM dé
giám sát, Nagios XI tập trung vào tính toàn vẹn nội dung và giám sát văn ban cũng dựa trên phân tích DOM, trong khi FluxGuard sử dụng giám sát thời gian
thực các thành phan trang, bao gồm các thay đôi về pixel và DOM vượt trội hơn
2 đối thủ còn lại
se Về cơ chế cảnh báo: Cả ba đều cung cấp hệ thống cảnh báo nhưng có trọng tâm
khác nhau Site24x7 và FluxGuard cung cấp khả năng phát hiện thay đổi theo
thời gian thực nhiều hơn, trong khi Nagios XI cung cấp cách tiếp cận rộng hơn
về tính toàn vẹn của nội dung và cau trúc
16
Trang 32e _ Về độ phức tạp khi tích hợp và cài đặt: Nagios XI là giải pháp dé dàng cài đặt
nhất Site24x7 và FluxGuard, tuy có các thiết lập phức tạp hơn, nhưng đổi lại sẽ
có các tùy chọn tùy chỉnh mở rộng giúp tuỳ biến tốt hơn nhu cầu giám sát
se Về các tính năng bố sung: FluxGuard cung cấp các tính năng mở rộng như tự
động hóa nhiều quy trình, giám sát chỉ tiết tới cả những giá trị thường xuyênthay đôi, hỗ trợ đa ngôn ngữ và sơ đồ hoá kết quả trực quan
¢ Tóm lại, FluxGuard là giải pháp toàn điện, đa dang nhất cho giám sát trang web
nói chung và giám sát thay đôi trang web nói riêng Tuy nhiên, cả ba giải pháp
nêu trên đều là giải pháp thương mại và giá cả sẽ phù hợp với tuỳ từng nhu cầu
và phạm vi giám sát của từng tổ chức Xét về phạm vi thì Site24x7 lại đạt ưu
thế do Site24x7 cung cấp các giải pháp giám sát toàn diện từ website đến máychủ, ứng dụng, cloud, mạng từ đó xét về tính đồng bộ, giải pháp này sẽ hữu
hiệu hơn hai giải pháp còn lại.
1.3 Một số nghiên cứu có liên quan
Các nghiên cứu về phát hiện tan công thay đổi giao điện trang web có sử dụng
hoc máy, học sâu khá da dạng Trong phạm vi bai đồ án, qua khảo sát và tìm hiểu
có bốn nghiên cứu tiêu biểu có liên quan đến nội dung bài được trình bay ở phan
sau đây.
1.3.1 Nghiên cứu thứ nhất
Với phương pháp phát hiện tan công thay đổi giao diện dựa trên số liệu thống
kê và học máy, Kim và cộng sự [7] đã đề xuất một mô hình sử dụng phương pháp
2-gram [8] dựa trên độ tương tu cosine.
Phương pháp 2-gram hay còn được gọi là bigram, là một phương pháp trong
lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phân tích dữ liệu văn bản Một 2-gram
là một chuỗi gồm hai phần tử liên tiếp (từ, ký tự) xuất hiện trong văn bản Trong
phân tích thống kê, 2-gram có thé được sử dụng dé tính toán tần suất của các cặp từ
xuất hiện trong một tập hợp đữ liệu lớn Phương pháp 2-gram được Kim và cộng
sự áp dụng vào bài toán phát hiện defacement bằng cách so sánh các mẫu bình
thường và phát hiện các thay đổi dựa trên nội dung của file HTML File HTML
của trang web được tải về và chuyên thành vectơ Bằng phương pháp 2-gram, tần
suất các chuỗi con được tính toán Sau đó, khi trang web đó được theo dõi, vectocủa trang web khi đó sẽ được so sánh với vectơ của trang khi bình thường đã được
lưu từ đó đưa ra độ tương đồng giữa 2 trang web Khi độ tương đồng lớn hơn
ngưỡng (threshold), mô hình sẽ đưa ra quyết định trang web đã bị thay đổi hay
chưa Nếu trang được đánh giá là bình thường, bộ điều chỉnh ngưỡng sẽ tạo một
17
Trang 33ngưỡng mới cho trang hiện tại theo xu hướng thay đổi và điều chỉnh ngưỡngthường xuyên theo thời gian được chỉ định Hình 1.10 biểu thị mô hình phát hiện
dựa trên phương pháp 2-gram do Kim và cộng sự đề xuất
Nhược điểm của phương pháp này là với những trang web thay đổi nội dung
liên tục, ngưỡng cũng sẽ thay đổi liên tục và việc ngưỡng được thay đổi không phùhợp là hoàn toàn có thể xảy ra từ đó dẫn đến cảnh báo sai
Generator
Threshold Adjustor
Web Page Defacement Detection Process
Hình 1.1: Mô hình phát hiện do Kim và cộng sự dé xuất
1.3.2 Nghiên cứu thứ hai
Với cách phát hiện dựa trên ảnh chụp màn hình, ta có thé lay vi dụ từ mô hình
do Borgolte và cộng sự [9] đề xuất với tên “Meerkat” như mô tả trên Hình 1.11
XD Defaced
ne) Legitimate
160x160x3
18x18x3
1600x900x3 “ a Local L2 Local Feed-forward with
SG eceptive Pooling Contrast Dropout
: ï 7] Fields izati
Screenshot Collection Window Extraction Normalization
Deep Neural Network
Hình 1.1: Kiến trúc mô hình Meerkat dựa trên hoc sâu
Cách tiếp cận của Meerkat dé phát hiện thay đổi trên trang web khác biệt ở đặcđiểm tận dụng học máy, học sâu, do đó sẽ không cần quá trình trích chọn đặc trưng
(feature) khi huấn luyện mô hình Thay vào đó, Meerkat dựa vào sự tiên tiến của
18
Trang 34học máy với bộ mã hóa tự động xếp chồng (stacked autoencoders) để tìm các đặc
trưng “high-level” trực tiếp từ đữ liệu Với mô hình này sẽ tối giản được yêu cầu
kỹ thuật nhờ việc không yêu cầu mã nguồn phức tạp của trang web, thứ duy nhất
cần là đường dan (URL) của trang web
Dựa trên bài nghiên cứu [9], ta thấy thử nghiệm được thực hiện trên tổng sé
khoảng 12 triệu trang web trong đó có 10 triệu trang web bi tan công deface và 2,5
triệu trang web thông thường đưa ra kết quả hệ thống đạt độ chính xác phát hiện
tan công cao trong khoảng 98% và tỷ lệ đương tính giả thấp khoảng 1% Ưu điểm
của Meerkat là hồ sơ có thể được xây dựng tự động và hệ thống đã được thử
nghiệm, huấn luyện trên một tập dữ liệu lớn Tuy nhiên, giống như nhược điểmchung của phương pháp này, nhược điểm lớn nhất của mô hình là mô hình đòi hỏi
cau hình hệ thống đủ tốt dé tính toán, huấn luyện và đòi hỏi lượng dữ liệu huấn
luyện đầu vào lớn và đã được tiền xử lý kỹ càng
1.3.3 Nghiên cứu thứ ba
Ngoài hai nghiên cứu nêu trên, tại Việt Nam, Trần Đắc Tốt và cộng sự [10]
cũng đề xuất một phương pháp phát hiện tấn công thay đổi giao diện kết hợp cùng
lúc nhiều yếu t6 như giám sát máy chủ, cơ sở dit liệu đồng thời sử dụng ham băm
và các kỹ thuật đối sánh chuỗi để phát hiện thay đổi dựa trên khác biệt trên file
HTML của một website ở các thời điểm khác nhau
Ở bài nghiên cứu đã công bố [10], các tác giả sử dụng ham băm MDS dé đảm
bảo tốc độ xử lý nhanh nhất Với thuật toán đối sánh chuỗi, các tác giả chọn thuậttoán Boyer-Moore để thực hiện tìm kiếm chuỗi Kết hợp với thuật toán tìm kiếm
chuỗi Boyer-Moore, thuật toán cây quyết định C4.5 [11] được áp dụng dé tăng độ
chính xác của các cảnh báo Thuật toán hàm băm và đối sánh chuỗi được thé hiện
như Hình 1.12.
19
Trang 35( File Source ) ( File Destination )
Hình 1.1: So đồ thuật toán kiểm tra sự thay đổi
Với cơ chế phát hiện thay đổi nội dung, trước hết, hệ thống sẽ thu thập mã
nguồn của trang web định kỳ sau đó lưu vào cơ sở dit liệu Ở các bước kiểm tra
tiếp theo, mô hình sẽ kiểm tra độ dài của văn bản bằng cách so sánh độ dài nội
dung văn bản mới thu thập với nội dung văn bản đã lưu, nếu vượt ngưỡng cài đặt
thì đưa ra cảnh báo, ngược lại Ngoài ra, mô hình còn kiểm tra cụm từ bắt buộc có
trong Website Lý do là đặc thù của các website đều có các cụm từ đặc trưng củacông ty, tổ chức, cá nhân Bằng cách tìm kiếm nội dung của các cum từ này trong
nội dung hiện tại của Website, nếu bất cứ cụm từ nao mà không tìm thay thi dua ra
cảnh báo hoặc những cum từ không được cho phép, nếu xuất hiện cũng sé đưa ra
cảnh báo (Ví dụ: Hacked by, Hacker ) Trước khi sử dụng thuật toán đối sánh
chuỗi dé đưa ra sự thay đôi, thuật toán MD5 được chạy để băm kết quả thành một
chuỗi dé lưu trữ và so sánh từ đó giảm thiểu độ phức tạp của dit liệu và tăng thờigian xử lý Ngoài ra dé thời gian xử lý tốt hơn nữa, các thành phan của trang web
cũng được chia nhỏ theo cau trúc của HTML DOM trước khi so sánh, từ đó khi có
thay đổi ở bất kỳ thành phần nào, cảnh báo sẽ chỉ đích danh thành phần đó khi có
thay đổi như Hình 1.13
Ưu điểm của phương pháp này, do đây là cách thức truyền thống dé theo dõi và
cảnh báo nên về độ chính xác và tốc độ của phương pháp này sẽ đạt kết quả tốt khi
sử dụng để giám sát các trang web tĩnh như các trang web của chính phủ, trường
hoc hay cơ quan, ban nganh, Tuy nhiên với các trang web có nội dung thay đổi
liên tục như báo chí, diễn đàn, sẽ còn nhiều hạn chế về độ chính xác do tính linh
hoạt chưa cao.
20
Trang 36Webpage check (new
and old webpage) Comparator
Presentation [mmm Notification
Hình 1.2: Sơ đô thuật toán phát hiện thay đổi nội dung
1.3.4 Nghiên cứu thứ tư
Nguyễn Trọng Hưng và cộng sự [12] dé xuất một mô hình phát hiện hiện đại
hơn Mô hình này kết hợp các mô hình, thuật toán học máy, dựa trên các đặc trưng
nội dung và hình ảnh của trang web, do đây là hai đặc trưng quan trọng nhất của
một trang web Các thuật toán học sâu được tác giả sử dung là BiLSTM [13] đốivới nội dung và EfficientNet [14] đối với hình ảnh chụp màn hình Các kết quả docác mô hình thành phần phát hiện tạo ra sau đó được kết hợp bằng phương pháp
Late fusion dé đưa ra kết quả cuối cùng Hình 1.14 mô tả mô hình được đề xuất
BiLSTM Cc
Normal Extract " Pre- F|mss|> Classifier
web-pages \ Xà text processing No.
Training SS dataset €_
Defaced 7 \ Capture Pre- " hi
web-pages screenshots] | processing Training No 2
NUS
EfficientNet ——”
Hình 1.1: Giai đoạn huấn luyện của mô hình được dé xuất
Qua bài nghiên cứu [12] ta có thé thấy, ưu điểm lớn nhất là việc sử dụng các
thuật toán học sâu dựa trên sự kết hợp của BiLSTM và EfficientNet, các tác gia cóthê thu được kết quả (ACC) tốt hơn nhiều so với các mô hình truyền thống sử dụng
các thuật toán truyền thống như Naive Bayes, Random Forest va cây quyết định
Cụ thé là độ chính xác đạt 97.49% so với lần lượt 74.69%, 86.03%, 84.73% của
mô hình truyền thống Tỷ lệ cảnh báo sai của mô hình (FPR và FNR) cũng đượcgiảm đáng ké cụ thé là 1.49% và 4.01% so với lần lượt 41.47% và 1.13%, 2.81%
và 32.87%, 3.51% và 32.87% của các mô hình truyền thống đã trình bày trong ba
nghiên cứu nêu trên Tuy nhiên mô hình vẫn còn thiếu sót do yêu cầu nguồn lực
21
Trang 37tính toán cao cho quá trình huấn luyện sử dụng các kỹ thuật xử lý hình ảnh và học
sâu Đánh đôi lại, quá trình huấn luyện lại được thực hiện ngoài luồng xử lý của
trang web, điều đó không gây ra bất kỳ ảnh hưởng nào tới trang web hay quá trình
giám sát Với cách thức này, phạm vi giám sát của các loại trang web được mở
rộng hơn rất nhiều và tốc độ, tài nguyên khi giám sát sẽ được giảm tối đa, từ đó
tính tức thời và độ chính xác của cảnh báo sẽ được đảm bảo.
1.4 Kết luận chương
Trong chương này, đồ án đã thực hiện được quá trình khảo sát lý thuyết, trình
bày về các hình thức tan công web, nghiên cứu các phương pháp phát hiện tan
công thay đổi giao diện trang web truyền thống và hiện đại, trình bày một số giải
pháp giám sát phát hiện thay đổi giao diện trang web điển hình đang có trên thịtrường và một số nghiên cứu liên quan Dé án đã tóm lược các phương pháp phát
hiện từ truyền thống như checksum, so sánh sự khác biệt giữa hai bản sao (so sánh
diff), phân tích cây DOM đến các phương pháp phát hiện đại hơn sử dụng thống
kê, học máy cùng với các nghiên cứu có liên quan trước đó.
Trên cơ sở đó, đồ án đã nêu được lý do lựa chọn giải pháp phát hiện tấn công
thay đổi giao diện với phương pháp dựa trên ảnh chụp màn hình có sử dụng các
thuật toán học máy, học sâu như CNN, EfficientNet và ResNet Ưu điểm của
phương pháp này so với các phương pháp truyền thống là không cần phải tải tài
nguyên của trang web về cơ sở dữ liệu Thứ duy nhất cần để giám sát là đường dẫn(URL) của trang web, từ đó giảm đặc tính kỹ thuật đến mức tối đa Tiếp đến, với
các phương pháp sử dụng học sâu, việc trích chọn đặc trưng sẽ không cần thựchiện như các phương pháp học máy sử dụng các thuật toán học máy truyền thốngnhư Naive Bayes, Random Forest và cây quyết định mà van dam bảo được tốc độtính toán và độ chính xác cao Một hạn chế của giải pháp này là sẽ gặp khó khăn ở
việc huấn luyện do đòi hỏi nhiều tài nguyên máy huấn luyện cũng như đữ liệu
huấn luyện Các vấn đề này sẽ được trình bày cụ thể ở chương 2 và thực thi ở
chương 3 của đồ án
22
Trang 38CHUONG 2 PHAT HIỆN THAY DOI GIAO DIỆN DỰA TREN HỌC MAY
SỬ DỤNG ẢNH CHỤP MÀN HÌNH
2.1 Khái quát về học máy, học sâu
2.1.1 Giới thiệu học may, học sâu
2.1.1.1 Học may
Học máy [15] là một nhánh cua trí tuệ nhân tao (AI) va khoa học máy tính, nó
tập trung vào sử dụng dir liệu và thuật toán để mô phỏng cách mà con người học,
dần dần cải thiện độ chính xác của nó Trong học máy, các mô hình được huấn
luyện dé đưa ra dự đoán hoặc quyết định dựa trên dữ liệu Các mô hình này có thể
được sử dụng trong nhiều ứng dụng khác nhau, từ phân loại hình ảnh, dự đoán xu
hướng đến tự động hóa quyết định Các hệ thống máy tinh sử dụng dé thực hiện
các tác vụ dựa vào khuôn mẫu huấn luyện và suy luận từ đó đưa ra kết luận màkhông cần hướng dẫn cụ thé Các hệ thống máy tinh sử dụng thuật toán học máy dé
xử lý các dữ liệu qua quá trình thu thập và có thé sử dụng cả những dữ liệu trong
quá khứ đã được huấn luyện Nhờ đặc điểm vượt trội này, học máy cho phép dự
đoán kết quả chính xác hơn từ cùng một tập dit liệu đầu vào cho trước
Học máy đóng vai trò quan trọng trong thời kỳ hiện nay Học máy được ứng
dụng vào rất nhiều ngành nghề, lĩnh vực như sản xuất, tài chính, bán lẻ, truyền
thông, giải trí, hay trong lĩnh vực khoa học công nghệ Học máy giúp tự động
hóa và tối ưu hóa quá trình phân tích, xử lý dir liệu của các chủ thé ở rất nhiều lĩnh
vuc Bang cach su dung phan mém phan tich khéi lượng lớn dữ liệu ở tốc độ cao,
các doanh nghiệp có thể đạt được kết quả nhanh hơn
Học máy có thể được phân loại theo bốn cách học tùy thuộc vào loại dữ liệu
đầu vào và kết quả kỳ vọng: Học máy có giám sát, học máy không có giám sát, học
máy nửa giám sát, học máy tăng cường.
e Học máy có giám sát là một phương pháp trong đó con người cung cấp
cung cấp dữ liệu đào tạo đã được gắn nhãn dé thuật toán có thé học và đánh
giá mối tương quan Trong quá trình này, cả dữ liệu đầu vào và kết quả
mong muốn của thuật toán đều được xác định rõ nhãn Trong phạm vi bài
nghiên cứu, phương pháp học máy có giám sát được sử dụng, khi cả dữ liệu
đầu vào và đầu ra đều được phân loại ra 2 loại ảnh chụp màn hình trang
web: bị tấn công và bình thường Ưu điểm của máy học có giám sát bao gồmtính đơn giản trong thiết kế và dé dang trong việc triển khai Phương pháp
này rất hữu ích trong việc dự đoán kết quả trong một phạm vi được giới hạn,
23
Trang 39phân loại dữ liệu, hoặc kết hợp kết quả từ hai thuật toán máy học khác nhau.Tuy nhiên, khó khăn của phương pháp này là việc cần phải gắn nhãn cho cácmẫu đữ liệu khi chưa có nhãn Trong phạm vi bài đồ án, phương pháp học
máy có giám sát được sử dụng, khi cả dữ liệu đầu vào và đầu ra đều được
phân loại ra hai loại ảnh chụp màn hình trang web: bị tấn công và bình
thường.
Học máy không giám sát ngược lại với học máy có giám sát Học máy
không giám sát là mô hình học từ dit liệu không được gan nhãn dé tim ra cấu
trúc hoặc mẫu ấn Ví dụ: trong ngành bán lẻ, học không có giám sát có thé
tìm va phân tích từ đó đưa ra kết quả về xu hướng mua hàng của khách
hàng Học không có giám sát rất hữu ích trong việc phát hiện khuôn mẫu và
sự bất thường, cũng như tự động nhóm dữ liệu theo các hạng mục Việc thiếtlập học không giám sát dé dàng do dữ liệu đào tạo không cần gắn nhãn nên
các thuật toán này cũng có thể được sử dụng dé làm sạch và xử lý dữ liệu từ
đó là cơ sở dé tự động phát triển mô hình chuyên sâu hơn Đánh đổi lại, hạn
chế của phương pháp này là thuật toán không thê đưa ra dự đoán chính xác
mà có thé vẫn sẽ cần các bước dự đoán của con người dựa trên phân tích,
thống kê Thêm vào đó, phương pháp này không thé tự tách biệt một số loạikết quả đữ liệu cụ thê
Máy học nửa giám sát là phương pháp kết hợp cả học có giám sát lẫn không
có giám sát Phương pháp này dùng một lượng nhỏ dit liệu gắn nhãn và mộtlượng lớn dir liệu không gắn nhãn Đầu tiên, đữ liệu được gắn nhãn được sửdụng dé đào tạo một phần thuật toán Sau đó, thuật toán tự gan nhãn cho dữliệu chưa gắn nhãn (giả gắn nhãn) Mô hình sau đó được đảo tạo lại bằng
hỗn hợp đữ liệu kết quả mà không được lập trình cụ thể Ưu điểm của
phương pháp này là không cần một lượng lớn dit liệu được gắn nhãn Do đó,phương pháp này rất hữu ích khi xử lý với dit liệu như các tài liệu dai và tốnnhiều thời gian gắn nhãn
Học tăng cường là phương pháp dựa trên hệ thống thưởng phạt dé học từ trảinghiệm Ứng dụng của học tăng cường chủ yếu trong trò chơi điện tử ví dụ
trong các trò chơi cờ khi máy thi đấu với con người, máy móc sẽ ngày càng
“thông minh” hơn để chiến thắng con người [16] Học tăng cường sẽ đạthiệu quả trong môi trường không chắc chắn và phức tạp, hiếm khi được sửdụng trong kinh doanh Do đó hạn chế của chúng là không phù hợp với tác
vụ cụ thé đo có thé bị ảnh hưởng bởi thiên kiến của nhà phát trién
24