Tóm tắt nội dungNội dung chính của luận văn là tập trung tìm hiểu về các phương pháp phát hiệnkiểu tấn công Deface trong an ninh mạng và trình bày đề xuất mô hình lai cho phân loạitrang
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM
Cán bộ hướng dẫn khoa học : TS Nguyễn Đức Thái
ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
——————–
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc——————–
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: Hoàng Mạnh Thành MSHV: 2170084Ngày, tháng, năm sinh: 01/12/1993 Nơi sinh: Đắk Lắk
I TÊN ĐỀ TÀI:
- Tên tiếng Việt: Giải pháp cảnh báo kiểu tấn công an ninh mạng Deface và hiện thực.- Tên tiếng Anh: Solution for warning type of cyber security attack Deface and im-plement
II NHIỆM VỤ VÀ NỘI DUNG:
- Nghiên cứu tổng quan kiểu tấn công Deface.- Nghiên cứu tất cả những nguyên nhân dẫn đến việc thay đổi nội dung hiển thị trêngiao diện web
- Đề xuất phương pháp phát hiện kiểu tấn công Deface.- Hiện thực phương pháp đề xuất
Trang 4Lời cảm ơn
Tôi xin tỏ lòng biết ơn sâu sắc đến giáo viên hướng dẫn là Tiến sĩNguyễn Đức Thái đã tận tình hướng dẫn, chỉ bảo và định hướng cho bảnthân tôi từ quá trình chọn lọc lĩnh vực, quá trình tìm hiểu các công trìnhnghiên cứu liên quan và định hướng được phương hướng đi của luận vănnày
Tôi xin chân thành cám ơn quý thầy cô trong Khoa Khoa Học và KỹThuật Máy Tính, trường Đại Học Bách Khoa thành phố Hồ Chí Minh đãtận tình chỉ dạy các kiến thức về ngành cũng như các kinh nghiệm có thểứng dụng thực tế trong công nghiệp
Cuối cùng, tôi xin cám ơn các bạn bè, đồng nghiệp đã động viên giúpđỡ trong quá trình làm luận văn này
Do hạn chế về thời gian thực hiện nên chắc chắn đề tài không tránh khỏisai sót Vì vậy, rất mong nhận được sự đóng góp ý kiến của quý thầy cô vàcác bạn
Trang 5Tóm tắt nội dung
Nội dung chính của luận văn là tập trung tìm hiểu về các phương pháp phát hiệnkiểu tấn công Deface trong an ninh mạng và trình bày đề xuất mô hình lai cho phân loạitrang web Trong đó là sự kết hợp giữa dữ liệu chữ ký được sinh tự động từ các cuộc tấncông đã biết và thuật toán học máy cây quyết định Bố cục chính của luận văn bao gồmtìm hiểu các nghiên cứu liên quan, đánh giá ưu điểm, nhược điểm của các phương phápnày cũng như tính ứng dụng trong thực tế và các bước hiện thực phương pháp đề xuất
Phần còn lại của luận văn tập trung vào việc đánh giá hệ thống, kết quả đạt được,đồng thời phân tích ưu nhược điểm của phương pháp đề xuất thực hiện và thảo luậnnhững vấn đề mà còn gặp phải Cuối cùng, đề xuất hướng phát triển tiếp theo của đề tàitrong tương lai
Abstract
The main content of the thesis focuses on investigating methods for detecting face attacks in network security and presenting a hybrid model proposal for classifyingwebsites This includes a combination of automatically generated signature data fromknown attacks and the decision tree machine learning algorithm The main structure ofthe thesis includes exploring related research, evaluating the advantages and disadvan-tages of these methods as well as their practical applications, and the steps to implementthe proposed method
De-The remaining part of the thesis focuses on system evaluation, achieved results, alyzing the advantages and disadvantages of the proposed method, and discussing theissues encountered Finally, it proposes future development directions for the topic
Trang 6an-Lời cam đoan
Tôi xin cam đoan đề cương luận văn thạc sĩ này do chính bản thân tôi thựchiện dưới sự hướng dẫn và giám sát của Tiến sĩ Nguyễn Đức Thái Nội dungnghiên cứu hoàn toàn chưa được công bố trước đây, các số liệu hoặc ý tưởngsẽ được trích dẫn rõ ràng đến tác giả tại mục tài liệu tham khảo, còn lại cácý tưởng của bản thân tôi Đối với những số liệu cần được kiểm chứng, tôi sẽmô phỏng lại quá trình thực nghiệm hoặc sử dụng các mô hình đã được huấnluyện được cung cấp sẵn để xác minh ý tưởng của tác giả
Nếu có sự gian lận nào trong khuôn khổ luận văn thì tôi xin hoàn toànchịu trách nhiệm Trường Đại học Bách Khoa thành phố Hồ Chí Minh khôngliên quan gì đến những vi phạm bản quyền, hoặc vi phạm nào khác do bàiviết của tôi gây ra
Học viên
Trang 71.1 Tính cấp thiết của đề tài 1
1.2 Mục tiêu của đề tài 2
1.3 Đối tượng và phạm vi nghiên cứu 3
1.4 Phương pháp nghiên cứu 3
1.5 Bố cục của luận văn 3
CHƯƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN42.1 Các nghiên cứu phát hiện kiểu tấn công an ninh mạng Deface 42.1.1 Woonyon Kim: Giải pháp giảm tỷ lệ cảnh báo sai(2006) [1] 4
2.1.2 Hiện thực kỹ thuật phát hiện tấn công Deface (2015)[2] 4
2.1.3 Công cụ giám sát xâm nhập và Deface trang web:WDIMT (2017) [3] 5
Trang 82.1.4 Phương thức phát hiện Deface trang web dựa trên học
2.2 Các nghiên cứu tự động sinh chữ ký 12
2.2.1 Đánh giá các hệ thống tạo chữ ký tấn công tự động(2013) [11] 12
2.2.2 Phát hiện xâm nhập kết hợp và tạo chữ ký bằng cáchsử dụng mạng nơ-ron hồi quy sâu (2019) [12] 12
2.3 Kết luận 12
CHƯƠNG 3: NỀN TẢNG LÝ THUYẾT143.1 Hàm băm và toàn vẹn dữ liệu [13] 14
3.1.1 Hàm băm không có khóa (MDC) 14
3.1.2 Hàm băm có khóa MAC 15
3.1.3 Toàn vẹn dữ liệu và xác thực thông điệp 15
3.2 Thống kê xử lý ngôn ngữ tự nhiên [14] 16
3.2.1 Luật Zipf 16
3.3 Học máy [15] 18
3.3.1 Trích chọn đặc trưng (Feature Engineering) 19
3.3.2 Thuật toán học máy: Cây quyết định (Decision Tree) 20CHƯƠNG 4: PHƯƠNG PHÁP SINH CHỮ KÝ TỰ ĐỘNG VÀ ĐỀ XUẤT MÔHÌNH LAI CHO PHÂN LOẠI TRANG WEB224.1 Phương pháp giám sát trang web 22
4.2 Phương pháp thu thập và xử lý dữ liệu 22
4.2.1 Xác định thành phần của trang web 22
4.2.2 Phương pháp xử lý dữ liệu 23
4.3 Phương pháp sinh chữ ký tự động 23
4.3.1 Xác định ngưỡng thay đổi nội dung 23
Trang 94.3.3 Xây dựng bộ quy tắc 26
4.4 Phương pháp phát hiện kiểu tấn công an ninh mạng Deface: Môhình lai cho phân lại trang web 27
4.4.1 Giai đoạn huấn luyện 28
4.4.2 Giai đoạn phát hiện 30
4.5 Trực quan hóa dữ liệu với công cụ Apache Superset [16] 32
4.5.1 Xác định các thành phần chính của trang web 33
4.5.2 Xác định tham số cho chuỗi con chung 34
CHƯƠNG 5: KẾT QUẢ VÀ THẢO LUẬN355.1 Tổng quan dữ liệu thu tập 35
5.3.2 Hiệu suất phát hiện tấn công bằng chữ ký 36
5.3.3 Hiệu suất mô hình lai 37
Trang 10Danh sách bảng
3.1 Các hàm băm không có khóa 15
3.2 Đánh giá thực nghiệm định luật Zipf trên Tom Sawyer [14] 17
4.1 Tần số xuất hiện của thành phần văn bản ở các deface 25
4.2 Bộ các từ danh sách trắng 27
4.3 Trực quan đặc trưng tần số từ 29
5.1 Thông tin dữ liệu huấn luyện 35
5.2 Thông tin dữ liệu kiểm thử 35
5.3 Bảng thông số thực nghiệm 36
5.4 Kết quả kiểm thử phát hiện bằng dữ liệu chữ ký 37
5.5 Thông tin dữ liệu kiểm thử 37
Trang 11Danh sách hình vẽ
1.1 Các màn hình thông báo ở sân bay Nội Bài được tắt khi bị tấn công 1
1.2 Thống kê các cuộc tấn công Deface từ 2015-2023 [17] 2
2.1 Trang web WDIMT với trạng thái thay đổi của các tập tin [3] 5
2.2 Các bước giai trong đoạn huấn luyện [4] 6
2.3 Tiến trình cập nhật làm mới tập tin băm [6] 7
2.4 Mô hình lai: giai đoạn huấn luyện [6] 8
2.5 Mô hình lai: giai đoạn phát hiện [6] 9
2.6 Mô nhiều lớp: giai đoạn phát hiện [8] 10
2.7 Mô kết hợp: giai đoạn phát hiện [8] 11
3.1 Mối quan hệ giữa hạng và tần suất xuất hiện của từ 17
3.2 Quy trình xây dựng hệ thống học máy 18
3.3 Góc nhìn hệ thống 19
3.4 Thể hiện văn bản dưới dạng vectơ đặc trưng túi từ (bag-of-words) 20
3.5 Mô hình cây quyết định với đặc trưng x 21
4.1 Sơ đồ giám sát từ xa 22
4.2 Trang web bị thay đổi tiêu đề 24
4.3 Sơ đồ xây dựng CSDL chữ ký tấn công 26
4.4 Minh họa các từ thông dụng ở tiêu đề trang web 27
4.5 Giai đoạn huấn luyện 28
4.6 Sơ đồ giai đoạn phát hiện 30
4.7 Bảng điều khiển gồm các biểu đồ trực quan 33
4.8 Tỉ lệ thành phần trang web 33
4.9 Bảng tần suất xuất hiện thành phần văn bản 34
4.10 Biểu đồ hộp tần số xuất hiện và độ dài thành phần văn bản 34
Trang 12Danh sách thuật toán
4.1 Thuật toán so sánh chữ ký 314.2 Thuật toán phân loại nội dung văn bản 32
Trang 13Danh sách mã
4.1 Mẫu nội dung các thẻ trong tệp HTML 23
Trang 14CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
1.1.Tính cấp thiết của đề tài
Tấn công Deface là kiểu tấn công khai thác lỗ hổng bảo mật của các trang web đểthay đổi nội dung hiển thị thông qua hình ảnh, câu chữ, âm thanh hay đoạn phim Theo[18], các thay đổi không được phép này bao gồm:
– Thay đổi nội dung của một trang web.– Thay đổi bất kỳ phần nội dung nào của trang web.– Thay thế hoàn toàn một trang web
– Chuyển hướng một trang web.– Phá hủy hoặc xóa một trang web
Đối với tổ chức cá nhân, doanh nghiệp điều này gây ảnh hưởng rất lớn tới uy tín vàgây thất thoát doanh thu khi người dùng không còn tin tưởng vào khả năng bảo mật,an toàn thông tin của sản phẩm Bên cạnh đó, các cuộc tấn công cũng nhằm vào các tổchức, chính phủ nhằm mục đích chính trị
Đơn cử vào khoảng 16h 29/07/2016 Hai sân bay Nội Bài và Tân Sơn Nhất bị tấncông [19] Các màn hình hiển thị thông tin chuyến bay bất ngờ bị chèn nội dung kíchđộng, xuyên tạc về Biển Đông Ngay lúc đó, các nhà chức trách đã tắt toàn bộ hệ thốngâm thanh và màn hình Các thủ tục bay được thực hiện thủ công để đảm bảo an toàn bayvà đến 17h45 sự cố cơ bản đã được khắc phục
Hình 1.1: Các màn hình thông báo ở sân bay Nội Bài được tắt khi bị tấn công.
Trang 15Theo thống kê từ zone-h.org Các cuộc tấn công Deface có chiều hướng giảm dầntừ 2015-2023 Với số lương nhiều nhất vào năm 2015, 2017 và tới nay năm 2023 đã ghinhận lượt tấn công thấp nhất trong khoảng 100 nghìn lượt.
Hình 1.2: Thống kê các cuộc tấn công Deface từ 2015-2023 [17]
Mặc dù số lượng tấn công Deface tới nay ghi nhận giảm khá nhiều, tuy nhiên vẫncòn ở mức cao với khoảng 100 nghìn lượt năm 2023 Trang web bị tấn công gây tổn hạiuy tín của cá nhân, doanh nghiệp, tổ chức chính phủ Thiệt hại không chỉ ở kinh tế màcòn có thể gây bất ổn an ninh, xã hội Việc xây dựng được giải pháp cảnh báo kịp thờicuộc tấn công Deface để có thể xử lý khắc phục, giảm thiểu rủi ro là rất cấp thiết hiệnnay Do đó, bản thân tôi chọn đề tài: "Giải pháp cảnh báo kiểu tấn công an ninh mạngDeface và hiện thực" để giảm thiểu ảnh hưởng thiệt hại cho cá nhân, doanh nghiệp haytổ chức
1.2.Mục tiêu của đề tài
– Mục tiêu chung: Đề xuất và hiện thực giải pháp phát hiện kiểu tấn công Deface.– Mục tiêu cụ thể:
+ Xây dựng hệ thống phát hiện kiểu tấn công Deface và gửi cảnh báo qua emailcho quản trị viên
+ Xây dựng cơ sở dữ liệu chữ ký từ các cuộc tấn công đã biết, dựa trên dữ liệu từzone-h
+ Hệ thống được triển khai trên hạ tầng thông dụng để phù hợp triển khai thựctiễn
Trang 161.3.Đối tượng và phạm vi nghiên cứu
– Đối tượng nghiên cứu: Trang web và kiểu tấn công Deface trong an ninh mạng.– Phạm vi nghiên cứu: Trang web nội dung tiếng Anh, tiếng Việt bao gồm hai thành
phần chính là văn bản và hình ảnh trong tệp HTML tải về
1.4.Phương pháp nghiên cứu
Để đạt được các mục tiêu nghiên cứu và trong giới hạn phạm vi đã đề cập ở trên, đềtài áp dụng phương pháp nghiên cứu thực nghiệm Xây dựng hệ thống phát hiện kiểutấn công Deface và kiểm thử kết quả với tập dữ liệu thu thập
Thông số thực nghiệm như sau:
– Khung mẫu dữ liệu huấn luyện: Gồm 9260 trang web ngẫu nhiên theo tỉ lệ.
+ 5174 trang web bị tấn công Deface thu thập từ zone-h.+ 4086 trang web bình thường tiếng Anh và tiếng Việt thuộc các lĩnh vực
chung
– Cỡ mẫu dữ liệu kiểm thử: Gồm 142 trang web ngẫu nhiên theo tỉ lệ
+ 70 trang web bị tấn công Deface thu thập từ zone-h+ 45 trang web bình thường tiếng Anh và tiếng Việt thuộc các lĩnh vực chung
– Đối tượng thí điểm: Trang web tiếng Anh và tiếng Việt– Phương pháp lấy mẫu: chọn mẫu không xác suất.
1.5.Bố cục của luận văn
Ngoài Chương 1: Giới thiệu đề tài Luận văn gồm các phần sau:– Chương 2: Những công trình liên quan Tổng quan các nghiên cứu liên quan,
những hạn chế về giải pháp hiện tại
– Chương 3: Nền tảng lý thuyết Tóm tắt về hàm băm và toàn vẹn dữ liệu và thuật
toán học máy cho phân loại
– Chương 4: Phương pháp sinh chữ ký tự động và đề xuất mô hình lai cho phân
loại trang web Trình bày mô hình lai cho phân loại trang web bị deface haybình thường và cách tiếp cận mới cho việc sinh chữ ký tự động
– Chương 5: Kết quả và thảo luận Trình bày kết quả thực nghiệm, đánh giá so
sánh với kết quả của các nghiên cứu trước đó
– Chương 6: Kết luận và hướng phát triển Đánh giá kết quả đề tài và định hướng
phát triển tiếp theo
Trang 17CHƯƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN
2.1.Các nghiên cứu phát hiện kiểu tấn công an ninh mạng Deface
Bài báo tính tới thời điểm hiện tại đã qua thời gian khá dài, tuy nhiên kết quả và cáckỹ thuật đều được các nghiên cứu sau này làm nền tảng để triển khai mở rộng
Tác giả đã chỉ giới hạn của việc sử dụng hàm băm để phát hiện thay đổi trên trangweb, bởi vì các máy chủ web phản hồi dữ liệu được soạn bằng cách chạy các tập lệnhphía máy chủ hoặc hệ thống quản lý cơ sở dữ liệu truy vấn khi người dùng gửi yêu cầulên các trang web, do đó nội dung của các trang web liên tục khác nhau Để giải quyếtvấn đề này nghiên cứu đề xuất giải pháp trích xuất đặc trưng của trang web trước và sau,sau đó tính toán sự tương đồng và dựa trên một ngưỡng nhất định để phát cảnh báo Nhưvậy, về tổng quan có thể thấy giải pháp đề xuất của tác giả khá tương đồng với một hệthống học máy
Để trích xuất đặc trưng của trang web, nghiên cứu sử dụng mô hình n-gram là các
kí tự liền kề của một chuỗi với n = 2 Dựa theo luật Zipf sẽ luôn có một bộ các từ vớitần suất xuất hiện ưu thế hơn các từ khác của ngôn ngữ đang sử dụng Do đó, trang webđược tải tại hai thời điểm khác nhau nên có cùng phân phối 2-gram
Sau khi đã có bộ tần suất từ của trang web gọi là bộ vectơ đặc trưng, thì việc so sánh
tương đồng khá đơn giản với việc tính khoảng cách sim(ti, tj)cosin của vectơ trước vàsau khi giám sát Việc phát cảnh báo sẽ dựa trên một ngưỡng nhất định, ngưỡng này cầnđược khởi tạo giá trị ban đầu khi chạy hệ thống và do nội dung trang web sẽ thay đổitheo thời gian cho nên nghiên cứu cũng đã đề xuất giải pháp định kỳ cập nhật ngưỡngcảnh báo cho trang web (2 lần mỗi ngày)
Mặc dù kết quả thực nghiệm giải pháp cập nhật ngưỡng định kỳ khá tốt, tuy nhiênvới các trang web có nội dung thay đổi liên tục thì sẽ khó có thể có hiệu quả cao Mặtkhác, việc tính tương đồng bằng cosin khá đơn giản và với sự phát triển của các thuậttoán học máy ngày nay thì đây sẽ là khoảng trống cho các nghiên cứu mới có thể tối ưu
Nghiên cứu xây dựng một mô-đun dịch vụ web Apache cho phát hiện tấn côngDeface Cơ chế phát hiện thay đổi dựa trên so sánh giá trị băm các tập tin HTML Tuynhiên, kỹ thuật này chỉ phù hợp cho trang web tĩnh và với trang web động có nội dungthay đổi liên tục sẽ không hiệu quả Đây cũng chính là điểm hạn chế mà tác giả đề cậpđể phát triển cho nghiên cứu sau này
Trang 182.1.3Công cụ giám sát xâm nhập và Deface trang web: WDIMT (2017) [3]
WDIMT là công cụ được sử dụng để phát hiện hành vi phá hoại trang web Kiếntrúc triển khai với hai máy tính linux và window cho hai nhiệm vụ:
• Máy linux: để quản trị viên thực hiện giám sát hệ thống, khởi tạo lại trạng thái banđầu khi bị tấn công hay xác nhận trạng thái các tập tin trên máy chủ là an toàn.• Máy window: là giao diện tương tác người dùng, thể hiện các trạng thái của tập tin:
tạo, xóa, sửa (hình 2.1)
Hình 2.1: Trang web WDIMT với trạng thái thay đổi của các tập tin [3]
Để xác thực sự thay đổi của trang web, công cụ sử dụng kỹ thuật so sánh giá trị băm
của các file trên trang web Đây là điểm giới hạn mà nghiên cứu của Woonyon Kim đã
chỉ ra, các trang web ngày nay với nội dung thay đổi liên tục thì việc so sánh giá trị bămsẽ cho ra cảnh báo sai và không hiệu quả
Một giới hạn thứ hai của công cụ là việc triển khai khá phức tạp Với hai máy linuxvà window, sử dụng quản trị cần thành thạo các câu lệnh linux sẽ là trở ngại cho ngườidùng, do đó sẽ khó có thể đạt hiệu quả tốt
Nghiên cứu đề xuất phương pháp phát hiện Deface dựa trên học máy gồm 2 giaiđoạn:
• Giai đoạn 1: thu thập dữ liệu bao gồm trang web trạng thái bình thường và trangweb bị tấn công Deface từ zone-h.org (hình 2.2)
• Giai đoạn 2: Tiền xử lý dữ liệu và trích xuất đặc trưng để làm giữ liệu đầu vào chothuật toán học máy
Trang 19Hình 2.2: Các bước giai trong đoạn huấn luyện [4]
Việc trích xuất đặc trưng tác giả cũng sử dụng mô hình n-gram với n=2 và 3 Tiếnhành tính toán tần suất xuất hiện của các gram (term frequency) và chọn 300 tần suất
cao nhất để xây dựng vectơ đặc trưng Sau đó, sử dụng 2 thuật toán học máy Na¨ıve Bayesvà Cây quyết định J48 để phân loại
Tổng quan thực nghiệm, thuật toán cây quyết định J48 cho kết quả tốt hơn Na¨ıveBayes Tỷ lệ phân loại chính xác lên đến 93% và cảnh báo sai dưới 1% cho mọi trườnghợp Từ đây cho thấy, các kỹ thuật học máy rất có tiềm năng cho xây dựng hệ thống pháthiện tấn công Deface hiệu quả
Mặt khác, tập dữ liệu khá nhỏ tổng cộng 400 trang web nên cần nghiên cứu với tậpdữ liệu thực tế để mang tính thực tiễn hơn
Nghiên cứu tập trung vào phân tích các trang web bị tấn công Deface Tự động nhậndiện chiến dịch, phân lớp các trang web tương đồng vào cùng cụm và gán nhãn cho cụmđó Dữ liệu được trực quan hóa thành các bảng, biểu đồ cho thấy rằng các thông tin docác kẻ tấn công để lại cho phép một nhà phân tích chuyên môn điều tra phương thứchoạt động và cấu trúc xã hội của các tác nhân, đồng thời mở rộng từ một trang defaceduy nhất sang một nhóm các deface liên quan
Phương pháp nghiên cứu đề xuất không chỉ tập trung vào việc phát hiện mà còn tậptrung vào các cơ chế phòng ngừa và tự bảo vệ để giảm thiểu tác động của việc Defacetrang web Mô hình triển khai gồm 2 thành phần:
– Thành phần máy khách là tập lệnh python được cài đặt trên máy chủ web được giámsát Mỗi lần thực thi tập lệnh, một tập tin chứa giá trị băm của tất cả các tệp củatrang web sẽ được tạo Tập tin này sau đó được tải lên máy chủ ngoại tuyến
– Thành phần máy chủ sẽ so sánh tệp tin nhận được từ máy khách với các giá trị thamchiếu của chúng được lưu trữ trên máy chủ ngoại tuyến
Tại mỗi lần thay đổi nội dung tập tin của trang web, quản trị viên sẽ xác nhận vàtăng giá trị λ lưu trữ trên máy chủ Tiếp đó, giá trị băm mới của trang web sẽ được cậpnhật (hình 2.3)
Trang 20Hình 2.3: Tiến trình cập nhật làm mới tập tin băm [6]
Khi giá trị băm ở máy chủ và máy khách khác nhau, cùng đó là giá trị λ không hợplệ thì có nghĩa hệ thống đã bị xâm nhập, các tập tin trên trang web giám sát đã bị thayđổi bất hợp lệ Lúc này, hệ thống sẽ tải lại các tập tin ở trạng thái ban đầu đề khắc phụcsự cố
Nhìn chung, phương pháp nghiên cứu đề xuất khá tương đồng với công cụ WDIMTvới hai thành phần: máy khách và máy chủ, và cơ chế khôi phục trạng thái gốc để khắcphục sự cố Cùng với đó là việc so sánh giá trị băm của các tập tin sẽ khó có thể có hiệuquả, khi dữ liệu được truy vấn từ cơ sở dữ liệu và thay đổi liên tục
công (2019)[7]
Là nghiên cứu mở rộng từ nghiên cứu trước của tác giả [4] với việc kết hợp thêm
thông tin từ các trang web đã bị tấn công Deface trước đó gọi là chữ ký tấn công (attack
signatures) và thuật toán học máy cho phân loại.Giai đoạn huấn luyện (hình 2.4) có ba điểm chính: tạo giá trị băm của trang web,huấn luyện mô hình học máy và tạo chữ ký tấn công
Trang 21Hình 2.4: Mô hình lai: giai đoạn huấn luyện [6]
Giai đoạn phát hiện (hình 2.5) tiến trình gồm các bước chính như sau:– Tải nội dung trang web, tiến hành trích xuất và so sánh chữ ký tấn công với cơ sở
dữ liệu chữ ký đã xây dựng ở giai đoạn huấn luyện Nếu kết quả không phát hiện bịtấn công tiến trình tới bước tiếp theo
– Phân loại với mô hình học máy đã huấn luyện Kết quả ở bước này sẽ là bị tấn cônghay không
– Kiểm tra thay đổi nội dung trang web bằng việc so sánh giá trị băm của nội trungtrang trước và tại thời điểm giám sát Nếu kết quả là có thay đổi sẽ phát cảnh báocho quản trị viên để xác nhận và cập nhật lại dữ liệu băm
Trang 22Hình 2.5: Mô hình lai: giai đoạn phát hiện [6]
Kết quả tổng quan thực nghiệm của mô hình rất tốt với độ chính xác lên đến 99.26%và tỷ lệ dự đoán sai dưới 0.62% Có thể nói là kết quả nổi trội nhất trong các nghiên cứunhững năm gần đây Và việc sử dụng thuật toán học máy đơn giản, mô hinh tiêu tốn íttài nguyên tính toán hơn
Với phương thức so sánh chữ ký tấn công tỷ lệ phát hiện từ 22%-47% và không códự đoán sai cho thông tin trích xuất từ 50 trang web bị tấn công Mặc dù phương pháptrích xuất chữ ký chưa được tác giả thể hiện cụ thể trong nghiên cứu tuy nhiên có thểthấy rằng có thể xây dựng mô hình cho hiệu suất tốt hơn dựa vào nguồn dữ liệu này
Mặt khác, như các nghiên cứu trước đã chỉ ra việc so sánh giá trị băm của trang webtrước và sau sẽ khó có hiệu suất tốt với các trang web có nội dung thay đổi liên tục
Việc xây dựng dữ liệu chữ ký tấn công từ trang web bị tấn công đã biết là quá trìnhtiêu tốn nhiều thời gian và phương pháp so sánh chuỗi băm các tệp JS, CSS sẽ khônghiệu quả với trang web có nội dung thay đổi liên tục Do đó, ở nghiên cứu này tác giảđề xuất phương pháp cải tiến với nhiều lớp xử lý để xác thực nội dung trang web (hình2.6)
Thay đổi ở nghiên cứu này ở hai điểm chính:– Phân loại tập tin JS, CSS của trang web bằng thuật toán học máy thay vì sử dụng
hàm băm
Trang 23Hình 2.6: Mô nhiều lớp: giai đoạn phát hiện [8]
Mô hình cho kết quả khá tốt với tỷ lệ dự đoán chính xác lên đến 98.8% và tỷ lệ dựđoán sai dưới 1.04% Tuy nhiên, việc so sánh giá trị băm của hình ảnh tải về từ trangweb cũng sẽ khó có hiệu quả tốt khi hình ảnh mới chưa có trong cơ sở dữ liệu băm sẽcho ra cảnh báo sai Và với các trang web có lượng hình ảnh lớn, cập nhật liên tục nhưcác trang thương mại điện tử điều này sẽ khiến cho hiệu suất hệ thống khó có thể đạtcao
trên giám sát ngẫu nhiên (2019) [9]
Ở bài báo này, tác giải không trình bày một kỹ thuật phát hiện tấn công Deface cụthể mà tập trung nghiên cứu về vấn đề giám sát trang web theo chu kỳ
Theo tác giả, việc giám sát trang web theo chu kỳ cố định để lại lỗ hổng cho kẻ tấncông có thể phát hiện và tránh thời điểm giám sát để thực hiện tấn công Do đó, nghiêncứu để xuất các chiến lược giám sát sang web ngẫu nhiên như sau:
Trang 24– Thuật toán giám sát ngẫu nhiên thống nhất (Uniform Random Monitoring rithm (URMA)): chọn một vị trí cho mỗi vòng giám sát (MR) theo phân bố đồngđều; các vị trí đã chọn được giám sát, cho dù chúng có sai định dạng đối với các vịtrí không được chọn hay không được giám sát
Algo-– Thuật toán giám sát ngẫu nhiên dựa trên thiệt hại (Attack Damage-Based RandomMonitoring Algorithm (ADRMA)
Cuối cùng, nghiên cứu thực nghiệm ý tưởng và đạt được kết quả tốt hơn so vớiphương pháp giám sát theo chu kỳ cố định
[10]
Từ giới hạn của các nghiên cứu trước nghiên cứu đề xuất phương pháp kết hợp giữađặc trưng trích xuất từ nội trung trang web và đặc trưng trích xuất từ ảnh ảnh chụp lạitrang web Tiến trình thể hiện ở sơ đồ (hình 2.7)
Hình 2.7: Mô kết hợp: giai đoạn phát hiện [8]
Ở nghiên cứu này tác giả sử dụng thuật toán học sâu để huấn luyện và phân loại dữliệu là: BiLSTM cho dữ liệu văn bản và EfficientNet cho dữ liệu ảnh chụp trang web
Kết quả phân loại của hai loại dữ liệu sau đó được kết hợp bằng hàm late fusion để cho
Trang 25Với tập dữ liệu khá lớn 96,234 trang web gồm: 57,134 trang bình thường và 39,100trang bị tấn công Deface Phương pháp cho kết quả phân tích rất tốt với tỷ lệ dự đoánchính xác lên đến 97.49% và tỷ lệ dự đoán sai dưới 1.49% Tuy nhiên, với việc sử dụngkỹ thuật học sâu mô hình yêu cầu tài nguyên tính toán khá lớn, đây cũng chính là điểmcải tiến tương lai mà tác giả đã đề cập trong nghiên cứu.
2.2.Các nghiên cứu tự động sinh chữ ký
Hiện nay trong mảng phát hiện tấn công Deface, chưa có nghiên cứu nào cho vấn đềtự động sinh chữ ký từ các cuộc tấn công đã biết Do đó, luận văn tham khảo các kỹ thuậtmở mảng tương đồng là hệ thống phát hiện xâm nhập (Intrusion Detection System)
Nghiên cứu thực hiện phân tích so sánh giữa các hệ thống như: Honeycyber, cock, ARBOR, Các đánh giá bao gồm liệu hệ thống có phát hiện các cuộc tấn côngmới trước khi tạo chữ ký hay không, phương pháp tạo chữ ký, tính phù hợp với nhiềuphiên bản sâu, loại chữ ký được tạo, các cuộc tấn công và sâu được bảo vệ, tỷ lệ cảnhbáo sai cũng như điểm mạnh và điểm yếu tương đối
Han-Kỹ thuật thường thấy ở các hệ thống là chuỗi con chung dài nhất (Longest Common
Substring) Nhìn chung, mỗi hệ thống sẽ có kỹ thuật sinh chữ ký khác nhau và khả năngtích hợp với các công cụ như Bro, Snort cũng khác nhau
hồi quy sâu (2019) [12]
Nghiên cứu tập trung cho hệ phát hiện xâm nhập Tuy nhiên, điểm tương đồng với đềtài là kỹ thuật sinh chữ ký bằng "chuỗi con chung dài nhất" Với chuỗi byte ”str” đượccoi là chuỗi ứng viên nếu nó xuất hiện trong ít nhât ”λ ” phần trăm trong các luồng độchại Ngoài ra, việc sinh chữ ký cũng kết hợp với bộ các biểu thức chính quy (regex)
Trong ngữ cảnh phát hiện tấn công Deface, với thành phần trang web là văn bản vàhình ảnh thì kỹ thuật chuỗi con chung dài nhất có thể áp dụng được cho vấn đề sinh chữký tự động
Trang 26– Phương pháp lai dựa trên dữ liệu trang web bị tấn công để xây dựng dữ liệu chữ kýkết hợp phân loại đặc trưng trang web bằng thuật toán học máy.
Như các nghiên cứu liên quan đã chỉ ra, việc so sánh giá trị băm các thành phần củatrang web sẽ khó có hiệu quả tốt với trang web có nội dung thay đổi liên tục Do đó, đểxây dựng mô hình hiệu quả sẽ có hai hướng để nghiên cứu mở rộng:
Một làPhân loại đặc trưng trang web bằng thuật toán học máy, học sâu Bằng kiểmchứng thực nghiệm, có thể thấy hướng nghiên cứu này rất có tiềm năng Cộng với việcdữ liệu sinh mới và năng lực tính toán phần cứng ngày càng cải thiện thì tiến trình huấnluyện mô hình sẽ nhanh chóng và hiệu quả hơn Tuy nhiên, sử dụng thuật toán học máy,học sâu đòi hỏi yêu cầu về tài nguyên tính toán lớn nên sẽ gặp trở ngại về chi phí khitriển khai thực tiễn Do đó sẽ cần nhiều các nghiên cứu để tối ưu hiệu suất ở mảng này
Hai làTận dụng dữ liệu các trang web bị tấn công để xây dựng cơ sở dữ liệu chữ ký.Đây là nguồn dữ liệu sẵn có và dồi dào, tuy nhiên trích xuất được thông tin là công việctiêu tốn nhiều thời gian
Các nghiên cứu gần đây vẫn chưa có nghiên cứu nào cho giải pháp xây dựng cơ sởdữ liệu chữ ký, do đó đây là khoảng trống mà đề tài tập trung nghiên cứu phát triển giảipháp hoàn thiện cho vấn đề này
Trang 27CHƯƠNG 3: NỀN TẢNG LÝ THUYẾT
3.1.Hàm băm và toàn vẹn dữ liệu [13]
Hàm băm là một hàm ánh xạ chuỗi nhị phân có độ dài bất kỳ thành chuỗi nhị phâncó độ dài cố định, gọi là giá trị băm Ý tưởng cơ bản là giá trị băm thể hiện một trạngthái ngắn gọn hơn đại diện được cho dữ liệu đầu vào
Thể hiện ở biểu thức như sau:
h(x) = yTrong đó x là dữ liệu đầu vào (pre-image), h là hàm băm và y là giá trị băm (image).Với một hàm băm bất kì với kết quả là n-bit (n = 128 hay 160), xác suất để sinh ngẫunhiên một chuỗi ánh xạ tới một giá trị băm cụ thể là 2−n Để được sử dụng trong mậtmã, hàm băm h được chọn cần tính chất:
– Tính bền vững đụng độ: Không thể tính toán được để tìm hai giá trị đầu vào, màbăm thành một giá trị chung x ̸= y, h(x) = h(y)
– Tính một chiều: Cho một giá trị băm y, không thể tính toán được tiền ảnh (preimage)xmà h(x) = y
Ứng dụng thông dụng nhất của hàm băm trong mật mã là chữ ký số (digital signature)và cho đảm bảo toàn vẹn dữ liệu (data integrity) Với chữ ký số, mục đích để xác địnhdữ liệu (tin nhắn, văn bản, hình ảnh, ) nhận được chính xác là của ai Để đảm bảo tốiưu tính toán, chuỗi dữ liệu dài sẽ được băm trước thành giá trị băm ngắn gọn, sau đóngười chủ dữ liệu sẽ ký lên chuỗi băm để xác nhận Sau cùng, người nhận sẽ thực hiệnbăm dữ liệu nhận được và xác nhận với chữ ký của người gửi
Khi giá trị đầu vào x thay đổi, ta có được giá trị băm y mới Do đó, hàm băm có thểđược sử dụng cho đảm bảo toàn vẹn dữ liệu như sau Người gửi thực hiện băm dữ liệuvà gửi kèm giá trị băm cho người nhận Người nhận tiến hành băm dữ liệu nhận được vàso sánh với giá trị băm của người gửi, nếu giống nhau có nghĩa dữ liệu nhận được khôngbị thay đổi Các ứng dụng thông thường bao gồm bảo vệ chống vi-rút và phân phối phầnmềm
Hàm băm như đã giới thiệu ở trên không có sự tham gia của khóa bí mật, được dùng
để kiểm tra dữ liệu đầu vào có bị thay đổi hay không Chúng được gọi là mã phát hiện
thay đổi (modification detection code) Khi sử dụng đến khóa bí mật, hàm băm sẽ cókhả năng xác thực thông điệp cũng như đảm bảo toàn vẹn dữ liệu, loại này được gọi là
mã xác thực thông điệp(message authentication code) Phân loại cho hai loại hàm bămnày được trình bày ở phần tiếp theo
Ở góc độ cấu trúc, dựa trên khả năng nén dữ liệu đầu vào hàm băm không có khóađược chia thành 3 loại: hàm băm dựa trên khối mã hóa (based on block ciphers), hàm
Trang 28băm tùy biến (customized hash function) và hàm băm dựa trên số học mô-đun (basedon modular arithmetic) Các hàm băm thông dụng của loại này như:
Bảng 3.1: Các hàm băm không có khóa
SHA-1, Thuật toán băm an toàn (Secure Hash Algorithm) dựa trên MD4 với 160 bitgiá trị băm lớn hơn 128 bit, cung cấp bảo mật tốt hơn chống lại các cuộc tấn công vétcạn (brute-force)
Các hàm băm có khóa mang mục đích để xác thực thông điệp được gọi là thuật toánmã xác thực thông điệp (MAC) Khóa MAC được kết hợp với các khối giá trị đầu vào,qua các bước lặp để sinh ra giá trị băm Việc xây dựng thuật toán MAC cũng có thể dựatrên MDC bằng cách kết hợp khóa k với giá trị đầu vào MDC
MAC dựa trên băm (hash based MAC) Cho một khóa k và hàm băm MDC h Tínhtoán MAC cho thông điệp x như sau: HMAC(x) = h(k||p1||h(k||p2||x)), trong đó p1, p2là các chuỗi riêng biệt có độ dài được bổ sung bằng với khóa k để phù hợp cho hàmnén Hiệu suất của hàm vẫn hiệu quả mặc dù hàm băm h được gọi hai lần, tuy nhiên lầngọi sau cùng cũng chỉ xử lý hai khối giá trị đầu vào và không phụ thuộc vào độ dài củathông điệp x
Sự đảm bảo thông thường bao gồm việc xác định được dữ liệu thực sự đến từ nguồnnào (data original authentication) và trạng thái của nó không bị thay đổi (data integrity).Hai vấn đề này là không thể tách rời vì: dữ liệu đã bị thay đổi sẽ có một nguồn mới vànếu không thể xác định được nguồn thì câu hỏi về sự thay đổi của dữ liệu cũng khôngthể trả lời Do đó, các cơ chế toàn vẹn dữ liệu sẽ có khả năng xác thực nguồn dữ liệu vàngược lại