1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Giải pháp cảnh báo kiểu tấn công an ninh mạng Deface và hiện thực

56 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giải pháp cảnh báo kiểu tấn công an ninh mạng Deface và hiện thực
Tác giả Hoàng Mạnh Thành
Người hướng dẫn TS. Nguyễn Đức Thái
Trường học Đại học Quốc gia TP. HCM, Trường Đại học Bách Khoa
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2024
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 56
Dung lượng 784,69 KB

Nội dung

Tóm tắt nội dungNội dung chính của luận văn là tập trung tìm hiểu về các phương pháp phát hiệnkiểu tấn công Deface trong an ninh mạng và trình bày đề xuất mô hình lai cho phân loạitrang

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA – ĐHQG - HCM

Cán bộ hướng dẫn khoa học : TS Nguyễn Đức Thái

ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

——————–

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc——————–

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Hoàng Mạnh Thành MSHV: 2170084Ngày, tháng, năm sinh: 01/12/1993 Nơi sinh: Đắk Lắk

I TÊN ĐỀ TÀI:

- Tên tiếng Việt: Giải pháp cảnh báo kiểu tấn công an ninh mạng Deface và hiện thực.- Tên tiếng Anh: Solution for warning type of cyber security attack Deface and im-plement

II NHIỆM VỤ VÀ NỘI DUNG:

- Nghiên cứu tổng quan kiểu tấn công Deface.- Nghiên cứu tất cả những nguyên nhân dẫn đến việc thay đổi nội dung hiển thị trêngiao diện web

- Đề xuất phương pháp phát hiện kiểu tấn công Deface.- Hiện thực phương pháp đề xuất

Trang 4

Lời cảm ơn

Tôi xin tỏ lòng biết ơn sâu sắc đến giáo viên hướng dẫn là Tiến sĩNguyễn Đức Thái đã tận tình hướng dẫn, chỉ bảo và định hướng cho bảnthân tôi từ quá trình chọn lọc lĩnh vực, quá trình tìm hiểu các công trìnhnghiên cứu liên quan và định hướng được phương hướng đi của luận vănnày

Tôi xin chân thành cám ơn quý thầy cô trong Khoa Khoa Học và KỹThuật Máy Tính, trường Đại Học Bách Khoa thành phố Hồ Chí Minh đãtận tình chỉ dạy các kiến thức về ngành cũng như các kinh nghiệm có thểứng dụng thực tế trong công nghiệp

Cuối cùng, tôi xin cám ơn các bạn bè, đồng nghiệp đã động viên giúpđỡ trong quá trình làm luận văn này

Do hạn chế về thời gian thực hiện nên chắc chắn đề tài không tránh khỏisai sót Vì vậy, rất mong nhận được sự đóng góp ý kiến của quý thầy cô vàcác bạn

Trang 5

Tóm tắt nội dung

Nội dung chính của luận văn là tập trung tìm hiểu về các phương pháp phát hiệnkiểu tấn công Deface trong an ninh mạng và trình bày đề xuất mô hình lai cho phân loạitrang web Trong đó là sự kết hợp giữa dữ liệu chữ ký được sinh tự động từ các cuộc tấncông đã biết và thuật toán học máy cây quyết định Bố cục chính của luận văn bao gồmtìm hiểu các nghiên cứu liên quan, đánh giá ưu điểm, nhược điểm của các phương phápnày cũng như tính ứng dụng trong thực tế và các bước hiện thực phương pháp đề xuất

Phần còn lại của luận văn tập trung vào việc đánh giá hệ thống, kết quả đạt được,đồng thời phân tích ưu nhược điểm của phương pháp đề xuất thực hiện và thảo luậnnhững vấn đề mà còn gặp phải Cuối cùng, đề xuất hướng phát triển tiếp theo của đề tàitrong tương lai

Abstract

The main content of the thesis focuses on investigating methods for detecting face attacks in network security and presenting a hybrid model proposal for classifyingwebsites This includes a combination of automatically generated signature data fromknown attacks and the decision tree machine learning algorithm The main structure ofthe thesis includes exploring related research, evaluating the advantages and disadvan-tages of these methods as well as their practical applications, and the steps to implementthe proposed method

De-The remaining part of the thesis focuses on system evaluation, achieved results, alyzing the advantages and disadvantages of the proposed method, and discussing theissues encountered Finally, it proposes future development directions for the topic

Trang 6

an-Lời cam đoan

Tôi xin cam đoan đề cương luận văn thạc sĩ này do chính bản thân tôi thựchiện dưới sự hướng dẫn và giám sát của Tiến sĩ Nguyễn Đức Thái Nội dungnghiên cứu hoàn toàn chưa được công bố trước đây, các số liệu hoặc ý tưởngsẽ được trích dẫn rõ ràng đến tác giả tại mục tài liệu tham khảo, còn lại cácý tưởng của bản thân tôi Đối với những số liệu cần được kiểm chứng, tôi sẽmô phỏng lại quá trình thực nghiệm hoặc sử dụng các mô hình đã được huấnluyện được cung cấp sẵn để xác minh ý tưởng của tác giả

Nếu có sự gian lận nào trong khuôn khổ luận văn thì tôi xin hoàn toànchịu trách nhiệm Trường Đại học Bách Khoa thành phố Hồ Chí Minh khôngliên quan gì đến những vi phạm bản quyền, hoặc vi phạm nào khác do bàiviết của tôi gây ra

Học viên

Trang 7

1.1 Tính cấp thiết của đề tài 1

1.2 Mục tiêu của đề tài 2

1.3 Đối tượng và phạm vi nghiên cứu 3

1.4 Phương pháp nghiên cứu 3

1.5 Bố cục của luận văn 3

CHƯƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN42.1 Các nghiên cứu phát hiện kiểu tấn công an ninh mạng Deface 42.1.1 Woonyon Kim: Giải pháp giảm tỷ lệ cảnh báo sai(2006) [1] 4

2.1.2 Hiện thực kỹ thuật phát hiện tấn công Deface (2015)[2] 4

2.1.3 Công cụ giám sát xâm nhập và Deface trang web:WDIMT (2017) [3] 5

Trang 8

2.1.4 Phương thức phát hiện Deface trang web dựa trên học

2.2 Các nghiên cứu tự động sinh chữ ký 12

2.2.1 Đánh giá các hệ thống tạo chữ ký tấn công tự động(2013) [11] 12

2.2.2 Phát hiện xâm nhập kết hợp và tạo chữ ký bằng cáchsử dụng mạng nơ-ron hồi quy sâu (2019) [12] 12

2.3 Kết luận 12

CHƯƠNG 3: NỀN TẢNG LÝ THUYẾT143.1 Hàm băm và toàn vẹn dữ liệu [13] 14

3.1.1 Hàm băm không có khóa (MDC) 14

3.1.2 Hàm băm có khóa MAC 15

3.1.3 Toàn vẹn dữ liệu và xác thực thông điệp 15

3.2 Thống kê xử lý ngôn ngữ tự nhiên [14] 16

3.2.1 Luật Zipf 16

3.3 Học máy [15] 18

3.3.1 Trích chọn đặc trưng (Feature Engineering) 19

3.3.2 Thuật toán học máy: Cây quyết định (Decision Tree) 20CHƯƠNG 4: PHƯƠNG PHÁP SINH CHỮ KÝ TỰ ĐỘNG VÀ ĐỀ XUẤT MÔHÌNH LAI CHO PHÂN LOẠI TRANG WEB224.1 Phương pháp giám sát trang web 22

4.2 Phương pháp thu thập và xử lý dữ liệu 22

4.2.1 Xác định thành phần của trang web 22

4.2.2 Phương pháp xử lý dữ liệu 23

4.3 Phương pháp sinh chữ ký tự động 23

4.3.1 Xác định ngưỡng thay đổi nội dung 23

Trang 9

4.3.3 Xây dựng bộ quy tắc 26

4.4 Phương pháp phát hiện kiểu tấn công an ninh mạng Deface: Môhình lai cho phân lại trang web 27

4.4.1 Giai đoạn huấn luyện 28

4.4.2 Giai đoạn phát hiện 30

4.5 Trực quan hóa dữ liệu với công cụ Apache Superset [16] 32

4.5.1 Xác định các thành phần chính của trang web 33

4.5.2 Xác định tham số cho chuỗi con chung 34

CHƯƠNG 5: KẾT QUẢ VÀ THẢO LUẬN355.1 Tổng quan dữ liệu thu tập 35

5.3.2 Hiệu suất phát hiện tấn công bằng chữ ký 36

5.3.3 Hiệu suất mô hình lai 37

Trang 10

Danh sách bảng

3.1 Các hàm băm không có khóa 15

3.2 Đánh giá thực nghiệm định luật Zipf trên Tom Sawyer [14] 17

4.1 Tần số xuất hiện của thành phần văn bản ở các deface 25

4.2 Bộ các từ danh sách trắng 27

4.3 Trực quan đặc trưng tần số từ 29

5.1 Thông tin dữ liệu huấn luyện 35

5.2 Thông tin dữ liệu kiểm thử 35

5.3 Bảng thông số thực nghiệm 36

5.4 Kết quả kiểm thử phát hiện bằng dữ liệu chữ ký 37

5.5 Thông tin dữ liệu kiểm thử 37

Trang 11

Danh sách hình vẽ

1.1 Các màn hình thông báo ở sân bay Nội Bài được tắt khi bị tấn công 1

1.2 Thống kê các cuộc tấn công Deface từ 2015-2023 [17] 2

2.1 Trang web WDIMT với trạng thái thay đổi của các tập tin [3] 5

2.2 Các bước giai trong đoạn huấn luyện [4] 6

2.3 Tiến trình cập nhật làm mới tập tin băm [6] 7

2.4 Mô hình lai: giai đoạn huấn luyện [6] 8

2.5 Mô hình lai: giai đoạn phát hiện [6] 9

2.6 Mô nhiều lớp: giai đoạn phát hiện [8] 10

2.7 Mô kết hợp: giai đoạn phát hiện [8] 11

3.1 Mối quan hệ giữa hạng và tần suất xuất hiện của từ 17

3.2 Quy trình xây dựng hệ thống học máy 18

3.3 Góc nhìn hệ thống 19

3.4 Thể hiện văn bản dưới dạng vectơ đặc trưng túi từ (bag-of-words) 20

3.5 Mô hình cây quyết định với đặc trưng x 21

4.1 Sơ đồ giám sát từ xa 22

4.2 Trang web bị thay đổi tiêu đề 24

4.3 Sơ đồ xây dựng CSDL chữ ký tấn công 26

4.4 Minh họa các từ thông dụng ở tiêu đề trang web 27

4.5 Giai đoạn huấn luyện 28

4.6 Sơ đồ giai đoạn phát hiện 30

4.7 Bảng điều khiển gồm các biểu đồ trực quan 33

4.8 Tỉ lệ thành phần trang web 33

4.9 Bảng tần suất xuất hiện thành phần văn bản 34

4.10 Biểu đồ hộp tần số xuất hiện và độ dài thành phần văn bản 34

Trang 12

Danh sách thuật toán

4.1 Thuật toán so sánh chữ ký 314.2 Thuật toán phân loại nội dung văn bản 32

Trang 13

Danh sách mã

4.1 Mẫu nội dung các thẻ trong tệp HTML 23

Trang 14

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1.Tính cấp thiết của đề tài

Tấn công Deface là kiểu tấn công khai thác lỗ hổng bảo mật của các trang web đểthay đổi nội dung hiển thị thông qua hình ảnh, câu chữ, âm thanh hay đoạn phim Theo[18], các thay đổi không được phép này bao gồm:

– Thay đổi nội dung của một trang web.– Thay đổi bất kỳ phần nội dung nào của trang web.– Thay thế hoàn toàn một trang web

– Chuyển hướng một trang web.– Phá hủy hoặc xóa một trang web

Đối với tổ chức cá nhân, doanh nghiệp điều này gây ảnh hưởng rất lớn tới uy tín vàgây thất thoát doanh thu khi người dùng không còn tin tưởng vào khả năng bảo mật,an toàn thông tin của sản phẩm Bên cạnh đó, các cuộc tấn công cũng nhằm vào các tổchức, chính phủ nhằm mục đích chính trị

Đơn cử vào khoảng 16h 29/07/2016 Hai sân bay Nội Bài và Tân Sơn Nhất bị tấncông [19] Các màn hình hiển thị thông tin chuyến bay bất ngờ bị chèn nội dung kíchđộng, xuyên tạc về Biển Đông Ngay lúc đó, các nhà chức trách đã tắt toàn bộ hệ thốngâm thanh và màn hình Các thủ tục bay được thực hiện thủ công để đảm bảo an toàn bayvà đến 17h45 sự cố cơ bản đã được khắc phục

Hình 1.1: Các màn hình thông báo ở sân bay Nội Bài được tắt khi bị tấn công.

Trang 15

Theo thống kê từ zone-h.org Các cuộc tấn công Deface có chiều hướng giảm dầntừ 2015-2023 Với số lương nhiều nhất vào năm 2015, 2017 và tới nay năm 2023 đã ghinhận lượt tấn công thấp nhất trong khoảng 100 nghìn lượt.

Hình 1.2: Thống kê các cuộc tấn công Deface từ 2015-2023 [17]

Mặc dù số lượng tấn công Deface tới nay ghi nhận giảm khá nhiều, tuy nhiên vẫncòn ở mức cao với khoảng 100 nghìn lượt năm 2023 Trang web bị tấn công gây tổn hạiuy tín của cá nhân, doanh nghiệp, tổ chức chính phủ Thiệt hại không chỉ ở kinh tế màcòn có thể gây bất ổn an ninh, xã hội Việc xây dựng được giải pháp cảnh báo kịp thờicuộc tấn công Deface để có thể xử lý khắc phục, giảm thiểu rủi ro là rất cấp thiết hiệnnay Do đó, bản thân tôi chọn đề tài: "Giải pháp cảnh báo kiểu tấn công an ninh mạngDeface và hiện thực" để giảm thiểu ảnh hưởng thiệt hại cho cá nhân, doanh nghiệp haytổ chức

1.2.Mục tiêu của đề tài

– Mục tiêu chung: Đề xuất và hiện thực giải pháp phát hiện kiểu tấn công Deface.– Mục tiêu cụ thể:

+ Xây dựng hệ thống phát hiện kiểu tấn công Deface và gửi cảnh báo qua emailcho quản trị viên

+ Xây dựng cơ sở dữ liệu chữ ký từ các cuộc tấn công đã biết, dựa trên dữ liệu từzone-h

+ Hệ thống được triển khai trên hạ tầng thông dụng để phù hợp triển khai thựctiễn

Trang 16

1.3.Đối tượng và phạm vi nghiên cứu

– Đối tượng nghiên cứu: Trang web và kiểu tấn công Deface trong an ninh mạng.– Phạm vi nghiên cứu: Trang web nội dung tiếng Anh, tiếng Việt bao gồm hai thành

phần chính là văn bản và hình ảnh trong tệp HTML tải về

1.4.Phương pháp nghiên cứu

Để đạt được các mục tiêu nghiên cứu và trong giới hạn phạm vi đã đề cập ở trên, đềtài áp dụng phương pháp nghiên cứu thực nghiệm Xây dựng hệ thống phát hiện kiểutấn công Deface và kiểm thử kết quả với tập dữ liệu thu thập

Thông số thực nghiệm như sau:

– Khung mẫu dữ liệu huấn luyện: Gồm 9260 trang web ngẫu nhiên theo tỉ lệ.

+ 5174 trang web bị tấn công Deface thu thập từ zone-h.+ 4086 trang web bình thường tiếng Anh và tiếng Việt thuộc các lĩnh vực

chung

– Cỡ mẫu dữ liệu kiểm thử: Gồm 142 trang web ngẫu nhiên theo tỉ lệ

+ 70 trang web bị tấn công Deface thu thập từ zone-h+ 45 trang web bình thường tiếng Anh và tiếng Việt thuộc các lĩnh vực chung

– Đối tượng thí điểm: Trang web tiếng Anh và tiếng Việt– Phương pháp lấy mẫu: chọn mẫu không xác suất.

1.5.Bố cục của luận văn

Ngoài Chương 1: Giới thiệu đề tài Luận văn gồm các phần sau:– Chương 2: Những công trình liên quan Tổng quan các nghiên cứu liên quan,

những hạn chế về giải pháp hiện tại

– Chương 3: Nền tảng lý thuyết Tóm tắt về hàm băm và toàn vẹn dữ liệu và thuật

toán học máy cho phân loại

– Chương 4: Phương pháp sinh chữ ký tự động và đề xuất mô hình lai cho phân

loại trang web Trình bày mô hình lai cho phân loại trang web bị deface haybình thường và cách tiếp cận mới cho việc sinh chữ ký tự động

– Chương 5: Kết quả và thảo luận Trình bày kết quả thực nghiệm, đánh giá so

sánh với kết quả của các nghiên cứu trước đó

– Chương 6: Kết luận và hướng phát triển Đánh giá kết quả đề tài và định hướng

phát triển tiếp theo

Trang 17

CHƯƠNG 2: NHỮNG CÔNG TRÌNH LIÊN QUAN

2.1.Các nghiên cứu phát hiện kiểu tấn công an ninh mạng Deface

Bài báo tính tới thời điểm hiện tại đã qua thời gian khá dài, tuy nhiên kết quả và cáckỹ thuật đều được các nghiên cứu sau này làm nền tảng để triển khai mở rộng

Tác giả đã chỉ giới hạn của việc sử dụng hàm băm để phát hiện thay đổi trên trangweb, bởi vì các máy chủ web phản hồi dữ liệu được soạn bằng cách chạy các tập lệnhphía máy chủ hoặc hệ thống quản lý cơ sở dữ liệu truy vấn khi người dùng gửi yêu cầulên các trang web, do đó nội dung của các trang web liên tục khác nhau Để giải quyếtvấn đề này nghiên cứu đề xuất giải pháp trích xuất đặc trưng của trang web trước và sau,sau đó tính toán sự tương đồng và dựa trên một ngưỡng nhất định để phát cảnh báo Nhưvậy, về tổng quan có thể thấy giải pháp đề xuất của tác giả khá tương đồng với một hệthống học máy

Để trích xuất đặc trưng của trang web, nghiên cứu sử dụng mô hình n-gram là các

kí tự liền kề của một chuỗi với n = 2 Dựa theo luật Zipf sẽ luôn có một bộ các từ vớitần suất xuất hiện ưu thế hơn các từ khác của ngôn ngữ đang sử dụng Do đó, trang webđược tải tại hai thời điểm khác nhau nên có cùng phân phối 2-gram

Sau khi đã có bộ tần suất từ của trang web gọi là bộ vectơ đặc trưng, thì việc so sánh

tương đồng khá đơn giản với việc tính khoảng cách sim(ti, tj)cosin của vectơ trước vàsau khi giám sát Việc phát cảnh báo sẽ dựa trên một ngưỡng nhất định, ngưỡng này cầnđược khởi tạo giá trị ban đầu khi chạy hệ thống và do nội dung trang web sẽ thay đổitheo thời gian cho nên nghiên cứu cũng đã đề xuất giải pháp định kỳ cập nhật ngưỡngcảnh báo cho trang web (2 lần mỗi ngày)

Mặc dù kết quả thực nghiệm giải pháp cập nhật ngưỡng định kỳ khá tốt, tuy nhiênvới các trang web có nội dung thay đổi liên tục thì sẽ khó có thể có hiệu quả cao Mặtkhác, việc tính tương đồng bằng cosin khá đơn giản và với sự phát triển của các thuậttoán học máy ngày nay thì đây sẽ là khoảng trống cho các nghiên cứu mới có thể tối ưu

Nghiên cứu xây dựng một mô-đun dịch vụ web Apache cho phát hiện tấn côngDeface Cơ chế phát hiện thay đổi dựa trên so sánh giá trị băm các tập tin HTML Tuynhiên, kỹ thuật này chỉ phù hợp cho trang web tĩnh và với trang web động có nội dungthay đổi liên tục sẽ không hiệu quả Đây cũng chính là điểm hạn chế mà tác giả đề cậpđể phát triển cho nghiên cứu sau này

Trang 18

2.1.3Công cụ giám sát xâm nhập và Deface trang web: WDIMT (2017) [3]

WDIMT là công cụ được sử dụng để phát hiện hành vi phá hoại trang web Kiếntrúc triển khai với hai máy tính linux và window cho hai nhiệm vụ:

• Máy linux: để quản trị viên thực hiện giám sát hệ thống, khởi tạo lại trạng thái banđầu khi bị tấn công hay xác nhận trạng thái các tập tin trên máy chủ là an toàn.• Máy window: là giao diện tương tác người dùng, thể hiện các trạng thái của tập tin:

tạo, xóa, sửa (hình 2.1)

Hình 2.1: Trang web WDIMT với trạng thái thay đổi của các tập tin [3]

Để xác thực sự thay đổi của trang web, công cụ sử dụng kỹ thuật so sánh giá trị băm

của các file trên trang web Đây là điểm giới hạn mà nghiên cứu của Woonyon Kim đã

chỉ ra, các trang web ngày nay với nội dung thay đổi liên tục thì việc so sánh giá trị bămsẽ cho ra cảnh báo sai và không hiệu quả

Một giới hạn thứ hai của công cụ là việc triển khai khá phức tạp Với hai máy linuxvà window, sử dụng quản trị cần thành thạo các câu lệnh linux sẽ là trở ngại cho ngườidùng, do đó sẽ khó có thể đạt hiệu quả tốt

Nghiên cứu đề xuất phương pháp phát hiện Deface dựa trên học máy gồm 2 giaiđoạn:

• Giai đoạn 1: thu thập dữ liệu bao gồm trang web trạng thái bình thường và trangweb bị tấn công Deface từ zone-h.org (hình 2.2)

• Giai đoạn 2: Tiền xử lý dữ liệu và trích xuất đặc trưng để làm giữ liệu đầu vào chothuật toán học máy

Trang 19

Hình 2.2: Các bước giai trong đoạn huấn luyện [4]

Việc trích xuất đặc trưng tác giả cũng sử dụng mô hình n-gram với n=2 và 3 Tiếnhành tính toán tần suất xuất hiện của các gram (term frequency) và chọn 300 tần suất

cao nhất để xây dựng vectơ đặc trưng Sau đó, sử dụng 2 thuật toán học máy Na¨ıve Bayesvà Cây quyết định J48 để phân loại

Tổng quan thực nghiệm, thuật toán cây quyết định J48 cho kết quả tốt hơn Na¨ıveBayes Tỷ lệ phân loại chính xác lên đến 93% và cảnh báo sai dưới 1% cho mọi trườnghợp Từ đây cho thấy, các kỹ thuật học máy rất có tiềm năng cho xây dựng hệ thống pháthiện tấn công Deface hiệu quả

Mặt khác, tập dữ liệu khá nhỏ tổng cộng 400 trang web nên cần nghiên cứu với tậpdữ liệu thực tế để mang tính thực tiễn hơn

Nghiên cứu tập trung vào phân tích các trang web bị tấn công Deface Tự động nhậndiện chiến dịch, phân lớp các trang web tương đồng vào cùng cụm và gán nhãn cho cụmđó Dữ liệu được trực quan hóa thành các bảng, biểu đồ cho thấy rằng các thông tin docác kẻ tấn công để lại cho phép một nhà phân tích chuyên môn điều tra phương thứchoạt động và cấu trúc xã hội của các tác nhân, đồng thời mở rộng từ một trang defaceduy nhất sang một nhóm các deface liên quan

Phương pháp nghiên cứu đề xuất không chỉ tập trung vào việc phát hiện mà còn tậptrung vào các cơ chế phòng ngừa và tự bảo vệ để giảm thiểu tác động của việc Defacetrang web Mô hình triển khai gồm 2 thành phần:

– Thành phần máy khách là tập lệnh python được cài đặt trên máy chủ web được giámsát Mỗi lần thực thi tập lệnh, một tập tin chứa giá trị băm của tất cả các tệp củatrang web sẽ được tạo Tập tin này sau đó được tải lên máy chủ ngoại tuyến

– Thành phần máy chủ sẽ so sánh tệp tin nhận được từ máy khách với các giá trị thamchiếu của chúng được lưu trữ trên máy chủ ngoại tuyến

Tại mỗi lần thay đổi nội dung tập tin của trang web, quản trị viên sẽ xác nhận vàtăng giá trị λ lưu trữ trên máy chủ Tiếp đó, giá trị băm mới của trang web sẽ được cậpnhật (hình 2.3)

Trang 20

Hình 2.3: Tiến trình cập nhật làm mới tập tin băm [6]

Khi giá trị băm ở máy chủ và máy khách khác nhau, cùng đó là giá trị λ không hợplệ thì có nghĩa hệ thống đã bị xâm nhập, các tập tin trên trang web giám sát đã bị thayđổi bất hợp lệ Lúc này, hệ thống sẽ tải lại các tập tin ở trạng thái ban đầu đề khắc phụcsự cố

Nhìn chung, phương pháp nghiên cứu đề xuất khá tương đồng với công cụ WDIMTvới hai thành phần: máy khách và máy chủ, và cơ chế khôi phục trạng thái gốc để khắcphục sự cố Cùng với đó là việc so sánh giá trị băm của các tập tin sẽ khó có thể có hiệuquả, khi dữ liệu được truy vấn từ cơ sở dữ liệu và thay đổi liên tục

công (2019)[7]

Là nghiên cứu mở rộng từ nghiên cứu trước của tác giả [4] với việc kết hợp thêm

thông tin từ các trang web đã bị tấn công Deface trước đó gọi là chữ ký tấn công (attack

signatures) và thuật toán học máy cho phân loại.Giai đoạn huấn luyện (hình 2.4) có ba điểm chính: tạo giá trị băm của trang web,huấn luyện mô hình học máy và tạo chữ ký tấn công

Trang 21

Hình 2.4: Mô hình lai: giai đoạn huấn luyện [6]

Giai đoạn phát hiện (hình 2.5) tiến trình gồm các bước chính như sau:– Tải nội dung trang web, tiến hành trích xuất và so sánh chữ ký tấn công với cơ sở

dữ liệu chữ ký đã xây dựng ở giai đoạn huấn luyện Nếu kết quả không phát hiện bịtấn công tiến trình tới bước tiếp theo

– Phân loại với mô hình học máy đã huấn luyện Kết quả ở bước này sẽ là bị tấn cônghay không

– Kiểm tra thay đổi nội dung trang web bằng việc so sánh giá trị băm của nội trungtrang trước và tại thời điểm giám sát Nếu kết quả là có thay đổi sẽ phát cảnh báocho quản trị viên để xác nhận và cập nhật lại dữ liệu băm

Trang 22

Hình 2.5: Mô hình lai: giai đoạn phát hiện [6]

Kết quả tổng quan thực nghiệm của mô hình rất tốt với độ chính xác lên đến 99.26%và tỷ lệ dự đoán sai dưới 0.62% Có thể nói là kết quả nổi trội nhất trong các nghiên cứunhững năm gần đây Và việc sử dụng thuật toán học máy đơn giản, mô hinh tiêu tốn íttài nguyên tính toán hơn

Với phương thức so sánh chữ ký tấn công tỷ lệ phát hiện từ 22%-47% và không códự đoán sai cho thông tin trích xuất từ 50 trang web bị tấn công Mặc dù phương pháptrích xuất chữ ký chưa được tác giả thể hiện cụ thể trong nghiên cứu tuy nhiên có thểthấy rằng có thể xây dựng mô hình cho hiệu suất tốt hơn dựa vào nguồn dữ liệu này

Mặt khác, như các nghiên cứu trước đã chỉ ra việc so sánh giá trị băm của trang webtrước và sau sẽ khó có hiệu suất tốt với các trang web có nội dung thay đổi liên tục

Việc xây dựng dữ liệu chữ ký tấn công từ trang web bị tấn công đã biết là quá trìnhtiêu tốn nhiều thời gian và phương pháp so sánh chuỗi băm các tệp JS, CSS sẽ khônghiệu quả với trang web có nội dung thay đổi liên tục Do đó, ở nghiên cứu này tác giảđề xuất phương pháp cải tiến với nhiều lớp xử lý để xác thực nội dung trang web (hình2.6)

Thay đổi ở nghiên cứu này ở hai điểm chính:– Phân loại tập tin JS, CSS của trang web bằng thuật toán học máy thay vì sử dụng

hàm băm

Trang 23

Hình 2.6: Mô nhiều lớp: giai đoạn phát hiện [8]

Mô hình cho kết quả khá tốt với tỷ lệ dự đoán chính xác lên đến 98.8% và tỷ lệ dựđoán sai dưới 1.04% Tuy nhiên, việc so sánh giá trị băm của hình ảnh tải về từ trangweb cũng sẽ khó có hiệu quả tốt khi hình ảnh mới chưa có trong cơ sở dữ liệu băm sẽcho ra cảnh báo sai Và với các trang web có lượng hình ảnh lớn, cập nhật liên tục nhưcác trang thương mại điện tử điều này sẽ khiến cho hiệu suất hệ thống khó có thể đạtcao

trên giám sát ngẫu nhiên (2019) [9]

Ở bài báo này, tác giải không trình bày một kỹ thuật phát hiện tấn công Deface cụthể mà tập trung nghiên cứu về vấn đề giám sát trang web theo chu kỳ

Theo tác giả, việc giám sát trang web theo chu kỳ cố định để lại lỗ hổng cho kẻ tấncông có thể phát hiện và tránh thời điểm giám sát để thực hiện tấn công Do đó, nghiêncứu để xuất các chiến lược giám sát sang web ngẫu nhiên như sau:

Trang 24

– Thuật toán giám sát ngẫu nhiên thống nhất (Uniform Random Monitoring rithm (URMA)): chọn một vị trí cho mỗi vòng giám sát (MR) theo phân bố đồngđều; các vị trí đã chọn được giám sát, cho dù chúng có sai định dạng đối với các vịtrí không được chọn hay không được giám sát

Algo-– Thuật toán giám sát ngẫu nhiên dựa trên thiệt hại (Attack Damage-Based RandomMonitoring Algorithm (ADRMA)

Cuối cùng, nghiên cứu thực nghiệm ý tưởng và đạt được kết quả tốt hơn so vớiphương pháp giám sát theo chu kỳ cố định

[10]

Từ giới hạn của các nghiên cứu trước nghiên cứu đề xuất phương pháp kết hợp giữađặc trưng trích xuất từ nội trung trang web và đặc trưng trích xuất từ ảnh ảnh chụp lạitrang web Tiến trình thể hiện ở sơ đồ (hình 2.7)

Hình 2.7: Mô kết hợp: giai đoạn phát hiện [8]

Ở nghiên cứu này tác giả sử dụng thuật toán học sâu để huấn luyện và phân loại dữliệu là: BiLSTM cho dữ liệu văn bản và EfficientNet cho dữ liệu ảnh chụp trang web

Kết quả phân loại của hai loại dữ liệu sau đó được kết hợp bằng hàm late fusion để cho

Trang 25

Với tập dữ liệu khá lớn 96,234 trang web gồm: 57,134 trang bình thường và 39,100trang bị tấn công Deface Phương pháp cho kết quả phân tích rất tốt với tỷ lệ dự đoánchính xác lên đến 97.49% và tỷ lệ dự đoán sai dưới 1.49% Tuy nhiên, với việc sử dụngkỹ thuật học sâu mô hình yêu cầu tài nguyên tính toán khá lớn, đây cũng chính là điểmcải tiến tương lai mà tác giả đã đề cập trong nghiên cứu.

2.2.Các nghiên cứu tự động sinh chữ ký

Hiện nay trong mảng phát hiện tấn công Deface, chưa có nghiên cứu nào cho vấn đềtự động sinh chữ ký từ các cuộc tấn công đã biết Do đó, luận văn tham khảo các kỹ thuậtmở mảng tương đồng là hệ thống phát hiện xâm nhập (Intrusion Detection System)

Nghiên cứu thực hiện phân tích so sánh giữa các hệ thống như: Honeycyber, cock, ARBOR, Các đánh giá bao gồm liệu hệ thống có phát hiện các cuộc tấn côngmới trước khi tạo chữ ký hay không, phương pháp tạo chữ ký, tính phù hợp với nhiềuphiên bản sâu, loại chữ ký được tạo, các cuộc tấn công và sâu được bảo vệ, tỷ lệ cảnhbáo sai cũng như điểm mạnh và điểm yếu tương đối

Han-Kỹ thuật thường thấy ở các hệ thống là chuỗi con chung dài nhất (Longest Common

Substring) Nhìn chung, mỗi hệ thống sẽ có kỹ thuật sinh chữ ký khác nhau và khả năngtích hợp với các công cụ như Bro, Snort cũng khác nhau

hồi quy sâu (2019) [12]

Nghiên cứu tập trung cho hệ phát hiện xâm nhập Tuy nhiên, điểm tương đồng với đềtài là kỹ thuật sinh chữ ký bằng "chuỗi con chung dài nhất" Với chuỗi byte ”str” đượccoi là chuỗi ứng viên nếu nó xuất hiện trong ít nhât ”λ ” phần trăm trong các luồng độchại Ngoài ra, việc sinh chữ ký cũng kết hợp với bộ các biểu thức chính quy (regex)

Trong ngữ cảnh phát hiện tấn công Deface, với thành phần trang web là văn bản vàhình ảnh thì kỹ thuật chuỗi con chung dài nhất có thể áp dụng được cho vấn đề sinh chữký tự động

Trang 26

– Phương pháp lai dựa trên dữ liệu trang web bị tấn công để xây dựng dữ liệu chữ kýkết hợp phân loại đặc trưng trang web bằng thuật toán học máy.

Như các nghiên cứu liên quan đã chỉ ra, việc so sánh giá trị băm các thành phần củatrang web sẽ khó có hiệu quả tốt với trang web có nội dung thay đổi liên tục Do đó, đểxây dựng mô hình hiệu quả sẽ có hai hướng để nghiên cứu mở rộng:

Một làPhân loại đặc trưng trang web bằng thuật toán học máy, học sâu Bằng kiểmchứng thực nghiệm, có thể thấy hướng nghiên cứu này rất có tiềm năng Cộng với việcdữ liệu sinh mới và năng lực tính toán phần cứng ngày càng cải thiện thì tiến trình huấnluyện mô hình sẽ nhanh chóng và hiệu quả hơn Tuy nhiên, sử dụng thuật toán học máy,học sâu đòi hỏi yêu cầu về tài nguyên tính toán lớn nên sẽ gặp trở ngại về chi phí khitriển khai thực tiễn Do đó sẽ cần nhiều các nghiên cứu để tối ưu hiệu suất ở mảng này

Hai làTận dụng dữ liệu các trang web bị tấn công để xây dựng cơ sở dữ liệu chữ ký.Đây là nguồn dữ liệu sẵn có và dồi dào, tuy nhiên trích xuất được thông tin là công việctiêu tốn nhiều thời gian

Các nghiên cứu gần đây vẫn chưa có nghiên cứu nào cho giải pháp xây dựng cơ sởdữ liệu chữ ký, do đó đây là khoảng trống mà đề tài tập trung nghiên cứu phát triển giảipháp hoàn thiện cho vấn đề này

Trang 27

CHƯƠNG 3: NỀN TẢNG LÝ THUYẾT

3.1.Hàm băm và toàn vẹn dữ liệu [13]

Hàm băm là một hàm ánh xạ chuỗi nhị phân có độ dài bất kỳ thành chuỗi nhị phâncó độ dài cố định, gọi là giá trị băm Ý tưởng cơ bản là giá trị băm thể hiện một trạngthái ngắn gọn hơn đại diện được cho dữ liệu đầu vào

Thể hiện ở biểu thức như sau:

h(x) = yTrong đó x là dữ liệu đầu vào (pre-image), h là hàm băm và y là giá trị băm (image).Với một hàm băm bất kì với kết quả là n-bit (n = 128 hay 160), xác suất để sinh ngẫunhiên một chuỗi ánh xạ tới một giá trị băm cụ thể là 2−n Để được sử dụng trong mậtmã, hàm băm h được chọn cần tính chất:

– Tính bền vững đụng độ: Không thể tính toán được để tìm hai giá trị đầu vào, màbăm thành một giá trị chung x ̸= y, h(x) = h(y)

– Tính một chiều: Cho một giá trị băm y, không thể tính toán được tiền ảnh (preimage)xmà h(x) = y

Ứng dụng thông dụng nhất của hàm băm trong mật mã là chữ ký số (digital signature)và cho đảm bảo toàn vẹn dữ liệu (data integrity) Với chữ ký số, mục đích để xác địnhdữ liệu (tin nhắn, văn bản, hình ảnh, ) nhận được chính xác là của ai Để đảm bảo tốiưu tính toán, chuỗi dữ liệu dài sẽ được băm trước thành giá trị băm ngắn gọn, sau đóngười chủ dữ liệu sẽ ký lên chuỗi băm để xác nhận Sau cùng, người nhận sẽ thực hiệnbăm dữ liệu nhận được và xác nhận với chữ ký của người gửi

Khi giá trị đầu vào x thay đổi, ta có được giá trị băm y mới Do đó, hàm băm có thểđược sử dụng cho đảm bảo toàn vẹn dữ liệu như sau Người gửi thực hiện băm dữ liệuvà gửi kèm giá trị băm cho người nhận Người nhận tiến hành băm dữ liệu nhận được vàso sánh với giá trị băm của người gửi, nếu giống nhau có nghĩa dữ liệu nhận được khôngbị thay đổi Các ứng dụng thông thường bao gồm bảo vệ chống vi-rút và phân phối phầnmềm

Hàm băm như đã giới thiệu ở trên không có sự tham gia của khóa bí mật, được dùng

để kiểm tra dữ liệu đầu vào có bị thay đổi hay không Chúng được gọi là mã phát hiện

thay đổi (modification detection code) Khi sử dụng đến khóa bí mật, hàm băm sẽ cókhả năng xác thực thông điệp cũng như đảm bảo toàn vẹn dữ liệu, loại này được gọi là

mã xác thực thông điệp(message authentication code) Phân loại cho hai loại hàm bămnày được trình bày ở phần tiếp theo

Ở góc độ cấu trúc, dựa trên khả năng nén dữ liệu đầu vào hàm băm không có khóađược chia thành 3 loại: hàm băm dựa trên khối mã hóa (based on block ciphers), hàm

Trang 28

băm tùy biến (customized hash function) và hàm băm dựa trên số học mô-đun (basedon modular arithmetic) Các hàm băm thông dụng của loại này như:

Bảng 3.1: Các hàm băm không có khóa

SHA-1, Thuật toán băm an toàn (Secure Hash Algorithm) dựa trên MD4 với 160 bitgiá trị băm lớn hơn 128 bit, cung cấp bảo mật tốt hơn chống lại các cuộc tấn công vétcạn (brute-force)

Các hàm băm có khóa mang mục đích để xác thực thông điệp được gọi là thuật toánmã xác thực thông điệp (MAC) Khóa MAC được kết hợp với các khối giá trị đầu vào,qua các bước lặp để sinh ra giá trị băm Việc xây dựng thuật toán MAC cũng có thể dựatrên MDC bằng cách kết hợp khóa k với giá trị đầu vào MDC

MAC dựa trên băm (hash based MAC) Cho một khóa k và hàm băm MDC h Tínhtoán MAC cho thông điệp x như sau: HMAC(x) = h(k||p1||h(k||p2||x)), trong đó p1, p2là các chuỗi riêng biệt có độ dài được bổ sung bằng với khóa k để phù hợp cho hàmnén Hiệu suất của hàm vẫn hiệu quả mặc dù hàm băm h được gọi hai lần, tuy nhiên lầngọi sau cùng cũng chỉ xử lý hai khối giá trị đầu vào và không phụ thuộc vào độ dài củathông điệp x

Sự đảm bảo thông thường bao gồm việc xác định được dữ liệu thực sự đến từ nguồnnào (data original authentication) và trạng thái của nó không bị thay đổi (data integrity).Hai vấn đề này là không thể tách rời vì: dữ liệu đã bị thay đổi sẽ có một nguồn mới vànếu không thể xác định được nguồn thì câu hỏi về sự thay đổi của dữ liệu cũng khôngthể trả lời Do đó, các cơ chế toàn vẹn dữ liệu sẽ có khả năng xác thực nguồn dữ liệu vàngược lại

Ngày đăng: 25/09/2024, 14:33

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] W. Kim et al., “Advanced mechanism for reducing false alarm rate in web page defacement detection,” in Proceedings of the 7th International Workshop on Infor- mation Security Applications, Jeju Island, Korea, 28–30 August, 2006 Sách, tạp chí
Tiêu đề: et al.", “Advanced mechanism for reducing false alarm rate in web pagedefacement detection,” in"Proceedings of the 7th International Workshop on Infor-mation Security Applications
[2] R. K. Verma and S. Sayyad, “Implementation of web defacement detection tech- nique,” International Journal of Innovations in Engineering and Technology (IJIET), vol. 6, 2015 Sách, tạp chí
Tiêu đề: Implementation of web defacement detection tech-nique,” "International Journal of Innovations in Engineering and Technology(IJIET)
[3] M. Masango et al., “Web defacement and intrusion monitoring tool: Wdimt,” in Proceedings of the 2017 International Conference, Cyberworlds (CW), Chester, UK, 20–22 September, 2017 Sách, tạp chí
Tiêu đề: et al.", “Web defacement and intrusion monitoring tool: Wdimt,” in"Proceedings of the 2017 International Conference
[4] X. D. Hoang, “A website defacement detection method based on machine learning techniques,” in Proceedings of the International Conference on Engineering Re- search and Applications (ICERA), Thai-Nguyen, Vietnam, 1–2 December, 2018 Sách, tạp chí
Tiêu đề: A website defacement detection method based on machine learningtechniques,” in "Proceedings of the International Conference on Engineering Re-search and Applications (ICERA)
[5] F. Maggi et al., “Investigating web defacement campaigns at large,” in Proceed- ings of the 2018 on Asia Conference on Computer and Communications Security, Incheon, Korea, 4–8 June, 2018, p. 443–456 Sách, tạp chí
Tiêu đề: et al.", “Investigating web defacement campaigns at large,” in "Proceed-ings of the 2018 on Asia Conference on Computer and Communications Security
[6] B.-M. Mao and K. D. Bagolibe, “A contribution to detect and prevent a website de- facement,” in Proceedings of the 2019 International Conference, on Cyberworlds (CW), Kyoto, Japan, 2–4 October, 2019 Sách, tạp chí
Tiêu đề: A contribution to detect and prevent a website de-facement,” in"Proceedings of the 2019 International Conference
[7] X. D. Hoang and N. T. Nguyen, “Detecting website defacements based on machine learning techniques and attack signatures,” Computers, vol. 8, no. 35, 2019 Sách, tạp chí
Tiêu đề: Detecting website defacements based on machinelearning techniques and attack signatures,”"Computers
[8] X. D. Hoang et al., “A multi-layer model for website defacement detection,” in SoICT’19: Tenth International Symposium on Information and Communication Technology. Hanoi - Ha Long Bay, Vietnam, December 4 – 6: ACM, 2019 Sách, tạp chí
Tiêu đề: et al.", “A multi-layer model for website defacement detection,” in"SoICT’19: Tenth International Symposium on Information and CommunicationTechnology
[9] Y. Cho, “Intelligent on-off web defacement attacks and random monitoring-based detection algorithms,” Electronics, vol. 8, no. 11, 2019 Sách, tạp chí
Tiêu đề: Intelligent on-off web defacement attacks and random monitoring-baseddetection algorithms,”"Electronics
[10] T. H. Nguyen et al., “Detecting website defacement attacks using web-page text and image features,” Proceedings of the (IJACSA) International Journal of Ad- vanced Computer Science and Applications, vol. 12, no. 7, 2021 Sách, tạp chí
Tiêu đề: et al.", “Detecting website defacement attacks using web-page textand image features,” "Proceedings of the (IJACSA) International Journal of Ad-vanced Computer Science and Applications
[11] S. Kaur and M. Singh, “Automatic attack signature generation systems: A review,” Sách, tạp chí
Tiêu đề: Automatic attack signature generation systems: A review
[12] S. Kaur et al., “Hybrid intrusion detection and signature generation using deep recurrent neural networks,” Neural Computing and Applications, vol. 32, no. 12, pp. 7859–7877, 2020 Sách, tạp chí
Tiêu đề: et al.", “Hybrid intrusion detection and signature generation using deeprecurrent neural networks,”"Neural Computing and Applications
[13] A. Menezes et al., Handbook of Applied Cryptography. CRC Press, 1996, pp. 33, 321–363 Sách, tạp chí
Tiêu đề: et al.,Handbook of Applied Cryptography
[14] C. D. Manning and H. Schiitze, Foundations of Statistical Natural Language Pro- cessing. MIT Press, 1999, pp. 23–27 Sách, tạp chí
Tiêu đề: Foundations of Statistical Natural Language Pro-cessing
[15] H. Jiang, Machine Learning Fundamentals. Cambridge University Press, 2022, pp. 1–4, 77–78, 203–207 Sách, tạp chí
Tiêu đề: Machine Learning Fundamentals
[16] Apache, “What is a signature?” Internet: https://superset.apache.org/, May. 1, 2024 Sách, tạp chí
Tiêu đề: What is a signature
[17] Zone-H, “Thống kê các cuộc tấn công deface,” Internet: https://www.zone-h.org/stats/ymd, Nov. 1, 2023 Sách, tạp chí
Tiêu đề: Thống kê các cuộc tấn công deface
[18] C. Pfleeger et al., Security in Computing. Pearson, 2015, pp. 274–275 Sách, tạp chí
Tiêu đề: et al.,Security in Computing
[19] VNExpress, “Sân bay nội bài, tân sơn nhất bị tin tặc tấn công,” Internet: https://vnexpress.net/san-bay-noi-bai-tan-son-nhat-bi-tin-tac-tan-cong-3444469.html,Jul. 29, 2016 Sách, tạp chí
Tiêu đề: Sân bay nội bài, tân sơn nhất bị tin tặc tấn công
[20] Zone-H, “Dữ liệu trang web bị deface đã dược xác nhận,” Internet: https://www.zone-h.org/archive?hz=1, May. 1, 2024 Sách, tạp chí
Tiêu đề: Dữ liệu trang web bị deface đã dược xác nhận

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w