Hoạt động hệ thống dựa trên các phát hiện thay đổi bất thường

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng hệ thống giám sát sự thay đổi nội dung website (Trang 76)

3.3.1. Tổng quan hệ thống

Cho một tài nguyên web hoặc dữ liệu có ý nghĩa được xác định bởi một URL, một tài liệu HTML, một tập tin hình ảnh [14] …

Một giám sát M có thể giám sát nhiều tài nguyên web khác nhau cùng một lúc. Bộ giám sát sẽ giám sát tập hợp các URL xác định. Thông thường, nhưng không nhất thiết bộ giám sát sẽ bao gồm nhiều tài nguyên từ nhiều nguồn khác nhau. Để dễ trình bày nhưng không mất tính tổng quát, chúng ta giả định rằng bộ giám sát chỉ giám sát một nguồn R. Biểu thị ri sẽ đọc tài nguyên R.

Trong giai đoạn đầu tiên, mà chúng ta gọi là giai đoạn học (learning phase), xây dựng tập hồ sơ (profile) của R là Pr . M={ ri }. Giám sát M có thể bắt đầu theo dõi, trong đó nó thực hiện các chu kỳ sau một cách vô tận:

1. Thiết lập khoảng thời gian giám sát m. 2. Đọc r thuộc R

3. Phân tích r

Giai đoạn đầu là giai đoạn học và phân tích (bước 3 ở trên), các bước khác của giai đoạn giám sát có thể được hiểu một cách dễ dàng, đặc biệt là việc thực hiện thực tế của bước 4 (làm thế nào để gửi một cảnh báo cho người theo dõi các trang web, làm thế nào để xử lý các cảnh báo).

3.3.2. Kiến trúc hệ thống

Tài nguyên R sẽ được phân tích thành các lớp tham số P(ri). Mỗi tham số đặc trưng cho một hoặc nhiều tính năng của R, ví dụ như kích thước (byte) hay số liên kết, số hình ảnh, số thẻ nội dung...

- Trong chế độ học (learning mode), hệ thống sẽ lưu trữ tất cả các tham số Pi, các ngưỡng cho phép ti.

- Trong chế độ phát hiện (detection mode), Hệ thống sẽ đọc giá trị ri thuộc R phân tích và trả về một giá trị luận lý (Boolean) S(ri). S(ri) trả về giá trị là đúng nếu như X(ri) > ti, trong trường hợp này hệ thống sẽ đánh dấu là một trường hợp bất thường.

Trong giai đoạn giám sát, các cờ S(ri) có giá trị luận lý (Boolean) được tổng hợp với nhau tạo thành một giá trị luận lý mới sẽ đại diện cho việc phân loại tổng các giá trị đọc r, kí hiệu là A(r). Nếu A(r) > t có giá trị luận lý trả về là đúng (true) thì hệ thống giám sát sẽ đưa ra cảnh báo (alert), với t là ngưỡng cho phép của hệ thống (do quản trị hệ thống quy định).

3.4. Phân tích hoạt động của hệ thống

- Hoạt động của hệ thống con đa kiểm tra. Hệ thống con này gồm hai chế độ kiểm tra:

Một là chế độ kiểm tra cơ bản là chế độ kiểm tra nhanh. Thuật toán ở chế độ này đơn giản chỉ là các phép toán so sánh các thuộc tính của trang web cần kiểm tra như tên tập tin (file name), kiểu tập tin (style), kích thước tập tin (size), ngày khởi tạo tập tin, ngày cập nhật (update) với các thuộc tính của trang gốc lưu trữ trong CSDL.

Hai là chế độ kiểm tra chi tiết của hệ thống phát hiện thay đổi nội dung trang web dựa trên thuật toán kiểm tra định kỳ mã băm cho mỗi trang web [19].

Tương ứng với mỗi trang web ta có các giá trị mã băm. Đầu tiên các trang web sẽ được được tính toán mã băm. Nếu trang này là trang mới sẽ được lưu vào cơ sở dữ liệu.

Định kỳ sẽ kiểm tra đối với bất kỳ trang web nào và mỗi trang web kiểm tra sẽ được tính mã băm mới. Nó sẽ được so sánh với mã băm đã được lưu, nếu kết quả kiểm tra trả về giá trị đúng (giá trị băm bằng nhau) thì trang web đó chưa bị thay đổi về nội dung, ngược lại nếu kết quả kiểm tra trả về giá trị sai thì trang web đó đã bị thay đổi về nội dung. Phương pháp được đề xuất có thể được tóm tắt trong sơ đồ sau đây [19]:

Hình 3.7. Sơ đồ phương pháp phát hiện sự thay đổi nội dung trang web

Bước 1: Trên cơ sở các trang web thích hợp chọn một trang web để kiểm tra sự thay đổi về nội dung.

Bước 2: Tính mã băm mới cho các trang web được chọn trong bước 1, sử dụng giải thuật cải tiến của Rabin Fingerprinting.

Bước 3: So sánh các mã băm mới của trang web với mã băm được lưu trữ trong cơ sở dữ liệu.

Nếu kết quả của việc so sánh là đúng, thì trang web đó chưa có sự thay đổi về nội dung và quá trình sẽ dừng lại.

Nếu kết quả của việc so sánh là sai, thì trang web đó đã có sự thay đổi về nội dung , đưa ra thông điệp cảnh báo.

Hoạt động của hệ thống theo dõi giám sát phát hiện thay đổi bất thường nội dung trang web. Hiệu quả của hệ thống này chính việc hệ thống đưa ra những cảnh báo thay đổi bất thường có ý nghĩa (trang web đã bị tấn công thay đổi về nội dung) dựa trên sự so sánh các tham số đầu vào P(ri) với ngưỡng cho phép ti. Phân tích một số trường hợp cụ thể như sau:

Trường hợp 1: Nếu hệ thống kiểm tra giám sát thuộc một trong các trường hợp này thì hệ thống sẽ đưa ra cảnh báo có sự thay đổi bất thường:

- Số kí tự của trang web thay đổi bất thường (số kí tự nhỏ hơn rất nhiều hoặc lớn hơn rất nhiều so với số kí tự ban đầu của trang web).

- Nội dung chỉ chứa một hình ảnh hoặc không có hình ảnh nào. - Không có bất kỳ thẻ nội dung nào.

- Không thấy được nội dung văn bản. - Số liên kết của trang thay đổi bất thường.

Trường hợp 2: Trong trường hợp này hệ thống tổng kết tất cả kết quả so sánh của các tham số X(ri) với ngưỡng ti và đưa ra cảnh báo nếu như phát hiện có thay đổi bất thường A(r) > t.

- Đánh giá chung:

Đối với hệ thống phát hiện thay đổi nội dung web dựa trên hệ thống con đa kiểm tra thì hệ thống này rất hiệu quả với việc kiểm tra tính toàn vẹn cho các trang web tĩnh có nội dung cố định ít thay đổi, hệ thống dựa trên thuật toán cải tiến Rabin Fingerprint tìm các số nguyên (giá trị băm) xác định vị trí của nội dung đã bị sửa đổi. Ngược lại, thì không phù hợp với việc kiểm tra các trang web có nội dung thay đổi thường xuyên như các trang web động. Hệ thống theo dõi giám sát

phát hiện thay đổi bất thường sẽ hiệu quả hơn việc kiểm tra giám sát các trang web có nội dung động thay đổi thường xuyên. Hệ thống sẽ đưa ra cảnh báo sớm có ý nghĩa nếu phát hiện có sự thay đổi bất thường về nội dung.

3.5 Cài đặt và thử nghiệm chương trình 3.5.1. Cài đặt chương trình 3.5.1. Cài đặt chương trình

 Chương trình thử nghiệm được phát triển bằng ngôn ngữ C# và hệ quản trị CSDL Microsoft SQL Server 2012. Với cấu hình máy sử dụng là:

- Bộ xử lý: Intel(R) Core(TM)2 Duo CPU T6670 @ 2.20GHz - Bộ nhớ Ram: 4.00 GB.

- Loại hệ thống: hệ điều hành 64-bit.

- Hệ điều hành: Windows 7 Professional SP1.

 Web-server được cài đặt trên hệ thống máy ảo Xampp và những website đã được công bố trên mạng Internet như 24h.com.vn, viettel.com.vn,…

Giao diện chính của chương trình sau khi cài đặt:

Chức năng một số nút lệnh:

- Nút File: Mở một tập tin đã được lưu trữ. - Nút Hash: Tính giá trị băm.

- Nút Add CSDL: Lưu các thuộc tính và giá trị băm vào cơ sở dữ liệu. - Nút Del CSDL: Xoá các thuộc tính và giá trị băm khỏi CSDL.

- Nút Multi Checker Basic mode: Kiểm tra các trang web dựa trên các thuộc tính.

- Nút Multi Checker Advance mode: Kiểm tra các trang web dựa trên giá trị băm.

- ListWeb: Lưu danh sách các trang web cần giám sát theo dõi.

- Trang web được chọn: Cho biết những trang web nào đang được giám sát. - Nút Multi Thread: Bắt đầu chế độ giám sát đa luồng (nhiều website cùng lúc).

- Nút Start: Bắt đầu giám sát một website. - Nút Stop: Dừng giám sát.

- Web 1, Web2, Web3, Web4: Cho biết thông tin khi xử lý đa tiến trình.

3.5.2. Thử nghiệm chương trình

 Chương trình được thử nghiệm kiểm tra về thời gian xử lý của thuật toán Rabin Fingerprint và thuật toán cải tiến Rabin Fingerprint với dữ liệu vào là 4 website (sử dụng hàm stopwatch() trong C# để đo thời gian xử lý của thuật toán).

- Kết quả thử nghiệm của chương trình với 4 trang web về thời gian tính toán của thuật toán Rabin Fingerprint và cải tiến thuật toán Rabin Fingerprint như bảng biểu sau:

Website Rabin fingerprint (Thời gian)

Cải tiến Rabin fingerprint (Thời gian)

Kích thước (kí tự) 24h.com.vn 00:07:52.2659048 00:00:00.0179612 197342 bongda.com.vn 00:10:56.6508695 00:00:00.0237493 260318 viettel.com.vn 00:00:29.7748576 00:00:00.0053756 34798 tmasolutions.com 00:00:07.4765326 00:00:00.0032503 96819

 Chương trình được thử nghiệm kiểm tra về thời gian xử lý của hệ thống kiểm tra cơ bản và kiểm tra chi tiết với dữ liệu vào là 5 trang web.

- Kết quả thử nghiệm của hệ thống kiểm tra cơ bản và kiểm tra nâng cao như bảng sau:

Website Basic mode (Thời gian)

Advanced mode (Thời gian) Kích thước (kí tự) 24h.com.vn 00:00:00.0013731 00:00:00.0038273 197342 bongda.com.vn 00:00:00.0021435 00:00:00.0042867 260318 viettel.com.vn 00:00:00.0058100 00:00:00.0026037 34798 tmasolutions.com 00:00:00.0010857 00:00:00.0026319 96819 vnexpress.net 00:00:00.0017357 00:00:00.0047003 272277

 Chương trình được thử nghiệm theo dõi giám sát đa luồng, cùng một lúc theo dõi 4 website. Chức năng Multi-thread đã hoạt động tốt, đưa ra được cảnh báo khi có sự thay đổi nội dung trang web.

Hình 3.9. Chương trình giám sát website theo dõi 4 website đồng thời

 Chương trình được thử nghiệm kiểm tra ở chế độ nâng cao, đã chỉ ra được vị trí thay đổi của nội dung trang web.

Hình 3.10. Hoạt động của chức năng Advanced Mode

3.5.3. Nhận xét kết quả

- Thời gian xử lý của thuật toán cải tiến Rabin Fingerprint là nhanh hơn rất nhiều so với thuật toán Rabin Fingerprint (đặc biệt khi kích thước trang web lớn).

- Thời gian xử lý của hệ thống Multi-checker ở hai chế độ kiểm tra cơ bản (basic mode) và kiểm tra nâng cao (advanced mode) là tương đương nhau vì cùng độ phức tạp thuật toán.

- Chương trình đã giám sát được sự thay đổi bất thường của website khi theo dõi đơn tiến trình (một website) cũng như đa tiến trình (nhiều website đồng thời), và đã đưa ra được cảnh báo hợp lý.

- Ở chế độ Advaced Mode đã chỉ ra được vị trí thay đổi của nội dung trang web.

3.6. Kết luận chương 3

Trong chương này luận văn đề xuất xây dựng hệ thống phát hiện thay đổi nội dung trang web dựa trên cải tiến thuật toán của Rabin Fingerprint và xây dựng hệ thống theo dõi giám sát dựa trên các thay đổi bất thường nội dung trang web, đưa ra cảnh báo kịp thời có ý nghĩa. Xây dựng chương trình phát hiện thay đổi nội dung trang web, thử nghiệm phân tích đánh giá kết quả đạt được.

KẾT LUẬN 1. Kết quả đạt được

Luận văn đã giới thiệu tổng quan về Webserver và Website, đồng thời phân tích các lỗ hổng an ninh trên Web dẫn tới những kiểu tấn công Web phổ biến trên thế giới, và cũng trình bày các kỹ thuật phòng chống các kiểu tấn công đó.

Luận văn đã phân tích sâu một số phương pháp đảm bảo an ninh Web: Đảm bảo an ninh HĐH webserver, đảm bảo an ninh webserver, đảm bảo an ninh nội dung web, sử dụng kỹ thuật xác thực và mã hóa, triển khai cơ sở hạ tầng mạng an ninh, quản trị webserver.

Luận văn đã xây dựng được hệ thống giám sát website có thể theo dõi đa luồng (nhiều website đồng thời) và có thể giám sát được những trang web động, đưa ra cảnh báo kịp thời có ý nghĩa.

2. Hướng phát triển

Do điều kiện nghiên cứu còn nhiều hạn chế nên kết quả nghiên cứu chưa thực sự như mong muốn. Tác giả tiếp tục nghiên cứu để tiếp tục phát triển hoàn thiện chương trình được tốt hơn như:

- Cải tiến thuật toán xử lý văn bản để tăng tốc độ xử lý nhanh hơn.

- Xây dựng hệ thống con tự theo dõi (Self-watcher) nhằm tăng năng lực giám sát cho hệ thống.

TÀI LIỆU THAM KHẢO Tiếng Việt

[1]. Lê Đình Duy, 2003 “Tấn Công Kiểu SQL Injection – Tác Hại Và Cách

Phòng Tránh” Đại học Khoa Học Tự Nhiên TPHCM..

[2]. Nguyễn Thanh Nghị, HVA-2008 “Tấn công từ chối dịch vụ Dos, Ddos, DRDos”.

[3]. Dương Anh Đức và Trần Minh Triết, 2005 “Mã hóa và Ứng dụng”, Đại học Khoa Học Tự Nhiên TPHCM.

Tiếng Anh

[4]. Charles P. Pfleeger and Shari Lawrence, Prentice Hall, 2003 “Security in Computing”, 3rd Edition.

[5]. William Stalling, Prentice Hall, 1999 “Cryptography and Network Security”.

[6]. Amanda Andress and Mandy Andress, Sams,2004 “Surviving security: how to integrate people”, process, and technology, 2nd Edition.

[7]. E.L.Cashin, 2000 “Integerit file Verification System”.

[8]. Rocksoft, 2003 “Veracity- nothing can change without you knowing: Data integrity assurance”.

[9]. R.Lehti, 2005 “Advanced Intrusion Detection Environment”. [10]. RSA Laboratories, 1992 “The MD2 Message Digest Algorithm”.

[11]. Gene Kim, Tripwire,Inc, 2001 “Advanced Applications of Tripwire for Servers”.

[12]. Dr.Mazin S. Al-Hakeem “ANTI WEB SITE DEFACEMENT SYSTEM

[13]. Andrew S. Tanenbaum, Maarten Van Steen “DISTRIBUTED SYSTEMS principles and paradigms”. Second Edition.

[14]. Selvitri F, 2004 “High Performance Issues in Web Search Engines”, [15]. Giorgio Davanzo, 2010 “Machine Learning in Engineering Applications

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng hệ thống giám sát sự thay đổi nội dung website (Trang 76)

Tải bản đầy đủ (PDF)

(88 trang)