Kết luận chương 2

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng hệ thống giám sát sự thay đổi nội dung website (Trang 68)

Trong chương 2 luận văn đã phân tích và đưa ra các phương pháp đảm bảo an ninh Website. Nghiên cứu một số thuật toán giám sát, tiếp cận cách sử dụng Dấu vân tay tài liệu (Document Fingerprint) trong việc theo dõi sự thay đổi nội dung trang Web. Trong chương tiếp theo, tác giả đề xuất xây dựng hệ thống phát hiện thay đổi nội dung trang web dựa trên cải tiến thuật giải của Rabin Fingerprint.

CHƯƠNG 3

ỨNG DỤNG THUẬT TOÁN RABIN FINGERPRINT CẢI TIẾN XÂY DỰNG HỆ THỐNG GIÁM SÁT SỰ THAY ĐỔI NỘI DUNG WEBSITE 3.1 Giới thiệu

Một trong những kiểu tấn công được biết rộng rãi nhất là tấn cơng thay đổi website. Nó thường là các mã độc (virus, worm, trojan, và các loại mã độc khác), được thiết kế để xóa bỏ, sửa đổi, hoặc thay thế các trang web trên host (webserver).

Lỗ hổng website là mục tiêu tiềm tàng của việc tấn cơng (hack) vì các mục đích khác nhau. Các hacker có vài cơng cụ để tìm kiếm các lỗ hổng website một cách sâu rộng và nhanh chóng, tiếp theo là chúng sẽ di chuyển một cách nhanh chóng và lén lún tới việc khai thác những điểm yếu đó.

Những cuộc tấn cơng thay đổi website đã được thực hiện để xâm phạm tính tồn vẹn của web bằng một trong những hình thức sau:

Thay đổi nội dung của trang web.

Thay đổi bất kỳ phần nào của nội dung trang web. Thay thế toàn bộ trang web.

Sử dụng lại trang web cũ.

Thay đổi bề ngoài của trang web. Chuyển hướng trang web.

Phá hủy hoặc xóa bỏ trang web.

Kiểm soát an ninh mạng như Firewall, VPN, PKI (Public Key Infrastructure),… là những công cụ quan trọng để giữ cho web được an tồn hơn,

nhưng chúng khơng đủ để đảm bảo an ninh website, bởi vì các các tấn cuộc tấn công như vậy không thể được ngăn chặn ở các lớp (layer) mạng cao hơn, do đó những cơ chế an ninh tốt hơn cần được cung cấp.

Luận văn đã đề xuất xây dựng hệ thống giám sát website nhằm phát hiện kịp thời các cuộc tấn công (như đã nêu) bằng hệ thống đa kiểm tra dựa trên thuật toán dấu vân tay nhanh (fast fingerprint algorithm) để đảm bảo tính tồn vẹn của trang web đồng thời tạo ra thông điệp cảnh báo có ý nghĩa và phục hồi lại các trang web đã bị tấn công.

3.2. Hệ thống giám sát nội dung Website

Mục đích chính của hệ thống giám sát nội dung website (Anti Website Defacement System – AWDS) là để phát hiện bất kỳ các cuộc tấn công thay đổi web nào và phục hồi các tập tin của web đã bị tấn công. Để đạt được nhiệm vụ này, hệ thống giám sát nội dung website được thiết kế và triển khai trên 2 máy chủ (Web-server và AWDS-server) với 5 hệ thống con (subsystem) được tích hợp và cơ sở dữ liệu tập trung. Các hệ thống con này và chức năng chính của chúng như sau:

Thứ tự Tên hệ thống con Chức năng

I Hệ thống cung cấp trang web (Builder)

Cơng bố trang web đã cho và duy trì danh mục kiểm tra bao gồm các tên tập tin website với các thuộc tính của chúng và giá trị băm.

II Hệ thống đa kiểm tra (Multi-Checker)

Theo dõi tính tồn vẹn những trang web đã được cơng bố.

III Hệ thống khôi phục (Recover)

Phục hồi các trang web về trạng thái trước khi trang web đó đã bị tấn cơng.

IV Hệ thống tự theo dõi (Self-Watcher)

Thẩm tra trạng thái của hệ thống đa kiểm tra.

V Hệ thống quản trị (Admin)

Điều khiển toàn bộ hệ thống giám sát Website

và Hệ thống lưu trữ CSDL (Check-List Database)

Là một CSDL chứa các tập tin cùng với giá trị băm, các thuộc tính, và các khoảng thời gian (interval times).

Các bản sao mới nhất của các trang web được lưu trữ trong một khu vực bên ngoài máy chủ web (Web-server), trên một máy chủ khác đặt tại một vùng mạng khác. Các thành phần đó và mối quan hệ giữ chúng được thể hiện trong sơ đồ sau:

3.2.1. Hệ thống Builder

Hệ thống Builder hoạt động tại AWDS-server khi hệ thống Admin them vào, chỉnh sửa, hoặc loại bỏ các trang web.

Hệ thống Builder hoạt động như sau:

- Tính tốn giá trị băm và các thuộc tính (tên, kích thước của tập tin, loại, ngày chỉnh sửa) của các trang web đã cho (trang web mới được thêm vào hoặc trang web được chỉnh sửa).

- Lưu những thơng tin tính tốn vào trong danh sách lưu trữ CSDL, và hệ thống cung cấp trang web (hệ thống Builder) có nhiệm vụ duy trì bảo quản danh sách này.

- Lưu lại các trang web này trong thư mục phục hồi tại máy chủ AWDS (AWDS-server) để phục hồi lại trang web như ban đầu nếu phát hiện có sự tấn cơng làm thay đổi về nội dung.

- Công bố các trang web đã cho ở thư mục Intpub tại máy chủ web (Web- server).

3.2.2. Hoạt động Multi-checker

Hệ thống con Multi-checker (đa kiểm tra) là trái tim của hệ thống giám sát website, nó chứa vài kiểm tra làm việc bên cạnh thư mục Intpub tại Web-server.

Hệ thống sẽ thường xun kiểm tra định kỳ tính tồn vẹn của các trang web được cơng bố, và các trang web quan trọng như trang chủ (index.htm, index.html, default.asp, default.aspx, start.php, home.php, default.asp). Do đó có một khoảng thời gian liên quan tới mỗi tập tin để kiểm tra lại tính tồn vẹn.

- Chế độ kiểm tra cơ bản (basic mode): Khi hệ thống đa kiểm tra bắt đầu hoạt động, hệ thống sẽ kiểm tra các thuộc tính (tên, kích thước của tập tin, loại, và ngày chỉnh sửa) cho trang we hiện tại (trang web được lưu trong Intpub) và so sánh nó với trang web đã được lưu trữ trước của chính nó trong CSDL.

Hình 3.5. Các thuộc tính cơ bản của tập tin

- Chế độ kiểm tra nâng cao (advanced mode): Khi hệ thống Multi-checker bắt đầu hoạt động, hệ thống sẽ tính tốn tìm giá trị băm (sử dụng thuật toán cải tiến Rabin Fingerprint) cho các trang web được công bố (được lưu trữ trên thư mục Intpub) và so sánh nó với trang web đã được lưu trữ trước của chính nó trong CSDL.

Hệ thống Multi-checker đã triển khai bao gồm hai checker hoạt động tại chế độ “”basic mode” (checkerB01 và checkerB02) và hai checker hoạt động tại chế độ “advanced mode” (checkerA01 và checkerA02).

Các trạng thái kiểm tra của hệ thống như sau:

• Nếu trang web hiện không được liệt kê trong danh sách được lưu trữ trong CSDL, có nghĩa là các trang web này là một tập tin khơng hợp pháp có thể là tập tin mã độc hoặc virus... Hệ thống kiểm tra đưa ra cảnh báo “Không tồn tại trang web này trong CSDL hoặc có thể là tập tin độc hại”, người quản trị trang web

kiểm tra lại và đưa ra xử lý kịp thời. Nếu là trang web mới thì sẽ tính giá trị băm và các thuộc tính lưu vào CSDL. Nếu là tập tin mã độc hoặc virus thì loại nó ra khỏi hệ thống và tiếp tục kiểm tra các trang web tiếp theo.

• Nếu như giá trị băm (trong chế độ kiểm tra nâng cao) hoặc bất kỳ thuộc tính nào (trong chế độ kiểm tra cơ bản) của trang web hiện tại khác so với bản gốc được lưu trữ ở CSDL, điều này có nghĩa là các trang web hiện tại đã bị sửa đổi về nội dung. Hệ thống kiểm tra đưa ra cảnh báo “Trang web đã bị sửa đổi về nội dung”, sau đó thơng báo cho hệ thống phục hồi thực hiện khôi phục lại hệ thống như trạng thái ban đầu, và tiếp tục kiểm tra các trang web tiếp theo.

• Nếu tên trang web đã tồn tại trong CSDL và không tồn tại trong thư mục Intpub, có nghĩa là các trang web bị xóa khỏi thư mục Intpub cơng bố, và hệ thống kiểm tra đưa ra cảnh báo “Trang web đã bị xố”, sau đó thơng báo cho hệ thống khơi phục (Recover), và tiếp tục kiểm tra các trang web tiếp theo.

• Nếu thực hiện các kiểm tra khơng có vấn đề gì, hệ thống kiểm tra đưa ra cảnh báo “Không phát hiện sự thay đổi”, và tiếp tục kiểm tra các trang web tiếp theo.

3.2.3. Hệ thống Recover

Hệ thống khơi phục được kích hoạt bởi hệ thống Multi-checker sau khi phát hiện có sự tấn cơng làm thay đổi nội dung trang web. Hệ thống con này sẽ phục hồi lại các trang web đã bị tấn công làm thay đổi nội dung về lại trạng thái như ban đầu. Hoạt động của hệ thống Recover như sau:

- Xoá trang web hiện tại khỏi thư mục Intpub nếu như tên trang web này không tồn tại trong CSDL.

- Phục hồi lại trang web về trạng thái ban đầu, nếu như các thuộc tính và giá trị băm của trang web hiện khác so với các thuộc tính và giá trị băm của trang web đã được lưu trữ trong CSDL.

- Phục hồi lại trang web về trạng thái ban đầu, nếu như tập tin được liệt kê không xuất hiện.

Và hệ thống Recover thông báo đến cho quản trị viên bằng cách gửi một thơng điệp cảnh báo phù hợp (ví dụ như là: malicious-alarm, defaced-alarm, hoặc delete-alarm).

3.2.4. Hệ thống Self-watcher

Một lỗ hổng nghiêm trọng đối với hệ thống giám sát website (AWDS) chính là hệ thống con Multi-checker. Hệ thống tự theo dõi (Self-watcher) theo dõi từng checker của hệ thống đa kiểm tra (Multi-checker) để đảm bảo rằng các checker đang ở trạng thái hoạt động. Hệ thống Self-watcher làm việc để thẩm tra các trạng thái của các checker. Hệ thống Multi-checker là trái tim của AWDS, do đó nếu bất kì một checker nào khơng đúng chức năng với bất cứ lý do gì (như là bị tấn cơng) thì hệ thống giám sát website sẽ có giá trị an ninh cục bộ hoặc khơng cịn giá trị về mặt an ninh nữa.

Hệ thống Self-watcher làm việc để đảm bảo rằng các checker đang hoạt động và đúng chức năng bằng thủ tục “Call-Back tự động” nhằm xác minh các trạng thái của các checker. Trong mỗi khoảng thời gian đã cho, hệ thống Self- watcher quay số gọi tới một checker bằng cách gửi một số ngẫu nhiên, checker đó ngắt liên lạc. Và checker này gọi lại cho Self-watcher.

Nếu như hệ thống Self-watcher không nhận được cuộc gọi trong khoảng thời gian timeout đã cho thì nó sẽ gọi lại theo như cách cũ. Nếu khơng có trả lời trong thời gian timeout lớn nhất đã cho, (điều đó có nghĩa là checker đó bị hỏng

hoặc kết nối giữa hai server bị đứt liên kết), hệ thống Self-watcher se gửi một cảnh báo “failed-alarm” tới hệ thống quản trị (Admin).

3.2.5. Hệ thống Admin

Quản trị viên của hệ thống giám sát website có thể điều khiển các thành phần khác nhau của các hệ thống phụ này. Ví dụ, thêm một trang web mới, chỉnh sửa một trang web đang tồn tại, hoặc xóa bỏ trang web khỏi CSDL và tập tin khơi phục. Bằng cách sử dụng hệ thống Admin, người quản trị có thể thiết lập khoảng thời gian kiểm tra cho mỗi trang web và khởi tạo các thông điệp cảnh báo và thông báo.

3.3. Hoạt động hệ thống dựa trên các phát hiện thay đổi bất thường. 3.3.1. Tổng quan hệ thống 3.3.1. Tổng quan hệ thống

Cho một tài nguyên web hoặc dữ liệu có ý nghĩa được xác định bởi một URL, một tài liệu HTML, một tập tin hình ảnh [14] …

Một giám sát M có thể giám sát nhiều tài nguyên web khác nhau cùng một lúc. Bộ giám sát sẽ giám sát tập hợp các URL xác định. Thông thường, nhưng không nhất thiết bộ giám sát sẽ bao gồm nhiều tài nguyên từ nhiều nguồn khác nhau. Để dễ trình bày nhưng khơng mất tính tổng qt, chúng ta giả định rằng bộ giám sát chỉ giám sát một nguồn R. Biểu thị ri sẽ đọc tài nguyên R.

Trong giai đoạn đầu tiên, mà chúng ta gọi là giai đoạn học (learning phase), xây dựng tập hồ sơ (profile) của R là Pr . M={ ri }. Giám sát M có thể bắt đầu theo dõi, trong đó nó thực hiện các chu kỳ sau một cách vô tận:

1. Thiết lập khoảng thời gian giám sát m. 2. Đọc r thuộc R

3. Phân tích r

Giai đoạn đầu là giai đoạn học và phân tích (bước 3 ở trên), các bước khác của giai đoạn giám sát có thể được hiểu một cách dễ dàng, đặc biệt là việc thực hiện thực tế của bước 4 (làm thế nào để gửi một cảnh báo cho người theo dõi các trang web, làm thế nào để xử lý các cảnh báo).

3.3.2. Kiến trúc hệ thống

Tài nguyên R sẽ được phân tích thành các lớp tham số P(ri). Mỗi tham số đặc trưng cho một hoặc nhiều tính năng của R, ví dụ như kích thước (byte) hay số liên kết, số hình ảnh, số thẻ nội dung...

- Trong chế độ học (learning mode), hệ thống sẽ lưu trữ tất cả các tham số Pi, các ngưỡng cho phép ti.

- Trong chế độ phát hiện (detection mode), Hệ thống sẽ đọc giá trị ri thuộc R phân tích và trả về một giá trị luận lý (Boolean) S(ri). S(ri) trả về giá trị là đúng nếu như X(ri) > ti, trong trường hợp này hệ thống sẽ đánh dấu là một trường hợp bất thường.

Trong giai đoạn giám sát, các cờ S(ri) có giá trị luận lý (Boolean) được tổng hợp với nhau tạo thành một giá trị luận lý mới sẽ đại diện cho việc phân loại tổng các giá trị đọc r, kí hiệu là A(r). Nếu A(r) > t có giá trị luận lý trả về là đúng (true) thì hệ thống giám sát sẽ đưa ra cảnh báo (alert), với t là ngưỡng cho phép của hệ thống (do quản trị hệ thống quy định).

3.4. Phân tích hoạt động của hệ thống

- Hoạt động của hệ thống con đa kiểm tra. Hệ thống con này gồm hai chế độ kiểm tra:

Một là chế độ kiểm tra cơ bản là chế độ kiểm tra nhanh. Thuật toán ở chế độ này đơn giản chỉ là các phép tốn so sánh các thuộc tính của trang web cần kiểm tra như tên tập tin (file name), kiểu tập tin (style), kích thước tập tin (size), ngày khởi tạo tập tin, ngày cập nhật (update) với các thuộc tính của trang gốc lưu trữ trong CSDL.

Hai là chế độ kiểm tra chi tiết của hệ thống phát hiện thay đổi nội dung trang web dựa trên thuật toán kiểm tra định kỳ mã băm cho mỗi trang web [19].

Tương ứng với mỗi trang web ta có các giá trị mã băm. Đầu tiên các trang web sẽ được được tính tốn mã băm. Nếu trang này là trang mới sẽ được lưu vào cơ sở dữ liệu.

Định kỳ sẽ kiểm tra đối với bất kỳ trang web nào và mỗi trang web kiểm tra sẽ được tính mã băm mới. Nó sẽ được so sánh với mã băm đã được lưu, nếu kết quả kiểm tra trả về giá trị đúng (giá trị băm bằng nhau) thì trang web đó chưa bị thay đổi về nội dung, ngược lại nếu kết quả kiểm tra trả về giá trị sai thì trang web đó đã bị thay đổi về nội dung. Phương pháp được đề xuất có thể được tóm tắt trong sơ đồ sau đây [19]:

Hình 3.7. Sơ đồ phương pháp phát hiện sự thay đổi nội dung trang web

Bước 1: Trên cơ sở các trang web thích hợp chọn một trang web để kiểm tra sự thay đổi về nội dung.

Bước 2: Tính mã băm mới cho các trang web được chọn trong bước 1, sử dụng giải thuật cải tiến của Rabin Fingerprinting.

Bước 3: So sánh các mã băm mới của trang web với mã băm được lưu trữ trong cơ sở dữ liệu.

Nếu kết quả của việc so sánh là đúng, thì trang web đó chưa có sự thay đổi về nội dung và quá trình sẽ dừng lại.

Nếu kết quả của việc so sánh là sai, thì trang web đó đã có sự thay đổi về nội dung , đưa ra thông điệp cảnh báo.

Hoạt động của hệ thống theo dõi giám sát phát hiện thay đổi bất thường nội dung trang web. Hiệu quả của hệ thống này chính việc hệ thống đưa ra những cảnh báo thay đổi bất thường có ý nghĩa (trang web đã bị tấn cơng thay đổi về nội dung) dựa trên sự so sánh các tham số đầu vào P(ri) với ngưỡng cho phép ti. Phân tích một số trường hợp cụ thể như sau:

Trường hợp 1: Nếu hệ thống kiểm tra giám sát thuộc một trong các trường hợp này thì hệ thống sẽ đưa ra cảnh báo có sự thay đổi bất thường:

- Số kí tự của trang web thay đổi bất thường (số kí tự nhỏ hơn rất nhiều

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng hệ thống giám sát sự thay đổi nội dung website (Trang 68)

Tải bản đầy đủ (PDF)

(88 trang)