Sử dụng dấu vân của tài liệu (Document Fingerprint) trong việc theo dõi sự thay

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phát hiện thay đổi nội dung trang web (Trang 43 - 44)

dõi sự thay đổi nội dung trang Web

Hiện nạy, việc sử dụng Web nói chung và các dịch vụ trên nền Web nói riêng là hiển nhiên, bắt buộc đối với người dùng cá nhân cũng như các tổ chức. Làm thế nào để đảm bảo đảm bảo tính an toàn cũng như bảo toàn nội dung trang là một vấn đề đối với những người quản trị web. Có một khái niệm được đưa ra nhằm phục vụ cho việc bảo đảm tính toàn vẹn của nội dung tài liệu – Dấu vân tay tài liệu (Document Fingerprint).

Trong khoa học máy tính, dấu vân tay xác định duy nhất các dữ liệu ban đầu cho tất cả các mục đích thực tế cũng như nhận diện dấu vân tay của con người cho các mục đích thực tế khác nhau. Một dấu vân tay tài liệu là một tập hợp các số nguyên đại diện cho một số nội dung của tài liệu. Mỗi số nguyên được gọi là một giá trị băm.

Thông thường, một dấu vân tay tài liệu được tạo ra bằng cách chọn chuỗi con từ các văn bản và áp dụng một hàm toán học cho mỗi chuỗi con lựa chọn. Chức năng này, là một hàm băm để tạo ra một số nguyên (giá trị băm). Số nguyên sau đó được lưu trữ trong một cơ sở dữ liệu (CSDL) để truy cập nhanh khi truy vấn . Khi một tài liệu được truy vấn sẽ được so sánh các số nguyên với các số nguyên của tài liệu gốc đã được lưu trữ trong CSDL, các dấu vân tài liệu

cho các truy vấn được tạo ra. Đối với mỗi giá trị băm trong dấu vân tài liệu, chỉ số truy vấn và danh sách các dấu vân kết hợp được lấy ra. Số điểm chung (giá trị băm) của tài liệu cần truy vấn và giá trị băm của tài liệu gốc được lưu trong CSDL là điểm để xác định tài liệu tương ứng với nhau không?

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phát hiện thay đổi nội dung trang web (Trang 43 - 44)

Tải bản đầy đủ (PDF)

(58 trang)