Thuỷ vân cơ sở dữ liệu quan hệ dựa trên kỹ thuật tối ưu hóa trong môi trường ứng dụng phân phối

MỤC LỤC

LỜI MỞ ĐẦU

Chính vì vậy, việc chứng minh quyền sở hữu đối với các cơ sở dữ liệu quan hệ sau khi đã phân phối hoặc chuyển giao đang là một vấn đề rất quan trọng trong các môi trường ứng dụng dựa trên internet và trong nhiều ứng dụng phân phối sản phẩm. - Kết quả của đề tài có ý nghĩa rất lớn đối với Ngành công nghệ thông tin trong việc chứng minh quyền sở hữu đối với các cơ sở dữ liệu quan hệ sau khi đã phân phối hoặc chuyển giao đang là một vấn đề rất quan trọng trong các môi trường ứng dụng dựa trên internet và trong nhiều ứng dụng phân phối sản phẩm.

THUỶ VÂN CƠ SỞ DỮ LIỆU QUAN HỆ DỰA TRÊN KỸ THUẬT TỐI ƢU HOÁ

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn.

ÁP DỤNG THUẬT TOÁN TÌM KIẾM THEO MẪU

Giới thiệu về thuỷ vân cơ sở dữ liệu (database watermarking)

Trái lại, vấn đề thuỷ vân dữ liệu quan hệ đã không nhận được sự chú ý thích đáng. Tuy nhiên, có nhiều ngữ cảnh ứng dụng trong đó dữ liệu trở nên một tài sản quan trọng, vì vậy vấn đề về quyền sở hữu phải được thực thi một cách cẩn thận. Ví dụ dữ liệu về thời tiết, dữ liệu về thị trường chứng khoán, dữ liệu về hành vi của khách hàng, dữ liệu y học và khoa học.

Việc nhúng thuỷ vân vào dữ liệu quan hệ có thể thực hiện được bởi trong thực tế, các dữ liệu thật có thể chấp nhận một dung sai nhỏ mà vẫn không ảnh hưởng đáng kể đến giá trị sử dụng của chúng. Cho đến nay, mới có một vài cách tiếp cận đối với bài toán thuỷ vân dữ liệu quan hệ được đề xuất. Đề tài này trình bày một kỹ thuật thuỷ vân cơ sở dữ liệu quan hệ có độ bền vững cao so với các kỹ thuật khác.

Mô hình chi tiết hệ thống thuỷ vân cơ sở dữ liệu

Bước 2: Nhúng thuỷ vân: Một bít thuỷ vân được nhúng vào mỗi phần bằng cách thay đổi các thống kê phân hoạch trong khi vẫn thỏa mãn các ràng buộc sử dụng trong bộ G. Bước 3: Đánh giá ngưỡng tối ưu: các thống kê bit nhúng được sử dụng để tính toán ngưỡng tối ưu T* - ngưỡng làm cực tiểu hoá khả năng ( xác suất ) xảy ra lỗi giải mã. Bộ dữ liệu đã nhúng thuỷ vân DW được chuyển đi qua các kênh truyền và do đó có thể chịu những tấn công có chủ đích hoặc không có chủ đích nhằm phá huỷ thông tin thuỷ vân.

Giải mã thuỷ vân là quá trình lấy ra thuỷ vân đã nhúng từ bộ dữ liệu đã nhúng thuỷ vân DW, sử dụng khoá bí mật KS và ngưỡng tối ưu T*. Bước 1: Phân hoạch bộ dữ liệu: sử dụng thuật toán phân hoạch dữ liệu đã dùng trong phần mã hoá trên, sinh ra các phân vùng dữ liệu. Bước 2: Giải mã ngưỡng: Các thống kê của mỗi phân vùng được đánh giá và bit đã nhúng được giải mã bằng cách dùng lược đồ giải mã ngưỡng dựa trên ngưỡng tối ưu T*.

Phân hoạch dữ liệu

Bước 3: Bầu chọn theo đa số: Các bit thuỷ vân được giải mã sử dụng kỹ thuật bầu chọn theo đa số. Tiếp theo sẽ trình bày chi tiết các kỹ thuật, các thuật toán cho quá trình mã hoá và giải mã thuỷ vân.[9]. Hơn nữa, kẻ tấn công không thể đoán được các bản ghi đã được đưa vào phõn vựng nào nếu khụng biết rừ về khoỏ bớ mật KS và số phõn vựng dữ liệu đã phân hoạch m được giữ bí mật.

Mặc dù hầu hết các dữ liệu quan hệ đều có khóa chính, kỹ thuật này có thể được mở rộng để xử lý trường hợp khi dữ liệu quan hệ không có khoá chính. Giả sử quan hệ thuộc tính đơn,  bit ý nghĩa nhất ( MSB ) của dữ liệu có thể được dùng để thay thế cho khoá chính. Trường hợp quan hệ đa thuộc tính, sử dụng các thuộc tính nhận biết thay vì sử dụng khoá chính;.

    Hình 2.2. Bảng biểu diễn các ký hiệu sử dụng trong thuật toán
Hình 2.2. Bảng biểu diễn các ký hiệu sử dụng trong thuật toán

Nhúng thuỷ vân

    Các thống kê cực đại hoá và cực tiểu hoá được ghi lại cho mỗi bước mã hoá trong Xmax, Xmin tương ứng như đã được chỉ ra trong các dòng 4 và 7 của thuật toán mã hoá. Các ràng buộc này tương tự với các ràng buộc được thực hiện trên các thuật toán nhúng thuỷ vân cho âm thanh, hình ảnh, và phim với yêu cầu chủ yếu là thuỷ vân không thể phát hiện được bằng hệ thống nghe nhìn của con người. Việc giải bài toán tối ưu hoá này không nhất thiết phải tìm ra lời giải toàn cục bởi vì việc tìm ra lời giải như thế này có thể đòi hỏi một lượng tính toán rất lớn.

    Thuật toỏn di truyền được dựng định rừ tổng thể cỏc lời giải tối ưu bằng thời điểm xử lý, trong khi tìm kiếm theo mẫu được dùng để cung cấp một lời giải tối ưu cục bộ không theo thời gian xử lý. Tuy nhiên, việc tìm kiếm theo mẫu có thể xử lý các ràng buộc bằng cách hạn chế việc di chuyển thăm dò chỉ theo các hướng không gian khả thi; do đó đảm bảo giải pháp được sinh ra là khả thi. Thuật toán nhúng thuỷ vân sẽ sinh ra các phần S0,..,Sm1 bằng cách gọi hàm get_partitions, sau đó với mỗi phần Sk bít thuỷ vân biđược mã hoá bằng cách sử dụng thuật toán mã hoá bít đơn (encode_single_bit).

    Hình 2.4. Biểu diễn Sigmoid(α,τ ) tại τ = 0 và  α = {1, 2, 8}.
    Hình 2.4. Biểu diễn Sigmoid(α,τ ) tại τ = 0 và α = {1, 2, 8}.

    Đánh giá ngƣỡng giải mã

    Các thống kê (Xmax,Xmin) thu được sau mỗi bít nhúng và được sử dụng bằng thuật toán get_optimal_threshold để tính toán ngưỡng giải mã tối ưu. Ví dụ: sử dụng hàm giấu đã được mô tả ở phần trước, kỹ thuật giải mã tính toán tail count đã chuẩn hoá của SiW bằng cách tính giá trị tham chiếu ref và đếm số đầu vào trong SiW lớn hơn ref. Giai đoạn nhúng bít dựa trên việc cực tiểu hoá hoặc cực đại hoá hàm giấu tail count; các giá trị hàm giấu đã tối ưu hoá này sẽ được tính trong giai đoạn mã hoá để tính ngưỡng tối ưu T*.

    Để cực tiểu hoá xác suất lỗi giải mã (Perr) đối với ngưỡng T, ta lấy đạo hàm cấp một của Perr đối với T để xác định ngưỡng tối ưu T*, như sau:. Tuy nhiên, phân tích sau đây có thể tiếp tục được sử dụng với các kiểu phân phối khác. P0 có thể được đánh giá bằng. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn. Cho đạo hàm cấp một của Perr bằng 0, ta sẽ được phương trình bậc 2, có thể tính giá trị ngưỡng tối ưu T* làm cực tiểu hoá Perr. Đạo hàm cấp 2 của Perr. ) được thoả mãn. Ngưỡng tối ưu T* làm cực tiểu hoá xác suất lỗi giải mã và như thế nâng cao độ bền của thuỷ vân được nhúng do khả năng giải mã thành công tăng. Tất cả xác suất lỗi giải mã thuỷ vân được làm giảm đi bằng cách nhúng thuỷ vân nhiều lần trong bộ dữ liệu đó, về cơ bản nó là sự lặp lại mã sửa sai.

    Phát hiện thuỷ vân

    Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn. Cho đạo hàm cấp một của Perr bằng 0, ta sẽ được phương trình bậc 2, có thể tính giá trị ngưỡng tối ưu T* làm cực tiểu hoá Perr. Đạo hàm cấp 2 của Perr. ) được thoả mãn. Từ phân tích trên, việc chọn ngưỡng tối ưu T* dựa trên các thống kê thu được của thuật toán nhúng thuỷ vân. Nếu các ràng buộc chặt thì lượng thay đổi cho bộ dữ liệu D có thể không đủ đối với việc nhúng thuỷ vân.

    Nếu kích thước phân vùng dữ liệu nhỏ hơn  thì bít giải mã không được thực hiện, ngược lại nó được giải mã nhờ lược đồ giải mã ngưỡng. Vì thuỷ vân W bl1,..,b0 được nhúng nhiều lần trong bộ dữ liệu, mỗi bít thuỷ vân được lấy ra nhiều lần ở nơi bít bi được lấy ra từ phần Sk với. Trường hợp quan hệ đa thuộc tính bền vững thuỷ vân được tăng lên do nhúng thuỷ vân trong nhiều thuộc tính.

    Kiểu tấn công

    - Xoá ngẫu nhiên một vài bản ghi từ cơ sở dữ liệu cũ, tạo ra một cơ sở dữ liệu mới để công bố. - Sửa đổi một vài bản ghi bên trong cơ sở dữ liệu để gây ra lỗi ở các bit thuỷ vân được nhúng, dẫn đến quá trình giải mã sai. - Chèn một vài bản ghi vào cơ sở dữ liệu gây ra sai lệch dữ liệu nhằm phá hủy các bit thuỷ vân đã nhúng.

    Để mô phỏng một số kiểu tấn công, chương trình sử dụng một tập dữ liệu thuỷ vân “an toàn”. Một tập dữ liệu thuỷ vân là “an toàn” nếu có thể khôi phục bit thuỷ vân sau quá trình giải mã, cùng sử dụng chung khoá bí mật với quá trình mã hóa. Với tập dữ liệu này, chúng ta tiến hành thao tác trên dữ liệu để phù hợp với từng mô hình tấn công.

    BẰNG KỸ THUẬT TỐI ƢU TÌM KIẾM THEO MẪU