MỤC LỤC
Mục tiêu chính của luận văn là đi sâu nghiên cứu kỹ thuật tối ưu hoá để mã hoá và giải mã thuỷ vân. Trong đó tập trung nghiên cứu kỹ thuật phân hoạch dữ liệu không phụ thuộc vào các bộ được đánh dấu để định vị các phân hoạch; nghiên cứu cách giải bài toán tối ưu bằng giải thuật di truyền với các ràng buộc trên thuộc tính được chọn để tiến hành thủy vân, và nghiên cứu kỹ thuật phát hiện thủy vân dựa vào một ngưỡng tối ưu.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn.
Theo kiểu dữ liệu (Data type). a) Thuỷ vân dữ liệu kiểu số (watermarking numerical data) có các nghiên cứu của R. Kiernan: Watermarking Relational Databases. Giả thiết cơ bản của nghiên cứu này là chấp nhận một lượng thay đổi với các số nhỏ ở bit ít ý nghĩa nhất của các giá trị dữ liệu kiểu số. Ý tưởng cơ bản là phải đảm bảo rằng các vị trí bit nhúng đó có chứa các giá trị đặc trưng để có thể xác định được bởi khoá bí mật K. Để nhận dạng lại thuỷ vân đã nhúng, người ta đã tiến hành so sánh các giá trị đánh dấu được tính toán với các giá trị bit đã lưu trong cơ sở dữ liệu. Thuỷ vân được nhận dạng nếu tỷ lệ phần trăm trùng lặp lớn hơn một ngưỡng T nào đó cho trước. b) Watermarking categorical data có các nghiên cứu của. + Thuỷ vân dễ bị phá huỷ (Fragile watermarks) được sử dụng để định vị và phát hiện sự giả mạo dữ liệu. a) Thủy vân bền vững. Có nghiên cứu của tác giả R. Kiernan: “Watermarking Relational Databases”. Một dấu thuỷ vân được nhận dạng nếu có nhiều hơn một tỉ lệ phần trăm T các bit đã nhúng được nhận dạng chính xác. b) Thủy vân dễ vỡ. + Nhúng một bit thuỷ vân vào một tập con bằng cách thực hiện các thay đổi rất nhỏ, như vậy các đầu ra trong phân phối là nhỏ hơn (hoặc lớn hơn) một ngưỡng nhỏ (hoặc lớn) nào đó. b) Nhúng từ nhiều bit đến cả một dấu vân tay. Jajodia với công trình “Fingerprinting Relational Databases: Schemes and Specialties”. Đặc điểm của phương pháp là:. + Định danh đối tượng sử dụng dữ liệu. + Nhiều bit fingerprint được sử dụng để xác định đối tượng người dùng nào là kẻ gian lận. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn. c) Nhúng một thuỷ vân đến nhiều thuỷ vân (from one watermark to multiple watermark).
Theo cấu trúc dữ liệu (Data structure) a) Sử dụng khoá chính ảo (Virtual primary key). Jajodia với công trình “Constructing a Virtual Primary Key for Fingerprinting Relational Data”. Giải quyết vấn đề đặt ra là: Nhiều lược đồ thuỷ vân đều dựa vào sự tồn tại của khoá chính, điều này tồn tại một số nhược điểm như sau:. + Không thể áp dụng thuỷ vân trực tiếp với những quan hệ mà không tồn tại khoá chính. + Rất dễ bị tấn công bởi kẻ tấn công đơn giản là thực hiện thay đổi hoặc xoá khoá chính. Ý tưởng cơ bản để giải quyết các vấn đề trên được nêu ra trong công trình này là:. + Xây dựng khoá chính ảo bằng cách kết hợp các bit ý nghĩa nhất của một số thuộc tính để tạo khoá chỉnh ảo. + Các thuộc tính khác nhau được chọn cho mỗi bộ là dựa vào một khoá bí mật. + Nhược điểm của phương pháp này là làm tăng gấp đôi nguy cơ thất bại khi nhận dạng lại thuỷ vân đã nhúng bởi vì, khi tao ra thêm một khoá chính ảo, một số bit thuỷ vân sẽ được nhúng ít lần hơn các bit khác vào dữ liệu. Điều này làm gia tăng khả năng thất bại trong nhận dạng thuỷ vân nếu bị tấn công. b) Xử lý dữ liệu theo khối (Data cube). Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn. Chen công bố công trình “Rights Protection for Data Cubes”. Dữ liệu dạng khối là một dạng dữ liệu phổ biến mà hỗ trợ tốt cho việc khai thác một lượng lớn dữ liệu đa chiều. Thao tác phố biến nhất đối với dữ liệu dạng này là truy vấn tổ hợp. c) Xử lý theo dòng dữ liệu (Streaming data).
Mục tiêu chính của phần này là trình bày về kỹ thuật phân hoạch, kỹ thuật này sẽ làm tăng tính ngẫu nhiên khi chọn các bộ và phân vào các phân hoạch riêng rẽ. Với mỗi bản ghi rD, thuật toán phân hoạch dữ liệu tính toán mã xác thực thông tin (MAC) để đảm bảo an toàn trong quá trình phân hoạch và mã này được cho bởi hàm băm H(Ks || H(r.P || Ks)) , trong đó. Hơn thế nữa, một kẻ tấn công không thể đoỏn trước được cỏc bản ghi đó chia thành cỏc phần mà khụng biết rừ về khoá bí mật Ks và số phần dữ liệu đã phân hoạch m được giữ bí mật.
Mặc dù sự có mặt của khoá chính trong quan hệ được thuỷ vân là phổ biến trong dữ liệu quan hệ, kỹ thuật này có thể dễ dàng được mở rộng để xử lý các trường hợp khi quan hệ không có khoá chính.
Sau đó, bằng cách sử dụng các hoạt động liên quan như là sự giao nhau, sự biến đổi, và sự lựa chọn, thuật toán di truyền (GA) tạo ra các thế hệ giải pháp thành công – các thế hệ có kế thừa và phát triển các đặc tính tốt của cha mẹ chúng và như thế chúng dần dần tới gần các giải pháp tối ưu hoặc gần tối ưu. Thuật toán di truyền không bảo đảm tìm ra tối ưu toàn cục; tuy nhiên nó có vẻ ít đặt bẫy tại vị trí tối ưu hơn các phương pháp tìm kiếm truyền thống dựa vào gradient khi hàm mục tiêu không trơn và nói chung là tốt. Mặc dù các thuật giải di truyền được thực hiện thay đổi theo bài toán cụ thể, nhưng chúng chia sẻ chung cấu trúc tiêu biểu sau: Thuật giải hoạt động bằng cách cập nhật liên tục tập giả thuyết – được gọi là quần thể.
Thuật toán nhúng thuỷ vân sẽ sinh ra các phần S0,..,Sm1 bằng cách gọi hàm get_partitions, sau đó với mỗi phần Sk bít thuỷ vân biđược mã hoá bằng cách sử dụng thuật toán mã hoá bít đơn (encode_single_bit). Ví dụ: sử dụng hàm giấu đã được mô tả ở các phần trước, kỹ thuật giải mã tính toán tail count đã chuẩn hoá của SiW bằng cách tính toán tham chiếu ref và đếm số đầu vào trong SiW lớn hơn ref. Để cực tiểu hoá xác suất lỗi giải mã (Perr) đối với ngưỡng T, ta lấy đạo hàm cấp một của Perr đối với T để xác định ngưỡng tối ưu T*, như sau:. N một cách tương ứng. Tuy nhiên, sự phân tích sau đây có thể vẫn được thực hiện với các kiểu phân phối khác. P0 có thể được đánh giá bằng. Cho đạo hàm cấp một của Perr bằng 0, ta sẽ được phương trình bậc 2, có thể tính giá trị ngưỡng tối ưu T* làm cực tiểu hoá Perr. Đạo hàm cấp 2 của Perr. ) được thoả mãn.
+ Giải mã để lấy ra bít đã nhúng: Sử dụng lược đồ giải mã ngưỡng dựa vào ngưỡng tối ưu T làm cực tiểu hoá xác suất xảy ra lỗi giải mã như đã nói trong phần [3.2.4]. Nếu kích cỡ phần dữ liệu nhỏ hơn thì bít giải mã không được thực hiện, ngược lại thì nó được giải mã nhờ lược đồ giải mã ngưỡng. Thuỷ vân W bl1,..,b0 được nhúng vài lần trong bộ dữ liệu, mỗi bít thuỷ vân được lấy ra vài lần ở nơi mà bít bi được lấy ra từ phần Sk với kmodli.
Với kỹ thuật bầu chọn theo đa số này thuỷ vân nhận được sẽ bền vững trước một số tấn công như chèn thêm dữ liệu, sửa đổi dữ liệu, hoặc ngay cả xoá dữ liệu, bởi vì ngưỡng giải mã được chọn tuân thủ theo nguyên lý xác suất thống kê nhằm làm cực tiểu hoá lỗi giải mã.
Trường hợp quan hệ đa thuộc tính thì sự đàn hồi ( bền vững) thuỷ vân được tăng lên do nhúng thuỷ vân trong nhiều thuộc tính. Sau nhiều lần chạy thử nghiệm tác giả nhận thấy, tốc độ giải mã thuỷ vân nhanh hơn gấp nhiều lần tốc độ nhúng thuỷ vân (trung bình từ 10 đến 15 lần). Thử nghiệm với các tấn công kết quả như sau: Thực hiện tấn công mỗi kiểu tấn công 20 lần, mỗi lần tác động trên các số lượng bản ghi khác nhau, kết quả thống kê như bảng 2 dưới đây.
Các thông số trên cũng có thể bị thay đổi nếu thay đổi các thông số đầu vào như: Tăng hoặc giảm khoảng thay đổi cho phép trên dữ liệu khi nhúng thuỷ vân; độ ngẫu nhiên của việc tấn công (phá hoại); số lượng phân vùng đi kèm với độ lớn của dữ liệu (tổng số bộ).