Cân đối giữa số bộ trong quan hệ và số nhóm

Một phần của tài liệu Luận án tiến sĩ toán học KỸ THUẬT THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ (Trang 70 - 76)

Với lược đồ thủy vân cải tiến, nếu có một nhóm bị phát hiện là giả mạo thì có thể loại nhóm đó đi và các nhóm không bị giả mạo sẽ tiếp tục được sử dụng. Việc xác định một nhóm nào đó có bị giả mạo hay không có thể được thực hiện trong thuật toán 3.1.b.

Trước khi thủy vân một quan hệ, cần phải lựa chọn tham số g (số nhóm thủy

vân) sao cho phù hợp với số bộ trong quan hệ. Số các bộ của quan hệ và số nhóm phải được chọn như thế nào đó để có thể thỏa mãn đồng thời hai tính chất. Đó là tăng cường tính bền vững của thủy vân và tối đa số các bộ có thể tiếp tục được sử dụng. Có thể thấy ngay là không thể nào thỏa mãn được đồng thời hai tính chất này. Điều này được khẳng định bằng các Mệnh đề 3.3 và Mệnh đề 3.4. Vì vậy, sẽ phải có một sự thỏa hiệp để cân đối giữa hai tính chất trên. Số lượng nhóm nên được chọn vừa đủ tương ứng với số lượng các bộ của quan hệ để vừa có các chuỗi thủy vân bền vững trong mỗi nhóm và vừa có thể tiếp tục sử dụng được nhiều bộ

nhất. Nhưng nếu cần phải tăng cường tính bền vững của thủy vân thì nên chọn g

nhỏ để số bộ trong mỗi nhóm sẽ tăng lên cùng chiều với độ bền vững. Nếu ngược lại, tức là nhu cầu tiếp tục sử dụng những bộ không bị xâm phạm là cấp bách thì

cần phải chọn g lớn để số lượng các bộ phải loại bỏ sẽ ít hơn. Trong các thử

nghiệm của luận án với các quan hệ có khoảng 3.000 bộ thì thấy g nằm trong khoảng từ 5 đến 10 là những lựa chọn tốt cho cả hai tính chất đã đề cập trên đây.

Mệnh đề 3.3: Cho một quan hệ có thuộc tính phân loại được thủy vân bằng

lược đồ thủy vân 3.1. Nếu quan hệ r có kích thước không đổi và số nhóm g tăng

thì:

1. Số lượng bộ có thể tiếp tục sử dụng dữ liệu tăng. 2. Độ bền vững của thủy vân giảm.

Chứng minh:

Giả sử có một quan hệ r có bộ với một khóa chính là P, thuộc tính và có

thuộc tính phân loại, thuộc lược đồ quan hệ R(P, A1, A2,..., A). Theo giả thiết số bộ

 là cố định.

1. Số lượng bộ có thể tiếp tục sử dụng dữ liệu tăng

Theo giả thiết có:

+  bộ được phân vào g nhóm.

+ Số bộ  là cố định.

Theo lược đồ thủy vân 3.1, gọi số bộ trung bình trong mỗi nhóm là qk (qk =

Khi gtăng lên thì số bộ trung bình trong mỗi nhóm là k. Ta dễ dàng nhận thấy k < qk (g’ < g, với g’ là số nhóm sau khi tăng).

Giả sử quan hệ có sửa đổi xảy ra và không mất tổng quát, dựa vào thuật toán

3.1.b, phát hiện nhóm Gk bị sửa đổi. Hay số lượng bộ có thể tiếp tục sử dụng dữ

liệu của quan hệ r sẽ loại đi số bộ trong nhóm Gk. Nên số lượng bộ dữ liệu trung

bình bị loại đi trong Gk sau khi gtăng nhỏ hơn trước khi tăng g (giảm đi qk -k bộ).

Khi đó số lượng bộ có thể tiếp tục sử dụng dữ liệu tăng lên qk -k bộ. Suy ra điều phải chứng minh.

2. Độ bền vững của thủy vân giảm

Có thể thấy, độ bền vững của thủy vân trong lược đồ thủy vân 3.1 dựa vào độ

dài chuỗi thủy vân W. Do vậy, sẽ chứng minh độ bền vững dựa vào độ dài của W. Theo giả thiết ta có: gtăng số lượng bộ dữ liệu trung bình trong mỗi nhóm giảm chuỗi thủy vân W và chuỗi thủy vân trích ra W* của mỗi nhóm có độ dài

sẽ giảm đi.

Suy ra điều phải chứng minh. 

Mệnh đề 3.4: Cho quan hệ r có thuộc tính phân loại được thủy vân bằng lược

đồ thủy vân 3.1 với số nhóm không đổi, nếu như kích thước quan hệ tăng thì: 1. Số lượng bộ có thể tiếp tục sử dụng dữ liệu giảm.

2. Độ bền vững của thủy vân tăng.

Chứng minh:

Giả sử có một quan hệ r có bộ với một khóa chính là P, thuộc tính và có

thuộc tính phân loại, thuộc lược đồ quan hệ R(P, A1, A2,..., A). Theo giả thiết g cố

định.

1. Số lượng bộ có thể tiếp tục sử dụng dữ liệu giảm

Theo giả thiết ta có:

+  bộ được phân vào g nhóm.

+ Số nhóm g là cố định nên số bộ trung bình trong mỗi nhóm là qk.

Khi tăng lên thì số bộ trung bình trong mỗi nhóm là qk+k (với k là số bộ tăng thêm của mỗi nhóm khi tăng).

Giả sử quan hệ có sửa đổi xảy ra và không mất tổng quát, dựa vào thuật toán

3.1.b, phát hiện nhóm Gk bị sửa đổi. Khi đó, số lượng bộ có thể tiếp tục sử dụng

dữ liệu của quan hệ r sẽ loại đi số bộ trong nhóm Gk. Hay số lượng bộ bị loại đi trong mỗi nhóm sau khi tăng lớn hơn trước khi tăng là k bộ. Suy ra, số lượng bộ có thể tiếp tục sử dụng dữ liệu giảm đi k bộ. Điều phải chứng minh.

2. Độ bền vững của thủy vân tăng

Có thể thấy, độ bền vững của thủy vân trong lược đồ thủy vân 3.1 dựa vào độ

dài chuỗi thủy vân W. Do đó, sẽ chứng minh độ bền vững dựa vào độ dài của W.

Theo giả thiết ta có: tăng số lượng bộ dữ liệu trong mỗi nhóm tăng

chuỗi thủy vân W và chuỗi thủy vân trích ra W* của Gk có độ dài sẽ tăng lên.

Suy ra điều phải chứng minh. 

3.2.5. Đánh giá thử nghiệm

a. Chương trình và dữ liệu thử nghiệm

Cài đặt và thử nghiệm lược đồ thủy vân cải tiến và lược đồ thủy vân của Y.Li và cộng sự [35] với dữ liệu thực tế từ một cơ sở dữ liệu quan hệ nhỏ về dân số, trong đó, xét cơ sở dữ liệu đơn giản chỉ gồm một bảng dữ liệu. Kích thước của cơ sở dữ liệu xấp xỉ khoảng 3.000 bộ dữ liệu với số thuộc tính là 9, khóa chính là thuộc tính số chứng minh thư, thuộc tính phân loại là giới tính, dân tộc, trình độ học vấn, số con, đơn vị hành chính, tôn giáo. Sử dụng khóa thủy vân K =

“Huong”, tham số g là số nhóm (thường được sử dụng từ 5-10 nhóm).

b. Các kiểu tấn công trên dữ liệu đã thủy vân

Trong mục này, trình bày các kiểu tấn công và khả năng những tấn công cố

tình làm hại có thể thực hiện được. Giả sử chủ của quan hệ r đã đánh dấu bởi việc sử dụng thủy vân W trên từng nhóm của cơ sở dữ liệu để sinh ra một tập dữ liệu

được thủy vân rW. Một kẻ tấn công có thể thực hiện tấn công một vài lần với hi vọng làm thay đổi cơ sở dữ liệu mà không làm ảnh hưởng đến thủy vân được

nhúng vào trong cơ sở dữ liệu. Giả định rằng kẻ tấn công không biết khóa K và số nhóm g. Ở đây chỉ thử nghiệm một vài kiểu tấn công cơ bản của cập nhật cơ sở dữ

0.55 0.6 0.65 0.7 0.75 0.8 0.85 0.9 0.95 1 0 5 10 15 20 25 30 35 40 45 50  η=3 η=5 η=6

công này là ngẫu nhiên, mỗi loại tấn công được thực hiện 20 lần và các kết quả lấy giá trị trung bình.

c. Kết quả thử nghiệm

Bảng 3.1 là kết quả thử nghiệm khi tấn công trên một bộ giá trị. Kết quả cho thấy tất cả nhóm giả mạo được phát hiện một cách chính xác.

Bảng 3.1. Tỷ lệ phát hiện đối với các tấn công trên một bộ giá trị

Số nhóm

Tấn công 5 6 7 8 9 10

Thêm 100 100 100 100 100 100

Xóa 100 100 100 100 100 100

Sửa 100 100 100 100 100 100

Kết quả thử nghiệm khi tấn công trên nhiều bộ được thể hiện trong Hình 3.1, Hình 3.2 và Hình 3.3, trong các hình kí hiệu (1) là kết quả của lược đồ thủy vân cải tiến, (2) là kết quả đối với lược đồ thủy vân của Y.Li và cộng sự [35].

Hình 3.1. Tỷ lệ phát hiện đối với các tấn công thêm nhiều bộ

Hình 3.1 cho kết quả tỷ lệ phát hiện đối với tấn công thêm nhiều bộ. Các nhóm giả mạo được phát hiện một cách chính xác ngoại trừ khi g =10. Tỷ lệ phát hiện đối với tấn công xóa nhiều bộ được thể hiện trong Hình 3.2. Với tỷ lệ xóa 10% và g nhận giá trị từ 5 đến 8 thì các thay đổi này được phát hiện chính xác. Tuy nhiên khi tăng tỷ lệ xóa và số nhóm g tăng lên thì tỷ lệ phát hiện giảm, ví dụ

85 90 95 100 0 5 10 15 20 25 30 35 40 45 50 α (%) Tỷ lệ thêm bộ (%) g=5,..,9 (1) g=5,…,9 (2) g=10 (1) g=10 (2)

khi g = 10, tỷ lệ xóa 50% tỷ lệ phát hiện của lược đồ cải tiến là 30%, tỷ lệ phát hiện của lược đồ thủy vân của Y.Li và cộng sự [35] là 20%. Hình 3.3 là kết quả của tấn công sửa nhiều bộ.

Hình 3.2. Tỷ lệ phát hiện đối với các tấn công xóa nhiều bộ

Hình 3.3. Tỷ lệ phát hiện đối với các tấn công sửa nhiều bộ

Kết quả thử nghiệm, lược đồ thủy vân cải tiến và lược đồ thủy vân của Y.Li và cộng sự [35] bền vững đối với cập nhật thông thường. Tuy nhiên, lược đồ của Y.Li và cộng sự có độ an toàn không cao bằng lược đồ cải tiến.

3.2.6. Kết luận

Lược đồ thủy vân cải tiến làm việc trên các nhóm trong quan hệ của cơ sở dữ

liệu quan hệ. Khóa thủy vân và tham số g (số lượng nhóm) được nhúng vào cơ sở

20 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40 45 50 α (%) Tỷ lệ xóa bộ (%) g=5,…8 (1) g=5,…8 (2) g=9 (1) g=9 (2) g=10 (1) g=10 (2) 30 40 50 60 70 80 90 100 0 5 10 15 20 25 30 35 40 45 50 α (%) Tỷ lệ sửa bộ (%) g=5,..,7 (1) g=5,…,7 (2) g=8,9 (1) g=8,9 (2) g=10 (1) g=10 (2)

dữ liệu quan hệ là một dữ liệu mật. Trong lược đồ này cần tạo ra sự cân bằng giữa độ an toàn và chi phí tính toán. Tức, kích thước của cơ sở dữ liệu càng lớn thì độ bền vững của lược đồ càng tốt nhưng ngược lại số lượng bộ có thể tiếp tục sử dụng dữ liệu giảm và chi phí tính toán lớn. Trong khi đó, số nhóm thủy vân càng lớn thì số lượng bộ có thể tiếp tục sử dụng dữ liệu càng tốt nhưng độ bền vững của lược

đồ thủy vân giảm. Vì vậy việc chọn g được xem xét để cân đối với kích thước của

quan hệ.

Lược đồ thủy vân cải tiến sử dụng các nhóm độc lập trong quan hệ, có những điểm mạnh sau:

- Nhúng thủy vân không làm thay đổi giá trị của các bộ.

- Phát hiện và khoanh vùng giả mạo trên từng nhóm độc lập. Do vậy, các nhóm còn lại trong cơ sở dữ liệu vẫn còn có thể được sử dụng nếu cần thiết.

Một phần của tài liệu Luận án tiến sĩ toán học KỸ THUẬT THỦY VÂN CƠ SỞ DỮ LIỆU QUAN HỆ (Trang 70 - 76)

Tải bản đầy đủ (PDF)

(108 trang)