KỸ THUẬT PHÂN TÍCH CẶP MẪU SPA

2.5.1 Các khái niệm

Kỹ thuật phân tích cặp mẫu SPA (Sample Pair Analysis) do Sorina Dumitrescu et. al. đưa ra nhằm phát hiện các giấu tin mật LSB thông qua việc phân tích cặp mẫu. Khi tỷ lệ giấu tin lớn hơn 3% thì phương pháp này có thể ước lượng độ dài đã giấu với độ chính xác tương đối cao [23, 27, 28].

Kỹ thuật SPA dựa trên lý thuyết về xích hữu hạn trạng thái. Các trạng thái của xích hữu hạn trạng thái được chọn từ tập hỗn hợp (multisets) các cặp mẫu được gọi là

tập hỗn hợp dấu vết (trace multisets). Trước khi giấu tin, các phần tử trong cặp có quan hệ với nhau theo một độ đo nào đó. Nhưng sau khi giấu tin LSB một cách ngẫu nhiên thì các tập này sẽ thay đổi và nó dẫn đến những thay đổi các quan hệ thống kê.

Giả sử rằng ta có các mẫu liên tiếp nhau s1, s2, …, sN (các chỉ số thể hiện vị trí của một mẫu trên ảnh). Một cặp mẫu là một bộ hai (si, sj) 1 i, j  N. Đặt P là tập tất cả các cặp mẫu được lấy ra từ một ảnh. P có thể coi như là một tập hỗn hợp (multiset) của các bộ hai (u, v), trong đó u và v là các giá trị của hai mẫu. Nếu không có gì ngoại lệ thì bộ hai (u, v) hoặc các phần tử của P luôn tham chiếu đến các giá trị của các mẫu khác nhau được lấy ra từ ảnh.

Định nghĩa Dn = {(u,v)  P | |u-v| = n} là một tập con (submultiset) của P chứa cặp mẫu có dạng (u, u+n) hoặc (u+n, u) trong đó n là một số nguyên cố định 0  n  2b -1, b là số bit nhị phân biểu diễn mỗi giá trị mẫu. Hay nói cách khác, các cặp mẫu trong Dn sai khác nhau một lượng bằng n. Từ việc giấu tin chỉ ảnh hưởng tới các bít LSB nên ta sử dụng nhiều nhất là (b-1) bit tín hiệu trong việc chọn lựa các tập hỗn hợp đóng này.

Với mỗi số nguyên m, 0  m  2b-1 -1 ta định nghĩa tập Cm là tập con (submultiset) của P có chứa các cặp mẫu mà giá trị của nó chỉ sai khác nhau m trong (b-1) bit đầu tiên.

Cm = {(u, v)  P \

v u

= m} với 0  m  2b-1 -1.

Ta xét mối quan hệ giữa Dn và Cm.

Thứ nhất, ta có Cm chứa D2m. Thật vậy, nếu (u, v) là một cặp trong D2m (|u-v| = 2m) thì cả u và v là cùng chẵn hoặc cùng lẻ. Bằng việc dịch phải một bit và lấy sai phân trị tuyệt đối ta thu được giá trị |u-v|/2 và do đó cặp (u, v)  Cm.

Thứ hai, D2m+1 = Cm Cm+1 hay các cặp mẫu của tập D2m+1 là giao của hai tập Cm và Cm+1. Thật vậy, nếu cặp (u,v)  D2m+1 thì (u,v) có thể có các dạng sau (2k-2m-1, 2k), (2k, 2k-2m-1), (2k-2m, 2k+1) hoặc (2k+1, 2k-2m) với mọi k. Cặp (2k-2m-1, 2k), (2k, 2k-2m-1) thuộc tập Cm+1 vì bằng phép dịch phải một bit các giá trị 2k và 2k-2m-1 theo thứ tự sẽ là thu được giá trị k và k-(m+1) và như vậy chúng sẽ vẫn sai khác nhau m+1. Hai cặp (2k-2m, 2k+1) và (2k+1, 2k-2m) thuộc Cm vì bằng phép dịch phải một bit thì giá trị của 2k+1 và 2k-2m theo thứ tự thu được giá trị là k và k-m, như vậy chúng vẫn sai khác nhau là m.

Ta phân hoạch D2m+1 thành hai tập con X2m+1 và Y2m+1, trong đó X2m+1 = D2m+1 Cm+1

Y2m+1 = D2m+1 Cm với 0  m  2b-1 -2 và 

1 2b

X . Y2b1D2b1.

Cả hai tập X2m+1 và Y2m+1 đều là những tập con (submultiset) của P. Tập X2m+1

chứa các cặp (u,v) có dạng (2k-2m-1, 2k) hoặc (2k, 2k-2m-1). Tập Y2m+1 chứa các các cặp (u,v) có dạng (2k-2m, 2k+1) hoặc (2k+1, 2k-2m). Những cặp mà trong đó thành phần chẵn lớn hơn sẽ nằm trong tập X2m+1 còn những cặp mà trong đó thành phần lẻ lớn hơn sẽ nằm trong tập Y2m+1 và tất cả những cặp này đều sai khác nhau 2m+1. Với các ảnh có tín hiệu chuẩn, xác suất để một cặp mẫu ở trong tập D2m+1 có các thành phần chẵn lớn hơn hoặc nhỏ hơn là như nhau. Điều đó có nghĩa là với số nguyên m bất kỳ, 0  m  2b-1-2 ta có

E(|X2m+1|) = E(|Y2m+1|) (1)

Để phân tích ảnh hưởng của việc giấu tin LSB trên các cặp mẫu ta xem xét bốn trường hợp có thể của việc “lật” bit LSB theo mẫu, gọi mẫu  {00, 01, 10, 11} với 1 biểu thị cho một (hoặc nhiều) mẫu trong một cặp có bị đảo bit, 0 biểu thị cho một (hoặc nhiều) mẫu vẫn giữ nguyên (không bị đảo bít).

Với mỗi m, 0  m  2b-1-1, tập Cm được phân hoạch thành X2m-1, D2m, Y2m+1. Rõ ràng Cm là đóng đối với phép giấu nhưng các tập con thành phần X2m-1, D2m, Y2m+1 thì không. Lấy một cặp mẫu (u, v) tùy ý của X2m-1 thì (u, v) có thể có dạng (2k-2m+1, 2k) hoặc (2k, 2k-2m+1). Bằng việc chuyển đổi cặp mẫu (u, v) qua mẫu  =10, ta thu được mẫu (u’, v’) = (2k-2m, 2k) hoặc (u’, v’)=(2k+1, 2k-2m+1). Tương tự như vậy, nếu (u, v) được thay đổi thông qua mẫu 01 thì (u’, v’) = (2k-2m+1, 2k+1) hoặc (u’v’) = (2k, 2k-2m). Rõ ràng X2m và Y2m tạo thành một phân hoạch của D2m.

Như vậy, Cm với 0  m  2b-1-1 có thể được phân hoạch thành bốn tập con X2m-1, X2m, Y2m và Y2m+1 được gọi là các tập con hỗn hợp dấu vết (trace submultisets) của Cm. Hơn nữa Cm là đóng nhưng bốn tập con của nó thì không đóng đối với các thao tác giấu tin LSB. Điều này giống như một máy trạng thái hữu hạn được mô tả trên hình 2.5. Trên hình 2.5 các trạng thái (các nút tròn) chính là các tập con (trace submultise)

của Cm. Các cung được gắn nhãn  là mẫu chuyển đổi nối từ trạng thái A sang trạng thái B thể hiện rằng bất kỳ cặp mẫu nào trong A sẽ trở thành một cặp mẫu trong B nếu áp dụng mẫu chuyển đổi .

Hình 2.5. Xích hữu hạn trạng thái với các trạng thái là các tập con của Cm (m>0).

Tập C0 là đóng đối với phép giấu tin LSB và có thể được phân hoạch thành hai tập Y1 và D0. Hình 2.5 mô tả một máy trạng thái cho C0.

Hình 2.6. Xích hữu hạn trạng thái cho tập C0.

Ý nghĩa của các xích hữu hạn trạng thái trong hình 2.5 và 2.6 là: có thể đo (một cách thống kê) số các tập con trước và sau khi giấu tin bằng cách sử dụng các xác suất của các mẫu thay đổi trong mỗi tập (multiset). Hơn nữa, nếu việc giấu tin LSB được làm một cách ngẫu nhiên trong ảnh thì các xác suất là các độ dài của thông điệp ẩn.

Với mỗi mẫu chuyển đổi  {00, 10, 01, 11} và với bất kỳ tập con (submutiset) A  P, ta định nghĩa xác suất (, A) là xác suất các cặp mẫu của A bị thay đổi theo mẫu . Đặt p là chiều dài thông điệp bị giấu trong các bit bị chia bởi tổng số các mẫu trong các ảnh. Thế thì hệ số các mẫu đã thay đổi bằng giấu tin LSB là p/2. Giả sử rằng, các bit thông điệp của giấu tin mật LSB được phân bố ngẫu nhiên trong ảnh, ta có

(i). (00,P) = (1-p/2)2

(ii). (01,P) = (10,P) = p/2(1-p/2) (iii). (11,P) = (p/2)2

Đặt A và B là hai tập con của P sao cho A  B. Ta nói rằng tập A là không chệch đối với tập B nếu (,A) = (,B) ứng với mỗi mẫu biến đổi  {00, 10, 01, 11}. Khi B = P ta nói rằng A là không chệch. Nếu tất cả bốn tập con của Cm là không chệch thì ta nói rằng Cm là không chệch.

Kỹ thuật giấu tin Yuan_Pan_Tseng

PHƯƠNG PHÁP PHÁT HIỆN ẢNH GIẤU TIN