Chương 2 CÁC KỸ THUẬT PHÁT HIỆN TRONG ẢNH SỐ CÓ GIẤU TIN MẬT
2.3. Cơ sở toán học của kỹ thuật phát hiện ảnh giấu tin theo phương pháp thống kê
2.3.1. Các khái niệm
Định nghĩa 3 .1: Biến cố ngẫu nhiên (Biến cố).
Sự kiện có thể xảy ra hoặc không thể xảy ra tùy thuộc vào kết quả của phép thử G được gọi là các biến cố ngẫu nhiên. Kí hiệu là A, B,....
Biến cố sơ cấp: là biến cố xảy ra khi và chỉ khi có một kết quả cụ thể trong số những kết quả của phép thử G. Kí hiệu là ra.
Không gian mẫu: là tập hợp gồm tất cả các biến cố sơ cấp. Kí hiệu là Q Định nghĩa 3.2: Xác suất của biến cố
Giả sử Q = {1, 2..., k,.. } là không gian mẫu đã cho. Mỗi biến cố sơ cấp k được gắn một trọng số pk = p(k) sao cho
a. pk > 0, với k > 1.
b. p1 + p2 +... + pk +... = 1
Khi đó với mỗi biến cố A ta định nghĩa: ∑
∈
=
} : {
) ( )
(
A
k k
k
p A
P
ω ω
Số P(A) được gọi là xác suất của biến cố A.
Định nghĩa 3 .3: Đại số và -đại số, không gian đo, không gian xác suất Giả sử tập ≠ . Kí hiệu P ( ) là tập hợp gồm tất cả các tập con của tập . Lớp A P( ) được gọi là một đại số nếu:
a. A
b. A ∈ A ⇒ A = Ω \ A ∈ A
c. A, B A A B A, A B A
Lớp F P( ) được gọi là -đại số nếu nó là đại số và ngoài ra
F A I F A Y ra suy n
F
A n
n n
n∈ = n ∈ ∞ ∈
=
∞
=1 , 1
...
, 2 , 1 ,
Cặp ( , F) được gọi là một không gian đo.
Bộ ba (, F, P) là không gian xác suất với Q là tập các biến cố sơ cấp; F là
- đại số các tập con của Q; P là xác suất trên F. Tập A F được gọi là biến cố, P(A) là xác suất của biến cố A.
Định nghĩa 3 .4: Đại lượng ngẫu nhiên (biến ngẫu nhiên)
Giả sử cho không gian xác suất ( , A, P), và (R,B, ) là không gian với độ đo . R là đường thẳng thực. B là không gian các tập Borel trên R. là một độ đo trên R. Ánh xạ X: Q R được gọi là đại lượng ngẫu nhiên (đ.l.n.n) hay còn gọi là biến ngẫu nhiên (b.n.n) nếu với mọi tập con B B thì X -1(B) = { :
X( ) B} thuộc A. Tức là X(.) là hàm đo được đối với độ đo .
-Đ.l.n.n rời rạc: Đ.l.n.n được gọi là rời rạc nếu tập hợp giá trị số mà nó có thể lấy hoặc hữu hạn hoặc vô hạn đếm được.
-Đ.l.n.n liên tục: Đ.l.n.n được gọi là liên tục nếu tập hợp mọi giá trị số mà nó có thể lấy lấp đầy một khoảng nào đó của trục số.
Định nghĩa 3 .5: Hàm phân phối của một đ.l.n.n.
Trong không gian xác suất ( , A, P) cho một đ.l.n.n X. Ta gọi hàm số F(x)=P[X< x] là hàm phân phối của X, x R.
- Nếu X là đ.l.n.n rời rạc thì ∑
<
=
=
<
=
x x
i
i
] x X [ P ] x X [ P ) x ( F
- Nếu X là đ.l.n.n liên tục thì ∫
∞
−
= xf(t)dt )
x (
F Trong đó f(t) là hàm mật độ.
Định nghĩa 3 .6: Vectơ ngẫu nhiên n chiều (đ.l.n.n n chiều)
Một vec tơ X có n chiều (XL, X2,..., Xn) mà các thành phần Xi (1 < i < n) của nó là các đ.l.n.n được gọi là một vecto ngẫu nhiên n chiều hay một đ.l.n.n n chiều.
Định nghĩa 3 .7: Hàm phân phối của đ.l.n.n n chiều
Trong không gian xác suất ( , A, P), hàm phân phối của đ.l.n.n X = (X 1, X2,..., Xn) là hàm số F(x1, x2,..., xn) = P[X1 < x1, X2 < x2,..., Xn < xn] ở đó (x1, x2,..., xn)
Rn.
Định nghĩa 3 .8: Hàm phân phối đồng thời liên tục
Các đ.l.n.n X1, X2,..., Xn được gọi là có phân phối đồng thời liên liên tục nếu phân phối đồng thời của X1, X2,..., Xn là hàm liên tục trên Rn, nghĩa là tồn tại hàm fx1, x2, …,xn 0 trên Rn sao cho:
∫ ∫ ∫
∞
− ∞− −∞
= 1 2 n 1 2 n
x x x
n 2 1 n 2 1 x ...
x x n
2
1,x ,...x ) ... f (t ,t ,...t )dt dt ...dt x
( F
Hàm fx1, x2, …,xn được gọi là hàm mật độ đồng thời của X1; X2,..., Xn. Các đặc trưng của các đ.l.n.n
Định nghĩa 3 .9: Kì vọng và phương sai của đ.l.n.n
Giả sử X là đ.l.n.n rời rạc nhận n giá trị x1, x2,..., xn với xác suất tương ứng
là: pl, p2,..., pn; tức là xác suất p{X = xk} = pk, k = 1,..., n và ∑
= =
n 1
k pk 1
Kỳ vọng toán học của đ.l.n.n rời rạc X là ∑
=
= n
1 k xkpk
) X ( E
Kỳ vọng của đ.l.n.n liên tục X với miền giá trị là đoạn [a,b] là một số xác
định bởi =∫b
a
dx ) x ( xf ) X ( E
Phương sai của X được định nghĩa là DX = E(X - EX)2 = E(X)2 - (EX)2
Định nghĩa 3 .10: Độ lệch chuẩn của đ.l.n.n X
Độ lệch chuẩn của đ.l.n.n X, kí hiệu là X được xác định bằng
x = DX
σ Trong đó DX là phương sai của X.
Định nghĩa 3 .11: Phân phối mũ.
Đ.l.n.n X gọi là có phân phối mũ với tham số 9>0 nếu hàm mật độ của nó có dạng
=θ θ 0 ) e x ( f
x
nếu x 0
Hàm phân phối có dạng
= − θ 0
e ) 1
x ( f
x
nếu x 0 Đinh nghĩa 3 .12: Phân phối Gamma.
Đ.l.n.n X có phân phối Gamma với các tham số , p (, p >0) nếu hàm mật độ của nó có dạng:
Γ
= α − −α 0
) p (
e ) x
x (
f p p 1 x nếu x 0 t rong đó Γ =+∞∫ − −
0
x 1
p e dx
x ) p (
Đinh nghĩa 2.13: Phân phối 2 (Khi-bình phương) với n bậc tự do
Phân phối X2 (Khi-bình phương) với n bậc tự do, kí hiệu là 2(n), nếu hàm mật
độ của nó có dạng:
Γ
=
−
−
0
e 2 x
) 2 / n (
1 )
x ( f
2 / x 1 2 / n 2 /
n nếu x 0
Ta thấy phân phối 2(n) với n bậc tự do là trường hợp đặc biệt của phân phối Gamma với tham số =1/2 và p = n/2.
Đinh nghĩa 2.14: Phân phối chuẩn
Đ.l.n.n X được gọi là phân phối chuẩn với kỳ vọng a, và phương sai 2 > 0
nếu hàm mật độ của nó có dạng: 2
2
2 ) a x (
2 e ) 1
x (
f σ
−
−
π
= σ với - < x < + Đinh nghĩa 2.15: Phân phối nhị thức
Giả sử X1, X2,..., Xn là một dãy các đ.l.n.n độc lập, có phân bố nhị thức (chỉ nhận các giá trị là 0 và 1 với xác suất tương ứng là p và q = 1-p) trong đó Xi{A, A }, bây giờ ta gọi X là số lần xuất hiện của biến cố Xi = A với i= 1,...,n trong dãy, khi đó xác suất để cho “X = k”, (k = 0, 1,., n) sẽ là P { X =k } =Cnkpkqn−kvới q = 1-p.
Phân phối này được gọi là phân bố nhị thức.
2.3.2. Các định lý Định lý 3 .1:
Nếu X1, X2,..., Xn là dãy các đ.l.n.n độc lập, mỗi Xi là một phân phối chuẩn )
a (
N iσ2i , i = 1,..., n. Khi đó, tổng X = X1 + X2 +...+ Xn là đại lượng ngẫu nhiên có
phân phối chuẩn
∑ ∑σ
= =
n
1 i
n
1 i
2 i i, a N
Trường hợp đặc biệt X1, X2,..., Xn độc lập cùng phân phối chuẩn N(a,2) tổng X = X1 + X2 +.+ Xn có phân phối chuẩn N(na, n2).
Định lý này đúng cho trường hợp X1, X2,., Xn có phân bố nhị thức, phân phối Poisson, X2 và phân phối đa thức).
Định lý 3 .2:
Giả sử X1, X2,..., Xn là dãy các đại lượng ngẫu nhiên độc lập, mỗi Xi có
phân bố chuẩn N ( ai,σ2i ) khi đó đại lượng ngẫu nhiên ∑
= σ
= n −
1
i 2
i 2 i
i a )
X
Y ( có
phân phối X2 với n bậc tự do.
Định lý 3 .3:
Nếu Xi có phân phối chuẩn N(a, 2) với i = 1,., n. Thì:
∑ − − ≈
σ
− 2 2
2 i X
1 n ) 1 X X 1 (
n với n-1 bậc tự do.
Định lý 3 .4:
Cho X1, X2,..., Xn là mẫu ngẫu nhiên độc lập được lấy từ đ.l.n.n X có phân bố xác suất bất kỳ và nếu tồn tại a = EX, 2 = DX với a, 2 là hai hằng số tùy ý
thì X a n σ
− có phân bố tiệm cận phân bố chuẩn N(0, 1) khi n .
Trong đó ∑
=
= n
1 i Xi
n X 1
Định lý 3 .5:
Giả sử ta làm các thí nghiệm một cách độc lập và trong mỗi thí nghiệm sự kiện A xuất hiện với xác suất p. Gọi m là số lần xuất hiện biến cố A trong n thí
nghiệm. Khi đó đại lượng ngẫu nhiên n ) p 1 ( p
n p m
X −
= − có phân bố tiệm cận
chuẩn N(0,1) khi n.
2.4. Các kỹ thuật phát hiện trong ảnh số có chứa tin mật dựa trên phương pháp thống kê
2.4.1. Kỹ thuật phân tích cặp giá trị điểm ảnh 2.4.1.1. Khái niệm cặp giá trị
Khái niệm về cặp giá trị PoV (Pairs of Values) được Pfitzmann và Westfeld đưa ra.
Cho một ảnh I. Gọi j là giá trị của điểm ảnh (pixel) trên ảnh I. Nếu I là ảnh đa cấp xám 8 bit thì j [0,255]. Nếu j chẵn (j= 2i) thì sau phép lật bit giá trị của j là 2i+1, nếu j là lẻ (j = 2i+1) thì sau phép lật bit giá trị của j là 2i. Như vậy, nếu một giá trị điểm ảnh ở trong một cặp thì sau khi giấu tin giá trị của nó vẫn nằm trong một cặp có tính chất chẵn lẻ tương tự.
PoV là một cặp hai giá trị điểm ảnh (2i, 2i+1) và hai giá trị trong cặp này chỉ sai khác nhau ở bit thấp nhất. Tần số xuất hiện của giá trị điểm ảnh j là số lần xuất hiện của giá trị điểm ảnh j trên ảnh.
Kỹ thuật PoVs còn được gọi là phương pháp thống kê X2 (khi-bình phương - Chi-squared) và được áp dụng rất thành công đối với việc phát hiện giấu tin mật LSB một cách tuần tự [9, 10, 12,].
Có nhiều kỹ thuật PoV khác nhau như PoV2, PoV2r, PoV3. Trong đó PoV2 và PoV2r chỉ kiểm tra một tập con các điểm ảnh được chọn bởi người dùng. PoV2 kiểm tra phần trăm các điểm ảnh hiện tại (được chọn bởi người dùng) một cách tuần tự, bắt đầu từ góc trên trái của ảnh. PoV2r cũng kiểm tra một cách tuần tự phần trăm các điểm ảnh hiện tại được chọn bởi người dùng nhưng bắt đầu ở một điểm nào đó trên ảnh và sau đó thực hiện phép lật bit cho
đến điểm cuối cùng được chọn. PoV3 kiểm tra mỗi tổng phần trăm các điểm ảnh từ 1% đến 100% và trả về xác suất của mỗi tập con các điểm ảnh trên ảnh kiểm tra. Các điểm ảnh cũng được kiểm tra một cách tuần tự, bắt đầu từ góc trên bên trái của ảnh. Thực tế PoV3 kiểm tra các nhóm điểm ảnh theo một trật tự nào đó.
2.4.1.2. Thuật toán PoV3 a. Ý tưởng
Với một ảnh I cần kiểm tra, trước tiên ta thống kê tần số của các giá trị điểm ảnh chẵn, lẻ có mặt trong ảnh I. Ta xác định xác suất giấu tin của ảnh thông qua việc áp dụng tiêu chuẩn phân phối X đối với tần số của các cặp PoV.
Input
- Ảnh I cần kiểm tra Output
p: Xác suất giấu tin trong ảnh I Thuật toán
Bước 1: Đọc vào ảnh I
Bước 2: Đọc dữ liệu ảnh vào một ma trận Mmxn. Bước 3: Khởi tạo giá trị ban đầu cho vecto X, Y.
For each k e [0, 127]
X[k] = 0;
Y[k] = 0;
Bước 4:
Tính X[k] là tần số xuất hiện của các điểm ảnh có giá trị chẵn trên ảnh;
Tính Y[k] là tần số xuất hiện của các điểm ảnh có giá trị lẻ trên ảnh;
Bước 5: Giả sử ta có N cặp PoV Với mọi k
Nếu (X[k] + Y[k]) <4 thì X[k] = Y[k] = 0 ;
N = N-1 ; Bước 6:
For each k
Z[k]= (X[k] + Y[k])/2;
Bước 7: Giả sử ta có N cặp PoV, theo phương pháp thống kê. Khi bình phương với N-1 bậc tự do ta tính
∑=
− = 127 −
0 2 2
1 [ ]
]) [ ] [ (
k
N Z k
k Z k
χ X (2.1)
Bước 8: Tính p là xác suất của việc giấu tin
dx x
N e p
N x N
N 1
2 1
0 2 2
1
2 1
2 ) ( 1 2
1 1 −
−
−
− − ∫−
Γ
−
= χ (2.2)
b. Phân tích thuật toán
Đối với ảnh kiểm tra là một ảnh đa cấp xám 8-bit ta có 256 mức xám khác nhau. Thuật toán xác định các cặp phần tử là các giá trị mức xám chẵn, lẻ nên số lượng các phần tử chẵn, lẻ như vậy có không quá 256/2=128 phần tử.
Ta xây dựng hai vecto X(x0, x1..., xk), Y(y0, y1;..., yk) để thống kê tần số xuất hiện của các điểm ảnh, với 0 k 127. Mỗi phần tử trong X sẽ lưu tần số xuất hiện các điểm ảnh chẵn (X[k] = 2k), mỗi phần tử trong Y sẽ lưu tần số xuất hiện các điểm ảnh lẻ (Y[k] = 2k+1) với 0 k 127. Ban đầu khởi tạo các phần tử trong X và trong Y đều bằng 0.
Sau đó, thuật toán thực hiện việc thống kê các giá trị mức xám có trong ảnh cần kiểm tra và tương ứng tăng giá trị của các phần tử trong X và Y. Gọi Z là vectơ mỗi phần tử Z[k] là giá trị trung bình cộng của X[k] và Y[k]. Giả sử rằng ta có N cặp PoV, có k mức chẵn (lẻ) 0 k 127, nếu X[k] + Y[k] 4 thì X[k] = Y[k] = Z[k] = 0 và N = N-1. Nếu ảnh có chứa thông tin ẩn thì X[k] = Z[k] đối với mọi k, trong phương trình
(2.1) XN2−1 sẽ bé và do đó tích phân e x dx
N
N x 1
2 1
0 2
2 1 − − −
∫−
χ
sẽ bé và từ (2.2) suy ra xác suất p sẽ lớn. Ngược lại thì XN2−1sẽ lớn suy ra xác suất p sẽ bé. Căn cứ vào sự lớn bé của xác suất p ta sẽ quyết định được ảnh có giấu tin hay không. Hơn nữa Westfeld và Pfitzmann còn khẳng định rằng nếu ít hơn 100% các điểm ảnh có chứa thông tin được giấu thì xác suất giấu tin sẽ giảm rõ rệt [13].
2.4.2. Kỹ thuật phân tích đối ngẫu 2.4.2.1. Các khái niệm
Kỹ thuật đối ngẫu hay còn gọi là kỹ thuật RS (Regular - Singular) do Fridrich et.al. đưa ra. Phương pháp này thực hiện các thống kê về sự thay đổi của các nhóm chính quy (Regular) và nhóm đơn (Singular) trên ảnh để ước lượng độ dài thông điệp đã giấu một cách chính xác. Phương pháp này phù hợp với ảnh màu và ảnh đa cấp xám khi các thông điệp được giấu một cách ngẫu nhiên. Kỹ thuật RS cũng là một kỹ thuật được dựa trên lý thuyết xác suất thống kê.
Giả sử rằng ta có một ảnh có MxN điểm ảnh. Tập P là tập tất cả các giá trị điểm ảnh có trên ảnh. Với ảnh đa cấp xám 8 bit thì P = {0, 1,..., 255}.
Định nghĩa 3.2.1:
Một hàm độ khác biệt f trên nhóm G = (x1, x2,., xn) được định nghĩa như sau: f(x1,x2,...xn)=∑in=−11xi −xi+1
Trong đó x1, x2,., xn là giá trị các điểm ảnh trên nhóm G. Hàm f được xem như là độ trơn của nhóm G.
Việc giấu tin LSB làm tăng nhiễu trên ảnh, do đó ta hi vọng rằng giá trị của hàm f sẽ tăng (hoặc giảm) sau khi giấu tin LSB.
Định nghĩa 3 . 2 .2:
Việc giấu tin LSB sử dụng các kiểu hàm lật (flip) bit Fm(x) với m=-1, 0, 1 và x là giá trị điểm ảnh. Cụ thể như sau:
F1: 0 1, 23, … 254 255
F-1: -1 0, 12, 3 4,… 253254, 255 256
hay F-1(x) = F(x+1) -1 với mọi x. F0(x) = x, với x P. Định nghĩa 3.2.3:
Phép lật bit F1 và F-1 được áp dụng lên nhóm G(x1, x2,., xn) với một mặt nạ M (M là một n bộ với các thành phần nhận giá trị -1, 0 hoặc 1) được định nghĩa như sau:
FM(G)= (FM(1)(x1), FM(2)(x2),… FM(n)(xn)) trong đó M(i) {-1, 0, 1} Ví dụ: nếu các giá trị các điểm ảnh trong nhóm G là (39, 38, 40, 41) và mặt nạM = (1, 0, 1, 0) thì FM(G) = (F1(39), F0(38), F1(40), F0(41)) = (38, 38, 41, 41).
Định nghĩa 3. 2.4:
Cho một mặt nạ M, phép lật bit F, và hàm khoảng cách f một nhóm G các điểm ảnh được phân lớp vào một trong ba lớp sau:
G R f(F M(G)) >f(G) G S f(F M(G)) <f(G) G U f(F M(G)) =f(G)
Trong đó R gọi là các nhóm chính quy (Regular), S là các nhóm đơn (Singular) và U là các nhóm không dùng được (Unusable).
Khái niệm 3. 2.5: Ta gọi
RM là số tương đối các nhóm R với mặt nạM không âm, M {0, 1}.
SM là số tương đối các nhóm S với mặt nạ M không âm, M {0, 1}.
R-M là số tương đối của các nhóm R với mặt nạ M không dương, M {-1, 0}
S-M là số tương đối của các nhóm S với mặt nạ M không dương, M {-1, 0}.
Ta có RM xấp xỉ bằng R-M và SM xấp xỉ bằng S-M và được viết như sau:
RM R -M và SM S-M
Việc giấu tin LSB tập trung vào sự khác biệt giữa RM và SM. Nếu có 50%
điểm ảnh bị lật (khi mỗi điểm ảnh bị giấu bit thông điệp) ta thu được RM SM
nhưng ảnh hưởng của việc giấu tin LSB đến R-M và S-M lại ngược lại.
Các bước cụ thể của kỹ thuật RS như sau:
2.4.2.2.Thuật toán RS (Regular - Singular) a. Ý tưởng
Kỹ thuật RS phân hoạch ảnh cần kiếm tra thành các nhóm điếm ảnh cố định. Mỗi nhóm đó lại được phân lớp vào các nhóm R hay S phụ thuộc vào sự khác biệt giữa các điếm ảnh trong nhóm bị tăng hoặc giảm sau phép lật bit LSB với mặt nạ M. Sau đó tính xác suất của việc giấu tin căn cứ vào số nhóm R, S đó.
Input