1.2. PHÁT HIỆN ẢNH GIẤU TIN VÀ CÁC NGHIÊN CỨU LIÊN QUAN
1.2.2. Phương pháp phát hiện ảnh có giấu tin
Phát hiện ảnh giấu tin có thể định nghĩa như một bài toán phân loại dựa trên
kiểm định giả thuyết thống kê. Điều này phụ thuộc vào sự hiểu biết của chúng ta về lược đồ giấu tin, do đó phát hiện ảnh giấu tin được phát biểu: hoặc như bài toán
kiểm định giả thuyết đơn (simple hypothesis); hoặc như bài toán kiểm giả thuyết phức hợp (composite hypothesis).
Nếu chúng ta khơng có thơng tin gì về lược đồ giấu tin thì phương pháp phát hiện gọi là phát hiện mù (blind steganalysis), bài tốn phân loại có thể phát biểu dựa trên kiểm định giả thuyết phức hợp:
Biến đổi T (tùy chọn) Bộ nhận dạng Quyết định: Cover hay stego ? Dữ liệu ảnh S
H0: X được rút ra từ hàm phân bố xác suất là PS H1: X không được rút ra từ hàm phân bố xác suất PS Với X là mẫu dữ liệu ảnh được xét.
Trong trường hợp biết trước thơng tin về lược đồ giấu tin thì phương pháp phát hiện gọi là phát hiện có ràng buộc (constraint steganalysis). Giả sử chúng ta biết được phân bố xác suất của PC, lược đồ giấu tin (SE, SX) và phân bố của thơng tin M, chúng ta có thể tính được PS. Từ đó chúng ta có thể đưa ra phương pháp phát hiện có ràng buộc như bài tốn phân loại dựa trên kiểm định giả thuyết đơn:
H0: X có phân bố xác suất là PS H1: X có phân bố xác suất là PC
Để giải quyết bài toán kiểm định giả thuyết thống kê này, chúng ta cần tìm ra được miền điều kiện của ảnh gốc và ảnh có giấu tin.
Giả sử, bộ phát hiện được miêu tả như một ánh xạ F: Ω {0, 1}, với F(X)=0, X được phát hiện là ảnh gốc, với F(X) = 1, X được cho là ảnh có giấu tin. Khi đó ta có tập miền ràng buộc Ω1 = {X | F(X) = 1}.
Vậy việc giải quyết bài toán kiểm định giả thuyết thống kê trên tương đương với việc chia tập Ω thành hai phần rời nhau: và Ω\. Rõ ràng là có nhiều cách
chia khác nhau, dù chia cách nào cũng sẽ xẩy ra hai sai lầm: sai lầm loại I, là sai số xẩy ra khi thực tế là X nhưng ta lại gán cho X Ω\, với xác suất (0<<1)
và sai lầm loại II là sai lầm xẩy ra khi thực tế là X Ω\ nhưng ta lại gán cho X
với xác suất (0 < <1).
Xác suất α và β với bộ phát hiện F có thể biểu diễn tốn học như sau: α = P(F(X)=1|X PC) =
β = P(F(X)=0 | X PS) =
(1 – α) log ( + α log ( ) DKL(PC||PS) (1.2) Khơng có thuật tốn chia nào làm cực tiểu hóa cả hai sai lầm này đồng thời. Trong thực tế, người ta thường cố định xác suất sai lầm loại I (cho trước xác suất ) và tìm thuật tốn phân loại sao cho sai lầm loại II (xác suất ) là nhỏ nhất. Bài tốn phân hoạch khơng gian làm hai miền và Ω\ tương đương bài toán xác định
ngưỡng T (threshold) sao cho nếu một phần tử x nào đó có đặc trưng thống kê vượt quá ngưỡng T thì ta bác bỏ giả thuyết H0, ngược lại chấp nhận giả thuyết H0.
Theo hướng phát hiện dựa trên lý thuyết thống kê bộc lộ sự khác biệt cơ bản giữa phát hiện có ràng buộc và phát hiện mù, phát hiện có ràng buộc chúng ta có thể đưa ra bài tốn phát hiện tối ưu dựa trên những hiểu biết về lược đồ giấu tin biết trước, còn phát hiện mù dựa trên kiểm định phức hợp thì bài tốn tối ưu của nó thuộc lớp bài tốn tấn cơng mù và kết quả của chúng phụ thuộc chủ yếu vào tỷ lệ thông tin đem nhúng, tỷ lệ nhúng càng cao thì độ chính xác càng lớn.