Kỹ thuật phát hiện giấu tin cụ thể mang lại những quyết định chính xác khi kiểm tra trên các ảnh giấu tin sử dụng phƣơng pháp đó. Tuy nhiên các kỹ thuật này có thể thất bại khi sử dụng một phƣơng pháp giấu tin khác. Do đó kỹ thuật giấu tin mù hay kỹ thuật giấu tổng quát có thể khắc phục đƣợc những thiếu sót của việc sử dụng các kỹ thuật giấu tin cụ thể. Phát hiện giấu tin tổng quát có thể xem nhƣ là mô hình phân loại kiểu hai lớp để phân loại các hình ảnh thử nghiệm nhƣ ảnh gốc hay ảnh giấu tin. Nói chung việc phân loại bao gồm hai phần: rút trích các đặc trƣng và mô hình phân loại. Các đặc trƣng tốt nhất cho việc phát hiện giấu tin cần phải bao gồm thông tin về việc thay đổi phát sinh bởi các dữ liệu ẩn chứ không phải bởi các nội dung của hình ảnh. Khảo sát dựa trên các tính năng khác nhau đƣợc đƣa ra dƣới đây.
3.4.1 Đặc trƣng markov
Một phƣơng pháp phát hiện giấu tin đề xuất bởi Shi và Chen [20] sử dụng ma trận chuyển đổi thực nghiệm Markov để nắm bắt cả nội khối và liên kết khối phụ thuộc giữa các khối hệ số DCT trong hình ảnh JPEG. Các đặc trƣng đƣợc trích xuất từ ma trận chuyển đổi thực nghiệm bằng kỹ thuật ngƣỡng. Những tính năng đƣợc đánh giá bằng máy hỗ trợ vector SVM. Zou, Shi và Xuan đã trích xuất các đặc trƣng markov từ
24
hình ảnh dự đoán lỗi. Các điểm ảnh đƣợc dự đoán với các điểm ảnh lân cận nó. Các lỗi dự báo thu đƣợc bằng cách trừ đi các giá trị dự đoán từ các giá trị điểm ảnh và sau đó lấy ngƣỡng với một giá trị ngƣỡng xác định trƣớc. Đối với phân loại đặc trƣng, SVM tuyến tính và không tuyến tính đƣợc sử dụng để phân loại. Các SVM không tuyến tính hoạt động tốt hơn SVM tuyến tính cho việc đƣa ra đặc trƣng tốt hơn. Các đặc trƣng Markov dựa trên ảnh JPEG gốc nắm bắt đƣợc đặc điểm của sự phân bố hệ số DCT trong khi đặc trƣng Markov dựa trên sự khác nhau và khác nhau giữa các hệ số lân cận. Theo tác giả, việc sử dụng cả ba tính năng Markov giúp cải thiện hiệu suất của hệ thống phát hiện giấu tin. RBFNN (Radial Basis Neural network) đƣợc sử dụng nhƣ một bộ phân loại. Các kết quả thử nghiệm trong bài báo cho thấy khả năng khái quát cho cơ sở dữ liệu hình ảnh khác nhau của phƣơng pháp đề xuất lớn hơn các phƣơng pháp của Fridrich, Shi và Chen.
3.4.2 Metric chất lƣợng hình ảnh
Memom và các cộng sự đã chứng minh rằng các sơ đồ giấu tin để lại các giấu vết thống kê có thể đƣợc khai thác để phát hiện với sự trợ giúp của các số liệu liên quan tới chất lợng hình ảnh và phân tích hồi quy đa biến. Khoảng cách trong không gian đặc trƣng giữa ảnh không rõ ràng và hình ảnh tham chiếu là khác nhau hơn so với khoảng cách giữa một hình ảnh rõ ràng và tham chiếu của nó. Khoảng 26 metric chất lƣợng hình ảnh đƣợc sử dụng nhƣ là các tập hợp các đặc trƣng. Kỹ thuật ANOVA đƣợc sử dụng để phân biệt đặc trƣng về chất lƣợng tốt nhất.
3.4.3 Đặc trƣng sóng biến đổi wavelet
Minh và Martin đã rút trích hệ số sóng wavelet trong mỗi dải phổ con của biến đổi wavelet và mô hình hóa chúng nhƣ là một phân bố tổng quát Gause (generalized Gaussian Distribution - GGD) với hai tham số là hình dạng và quy mô độ lớn. Những tham số này là thƣớc đo tốt cho các đặc trƣng của hình ảnh và đƣợc sử dụng để phân biệt giữa các hình ảnh đƣợc giấu tin và hình ảnh gốc. Mạng Nơ ron sẽ đƣợc học thông qua các thông số để có đƣợc những đặc tính vốn có của hình ảnh gốc và hình ảnh đƣợc giấu tin. Kỹ thuật phát hiện giấu tin tổng quá của Farid đề xuất sử dụng một cách tiếp cận khác để rút trích đặc trƣng từ ảnh xám. Quá trình phân tích dựa trên bộ lọc bộ lọc gƣơng vuông góc tách rời (separable quadrature mirror filters - QMFs). Một mô hình thống kê đƣợc xây dựng trong đó gồm có trung bình, phƣơng sai, độ nhọn, góc nghiêng của các hệ số dải phổ con và thống kê lỗi từ một dự báo tuyến tính tối ƣu của độ lớn hệ số. Một phân tích tuyến tính Fisher đƣợc sử dụng để phân biệt giữa hình ảnh bị ảnh hƣởng và hình ảnh bị pha trộn. Sau đó có những mở rộng trong các mô hình thống kê
25
số liệu đầu tiên và cao hơn trong thống kê wavelet màu sắc. Một máy vector hỗ trợ một lớp (OC-SVM) đƣợc sử dụng để phát hiện các thông điệp bí mật trong ảnh kỹ thuật số.
Dựa trên phƣơng pháp phân tích wavelet sử dụng QMF thì Gireesh và Jithin đã trích xuất đƣợc các đặc trƣng từ mô hình thống kê đặc trƣng của tất cả ba kênh màu của ảnh là đỏ, xanh lá cây và xanh da trời. Kết quả thu đƣợc là 108 đặc trƣng có thể nhận đƣợc và tác giả sử dụng việc phân loại đặc trƣng bằng máy vector hỗ trợ SVM.
3.4.4 Ma trận đồng thời xuất hiện
Kodovsky thiết kế đặc trƣng 7850 chiều đƣợc tính toán từ các ma trận đồng thời xuất hiện của các cặp hệ số DCT và đƣợc gọi là đặc trƣng CF*. Khi cả nội khối và liên kết khối phụ thuộc đại diện cho các đặc trƣng, phƣơng pháp phát hiện giấu tin có hiệu quả trong việc phát hiện các dữ liệu ẩn trong ảnh JPEG. Một cơ chế phân loại đƣợc trình bày để giải quyết các vấn đề mà trong đó các phân loại tuyến tính Fisher độc lập (FLD) đƣợc huấn luyện trong những không gian con đặc trƣng ngẫu nhiên với kích thƣớc nhỏ và quyết định cuối cùng trên môi trƣờng nghi ngờ sẽ đƣợc thực hiện bằng cách trộn các quyết định độc lập FLD với chiến lƣợc biểu quyết đa số. Bằng cách này, cả hai thực hiện phân loại tốt và phức tạp tính toán thỏa đáng đƣợc đảm bảo. Nghiên cứu của Fengyong và Xinpeng Zhang gồm hai phần: rút trích đặc trƣng và bộ phân loại tổ hợp Bayes. Các đặc trƣng đƣợc trích xuất trong hai phần: một phần tạo ra tự các ma trận hệ số đồng thời xảy ra, đó là 7850 đặc trƣng đề xuất bởi Kodovsky trong khi một phần khác có nguồn gốc từ các ma trận đồng thời xảy ra của sự khác biệt hệ số.
3.4.5 Đặc trƣng Histogram
Kodovsky đề xuất rằng việc phát hiện sự có mặt của tin mật đƣợc giấu trong ảnh JPEG bằng cách sử dụng một đặc điểm của ảnh sau khi giấu tin đều đƣợc nén JPEG trƣớc đó. Sự khác biệt giữa ảnh sau khi giấu tin và ƣớc lợng của ảnh trƣớc khi giấu đƣợc tính toán. Ảnh gốc thu lại đƣợc bằng cách nén lại với một bảng lƣợng tử JPEG đƣợc tính ra từ các ảnh sau khi giấu tin. Việc nén lại đƣợc mô tả bằng một vector đặc trƣng 65 chiều đƣợc hình thành nhƣ là biểu đồ của các khối với một số lƣợng nhất định các điểm ảnh không phù hợp. Các phân loại tổ hợp đƣợc xây dựng để đánh giá độ chính xác phát hiện cho một tỷ lệ cố định sự thay đổi đƣợc nhúng vào ảnh, tỉ lệ phát hiện lỗi cảnh báo liên tục cho sự thay đổi tỉ lệ không rõ ràng. Các phƣơng pháp tiếp cận cung cấp cả những phát hiện chính xác đáng kể hơn ngay cả đối với sự thay đổi rất nhỏ. Kỹ thuật này đòi hỏi phải có một ƣớc tính chính xác của các thông số nén JPEG. Deng Qian-lan đề xuất một vector đặc trƣng là 18 biểu đồ 2-D histogram thu đƣợc từ
26
một hình ảnh màu sắc nhất định, 9 biểu đồ histogram 2-D là kề nhau của hình ảnh khác biệt ba hƣớng và 9 biểu đồ khác là những biểu đồ 2-D giữa các sai khác hình ảnh của ba mặt phẳng màu. Sau đó họ tính toán các DFT 2-D dẫn đến một tập hợp 54 đặc trƣng. Máy vector hỗ trợ với RBF kernel đƣợc áp dụng để phân loại.
3.5 Phát hiện giấu tin trong ảnh sử dụng kỹ thuật tấn công trực quan
Việc giấu thông tin trong ảnh kỹ thuật số thƣờng làm thay đổi những bit ít quan trọng nhất của ảnh. Những thông tin đƣợc nhúng trong ảnh kỹ thuật số có thể rời rạc, ngẫu nhiên hoặc liên tục trong ảnh. Trên thực tế nếu nhìn ảnh trƣớc và sau khi giấu tin, chúng ta sẽ rất khó phát hiện cho dù thông tin đƣợc giấu trong ảnh liên tục hay ngẫu nhiên.
Hình 6: Ảnh trƣớc (bên trái) và sau (bên phải) khi giấu tin
Ở hình 6, chúng ta có thể thấy bằng mắt thƣờng không thể phân biệt đƣợc hai ảnh trƣớc và sau khi giấu tin.
Tuy nhiên nếu ảnh sau khi biến đổi thì chúng ta có thể nhận thấy đƣợc một số khác biệt bất thƣờng giúp mắt thƣờng có thể nhận biết ảnh bị giấu thông tin bên trong nhƣ hình 7.
27
Hình 7: Phân biệt ảnh trƣớc (bên trái) và sau (bên phải) khi giấu tin sau khi tấn công trực quan
Các bƣớc tấn công ảnh có thể đƣợc mô tả nhƣ sau:
Một bộ lọc nhúng cho việc tấn công trực quan bằng đồ họa sẽ hiển thị những phần điểm ảnh khi chức năng trích xuất các thông tin đƣợc áp dụng cho bộ lọc này. Nhƣ phƣơng pháp EzStego sẽ sử dụng một bảng màu đen trắng khác để thay thế cho bảng màu sử dụng trong ảnh ban đầu. VIệc thay thế này đƣợc mô tả nhƣ dƣới:
Tấn công ảnh có chứa thông tin
Trích xuất các bit thông tin có thể chứa thông điệp đƣợc giấu
Minh họa trực quan các bit ở vị trí của điểm ảnh của ảnh ban đầu
28
Kết quả của quá trình sắp xếp lại bảng màu có thể nhận thấy nhƣ hình 7. Ảnh bên trái không có thông tin đƣợc giấu trong ảnh, ảnh bên phải có chứa 50% dung lƣợng thông tin đƣợc giấu của ảnh.
3.6 Phát hiện giấu tin trong ảnh sử dụng kỹ thuật tấn công Chi-square
Các kỹ thuật nhúng tin thƣờng thay đổi các bit ít quan trọng trong ảnh để không làm thay đổi ảnh quá nhiều. Các cặp giá trị của bit ít quan trọng này đƣợc gọi là PoVs (pair of value). Nếu các bit này đƣợc phân bố đều thì tần số xuất hiện của các giá trị mỗi PoV bằng nhau. Hình 8 thể hiện tần số của màu sắc ảnh trƣớc và sau khi nhúng tin.
Bảng màu gốc
Bảng màu sau khi sắp xếp
Sắp xếp quay lại Màu sắc theo giá trị steganographic
Bảng màu sau
thay thế Sắp xếp
29
Hình 8: Tần số xuất hiện của ảnh trƣớc khi giấu tin (trái) và ảnh sau khi giấu tin (phải)
Ý tƣởng của phƣơng pháp này là thống kê để so sánh phân bố tần suất lý thuyết mong muốn trong các ảnh sau khi giấu tin với một số mẫu trong môi trƣờng quan sát.
Điều quan trọng là làm thế nào ta có đƣợc tần số lý thuyết mong muốn. Tần số này không đƣợc lấy từ các mẫu ngẫu nhiên vì các mẫu ngẫu nhiên có khả năng đã bị thay đổi bởi việc nhúng thông tin vào trong ảnh. Về mặt lý thuyết, tần số là trung bình cộng của hai tần số trong một PoV. Các đƣờng nét đứt trong hình 6 nối các giá trị trung bình cộng với nhau. Do khi nhúng chỉ thay đổi các bit ít quan trọng nên nó không thay đổi tổng của hai tần số với này. Các số đếm lấy từ giá trị tần số lẻ sẽ đƣợc chuyển sang các tần số tƣơng ứng và ngƣợc lại. Nhƣ vậy tổng số vẫn không thay đổi nên giá trị trung bình số học là nhƣ nhau cho một PoV trong cả ảnh gốc và ảnh sau khi giấu tin. Thực tế này giúp ta lấy đƣợc các phân bố tần số lý thuyết mong muốn từ các mẫu ngẫu nhiên.
Mức độ tƣơng tự của phân phối mẫu quan sát và phân bố tần số lý thuyết mong muốn là một biện pháp của xác suất. Mức độ tƣơng tự đƣợc xác định bằng cách thử nghiệm Chi-square ở ví dụ dƣới. Thí nghiệm này hoạt động trên một ánh xạ các quan sát vào các phân loại khác nhau. Các bƣớc thực hiện nhƣ sau:
1. Chúng ta giả sử rằng có k phân loại và chúng ta có một mẫu ngẫu nghiên các
quan sát. Mỗi quan sát phải rơi vào một và chỉ một loại phân loại. Các phân loại tất cả chỉ là bảng màu. Màu sắc trong đó đƣợc đặt bằng với chỉ số trong các bảng đƣợc sắp xếp. Nếu không có hạn chế tổng quát, chúng ta tập trung vào các giá trị lẻ của PoVs.
30
Tối thiểu tần số lý thuyết mong muốn phải lớn hơn 4. Chúng ta cần thống nhất các phân loại để giữ đƣợc điều kiện này.
2. Các tần số lý thuyết mong muốn trong phân loại i sau khi nhúng một thông điệp giống nhau là:
3. Các tần số xuất hiện đo đƣợc trong mẫu ngẫu nhiên là:
4. Thống kê là:
Với k - 1 độ tự do
5. p là xắc suất của thống kê với điều kiện là các phân phối và bằng nhau.
Nó đƣợc tính bằng cách tổng hợp các hàm mật độ:
3.7 Tổng quát
Ở phần trên, chúng ta có một cái nhìn tổng quát về các kỹ thuật phát hiện giấu tin trong ảnh kỹ thuật số. Các kỹ thuật đƣợc phân loại gồm có phát hiện giấu tin cụ thể và phát hiện giấu tin tổng quát. Trong đó các kỹ thuật tiếp tục đƣợc phân loại dựa trên các tính năng đƣợc sử dụng để phân biệt các hình ảnh nhƣ ảnh bị giấu tin hoặc ảnh gốc. Các kỹ thuật phát hiện giấu tin cụ thể là rất chính xác và cho kết quả tốt hơn so với các kỹ thuật tổng quát. Tuy nhiên những kỹ thuật phát hiện giấu tin cụ thể không linh hoạt vì các thuật toán giấu tin có những đặc điểm khác nhau nên việc mở rộng các thuật toán này để sử dụng cho việc phát hiện giấu tin trên thuật toán nhúng khác là không linh hoạt. Thống kê trong phát hiện giấu tin chung là mạnh khi chúng đƣợc thiết kế để phát hiện thông tin đƣợc nhúng trong ảnh kỹ thuật số khi sử dụng bất kỳ một thuật toán giấu tin nào. Ở phần này đã phân loại các đặc trƣng trích xuất từ ảnh, trong đó đặc
31
trƣng về hệ số wavelet cho kết quả tốt hơn so với miền không gian hoặc hệ số DCT, khả năng tƣơng quan của hệ số DWT. Tuy nhiên những phát hiện chính xác đƣợc cải thiện khi kết hợp các đặc trƣng đƣợc trích xuất từ miền không gian và miền tần số (DCT, DWT) đƣợc sử dụng nhƣ trong nghiên cứu ở trên. Các bộ phân loại khác nhau đƣợc sử dụng gồm có SVM, Bayes, Mạng nơ ron nhân tạo, phân tích Fisher tuyến tính, phân tích tuyến tính phân biệt... Việc lựa chọn hiệu quả các đặc trƣng có thể giảm chi phí trong việc nhận biết tin mật giấu trong ảnh khá nhiều. Bằng cách giảm số lƣợng đặc trƣng, nó cũng có thể cung cấp độ chính xác phân loại tốt hơn do tƣơng tác với kích thƣớc mẫu hữu hạn. Nhiều lựa chọn đặc trƣng nhất định đƣợc khảo sát trong ANOVA (phân tích phƣơng sai), PSO (tối ƣu hóa swarm), khoảng cách Euclid, phân tích thành phần chủ yếu (Principal component analysis) và các tác giả đã công bố rằng độ chính xác khi phát hiện tin đã đƣợc cải thiện đáng kể khi những kỹ thuật đƣợc áp dụng để nắm bắt các tính năng phù hợp nhất trƣớc khi phân loại. Nhƣ các thuật toán nhúng đƣợc phát triển về sau, việc cải thiện cho phát hiện giấu tin tổng quát vẫn còn là một nhu cầu hết sức cần thiết.
32
Chƣơng 4 - Thực nghiệm đánh giá kết quả và hƣớng
phát triển
Nhƣ đã trình bày một số thuật toán phát hiện giấu tin ở chƣơng 3, trong chƣơng 4 sẽ thực hiện một số thử nghiệm sử dụng các kỹ thuật phát hiện giấu tin nhƣ kỹ thuật phát hiện giấu tin trực quan, kỹ thuật phát hiện giấu tin thống kê chi-square để nhận biết một số ảnh bị giấu tin.
Ở ví dụ đầu tiên, bức ảnh ở hình 9 sẽ đƣợc sử dụng để giấu tin với lần lƣợt là 1kb, 1.5 kb và 5 kb dữ liệu ngẫu nhiên. Việc giấu tin sử dụng phƣơng pháp biến đổi LSB.
Hình 9: Ảnh gốc "beat girl"
Bảng dƣới tổng hợp các kết quả của kỹ thuật tấn công trực quan cho ảnh "beat