) 4 , 3 , 2 , 1 , ) , ( ( , ) ( ) , ( i C y x f C dt y x f v i i i
Trong đó f(x,y) là giá trị của ma trận DCT tại vị trí x, y. Còn Ci là hình tròn ở góc phần tư thứ i, dt(Ci) diện tích hình tròn Ci. Lúc này mỗi khối ảnh sẽ được đại diện bằng một vectơ đặc trưng 4 chiều V =( v1, v2, v3, v4 ).
3.2.3 Nhận xét về các kỹ thuật
Thuật toán ở bước sắp xếp theo thứ tự từ điển và kiểm tra các hàng tương tự chi phối độ phức tạp của phương pháp này. Các khối giống hoặc tương tự nhau được tìm ra dễ dàng bằng việc duyệt qua tất cả (m-b+1)×(n-b+1) hàng của ma trận đã sắp xếp và sau đó tìm ra 2 hàng liên tiếp giống hoặc tương tự nhau.
Đối với phương pháp phát hiện ảnh giả mạo dạng cắt/dán bởi thuật toán đối sánh chính xác (Exact Match) chỉ phát hiện được ảnh giả mạo dạng ảnh sao chép
nhưng không có chỉnh sửa. Hạn chế của cách tiếp cận này là với dạng ảnh giả mạo sau khi được chỉnh sửa cón bị tác động bởi các thao tác nhiễu, hoặc nén, hoặc co giãn… thì phần lớn các khối đồng nhất bị mất và thuật toán này sẽ phát hiện sai hoặc không đưa được ra các vùng giả mạo trên ảnh.
Đối với kỹ thuật đối sánh bền vững dựa trên miền tần số (DCT), kỹ thuật đối sánh bền vững dựa trên phân tích thành phần chính (PCA) hay kỹ thuật đối sánh bền vững dựa vào trích chọn 7 đặc trưng màu sắc đã khắc phục được hạn chế trong kỹ thuật phát hiện ảnh giả mạo dạng cắt/dán của thuật toán Exact Match. Điểm khác nhau cơ bản của hai kỹ thuật này chính là ở bước trích chọn đặc trưng đại diện cho mỗi khối trong ảnh và xác định các cặp khối tương tự. Việc trích chọn ra các đặc trưng đại diện (thu nhỏ số đặc trưng chính) là thu nhỏ kích thước của ma trận A ban đầu. Vì vậy, kỹ thuật đối sánh bền vững có tốc độ xử lý nhanh hơn so với kỹ thuật đối sánh chính xác. Tuy nhiên, nếu trích chọn đặc trưng càng ít thì sẽ xuất hiện trường hợp vùng giả mạo ảo. Nếu trích chọn ra nhiều đặc trưng thì tốc độ tuy chậm nhưng độ chính xác cao hơn.
Tuy nhiên, với kỹ thuật đối sánh bền vững dựa trên miền tần số (DCT) hay đối sánh bền vững dựa trên phân tích thành phần chính (PCA) thì xuất hiện hai điểm mấu chốt
- Thu nhỏ số đặc trưng (chính là thu nhỏ kích thước hàng của ma trận A) thì chưa nói rõ.
- Việc xác định các khối tương tự theo tiêu chuẩn nào thì cũng không được trình bày cụ thể.
Trong kỹ thuật đối sánh bền vững, chỉ có kỹ thuật phát hiện ảnh giả mạo dựa trên lấy đặc trưng màu sắc (7 đặc trưng) đã chỉ rõ 2 vấn đề mấu chốt còn chưa rõ trong kỹ thuật sử dụng phép biến đổi DCT và PCA:
- Thu nhỏ số đặc trưng của ma trận A dựa vào 7 đặc trưng màu. Kích thước
các hàng của ma trận A giảm từ b×b phần tử xuống 7 phần tử.
- Đưa ra tiêu chuẩn để xét các cặp khối tương tự nhau, tuy nhiên các công thức còn phức tạp.
3.3 ĐỀ XUẤT KỸ THUẬT DỰA TRÊN PHÉP BIẾN ĐỔI DCT
Trong phần dưới đây, luận án trình bày một thuật toán phát hiện giả mạo ảnh số dựa trên ma trận hệ số DCT. Qua kết quả nghiên cứu thực nghiệm trong [92], thuật toán dựa trên ma trận hệ số DCT có ưu điểm bền vững trước việc nén ảnh, thêm nhiễu và làm mờ hơn các thuật toán dựa trên thành phần chính PCA [99], hay đặc trưng màu sắc [80]. Tuy nhiên, các thuật toán theo hướng này trước đây [25,44, 56] có vectơ đặc trưng với số chiều lớn cho nên các thuật toán này có tốc độ chậm (thời gian lớn), nhất là đối với các ảnh có kích thước lớn. Thuật toán đề xuất có một số ưu điểm chính sau:
- Chiều của vectơ đặc trưng thấp hơn, nên có tốc độ tính toán nhanh hơn. - Bền vững trước một số thao tác: cắt/dán nhiều vùng, nén ảnh, làm mờ, thêm nhiễu.
Qua thực nghiệm cho thấy, thuật toán đề xuất tốt hơn cả về tốc độ và khả năng phát hiện giả mạo so với thuật toán [25] và [80].
3.3.1 Thuật toán phát hiện
Trong thuật toán này, đầu vào là một ảnh đa cấp xám A có kích thước m×n
(nếu là ảnh màu thì sử dụng công thức I=0.228R+0.587G+0.114B để chuyển sang đa cấp xám) và tham số b là kích thước khối, α1, α2, β, γ là các giá trị ngưỡng cho
trước. Chi tiết của thuật toán được trình bày ở các bước như sau:
Bước 1. Chia ảnh thành các khối chờm nhau có kích thước b×b, sao cho hai khối liên tiếp chỉ khác nhau một hàng hoặc một cột. Các khối được định vị theo thứ tự từ trái qua phải và từ trên xuống dưới của ảnh. Số khối thu được là Sb=(m-b+1)(n- b+1) với mỗi khối ký hiệu là Ai (i=1,2,3,…,Sb).
Bước 2. Biến đổi cô sin rời rạc DCT cho từng khối, áp dụng phép biến đổi cô sin rời rạc DCT cho từng khối, thu được ma trận hệ số DCT ký hiệu là Ci có kích thước b×b.
Bước 3.Xây dựng vectơ đặc trưng
Bây giờ khối điểm ảnh thứ i được đại diện bởi ma trận Ci. Ma trận hệ số DCT có đặc điểm là năng lượng tập trung vào các hệ số ở vùng tần số thấp (góc trên bên trái), các hệ số tần số thấp này đóng vai trò quan trọng hơn các hệ số khác. Dựa vào đặc điểm này ta đưa ra cách chọn các hệ số DCT làm đại diện như sau:
Bước 3.1: Đánh số thứ tự các phần tử của ma trận hệ số DCT theo đường
Bước 3.2: Chia dãy số thu được ở Bước 3.1 thành 4 đoạn bằng nhau, lấy 2
đoạn đầu để tính đại diện cho mỗi khối.
Ta ký hiệu các phần tử của dãy số ứng với khối i là ci,j với i=1,…,Sb và j=1,…,b×b. Khi đó các đặc trưng đại diện ei,1, ei,2 được tính như sau:
1 , 1 , j j i i c e , 2 1 , 2 , j j i i c e b b 4 1 Sb), , 1, (i
Với hai đặc trưng thu được, kết hợp lại được một vectơ đặc trưng có số chiều bằng 2, ký hiệu là: 2 , 1 ,, i i i e e E
Như vậy, thay vì ma trận có số chiều là b×b làm đại diện thì sử dụng một vectơ với số chiều bằng 2. Số chiều của vectơ đại diện trong [99], [56], [25], [80] lần lượt bằng 32, 16, 4 và 7 thì số chiều của vectơ đại diện trong thuật toán đề xuất giảm đáng kể.
Cách xác định đặc trưng ở đây dựa trên nửa đầu số phần tử của ma trận hệ số DCT được đánh số thứ tự theo đường zigzag, như tính chất đã nêu thì đây là phần đóng vai trò quan trọng, tập trung năng lượng của ảnh. Qua thực nghiệm cho thấy khi ảnh bị biến đổi thì nửa đầu số phần tử này có các giá trị bị thay đổi nhiều, còn nửa sau số phần tử còn lại ít bị thay đổi và biên độ thay đổi nhỏ.
Bước 4. Sắp xếp các khối theo thứ tự từ điển
Ký hiệu ma trận E với kích thước là Sb×2, chứa tập vectơ đặc trưng được xác định trong bước 3.
E E E ...
Sắp xếp các hàng của E theo thứ tự từ điển. Gọi ma trận nhận được sau khi sắp xếp là G, với hàng thứ i làGi (gi,1,gi,2).
Bước 5. Tìm các cặp khối tương tự
Định nghĩa khối tương tự: Hai khối Gi và Gj là một cặp khối tương tự được tạo ra bởi thao tác cắt/dán nếu thỏa mãn các điều kiện sau đây.
gi,1 gj,1 1 (3.1) 2 2 , 2 , j i g g (3.2) Thông thường các vùng được cắt/dán không chờm lên nhau, nên dùng thêm khoảng cách Euclid giữa các khối để loại bỏ bớt các khối thỏa mãn điều kiện trên nhưng không phải vùng được cắt/dán. Khoảng cách Euclid giữa hai khối được tính như sau: 2 2 ) ( ) (xi xj yi yj (3.3) Trong đó (xi, yi), (xj,yj) lần lượt là tọa độ góc trên bên trái của khối Gi, Gj. Do ma trận G đã được sắp xếp theo thứ tự từ điển, nên để tìm các cặp khối
tương tự chỉ cần xét với các chỉ số i, j có hiệu số |i-j| ≤ k trong đó k là một ngưỡng nào đó, thông thường lấy bằng 5. Ta có Thuật toán tìm khối tương tự như sau:
For i=1 to Sb-k For j=i+1 to i+k
Nếu Gi, Gj thỏa mãn theo điều kiện (3.1), (3.2), (3.3) thì lưu chúng vào một mảng để dùng trong bước 6.
End End
For j=(i+1) to Sb
Nếu Gi, Gj thỏa mãn theo điều kiện (3.1), (3.2), (3.3) thì lưu chúng vào một mảng.
End End