2.3. Kiến trúc mô hình
2.3.2. Trích xuất dẫu vân tay ảnh
Việc trích xuất dấu vân tay ảnh được thực hiện thông qua việc phân tích thống kê bậc hai cả trong miền không gian và miền tần số. Dưới đây là cách tiếp cận chỉ tiết:
2.3.2.1. Biển đổi Fourier trong miền tan số:
Biến đổi Fourier và phô công suất (Fourier Transform and Power Spectrum):
Biên đôi Fourier của ảnh M x Nìà:
on{ km 4 In
; M WN —j2n
X,lk,IÌ=F|x,Im,nlÌ=>) > x,|m,nje MN
m=1n=1 [10]
Phổ công suất trung bình S,Ík,! được thu được bằng cách lấy trung bình tat cả các phố công suất cá nhân:
Sik =F, [x(k tf [11]I i=1
27
Đồ án tốt nghiệp Đại học
Pho công suât cho biệt phân trăm tông công suat ảnh tập trung tai cặp tân sô (ngang,
doc) MeNk 1 | Cả hai hàm tự tương quan và phô công suất đều có mỗi quan hệ thông
qua biến đổi tan số:
SIk,I=E R,(Am, Anl|[12]
Mô hình sinh ảnh AI sử dụng các lớp mạng no-ron sâu dé tạo ra hình anh từ dữ liệu tiềm ẩn. Trong quá trình này, mô hình có thể học cách tạo ra các mô hình tần số đặc trưng không tôn tại trong ảnh thật. Biến đổi Fourier chuyền đổi hình ảnh từ không gian thời gian (không gian điểm ảnh) sang không gian tần số, làm lộ rõ những mô hình tần số này. Các mô hình sinh ảnh có kiến trúc đặc thù thường bao gồm các bước up-
sampling (tăng mẫu) trong quá trình tạo ảnh. Những bước này gây ra hiện tượng
Aliasing, tạo ra các đỉnh cụ thê, rõ ràng trong phô tần số (power spectra) của ảnh được sinh ra. Aliasing xảy ra khi một tín hiệu liên tục được lay mẫu với tan số không đủ cao so với băng thông của tín hiệu đó. Trong xử lý hình ảnh, điều này thường xảy ra khi tạo ảnh có các chỉ tiết bị thay đổi đột ngột. Dẫn đến tần số lắy mẫu không đủ đề bắt kịp với sự thay đổi của tín hiệu, ở đây chính là hình ảnh, các chỉ tiết nhỏ hoặc rất nhỏ có thé bị hoặc biến dạng, dẫn đến hình ảnh cuối cùng có chứa các chi tiết hay hiệu ứng nhỏ không mong muốn. Trong các mô hình sinh ảnh, quá trình up-sampling là bước nâng cấp độ phân giải (mức độ chỉ tiết của hình ảnh) của ảnh từ độ phân giải thấp lên cao. Điều này thường bao gồm việc thêm vào các chỉ tiết mới dựa trên thông tin có san. Tuy nhiên, quá trình này tiém ẩn rủi ro rat cao tạo ra hiện tượng Aliasing. Điều này xảy ra khi các mẫu trong ảnh gốc không đủ đề đại điện cho các chỉ tiết ở độ phân giải cao hơn, dẫn đến việc tạo ra các mẫu sai lệch. Aliasing có thể gây ra sự xuất hiện của các "đỉnh" rõ ràng trong phô tần số. Điều này xảy ra bởi vì Aliasing thay đổi cách năng lượng phân bố trong ảnh, thay vì đồng đều, năng lượng tập trung vào một số vùng tần số cụ thê, tạo ra các đỉnh. Những đỉnh này không phản ánh thông tin thực sự của ảnh gốc mà là kết quả của quá trình up-sampling không chính xác. Vì lý do này nên em đã su dụng phương pháp biến đổi Fourier tên miền tần số dé có thé trích xuất ra dấu vân tay của ảnh.
2.3.2.2. Xử lý nhiễu Residual và trích xuất dấu vân tay ảnh:
28
Đồ án tốt nghiệp Đại học
Sau khi thu được nhiễu residual từ quá trình Autoencoder, bước tiếp theo trong việc trích xuất dau vân tay cho anh là áp dụng biến đổi Fourier, dựa theo công thức đã được trình bày ở phần 2.3.2.1. Biến đổi Fourier là một công cụ mạnh mẽ trong phân tích tan số, cho phép chuyền từ miền không gian (nơi ảnh được hién thi) sang miền tan số (nơi các đặc trưng tần số của anh được thé hiện). Qua biến đổi này, thông tin anh được biéu diễn đưới dạng các thành phần tần số. Sau biến đổi Fourier, em tính toán phô công suất của ảnh, được xác định bởi mô-đun bình phương của biến đổi Fourier,
tức là:
(|x,k,!)[13]
Phổ công suất này cung cấp cái nhìn sâu sắc về cách mà năng lượng của ảnh được phân bồ trên các tần số khác nhau. Nhờ đó ta có thé phát hiện và trích xuất các dấu vân tay ẩn trong anh, thường không dễ nhận biết trong miền không gian nhưng trở nên rõ ràng hơn khi quan sát trong miền tần số.
lmageNat FFHQ LAION
z fa
2.3.3. Phan loại anh
Từ dữ liệu dau vân tay đã được trích xuất từ các bước trước, em xây dựng một mạng CNN sẽ học cách phân biệt dấu vân tay của ảnh thật và giả.
Kiến trúc mạng CNN
Mang CNN mà em xây dựng gồm hai phan chính: lớp CNN và lớp tuyến tính.
Lớp CNN:
® Convolutional Layers: Bốn lớp tích chập, mỗi lớp đi kèm với ReLU và Batch Normalization, giúp học các đặc trưng từ dữ liệu ảnh. Các lớp tích chập lần lượt
29
Đô án tôt nghiệp Đại học
tăng SỐ lượng kênh từ 32, 64 đến 128, giúp mô hình có khả năng nhận diện đặc
trưng phức tạp hơn.
@ Max Pooling: Giam kích thước không gian của đặc trưng, giúp giảm overfitting và tính toán nhanh hơn.
@ Dropout: Giảm overfitting bằng cách ngẫu nhiên bỏ qua một số nơ-ron trong quá trình huấn luyện.
Lớp tuyến tính:
@ Fully Connected Layers: Chuyên từ đặc trưng không gian sang dang vector dé
phân loại.
@ ReLU va Dropout: Tăng cường kha năng học không tuyến tính và giảm
overfitting.
Mạng CNN này tự động học các đặc trưng từ dữ liệu mà không cần trích xuất thủ công, giúp phát hiện dau vân tay ảnh thật và giả một cách hiệu quả. Bằng việc kết hợp nhiều lớp tích chập và tuyến tính, mạng có khả năng phân biệt các loại dấu vân tay
phức tạp, tăng độ chính xác trong việc phân biệt ảnh thật và giả. Em sử dụng Dropout
và Batch Normalization giúp mô hình không quá phụ thuộc vào dữ liệu huấn luyện cụ thé, tăng khả năng tổng quát hóa trên dữ liệu mới. Kết hợp với lớp Max Pooling giúp giảm kích thước đầu vào và số lượng tính toán, làm tăng tốc độ huấn luyện mà vẫn giữ
được thông tin quan trọng.
Bước phân loại ảnh sử dụng mạng CNN này đóng vai trò khá lớn trong việc xác
định chính xác nguồn gốc của ảnh, là bước cuối cùng trong quy trình phân loại dấu vân tay ảnh. Kiến trúc mạng được thiết kế dé tối ưu hóa quá trình học và phân loại, mang lại kết quả đáng tin cậy và chính xác.