2.3. Kiến trúc mô hình
2.3.1. Xác định nhiễu thang dự
2.3.1.1. Giải thích về Autoencoder và Kiến trúc ResNet50
Trong mô hình Autoencoder được sử dụng dé xác định nhiễu thặng dư, có hai thành phần chính: Encoder và Decoder. Dưới đây là chi tiết về mỗi phần và cách
chúng tương tác với nhau.
om aaOriginal Compressed Reconstructed nput representation input
Hình 5: Hình ảnh mô tả quá trình Autoencoder (Nguồn: [6])
Encoder trong một Autoencoder có nhiệm vụ chính là học cách nén dữ liệu dau
vào vào một dạng biéu diễn nén, thường là một vector có kích thước nhỏ hơn so với dữ
liệu gốc. Điều này được thực hiện thông qua một chuỗi các phép biến đồi, thường là các lớp nơ-ron với các hàm kích hoạt phi tuyến.
24
Đồ án tốt nghiệp Đại học
Biểu diễn Nén (Encoded Representation):
Z=F enc\T 5 Bene |[5]
Trong đó:
-I là dit liệu đầu vao.
- zlà biểu diễn nén.
- f nc là hàm mã hóa mà encoder học dé biến đôi đầu vào thành biểu diễn nén.
ỉ,„. là tập hợp cỏc tham sộ (trong số và độ lệch) của encoder, được tối ưu húa trong
quá trình huấn luyện.
Công thức trên cho thay encoder nhận đầu vào I và chuyển đổi nó thành biểu diễn nén
z thụng qua cỏc tham sụ ỉ„„. đó học. Mục tiờu là giữ lại càng nhiờu thụng tin cú ớch từ
đầu vào trong biểu diễn nén.
Decoder có nhiệm vụ ngược lại với Encoder. Nó cô găng tái tạo lại dữ liệu gôc
từ biểu diễn nén mà không cần thông tin phụ trợ nào khác.
Tái tao dữ liệu (Decoded Data):
T=f„Íz;8,„ [6]
Trong đó:
- Ì là dữ liệu đã được tái tạo.
- f„. là hàm giải mã ma decoder học dé tái tạo dữ liệu từ biểu diễn nén.
- Ie. là tập hợp các tham số của decoder.
Decoder nhận biéu diễn nén z và cô gắng tái tao lại dữ liệu gốc I dựa trên các tham số 9„„ đã học. Dữ liệu tái tạo?có thể không hoàn hảo, nhưng mục tiêu là làm cho nó gần với dit liệu gốc càng nhiều càng tốt.
Hàm Mat Mat (Loss Function) đóng vai trò quan trọng trong quá trình huấn luyện Autoencoder bằng cách đo lường sự khác biệt giữa dữ liệu gốc và dữ liệu được
tái tạo.
Mean Squared Error:
Lini=2 > \1-f/(7]
Trong do:
-L là ham mat mát tổng bình phương sai số (MSE).
25
Đồ án tốt nghiệp Đại học
- n là số lượng mẫu dữ liệu.
-I val, lần lượt là giá trị thực và giá trị dự đoán của mau dữ liệu thứ i.
Mục tiêu của quá trình huấn luyện là điều chỉnh các tham số 9. và Pee sao cho hàm mất mát L được giảm thiểu, tức là dữ liệu được tái tạo I sẽ gần với dữ liệu gốc I nhất có thê.
Kết quả của quá trình này là một mô hình có khả năng hiểu và tái tạo dit liệu, và từ đó có thê được sử dụng dé phát hiện nhiễu thang du trong dữ liệu - điều quan trọng cho việc phân biệt ảnh thật và tổng hợp.
ResNet50 là một mô hình mạng no-ron sâu được thiết kế dé giải quyết van dé
"biến mat gradient" bằng cách sử dụng các kết nối tắt (shortcut connections). Các kết nối này cho phép gradient được truyền trực tiếp từ các lớp sau đến các lớp trước, giúp
việc huân luyện mạng hiệu quả hơn.
ResNet50 Model Architecture
Input Output
—=>
Conv Block ID Block Conv Block ID Block Conv Block ID Block Conv Block ID Block Avg Pool Flattening FC
Zero Padding L T~ JL, \ Ju JUDCONV
Stage 1 Stage 2 Stage 3 Stage 4 Stage 5
Hình 6: Kiến trúc mang Resnet50 ResNet50 bao gồm các "Residual Blocks", mỗi block gồm:
e Identity Block: Kết nối tắt cộng trực tiếp đầu vào với đầu ra của một hoặc nhiều
lớp.
Xi¡=f Xi, W,+x,[8]
Trong đó x; là đầu vào của block, f (xX), W,) là đầu ra của một chuỗi các
lớp có trọng số W), và x,.; là đầu ra của block.
e Convolutional Block: Tương tự như Identity Block nhưng có thêm một lớp
convolution trong kết nối tắt dé thay đổi kích thước đầu vào cho phù hợp với đầu ra.
2.3.1.2. Ứng Dụng Autoencoder với ResNet50 vào Việc Xác Định Nhiễu Thang Dư
Dé tận dụng kiên trúc mạnh mẽ của ResNet50, em xin đê xuât cải biên nó thành backbone cho cả encoder và decoder trong mạng Autoencoder:
Encoder:
26
Đồ án tốt nghiệp Đại học
- Sử dụng các lớp đầu tiên của ResNet50 để nắm bắt các đặc trưng chung của ảnh.
- Các lớp sau cùng của ResNet50 được điều chỉnh dé tạo ra biểu diễn nén z.
Decoder:
- Tạo ra từ một tập hợp các lớp deconvolutional hoặc "upsampling" lớp, làm nhiệm vu tái tạo lại ảnh từ z.
- Câu trúc của decoder được thiệt kê đê đảo ngược quá trình của encoder, từ từ tăng
kích thước của biéu diễn nén để tái tạo lại đầu vào gốc.
Xác Định Nhiễu Thặng Dư:
Nhiễu thặng dư được xác định qua việc so sánh ảnh gốc I và ảnh được tái tao I:
RiTI=I—1[9]
Điều này cho phép xác định "dấu vết" của quá trình tổng hợp, được mã hóa trong
nhiễu thặng dư và không dễ dàng được mô hình tái tạo một cách chính xác. Đạt được
điều này là nhờ vào cấu trúc của mô hình Autoencoder. Một Autoencoder học cách nén (encode) dir liệu vào một không gian tiềm ẩn rồi tái tao (decode) dữ liệu đó từ không gian này. Quá trình này thường loại bỏ các chỉ tiết "ít quan trọng" hoặc nhiễu.
Đối với ảnh thật, Autoencoder học cách tái tạo các đặc điểm chính của ảnh mà bỏ qua những đặc điểm nhiễu, do quá trình sinh ảnh tạo ra. Khi ảnh sinh từ AI (như GANs hoặc mô hình khuếch tán) được đưa qua Autoencoder, phần nhiễu hay các đặc điểm
"không tự nhiên" mà mô hình sinh tạo ra sẽ không được Autoencoder tái tạo một cách
chính xác. Khi ảnh gốc trừ đi anh được tái tạo, chúng ta nhận được "residual noise"
chứa các dấu vết của quá trình sinh ảnh.