12Hình 2: Vi dụ về một mô hình CNN dé phân loại hình ảnh 15 Hình 3: Hình anh dau vân tay của mô hình Cycle-GAN o2a hàng trên và mô hình Pro-GAN kitchen hàng dưới Nguồn: [5] 16 Hình 4: Lu
Trang 1KHOA AN TOÀN THÔNG TIN
ĐỎ ÁN TÓT NGHIỆP ĐẠI HỌC
Imk]
EINE TG)
DE TAI: PHUONG PHAP NHAN DIEN ANH GIA
MAO SINH BOI TRI TUE NHAN TAO
Giảng viên hướng dẫn : TS TRAN TIEN CONG
Sinh viên thực hiện : NGUYÊN PHƯƠNG ANH
: DI9CQAT03-B : 2019-2024
: Chính quy
Hà Nội 12-2023
Trang 2Đồ án tốt nghiệp Đại học
NHẬN XÉT
(Của giảng viên phản biện)
Hà Nội, 12/2023 Giảng viên phản biện
Trang 3Đồ án tốt nghiệp Đại học
NHẬN XÉT
(Của giảng viên hướng dẫn)
Hà Nội, 12/2022 Giảng viên hướng dẫn
Trang 4Đồ án tốt nghiệp Đại học
LỜI CẢM ƠN
Khoảng thời gian cuối cùng của cuộc đời sinh viên kết thúc bởi quá trình làm
đồ án tốt nghiệp đầy cung bậc cảm xúc Học Viện đã day cho em nhiều điều, khôngchỉ là kiến thức mà còn là kỷ niệm gắn bó suốt hơn 4 năm trời, đó là nơi đã giúp emchuẩn bị hành trang trên con đường biến ước mơ trở thành hiện thực
Khi viết những dòng này, em xin bày tỏ lòng biết on chân thành đến các thay,
cô giáo trường Học viện Công nghệ Bưu chính Viễn thông, những người đã truyền lửacho nhiều thế hệ sinh viên với tất cả lòng đam mê và nhiệt huyết của mình Đồ án tốtnghiệp này không chỉ là công sức của vài tháng làm việc mà là sự tích lũy kiến thức
lâu dài trong suốt những năm tháng học tập trên giảng đường, dưới sự chỉ bảo của các
thầy cô giáo
Em xin gửi lời cảm ơn sâu sắc đến TS Trần Tiến Công, người thầy đã tận tâm
chỉ bảo em trong quá trình thực hiện đồ án Những lời khuyên của thầy đã giúp emnhận ra rất nhiều điều, rút ra nhiều kinh nghiệm khi thực hiện đồ án này
Cuối cùng, em xin cảm ơn những người thân trong gia đình đã động viên, chia
sẻ mỗi khi em gặp khó khăn, những người bạn đã luôn sát cánh bên em những lúc
tưởng chừng như muốn bỏ cuộc Xin cảm ơn những người bạn thân đã hỗ trợ em về
mặt kiến thức cũng như tinh thần dé vượt qua thử thách cuối cùng này
Hà Nội, ngày 28 tháng 12 năm 2023
Nguyễn Phương Anh
Trang 5Đồ án tốt nghiệp Đại học
MỤC LỤC
LỜI CẢM ƠN 4DANH MỤC HÌNH ANH 7
DANH MỤC BANG BIEU 8DANH MỤC TU VIET TAT 9
MO DAU 10
CHUONG 1: TONG QUAN VE BAI TOAN PHAT HIEN ANH SINH VA
CACH TIEP CAN 111.1 Tổng quan về ảnh sỉnh 2 «<< se +se+seessexsessesezsesses 12
1.1.1.Khái niệm ảnh sinh 12
1.1.2.Một số mô hình sinh ảnh phô biến 13
1.1.3 Những rủi ro và thách thức của mô hình sinh ảnh 13 1.2 Giới thiệu bài toán phát hiện ảnh sỉnh <««=<s« 14
1.3 Cac phương pháp tiếp cận bài toán phát hiện ảnh sinh bởi mô
hình trí tuệ nhân ẦO 0-5 < S5 5 5 9 1 9v 04 0 004 996 15 1.3.1.Phương pháp dựa trên đữ liệu 15
1.3.2.Phương pháp dựa trên quy tắc 161.3.3.Phương pháp dựa trên đặc trưng trong miền không gian 171.3.4.Phương pháp dựa trên đặc trưng trong miễn tần số 171.4 Ket luận chương - 5< 5£ se s£se s£ssEseEsessEsesesesessesesese 18
CHƯƠNG 2: PHƯƠNG PHÁP ĐÈ XUẤT 19
2.1 Đề xuất phương phápp -s- s- s2 sssssssEs£seS+sesersesessrsrssrsesess 20
2.2 Công thức cho bài (Oáñ - <- <5 << <5 9 99.9 9.0 0.0 009 060996 21
2.3 Kiến trúc mô hìnhh -s-s°s<+#©Exseorxseorkseerkeerseorserrserrke 23
Trang 6CHUONG 3: CÀI ĐẶT VA THU NGHIỆM
3.1 Bộ dữ liệu và phương pháp do Ïườngg <5 5< 5 5 5 55s ssse+ ssø 3.1.1 Tập dữ liệu
3.1.2 Phương pháp đo lường 3.2 Thử ng hÏỆIH <5 5 5 99999090 0000000000000 080
3.2.1 Hiệu suất cơ bản của mô hình3.2.2 Ảnh hưởng của Autoencoder
3.2.3 So sánh với phương pháp SOTA (State ofthe Art)
3.2.4 Độ bền vững của các mô hình3.2.5 Đánh giá khả năng tông quát hóa3.3 Kết luận chương
KET LUẬN VÀ KIÊN NGHỊ
20000000000000000000000000000000000000000000000000000060000eeeeeeee°6
1 Những đóng góp của d6 án - 2-52 St E2 2111211121211 1111 1x6
2 Hướng phát triển tiếp theo
TÀI LIỆU THAM KHẢO
23 26 28
29 31 32 33 33 36 37 37 40 43
44 46 47
48 48
48
49
Trang 7Đồ án tốt nghiệp Đại học
DANH MỤC HÌNH ẢNH
Hình 1: Ví dụ về ảnh sinh (Nguồn: Corvi et al., 2022.) 12Hình 2: Vi dụ về một mô hình CNN dé phân loại hình ảnh 15
Hình 3: Hình anh dau vân tay của mô hình Cycle-GAN o2a (hàng trên) và mô hình
Pro-GAN kitchen (hàng dưới) (Nguồn: [5]) 16 Hình 4: Luông hoạt động của phương pháp đề xuất 20
Hình 5: Hình anh mô tả quá trình Autoencoder (Nguồn: [6]) 23Hình 6: Kiến trúc mạng Resnet50 25Hình 7: Hình ảnh mô tả dấu vân tay ảnh được trích xuất theo phương pháp nêu trên
với các data set tương ứng Real datasets (left): Imagenet, FFHQ , LAION,
Synthetic datasets (right): DiT, StyleGAN2, GLIDE 28
Hình 8: Một số hình ảnh nhiễu thu được qua mô hình Autoencoder 42
Hình 9: Từ trái qua phải là hình ảnh dấu vân tay trích xuất từ ảnh có sử dụng
Autoencoder để trích xuất nhiễu thặng dư, hình ảnh dấu vân tay trích xuất từ ảnh
không sử dụng Autoencoder dé trích xuất nhiễu thing dư, hình anh dau vân tay của
ảnh thật 42 Hình 10: Độ chính xác của phương pháp với các trường hợp như nén JPEG, làm
mo Gaussian Blur, Gaussian Noise va resize 44
Trang 8Đồ án tốt nghiệp Đại học
DANH MỤC BANG BIEU
Bang 1: Tập dữ liệu T-open 33 Bảng 2: Tập dữ liệu T-pra 34 Bảng 3: Bộ dữ liệu Mở Rộng T-all 35
Bảng 4: Kết quả trên Bộ Dữ Liệu tổng hợp T-all 38Bảng 5: Kết quả tên Bộ Dữ Liệu T-open 39Bảng 6: Kết quả trên Bộ Dữ Liệu T-pra 39Bảng 7: Kết quả của mô hình khi không sử dụng Autoencoder để trích xuất nhiễu
thang dư trên bộ đữ liệu T-all 4I
Bảng 8: Kết quả so sánh với một số phương pháp SOTA hiện nay (các số được in đậmthé hiện gia trị lớn nhất) 43Bảng 9: Kết quả thử nghiệm trên tập dữ liệu T-all 46
Trang 9Đồ án tốt nghiệp Đại học
DANH MỤC TU VIET TAT
Từ Tiếng Anh Tiếng Việt
khóa
ML Machine Learning Hoc may
Al Artificial Intelligent Tri tué nhan tao
DL Deep Learning Hoc sau
Net Residual Network Mang phan du
Pro Progressive Growing of Mang đối nghịch tạo sinh
GAN GANs phát triển tuần tự
CycleConsistent k
-CY | Generative Adversarial _ Mang đôi nghịch tạo sinh
cle-GAN | Networks tuan hoan nhat quan
Trang 10Đồ án tốt nghiệp Đại học
MO DAU
Trong thoi dai cua tri tué nhan tao va hoc may, viéc tao ra anh va video bang
cach sử dung mô hình sinh đã trở thành một chu đề nóng Những mô hình này có khảnăng tạo ra hình ảnh và video có chất lượng cao, khó phân biệt với thực tế Tuy nhiên,
sự lan rộng của công nghệ nay cũng đem lại những van đề về bảo mật, quyền riêng tư
và sự thật thông tin Vì vậy, việc phát hiện ảnh sinh bởi các mô hình trở nên cần thiết
hơn bao giờ hết Đồ án tốt nghiệp này tập trung vào việc nghiên cứu và phát triểnphương pháp hiệu qua dé phát hiện anh sinh Dé có cái nhìn sâu rộng và tổ chức baiviết một cách rõ ràng, đồ án được chia thành bốn chương chính:
Chương 1: Tổng quan về bài toán phát hiện ảnh sinh bởi trí tuệ nhân tạo
và cách tiếp cận bài toán
Trong chương này, đô án sẽ giới thiệu vê bôi cảnh va tâm quan trọng của việc phát hiện ảnh sinh và đánh giá những thách thức và vân đê liên quan đên việc xác định ảnh do mô hình sinh tạo ra so với ảnh thực.
Chương 2: Phương pháp đề xuất
Chương này trình bay chi tiết về phương pháp mà đồ án đề xuất dé phát hiệnảnh sinh Bằng cách nghiên cứu và kết hợp những thuật toán hiện đại, đồ án mongmuốn mang lại một giải pháp hiệu quả và đáng tin cậy cho vấn đề này
Chương 3: Cài đặt và thử nghiệm
Ở chương này, đồ án sẽ mô tả quá trình cài đặt và kiểm tra hiệu suất củaphương pháp đề xuất Qua việc thử nghiệm trên nhiều bộ dữ liệu khác nhau, em xin
nhận định về kha năng và hạn chế của phương pháp đã đề xuất
Chương 4: Kết luận và hướng phát triển
Dựa trên kết quả và nhận xét từ các chương trước, em sẽ tông kết những điểmchính của đồ án Đồng thời, cũng đề xuất một số hướng phát triển cho tương lai, giúpcải thiện hiệu suất và ứng dụng của phương pháp
Qua việc nghiên cứu và trình bày trong đồ án này, em hy vọng đóng góp mộtphan nhỏ vào lĩnh vực nghiên cứu trí tuệ nhân tạo, giúp cộng đồng có thêm công cụ déđối mặt với thách thức của thế kỷ 21
10
Trang 11Đồ án tốt nghiệp Đại học
CHƯƠNG 1: TONG QUAN VE BÀI TOÁN PHAT HIỆN ANH SINH VÀ CÁCH TIẾP
CẬN
Nội dung chương 1 đề cập đến khái niệm về ảnh sinh bởi trí tuệ nhân tạo, các mô hình
dé sinh ảnh Ngoài ra chương nay cũng nêu lên các phương pháp phát hiện ảnh sinh đãđược đề xuất, và giới thiệu một SỐ nghiên cứu liên quan
Chương 1 được trình bay qua các mục sau:
e Tổng quan về anh sinh
e Giới thiệu về bài toán phát hiện ảnh sinh
e Các phương pháp tiếp cận bài toán phát hiện ảnh sinh
e Kết luận chương
Trang 12Đồ án tốt nghiệp Đại học
`
1.1 Tổng quan về ảnh sinh
1.1.1 Khai niệm ảnh sinh
Ảnh sinh trong ngữ cảnh trí tuệ nhân tạo (AI) và học máy đề cập đến hình ảnhđược tạo ra không từ thiết bị chụp ảnh truyền thống mà thông qua các thuật toán học
máy, sử dụng trí tuệ nhân tạo Cụ thể, những mô hình sinh có khả năng tạo ra hình ảnhmới dựa trên dữ liệu đầu vào đã được huấn luyện trước, mà không cần phải dựa vào
hình ảnh thực tế
Hình ảnh sinh gần đây được cải thiện và có thê trở nên rất thực, gần như khôngthể phân biệt với hình ảnh thực tế Điều này là nhờ sự tiến bộ của các thuật toán học
máy, cùng với sự tăng lực tính toán và dữ liệu huấn luyện đa dạng
Ảnh sinh có thé được tạo ra với nhiều mục đích khác nhau, bao gồm nghệ thuật,
giải trí, thử nghiệm trực quan hóa dt liệu, và cả mục đích giả mạo thông tin Chính vi
sự đa dạng này, việc phát hiện và xác định nguồn gốc của ảnh sinh trở nên cực kỳ quantrọng trong nhiều lĩnh vực, như bảo mật, quyên riêng tư và ngành công nghiệp truyền
thông.
“a bored smoking lizard “a parking meter near
surrounded by soldiers” a graffiti wall”
“a corgi in a field” “a monkey eating a banana” _ ‘a neapolitan pizza
with mozzarella and tomatoes”
Hinh 1: Vi du vé anh sinh (Nguon: Corvi et al., 2022.)
12
Trang 13Đồ án tốt nghiệp Đại học
1.1.2 Một số mô hình sinh ảnh phổ bién
Trong lĩnh vực trí tuệ nhân tạo, nhiêu mô hình đã được đê xuât và phát triên đê sinh ra hình ảnh Dưới đây là một sô mô hình sinh ảnh phô biên và được công nhận:
1.1.2.1 Generative Adversarial Networks (GANs)
GANs là một loại mô hình sinh học sâu gồm hai mô hình con: mô hình sinh
(Generator) và mô hình phân loại (Discriminator) Mô hình sinh tạo ra hình ảnh giả
mạo, trong khi mô hình phân loại cố gắng phân biệt giữa hình ảnh thật và giả Quá
trình huấn luyện diễn ra thông qua sự cạnh tranh giữa hai mô hình này Do khả năng
sinh hình ảnh giả mạo với chất lượng cao, GANs thường được sử dụng trong việc tạo
ra ảnh giả Điều này đồng nghĩa với việc cần có các phương pháp phát hiện hiệu quả
dé xác định những hình ảnh được sinh ra bởi GANs
1.1.2.2 Variational Autoencoders (VAEs)
VAEs là một loại Autoencoder có cấu trúc xác suất Khác với Autoencodertruyền thống, VAEs sinh ra hình ảnh mới từ một không gian phân bố mà nó đã học
được VAEs có thé tạo ra hình ảnh giả mạo với đặc trưng và phân bố tương tự như dir
liệu thật, do đó cần phải phát triển các phương pháp phát hiện chính xác cho những
hình ảnh sinh ra từ VA Es.
1.1.2.3 Restricted Boltzmann Machines (RBMs)
RBMs là một dang mô hình Boltzmann Machine được đơn giản hóa, trong đó
mỗi noron chỉ kết nối với các noron ở lớp khác RBMs thường không được sử dụngrộng rãi dé sinh hình ảnh giả mạo như GANs hoặc VAEs, nhưng chúng vẫn có théđược sử dụng trong một số ứng dụng cụ thê và cần sự quan tâm khi phát hiện ảnh giả
1.1.2.4 Transformers trong sinh ảnh
Ban đầu được thiết kế cho bài toán xử lý ngôn ngữ tự nhiên, Transformers
(mạng biến áp) đã được mở rộng đề xử lý hình ảnh, nhờ vào cơ chế self-attention giúp
mô hình hiểu va sinh ảnh với nhiều chi tiết phức tạp Với khả năng sinh hình ảnh phức
tạp, Transformers cần được xem xét kỹ lưỡng trong việc phát hiện ảnh giả, đặc biệt là
khi chúng được sử dụng dé sinh hình ảnh từ mô tả văn bản
1.1.2.5 Diffusion Models
Diffusion Models (mô hình khuếch tan) sinh hình ảnh thông qua việc mô phỏngquá trình ngẫu nhiên lan truyền Thay vì sinh ảnh từ một nhiễu ban đầu, DiffusionModels biến đổi từ một hình ảnh thực tế dần dần thông qua các bước ngẫu nhiên Dokhả năng sinh hình ảnh chất lượng cao và gần giống với hình ảnh thực tế, việc pháthiện ảnh sinh từ Diffusion Models trở nên thách thức và cần sự chú ý
13
Trang 14Đồ án tốt nghiệp Đại học
1.1.3 Những rủi ro và thách thức của mô hình sinh ảnh
Với sự tiến bộ của các mô hình sinh ảnh, dù mang lại nhiều lợi ích cho nhiềulĩnh vực, cũng đồng thời tạo ra nhiều lo ngại về an toàn và đạo đức Đặc biệt, việc sinh
ra các ảnh giả mạo có thể ảnh hưởng đến tính toàn vẹn và độ tin cậy của thông tin Một
số rủi ro và thách thức:
e Tạo ra ảnh giả mạo: Với khả năng sinh ra hình ảnh chất lượng cao, người dùng
có thé tao ra những hình ảnh giả mạo của những người thật, điều này có thé bị
lợi dụng trong việc tạo ra các tin tức giả, video giả và nhiều loại nội dung khác
e Mất tính xác thực: Khi ảnh giả mạo được tạo ra một cách dễ dàng và chất
lượng, việc phân biệt giữa hình ảnh thực và hình ảnh giả mạo trở nên khó khăn.
Điều này ảnh hưởng đến việc xác minh thông tin, làm mắt đi sự tin tưởng củacông chúng đối với các nguồn thông tin
e Ứng dung trái phép: Các mô hình sinh ảnh có thé bi lợi dụng trong các hoạt
động trái phép như lừa đảo, giả mạo danh tính, hoặc tạo ra nội dung không phù
hợp và phân phát nó mà không cần sự đồng ý của người trong hình
e Nguy cơ đối với quyền riêng tư: Những người không mong muốn hình anh của
mình được sử dụng có thể bị vi phạm quyền riêng tư khi hình ảnh của họ đượctái tạo hoặc biến đổi mà không cần sự đồng ý
e Tác động tới an ninh Quốc gia: Hình ảnh giả mạo có thể được sử dụng dé tạo ra
thông tin giả mạo hoặc tác động tới quan điểm của công chúng, gây ra những
tác động tiêu cực đối với an ninh quốc gia
Trước những nguy cơ và lo ngại này, việc xây dựng và phát triển các mô hình pháthiện ảnh sinh bởi các mô hình sinh trở thành một nhiệm vụ cấp bách Việc có khả năng
xác định và phân biệt giữa ảnh thực và ảnh giả mạo giúp bảo vệ người dùng khỏi
những thông tin sai lệch và vi phạm quyền riêng tư, đồng thời giữ vững niềm tin củangười dân vào nguồn thông tin trực tuyến
1.2 Giới thiệu bài toán phát hiện ảnh sinh
Bài toán phát hiện ảnh sinh bởi các mô hình sinh liên quan đến việc xác địnhliệu một hình anh cụ thé có phải là kết quả từ một mô hình sinh (như GAN, VAE, )hay không Bài toán này yêu cầu thuật toán có khả năng phân biệt giữa hình ảnh thực
tế và hình ảnh được sinh ra từ máy móc, dựa trên các đặc điểm và mẫu không dễ nhận
biết của hình ảnh
Ý nghĩa bài toán:
e Bảo vệ an toàn Thông tin: Ngăn chặn sự lợi dung của ảnh giả mạo trong các
hoạt động trái phép, lừa đảo hoặc tác động tới quan điểm công chúng
14
Trang 15Đồ án tốt nghiệp Đại học
e© Giúp mọi người và các tô chức có thê tin tưởng vao nguôn thông tin họ tiép
xúc, nhờ khả năng lọc và xác minh hình ảnh.
M6 tả bài toán:
e Dâu vào: Hình anh cân được xác minh.
e Đầu ra: Kết quả xác định liệu hình ảnh đó là thực sự (chụp từ thực tế) hoặc
được sinh ra từ một mô hình trí tuệ nhân tạo.
Sự phổ biến của các mô hình sinh và khả năng tao ra hình anh giả mao chất lượng
cao đã tạo ra một thách thức lớn trong việc phân biệt ảnh thực và ảnh giả Đề giải
quyết bài toán này, nhiều phương pháp đã được đề xuất và nghiên cứu Trong phần
tiếp theo, đồ án sẽ khám pha và đánh giá những phương pháp phát hiện ảnh sinh phổ
biến, từ đó hiểu rõ hơn về cơ chế hoạt động và hiệu quả của chúng
1.3 Các phương pháp tiếp cận bài toán phát hiện ảnh sinh bởi mô
hình trí tuệ nhân tạo
Với bài toán đặt ra có 4 phương pháp tiếp cận chính, đó là phương pháp dựatrên dữ liệu, phương pháp dựa trên quy tắc, phương pháp dựa trên đặc trung trongmiền không gian và phương pháp dựa trên đặc trưng trong miền tần số
1.3.1.Phương pháp dựa trên dữ liệu
Phương pháp này được trình bày trong bài báo [2] sử dụng Mạng Noron Tích
chập (CNN) - một loại mô hình máy học phổ biến dành cho xử lý hình ảnh Mang
Nơron Tích chập (CNN) là một biến thé của mạng nơron sâu, đặc biệt phù hợp cho xử
ly dữ liệu hình ảnh.
e Tích chập (Convolutional Layer): Ở lớp này, một bộ lọc hoặc nhiều bộ lọc sẽ
"trượt" qua hình ảnh đầu vào dé tạo ra một bản đồ đặc trưng Bản đồ đặc trưng
này giúp mô hình tập trung vào những chỉ tiết quan trọng của hình ảnh
e Lớp gộp (Pooling Layer): Lớp này giảm kích thước của bản đồ đặc trưng, giữ
lại thông tin quan trọng nhất và loại bỏ thông tin ít quan trọng Phương phápgop pho biến nhất là "max pooling", chi giữ lại giá trị lớn nhất trong một vùng
xác định.
e Lớp kết nỗi day đủ (Fully Connected Layer): Sau khi thông qua một số lớp tích
chập và gộp, hình ảnh sẽ được chuyên thành một vector một chiều và được đưa
qua một hoặc nhiều lớp kết nối đầy đủ, giống như một mạng noron truyền
thống
CNNs tự động học cách nhận biết các đặc trưng từ dữ liệu đầu vào mà không cần biếttrước Vì vậy, chúng rất phù hợp đề phát hiện hình ảnh giả từ các mô hình GANs, vìchúng có thể tự học các đặc trưng độc đáo mà mô hình GANs tạo ra
15
Trang 16FEATURE LEARNING CLASSIFICATION
Hình 2: Vi du về một mô hình CNN dé phân loại hình ảnh
Phương pháp này sử dụng một mô hình này được huấn luyện bằng cách sử dụng hìnhảnh thật và hình ảnh giả dé nó có thể học biết cách phân biệt giữa chúng Khi một hình
ảnh mới được đưa vào, mô hình sẽ xác định xem nó là thật hay giả dựa trên những gì
nó đã học Một công trình quan trọng trong lĩnh vực này đã sử dụng mô hình
ResNet-50, được tinh chỉnh dựa trên một bộ dữ liệu gồm 720k hình ảnh thật và giả do
ProGAN tạo ra ResNet, viết tắt của "Residual Networks", là một loại kiến trúc CNN
được thiết kế để giải quyết van đề "vanishing gradient" khi huấn luyện mạng noron
sâu "50" trong ResNet-50 chỉ ra rằng mô hình có 50 lớp Mỗi lớp trong ResNet chứamột "kết nối dư thừa", giúp mô hình "bỏ qua" một hoặc nhiều lớp khi không cần thiết,giúp việc huấn luyện mô hình trở nên ôn định hơn ProGAN, viết tắt của "ProgressiveGrowing of GANs", là một loại kiến trac GAN được thiết kế dé tăng cường chất lượng
và độ phân giải của hình ảnh được sinh ra ProGAN bắt đầu bằng việc tạo ra hình ảnh
ở độ phân giải thấp, sau đó tăng dần độ phân giải qua nhiều bước, giúp việc huấn
luyện GAN trở nên ồn định hơn và tạo ra hình ảnh chất lượng cao hơn
Tuy nhiên, dù mô hình này đạt được độ chính xác ấn tượng, nó vẫn cho thấykhả năng tổng quát hóa không tốt đối với các mô hình GANs khác nhau cũng như hìnhảnh sinh bởi các mô hình sinh khác như VAE, Stable Diffusion (mô hình khuếch tán
6n định),
1.3.2 Phương pháp dựa trên quy tắc
Phương pháp dựa trên quy tắc là một kỹ thuật tiếp cận vấn đề dựa trên việc thiếtlập các quy tắc cụ thé dé hệ thống có thé tự động thực hiện quá trình phân loại Trong
lĩnh vực phân loại ảnh thật và anh tông hợp, các quy tắc này thường dựa trên các đặctrưng kỹ thuật số được phát hiện trong ảnh
Các đặc trưng kỹ thuật số, hay còn gọi là "dau vân tay" của ảnh, được sử dung dé phân
biệt ảnh that với ảnh tông hợp Trong bối cảnh này, một "dau vân tay" không phải là
dau vân tay thật sự của con người mà là một loại đặc trưng duy nhất mà máy phát hiện
16
Trang 17Đồ án tốt nghiệp Đại học
ra, giống như một loại dau hiệu đặc biệt mà mỗi phần mềm tao anh tong hợp dé lại trên
sản phâm của mình.
Một số nghiên cứu về bài toán nay đã đề xuất một phương pháp dé phát hiện những
"dau vân tay" này bằng cách sử dụng các bộ lọc loại bỏ nhiễu và tính toán trung bìnhcủa phan dư (residual averaging) Dưới đây là giải thích chi tiết về các khái niệm này:
e Bộ lọc loại bỏ nhiễu (Denoising Filters): Day là các công cụ được thiết kế dé
loại bỏ nhiễu hoặc các tín hiệu không mong muốn khỏi một ảnh, giúp cải thiện
chất lượng của ảnh Trong trường hợp nay, chúng được sử dụng dé làm nỗi bật
các mẫu nhiễu đặc trưng cho quá trình sinh ảnh tông hợp
e Trung bình của phan du (Residual Averaging): Phần dư ở đây ám chi sự chênh
lệch giữa ảnh ban đầu và ảnh sau khi đã được xử lý qua bộ lọc Việc tính toántrung bình của những phan dư này giúp phát hiện ra các mô hình lặp lại - haynói cách khác, là dấu vân tay của ảnh tổng hợp
Một trong những thách thức của phương pháp này là nó đòi hỏi phải có sự giám
sát thủ công và những giả định được xây dựng dựa trên kiến thức về mối quan hệ giữa
các mô hình sinh ảnh tổng hợp khác nhau Sự giám sát thủ công ở đây bao gồm việc
điều chỉnh và thiết lập các bộ lọc dựa trên kinh nghiệm và kiến thức chuyên môn, cũng
như việc phân tích và diễn giải kết quả Mặc dù phương pháp này có khả năng cung
cấp những hiểu biết sâu sắc về nguồn gốc của các ảnh tông hợp, nó vẫn tồn tại hạn chế
lớn trong việc ứng dụng rộng rãi do yêu cầu sự tham gia của con người trong quá trình
phân tích và thiết lập quy tắc Điều này không chỉ tốn kém về mặt thời gian mà cònyêu cầu một mức độ chuyên môn nhất định, hạn chế khả năng tự động hóa toàn bộ quy
trình.
17
Trang 18Đồ án tốt nghiệp Đại học
1.3.3 Phương pháp dựa trên đặc trưng trong miền không gian
Trong miền không gian, phân tích ảnh giả mạo thường tập trung vào việc nhận
diện nguồn gốc của ảnh Các mô hình sinh, giống như máy ảnh thực, dé lại "dau vân
tay" duy nhất trên mỗi ảnh được tạo ra Dấu vân tay này phụ thuộc không chỉ vào môhình mà còn cả dữ liệu huấn luyện, giúp xác định mô hình đã tạo ra ảnh Một số môhình nghiên cứu như Marra et al (2019) [11] và Yu et al (2019) [12] đã nghiên cứu vềdau vân tay này, chỉ ra rằng mỗi mô hình GAN để lại một loại "đấu vân tay nhân tao"khác nhau trên ảnh Dựa trên ý tưởng này, có thé phát trién các phương pháp dé phân
biệt ảnh thật và ảnh do GAN tạo ra thông qua việc so sánh và phân tích các đặc trưng
này.
1.3.4 Phương pháp dựa trên đặc trưng trong miền tan số
Trong miền tần số, ảnh do GAN hoặc một số mô hình khác tạo ra thường chứanhững dấu hiệu nhận diện riêng biệt Các phương pháp phân tích trong miền Fourier
được sử dụng để phát hiện những dấu hiệu này Như được đề xuất trong hai bài báo
Zhang et al (2019) [13] và Frank et al (2020) [14] đã nghiên cứu cách thức các đỉnh
tan số Những đỉnh tần số này là kết quả trực tiếp của quá trình "upsampling" (tăngmẫu) được sử dụng trong kiến trúc của các mạng GAN Upsampling là một bước quan
trọng trong quá trình sinh ảnh của GAN, giúp tạo ra hình ảnh có độ phân giải cao từ
một vector nhiễu ngẫu nhiên Qua phân tích, họ đã chỉ ra răng những đỉnh tần số này
có thé được sử dụng lam dấu hiệu dé phân biệt giữa ảnh thực (chụp từ camera) và ảnh
do GAN tạo ra.
18
Trang 19Đồ án tốt nghiệp Đại học
1.4 Kết luận chương
Chương này đã cung cấp một cái nhìn tổng quan về bài toán phát hiện ảnh sinh
và các phương pháp tiếp cận khác nhau Em đã giới thiệu khái niệm của ảnh sinh, từviệc chúng được tạo ra như thế nào, bởi những công nghệ nảo, và với mục đích gì Sựtiến triển vượt bậc của các mô hình GAN, VAEs, Diffusion Model, và các phươngpháp sinh ảnh khác đang mở ra cơ hội cũng như thách thức đối với cộng đồng nghiên
cứu và ứng dụng thực tiễn.
Rủi ro và thách thức liên quan đến việc sử dụng ảnh giả mạo đã được làm sáng
tỏ, nhân mạnh tầm quan trọng của việc phát triển những công cụ phân tích chính xác
va đáng tin cậy dé xác định nguồn gốc của anh Điều này không chỉ quan trọng đối vớibảo mật thông tin mà còn có tầm ảnh hưởng đến việc bảo vệ quyền riêng tư cá nhân và
ngăn chặn thông tin sai lệch lan truyền trong xã hội.
Các phương pháp tiếp cận bài toán đã được giới thiệu, từ những kỹ thuật dựatrên dữ liệu đến phân tích kỹ thuật số trong miền không gian và tần số Sự đa dạng củacác phương pháp này phản ánh độ phức tạp va đa chiều của van đề, cũng như cần thiếtcho việc tiếp tục nghiên cứu và phát triển
Ở chương tiếp theo đồ án sẽ đi sâu vào việc đề xuất một phương pháp mới dé
tiếp cận bài toán này Phương pháp đề xuất sẽ được xây dựng trên cơ sở lý thuyết và
kinh nghiệm thu được từ Chương 1, với hy vọng cải thiện hiệu quả phân loại và dap
ứng nhu cau thực tế trong việc phân biệt ảnh thực và ảnh giả Đồ án xem xét các ưu và
nhược điểm của phương pháp đề xuất, cũng như thách thức và tiềm năng ứng dụng của
nó trong thực tế
19
Trang 20Đồ án tốt nghiệp Đại học
CHƯƠNG 2: PHƯƠNG PHÁP DE XUẤT
Chương 2 sẽ giới thiệu về phương pháp đề xuất cũng như mô tả chỉ tiết về cau trúc mô
hình và cụ thể các thực hiện bài toán Chương 2 được trình bày thông qua các mục sau:
Trang 21Đô án tôt nghiệp Đại học
2.1 Đề xuất phương pháp
Trong chương này, em xin trình bày một phương pháp mới được đề xuất nhằmphân loại ảnh thật và ảnh tổng hợp Phương pháp này dựa trên ba giai đoạn chính: tríchxuất nhiễu thặng dư, trích xuất dấu vân tay của ảnh, và phân loại ảnh dựa trên nhữngdau vân tay này Dưới đây là bản tóm tắt chỉ tiết về mỗi giai đoạn:
Bước I: Trích Xuất Nhiễu Thặng Dư
Ở bước đầu tiên, mục tiêu là trích xuất ra những thông tin nhiễu không được
biểu diễn trong ảnh thật Sử dụng một mô hình Autoencoder (bộ mã hóa tự động) được
huấn luyện trên một bộ dữ liệu ảnh thật, phương pháp phát hiện ra nhiễu thặng dưthông qua việc so sánh giữa ảnh gốc và ảnh tái tạo từ mô hình Nhiễu thặng dư nàymang thông tin quan trong có thé sử dụng dé phân biệt giữa ảnh tổng hợp và ảnh thật.Bưóc 2: Trích Xuất Dấu Vân Tay Ảnh
Trích xuất dấu vân tay ảnh bao gồm việc sử dụng bộ lọc giảm nhiễu dé thu thập
nhiễu thang dư Sau đó, áp dụng biến đổi Fourier lên nhiễu thang dư dé chuyên anh từ
miền không gian sang miền tần số và phân tích phô năng lượng của nhiễu thang dư
Qua phân tích này, xác định các đặc trưng phản ánh dấu vân tay của quá trình tạo ảnh,
như đỉnh đặc biệt trong phổ năng lượng hoặc mau lặp lại, dé xác định nguồn gốc của
ảnh và liệu nó có phải là ảnh tổng hợp
Bước 3: Phân Loại Anh
Cuối cùng, dựa trên những dấu vân tay đã được trích xuất, một mô hình phânloại được thiết kế nhằm xác định liệu ảnh đầu vào là thật hay tổng hợp Mô hình này sẽđược huấn luyện dé có kha năng phân biệt giữa anh that và anh tổng hợp dựa trên đặctrưng nhiễu thặng dư và dấu vân tay đã trích xuất
Trich xuat | Gnigy thang, THchxuất 2 Phan loai
>| hiểu hãng ae a TH van ty "au van taydu Ñ 4———— | ¬_
Hình 4: Luong hoạt động của phương pháp dé xuất
21
Trang 22Đồ án tốt nghiệp Đại học
Mỗi bước trong phương pháp đề xuất đều có vai trò quan trọng trong việc đạtđược mục tiêu cuối cùng, đó là việc phân loại chính xác và đáng tin cậy Ở các mụctiếp theo, đồ án sẽ đi vào chi tiết từng bước và mô tả cách thức triển khai, cũng như
cách thức các công nghệ và kỹ thuật liên quan được áp dụng trong việc giải quyết bài
toán này.
Trong đồ án này, em xin giới thiệu một quy trình mới trong việc phân biệt ảnh thật
và ảnh tổng hợp thông qua bốn ý chính sau:
e Phát triển phương pháp phát hiện mới: em xây dựng một hệ thống phân loại sử
dụng mạng tự mã hóa dé nam bắt và tái tạo đặc trưng của ảnh thực, giúp lộ ranhững sai lệch mà ảnh tổng hợp chứa
e_ Trích xuất dấu vân tay ảnh: quy trình đề xuất bao gồm việc tinh lọc nhiễu thang
dư và sử dụng biến đổi Fourier dé tăng độ rõ nét của dấu vân tay anh, từ đó cải
thiện khả năng phát hiện ảnh tong hop
e Phát triển mô hình phân loại tổng quát: mô hình được thiết kế để không chỉ
nhận diện các ảnh từ mô hình tổng hợp đã biết mà còn có khả năng phân loại
hiệu quả đối với những mô hình mới, chưa từng được học trước đó
e Thực nghiệm và xác thực: trong phần này em thực hiện các thí nghiệm dé xác
nhận hiệu quả của quy trình và mô hình đã phát triển, qua đó chứng minh tính
khả thi và độ chính xác trong việc phân loại ảnh.
Phương pháp này không chỉ nâng cao khả năng phát hiện ảnh tổng hợp mà còn mởrộng phạm vi ứng dụng dé nhận diện các dạng ảnh mới, góp phần vào công cuộc đảmbảo thông tin ảnh chính xác và an toàn trong kỷ nguyên số
2.2 Công thức cho bài toán
Trong phần nay, em sẽ mô tả chi tiết cho bài toán phân loại ảnh thật bang viéc
công thức hóa bai toán.
Xác Định Nhiéu Thang Dư (Residual Noise Extraction)
Mục tiêu: Định lượng nhiễu thing dư có trong ảnh dé phục vụ cho việc phân tích và
phân loại.
Quy trình:
e Mô Hình AutoencoderA: Được xây dựng dựa trên mạng nơ-ron sâu với mục
đích nén và tái tạo ảnh.
e Encoder: Biến đôi anh I thành một biéu diễn nénz thông qua hàm mã hóa f enc.
e Decoder: Tái tạo ảnh từ z thông qua hàm giải mã f„., tạo ra ảnh tái tạo]
e Tính Toán Nhiễu Thang Dư R{I): Nhiễu thang duR(I) được tính toán như sau:
22
Trang 23Đồ án tốt nghiệp Đại học
R[TI=1I—T[1]
T= P sel ene H\[2]
Trích Xuất Dau Vân Tay Anh (Fingerprint Extraction)
Mục tiêu: Phân tích nhiễu thang du dé trích xuất đặc trưng có thé phân biệt giữa anhthật và ảnh tong hợp
Quy trình:
e Biến Đối Fourier: Biến đổi RIT] sang miền tần số dé phân tích đặc trưng:
D[TI=F|RITÌ[S]
Phân Loại Anh (Image Classification)
Mục tiêu: Sử dung các đặc trưng đã trích xuất để xác định xem ảnh là thật hay tổng
hợp.
Quy trình:
e Xây Dựng Mạng Phân Loại C: Thiết lập mạng CNN phân loại với kha năng
nhận biết đặc trưng DÍT] từ dau vân tay ảnh
Classification=C| D|I}|[4]
e Đầu Ra Phân Loại: Sử dụng C dé phan loai anh:
e C(I) cho ra kết qua 0 (ảnh thật) hoặc 1 (ảnh tổng hợp).
Thuật toán
I - tập hợp các anh cần phân loại
A - Autoencoder với ResNet50 làm backbone dé tái tạo ảnh,
CN N„„;„- mạng CNN dé lọc nhiễu thang dư và trích xuất dau vân tay,
C- mạng CNN phân loại để xác định tính xác thực của ảnh.
R- tập hợp kết quả phân loại của các ảnh.
1 Initialize C to an empty list
3 for each I in Ido
3 I — A(I| => Tái tao anh bang Autoencoder
23
Trang 24Đô án tôt nghiệp Đại học
4 R{I) —I-I => Tính nhiễu thang dư
3 DỈT) — FourierTransform|(R(I))|=>Ap dụng biến đổi Fourler
q C|I) — C|D[TÌ| => Phân loại ảnh dựa trên đặc trưng tần
2.3.1.1 Giải thích về Autoencoder và Kiến trúc ResNet50
Trong mô hình Autoencoder được sử dụng dé xác định nhiễu thặng dư, có haithành phần chính: Encoder và Decoder Dưới đây là chi tiết về mỗi phần và cách
chúng tương tác với nhau.
om aaOriginal Compressed Reconstructed
nput representation input
Hình 5: Hình ảnh mô tả quá trình Autoencoder (Nguồn: [6])
Encoder trong một Autoencoder có nhiệm vụ chính là học cách nén dữ liệu dau vào vào một dạng biéu diễn nén, thường là một vector có kích thước nhỏ hơn so với dữ
liệu gốc Điều này được thực hiện thông qua một chuỗi các phép biến đồi, thường là
các lớp nơ-ron với các hàm kích hoạt phi tuyến
24
Trang 25- f nc là hàm mã hóa mà encoder học dé biến đôi đầu vào thành biểu diễn nén.
Ø,„ là tập hợp các tham sé (trong số và độ lệch) của encoder, được tối ưu hóa trong
quá trình huấn luyện
Công thức trên cho thay encoder nhận đầu vào I và chuyển đổi nó thành biểu diễn nén
z thông qua các tham sô Ø„„ đã học Mục tiêu là giữ lại càng nhiêu thông tin có ích từ đầu vào trong biểu diễn nén.
Decoder có nhiệm vụ ngược lại với Encoder Nó cô găng tái tạo lại dữ liệu gôc
từ biểu diễn nén mà không cần thông tin phụ trợ nào khác.
Tái tao dữ liệu (Decoded Data):
Trong đó:
- Ì là dữ liệu đã được tái tạo
- f„ là hàm giải mã ma decoder học dé tái tạo dữ liệu từ biểu diễn nén
- Ie là tập hợp các tham số của decoder.
Decoder nhận biéu diễn nén z và cô gắng tái tao lại dữ liệu gốc I dựa trên các tham số9„„ đã học Dữ liệu tái tạo?có thể không hoàn hảo, nhưng mục tiêu là làm cho nó gần
với dit liệu gốc càng nhiều càng tốt
Hàm Mat Mat (Loss Function) đóng vai trò quan trọng trong quá trình huấnluyện Autoencoder bằng cách đo lường sự khác biệt giữa dữ liệu gốc và dữ liệu được
Trang 26Đồ án tốt nghiệp Đại học
- n là số lượng mẫu dữ liệu
-I val, lần lượt là giá trị thực và giá trị dự đoán của mau dữ liệu thứ i.
Mục tiêu của quá trình huấn luyện là điều chỉnh các tham số 9 và Pee sao cho hàmmất mát L được giảm thiểu, tức là dữ liệu được tái tạo I sẽ gần với dữ liệu gốc I nhất
có thê
Kết quả của quá trình này là một mô hình có khả năng hiểu và tái tạo dit liệu, và từ đó
có thê được sử dụng dé phát hiện nhiễu thang du trong dữ liệu - điều quan trọng cho
việc phân biệt ảnh thật và tổng hợp
ResNet50 là một mô hình mạng no-ron sâu được thiết kế dé giải quyết van dé
"biến mat gradient" bằng cách sử dụng các kết nối tắt (shortcut connections) Các kết
nối này cho phép gradient được truyền trực tiếp từ các lớp sau đến các lớp trước, giúp
việc huân luyện mạng hiệu quả hơn.
ResNet50 Model Architecture
Input Output
—=>
Conv Block ID Block Conv Block ID Block Conv Block ID Block Conv Block ID Block Avg Pool Flattening FC
Zero Padding CONV
L T~ JL, \ Ju JUD
Stage 1 Stage 2 Stage 3 Stage 4 Stage 5
Hình 6: Kiến trúc mang Resnet50
ResNet50 bao gồm các "Residual Blocks", mỗi block gồm:
e Identity Block: Kết nối tắt cộng trực tiếp đầu vào với đầu ra của một hoặc nhiều
lớp.
Xi¡=f Xi, W,+x,[8]
Trong đó x; là đầu vào của block, f (xX), W,) là đầu ra của một chuỗi các
lớp có trọng số W), và x,.; là đầu ra của block
e Convolutional Block: Tương tự như Identity Block nhưng có thêm một lớp
convolution trong kết nối tắt dé thay đổi kích thước đầu vào cho phù hợp vớiđầu ra
2.3.1.2 Ứng Dụng Autoencoder với ResNet50 vào Việc Xác Định Nhiễu Thang Dư
Dé tận dụng kiên trúc mạnh mẽ của ResNet50, em xin đê xuât cải biên nó thành backbone cho cả encoder và decoder trong mạng Autoencoder:
Encoder:
26