Phương pháp nhận dạng ảnh giả mạo sinh bởi trí tuệ nhân tạo

12Hình 2: Vi dụ về một mô hình CNN dé phân loại hình ảnh 15 Hình 3: Hình anh dau vân tay của mô hình Cycle-GAN o2a hàng trên và mô hình Pro-GAN kitchen hàng dưới Nguồn: [5] 16 Hình 4: Lu

Trang 1

KHOA AN TOÀN THÔNG TIN

ĐỎ ÁN TÓT NGHIỆP ĐẠI HỌC

Imk]

EINE TG)

DE TAI: PHUONG PHAP NHAN DIEN ANH GIA

MAO SINH BOI TRI TUE NHAN TAO

Giảng viên hướng dẫn : TS TRAN TIEN CONG

Sinh viên thực hiện : NGUYÊN PHƯƠNG ANH

: DI9CQAT03-B : 2019-2024

: Chính quy

Hà Nội 12-2023

Trang 2

Đồ án tốt nghiệp Đại học

NHẬN XÉT

(Của giảng viên phản biện)

Hà Nội, 12/2023 Giảng viên phản biện

Trang 3

NHẬN XÉT

(Của giảng viên hướng dẫn)

Hà Nội, 12/2022 Giảng viên hướng dẫn

Trang 4

LỜI CẢM ƠN

Khoảng thời gian cuối cùng của cuộc đời sinh viên kết thúc bởi quá trình làm

đồ án tốt nghiệp đầy cung bậc cảm xúc Học Viện đã day cho em nhiều điều, khôngchỉ là kiến thức mà còn là kỷ niệm gắn bó suốt hơn 4 năm trời, đó là nơi đã giúp emchuẩn bị hành trang trên con đường biến ước mơ trở thành hiện thực

Khi viết những dòng này, em xin bày tỏ lòng biết on chân thành đến các thay,

cô giáo trường Học viện Công nghệ Bưu chính Viễn thông, những người đã truyền lửacho nhiều thế hệ sinh viên với tất cả lòng đam mê và nhiệt huyết của mình Đồ án tốtnghiệp này không chỉ là công sức của vài tháng làm việc mà là sự tích lũy kiến thức

lâu dài trong suốt những năm tháng học tập trên giảng đường, dưới sự chỉ bảo của các

thầy cô giáo

Em xin gửi lời cảm ơn sâu sắc đến TS Trần Tiến Công, người thầy đã tận tâm

chỉ bảo em trong quá trình thực hiện đồ án Những lời khuyên của thầy đã giúp emnhận ra rất nhiều điều, rút ra nhiều kinh nghiệm khi thực hiện đồ án này

Cuối cùng, em xin cảm ơn những người thân trong gia đình đã động viên, chia

sẻ mỗi khi em gặp khó khăn, những người bạn đã luôn sát cánh bên em những lúc

tưởng chừng như muốn bỏ cuộc Xin cảm ơn những người bạn thân đã hỗ trợ em về

mặt kiến thức cũng như tinh thần dé vượt qua thử thách cuối cùng này

Hà Nội, ngày 28 tháng 12 năm 2023

Nguyễn Phương Anh

Trang 5

MỤC LỤC

LỜI CẢM ƠN 4DANH MỤC HÌNH ANH 7

DANH MỤC BANG BIEU 8DANH MỤC TU VIET TAT 9

MO DAU 10

CHUONG 1: TONG QUAN VE BAI TOAN PHAT HIEN ANH SINH VA

CACH TIEP CAN 111.1 Tổng quan về ảnh sỉnh 2 «<< se +se+seessexsessesezsesses 12

1.1.1.Khái niệm ảnh sinh 12

1.1.2.Một số mô hình sinh ảnh phô biến 13

1.1.3 Những rủi ro và thách thức của mô hình sinh ảnh 13 1.2 Giới thiệu bài toán phát hiện ảnh sỉnh <««=<s« 14

1.3 Cac phương pháp tiếp cận bài toán phát hiện ảnh sinh bởi mô

hình trí tuệ nhân ẦO 0-5 < S5 5 5 9 1 9v 04 0 004 996 15 1.3.1.Phương pháp dựa trên đữ liệu 15

1.3.2.Phương pháp dựa trên quy tắc 161.3.3.Phương pháp dựa trên đặc trưng trong miền không gian 171.3.4.Phương pháp dựa trên đặc trưng trong miễn tần số 171.4 Ket luận chương - 5< 5£ se s£se s£ssEseEsessEsesesesessesesese 18

CHƯƠNG 2: PHƯƠNG PHÁP ĐÈ XUẤT 19

2.1 Đề xuất phương phápp -s- s- s2 sssssssEs£seS+sesersesessrsrssrsesess 20

2.2 Công thức cho bài (Oáñ - <- <5 << <5 9 99.9 9.0 0.0 009 060996 21

2.3 Kiến trúc mô hìnhh -s-s°s<+#©Exseorxseorkseerkeerseorserrserrke 23

Trang 6

CHUONG 3: CÀI ĐẶT VA THU NGHIỆM

3.1 Bộ dữ liệu và phương pháp do Ïườngg <5 5< 5 5 5 55s ssse+ ssø 3.1.1 Tập dữ liệu

3.1.2 Phương pháp đo lường 3.2 Thử ng hÏỆIH <5 5 5 99999090 0000000000000 080

3.2.1 Hiệu suất cơ bản của mô hình3.2.2 Ảnh hưởng của Autoencoder

3.2.3 So sánh với phương pháp SOTA (State ofthe Art)

3.2.4 Độ bền vững của các mô hình3.2.5 Đánh giá khả năng tông quát hóa3.3 Kết luận chương

KET LUẬN VÀ KIÊN NGHỊ

20000000000000000000000000000000000000000000000000000060000eeeeeeee°6

1 Những đóng góp của d6 án - 2-52 St E2 2111211121211 1111 1x6

2 Hướng phát triển tiếp theo

TÀI LIỆU THAM KHẢO

23 26 28

29 31 32 33 33 36 37 37 40 43

44 46 47

48 48

48

49

Trang 7

DANH MỤC HÌNH ẢNH

Hình 1: Ví dụ về ảnh sinh (Nguồn: Corvi et al., 2022.) 12Hình 2: Vi dụ về một mô hình CNN dé phân loại hình ảnh 15

Hình 3: Hình anh dau vân tay của mô hình Cycle-GAN o2a (hàng trên) và mô hình

Pro-GAN kitchen (hàng dưới) (Nguồn: [5]) 16 Hình 4: Luông hoạt động của phương pháp đề xuất 20

Hình 5: Hình anh mô tả quá trình Autoencoder (Nguồn: [6]) 23Hình 6: Kiến trúc mạng Resnet50 25Hình 7: Hình ảnh mô tả dấu vân tay ảnh được trích xuất theo phương pháp nêu trên

với các data set tương ứng Real datasets (left): Imagenet, FFHQ , LAION,

Synthetic datasets (right): DiT, StyleGAN2, GLIDE 28

Hình 8: Một số hình ảnh nhiễu thu được qua mô hình Autoencoder 42

Hình 9: Từ trái qua phải là hình ảnh dấu vân tay trích xuất từ ảnh có sử dụng

Autoencoder để trích xuất nhiễu thặng dư, hình ảnh dấu vân tay trích xuất từ ảnh

không sử dụng Autoencoder dé trích xuất nhiễu thing dư, hình anh dau vân tay của

ảnh thật 42 Hình 10: Độ chính xác của phương pháp với các trường hợp như nén JPEG, làm

mo Gaussian Blur, Gaussian Noise va resize 44

Trang 8

DANH MỤC BANG BIEU

Bang 1: Tập dữ liệu T-open 33 Bảng 2: Tập dữ liệu T-pra 34 Bảng 3: Bộ dữ liệu Mở Rộng T-all 35

Bảng 4: Kết quả trên Bộ Dữ Liệu tổng hợp T-all 38Bảng 5: Kết quả tên Bộ Dữ Liệu T-open 39Bảng 6: Kết quả trên Bộ Dữ Liệu T-pra 39Bảng 7: Kết quả của mô hình khi không sử dụng Autoencoder để trích xuất nhiễu

thang dư trên bộ đữ liệu T-all 4I

Bảng 8: Kết quả so sánh với một số phương pháp SOTA hiện nay (các số được in đậmthé hiện gia trị lớn nhất) 43Bảng 9: Kết quả thử nghiệm trên tập dữ liệu T-all 46

Trang 9

DANH MỤC TU VIET TAT

Từ Tiếng Anh Tiếng Việt

khóa

ML Machine Learning Hoc may

Al Artificial Intelligent Tri tué nhan tao

DL Deep Learning Hoc sau

Net Residual Network Mang phan du

Pro Progressive Growing of Mang đối nghịch tạo sinh

GAN GANs phát triển tuần tự

CycleConsistent k

-CY | Generative Adversarial _ Mang đôi nghịch tạo sinh

cle-GAN | Networks tuan hoan nhat quan

Trang 10

MO DAU

Trong thoi dai cua tri tué nhan tao va hoc may, viéc tao ra anh va video bang

cach sử dung mô hình sinh đã trở thành một chu đề nóng Những mô hình này có khảnăng tạo ra hình ảnh và video có chất lượng cao, khó phân biệt với thực tế Tuy nhiên,

sự lan rộng của công nghệ nay cũng đem lại những van đề về bảo mật, quyền riêng tư

và sự thật thông tin Vì vậy, việc phát hiện ảnh sinh bởi các mô hình trở nên cần thiết

hơn bao giờ hết Đồ án tốt nghiệp này tập trung vào việc nghiên cứu và phát triểnphương pháp hiệu qua dé phát hiện anh sinh Dé có cái nhìn sâu rộng và tổ chức baiviết một cách rõ ràng, đồ án được chia thành bốn chương chính:

Chương 1: Tổng quan về bài toán phát hiện ảnh sinh bởi trí tuệ nhân tạo

và cách tiếp cận bài toán

Trong chương này, đô án sẽ giới thiệu vê bôi cảnh va tâm quan trọng của việc phát hiện ảnh sinh và đánh giá những thách thức và vân đê liên quan đên việc xác định ảnh do mô hình sinh tạo ra so với ảnh thực.

Chương 2: Phương pháp đề xuất

Chương này trình bay chi tiết về phương pháp mà đồ án đề xuất dé phát hiệnảnh sinh Bằng cách nghiên cứu và kết hợp những thuật toán hiện đại, đồ án mongmuốn mang lại một giải pháp hiệu quả và đáng tin cậy cho vấn đề này

Chương 3: Cài đặt và thử nghiệm

Ở chương này, đồ án sẽ mô tả quá trình cài đặt và kiểm tra hiệu suất củaphương pháp đề xuất Qua việc thử nghiệm trên nhiều bộ dữ liệu khác nhau, em xin

nhận định về kha năng và hạn chế của phương pháp đã đề xuất

Chương 4: Kết luận và hướng phát triển

Dựa trên kết quả và nhận xét từ các chương trước, em sẽ tông kết những điểmchính của đồ án Đồng thời, cũng đề xuất một số hướng phát triển cho tương lai, giúpcải thiện hiệu suất và ứng dụng của phương pháp

Qua việc nghiên cứu và trình bày trong đồ án này, em hy vọng đóng góp mộtphan nhỏ vào lĩnh vực nghiên cứu trí tuệ nhân tạo, giúp cộng đồng có thêm công cụ déđối mặt với thách thức của thế kỷ 21

10

Trang 11

CHƯƠNG 1: TONG QUAN VE BÀI TOÁN PHAT HIỆN ANH SINH VÀ CÁCH TIẾP

CẬN

Nội dung chương 1 đề cập đến khái niệm về ảnh sinh bởi trí tuệ nhân tạo, các mô hình

dé sinh ảnh Ngoài ra chương nay cũng nêu lên các phương pháp phát hiện ảnh sinh đãđược đề xuất, và giới thiệu một SỐ nghiên cứu liên quan

Chương 1 được trình bay qua các mục sau:

e Tổng quan về anh sinh

e Giới thiệu về bài toán phát hiện ảnh sinh

e Các phương pháp tiếp cận bài toán phát hiện ảnh sinh

e Kết luận chương

Trang 12

`

1.1 Tổng quan về ảnh sinh

1.1.1 Khai niệm ảnh sinh

Ảnh sinh trong ngữ cảnh trí tuệ nhân tạo (AI) và học máy đề cập đến hình ảnhđược tạo ra không từ thiết bị chụp ảnh truyền thống mà thông qua các thuật toán học

máy, sử dụng trí tuệ nhân tạo Cụ thể, những mô hình sinh có khả năng tạo ra hình ảnhmới dựa trên dữ liệu đầu vào đã được huấn luyện trước, mà không cần phải dựa vào

hình ảnh thực tế

Hình ảnh sinh gần đây được cải thiện và có thê trở nên rất thực, gần như khôngthể phân biệt với hình ảnh thực tế Điều này là nhờ sự tiến bộ của các thuật toán học

máy, cùng với sự tăng lực tính toán và dữ liệu huấn luyện đa dạng

Ảnh sinh có thé được tạo ra với nhiều mục đích khác nhau, bao gồm nghệ thuật,

giải trí, thử nghiệm trực quan hóa dt liệu, và cả mục đích giả mạo thông tin Chính vi

sự đa dạng này, việc phát hiện và xác định nguồn gốc của ảnh sinh trở nên cực kỳ quantrọng trong nhiều lĩnh vực, như bảo mật, quyên riêng tư và ngành công nghiệp truyền

thông.

“a bored smoking lizard “a parking meter near

surrounded by soldiers” a graffiti wall”

“a corgi in a field” “a monkey eating a banana” _ ‘a neapolitan pizza

with mozzarella and tomatoes”

Hinh 1: Vi du vé anh sinh (Nguon: Corvi et al., 2022.)

12

Trang 13

1.1.2 Một số mô hình sinh ảnh phổ bién

Trong lĩnh vực trí tuệ nhân tạo, nhiêu mô hình đã được đê xuât và phát triên đê sinh ra hình ảnh Dưới đây là một sô mô hình sinh ảnh phô biên và được công nhận:

1.1.2.1 Generative Adversarial Networks (GANs)

GANs là một loại mô hình sinh học sâu gồm hai mô hình con: mô hình sinh

(Generator) và mô hình phân loại (Discriminator) Mô hình sinh tạo ra hình ảnh giả

mạo, trong khi mô hình phân loại cố gắng phân biệt giữa hình ảnh thật và giả Quá

trình huấn luyện diễn ra thông qua sự cạnh tranh giữa hai mô hình này Do khả năng

sinh hình ảnh giả mạo với chất lượng cao, GANs thường được sử dụng trong việc tạo

ra ảnh giả Điều này đồng nghĩa với việc cần có các phương pháp phát hiện hiệu quả

dé xác định những hình ảnh được sinh ra bởi GANs

1.1.2.2 Variational Autoencoders (VAEs)

VAEs là một loại Autoencoder có cấu trúc xác suất Khác với Autoencodertruyền thống, VAEs sinh ra hình ảnh mới từ một không gian phân bố mà nó đã học

được VAEs có thé tạo ra hình ảnh giả mạo với đặc trưng và phân bố tương tự như dir

liệu thật, do đó cần phải phát triển các phương pháp phát hiện chính xác cho những

hình ảnh sinh ra từ VA Es.

1.1.2.3 Restricted Boltzmann Machines (RBMs)

RBMs là một dang mô hình Boltzmann Machine được đơn giản hóa, trong đó

mỗi noron chỉ kết nối với các noron ở lớp khác RBMs thường không được sử dụngrộng rãi dé sinh hình ảnh giả mạo như GANs hoặc VAEs, nhưng chúng vẫn có théđược sử dụng trong một số ứng dụng cụ thê và cần sự quan tâm khi phát hiện ảnh giả

1.1.2.4 Transformers trong sinh ảnh

Ban đầu được thiết kế cho bài toán xử lý ngôn ngữ tự nhiên, Transformers

(mạng biến áp) đã được mở rộng đề xử lý hình ảnh, nhờ vào cơ chế self-attention giúp

mô hình hiểu va sinh ảnh với nhiều chi tiết phức tạp Với khả năng sinh hình ảnh phức

tạp, Transformers cần được xem xét kỹ lưỡng trong việc phát hiện ảnh giả, đặc biệt là

khi chúng được sử dụng dé sinh hình ảnh từ mô tả văn bản

1.1.2.5 Diffusion Models

Diffusion Models (mô hình khuếch tan) sinh hình ảnh thông qua việc mô phỏngquá trình ngẫu nhiên lan truyền Thay vì sinh ảnh từ một nhiễu ban đầu, DiffusionModels biến đổi từ một hình ảnh thực tế dần dần thông qua các bước ngẫu nhiên Dokhả năng sinh hình ảnh chất lượng cao và gần giống với hình ảnh thực tế, việc pháthiện ảnh sinh từ Diffusion Models trở nên thách thức và cần sự chú ý

13

Trang 14

1.1.3 Những rủi ro và thách thức của mô hình sinh ảnh

Với sự tiến bộ của các mô hình sinh ảnh, dù mang lại nhiều lợi ích cho nhiềulĩnh vực, cũng đồng thời tạo ra nhiều lo ngại về an toàn và đạo đức Đặc biệt, việc sinh

ra các ảnh giả mạo có thể ảnh hưởng đến tính toàn vẹn và độ tin cậy của thông tin Một

số rủi ro và thách thức:

e Tạo ra ảnh giả mạo: Với khả năng sinh ra hình ảnh chất lượng cao, người dùng

có thé tao ra những hình ảnh giả mạo của những người thật, điều này có thé bị

lợi dụng trong việc tạo ra các tin tức giả, video giả và nhiều loại nội dung khác

e Mất tính xác thực: Khi ảnh giả mạo được tạo ra một cách dễ dàng và chất

lượng, việc phân biệt giữa hình ảnh thực và hình ảnh giả mạo trở nên khó khăn.

Điều này ảnh hưởng đến việc xác minh thông tin, làm mắt đi sự tin tưởng củacông chúng đối với các nguồn thông tin

e Ứng dung trái phép: Các mô hình sinh ảnh có thé bi lợi dụng trong các hoạt

động trái phép như lừa đảo, giả mạo danh tính, hoặc tạo ra nội dung không phù

hợp và phân phát nó mà không cần sự đồng ý của người trong hình

e Nguy cơ đối với quyền riêng tư: Những người không mong muốn hình anh của

mình được sử dụng có thể bị vi phạm quyền riêng tư khi hình ảnh của họ đượctái tạo hoặc biến đổi mà không cần sự đồng ý

e Tác động tới an ninh Quốc gia: Hình ảnh giả mạo có thể được sử dụng dé tạo ra

thông tin giả mạo hoặc tác động tới quan điểm của công chúng, gây ra những

tác động tiêu cực đối với an ninh quốc gia

Trước những nguy cơ và lo ngại này, việc xây dựng và phát triển các mô hình pháthiện ảnh sinh bởi các mô hình sinh trở thành một nhiệm vụ cấp bách Việc có khả năng

xác định và phân biệt giữa ảnh thực và ảnh giả mạo giúp bảo vệ người dùng khỏi

những thông tin sai lệch và vi phạm quyền riêng tư, đồng thời giữ vững niềm tin củangười dân vào nguồn thông tin trực tuyến

1.2 Giới thiệu bài toán phát hiện ảnh sinh

Bài toán phát hiện ảnh sinh bởi các mô hình sinh liên quan đến việc xác địnhliệu một hình anh cụ thé có phải là kết quả từ một mô hình sinh (như GAN, VAE, )hay không Bài toán này yêu cầu thuật toán có khả năng phân biệt giữa hình ảnh thực

tế và hình ảnh được sinh ra từ máy móc, dựa trên các đặc điểm và mẫu không dễ nhận

biết của hình ảnh

Ý nghĩa bài toán:

e Bảo vệ an toàn Thông tin: Ngăn chặn sự lợi dung của ảnh giả mạo trong các

hoạt động trái phép, lừa đảo hoặc tác động tới quan điểm công chúng

14

Trang 15

e© Giúp mọi người và các tô chức có thê tin tưởng vao nguôn thông tin họ tiép

xúc, nhờ khả năng lọc và xác minh hình ảnh.

M6 tả bài toán:

e Dâu vào: Hình anh cân được xác minh.

e Đầu ra: Kết quả xác định liệu hình ảnh đó là thực sự (chụp từ thực tế) hoặc

được sinh ra từ một mô hình trí tuệ nhân tạo.

Sự phổ biến của các mô hình sinh và khả năng tao ra hình anh giả mao chất lượng

cao đã tạo ra một thách thức lớn trong việc phân biệt ảnh thực và ảnh giả Đề giải

quyết bài toán này, nhiều phương pháp đã được đề xuất và nghiên cứu Trong phần

tiếp theo, đồ án sẽ khám pha và đánh giá những phương pháp phát hiện ảnh sinh phổ

biến, từ đó hiểu rõ hơn về cơ chế hoạt động và hiệu quả của chúng

1.3 Các phương pháp tiếp cận bài toán phát hiện ảnh sinh bởi mô

hình trí tuệ nhân tạo

Với bài toán đặt ra có 4 phương pháp tiếp cận chính, đó là phương pháp dựatrên dữ liệu, phương pháp dựa trên quy tắc, phương pháp dựa trên đặc trung trongmiền không gian và phương pháp dựa trên đặc trưng trong miền tần số

1.3.1.Phương pháp dựa trên dữ liệu

Phương pháp này được trình bày trong bài báo [2] sử dụng Mạng Noron Tích

chập (CNN) - một loại mô hình máy học phổ biến dành cho xử lý hình ảnh Mang

Nơron Tích chập (CNN) là một biến thé của mạng nơron sâu, đặc biệt phù hợp cho xử

ly dữ liệu hình ảnh.

e Tích chập (Convolutional Layer): Ở lớp này, một bộ lọc hoặc nhiều bộ lọc sẽ

"trượt" qua hình ảnh đầu vào dé tạo ra một bản đồ đặc trưng Bản đồ đặc trưng

này giúp mô hình tập trung vào những chỉ tiết quan trọng của hình ảnh

e Lớp gộp (Pooling Layer): Lớp này giảm kích thước của bản đồ đặc trưng, giữ

lại thông tin quan trọng nhất và loại bỏ thông tin ít quan trọng Phương phápgop pho biến nhất là "max pooling", chi giữ lại giá trị lớn nhất trong một vùng

xác định.

e Lớp kết nỗi day đủ (Fully Connected Layer): Sau khi thông qua một số lớp tích

chập và gộp, hình ảnh sẽ được chuyên thành một vector một chiều và được đưa

qua một hoặc nhiều lớp kết nối đầy đủ, giống như một mạng noron truyền

thống

CNNs tự động học cách nhận biết các đặc trưng từ dữ liệu đầu vào mà không cần biếttrước Vì vậy, chúng rất phù hợp đề phát hiện hình ảnh giả từ các mô hình GANs, vìchúng có thể tự học các đặc trưng độc đáo mà mô hình GANs tạo ra

15

Trang 16

FEATURE LEARNING CLASSIFICATION

Hình 2: Vi du về một mô hình CNN dé phân loại hình ảnh

Phương pháp này sử dụng một mô hình này được huấn luyện bằng cách sử dụng hìnhảnh thật và hình ảnh giả dé nó có thể học biết cách phân biệt giữa chúng Khi một hình

ảnh mới được đưa vào, mô hình sẽ xác định xem nó là thật hay giả dựa trên những gì

nó đã học Một công trình quan trọng trong lĩnh vực này đã sử dụng mô hình

ResNet-50, được tinh chỉnh dựa trên một bộ dữ liệu gồm 720k hình ảnh thật và giả do

ProGAN tạo ra ResNet, viết tắt của "Residual Networks", là một loại kiến trúc CNN

được thiết kế để giải quyết van đề "vanishing gradient" khi huấn luyện mạng noron

sâu "50" trong ResNet-50 chỉ ra rằng mô hình có 50 lớp Mỗi lớp trong ResNet chứamột "kết nối dư thừa", giúp mô hình "bỏ qua" một hoặc nhiều lớp khi không cần thiết,giúp việc huấn luyện mô hình trở nên ôn định hơn ProGAN, viết tắt của "ProgressiveGrowing of GANs", là một loại kiến trac GAN được thiết kế dé tăng cường chất lượng

và độ phân giải của hình ảnh được sinh ra ProGAN bắt đầu bằng việc tạo ra hình ảnh

ở độ phân giải thấp, sau đó tăng dần độ phân giải qua nhiều bước, giúp việc huấn

luyện GAN trở nên ồn định hơn và tạo ra hình ảnh chất lượng cao hơn

Tuy nhiên, dù mô hình này đạt được độ chính xác ấn tượng, nó vẫn cho thấykhả năng tổng quát hóa không tốt đối với các mô hình GANs khác nhau cũng như hìnhảnh sinh bởi các mô hình sinh khác như VAE, Stable Diffusion (mô hình khuếch tán

6n định),

1.3.2 Phương pháp dựa trên quy tắc

Phương pháp dựa trên quy tắc là một kỹ thuật tiếp cận vấn đề dựa trên việc thiếtlập các quy tắc cụ thé dé hệ thống có thé tự động thực hiện quá trình phân loại Trong

lĩnh vực phân loại ảnh thật và anh tông hợp, các quy tắc này thường dựa trên các đặctrưng kỹ thuật số được phát hiện trong ảnh

Các đặc trưng kỹ thuật số, hay còn gọi là "dau vân tay" của ảnh, được sử dung dé phân

biệt ảnh that với ảnh tông hợp Trong bối cảnh này, một "dau vân tay" không phải là

dau vân tay thật sự của con người mà là một loại đặc trưng duy nhất mà máy phát hiện

16

Trang 17

ra, giống như một loại dau hiệu đặc biệt mà mỗi phần mềm tao anh tong hợp dé lại trên

sản phâm của mình.

Một số nghiên cứu về bài toán nay đã đề xuất một phương pháp dé phát hiện những

"dau vân tay" này bằng cách sử dụng các bộ lọc loại bỏ nhiễu và tính toán trung bìnhcủa phan dư (residual averaging) Dưới đây là giải thích chi tiết về các khái niệm này:

e Bộ lọc loại bỏ nhiễu (Denoising Filters): Day là các công cụ được thiết kế dé

loại bỏ nhiễu hoặc các tín hiệu không mong muốn khỏi một ảnh, giúp cải thiện

chất lượng của ảnh Trong trường hợp nay, chúng được sử dụng dé làm nỗi bật

các mẫu nhiễu đặc trưng cho quá trình sinh ảnh tông hợp

e Trung bình của phan du (Residual Averaging): Phần dư ở đây ám chi sự chênh

lệch giữa ảnh ban đầu và ảnh sau khi đã được xử lý qua bộ lọc Việc tính toántrung bình của những phan dư này giúp phát hiện ra các mô hình lặp lại - haynói cách khác, là dấu vân tay của ảnh tổng hợp

Một trong những thách thức của phương pháp này là nó đòi hỏi phải có sự giám

sát thủ công và những giả định được xây dựng dựa trên kiến thức về mối quan hệ giữa

các mô hình sinh ảnh tổng hợp khác nhau Sự giám sát thủ công ở đây bao gồm việc

điều chỉnh và thiết lập các bộ lọc dựa trên kinh nghiệm và kiến thức chuyên môn, cũng

như việc phân tích và diễn giải kết quả Mặc dù phương pháp này có khả năng cung

cấp những hiểu biết sâu sắc về nguồn gốc của các ảnh tông hợp, nó vẫn tồn tại hạn chế

lớn trong việc ứng dụng rộng rãi do yêu cầu sự tham gia của con người trong quá trình

phân tích và thiết lập quy tắc Điều này không chỉ tốn kém về mặt thời gian mà cònyêu cầu một mức độ chuyên môn nhất định, hạn chế khả năng tự động hóa toàn bộ quy

trình.

17

Trang 18

1.3.3 Phương pháp dựa trên đặc trưng trong miền không gian

Trong miền không gian, phân tích ảnh giả mạo thường tập trung vào việc nhận

diện nguồn gốc của ảnh Các mô hình sinh, giống như máy ảnh thực, dé lại "dau vân

tay" duy nhất trên mỗi ảnh được tạo ra Dấu vân tay này phụ thuộc không chỉ vào môhình mà còn cả dữ liệu huấn luyện, giúp xác định mô hình đã tạo ra ảnh Một số môhình nghiên cứu như Marra et al (2019) [11] và Yu et al (2019) [12] đã nghiên cứu vềdau vân tay này, chỉ ra rằng mỗi mô hình GAN để lại một loại "đấu vân tay nhân tao"khác nhau trên ảnh Dựa trên ý tưởng này, có thé phát trién các phương pháp dé phân

biệt ảnh thật và ảnh do GAN tạo ra thông qua việc so sánh và phân tích các đặc trưng

này.

1.3.4 Phương pháp dựa trên đặc trưng trong miền tan số

Trong miền tần số, ảnh do GAN hoặc một số mô hình khác tạo ra thường chứanhững dấu hiệu nhận diện riêng biệt Các phương pháp phân tích trong miền Fourier

được sử dụng để phát hiện những dấu hiệu này Như được đề xuất trong hai bài báo

Zhang et al (2019) [13] và Frank et al (2020) [14] đã nghiên cứu cách thức các đỉnh

tan số Những đỉnh tần số này là kết quả trực tiếp của quá trình "upsampling" (tăngmẫu) được sử dụng trong kiến trúc của các mạng GAN Upsampling là một bước quan

trọng trong quá trình sinh ảnh của GAN, giúp tạo ra hình ảnh có độ phân giải cao từ

một vector nhiễu ngẫu nhiên Qua phân tích, họ đã chỉ ra răng những đỉnh tần số này

có thé được sử dụng lam dấu hiệu dé phân biệt giữa ảnh thực (chụp từ camera) và ảnh

do GAN tạo ra.

18

Trang 19

1.4 Kết luận chương

Chương này đã cung cấp một cái nhìn tổng quan về bài toán phát hiện ảnh sinh

và các phương pháp tiếp cận khác nhau Em đã giới thiệu khái niệm của ảnh sinh, từviệc chúng được tạo ra như thế nào, bởi những công nghệ nảo, và với mục đích gì Sựtiến triển vượt bậc của các mô hình GAN, VAEs, Diffusion Model, và các phươngpháp sinh ảnh khác đang mở ra cơ hội cũng như thách thức đối với cộng đồng nghiên

cứu và ứng dụng thực tiễn.

Rủi ro và thách thức liên quan đến việc sử dụng ảnh giả mạo đã được làm sáng

tỏ, nhân mạnh tầm quan trọng của việc phát triển những công cụ phân tích chính xác

va đáng tin cậy dé xác định nguồn gốc của anh Điều này không chỉ quan trọng đối vớibảo mật thông tin mà còn có tầm ảnh hưởng đến việc bảo vệ quyền riêng tư cá nhân và

ngăn chặn thông tin sai lệch lan truyền trong xã hội.

Các phương pháp tiếp cận bài toán đã được giới thiệu, từ những kỹ thuật dựatrên dữ liệu đến phân tích kỹ thuật số trong miền không gian và tần số Sự đa dạng củacác phương pháp này phản ánh độ phức tạp va đa chiều của van đề, cũng như cần thiếtcho việc tiếp tục nghiên cứu và phát triển

Ở chương tiếp theo đồ án sẽ đi sâu vào việc đề xuất một phương pháp mới dé

tiếp cận bài toán này Phương pháp đề xuất sẽ được xây dựng trên cơ sở lý thuyết và

kinh nghiệm thu được từ Chương 1, với hy vọng cải thiện hiệu quả phân loại và dap

ứng nhu cau thực tế trong việc phân biệt ảnh thực và ảnh giả Đồ án xem xét các ưu và

nhược điểm của phương pháp đề xuất, cũng như thách thức và tiềm năng ứng dụng của

nó trong thực tế

19

Trang 20

CHƯƠNG 2: PHƯƠNG PHÁP DE XUẤT

Chương 2 sẽ giới thiệu về phương pháp đề xuất cũng như mô tả chỉ tiết về cau trúc mô

hình và cụ thể các thực hiện bài toán Chương 2 được trình bày thông qua các mục sau:

Trang 21

Đô án tôt nghiệp Đại học

2.1 Đề xuất phương pháp

Trong chương này, em xin trình bày một phương pháp mới được đề xuất nhằmphân loại ảnh thật và ảnh tổng hợp Phương pháp này dựa trên ba giai đoạn chính: tríchxuất nhiễu thặng dư, trích xuất dấu vân tay của ảnh, và phân loại ảnh dựa trên nhữngdau vân tay này Dưới đây là bản tóm tắt chỉ tiết về mỗi giai đoạn:

Bước I: Trích Xuất Nhiễu Thặng Dư

Ở bước đầu tiên, mục tiêu là trích xuất ra những thông tin nhiễu không được

biểu diễn trong ảnh thật Sử dụng một mô hình Autoencoder (bộ mã hóa tự động) được

huấn luyện trên một bộ dữ liệu ảnh thật, phương pháp phát hiện ra nhiễu thặng dưthông qua việc so sánh giữa ảnh gốc và ảnh tái tạo từ mô hình Nhiễu thặng dư nàymang thông tin quan trong có thé sử dụng dé phân biệt giữa ảnh tổng hợp và ảnh thật.Bưóc 2: Trích Xuất Dấu Vân Tay Ảnh

Trích xuất dấu vân tay ảnh bao gồm việc sử dụng bộ lọc giảm nhiễu dé thu thập

nhiễu thang dư Sau đó, áp dụng biến đổi Fourier lên nhiễu thang dư dé chuyên anh từ

miền không gian sang miền tần số và phân tích phô năng lượng của nhiễu thang dư

Qua phân tích này, xác định các đặc trưng phản ánh dấu vân tay của quá trình tạo ảnh,

như đỉnh đặc biệt trong phổ năng lượng hoặc mau lặp lại, dé xác định nguồn gốc của

ảnh và liệu nó có phải là ảnh tổng hợp

Bước 3: Phân Loại Anh

Cuối cùng, dựa trên những dấu vân tay đã được trích xuất, một mô hình phânloại được thiết kế nhằm xác định liệu ảnh đầu vào là thật hay tổng hợp Mô hình này sẽđược huấn luyện dé có kha năng phân biệt giữa anh that và anh tổng hợp dựa trên đặctrưng nhiễu thặng dư và dấu vân tay đã trích xuất

Trich xuat | Gnigy thang, THchxuất 2 Phan loai

>| hiểu hãng ae a TH van ty "au van taydu Ñ 4———— | ¬_

Hình 4: Luong hoạt động của phương pháp dé xuất

21

Trang 22

Mỗi bước trong phương pháp đề xuất đều có vai trò quan trọng trong việc đạtđược mục tiêu cuối cùng, đó là việc phân loại chính xác và đáng tin cậy Ở các mụctiếp theo, đồ án sẽ đi vào chi tiết từng bước và mô tả cách thức triển khai, cũng như

cách thức các công nghệ và kỹ thuật liên quan được áp dụng trong việc giải quyết bài

toán này.

Trong đồ án này, em xin giới thiệu một quy trình mới trong việc phân biệt ảnh thật

và ảnh tổng hợp thông qua bốn ý chính sau:

e Phát triển phương pháp phát hiện mới: em xây dựng một hệ thống phân loại sử

dụng mạng tự mã hóa dé nam bắt và tái tạo đặc trưng của ảnh thực, giúp lộ ranhững sai lệch mà ảnh tổng hợp chứa

e_ Trích xuất dấu vân tay ảnh: quy trình đề xuất bao gồm việc tinh lọc nhiễu thang

dư và sử dụng biến đổi Fourier dé tăng độ rõ nét của dấu vân tay anh, từ đó cải

thiện khả năng phát hiện ảnh tong hop

e Phát triển mô hình phân loại tổng quát: mô hình được thiết kế để không chỉ

nhận diện các ảnh từ mô hình tổng hợp đã biết mà còn có khả năng phân loại

hiệu quả đối với những mô hình mới, chưa từng được học trước đó

e Thực nghiệm và xác thực: trong phần này em thực hiện các thí nghiệm dé xác

nhận hiệu quả của quy trình và mô hình đã phát triển, qua đó chứng minh tính

khả thi và độ chính xác trong việc phân loại ảnh.

Phương pháp này không chỉ nâng cao khả năng phát hiện ảnh tổng hợp mà còn mởrộng phạm vi ứng dụng dé nhận diện các dạng ảnh mới, góp phần vào công cuộc đảmbảo thông tin ảnh chính xác và an toàn trong kỷ nguyên số

2.2 Công thức cho bài toán

Trong phần nay, em sẽ mô tả chi tiết cho bài toán phân loại ảnh thật bang viéc

công thức hóa bai toán.

Xác Định Nhiéu Thang Dư (Residual Noise Extraction)

Mục tiêu: Định lượng nhiễu thing dư có trong ảnh dé phục vụ cho việc phân tích và

phân loại.

Quy trình:

e Mô Hình AutoencoderA: Được xây dựng dựa trên mạng nơ-ron sâu với mục

đích nén và tái tạo ảnh.

e Encoder: Biến đôi anh I thành một biéu diễn nénz thông qua hàm mã hóa f enc.

e Decoder: Tái tạo ảnh từ z thông qua hàm giải mã f„., tạo ra ảnh tái tạo]

e Tính Toán Nhiễu Thang Dư R{I): Nhiễu thang duR(I) được tính toán như sau:

22

Trang 23

R[TI=1I—T[1]

T= P sel ene H\[2]

Trích Xuất Dau Vân Tay Anh (Fingerprint Extraction)

Mục tiêu: Phân tích nhiễu thang du dé trích xuất đặc trưng có thé phân biệt giữa anhthật và ảnh tong hợp

Quy trình:

e Biến Đối Fourier: Biến đổi RIT] sang miền tần số dé phân tích đặc trưng:

D[TI=F|RITÌ[S]

Phân Loại Anh (Image Classification)

Mục tiêu: Sử dung các đặc trưng đã trích xuất để xác định xem ảnh là thật hay tổng

hợp.

Quy trình:

e Xây Dựng Mạng Phân Loại C: Thiết lập mạng CNN phân loại với kha năng

nhận biết đặc trưng DÍT] từ dau vân tay ảnh

Classification=C| D|I}|[4]

e Đầu Ra Phân Loại: Sử dụng C dé phan loai anh:

e C(I) cho ra kết qua 0 (ảnh thật) hoặc 1 (ảnh tổng hợp).

Thuật toán

I - tập hợp các anh cần phân loại

A - Autoencoder với ResNet50 làm backbone dé tái tạo ảnh,

CN N„„;„- mạng CNN dé lọc nhiễu thang dư và trích xuất dau vân tay,

C- mạng CNN phân loại để xác định tính xác thực của ảnh.

R- tập hợp kết quả phân loại của các ảnh.

1 Initialize C to an empty list

3 for each I in Ido

3 I — A(I| => Tái tao anh bang Autoencoder

23

Trang 24

Đô án tôt nghiệp Đại học

4 R{I) —I-I => Tính nhiễu thang dư

3 DỈT) — FourierTransform|(R(I))|=>Ap dụng biến đổi Fourler

q C|I) — C|D[TÌ| => Phân loại ảnh dựa trên đặc trưng tần

2.3.1.1 Giải thích về Autoencoder và Kiến trúc ResNet50

Trong mô hình Autoencoder được sử dụng dé xác định nhiễu thặng dư, có haithành phần chính: Encoder và Decoder Dưới đây là chi tiết về mỗi phần và cách

chúng tương tác với nhau.

om aaOriginal Compressed Reconstructed

nput representation input

Hình 5: Hình ảnh mô tả quá trình Autoencoder (Nguồn: [6])

Encoder trong một Autoencoder có nhiệm vụ chính là học cách nén dữ liệu dau vào vào một dạng biéu diễn nén, thường là một vector có kích thước nhỏ hơn so với dữ

liệu gốc Điều này được thực hiện thông qua một chuỗi các phép biến đồi, thường là

các lớp nơ-ron với các hàm kích hoạt phi tuyến

24

Trang 25

- f nc là hàm mã hóa mà encoder học dé biến đôi đầu vào thành biểu diễn nén.

Ø,„ là tập hợp các tham sé (trong số và độ lệch) của encoder, được tối ưu hóa trong

quá trình huấn luyện

Công thức trên cho thay encoder nhận đầu vào I và chuyển đổi nó thành biểu diễn nén

z thông qua các tham sô Ø„„ đã học Mục tiêu là giữ lại càng nhiêu thông tin có ích từ đầu vào trong biểu diễn nén.

Decoder có nhiệm vụ ngược lại với Encoder Nó cô găng tái tạo lại dữ liệu gôc

từ biểu diễn nén mà không cần thông tin phụ trợ nào khác.

Tái tao dữ liệu (Decoded Data):

Trong đó:

- Ì là dữ liệu đã được tái tạo

- f„ là hàm giải mã ma decoder học dé tái tạo dữ liệu từ biểu diễn nén

- Ie là tập hợp các tham số của decoder.

Decoder nhận biéu diễn nén z và cô gắng tái tao lại dữ liệu gốc I dựa trên các tham số9„„ đã học Dữ liệu tái tạo?có thể không hoàn hảo, nhưng mục tiêu là làm cho nó gần

với dit liệu gốc càng nhiều càng tốt

Hàm Mat Mat (Loss Function) đóng vai trò quan trọng trong quá trình huấnluyện Autoencoder bằng cách đo lường sự khác biệt giữa dữ liệu gốc và dữ liệu được

Trang 26

- n là số lượng mẫu dữ liệu

-I val, lần lượt là giá trị thực và giá trị dự đoán của mau dữ liệu thứ i.

Mục tiêu của quá trình huấn luyện là điều chỉnh các tham số 9 và Pee sao cho hàmmất mát L được giảm thiểu, tức là dữ liệu được tái tạo I sẽ gần với dữ liệu gốc I nhất

có thê

Kết quả của quá trình này là một mô hình có khả năng hiểu và tái tạo dit liệu, và từ đó

có thê được sử dụng dé phát hiện nhiễu thang du trong dữ liệu - điều quan trọng cho

việc phân biệt ảnh thật và tổng hợp

ResNet50 là một mô hình mạng no-ron sâu được thiết kế dé giải quyết van dé

"biến mat gradient" bằng cách sử dụng các kết nối tắt (shortcut connections) Các kết

nối này cho phép gradient được truyền trực tiếp từ các lớp sau đến các lớp trước, giúp

việc huân luyện mạng hiệu quả hơn.

ResNet50 Model Architecture

Input Output

—=>

Conv Block ID Block Conv Block ID Block Conv Block ID Block Conv Block ID Block Avg Pool Flattening FC

Zero Padding CONV

L T~ JL, \ Ju JUD

Stage 1 Stage 2 Stage 3 Stage 4 Stage 5

Hình 6: Kiến trúc mang Resnet50

ResNet50 bao gồm các "Residual Blocks", mỗi block gồm:

e Identity Block: Kết nối tắt cộng trực tiếp đầu vào với đầu ra của một hoặc nhiều

lớp.

Xi¡=f Xi, W,+x,[8]

Trong đó x; là đầu vào của block, f (xX), W,) là đầu ra của một chuỗi các

lớp có trọng số W), và x,.; là đầu ra của block

e Convolutional Block: Tương tự như Identity Block nhưng có thêm một lớp

convolution trong kết nối tắt dé thay đổi kích thước đầu vào cho phù hợp vớiđầu ra

2.3.1.2 Ứng Dụng Autoencoder với ResNet50 vào Việc Xác Định Nhiễu Thang Dư

Dé tận dụng kiên trúc mạnh mẽ của ResNet50, em xin đê xuât cải biên nó thành backbone cho cả encoder và decoder trong mạng Autoencoder:

Encoder:

26

Tiêu đề	Phương Pháp Nhận Dạng Ảnh Giả Mạo Sinh Bởi Trí Tuệ Nhân Tạo
Tác giả	Nguyễn Phương Anh
Người hướng dẫn	TS. Trần Tiến Công
Trường học	Học viện Công nghệ Bưu chính Viễn thông
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2019-2024
Thành phố	Hà Nội

Định dạng
Số trang	53
Dung lượng	14,39 MB

Phương pháp nhận dạng ảnh giả mạo sinh bởi trí tuệ nhân tạo

Xác định nhiễu thang dự

Trích xuất dẫu vân tay ảnh