Các độ đo được sử dụng

Một phần của tài liệu Khóa luận tốt nghiệp: Ứng dụng Denoising Probabilistic Diffusion Model cho bài toán Image Inpainting (Trang 68 - 74)

THỰC NGHIỆM VÀ ĐÁNH GIÁ

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.3 Các độ đo được sử dụng

Với bài toán image inpainting nói riêng và bài toán sinh ảnh nói chung việc

chọn phương pháp đánh giá luôn là một thách thức không hề nhỏ với giới nghiên cứu. Làm sao để biết bức ảnh được sinh ra bởi mô hình A đẹp hơn mô hình B? Điều này rất khó nói bởi đẹp hay xấu đều tùy thuộc vào cảm nhận của mỗi cá nhân xem xét, do đó không có phương pháp nào là tuyệt đối đúng cả. Tuy vậy, chúng ta vẫn cần có những phương pháp đánh giá, so sánh. Một số phương pháp đánh giá phổ biến cho bài toán sinh ảnh có thể kể đến như: Inception Score (IS),

Frechet Inception Distance (FID), Image Quality Measures (SSIM, PSNR and

Sharpness Difference), AM Score, Learned Perceptual Image Patch Similarity

(LPIPS),... Tuy nhiên ở bài này chúng tôi chi sử dụng bốn phương pháp: IS, FID, LPIPS và cuối cùng là sử dụng đánh giá của con người.

53

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.3.1 Inception Score (IS)

Inception Score (IS) được giới thiệu bởi Tim Salimans vào năm 2016 và trở

nên vô cùng phổ biến sau đó, IS nhận một danh sách các ảnh và trả về một số thực, kết quả trả về càng cao thì ảnh được sinh ra có chất lượng càng tốt và đa dạng. IS lấy tên từ mạng phân lớp Inception bở Google. IS được tính bằng cách

sử dụng mô hình huấn luyện trước Inception trên tập dữ liệu ImageNet.

Điểm quan trọng của Inception đó là khi nhận một bức ảnh đầu vào, kết quả trả

về sẽ là xác xuất bức ảnh đó thuộc lớp nào. Giả sử ta đưa ảnh một con chó vào mạng thì xác xuất bức ảnh đó thuộc lớp "chó" sẽ cao hơn những lớp còn lại.

Ne Inception ` | [

0

°

uy 1E Ko}

dey ueude|3

Hình 4.2: Mạng inception dự đoán ảnh con chó (Nguồn: Các chỉ số đánh giá được sử

dụng cho bài toán Image Generation: IS, FID, PSNR, SSIM....).

Tuy nhiên những ảnh không thuộc lớp nào sẽ có xác xuất tại các lớp gần bằng

nhau.

Từ đặc điểm trên ta thấy, khi cho ảnh sinh ra đi qua mạng Inception nếu ảnh rõ, tốt thì mạng sẽ cho xác xuất thuộc một lớp cao, do đó chúng ta có thể đánh giá được chất lượng ảnh thông qua Inception. Ngoài ra ta có thể cộng theo từng lớp

các giá trị xác suât của tât cả các ảnh sinh ra. Nêu ảnh sinh ra đa dạng dữ liệu

!https://viblo.asia/p/cac-chi-so-danh-gia-duoc-su-dung-cho-bai-toan-image-generation-is-fid-psnr-

ssim-3POIPJXPKox

54

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

mm nan

© Fr mM OO DU

> 5 9 đ ử

o T* oF * @

| =.

Đ

=

Hình 4.3: Mạng inception dự đoán ảnh giá sách (Nguồn: Các chỉ số đánh giá được sử

dụng cho bài toán Image Generation: IS, FID, PSNR, SSIM....).

thì tổng xác suất sẽ dạng phân phối đều, ngược lại nêu ảnh sinh ra chỉ ở 1 hay 2 lớp thì tổng xác suất sẽ chỉ cao hơn ở 1 hay 2 lớp. Vì vậy nếu tập ảnh đầu vào qua mạng Inception cho tổng xác xuất của toàn bộ tập ảnh có dạng là phân phối đều thì tập ảnh được sinh ra này có sự đa dạng. Ta sẽ dùng Kullback-Leibler

Similar labels sum to give focussed distribution Different labels sum to give uniform distribution

ETơ1

————> — ———*

sum a d sum

co

Hình 4.4: Đánh giá độ da dạng của anh sinh ra (Nguồn: Các chỉ số đánh giá được sử

dụng cho bài toán Image Generation: IS, FID, PSNR, SSIM....!).

divergence (KLD) để thực hiện hóa việc đánh giá. Gọi giá tri của 1 ảnh qua mạng

Inception là phân phối label p(y|x) và giá trị đã normalize tổng label distribution của tat cả các ảnh là phân phối marginal p(y) . Trong đó y 1a label hay các lớp

'https://viblo.asia/p/cac-chi-so-danh-gia-duoc-su-dung-cho-bai-toan-image-generation-is-fid-psnr-

ssim-3POIPJXPKox

55

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

tương ứng, x là ảnh đầu vào.

1.1 1.0

0.9

0.37

P(y|x) 0.33

0.3

Phân phối

label =

Y.

NR Phân

anne phôi

Marginal

0.1 0.1

Hình 4.5: Phân phối label và phân phối marginal.

Chất lượng ảnh sinh ra tốt và đa dạng khi phân phối label cao ở một lớp, thấp

ở các lớp khác và phân phối marginal sẽ có dang phân phối đều, điều này đồng nghĩ với việc giá trị KL cao. Ta có thể tính giá trị KL cho mỗi ảnh sinh ra rồi lấy

trung bình lại làm giá tri IS cho model.

15(G) = exp(E¿~p„)DkL(p(3)||p(xÌy)))

Mốt số hạn chế:

* Bởi vì sử dụng mô hình huấn luyện trước Inception trên tập dữ liệu Ima-

geNet, do đó nếu ảnh sinh ra không thuộc các lớp có trong ImageNet thì

sẽ làm cho KL có giá trị thấp

* Nếu chỉ sinh được một ảnh mỗi lớp thì chỉ số KL vẫn có thể cao. Tuy

nhiên như vậy sẽ chỉ đa dạng ảnh trong một lớp chứ không phải đa dạng

ảnh trong mỗi lớp.

° Nếu mô hình sinh anh quá khợp với tập dữ liệu cũng sẽ cho KL cao.

56

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.3.2 Frechet Inception Distance (FID)

Cách tinh FID cũng phụ thuộc vào mang Inception, tuy nhiên sẽ giữ đến lớp AvgPool. Như vậy mỗi ảnh qua mạng sẽ cho ra vector kích thước 2048 * 1 chứa

các đặc trưng của ảnh. Ta sẽ lấy tất cả ảnh trong tập dữ liệu, mỗi ảnh cho qua Inception network sẽ được 1 vector 2048 * 1, ta sẽ tìm một phân phối chuẩn nhiều chiều với trung bình = 1, và phương sai = Y„. Để anh sinh ra giống với tập dữ liệu ta mong muốn hai phân phối chuẩn nhiều chiều này càng khớp nhau càng tốt hay cũng có nghĩ trung bình và phương sai càng gần nhau. Vì vậy ta có

công thức tính FID:

FID = ||ux— Hạ||lŠ + Tr(¿ + Eg — 2(.5„)?)1

Trong đó với ma trận A vuông có kích thước n*n, ta có:

n

Tr(A) = Y aii

i=l

Khi hai phân phối chuẩn nhiều chiều càng giống nhau sé cho ra điểm FID càng thấp đồng nghĩa với việc ảnh sinh ra càng giống với tập dữ liệu ban đầu. Khác với IS chỉ đánh giá phân bố dữ liệu được sinh ra mà FID còn đánh giá với cả tập

dữ liệu thực tế được đưa vào huấn luyện.

4.3.3. Learned Perceptual Image Patch Similarity (LPIPS)

Learned Perceptual Image Patch Similarity (LPIPS) 1a thang do khoang cach

để do lường sự khác biệt cảm nhận được giữa hai patch hình anh, đã được giới

thiệu trong bài báo "Perceptual Losses for Real-Time Style Transfer and Super-

Resolution" của Johnson vào năm 2016. LPIPS đo khoảng cách giữa hai patch

ảnh bằng cách xem xét khoảng cách giữa các hoạt động của các neuron cao cấp trong mạng neuron đã được huấn luyện trước khi được biểu diễn với hai hình

57

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

ảnh. Các hoạt động của các neuron này được biết đến là tương đồng với sự cảm

nhận của con người với hình ảnh. Chính vì lý do này LPIPS thường được sử

dụng để đo sự đa dạng của tập ảnh sinh ra bằng cách so sánh sự khác nhau về

nhận thức của các bức ảnh. LPIPS càng cao thì độ đa dạng được biểu diễn trong

tập ảnh sinh ra càng lớn.

4.3.4 Sử dụng đánh giá của con người

Như chúng tôi đã dé cập trong mục trước, các phương pháp sinh ảnh hiện nay chưa có thang đo nào có thể đánh giá chính xác ảnh nào tốt hơn hay đẹp hơn ảnh nào, do đó chúng tôi sử dụng thêm thang đo con người để giá kết quả. Chúng tôi trình bày các kết quả thành một hàng với vị trí đầu tiên là bức ảnh ban

đầu đã được gắn mask, ba vị trí còn lại sẽ chứa kết quả của 3 mô hình: LAMA,

DSI và DDPM. Người khảo sát sẽ phải trả lời câu hỏi: "Đâu là bức hình ban

cảm thấy chân thực nhất?". Dé tránh người làm khảo sát sẽ thiên vị một phương pháp chúng tôi đã xáo trộn vị trí kết quả của các mô hình một cách ngẫu nhiên.

Quá trình khảo sát được thực hiện trên 3 bộ dữ liệu: CelebA HQ, Paris Street

View và Mini-Places. Với mỗi bộ dữ liệu chúng tôi đánh giá trên hai loại mask:

medium mask và thin mask. Việc khảo sát được thực hiện trên 50 bức ảnh được

chọn ngẫu nhiên từ từng tập test cho từng mask chia làm 2 lần, mỗi lần 25 bức hình sẽ được 5 người thực hiện khảo sát. Kết quả của cuộc khảo sát sẽ chỉ ra phần trăm của từng bộ dữ liệu trên từng loại mask tương ứng với từng phương

pháp được đánh giá.

58

4. THỰC NGHIỆM VÀ ĐÁNH GIÁ

00093 *

Ánh 3

Ánh 4

Hình 4.6: Một ảnh trong phiếu khảo sát

Một phần của tài liệu Khóa luận tốt nghiệp: Ứng dụng Denoising Probabilistic Diffusion Model cho bài toán Image Inpainting (Trang 68 - 74)

Tải bản đầy đủ (PDF)

(94 trang)