THỰC NGHIỆM VÀ ĐÁNH GIÁ
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.4 Phân tích định lượng
4.4.1 Độ chân thật
Trong bài phân tích định lượng này, để đánh giá độ chân thật của ảnh sinh,
chúng tôi sử dụng 3 thang đo FID, IS và khảo sát với người thật trên 3 tập dữ
liệu và 2 loại mask khác nhau. Kết quả khảo sát được thể hiện ở bảng 4.2.
59
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Thin mask CelebA HQ Paris StreetView Mini-Places
Phuong phap FID, —ISt Votes (%) FID) ISt Votes FID) IS† Votes (%) LAMA 9.869 3.263+0.198 34 17591 4.745+0.477 28 20.013 15.621+0.487 38
DSI 12.988 3.272+0.160 14 19.752 4.519+0.238 31.2 29.741 14.331+0.792 24.8
DDPM 8.928 3.347+0.163 52 13.248 4.827+0.288 40.8 20.616 15.143+0.612 37.2
Medium mask CelebA HQ Paris StreetView Mini-Places
Phuong phap FID IS Votes FID IS Votes FID IS Votes
LAMA 11.678 3.263+0.223 36.8 19937 4.186+0.193 38.4 21.958 14.71241.622 39.2
DSI 15577 3.172+0.359 23.2 22.712 4.604+0.538 156 32.132 12.53341.051 27.2
DDPM 9678 3.229+0.236 40 15432 4.354+0.232 46 25.558 14.467+1.253 33.6
Bang 4.2: Kết quả đánh giá chất lượng ảnh trên 3 thang do FID, IS va kết quả khảo sát trên 3 tập dữ liệu CelebA HQ, Paris StreetView và Mini-Places Với 2 cấu hình mask
Thin mask (ở trên) và Medium mask (ở dưới).
Một xu hướng chung có thể nhận thấy trong kết quả trên đó là cả 3 phương pháp đều thể cho ra kết quả có độ chân thật cao hơn với vung mask nhỏ, và giảm khi các vùng mask lớn hơn. Xu hướng này còn thể hiện đối với độ phức
tạp của tập dữ liệu, CelebA HQ được cho là có độ phức tap ít hơn so với Paris
StreetView và Mini-Places, điểm số FID và IS đã chỉ ra đặc trưng này.
LAMA và DDPM cho kết quả tốt trong cả 3 tập dữ liệu, trong khi đó DSI cho kết quả tệ hơn, điều này cũng có thể thấy trong kết quả bài phân tích định tính ở phần sau. Tuy nhiên, ở bài đánh giá sử dụng tập dữ liệu Mini-Places và thiết đặt mask medium, LAMA cho kết quả vượt trội hẳn 2 phương pháp còn lại trong thang đo FID. Chúng tôi cho rằng, việc sử dụng tập dữ liệu lớn và đa dạng như Mini-Places (247000 ảnh) cùng với vùng mask lớn khiến DDPM sinh
ra các ảnh rất độc đáo và khác nhiều so với ảnh gốc; điều đó ít nhiều ảnh hưởng đến điểm số đầu ra mục đánh giá này.
Kết quả đánh giá từ việc khảo sát các tình nguyện viên cho các kết quả ủng
hộ lập luận bên trên, khi đa số các phiếu bầu cho rằng ảnh sinh từ DDPM đạt
tính chân thực cao hơn các phương pháp còn lại.
60
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Hình 4.7: Một số ảnh được sinh ra của các phương pháp dùng trong đánh giá
4.4.2 Độ đa dạng
Để đánh giá độ đa dạng ảnh sinh chúng tôi sử đụng độ đo LPIPS, thang đo này cho biết ảnh sinh ra của phương pháp càng đa dạng khi điểm càng cao. Cụ thể, chúng tôi tính khoảng cách LPIPS bằng cách so sánh ảnh sinh từ cùng một ảnh gốc của từng phương pháp và tính trung bình.
61
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
LPIPS† CelebA HỌ Paris StreetView Mini-Places Phương pháp thin medium thin medium thin medium LAMA 0.0380 0.0496 0.0797 0.0908 0.0752 0.0813 DSI 0.0525 0.0669 0.1036 0.1129 0.1079 0.1181 DDPM 0.0400 0.0660 0.0826 0.1167 0.0923 0.1159
Bang 4.3: Kết qua phân tích định lượng dùng độ do LPIPS trong đánh giá độ đa dang
của ảnh sinh
Một lần nữa, độ phức tạp của tập dữ liệu ảnh hưởng đến kết quả đánh giá
về sự đa dạng, tập dữ liệu ít độ phức tạp hơn như CelebA HQ cho độ đa dạng thấp hơn các tập dữ liệu khác, thấp hơn gần một nửa. Trong phép đo này, DSI lại cho kết quả độ đa dạng cao hơn DDPM và vượt trội han LAMA. Nó cho thấy sự đánh đổi giữa độ đa dạng và chất lượng ảnh sinh. Cụ thể, độ phức tạp của quá
bài toán (vùng mask lớn, tập dữ liệu phức tạp) càng lớn, độ đa dạng ảnh sinh
càng cao và ngược lại. Điều này được đề cập trong nghiên cứu tại [23].
Tuy nhiên, DDPM vẫn cho kết quả tiệm cận DSI đặc biệt với những vùng mask lớn, nói cách khác DDPM không bị đánh đổi nhiều giữa chất lượng và độ
đa dạng ảnh sinh như 2 phương pháp còn lại. Điều này đã được mong đợi khi nhìn vào ý tưởng làm nhiễu và học quá trình khử nhiễu ở từng bước sinh ảnh của
DDPM.
4.4.3 Thời gian sinh ảnh
Thời gian sinh ảnh được đo là thời gian trung bình để sinh 1 ảnh có kích thước 256x256 được đo đạc khi thực thi trên GPU RTX 2080ti. Kết quả được
thể hiện ở bảng 4.4.
Việc lặp đi lặp lại rất nhiều bước khử nhiễu của DDPM cũng như áp dụng resample nhằm tạo sự hài hòa ảnh sinh khiên DDPM sử dụng rất nhiều thời gian
để hoàn thành một tấm ảnh so với LAMA va DSI. La một hướng tiếp cận dựa
62
4. THỰC NGHIỆM VÀ ĐÁNH GIÁ
trên VAE, DSI được mong đợi sẽ cho thời gian thực thi ngắn hơn nhiều và có
thể tiệm cận LAMA, tuy nhiên, trong bài khảo sát DSI mất 38.41 giây để hoàn thành sinh 1 ảnh. Điều này được tác giả DSI giải thích do cách cài đặt hiện tại của thuật toán chưa tối ưu, và có thể cải thiện sử dụng PixelCNN++ [24].
Phương pháp Thời gian (giây)
LAMA 0.43
DSI 38.41
DDPM 108.72
Bảng 4.4: Thời gian trung bình dé sample một ảnh ở các phương pháp khác nhau trên
RTX 2080 tỉ