Thống kê tập dữ liệu theo các loại quần áo ​

Một phần của tài liệu Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả (Trang 54)

5. 2​ Tiêu chí đánh giá

5.2 Thống kê tập dữ liệu theo các loại quần áo ​

Hình 5.3: Thống kê tập dữ liệu theo tập huấn và kiểm tra.

5.1.2 Chi tiết cài đặt

Mô hình DAMSM (Deep Attentional Multimodal Similarity Model) dùng 2 mạng nơ-ron để ánh xạ vùng con của ảnh và những từ ngữ của câu sang một không gian ngữ nghĩa chung, sau đó sẽ đo độ tương tự của hình ảnh và văn bản ở cấp độ từ để cho việc tính hàm mất mát cho việc sinh ảnh.

– Bộ mã hóa văn bản ( text encoder)

Là một mạng bi-directional Long Short-Term Memory (LSTM) được dùng để rút trích những vector ngữ nghĩa từ đoạn văn bạn mô tả. Trong mảng bi-directional LSTM, mọi từ tương ứng với hai trạng thái ẩn theo mọi hướng. Vì vậy, hai trang thái an này sẽ được ghép lại với nhau để biểu diễn ngữ nghĩa của mỗi từ. Ma trận đặc trưng của tất cả các từ được kí hiệu bởi e​ ∈​ ​R​D​×​T​. Trong đó, cột thứ​i

e​ ​i​là vector đặc trưng của từ thứ ​i​,​Dlà số chiều của vector và​ ​T​là số lượng từ. Trong khi đó, trạng thái ẩn cuối cùng của bi-directional LSTM sẽ được ghép vào vector toàn cục của câu, kí hiệu e ​∈​​R​D

– Bộ mã hóa hình ảnh (image encoder) ​Bộ mã hóa hình ảnh là một mạng tích chập (CNN) được dùng để ánh xạ hình ảnh thành vector ngữ nghĩa. Những lớp trung gian của mạng CNN sẽ rút trích các đặc trưng cục bộ của các vùng con khác nhau trên ảnh. Cụ thể, bộ mã hóa hình ảnh sẽ được xây dựng dựa trên mô hình Inception-v3 đã được huấn luyện trên ImageNet. Đầu tiên, hình ảnh sẽ được thay đổi về kích thước​299 × 299 ​pixels. Sau đó, ma trận đặc trưng cục bộ có kích thước ​f ​∈ ​R​768×289 ​(được chuyển đổi từ ​768 × 17 × 17 ​) sẽ được rút trích từ lớp “mixed_6e” của mạng Inception-v3. Trong đó, 768 là số chiều của vector đặc trưng cục bộ, và 289 là số vùng con của ảnh. Trong khi đó, vector đặc trưng toàn cục f ​∈ ​R​2048​sẽ được rút trích từ lớp average pooling cuối cùng của mạng Inception-v3. Cuối cùng, đặc trưng của ảnh sẽ được chuyển đổi sang không gian ngữ nghĩa chung của đặc trưng văn bản bằng việc được thêm vào một lớp perceptron như sau:

v ​= ​Wf, v= W f, (4.2.5) Trong đó, ​v​∈ ​RD​ ​×289​và vector cột thứ ​i​là vector đặc trưng cho vùng con thứ ​i ​của ảnh, v ​∈ ​R​D ​là vector đặc trưng toàn cục của cả bức ảnh. ​D ​là số chiều của vector ảnh và văn bản trong không gian đặc trưng. Để hiệu quả hơn, các trọng số trong các lớp của mô hình Inception-v3 được giữ nguyên, và các trọng số trong lớp được thêm vào sẽ được huấn luyện đồng thời cùng với các mảng còn lại.

The attention-driven image-text matching score ​được dùng để đo lường độ khớp của cặp ảnh và văn bản dựa vào attention model giữa ảnh và văn bản.

Bộ mã hóa văn bản đã được huấn luyện trước trong mô hình DAMSM cũng cung cấp các vector từ có thể phân biệt trực quan được rút trích từ các cặp ảnh - văn bản để sử dụng cho mô hình

attentional generative network​. Để so sánh, các vectơ từ thông

thường được xử lý trước trên dữ liệu văn bản thuần túy thường không phân biệt trực quan được, ví dụ: các vectơ từ khác nhau về các màu sắc, chẳng hạn như đỏ, xanh, vàng, v.v., thường được phân

cụm cùng nhau trong không gian vectơ, do thiếu nền tảng là các tín hiệu hình ảnh thực tế.

Quá trình huấn luyện:

● Mô hình DAMSM được huấn luyện 211 epoch, kích thước mỗi batch dữ liệu là 32.

● Mô hình AttnGAN được huấn luyện theo thời gian, kích thước mỗi batch dữ liệu là 4.

Kết quả hình ảnh được tạo ngày càng có chất lượng cao hơn và chi tiết hơn sau khi mô hình được huấn luyện nhiều epoch hơn. Thể hiện trong hình sau:

Hình 5.1.2: Kết quả hình ảnh được tạo từ cùng câu mô tả khi mô hình được huấn luyện lần lượt 10, 25 và 43 epoch.

 

5.2 Tiêu chí đánh giá

5.2.1 Inception Score (IS)

IS [6] là tiêu chí đánh giá tính thực tế của ảnh được phát sinh. Hai tiêu chuẩn đánh giá ảnh phát sinh bao gồm:

• Các ảnh phát sinh chứa các đối tượng có nghĩa, khi đó phân phối nhãn có điều kiện (the conditional class distribution) p(y|x) có giá trị entropy thấp.

• Các ảnh phát sinh đa dạng, khi đó phân phối nhãn cận biên (the 52 marginal class distribution) p(y) = R x p(y|x)pg(x) có giá trị entropy cao, trường hợp lý tưởng phân phối này có dạng phân phối đều. Kết hợp hai tiêu chuẩn trên ta có công thức tính IS như sau:

IS(G) = exp(Ex∼PgDKL(p(y|x)||p(y))) (5.2.1) Trong đó:

• y là nhãn và x là ảnh được phát sinh.

• DKL() là KL-divergence là một hàm được sử dụng để tính khoảng cách giữa p(y|x) và p(y).

Việc sử dụng hàm mũ exp giúp giá trị có thể dễ dàng để so sánh, khi lấy ln(IS(G) mà không làm mất đi tính tổng quát. Nếu cả hai tiêu chuẩn trên được thỏa mãn thì giá trị KL-divergence giữa hai phân phối p(y) và p(y|x) sẽ lớn dẫn đến kết quả IS lớn. Có thể xấp xỉ công thức tính IS thực tế từ các mẫu x (i) như sau:

Với N là số lượng mẫu và thường được khuyến khích chọn là 5000 [6]. Một số giới hạn của độ đo IS:

• Độ đo này bị giới hạn bởi bộ phân loại Inception, nó phụ thuộc vào dữ liệu huấn luyện ImageNet 2014, do đó nếu mô hình phát sinh các đối tượng không được thể hiện trong tập huấn huấn luyện của ImageNet 2014 thì sẽ có thể luôn luôn nhận được giá trị IS thấp mặc dù ảnh phát sinh có chất lượng cao bởi vì ảnh không thể phân loại một cách chính xác.

• Mạng phân lớp không thể phân loại các đặc trưng liên quan đến khái niệm chất lượng ảnh do CNN chủ yếu tập trung vào thông tin cục bộ hơn là thông tin kết cấu hình dáng, vì vậy những ảnh có chất lượng kém vẫn có thể đạt được điểm số IS cao.

• Độ đo này phụ thuộc vào giá trị trọng số của mô hình huấn luyện, trong số mô hình mạng Inception được huấn luyện trên các framework khác nhau có thể dù kết quả phân loại không có tác động đáng kể. Tuy nhiên, trọng số khác biệt lại dẫn đến đến điểm số khác biệt trên cùng tập mẫu [1].

• Một khuyết điểm của IS là nó có thể làm sai lệch hiệu suất của mô hình nếu trường hợp mô hình chỉ phát sinh duy nhất một ảnh trên một lớp, giá trị IS vẫn có thể cao do độ đo này không đo đạc sự đa dạng trong từng lớp.

• Nếu bộ phát sinh có thể ghi nhớ dữ liệu huấn luyện và sao chép nó thì điểm số có thể cao.

5.2.2 Fréschet Inception Distance (FID)

Để khắc phục một số hạn chế của IS. Độ đo FID [4] được sử dụng để đo đạc chất lượng mẫu được phát sinh dựa vào khoảng cách giữa phân phối của ảnh thật và phân phối của ảnh phát sinh. Để tính được FID giữa ảnh thật và ảnh được phát sinh, ta sử dụng công thức sau:

Trong đó:

• µ, Σ là giá trị trung bình và ma trận hiệp phương sai (covariance) của phân phối Gaussian.

• r, g lần lượt là ảnh thật và ảnh được phát sinh. • T r là tổng tất cả các phần tử trên đường chéo.

FID càng nhỏ nghĩa là ảnh phát sinh càng có chất lượng tốt(quality) và càng đa dạng(diversity) cũng như có nhiều sự tương tự giữa ảnh phát sinh và ảnh thật. Có thể nói FID thể hiện tốt trường hợp nhiễu hơn so với IS. Vì vậy FID đo đạt rất tốt tính đa dạng của ảnh. Ngoài ra FID còn cho thấy giá trị bias cao nhưng variance thấp và rất nhạy cảm với hiện tượng mode collapse .

5.3 Kết quả mô hình phát sinh

● Khi tiến hành huấn luyện và đánh giá hai mô hình StackGAN-v2, AttnGAN trên tập dữ liệu Fashion-gen đồ án tiến hành so sánh hai mô hình trên dựa vào hai độ đo phổ biến cho bài toán phát sinh ảnh là IS và FID kết quả được thể hiện như bảng 5.2.

Bảng 5.2: Bảng kết quả so sánh giữa StackGAN-v2 và AttnGAN dựa vào phép đo IS, FID trên tập dữ liệu Fashion-Gen

● Dựa vào bảng kết quả so sánh, ta thấy rằng nếu xét về điểm IS thì StackGAN-v2 có xu hướng tốt hơn so với AttnGAN khi đạt điểm số là 3.383, điều này cho thấy ảnh được tạo ra bởi StackGAN-v2 thỏa mãn tiêu chuẩn về chất lượng khi ảnh được tạo ra có thể nhận dạng được và các đối tượng được tạo ra có sự khác biệt. Tuy nhiên, nếu xét về độ đo FID thì AttnGAN lại có xu hướng tốt hơn so với StackGAN-v2 với FID là 30.97 điều này cho thấy ảnh được tạo ra bởi AttnGAN có chất lượng tốt và gần giống với tập dữ liệu huấn luyện. Nếu xét về tổng thể, dựa trên kết quả thực tế khi phát sinh ảnh (hình 5.2, 5.3) AttnGAN dường như thể hiện được một cách chi tiết các thuộc tính quần áo hơn so với StackGAN-v2, ngoài ra các loại quần áo được tạo bởi AttnGAN chính xác hơn so với StackGAN-v2. Bởi vì độ đo IS không thể hiện được tính liên hệ giữa các mẫu thuộc cùng một loại quần áo nên điểm số IS của StackGAN-v2 không bị ảnh hưởng. Mặc dù vậy, AttnGAN vẫn chưa giải quyết được vấn đề mode collapse khi vẫn còn nhiều mẫu phát sinh trùng lặp.

 

 

Chương 6

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

6.1 Kết Luận

Đề tài đồ án đã thực hiện được một số công việc sau:

● Tìm hiểu các mô hình phát sinh ảnh từ câu mô tả.

● Xây dựng mô hình phát sinh ảnh thời trang từ câu mô tả dựa trên các công trình nghiên cứu đã tìm hiểu với hai phương pháp phổ biến là StackGAN-v2 và AttnGAN.

● Tiến hành thực nghiệm trên bộ dữ liệu Fashion-gen và từ đó có những so sánh để thấy rằng độ đo IS thì StackGAN-v2 cho kết quả tốt hơn so với AttnGAN nếu xét về sự đa dạng của các ảnh phát sinh. Tuy nhiên, nếu xét về độ giống giữa ảnh phát sinh và ảnh thật thì AttnGAN cho kết quả khả quan hơn so với StackGAN-v2. Tuy nhiên, vấn đề mode collapse vẫn còn chưa được khắc phục trong mô hình AttnGAN trên tập dữ liệu Fashion-gen.

6.2 Hướng phát triển

Một số hạn chế của đồ án:

● Mặc dù hình ảnh được tạo ra với phân giải khá cao song vẫn còn một vài chi tiết chưa được tạo ra rõ ràng, cụ thể thế nhưng trong tương lai mô hình có thể được cải thiện được vấn đề trên.

● Mô hình vẫn chưa có thể tạo ra hình ảnh cụ thể, hoặc nền phức tạp.

● Vấn đề mode collapse vẫn chưa được giải quyết.

● Từ những hạn chế hiện tại, đồ án hy vọng sẽ có thể cải thiện được mô hình phát sinh ảnh thời trang từ câu mô tả đầu vào trong tương lai.

Tài liệu tham khảo

[1] Shane Barratt and Rishi Sharma. A note on the inception score.

ArXiv​, abs/1801.01973, 2018.

[2] Emily L. Denton, Soumith Chintala, Arthur Szlam, and Robert Fergus. Deep generative image models using a laplacian pyramid of

adversarial networks. ​CoRR​, abs/1506.05751, 2015.

[3] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Ben- gio. Generative adversarial nets. In Z. Ghahramani, M. Welling,

C. Cortes, N. D. Lawrence, and K. Q. Weinberger, editors, ​Ad- vances

in Neural Information Processing Systems 27​, pages 2672– 2680.

Curran Associates, Inc., 2014.

[4] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, Gu¨nter Klambauer, and Sepp Hochreiter. Gans trained by a two time-scale update rule converge to a nash equilibrium. ​CoRR​, abs/1706.08500, 2017.

[5]N. Rostam Zadeh, S. Hosseini, T. Bouquet, W. Stokowiec, Y. Zhang, C. Jauvin, and C. Pal. Fashion-Gen: The Generative Fashion Dataset and Challenge. ​ArXiv e-prints​, June 2018.

[6] Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen. Improved techniques for training gans.

[7] Tao Xu, Pengchuan Zhang, Qiuyuan Huang, Han Zhang, Zhe Gan, Xiaolei Huang, and Xiaodong He. Attngan: Fine-grained text to image generation with attentional generative adversarial networks. ​CoRR​, abs/1711.10485, 2017.

[8] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaolei Huang, Xiaogang Wang, and Dimitris N. Metaxas. Stackgan: Text to photo- realistic image synthesis with stacked generative adversarial net- works. ​CoRR​, abs/1612.03242, 2016.

[9] Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, and Dimitris N. Metaxas. Stackgan++: Re-alistic image synthesis with stacked generative adversarial networks. ​CoRR​, abs/1710.10916, 2017.

[10] Fashion-Gen: The Generative Fashion Dataset and Challenge​ by

Negar Rostamzadeh, Seyedarian Hosseini, Thomas Boquet, Wojciech Stokowiec, Ying Zhang, Christian Jauvin, Chris Pal.

Một phần của tài liệu Ứng dụng học máy cho bài toán phát sinh ảnh thời trang từ câu mô tả (Trang 54)

Tải bản đầy đủ (PDF)

(67 trang)