Luận văn thạc sĩ Khoa học máy tính: Ứng dụng biến đổi phong cách gương mặt bằng ngôn ngữ tự nhiên

Mặc dù chỉnh sửa ảnh dựa trên ngôn ngữ tự nhiên đang phát triển, nhưng phương pháp này còn đối mặt với một số thách thức như sau: Hiểu yêu cầu chỉnh sửa: Hiểu rõ yêu cầu chỉnh sửa ảnh tr

Lĩnh vực đo lường chất lượng ảnh -¿+2zz+222+zzzzrz+ 0 2.2 Text-driven IHage St HT ghe 1 2.3 Generative Adversarial Network[28] +: se cxskssskereseekek 2 P.90 2 2.4.1 Global directions in the StyleSpace ¿is cccstssererereervee 4 2.4.2 Bộ dữ liệu FFHQ[7] . 222 22cc2221111111121211111 1.1.1 6 2.5 Human face part segmenfafiOH . - - + SS+SE++kekExerrrkrkekekrrerrrie 8 2.5.1 Facer[6] Ăn HH HH HH gi 9 2.6 Dịch máy

IQA là một lĩnh vực nghiên cứu trong khoa học máy tính va thị giác máy tinh, tap trung vào việc phát triển các phương pháp để đo lường chất lượng của hình ảnh.

"IQA" là viết tat của "Image Quality Assessment," có nghĩa là "Đánh giá chất lượng ảnh" trong tiếng Anh Mục tiêu là phát triển các độ đo hoặc mô hình đề đánh giá mức độ tương tự giữa hình ảnh gốc và hình ảnh được xử lý hay biến đổi Các phương pháp IQA có thể dựa trên so sánh với ảnh tham chiếu (Reference-based IQA) hoặc đánh giá chất lượng mà không cần ảnh tham chiếu (No-Reference IQA) Các ứng dụng của IQA rất đa dạng, từ đảm bảo chất lượng của hình ảnh trước và sau quá trình xử lý, đến việc tối ưu hóa thuật toán nén ảnh và nhiều ứng dụng khác liên quan đến xử lý ảnh và thị giác máy tính Một số bài báo nổi bật có liên quan đến lĩnh vực đánh giá chất lượng ảnh đã được tham khảo và liệt kê dưới đây: e Perceptual Image Quality Assessment with Transformers[23]: Trong bai báo này, tác gia giới thiệu một mô hình được gọi là Image Quality Transformer (IQT) mà thành công áp dụng kiến trúc transformer vào một nhiệm vụ đánh giá chất lượng hình ảnh toản diện dựa trên cảm nhận (perceptual full-reference image quality assessment - IQA) Kết quả thử nghiệm cho thấy mô hình đề xuất có hiệu suất xuất sắc trên các bộ dữ liệu thường sử dụng trong lĩnh vực IQA.Đối với một bộ đữ liệu lớn IQA chứa các hình ảnh được tạo ra bởi mô hình sinh, mô hình cũng cho thấy kết quả đáng ké.M6 hình IQT đề xuất đã đứng dau trong cuộc thi NTIRE

2021 về thách thức đánh giá chất lượng hình ảnh cảm nhận. e DeepSim: Deep Similarity for Image Quality Assessment[24]: bài báo này giới thiệu về một phương pháp mới sử dung hoc sâu dé đánh giá chất lượng ảnh va cung cấp thông tin về hiệu suất của phương pháp trong nhiều điều kiện và tình huống khác nhau gọi là DeepSim Kết qua cho thay DeepSim được đánh giá thông qua các thử nghiệm và so sánh hiệu suất với các phương pháp khác Và nó có khả năng ước lượng chất lượng ảnh hiệu quả và có thể vượt qua nhiều phương pháp khác trong các tình huỗng khác nhau. e No-Reference Image Quality Assessment with the Use of Wasserstein

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT

GANs[25]: tập trung vào việc phát triển một phương pháp đánh giá chất lượng ảnh không cần tham chiếu (No-Reference Image Quality Assessment - NR-IQA) bằng cách sử dung Wasserstein Generative Adversarial Networks (WGANS). Trong bài báo đã thực hiện so sánh hiệu suất của phương pháp với các phương pháp khác trong lĩnh vực NR-IQA Và thực hiện thử nghiệm và đánh giá trên các tập dữ liệu chất lượng ảnh khác nhau. e On the Use of Deep Learning for Blind Image Quality Assessment [27]: Dua ra nghiên cứu về việc sử dung hoc sâu dé đánh giá chất lượng hình anh mù quáng không phụ thuộc vào biến đổi Nổi bật là DeepBIQ, ước lượng chất lượng hình ảnh bằng cách lấy trung bình điểm dự đoán trên nhiều khu vực con của hình ảnh gốc Kết quả thử nghiệm trên cho thấy rằng DeepBIQ vượt trội so với các phương pháp tiên tiến được so sánh, có hệ số tương quan tuyến tinh với điểm số chủ quan của con người gần 0.91.

Những nghiên cứu này cung cấp cái nhìn sâu sắc về phương pháp và kỹ thuật đo độ tương đồng giữa hai ảnh, bao gồm cả các tiếp cận sử dụng học máy sâu và các phương pháp thống kê truyền thống.

Text-driven image (anh dựa trên văn bản) là một lĩnh vực cua trí tuệ nhân tạo liên quan đến việc tạo ra các hình ảnh mới dựa trên thông tin được cung cấp bằng văn bản Mục đích của text-driven image là tạo ra các hình anh mới một cách tự động hoặc bán tự động bằng cách sử dụng các mô hình máy học và xử lý ngôn ngữ tự nhiên.

Có nhiều cách tiếp cận đề tạo ra các hình ảnh dựa trên văn bản, một số phổ biến là: e Image captioning: là quá trình tạo ra mô tả hình ảnh từ văn ban và sau đó tạo ra hình anh dựa trên mô tả đó Mô hình sử dung trong image captioning thường là một mạng nơ-ron phức tạp và được huấn luyện trên các bộ dữ liệu có chứa cả văn bản và hình ảnh. e Text-to-image synthesis: là quá trình tao ra hình ảnh dựa trên văn bản Một số phương pháp tiếp cận phô biến trong text-to-image synthesis là sử dụng mô hình

Các ứng dụng của text-driven image là rất đa dạng, ví dụ như tạo ra các hình ảnh

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT minh họa cho các bài báo, tạo ra các ảnh đại diện (avatar) cho các tài khoản trên mạng xã hội, tạo ra các bức tranh hoặc các tác phẩm nghệ thuật mới, tạo ra các hình ảnh mang phong cách truyện tranh

Mô hình GAN (Generative Adversarial Network) [28] là một loại mô hình mang neural dùng trong Machine Learning để tạo ra các đối tượng mới có tính chất tương tự như các đối tượng trong tập dữ liệu ban đầu Mô hình này được giới thiệu bởi lan Goodfellow và các cộng sự vào năm 2014 và được sử dụng rộng rãi cho đến ngày nay GAN[28] bao gồm hai phan chính là một mô hình sinh (Generator) và một mô hình phân biệt (Discriminator). e Mô hình sinh nhận đầu vào là các giá trị ngẫu nhiên và sử dụng chúng dé tạo ra các đối tượng mới. e M6 hình phân biệt được huấn luyện dé phan biét đối tượng mới tạo ra từ mô hình sinh và các đối tượng trong tập đữ liệu ban đầu Mục tiêu của mô hình sinh là tạo ra các đối tượng mới sao cho mô hình phân biệt không thé phân biệt được đối tượng nao là do mô hình sinh tạo ra.

Quá trình huấn luyện GAN[28] dién ra bằng cách lần lượt huấn luyện các mô hình sinh và phân biệt đến khi mô hình sinh tạo ra các đối tượng mới có chất lượng tương đương với tập dữ liệu ban đầu. ° Generative Adversarial

Hình 2.1 Sơ đồ mô hình GAN [28]

CHƯƠNG 2 CƠ SỞ LÝ THUYÉT

StyleCLIP[5] là một công trình nghiên cứu đã được công bố vào năm 2021.

StyleCLIP[5] sử dụng một phương pháp gọi là CLIP[14] (Contrastive Language-

Image Pre-training) dé huấn luyện mô hình Trong quá trình huấn luyện CLIP[14], các bộ dữ liệu hình ảnh và văn bản lớn được sử dụng đê tạo ra một không gian biêu diễn chung cho hình ảnh và văn bản Các mô hình ngôn ngữ và hình ảnh được đưa vào một tác vụ học đôi sánh (contrastive learning) đê hiệu sự tương quan giữa hình ảnh và ngôn ngữ.

Trên cơ sở của mô hình GAN[28], StyleCLIP[5] đã mở rộng khả năng sáng tao cua nó bằng cách kết hợp với việc sử dụng ngôn ngữ tự nhiên Quá trình này được thực hiện như sau:

1 Mô hình GAN[28] đã được huấn luyện trước (pre-trained): StyleCLIP[5] sử dụng một mô hình GAN[28] đã được huấn luyện trước dé học các phong cách và nội dung ảnh từ một bộ dữ liệu lớn Mô hình GAN[28] này có khả năng tạo ra ảnh mới từ không gian ngẫu nhiên (latent space).

Tiếp nhận mô tả ngôn ngữ: StyleCLIP[5] cho phép người dùng cung cấp mô tả ngôn ngữ cho yêu cầu chỉnh sửa ảnh Điều này có thé là một câu mô tả chỉ tiết về sự thay đổi mong muốn, ví dụ: "Biến đổi tóc thành màu đỏ" hoặc "Biến đổi thành người dan ông".

Anh xạ từ ngôn ngữ sang không gian ngẫu nhiên: StyleCLIP[5] sử dụng một thuật toán ánh xạ từ mô tả ngôn ngữ sang không gian ngẫu nhiên của mô hình GAN[28]. Điều này cho phép mô hình hiểu ý nghĩa và phong cách được mô tả trong ngôn ngữ tự nhiên.

Tạo ra ảnh chỉnh sửa: Sau khi ánh xạ từ ngôn ngữ sang không gian ngẫu nhiên,

Kếtchương

Chương này đã trình bày tông quát về tổng quan các khảo sát về tình hình nghiên cứu liên quan Cùng với những cơ sở kiến thức nền tảng về chỉnh sửa ảnh bằng ngôn ngữ tự nhiên, phân đoạn gương mặt, dịch máy Bên cạnh đó cũng đã trình bày kiến thức về những phương pháp sẽ được ứng dụng vào luận văn như bộ công cụ Facer [6], API phiên dich của OpenAI [36] cùng với các kiến thức về các phương pháp do độ tương đồng và sai khác giữa hai ảnh Chương tiếp theo sẽ trình bày về đề xuất nghiên cứu của mình.

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU DE XUẤT

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU ĐÈ XUẤT

Chương này sẽ nói về phương pháp đề xuất để khắc phục nhược điểm của ảnh kết quả StyleCLIP[5] Bằng cách kết hợp giữa mô hình StyleCLIP[5] và bộ công cụ Facer[6] để chỉ biến đổi bộ phận theo mong muốn Bên cạnh đó cũng thực hiện các nghiên cứu thực nghiệm để tìm ra giá trị độ phân tách B của mô hình StyleCLIP[5] sao cho phù hợp nhất Và cũng tiến hành các phương pháp đo về độ tương đồng hai ảnh đề đánh giá về phương pháp nghiên cứu đề xuất này.

3.1 Tổng quan về phương pháp nghiên cứu đề xuất

Từ ưu điểm của mô hình StyleCLIP[5] là một mô hình sinh ảnh được đánh giá cao hiện này và cho phép đưa ra các yêu cầu bằng các câu mô tả tự nhiên về ảnh kết quả. Tuy nhiên do ảnh kết quả nó còn phụ thuộc vào không gian vector tương quan giữa hình ảnh và văn bản, do đó nếu những ảnh đầu vào có những đặc trưng mà không tồn tại ở không gian vector đó thì những đặc trưng đó sẽ không được duy trì ở ảnh kết qủa Điều đó dẫn đến ảnh kết quả đã không duy trì được những đặc trưng ảnh ở những bộ phận mà người dùng không mong muốn biến đổi Đó cũng chính là hạn chế được đặt ra cầẦn khắc phục trong luận văn này Về Facer[6], bộ công cụ này có tính năng phân đoạn gương mặt Nó có thê phát hiện và đánh dấu những bộ phận trên gương mặt người như mắt, mũi, miệng, tóc, da, và đã được ứng dụng nhiều trong các nghiên cứu như đã nêu ở Chương 2 Do đó nếu dùng StyleCLIP[5] để biến đổi ảnh theo câu mô tả và kết hợp với facer[6] để phát hiện các bộ phận trên gương mặt, để chọn ra những bộ phận nào cần biến đổi và bộ phận nào không cần biến đổi thì sẽ cải thiện được nhược điểm của StyleCLIP[5] như đã nêu.

Mục tiêu: Mong muốn cần đạt được là chỉ biến đổi ở bộ phận được chọn để biến đổi trên gương mặt, các bộ phận khác đều được duy trì như ảnh gốc Điều này cũng chính là góp phần khắc phục được nhược điểm hiện tại của mô hình StyleCLIP[5] Từ đó sẽ sử dụng phương pháp này đề xây dựng ứng dụng chỉnh sửa phong cách gương mặt bằng ngôn ngữ tự nhiên.

Phương pháp đề xuất kết hợp giữa StyleCLIP[5] và Facer[6] với mục đích biến đổi hình ảnh thông qua StyleCLIP[5], rồi thực hiện phân đoạn dé xác định vùng cần biến đổi sau đó tiến hành thay thé vùng biến đổi lên ảnh gốc Tuy nhiên phương pháp kết hợp giữa StyleCLIP[5] và Facer[6] sẽ có một nhược điểm đó là ảnh kết quả sẽ “kém

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU DE XUẤT tự nhiên” khi thực hiện quá trình ghép các điểm ảnh Nếu ảnh kết quả của StyleCLIP[5] cho ra sự sai khác quá lớn về màu sắc hay độ tương phản so với ảnh gốc thì khi xác định các bộ phận và ghép chúng lại sẽ dẫn đến sự mắt tự nhiên, do phần biên của bộ phận đó không hoà hợp Nếu có thé can thiệp vào quá trình biến đổi ảnh của StyleCLIP[5] để kiểm soát ảnh được sinh ra, sao cho tắm ảnh đó có độ tương đồng với ảnh gốc cao nhất về màu sắc, ánh sáng và độ tương phản Thì khi đó việc thực hiện kết hợp giữa StyleCLIP[5] và Facer[6] sẽ cho ra kết quả tốt hơn. Phương pháp đề xuất trong luận văn chỉ tiết như sau: e _ Thứ nhất là tiến hành các thực nghiệm dé tìm ra các giá trị ngưỡng phân tách B của mô hình StyleCLIP[5] phù hợp với nhu cầu của luận văn Từ đó xác định khoảng giá trị mà vẫn biến đổi ảnh theo mong muốn nhưng độ sai khác về màu sắc và cấu trúc với ảnh gốc là thấp nhất. e _ Thứ hai Kết hợp ảnh kết quả của StyleCLIP[5] với tham số B tìm được ở phan trên và ảnh gốc ban đầu Sau đó chỉ thay thế những phần mong muốn biến đổi lên ảnh kết quả Quá trình này sẽ khai thác tiềm năng của hai công nghệ tạo ra một phương pháp có thê áp dụng phong cách, hiệu ứng hoặc chỉnh sửa một cách riêng biệt cho từng phần của khuôn mặt Điều này giúp tạo ra kết quả tự nhiên và chân thực hơn, vì mỗi phần được xử lý dựa trên đặc điểm riêng biệt của nó.

3.2 Xác định giá trị ngưỡng phân tách B phù hợp

3.2.1 Mục tiêu của xác định giá trị ngưỡng Ở mô hình StyleCLIP[5] với phương pháp tiếp cận Global Direction in the StyleSpace[5] có cho phép tuỳ chỉnh hai tham số œ (alpha) và B (beta) Như đã trình bày ở cơ sở lý thuyết, œ là cường độ thay đổi còn B là sự ảnh hưởng tương đồng giữa các bộ phận trên gương mặt Ý tưởng đặt ra là can thiệp vào hai tham số này, có thé điều chỉnh được cường độ biến đổi theo mong muốn Tuy nhiên với mục tiêu là ảnh sinh ra vẫn biến đổi theo mong muốn nhưng những đặc điểm khác cần giữ được điểm tương đồng với ảnh gốc nhiều nhất có thể nên nhận thấy việc điều chinh hệ số là phù hợp hơn Vì hệ số này đóng vai trò là một ngưỡng kiểm soát sự biến đổi của các bộ phận khác Do đó nếu tìm ra được một hệ số B mà ở đó ảnh sinh ra vẫn biến đổi và các đặc điểm khác vẫn duy trì được nét tương đồng nhiều nhất đặc biệt là về mặt ánh sáng và màu sắc sẽ làm tiền dé dé phương pháp kết hợp dé xuất tiếp theo

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU DE XUẤT sẽ đạt chất lượng cao.

Từ ý tưởng là tìm ra giá trị B “lý tưởng” ma ở đó ảnh sinh ra có độ tương đồng cao nhất với ảnh gốc Ở đay sử dụng 3 phép đo độ tương đồng và khác biệt giữa ảnh gốc làm tiêu chí để đánh giá tốt nhất như sau: ¢ MSE[8] thấp nhất: dé tìm được B mà tại đó ảnh có độ sai khác thấp nhất với ảnh gốc ¢ SSIM[9] lớn nhất: dé tìm được B mà tai đó ảnh có độ tương đồng nhiều nhất về độ tương phản, màu sắc, cấu trúc. ¢ LPIPS[10] nhỏ nhất: dé tìm được B mà tai đó ảnh có độ tương đồng cảm quan nhất với ảnh gốc.

Cùng với việc lấy cảm hứng từ kỹ thuật “prompt engineering” được công bố trong bài báo “Radford et al.” [38] và tiến hành khảo sát trên 13 bộ “Input — target description” Do đây là bộ dữ liệu về người nên 13 bộ câu đó sẽ có chung câu input à “a face” và các câu target như bảng sau:

Bảng 3.1 Các câu input-target được sử dụng trong thực nghiệm STT Input — Target

1 | "a face - a face with blue eyes",

2 | "a face - a face with red hair"

3 | "a face - a face with big nose"

4 | "a face - a face with blue eyes, red hair and big nose",

6 | "a face - a face with sun glasses and a red hat"

9 | "a face - a smiling face with blue eyes and red hair"

12 | "a face - an old man is smiling with red hair and blue eyes"

13 | "a face - an old woman is smiling with red hair and blue eyes"

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU ĐÈ XUẤT

Tiến hành thực hiện thưc nghiệm với 30 ảnh từ bộ dữ liệu FFHQ[7] và 20 ảnh lây từ bộ CelebA[34] và 50 giá tri beta có giá trị từ [-0.2 , 0.8] cùng với bộ câu “Input — target description” đề cập phía trên qua mô hình StyleCLIP[5].

Bảng 3.2 Thông số của thực nghiệm

Input - target Data Beta Alpha Số lần lặp đescription

13 câu 50 ảnh [-0.2 , 0.8] 0.35 50 Ý tưởng dé tim ra giá tri B “lý tưởng” sẽ dién ra như dưới đây.

1 Đưa bộ ảnh test qua mô hình StyleCLP[5] với B trượt từ [-0.2 , 0.8] và thử nghiệm

Hình 3.1 Anh kết quả của StyleCLIP[5] khi thay đối giá trị B từ thực nghiệm

2 Thực hiện phân đoạn gương mặt của tập kết qua ở bước 1 và ảnh gốc bằng facer[6] parsing được cung cấp bởi face [6] Sau đó loại bỏ đi bộ phận mong muốn được biến đổi trong câu “target -description” Lúc này ta sẽ thu được tập kết qua ảnh StyleCLIP[5] đã loại bỏ bộ phận biến đồi và ảnh gốc cũng được loại bỏ bộ phận biến đổi

CHƯƠNG 3 PHƯƠNG PHÁP NGHIÊN CỨU ĐÈ XUẤT e]le]s1s121 as a=] 3) 3

Hình 3.2 Ảnh kết quả StyleCLIP[5] đã loại bỏ bộ phận biến đổi từ thực nghiệm

3 Thực hiện so sánh từng ảnh trong tập kết quả ở bước 2 và ảnh gốc đã được xử lý ở bước 2 bằng các phép do MSE [8], SSIM [9], LPIPS [10].

Hình 3.3 Ví dụ về kết quả nhận được khi thực hiện các phép do so với ảnh gốc

4 Giỏ trị B cần tỡm sẽ là giỏ tri min use)ằ Bmax (ssim)> min (LIPS)

Tổng hợp lại các bước xử lý sẽ như hình dưới đây:

Hình 3.4 Tong quan quá trình xác định giá trị B

Dưới đây là các ảnh biểu dé kết quả so sánh giữa ảnh kết qua và ảnh gốc khi sinh ảnh với B thay đổi ứng với 1 ảnh đầu vào và 13 câu “input - target description” như đã đề cập đến ở phần trước.

0.09, 0.0873) 00 0.28, 0.0095) so 02 oa 06 os 20 2 be ot 06 08

Hình 3.5 a face with big nose Hình 3.6 a face with blue eyes, red hair

Hình 3.10 a face with sun glasses and a

Hình 3.7 a face with blue eyes red hat

Hinh 3.8 a face with glasses Hinh 3.11 a sad face

Hình 3.9 a face with red hair

Hinh 3.12 a smiling face with blue eyes and red hair

Hinh 3.14 an old man is smiling with red hair and blue eyes

Hinh 3.17 an old woman is smiling with red hair and blue eyes

Beta v Hình 3.15 an old man Hình 3.13 a smiling face

0.16, 0.055) oo (0.14, 0.0105) so 02 oa 08 a so 02 oa P3 os

Giỏ trị trung bỡnh ỉ từ kết qua min (wsz) Bmax (ssim)> Ổmin (ypips) của 50 ảnh biến đổi trên cùng một câu mô tả với 50 giá trị B khác nhau trong khoảng từ [-0.2, 0.8] được tông hợp trong Bảng 3.2 dưới đây:

Bảng 3.3 Tổng hợp kết quả khi thực hiện các thực nghiệm

Chu thích: Cột input-target description trơng ứng với Bảng 3.1

Các giá trị B “lý tưởng” sẽ khác nhau theo từng bộ phận mong muốn biến đổi Với mỗi bộ phận biến đổi sẽ có một ngưỡng mà ở đó kết qua có nhiều nét tương đồng nhất với ảnh gốc Từ các thực nghiệm đã tìm thấy những giá trị B “lý tưởng” đó góp phần giúp quá trình sinh ảnh của StyleCLIP[5] sẽ cho ra những ảnh có chất lượng và hạn chế rủi ro các ảnh kết quả không tốt Các giá trị trung bình cho từng bộ phận đã được tổng hợp lại theo Bảng 3.3 dưới đây:

Bang 3.4 Bang tống kết các giá trị B được sử dụng khi xây dựng ứng dụng

Bộ phận Tóc Mắt Mũi Miệng Da

Các giá trị B tìm được này sẽ được sử dụng cho quá trình sinh ảnh của StyleCLIP[S] trong phương pháp tiếp theo.

3.3 Phương pháp kết hợp StyleCLIP[5] và Facer[6]

Cách kết hợp này nhằm mục đích ảnh chỉ biến đổi ở vùng được chọn, còn các bộ phận khác sẽ giữ nguyên được các đặc trưng ảnh

Quá trình kết hợp giữa ảnh kết quả của mô hình StyleCLIP[5] và bộ công cụ Facer[6] sẽ diễn ra sau khi cả hai tắm ảnh đều được căn chỉnh và đưa về cùng kích thước là

Xây dựng ứng dụng 5c + thư 43 1 Tổng quát ccc.S222EECEEELEEtEEErrrrreerrree 43 2 Cài đặt các phương pháp đề xuất ở phan server

Xác định các chức năng của ứng dụng -cccc+x+ceerr+ 45 4.1.4 Thiết kế giao diện ứng dụng ¿+22++++222v++rerrrsrrrrrrsee 48 4.2 Kiểm thử ứng dụng ¿-222+2+t222212222112212111227111 2011 ccerkeC 33 4.2.1 Đánh giá tốc độ phản hồi của ứng dụng ccccccccxee 54 4.2.2 Đánh giá chất lượng ứng dụng dựa trên khảo sát 43 Kết chương

Đối tượng: Ảnh gương mặt 1 người chính diện rõ các bộ phận trên gương mặt.

CHƯƠNG 4 XÂY DUNG UNG DỤNG VÀ KIEM THU

Phạm vi và giới hạn chỉnh sửa có thể thực hiện: e _ Biến đổi các bộ phận trên gương mặt bao gồm:

- Tóc: màu sắc, độ đài, kiểu dang

- Mat: màu, hình dáng (to, nhỏ), chủng tộc (mắt người châu Á, mắt người châu Âu), có trang điểm hay không.

- Mũi: hình dang (to, nhỏ)

- Miệng: hình dạng (to, nhỏ), cười hoặc không cười.

- Da: mau sắc ¢ Biến đổi về giới tính: nam - nữ e _ Biến đổi về biểu cảm: vui, buồn, hạnh phúc, giận dữ

Dé xây dựng nên giao diện có thể cung cấp đầy đủ chức năng như một ứng dụng chỉnh sửa ảnh Bảng 4.1 đưới đây liệt kê các chức năng sẽ cung cấp của ứng dụng.

Bảng 4.1 Yêu cầu chức năng của ứng dụng

Chọn ảnh Người dùng có thé tuỳ chọn ảnh mong muốn chỉnh sửa Những ảnh này được lưu trong album ảnh của thiết bị di động Người dùng có thé chọn lại bat kỳ ảnh nào mà họ mong muốn.

Căn chỉnh ảnh Người dùng có thê thực hiện chọn gương mặt muốn biến đổi bằng chức năng căn chỉnh ảnh này Vì ứng dụng chỉ cho phép biến đổi

1 gương mặt do đó trong trường hợp tam ảnh khi người dùng sử dụng có nhiều hơn 1 gương mặt xuất hiện thì người dùng cần sử dụng nó để xác nhận gương mặt mà họ muốn biến đồi.

Mô tả về ảnh mong muôn

Người dùng nhập câu mô tả về ảnh kết quả bằng bat kỳ ngôn ngữ gì.

Biến đồi bộ phận trên gương mặt bao gồm: mắt, mũi, miệng, da, tóc.

Biến đổi về tuôi tác, giới tính và biểu cảm gương mặt.

Tinh chỉnh anh Người dùng chon những bộ phận mong muốn biến đôi Những bộ phận không được chọn sẽ được giữ nguyên ở ảnh gốc.

Lưu ảnh Người dùng có thê lưu ảnh kết quả sau khi đã hài lòng.

Yéu cầu phi chức năng:

Ngoài những yêu cầu về chức năng cần đảm bảo, ứng dụng cũng cần phải đáp ứng các yêu cầu phi chức năng Chúng được mô tả ở Bảng 4.2 dưới đây:

Bảng 4.2 Yêu cầu phi chức năng của ứng dụng

Giao diện ứng dụng thân | Hướng đến dễ đàng tiếp cận mọi đối tượng thiện, dễ sử dụng Đa ngôn ngữ Hỗ trợ nhiều ngôn ngữ, đặc biệt là tiếng Việt Có chế độ đổi ngôn ngữ dé thân thiện cho người ding Chế độ mặc định về ngôn ngữ là tiếng Việt.

Tốc độ xử lý Thời gian xử lý từ lúc nhận yêu cầu đến lúc phản hồi là nhỏ hon 1 phút

Sơ đồ use-case để xác định rõ các thực thể

Dua ra yêu cầu về

Chọn ngôn ngữ Chon ảnh Căn chỉnh ảnh ảnh kết cua ảnh kết quả Lưu ảnh

Hình 4.3 Sơ đồ use-case của hệ thống

Mô tả: Người dùng có thể chọn một gương mặt cụ thể muốn được chỉnh sửa, sau đó tiến hành mô tả mong muốn chỉnh sửa và tỉnh chỉnh các thông số chỉnh sửa và có thể lưu lại ảnh kết quả sau khi chỉnh sửa Điều kiện bắt đầu: Người dùng đã cài đặt ứng dụng trên điện thoại di động Điều kiện sau khi hoàn thành: Người dùng thấy được ảnh sau khi chỉnh sửa và có thể lưu ảnh vào bộ nhớ điện thoại

Kịch bản sử dụng chính:

1 Ứng dụng hiển thị màn hình cho phép người dùng chọn một ảnh từ thư viện ảnh trên thiết bị di động

2 Sau khi chọn một ảnh, ứng dụng tiếp tục hiển thị màn hình cho phép người dùng cắt chọn phần ảnh mong muốn chỉnh sửa

3 Sau đó, ứng dụng hiên thị ảnh vừa được cắt cùng với các tuỳ chọn:

Danh sách các bộ phận trên gương mặt sẽ được chỉnh sửa Ô nhập văn bản mô tả ảnh trước khi chỉnh sửa Ô nhập văn bản mô tả ảnh sau khi chỉnh sửa

4 Sau khi mô tả và tỉnh chỉnh các tham số, người dùng sẽ ấn nút “Xir lý” dé tiến hành tải ảnh lên server và chờ phản hồi ảnh kết quả từ server

5 Sau khi nhận được ảnh kết quả, ứng dụng sẽ hiền thị ảnh kết quả cùng với ảnh ban đầu được chọn để người dùng có thê dễ dàng so sánh ảnh trước và sau khi chỉnh sửa

6 Người dùng có thé chon “Lưu” dé lưu ảnh vào điện thoại

Kịch bản sửa dụng phụ 1: Ở bước chọn ảnh ban đầu, người dùng có thể chọn lại ảnh khác bằng cách ấn nút “Chon lại” Ở bước hiển thị ảnh kết quả, người dùng có thê chọn “Đóng” thay vì “Lưu” để quay trở lại màn hình chọn ảnh bản đầu mà không lưu ảnh về máy.

Kịch bán sửa dụng phụ 2: Ở màn hình chọn ảnh ban đầu, người dùng có thể lựa chọn ngôn ngữ hiển thị bằng cách chọn vào nút “Tiếng Anh” để hiển thị tiếng Anh và “Tiếng Việt? dé hiển thị tiếng Việt.

4.1.4 Thiết kế giao diện ứng dụng

Trong luận văn này, thiết bị Iphone sẽ đóng vai trò là client dé cài đặt ứng dụng và hiển thị giao diện cho người dừng Người dùng thực hiện trực tiếp các thao tác như chọn ảnh cần chỉnh sửa, upload ảnh, và nhập vào nội dung mô tả ảnh mong muốn thông qua các màn hình giao diện Tầng này cũng đóng vai trò là nơi nhận phản hồi từ tầng ứng dụng và phản hồi về người dùng thông qua giao diện Mục tiêu thiết kế phan này là phải dam bảo cung cap đầy đủ các yêu cầu về chức năng như đã liệt kê ở phần trên Ngôn ngữ lập trình được sử dụng là Swift và phát triển trên IDE: Xcode version 14.2.

Người dùng sẽ thao tác với ứng dụng theo sơ đồ sau

=Ì Màn hình chọn ảnh “Màn hình Album ảnh

'Vuốt màn hình xuống hình xuống.

‘Chon phần biến đổi và nhập câu mô tả

Hình 4.4 Sơ đồ đi chuyển màn hình của hệ thống

Giao diện ứng dụng sau khi phát triển: Giao diện gồm có 4 màn hình chính như sau: Màn hình khởi đầu, màn hình chọn gương mặt muốn biến đổi, màn hình tỉnh chỉnh và màn hình hiền thị kết quả Chỉ tiết từng màn hình như sau:

Màn hình khởi đầu: Với mục tiêu thiết kế đơn giản cho người đùng dễ sử dụng nên giao diện được thiết kế tối giản Ở màn hình này cung cấp các tính năng như lựa chọn hình ảnh và lựa chọn ngôn ngữ Hiện tại đang có hai chế độ ngôn ngữ được thiết lập là tiếng Anh và tiếng Việt Chế độ mặc định của ứng dụng được cài đặt là Tiếng Việt.

Hình 4.5 Màn hình khới đầu

Diễn giải: Ở trạng thái khởi tạo, Khu

Vực hiển thị ảnh sẽ để trống, các nút điều khiển sẽ bị vô hiệu hoá.

Người dùng sẽ ấn vào vùng xám với dòng chữ hướng dẫn dé đến màn hình chọn ảnh.

Tiêu đề	Ứng dụng biến đổi phong cách gương mặt bằng ngôn ngữ tự nhiên
Tác giả	Trần Cao Khánh Ngọc
Người hướng dẫn	TS. Nguyễn Vinh Tiệp
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2023
Thành phố	TP Hồ Chí Minh

Định dạng
Số trang	98
Dung lượng	54,66 MB