Thực nghiệm và đánh giá kết quả

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học dữ liệu: Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn (Trang 49 - 67)

4.1. Quy trình thực nghiệm mô tả ảnh.

Ở phần này, chúng tôi sẽ mô tả khái quát các bước thiết lập thực nghiệm từ các phương pháp đã trình bày, nhằm mục đích đưa ra một hệ thông dự đoán mô tả ảnh hiệu quả từ nguồn dữ liệu đa nền tảng từ tiếng Việt. Đầu tiên các dữ liệu trích từ quá

trình streaming trên trang web Wikipedia sẽ được lọc và xử lý thông qua kỹ thuật đã

được trình bày ở Phần 3.2, để đảm bảo các mô hình có được một lượng dir liệu sạch

va phù hợp dé huấn luyện. Dé chứng minh sự hiệu quả của kỹ thuật lọc và xử lý dit liệu từ Wikipedia, chúng tôi đã tạo một bộ dữ liệu riêng dành cho tập kiểm thử, tại đây các ảnh được lấy ngẫu nhiên từ Wikipedia và được gán nhãn bằng tay bởi thành

viên nhóm, sau đó sẽ thực hiện đào tạo mô hình cho tập dữ liệu trước khi lọc và sau

khi lọc dé so sánh và đánh giá kết quả. Bên cạnh nguồn dữ liệu được lay từ Wikipedia, với việc kết hợp thực nghiệm thêm dữ liệu từ bộ UTT-VIIC dé thực hiện đánh giá và phân tích và cho thấy phương pháp học liên tục áp dụng trên các mô hình có khả năng

dự đoán trên dữ liệu đa nền tảng. Tiếp theo đó, dựa trên các nguồn dữ liệu được cập nhật liên tục, chúng tôi cũng tôi ưu mã nguồn của các mô hình thực nghiệm hỗ trợ khả năng học liên tục từ các dữ liệu mới được đưa vào mà không bị mất đi những đặc tính đã được học trước đó, giúp hệ thống mô tả ảnh tự động hoạt động hiệu quả hơn trên tập dữ liệu streaming và đương nhiên các mô hình thực nghiệm đều sẽ được tinh chỉnh dé chọn ra bộ siêu tham số tối ưu nhất dé đảm bảo kết quả thực nghiệm. Thêm vào đó, ở phan rút trích thông tin đặc trưng từ ảnh cho các mô hình chúng tôi cũng thay thế phương pháp trích xuất cũ được dùng bởi các tác giả mô hình (Bottom-up and top-down) băng phương pháp hiện đại hơn Vinvl, cung cấp thêm được nhiều thông tin hơn từ hình ảnh. Về thang đo đánh giá, chúng tôi sử dụng BLEU-1,2,3,4 [44] , ROUGE [45], CIDEr [46], việc sử dụng nhiều thang đo khác nhau giúp hệ

42

thông đánh giá được nhiêu khía cạnh của câu mô tả sinh ra từ đó có được nhận định khách quan hơn cho hiệu quả của các mô hình thực nghiệm.

4.1.1. Cài đặt thực nghiệm cho các mô hình

Như đã trình bày ở Phần 3.3, chúng tôi sẽ thực nghiệm các mô hình sử dụng kiến trúc

Transformer đó là Meshed Memory Transformer va Object Relation Transformer

nhằm đánh giá hiệu suất mô tả của các kiến trúc này trên dữ liệu thực nghiệm và mô hình Vinvl được áp dung để rút trích đặc trưng từ ảnh cho các phương pháp Transformer này. Ở phần này chúng tôi sẽ chủ yếu trình bày về các tham số đã sử

dụng cho từng mô hình và cách cài đặt môi trường thực nghiệm tương ứng. Các mô

hình này chúng tôi sẽ lần lượt kiểm thử trên hai bộ dữ liệu đó là UIT-ViIC và bộ Wiki-Test do nhóm chúng tôi tự xây dựng dé kiêm thử các mô hình sử dụng dữ liệu streaming từ hệ thống.

4.1.2. Mô hình trích xuất đặc trưng VinVL

Với mô hình trích xuất đặc trưng VinVL, chúng tôi đã tận dụng pretrained mô hình

R152-C4 (Resnet-152 C4) đã được học trước trên bộ Image-Net-5k và tinh chỉnh trên

bộ Visual Genome [47] với 1594 loại đối tượng và thuộc tính giúp cho mô hình nhận

diện được nhiều thông tin hơn. Các siêu tham số được thiết lập cho mô hình VinVL

như sau:

RESNETS:

° BACKBONE_OUT_CHANNELS: 2048

° STRIDE_IN_1X1: False

° NUM_GROUPS: 32

° WIDTH_PER_GROUP: §

RPN:

43

° PRE_NMS_TOP_N_ TEST: 6000

° POST_NMS_TOP_N_TEST: 300

ROI_HEADS:

° BATCH_SIZE_PER_IMAGE: 384 #512 P

° OSTTIVE_ FRACTION: 0.5 # 0.25

° SCORE_ THRESH: 0.2 # 0.0001

° DETECTIONS_PER_IMG: 100 # 600

° MIN_DETECTIONS_PER_IMG: 10

Đây là phân thiết lập các siêu tham số cho mô hình VinVL, với các tham số cho khung Resnet-152 tương ứng với số kênh đầu ra là BACKBONE_OUT_CHANNELS được đặt là 2048, với STRIDE_IN_1X1 được đặt là False chỉ rằng một giá trị Boolean xác định không được áp dung stride bang 2 trong phép tích chập 1x1 của mỗi khối residual, NUM_GROUPS: Số lượng nhóm cho phép tích chập nhóm trong kiến trúc

ResNet, ở đây, giá trị được đặt là 32. WIDTH_PER_ GROUP: Độ rộng mỗi nhóm trong phép tích chập nhóm là 8. Các thiết lập cho RPN tương ứng với PRE NMS_TOP_N TEST: Số lượng đề xuất RPN có điểm số cao nhất được giữ lại trước khi thực hiện phép gom nhóm không đáng tin cậy trong quá trình kiểm tra có giá trị là 6000, POST_NMS_TOP_N_TEST là số lượng đề xuất RPN có điểm số cao nhất được giữ lại sau khi thực hiện phép gom nhóm không đáng tin cậy trong quá trình kiểm tra. Được đặt là 300. Cuối cùng là các thiết lập liên quan đến các đầu vào khu vực quan tam (ROD), có nhiệm vụ dự đoán lớp đối tượng và cải tién vị tri bounding box của đối tượng. Với số lượng ảnh mỗi batch là 384 (BATCH_SIZE_PER_IMAGE) tương ứng POSITIVE_FRACTION với tỷ lệ phần trăm các ROI được lay mẫu mà sẽ được gan nhãn là positive trong quá trình huấn luyện là 0.5, cho thấy răng một nửa số lượng ROI mẫu sẽ là positive. Với ngưỡng SCORE_THRESH là 0.2 thì những bounding box nhỏ hơn 0.2 sẽ bị lượt bỏ. Và cuối

44

cùng là DETECTIONS_PER_IMG và MIN_DETECTIONS_PER_IMG là số lượng

dự đoán nhiều nhất và nhỏ nhất mỗi ảnh.

4.1.3. Mô hình Meshed Memory Transformer

Về phần Vision Embedding của mô hình chúng tôi sử dụng cấu trúc Feature Embedding dé tao ra biéu diễn hình ảnh với kích thức đặc trưng là 2048 sao cho khớp với kích thước đầu ra đã được trích xuất từ mô hình VinVL và cũng được áp dụng một tỷ lệ dropout tương ứng là 0.1 để giảm thiểu overfitting. Tiếp theo, đến với phần Encoder của mô hình, chúng tôi sử dụng kiến trúc Multilevel Encoder với kích thước đầu ra là 512 và bao gồm 3 lớp với tỷ lệ dropout là 0.1 để giảm thiểu hiện tượng

overfit. Tương ứng các lớp này được tích hợp phương pháp tự chú ý (self-attention)

dé câu trúc thông tin và tạo các kết nói giữa các thành phan của đầu vào. Self-attention

được cài đặt dựa trên kiến trúc Augmented Memory Scaled Dot Product Attention,

với 8 head và các kích thước key, value, và feed-forward được định rõ. Cuối cùng,

với bộ Decoder, chúng tôi sử dụng kiến trúc Meshed Decoder với kích thước đầu ra

là 512 và gồm 3 lớp tương ứng với lớp Encoder. Trong quá trình giải mã, attention được áp dung dé tạo ra các kết nói giữa các thành phan của đầu ra và các biểu diễn từ

bộ mã hóa. Đặc biệt, self-attention và attention giữa bộ giải mã và bộ mã hóa được

sử dụng dé tạo ra các kết nôi thông qua các lớp va head tương ứng.

4.1.4. Mô hình Object Relation Transformer

Chúng tôi thực hiện thiết lập mô hình Object Relation Transformer với những tham

SỐ tương tự như mô hình M2, phần Vision Embedding của mô hình được khởi tạo với kích thước đặc trưng là 2048 tương ứng với độ dài của vector đặc trưng trích xuất từ VinVL. Ở phần Encoder, chúng tôi áp dung Geometric Encoder với kích thước đầu ra

là 512 và gồm 3 lớp. Trong quá trình mã hóa, self-attention được sử dụng có 8 head

và các kích thước key, value và feed-forward đã được định nghĩa và tương ứng tỷ lệ

45

dropout là 0,1. Với decoder, chúng tôi đặt kích thước đầu ra của nó là 512 với 3 lớp

và được gán tỷ lệ dropout là 0.1.

4.1.5. Cài đặt thực nghiệm học liên tục cho các mô hình

Thông thường, các tham số về mặt chiều dữ liệu ở các lớp mạng trong mô hình học sâu sẽ được định nghĩa cô định cho việc huấn luyện xuyên suốt tập dữ liệu, từ đó các thang số có định này sẽ được cập nhật liên tục dựa trên quá trình tối ưu ham mat mát. Nhưng cách thực nghiệm thông thường này sẽ không thê hoạt động được trên những

hệ thống huấn luyện những loại dit liệu biến thiên liên tục như hệ thống dòng dữ liệu của chúng tôi. Bởi vì số lượng dữ liệu tại mỗi thời điểm sẽ khác đi, dẫn đến số lượng

từ trong bộ từ vựng cũng sẽ được cập nhật liên tục, vì thế sẽ khiến các mô hình bị

xung đột vê các chiêu dữ liệu khác nhau được gan cho các lớp mạng trong mô hình.

, checkpoint['state_di

checkpoint['s

Hình 4.1 Mô ta tinh chỉnh hoc liên tục trên các mô hình

46

Dé tối ưu hóa van dé này, chúng tôi vẫn sẽ sử dụng phương pháp học chuyền tiếp, dé huấn luyện dựa trên checkpoint cũ, nhưng thay vì kế thừa toàn bộ các trọng số từ mô hình cũ, chúng tôi sẽ tinh chỉnh hai bộ trong số từ lớp mạng fully_connected (fc) và word_embeding (word_emb) từ tang decoder. Điều này có thé lý giải vì, những bộ trọng số từ hai lớp mạng này thay đổi chiều dựa trên số lượng từ vựng có trong từ, nên khi cập nhật bộ từ vựng sẽ khiến cho chiều dữ liệu thay đôi. Đề tinh chỉnh những trọng sỐ này, đầu tiên chúng tôi sẽ khởi tạo một ma tran tensor toàn không (zero matrix) có chiều dữ liệu bằng với chiều dữ liệu mới tương ứng với số lượng từ vựng được cập nhật dựa trên dữ liệu mới và chắc chăn sẽ lớn hơn chiều dữ liệu ở của bộ trọng số trong checkpoint cũ, tiếp theo chúng tôi sẽ gán tất cả trọng số từ checkpoint của lớp mạng fc và word_emb lên những chỉ số đầu của ma trận toàn không (zero matrix) để ra được một ma trận với các thông tin được kế thừa từ checkpoint mà không bị xung đột về chiều dữ liệu.

Ví dụ : ma trận tinh chỉnh từ lớp mạng fc ban đầu được khởi tạo với ma trận toàn không [[0,0,0,...,0,0,0,0]] sau khi kế thừa những trọng số từ checkpoint sẽ có dạng như sau [[fc_weight,0,0,0,..,0]], thì từ đó mô hình học sau sẽ van được hoc chuyén tiếp dé cập nhật các trọng số ở những epochs sau mà không can phải tiến hành đào tạo từ đầu.

4.2. Độ đo đánh giá cho mô hình mô tả ảnh tự động

Đề đánh giá hiệu quả của các mô hình mô tả hình ảnh, chúng tôi đã tận dụng các thang đo như BLEU-1, BLEU-2, BLEU-3, BLEU-4, ROUGE và CIDEr. Trong số nay, BLEU (Bilingual Evaluation Understudy) tính điểm dựa trên độ chính xác của

từng từ trong câu mô tả mà mô hình tạo ra và câu mô tả nhãn. BLEU-1 đánh gia độ

trùng lắp của từ riêng lẻ, trong khi BLEU-2, BLEU-3 và BLEU-4 đánh giá độ trùng lắp của các cặp từ liền kề hoặc các cụm từ 3 và 4 từ liên tiếp. Điểm số BLEU được tính bằng trung bình hình học của các độ chính xác n-gram, được trọng sé bang mot

hệ sô phạt dé tính dén độ dài các câu mô ta.

47

Cũng trong việc đo đạc, phương pháp ROUGE (Recall-Oriented Understudy for

Gisting Evaluation) tính toán sự trùng lắp giữa các từ trong câu mô tả mô hình và câu

mô tả tham chiếu. ROUGE-1 và ROUGE-2 đo lường sự trùng lắp của từ riêng lẻ và các cặp từ liền kề, trong khi ROUGE-L tính điểm dựa trên độ dài của dãy con chung dài nhất (LCS) giữa hai câu mô tả. Điểm số ROUGE được tính bằng độ chính xác,

độ bao phủ và Fl-score của các phần chồng lắp (unigram, bigram hoặc LCS) giữa

câu mô tả dự đoán và câu mô tả nhãn.

Cuối cùng, phương pháp CIDEr (Consensus-based Image Description Evaluation) tính điểm dựa trên sự tương đồng giữa câu mô tả mô hình và câu mô tả nhãn. CIDEr tính toán độ tương đồng TF-IDF (Term Frequency-Inverse Document Frequency) giữa câu mô tả mô hình và mỗi câu mô tả tham chiếu, sau đó lẫy trung bình của các

độ tương đồng này. Điểm CIDEr cuối cùng được tính bang cách áp dụng hàm logarithmic cho giá trị trung bình của độ tương đồng TF-IDF và trọng số các điểm bang một thành phan tần số xuất hiện của từ (TF). CIDEr đánh giá tính đa dang và phong phú của ngôn ngữ trong câu mô tả mô hình thông qua việc xem xét tần số xuất

hiện của từ và tân sô nghịch đảo của tài liệu.

4.3. Dữ liệu thực nghiệm

Ở đề tài này, chúng tôi sẽ tiễn hành thực nghiệm các mô hình dựa trên dữ liệu được thu thập từ hệ thống streaming. Trong quá trình thực nghiệm, hệ thống streaming của chúng tôi trải qua sàn lọc hơn 40000 tam ảnh va câu mô tả, sau khi san lọc và tăng cường kết qua thu về được 6000 ảnh. Những tam ảnh và câu mô ta này được hệ thống đánh giá là phù hợp và đủ tiêu chuẩn dé đưa vào huấn luyện giúp các mô hình có khả năng nhận diện và đưa ra câu mô tả chính xác nhất với các dit liệu đa nền tảng. Ngoài

ra, nhóm chúng tôi cũng tiến hành kết hợp huấn luyện mô hình trên bộ dữ liệu UIT- ViIC để đánh giá và phân tích khả năng ghi nhớ các thông tin đặc trưng cũ được học trong quá trình học liên tục cũng như dùng dé so sánh hiệu suất các mô hình thực

nghiệm.

48

Với dữ liệu kiêm thử, để tăng tính tổng quát hóa cho các kết quả thực nghiệm, chúng tôi quyết định sử dụng 2 bộ dữ liệu dùng dé đánh giá va đào tao cho các mô hình mô

tả ảnh tự động. Đầu tiên, chúng tôi sử dụng một bộ dữ liệu do chúng tôi tự xây dựng

va dán nhãn chi dùng dé kiểm thử kết quả của mô hình có số lượng 769 anh với mỗi ảnh bao gồm | câu mô tả được gan nhãn bang tay. Những ảnh này được chúng tôi thu thập ngẫu nhiên từ nguồn của Wikipedia va sử dụng công cụ nhóm tự phát triển dé tiến hành dan nhãn. Bộ dit liệu thứ hai đó là UIT-ViIC với tổng số lượng bộ dit liệu vào khoảng 4000 ảnh với mỗi ảnh bao gồm 5 câu mô tả về chủ đề thể thao. Với mỗi

bộ đữ liệu chúng tôi sử dụng cho các mục đích khác nhau dùng đề đánh giá trên nhiều

khía cạnh của mô hình mô tả hình ảnh.

4.4. Cài đặt, phân tích và đánh giá thực nghiệm

a. Đánh giá hiệu suât các mô hình Transformer với các nghiên cứu trước trên

bộ UIT-ViIC

Để chứng minh hiệu suất những mô hình được chúng tôi thực nghiệm có thé dat duoc kết quả tối ưu nhất trên hệ thống streaming dữ liệu được đề xuất trong đề tài, chúng tôi tiến hành thực nghiệm để so sánh kết quả với nghiên cứu gần đây nhất liên quan đến bài toàn mô tả ảnh tự động trên tiếng Việt là nghiên cứu đề xuất bộ dữ liệu UIT- ViIC. Trong nghiên cứu này, tác giả thực nghiệm hai mô hình mô ta ảnh tự động dé đánh giá kết quả trên bộ dit liệu này, đó là NIC (Show and Tell) [48] và Pytorch- tutorials [49] mô hình. Dựa vào Bảng 4.7, chúng tôi có thé nhận định rằng hai mô hình Transformer chúng tôi đề xuất thực nghiệm cho đề tài có kết quả vượt trội hoàn toàn so với các nghiên cứu trước đây ở bài toán mô tả ảnh tự động bằng tiếng Việt. Trong đó có thé chú ý rang, phương pháp M2 có các chỉ số vượt trội nhất ở 5 thang

đó là Bleu-1,2,3,4 và ROUGE-L với các chỉ số Bleu chênh lệch từ 3%-6% so với hai

mô hình thực nghiệm trong bai báo của UTT-VIIC, trong khi đó phương pháp ORT

có chỉ số CIDEr-D vượt trội nhất trong 4 phương pháp được so sánh trong bảng bên

dưới với 1.357 đơn vi.

49

Mô hình /Thang ROUG | CIDEr-

Bleu-1 | Bleu-2 | Bleu-3 | Bleu-4

đo E-L D Meshed

Memory 0.746 0.638 0.55 0.48 0.643 1.34 Transformer*

Object Relation

0.734 0.619 0.534 0.467 0.636 1.357 Transformer *

Show and Tell

0.682 0.561 0.411 0.327 0.599 0.818 (NIC)

Pytorch-tutorial

0.71 0.575 0.476 0.394 0.626 1.005

mô hình

Bang 4.1: Kết quả mô hình Transformer

b. Đánh giá hiệu quả của mô hình VinVL

Bên cạnh đó, ở đề tài lần này, chúng tôi cũng thử nghiệm dé cải tiến các mô hình mô

tả ảnh tự động bằng một phương pháp trích xuất đặc trưng mới, đó là VinVL để so

sánh với phương pháp được các tác giả của hai mô hình Transformer (M2 và ORT)

đề xuất là Bottom-up and Top-down. Điều này nhằm mục đích tôi ưu hiệu suất của

mô hình đảo tạo trên dữ liệu từ hệ thống streaming. Chúng tôi thực nghiệm chứng minh giả thuyết này bằng cách tiến hành kiểm thử hai mô hình M2 và ORT khi sử dụng phương pháp Bottom-up and Top-down dé dao tạo trên tập dữ liệu UIT-ViIC,

và sử dụng kết quả nay dé so sánh với kết quả kiểm thử hai mô hình M2 và ORT khi

sử dụng phương pháp VinVL dé trích xuất đặc trưng. Dựa vào bảng bên dưới, kết qua chi ra rằng việc áp dụng phương pháp VinVL tạo nên thay đổi đáng kế cho các mô hình thực nghiệm. Với mô hình M2, kết quả đã tăng khoảng 2-3% ở các thang đo

Bleu-1, ROUGE-L và CIDEr-D, trong khi đó giảm khoảng 0.5%-1% ở 3 thang do

còn lại, vì vậy kết quả tổng quan với mô hình M2 khi sử dụng VinVL vẫn cho kết quả khả quan. Bên cạnh đó, thực nghiệm VinVL trên mô hình ORT lại cho kết quả

50

Một phần của tài liệu Khóa luận tốt nghiệp Khoa học dữ liệu: Xây dựng hệ thống mô tả ảnh theo thời gian thực cho ứng dụng dữ liệu lớn (Trang 49 - 67)

Tải bản đầy đủ (PDF)

(84 trang)