Bài toán trả lời câu hỏi trực quan (VQA) là bài toán kết hợp thị giác máy tính và xử lý ngôn ngữ tự nhiên. Trong bài viết này, chúng tôi trình bày các chiến lược xây dựng bộ dữ liệu VQA mới bằng tiếng Việt, Flickr8k-ViQA, bằng cách sinh tự động các cặp câu hỏi – câu trả lời từ những chú thích của bộ dữ liệu Flickr8k.
XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN (VISUAL QUESTION ANSWERING) VĨNH ANH NGHIÊM QUÂN*, NGUYỄN THỊ LAN ANH NGUYỄN LÊ TRUNG THÀNH, ĐINH THỊ DIỆU MINH Khoa Tin học, Trường Đại học Sư phạm, Đại học Huế * Email: vinhanhnghiemquan@dhsphue.edu.vn Tóm tắt: Bài toán trả lời câu hỏi trực quan (VQA) tốn kết hợp thị giác máy tính xử lý ngôn ngữ tự nhiên Trong báo này, chúng tơi trình bày chiến lược xây dựng liệu VQA tiếng Việt, Flickr8k-ViQA, cách sinh tự động cặp câu hỏi – câu trả lời từ thích liệu Flickr8k Chúng mô tả công cụ sử dụng, phân tích trở ngại gặp phải q trình xây dựng cách khắc phục, đồng thời đề xuất cách đánh giá mơ hình liệu Từ khóa: Trả lời câu hỏi trực quan, sinh câu hỏi tự động, sinh câu hỏi trực quan MỞ ĐẦU Được đề xuất từ năm 2015 [1], toán trả lời câu hỏi trực quan (Visual Question Answering) kết hợp hai lĩnh vực quan trọng học máy (Machine Learning) thị giác máy tính (Computer Vision) xử lý ngôn ngữ tự nhiên (Natural Language Processing) Dựa vào hình ảnh câu hỏi ngơn ngữ tự nhiên hình ảnh đó, mơ hình phải đưa câu trả lời tương ứng ngôn ngữ tự nhiên Do câu hỏi tập trung vào vùng khác hình ảnh (tiền cảnh – foreground, hậu cảnh – background, ngữ cảnh – context chi tiết khác) nên địi hỏi mơ hình vừa phải nhận biết phận ảnh, vừa phải kết hợp phận với câu hỏi suy luận câu trả lời [1] Các nghiên cứu tiếng Việt toán gặp trở ngại chung, thiếu liệu huấn luyện kiểm thử tiếng Việt Do khác biệt ngữ pháp văn phạm nên việc huấn luyên liệu tiếng Anh hay ngôn ngữ khác áp dụng vào tiếng Việt không khả thi Từ ý tưởng Ren cộng [2], báo này, đề xuất thuật toán cho phép sinh cặp câu hỏi – câu trả lời từ câu mô tả hình ảnh, vốn tồn với số lượng lớn Từ đây, tạo liệu cho toán VQA tiếng Việt: Flickr8k-ViQA Cấu trúc viết sau: mục trình bày trình bày trình xây dựng liệu; mục mơ tả cách đánh giá mơ hình liệu mục phần kết luận Tạp chí Khoa học, Trường Đại học Sư phạm, Đại học Huế ISSN 1859-1612, Số 3(59)/2021: tr.138-147 Ngày nhận bài: 25/3/2021; Hoàn thành phản biện: 29/3/2021; Ngày nhận đăng: 30/3/2021 XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN… 139 XÂY DỰNG BỘ DỮ LIỆU 2.1 Cách tiếp cận Trong báo này, hướng đến xây dựng liệu VQA dựa liệu Flickr8k [3], gồm 8,000 hình ảnh 40,000 câu thích (5 câu thích cho hình ảnh) Khi xem xét hướng tiếp cận để xây dựng liệu, Ren cộng [2], cân nhắc phương án sau: Thuê nhân lực đặt câu hỏi – câu trả lời Sinh câu trả lời tự động từ nhãn vật thể (object label) phát từ ảnh Sinh câu trả lời tự động từ thích ảnh (image caption) cung cấp sẵn liệu Phương án (1) đem lại chất lượng mặt ngôn ngữ cao cho liệu Tuy nhiên, dễ thấy cách đòi hỏi quy mơ lớn kinh phí thời gian dù áp dụng cho liệu kích cỡ trung bình Flickr8k (8,000 hình ảnh 40,000 câu thích) Việc sinh tự động cặp câu hỏi – câu trả lời dựa vào thích ảnh có sẵn theo phương án (3) đem lại nhiều lợi ích: (i) Có thể tận dụng số lượng có sẵn thích ảnh từ liệu; (ii) Như minh họa Hình 1, cặp câu hỏi sinh cách giữ tính đa dạng mặt ngơn ngữ thích, khiến chúng gần với câu hỏi người đặt so với câu hỏi sinh từ nhãn (label) vật thể phát ảnh; (iii) Việc sinh tự động giúp hạn chế tối đa việc cần đến can thiệp người trình xây dựng liệu, cho phép sinh số lượng lớn mẫu liệu VQA thời gian ngắn với chi phí tối thiểu Flickr8k 2218743570_9d6614c51c Nhãn: cat, dog Câu hỏi đặt theo nhãn: Which animal is in the picture? How many animals are in the picture? Chú thích #0: A black cat hugging a white and gray dog Câu hỏi đặt theo thích: Which animal is hugging the white and gray dog? The black cat is hugging which animal? What color is the cat? What color is the cat hugging the white and gray dog? What color is the dog? What color is the dog being hugged by the black cat? How many cats are hugging the white and gray dog? How many dogs are being hugged by the black cat? Hình Việc sinh tự động câu hỏi từ thích (caption) thay nhãn (label) giúp giữ tính đa dạng mặt ngơn ngữ câu hỏi Chú thích #0 thích thích ảnh có id 2218743570_9d6614c51c VĨNH ANH NGHIÊM QUÂN cs 140 2.2 Cơng cụ Để chuyển đổi câu thích thành câu hỏi, trước tiên phải xác định thành phần ngữ pháp câu thích thơng qua việc gắn nhãn (part-of-speech tagging) cho từ câu Chúng xem xét sử dụng thư viện: Underthesea Toolkit [7] Under The Sea, Stanza [8] Stanford NLP Group Trankit [9] Oregon NLP Group Trong đó, Underthesea cơng cụ thiết kế chuyên biệt cho tiếng Việt nên hỗ trợ nhãn từ loại chuyên biệt XPOS Hai công cụ cịn lại xử lý đa ngơn ngữ (trong có tiếng Việt) hỗ trợ UPOS (nhãn từ loại thống nhất) Danh sách nhãn liệt kê Bảng Qua số thực nghiệm minh họa Hình Hình 3, chúng tơi định sử dụng Trankit đem lại kết gắn nhãn đầy đủ xác Underthesea (XPOS) Stanza (UPOS) Trankit (UPOS) Hình Ví dụ gắn nhãn công cụ Underthesea, Stanza Trankit Dễ thấy Underthesea phát tốt danh từ loại “con” (Nc XPOS) phụ từ “đang” (R XPOS), để lọt giới từ “qua” (E XPOS hay ADP UPOS) – sở quan trọng để đặt câu hỏi địa điểm (câu hỏi với từ nghi vấn “đâu”) Stanza (UPOS) Trankit (UPOS) Hình Ví dụ gắn nhãn cho cấu trúc câu phức tạp Stanza Trankit Trong câu đa giới từ, Trankit phát tốt gắn nhãn đầy đủ hai giới từ “vào” “bằng”, Stanza để lọt giới từ XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN… 141 Bảng Tập nhãn từ loại thống (Universal POS tags / UPOS) [4] nhãn từ loại chuyên biệt cho ngôn ngữ (XPOS) [6] mà cụ thể tiếng Việt No 10 11 12 13 14 15 16 17 Tag ADJ ADP ADV AUX CCONJ DET INTJ NOUN NUM PART PRON PROPN PUNCT SCONJ SYM VERB X Description adjective adposition adverb auxiliary coordinating conjunction determiner interjection noun numeral particle pronoun proper noun punctuation subordinating conjunction symbol verb other STT 10 11 12 13 14 15 16 17 Tên N Np Nc Nu V A P L M R E C I T U Y X Chú thích Danh từ Danh từ riêng Danh từ loại Danh từ đơn vị Động từ Tính từ Đại từ Định từ Số từ Phụ từ Giới từ Liên từ Thán từ Trợ từ, tiểu từ, từ tình thái Từ đơn lẻ Từ viết tắt Các từ không phân loại 2.3 Tiền xử lý Chúng thực bước tiền xử lý [2], với nhiều thay đổi cho phù hợp với toán tiếng Việt 2.3.1 Tách câu ghép thành câu đơn Trong [2], tác giả đề xuất phân tách câu ghép thành câu cách đơn giản xác định vị trí từ liên kết (conjunctive word, nhãn CCONJ SCONJ) “and” (và) “while” (trong khi), sau tách mệnh đề vị trí thành câu đơn Bảng Ví dụ phân tách mệnh đề câu ghép thành câu đơn STT Câu gốc Một đứa trẻ tập đánh bóng chày vào lưới hai người lớn đứng xem Một cô gái châu Á đội mũ xanh đeo tạp dề phục vụ đồ uống khay Sau xử lý Một đứa trẻ tập đánh bóng chày vào lưới Hai người lớn đứng xem Một cô gái châu Á đội mũ xanh * Đeo tạp dề phục vụ đồ uống khay Ở ví dụ 2, liên từ sử dụng để kết nối cụm động từ khiến việc tách câu khơng cịn xác vốn khơng phải câu ghép Như ví dụ Bảng 2, cách khơng tính đến trường hợp liên từ sử dụng để kết nối cụm danh từ / cụm động từ thay mệnh đề Để khắc phục nhược điểm này, chúng tơi tiến hành tách câu vị trí liên từ xác định trước sau liên từ hai mệnh đề (có danh từ - nhãn NOUN - đứng trước động từ - nhãn VERB) VĨNH ANH NGHIÊM QUÂN cs 142 2.3.2 Chuyển mạo từ xác định thành không xác định Ren cộng [2] thay mạo từ không xác định “a(n)” (nhãn DET) câu thích thành mạo từ xác định “the” chuyển thành câu hỏi ví dụ Bảng Trong trường hợp này, nhận thấy: Mạo từ không xác định “a(n)” trở thành số từ (nhãn NUM) số “một” dịch qua tiếng Việt Trong tiếng Việt không phân biệt chặt chẽ danh từ xác định không xác định mạo từ tiếng Anh Do đó, đề xuất: (i) lược bỏ số từ trường hợp số từ số số (ví dụ Bảng 3) (ii) thay số từ định từ “những” trường hợp số từ số nhiều số nhiều (ví dụ Bảng 3) Bảng Ví dụ chuyển đổi mạo từ tiếng Anh số từ tiếng Việt chuyển từ câu thích (thể xác định) thành câu hỏi (thể nghi vấn) STT Câu thích Câu hỏi A small yellow dog runs on a beach Where does the small yellow dog run? Một chó nhỏ màu vàng chạy bãi Con chó nhỏ màu vàng chạy đâu? biển Hai chó chơi bãi biển Những chó chơi đâu? 2.3.3 Chuyển vị-wh “Wh” chuyển vị-wh xuất phát từ điểm thú vị tiếng Anh đa phần từ nghi vấn bắt đầu “wh”: who, what, where, which, v.v Theo [5], ngôn ngữ nghịch đảo (cấu trúc câu hỏi ngược với câu xác định) tiếng Anh nhiều ngôn ngữ phương Tây khác, việc chuyển từ câu xác định thành câu hỏi phải trải qua quy tắc biến hình chuyển vị-wh (wh-movement) ví dụ Bảng Đối với tiếng Anh, q trình chuyển vị-wh tóm tắt sau: Yếu tố hỏi thay từ nghi vấn (wh-word) Từ nghi vấn di chuyển lên đầu câu (do phép chuyển vị-wh biết với tên wh-fronting tiếng Anh) Thêm trợ động từ (auxiliary verb) chưa có sẵn thực phép đảo trật tự từ nghi vấn chủ ngữ Phép chuyển vị-wh trở nên khó xử lý cấu trúc câu trở nên phức tạp ví dụ Bảng Tuy nhiên, tiếng Việt, từ nghi vấn không bị chuyển vị mà thường giữ nguyên vị trí chúng câu xác định (wh-in situ, tạm dịch wh vị) Việc đảo ngữ không diễn câu nghi vấn tiếng Việt Do đó, chuyển đổi từ câu thích (thể xác định) thành câu hỏi (thể nghi vấn), cần giữ nguyên câu trúc ban đầu thay yếu tố hỏi từ nghi vấn ví dụ Bảng XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN… 143 Bảng Minh họa chuyển vị từ nghi vấn tiếng Anh tiếng Việt STT Câu thích A grey dog is leaping over a fallen tree A person eats takeout while watching a small television Một người ăn đồ ăn mang xem tivi nhỏ Câu hỏi What is the grey dog leaping over? What does the person watch while eating takeout? Một người ăn đồ ăn mang xem gì? Trong ví dụ 2, phép chuyển vị-wh tương đối phức tạp vị ngữ chứa hai cụm động từ Cũng câu dịch thành tiếng Việt ví dụ 3, việc chuyển đổi thành câu hỏi trở nên dễ dàng nhiều việc đưa từ nghi vấn “gì” vào thay yếu tố hỏi cuối câu mà không cần thực phép chuyển vị đầu câu 2.4 Sinh câu hỏi tự động Trong [2], tác giả tập trung vào bốn dạng câu hỏi wh sau: Câu hỏi “what”: Ý tưởng Ren cộng trường hợp duyệt câu thích tiền xử lý, xác định danh từ (noun categories) WordNet thay chúng “what” trước thực phép chuyển vị Do chưa có mạng từ tiếng Việt hoàn chỉnh tương đương WordNet, tạm sử dụng danh sách danh từ tiếng Việt trích xuất từ dự án Mạng từ tiếng Việt tập trung thay danh từ người (mục noun.person) thành “ai” danh từ động vật (mục noun.animal) thành “con gì” Câu hỏi “how many”: Như [2], chúng tơi tìm số từ câu thay chúng “có bao nhiêu” đầu câu “bao nhiêu” câu Để xác định số từ, chọn từ có nhãn UPOS NUM Câu hỏi “what color”: Ren cộng tìm kiếm tính từ màu sắc, sau tách riêng danh từ liền với tính từ để đặt câu hỏi “what color”, lược bỏ hồn tồn nội dung cịn lại câu thích Do Mạng từ tiếng Việt khơng có sẵn danh sách tính từ màu sắc, dùng cách tiếp cận mã nguồn [2] tự xây dựng danh sách thông qua trích lọc tất tính từ (nhãn ADJ) tìm thấy gắn nhãn cho liệu Sau đó, chúng tơi thay tất tính từ nằm danh sách “màu gì” Câu hỏi “where”: Đối với trường hợp này, Ren cộng [2] xét cụm giới từ bắt đầu giới từ “in” loại bỏ trường hợp nội dung sau trang phục (Vd: a man in black shirt), sau thay nội dung sau “where” Chúng mở rộng danh sách giới từ (nhãn ADP) bao gồm “trên”, “dưới”, “trong”, “vào”, “lên”, “trước”, “sau” thay nội dung sau “đâu” Ren cộng [2] sử dụng yếu tố hỏi làm câu trả lời (câu trả lời từ nhất) ví dụ Bảng Điều giúp đưa toán VQA trở toán phân lớp, với từ dùng để trả lời nhãn lớp VĨNH ANH NGHIÊM QUÂN cs 144 Trong báo này, đề xuất thêm câu trả lời đầy đủ cách đưa ngược yếu tố hỏi vào thay từ nghi vấn câu hỏi ví dụ Bảng Bảng Câu trả lời từ (one word answer) câu trả lời đầy đủ STT Câu thích A little girl in a pink dress going into a wooden cabin Một cô bé mặc váy hồng vào nhà gỗ Câu hỏi Câu trả lời What color is the dress? pink Cơ bé mặc váy màu vào nhà gỗ? hồng Cô bé mặc váy hồng vào nhà gỗ 2.5 Bộ liệu flickr8k-viqa Để có thích tiếng Việt, chúng tơi sử dụng phương thức dịch máy từ tiếng Anh sang tiếng Việt cho liệu Flickr8k Sau áp dụng bước đề cập mục trước, xây dựng liệu mới: Flickr8k-ViQA (Flickr8k – Vietnamese Question Answering) với số lượng 200,000 cặp câu hỏi – câu trả lời Bảng Thống kê sơ bộ liệu Flickr8k-ViQA LOẠI CÂU HỎI AI CON GÌ BAO NHIÊU MÀU GÌ Ở ĐÂU TỔNG CỘNG SỐ LƯỢNG 29,792 11,992 110,125 20,747 27,728 200,384 % 14.87% 5.98% 54.96% 10.35% 13.84% 100.00% Flickr8k 332045444_583acaefc3 Chú thích #0: (Tiếng Anh) A little white curly haired dog runs across the pavement with a stick in its mouth (Tiếng Việt) Một chó lơng xoăn nhỏ màu trắng chạy vỉa hè với que miệng Câu hỏi: Con lơng xoăn nhỏ màu trắng chạy vỉa hè với que miệng? Có chó lơng xoăn nhỏ màu trắng chạy vỉa hè với quen miệng? Con chó lơng xoăn nhỏ màu chạy vỉa hè với quen miệng? Con chó lông xoăn nhỏ màu trắng chạy đâu? Câu trả lời từ: chó trắng vỉa_hè Hình Ví dụ mẫu liệu Flickr8k-ViQA Từ thích ban đầu sinh cặp câu hỏi – câu trả lời khác XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN… 145 THANG ĐO Vấn đề toán VQA để đánh giá xem câu trả lời mơ hình xác hay chưa Trong [2], tác giả xét câu trả lời từ để đưa tốn tốn phân lớp, sau sử dụng độ tương đồng Wu-Palmer (WUPS – Wu-Palmer Similarity) [11] để đánh giá câu trả lời: 𝑊𝑈𝑃𝑆(𝑤1, 𝑤2) = × 𝑑𝑒𝑝𝑡ℎ(𝑙𝑐𝑠(𝑠1, 𝑠2)) (𝑑𝑒𝑝𝑡ℎ(𝑠1) + 𝑑𝑒𝑝𝑡ℎ(𝑠2)) Trong đó: s1 s2 tập synset (tập khái niệm) chứa w1 w2 depth độ sâu tập synset lcs (least common subsumer) hay lowest common ancestor s1 s2 tập synset sâu chứa hai tập s1 s2 Hình Ví dụ độ tương đồng Wu-Palmer với WordNet tiếng Anh Trong trường hợp này, “cat” “dog” có độ sâu 14, synset chung gần chúng “carnivore” có độ sâu 12 Theo cơng thức trên, WUPS(“dog”,”cat)≈0.8571 Do độ đo phụ thuộc chặt chẽ vào WordNet tiếng Anh mạng từ tiếng Việt [10] chưa hoàn thiện (như đề cập mục trước), đề xuất hai phương án đánh giá câu trả lời từ sau: Dịch câu trả lời dự đốn mơ hình câu trả lời liệu tiếng Anh tính độ tương đồng Wu-Palmer Vì câu trả lời từ nên việc dịch tiếng Anh không phức tạp so với việc dịch câu trả lời đầy đủ Cách giúp tận dụng WordNet tiếng Anh để tính WUPS Biểu diễn câu trả lời dự đốn mơ hình lẫn câu trả lời liệu lên không gian vectơ (chẳng hạn Word2Vec), sau tính độ tương đồng vectơ công thức: 𝐴 𝐵 𝑠𝑖𝑚𝑖𝑙𝑎𝑟𝑖𝑡𝑦 = cos(𝜃) = = ‖𝐴‖‖𝐵‖ ∑𝑛𝑖=1 𝐴𝑖 𝐵𝑖 √∑𝑛𝑖=1 𝐴𝑖 √∑𝑛𝑖=1 𝐵𝑖 Trong A B biểu diễn vectơ (word embedding) câu trả lời dự đoán mơ hình câu trả lời liệu Cách giúp tận dụng tính chất word embedding từ có chức ngữ nghĩa tương đồng hướng giống không gian VĨNH ANH NGHIÊM QUÂN cs 146 vectơ Do giá trị cosine góc hai vectơ sử dụng để đại diện cho độ tương đồng mặt ngữ nghĩa hai từ Tuy nhiên, khác với độ tương đồng Wu-Palmer, độ tương đồng tính theo cách phụ thuộc lớn vào mơ hình lựa chọn (CBOW – Continuos Bag Of Words hay SkipGram) ngữ liệu văn (text corpora) dùng để huấn luyện mơ hình Do đó, để đảm bảo tính thống kết đánh để tiện đối chiếu so sánh, chúng tơi kiến nghị cần nêu rõ mơ hình chọn liệu dùng để huấn luyện sử dụng độ tương đồng Đối với câu trả lời hồn chỉnh, chúng tơi đề xuất sử dụng độ đo hay sử dụng dịch máy (machine translation) BLEU (Bilingual Evaluation Understudy) [12] KẾT LUẬN Qua báo này, xây dựng liệu VQA tiếng Việt mang tên Flickr8k-ViQA từ liệu Flickr8k Cách sinh tự động cặp câu hỏi – câu trả lời từ câu thích báo áp dụng cho liệu tương tự Chúng tơi trình bày sơ thang đo giúp đánh giá mơ hình sử dụng liệu Do hạn chế mặt thời gian, chưa cung cấp hiệu tối thiểu (baseline) để làm giá trị tham khảo xây dựng mơ hình Việc so sánh, đối chiếu hiệu mô hình sử dụng liệu tiền đề quan trọng để phát triển toán VQA tiếng Việt tương lai Flickr8k 1093737381_b313cd49ff Chú thích #0: (Tiếng Anh) A woman in a blue dress stands with a chalk portrait of two children playing by a stream (Tiếng Việt) Một người phụ nữ mặc váy xanh đứng với chân dung phấn hai đứa trẻ chơi đùa bên dịng suối Câu hỏi: Có người phụ nữ mặc váy xanh đứng với chân dung phấn hai đứa trẻ chơi đùa bên dòng suối? Người phụ nữ mặc váy xanh đứng với chân dung phấn đứa trẻ chơi đùa bên dòng suối? Người phụ nữ mặc váy màu đứng với chân dung phấn hai đứa trẻ chơi đùa bên dòng suối? Câu trả lời từ: hai xanh Hình Một ví dụ khác Flickr8k-ViQA Từ thích ban đầu sinh cặp câu hỏi – câu trả lời khác XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN… 147 TÀI LIỆU THAM KHẢO [1] Antol, Stanislaw, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh Vqa: Visual question answering In Proceedings of the IEEE international conference on computer vision, pp 2425-2433 2015 [2] Ren, Mengye, Ryan Kiros, and Richard Zemel Exploring models and data for image question answering arXiv preprint arXiv:1505.02074 (2015) [3] Hodosh, Micah, Peter Young, and Julia Hockenmaier Framing image description as a ranking task: Data, models and evaluation metrics Journal of Artificial Intelligence Research 47 (2013): 853-899 [4] Nivre, Joakim, Marie-Catherine de Marneffe, Filip Ginter, Jan Hajič, Christopher D Manning, Sampo Pyysalo, Sebastian Schuster, Francis Tyers, and Daniel Zeman (2020) Universal dependencies v2: An evergrowing multilingual treebank collection arXiv preprint arXiv:2004.10643 [5] Dũng Vũ (2003) Tiếng Việt Ngôn ngữ học đại – Sơ khảo cú pháp Stuttgart: VIET [6] Thái, N P., Lương, V X., & Huyền, N T M (2008) Xây dựng Treebank tiếng Việt Kỷ yếu hội thảo ICTrda08-VLSP [7] Under The Sea (2021) Vietnamese NLP Research Group, Underthesea - Open-source Vietnamese Natural Language Process Toolkit [Online] Available: https://github.com/undertheseanlp/underthesea [Access Mar 20, 2021] [8] Qi, Peng, Yuhao Zhang, Yuhui Zhang, Jason Bolton, and Christopher D Manning (2020) Stanza: A Python natural language processing toolkit for many human languages arXiv preprint arXiv:2003.07082 [9] Nguyen, Minh, Viet Lai, Amir Pouran Ben Veyseh, and Thien Huu Nguyen (2021) Trankit: A Light-Weight Transformer-based Toolkit for Multilingual Natural Language Processing arXiv preprint arXiv:2101.03289 [10] Asianwordnet (2018) Mạng từ tiếng Việt [Online] Available: http://viet.wordnet.vn/wnms/ (Access Apr 15 2018) [11] Wu, Zhibiao, and Martha Palmer (1994) Verb semantics and lexical selection arXiv preprint cmp-lg/9406033 [12] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu (2002) Bleu: a method for automatic evaluation of machine translation In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, pp 311-318 Title: VISUAL QUESTION ANSWERING FOR VIETNAMESE: DATASET AND EVALUATION METRICS Abstract: Visual Question Answering (VQA) combines both computer vision and natural language processing In this paper, we present strategies for building a new Vietnamese VQA dataset, Flickr8k-ViQA, by automatically generating question-answer pairs from Flickr8k dataset annotations We describe the tools used for the project, discuss the challenges we learned and solved during the process, and propose the metrics to evaluate models on this data set Keywords: Visual question answering, automatic question synthesis, visual question generation ...XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN? ?? 139 XÂY DỰNG BỘ DỮ LIỆU 2.1 Cách tiếp cận Trong báo này, hướng đến xây dựng liệu VQA dựa liệu Flickr8k [3],... đâu? Câu trả lời từ: chó trắng vỉa_hè Hình Ví dụ mẫu liệu Flickr8k-ViQA Từ thích ban đầu sinh cặp câu hỏi – câu trả lời khác XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN? ??... dòng suối? Câu trả lời từ: hai xanh Hình Một ví dụ khác Flickr8k-ViQA Từ thích ban đầu sinh cặp câu hỏi – câu trả lời khác XÂY DỰNG BỘ DỮ LIỆU TIẾNG VIỆT CHO BÀI TOÁN TRẢ LỜI CÂU HỎI TRỰC QUAN? ?? 147