1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Xây dựng hệ thống hỏi đáp dựa trên đọc hiểu tự động cho tiếng Việt

90 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng hệ thống hỏi đáp dựa trên đọc hiểu tự động cho tiếng Việt
Tác giả Dang Van Nhan, Nguyen Le Minh
Người hướng dẫn ThS. Nguyen Van Kiet, TS. Nguyen Luu Thuy Ngan
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 90
Dung lượng 42,4 MB

Nội dung

Xuất phát từ nhu cầu đơn giản nhưng quan trọng là giải đáp thắc mắc của mỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu UIT-ViQuAD 2.0, chúng tôi thật sự mong muốn có thê xây dựng một h

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN

KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

DANG VĂN NHÂN - NGUYEN LE MINH

KHOA LUAN TOT NGHIEP

BUILDING QUESTION ANSWERING SYSTEM BASED ON VIETNAMESE MACHINE READING COMPREHENSION

CU NHAN NGANH CONG NGHE THONG TIN

ĐỊNH HUONG NHAT BẢN

TP HO CHÍ MINH, 2022

Trang 2

DAI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN KHOA KHOA HỌC VÀ KỸ THUẬT THÔNG TIN

DANG VĂN NHÂN - 18521172

NGUYEN LE MINH - 18521106

KHOA LUAN TOT NGHIEP

XAY DUNG HE THONG HOI DAP DUA TREN DOC

HIEU TU DONG CHO TIENG VIET

BUILDING QUESTION ANSWERING SYSTEM BASED ON VIETNAMESE MACHINE READING COMPREHENSION

CU NHAN NGANH CONG NGHE THONG TIN

ĐỊNH HUONG NHẬT BẢN

GIẢNG VIÊN HƯỚNG DẪN

ThS NGUYÊN VĂN KIỆT

TS NGUYÊN LƯU THÙY NGÂN

TP HÒ CHÍ MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng cham khóa luận tốt nghiệp, thành lập theo Quyết định số

TigầYy của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

= — Chủ tịch.

= — Thư ký.

Boece cece cece cent eee e eee eee ene eee ene e en aees — Uy viên

— ne ence eee eee eee ences tne enaeenas — Ủy viên

Trang 4

LỜI CẢM ƠN

Trước tiên, chúng tôi xin gửi lời cảm on và biết ơn sâu sắc đến ThS Nguyễn VănKiệt — thầy chủ nhiệm của lớp CNCL2018 - khoa Khoa Học và Kỹ Thuật Thông Tin —trường Đại học Công Nghệ Thông Tin — Dai học Quốc Gia thành phố Hồ Chí Minh, người

đã tận tình chỉ bảo, giúp đỡ chúng tôi trong suốt thời gian 4 năm Đại học, hướng nghiêncứu khóa luận Và cũng là người đưa ra những ý tưởng, kiểm tra sự phù hợp của luận văn

Kế đến, nhóm xin cảm ơn chân thành đến cô TS Nguyễn Lưu Thùy Ngân là người đồnghướng dẫn cho đề tài khóa luận

Chúng tôi cũng xin gửi lời cảm ơn đến toàn thể các thầy cô trường Đại học Công

Nghệ Thông Tin nói chung và khoa Khoa Hoc và Kỹ Thuật Thông Tin nói riêng đã giảng

dạy, và tạo điều kiện cho chúng tôi trong quá trình học tập và nghiên cứu tại trường Nhữngkiến thức mà chúng tôi nhận được sẽ là hành trang giúp chúng tôi vững bước và tiến xa

trong sự nghiệp tương lai.

Cuối cùng, chúng tôi xin cảm ơn gia đình, bạn bè đặc biệt là tập thể lớp CNCL2018

đã luôn ở bên để cùng nhau thực hiện từng đồ án, vượt qua từng môn học, động viên và

giúp đỡ nhau trong từng khoảnh khắc trong cuộc sống là nguồn cô vũ lớn lao, là động lực

giúp chúng tôi hoàn thành luận văn này.

Chúng tôi đã cô gắng hoàn thành luận văn trong phạm vi và khả năng có thé Tuynhiên sẽ không tránh khỏi những thiếu sót Chúng tôi rất mong nhận được sự cảm thông

và tận tình chỉ bảo của quý thay cô, toàn thé các bạn và hứa rằng không dừng lại con đườnghọc hành tại đây mà sẽ luôn nghiên cứu phát triển trau dồi thêm nhiều kiến thức

Trang 5

ĐẠI HOC QUOC GIA TP HO CHÍMINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN

DE CUONG CHI TIẾT

TEN DE TAI TIENG VIET: XAY DUNG HE THONG HOI DAP DUA TREN

ĐỌC HIỂU TỰ DONG CHO TIENG VIET

TEN DE TAI TIENG ANH: BUILDING QUESTION ANSWERING SYSTEM

BASED ON VIETNAMESE MACHINE READING COMPREHENSION

Cán bộ hướng dẫn: ThS Nguyễn Văn Kiệt

TS Nguyễn Lưu Thùy Ngân

Thời gian thực hiện: Từ tháng 02/2022 đến tháng 06/2022

Sinh viên thực hiện:

Nguyễn Lê Minh - 18521106(@gm.uit.edu.vn) - CNCL2018.2

Dang Văn Nhân - 18521172(@gm.uit.edu.vn) - CNCL2018.2

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện,

kết quả mong đợi của dé tài)

1 Mục tiêu, phạm vi và đối tượng:

Giới thiệu đề tài: Cuộc sống của mỗi người luôn gắn liền với các câu hỏi và câu trả lời

Việc trả lời câu hỏi diễn ra hàng ngày, hàng giờ trong đầu mỗi người dù họ có ý thức

được việc đó hay không Trả lời câu hỏi đôi khi chỉ để giải tỏa sự thắc mắc của mỗi

người như là: “Tại sao con chim lại biết bay?”, “Hôm nay ăn gì?” Nhưng trả lời câu hỏi

đôi khi cũng có thể quyết định số phận của một người: “Tôi nên thi vào trường đại học

A hay B?” Có những câu hỏi có thé được giải đáp dé dàng chỉ với việc tra Google, hỏi

bạn bè, thầy cô, nhưng cũng có những câu hỏi mãi vẫn chưa thé giải đáp được như là:

“Có tồn tại người ngoài hành tinh hay không?” Xuất phát từ nhu cầu đơn giản nhưng

quan trọng là giải đáp thắc mắc của mỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu

UIT-ViQuAD 2.0, chúng tôi thật sự mong muốn có thê xây dựng một hệ thống có thể trả

lời được các câu hỏi đặt ra Thực tế, không phải câu hỏi nào cũng có câu trả lời, và khi

Trang 6

đó câu trả lời tốt nhất nên là “khong biết”, ở đó mô hình đưa ra dự đoán là chuỗi rỗng:

“* Bộ dữ liệu UIT-ViQuAD 2.0 với 23 000 câu hỏi có đáp án và 12 000 câu không thétrả lời sẽ giúp chúng tôi làm việc đó Đầu vào của bài toán là một đoạn văn và câu hỏi

Đầu ra là câu trả lời do mô hình dự đoán dựa vào đoạn văn tương ứng

Bài toán: Machine Reading Comprehension (MRC) là một trong những bài toán đang

noi lên trong những năm gần đây nhằm giải quyết khả năng đọc hiểu văn bản tự động.Van dé đọc hiểu của máy đối với tiếng Việt có độ khó cao hơn so với tiếng Anh Vì tiếngViệt là ngôn ngữ có dấu, nên mô hình phải học từ nhiều ký tự hơn Hơn nữa, nhiều từkhác nhau có nghĩa giống nhau hoặc những từ giống nhau nhưng trong các ngữ cảnhkhác nhau có nghĩa khác nhau rất dễ làm cho mô hình dự đoán sai Đặc biệt là đối vớicác câu hỏi sử dụng từ đồng âm hoặc từ đồng nghĩa Sự phức tạp của bài toán này không

chỉ là tìm câu trả lời cho câu hỏi mà còn phải xác định câu hỏi đó có câu trả lời hay

không Trọng tâm luận văn là tìm câu trả lời đúng cho câu hỏi, vì đa số câu hỏi đều cócâu trả lời Tuy nhiên, vẫn có 1 số trường hợp câu hỏi không có câu trả lời thì mô hìnhcần dự đoán được các trường hợp như vậy Cũng như con người, sẽ có trường hợp cónhững câu hỏi gây khó khăn khiến hệ thống không thê trả lời được Câu hỏi không cócâu trả lời nằm trong những trường hợp sau đây:

Trường hợp 1: Khi hệ thong không truy suất đến được đoạn văn có câu trả lời (khôngtìm được đoạn văn có câu trả lời hoặc đoạn văn có câu trả lời không ton tại trong đữ liệu

được truy xuất)

Trường hợp 2: Khi câu hỏi sai (không thê có câu trả lời chính xác), ví dụ như "Lý do 1

Mục tiêu: Mô hình đạt độ chính xác cao nhất hiện nay trên bộ dữ liệu UIT-ViQuAD 2.0

là mô hình được xây dựng trong cuộc thi VLSP2021-MRC Mô hình top 1 trong cuộc

thi đạt độ chính xác F1=77,241% (đánh giá trên tập test) Mục tiêu của chúng tôi là xây

dựng mô hình đạt độ chính xác >80% trên độ đo F1 Dé đạt được điều đó, chúng tôi đặt

ra các nhiệm vụ là xây dựng hệ thống phải ứng dụng được các phương pháp hiện đại như

retro-reader (ensemble model), multi-hop

Pham vi: Chúng tôi thực hiện xây dựng và đánh giá trên bộ dữ liệu UIT-ViQuAD 2.0.

Đôi tượng: Đôi tượng hướng đên là toàn bộ mọi người, những ai có nhu câu giải đáp

những thắc mặc vê kiên thức nhờ vào trí tuệ nhân tạo.

Trang 7

Bang 1 Các thông số về bộ dữ liệu UIT-ViQuAD 2.0

Tương tự như bộ UIT-ViQuAD 1.0, câu trả lời cho mỗi câu hỏi là một khoảng trích từ đoạn văn UIT-ViQuAD 2.0 có thêm câu trả lời là văn bản rỗng cho câu hỏi không trả

lời được và thêm trường câu trả lời mà mô hình có thể chọn khi không có câu trả lời Vớitập dữ liệu này, hệ thong MRC phải trả lời các câu hỏi khi có thé và xác định khi nào

ngữ cảnh không hỗ trợ câu trả lời Bảng 2 đưa ra ví dụ trường hợp câu hỏi có câu trả lời

và câu hỏi không có câu trả lời:

Passage: Một loại phần mềm giáo dục sau này được thiết kế dé sử dụng trong lớp học Điền hình là các

khác trong phòng Trong khi giáo viên thường chọn sử dụng phần mềm giáo dục từ các loại khác trong hệthống IT, một loại phần mềm giáo dục đã phát triển nhanh được mong đợi sẽ trợ giúp việc giảng dạy tại lớp

học Các chức năng của phần mềm thường rất chuyên dụng và do rất nhiều hãng sản xuất, bao gồm các nhà

xuất bản sách giáo dục

Question 1: Những phần mềm được thiết kế dé sử dụng trong lớp học là loại phần mềm nao?

Answer 1 (Answerable): là các phần mềm được chiếu lên một bảng trắng lớn ở trước lớp và chạy

đồng thời trên màn hình các máy tính khác trong phòng

Question 2: Trong khi giáo viên sử đụng phần mềm giáo duc từ các loại khác trong hệ thống IT, loại

phần mềm của trường UK phát triển nhanh với sự kì vọng như thế nào?

Answer 2 (Unanswerable): <No Answer>

Plausible answer: được mong đợi sẽ trợ giúp việc giảng dạy tại lớp học

Bảng 2 Trường hợp câu hỏi có câu trả lời và không có câu trả lời

3 Phương pháp thực hiện

Quy trình:

Trang 8

Hình đưới mô tả tông quát quy trình nghiên cứu và xây dựng hệ thống của chúng

Phát triển cải tiễn

UIT-ViQuAD2.0

Quy trình trên gồm 3 giai đoạn chính Đầu tiên là tìm hiểu và nghiên cứu các kiến

thức, phương pháp liên quan Sau đó chúng tôi bắt đầu xây dựng hệ thống từ nền tảng

kiến thức thu được Cuối cùng là thực nghiệm đánh giá kết quả và phát triển cải tiến hệthống

3.1 Tìm hiểu và nghiên cứu phương pháp

Chúng tôi bắt đầu thực hiện đồ án bang cách tìm hiểu và nghiên cứu các kiến thứccần thiết Chúng tôi cần giải quyết hai van đề lớn đối với bài toán máy đọc hiểu tiếng

Việt Đầu tiên là khả năng đọc hiểu của máy: cần xây dựng một hệ thống có thé xác định

xem một câu hỏi có trả lời được hay không Thứ hai là sự phúc tạp, các đặc trưng riêng

của tiếng Việt: mô hình cần trích xuất và có thê tận dụng các đặc điểm riêng của tiếng

Việt dé máy có thé hiéu sâu nghĩa của câu hỏi và cho câu trả lời chính xác hơn

Hướng tiếp cận: Hướng tiếp cận đối với bài toán là sử dụng bộ dữ liệu đã được

xây dựng như UIT-ViQuAD 2.0 Bộ dữ liệu sẽ giúp mô hình học được các trường hợp

câu hỏi có câu trả lời hay không Về phương pháp mà nhóm sử dụng được tham khảo từcác phương pháp áp dụng trên bộ dit liệu tiếng Anh SQuAD 2.0 va các bộ dit liệu tương

tự, vì hệ thống này cho tiếng Việt chưa phổ biến Chúng tôi sẽ kết hợp nhiều phương

pháp khác nhau và cải tiễn hơn nữa dé tạo ra một hệ thong đạt hiệu suất cao nhất có thé

Ngoài ra, chúng tôi hiện tại đã có 1 ý tưởng khác biệt so với các mô hình hiện có là sử

dụng thêm mô dun filter, mô đun này đã được chúng tôi áp dung tại cuộc thi VLSP-MRC

2021 và đem lại hiệu quả tốt (giúp tăng 1-2%)

Với sự phát triển của transfer learning (học chuyền giao) trong lĩnh vực NLP, các

pretrained-model được ưa chuộng vì nó tiết kiệm thời gian đào tạo về lượng lớn dữ liệu

để mô hình có thể xử lý tốt một ngôn ngữ và tác vụ cụ thé Cho đến hiện tại, chúng tôi

đã nghiên cứu một số mô hình phô biến cho kết quả tốt về các chủ đề tiếng Việt, các chủ

dé MRC nói chung va MRC Việt Nam nói riêng, vi dụ như PhoBert Invalid source

specified., XLM-RoBERTa [1].

Retro-Reader:

Retro reader là một trong những phương pháp hiện đại nhất đến nay cho bài toán

đọc hiểu tự động Phương pháp được đề xuất cho bộ dữ liệu SQuAD 2.0 (bộ dữ liệu có

Trang 9

cau trúc tương tự với UIT-ViQuAD 2.0) Bài báo của tác giả với phương pháp

Retro-reader lấy cảm hứng từ cách con người giải quyết vấn đề các câu hỏi đọc hiểu tích hợp

2 giai đoạn:

1 Giai đoạn 1: Doc sơ sài dé điều tra ngắn gọn các tương tác tông thé của đoạn văn

và câu hỏi rồi đưa ra phán đoán ban đầu

2 Giai đoạn 2: Đọc chuyên sâu để xác minh câu trả lời và đưa ra dự đoán cuối cùng

Multi-Hop Paragraph Retrieval:

Phương pháp này liên quan đến nhiệm vụ trả lời câu hỏi mã nguồn mở Tác giatrình bay phương pháp này dé lấy ra nhiều đoạn văn hỗ trợ, được lồng vào nhau giữa mộtkho kiến thức lớn, chứa bang chứng cần thiết dé trả lời một câu hỏi nhất định Phương

pháp truy xuất lặp đi lặp lại các đoạn văn hỗ trợ bằng cách hình thành một biéu diễn

vector chung của cả câu hỏi và đoạn văn Việc truy xuất được thực hiện bang cách xem

xét các đại diện cấp câu theo ngữ cảnh của các đoạn văn trong nguồn tri thức Phuong

pháp của tác gia dat được hiệu suất hiện đại trên hai tap đữ liệu nỗi tiếng, SQUAD-Open

và HotpotQA, tương ứng với vai trò là điểm chuan QA miền mở đơn và đa bước Nhiệm

vụ trả lời câu hỏi mã nguồn mở bao gồm 2 tác vụ là truy xuất tài liệu (tầm tài liệu liênquan dựa trên câu hỏi đầu vào) và trả lời câu hỏi dựa trên tài liệu (đề tài chúng tôi đang

tìm hiểu) Bài toán này bao hàm bài toán của chúng tôi Vì vậy, chúng tôi có thé tham

khảo để phát triển cho bài toán của mình

Chúng tôi sẽ tiếp tục nghiên cứu và tìm hiểu các mô hình, phương pháp khác

Công việc này được thực hiện xuyên suốt cả quá trình thực hiện đồ án

3.2 Xây dựng hệ thống

Sau một thời gian tìm hiểu và nghiên cứu, chúng tôi đã xây dựng hệ thống với

XLM-R (Hình 2) và tự phát triển một module output filter(Hình 3)

Processing

Data

Load Data VEIHUNZ

Đầu tiên, chúng tôi tải dữ liệu train lên và thực hiện xử lý đữ liệu, chia thành từngcụm gồm: Đoạn văn, câu hỏi, câu trả lời Dữ liệu test chia thành từng cụm gồm: Đoạnvăn và câu hỏi Dé mô hình có thể hiểu được ngôn ngữ của con người chúng tôi cần tiến

hành mã hóa các đoạn văn, câu hỏi và câu trả lời (encode data) với mô hình XLM-R,

tương ứng với đó là tokenizer cho XLM-R Cả mô hình và tokenizer cho XLM-R đã

được huấn luyện trước, chúng tôi chỉ tải về và sử dụng lại Chúng tôi tiến hành mã hóa

và trích xuất ra các thông tin quan trọng cần cho việc huấn luyện mô hình Sau đó, tiến

hành đào tạo mô hình qua 3-4 epoch Với các tham số được huấn luyện, mô hình sẽ tìm

Trang 10

ra các vi tri bat dau và kêt thúc từ đoạn văn Câu trả lời được chon là câu trả lời có tích

vô hướng vi trí bat dau và vi trí kêt thúc cao nhat.

XLM-R: đã được đề xuất trong Học tập biểu diễn đa ngôn ngữ không giám sát

theo quy mô bởi Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzman, Edouard Grave, Myle Ott, Luke Zettlemoyer va Veselin Stoyanov XLM-R dựa trên mô hình RoBERTa của Facebook,

được phat hành vào năm 2019 Day là một mô hình ngôn ngữ da ngôn ngữ lớn được đào tạo trên 2,5TB dữ liệu CommonCrawl đã lọc và là trạng thái của mô hình XLM XLM-

R cho thấy khả năng đào tạo nhiều mô hình ngôn ngữ (bao gồm cả tiếng Việt) mà khônglàm giảm hiệu suất trên mỗi ngôn ngữ Các mô hình như XLM và mBERT bị hạn chếtrong việc học các đại diện có giá trị cho các ngôn ngữ ít tài nguyên XLM-R cải tiến

dựa trên các phương pháp tiếp cận đa ngôn ngữ trước đây bằng cách kết hợp nhiều dữ

liệu và ngôn ngữ đào tạo (hơn 100) - bao gồm ngôn ngữ tài nguyên thấp, thiếu bộ dit liệuđược gắn nhãn và không được gắn nhãn rộng rãi Không giống như một số mô hình đangôn ngữ khác, nó không yêu cầu hiểu ngôn ngữ nào được sử dụng và xác định ngôn

ngữ chính xác từ id đầu vào.

Hình 2 cho thấy cách XLM-R nhận vào input và đưa ra câu trả lời Mô hình nhận

vào đoạn văn (hay ngữ cảnh C) và câu hỏi (Q), mã hóa (tokenize) chúng và nối lại thành

một cụm phân tách bởi token [SEP] Sau khi xử lý và tính toán, mô hình sẽ cho ra nhiều

vị trí bắt đầu và vị trí kết thúc Kết quả được chọn sẽ là tích vô hướng có giá trị lớn nhất

của vị trí bắt đầu và kết thúc Nếu tích này không vượt qua một ngưỡng giá trị quy định

thì kết quả là câu hỏi không có câu trả lời Nếu vượt qua thì đây là câu hỏi có câu trả lời,

khoảng (span) từ vị trí bắt đầu đến vị trí kết thúc là câu trả lời cho câu hỏi

Question Context

Hình 1.2 Mô hình XLM-R cho nhiệm vụ tra lời câu hỏi

Sự khác biệt của hệ thống chúng tôi là moudle filter output Chúng tôi thu thập từkhoảng 8 tệp kết quả khác nhau từ các lần huấn luyện (ở mỗi lần huấn luyện chúng tôithay đôi các siêu tham số ảnh hưởng đến kết quả dự đoán):

h — {Au Ain}, wotn = {Anp Ann}

Trang 11

Trong đó, ƒ¡, , f„ là các file két quả dự đoán cho các câu hỏi trong bộ dữ liệu

test ở các lân huân luyện khác nhau Ajj, , 4;„ là các câu trả loi mà mô hình dự đoán.

Két quả cuôi cùng cua chúng tôi sau khi lọc là:

ƒ = {Ay An}

Trong đó f là file két quả cuôi cùng với các câu trả lời 4+, , An Câu tra lời được

chọn có sô lân lặp nhiêu nhật từ các file:

A; = max _repeat_answer{A¡, , Ani} (n là số file được chọn dé lọc kết quả)

Thực nghiệm cho thấy Module này đã giúp chúng tôi tăng 1-2% độ chính xác

ch | Seo op om Filter 2

Hình 1.3 Hệ thống với module filter output

Chúng tôi sé tiếp tục cải tiễn mô hình hệ thống với những phương pháp, kiến thứctìm hiểu được

4 Phương pháp đánh gia.

Tương tự như phương pháp đánh giá trên tập dữ liệu SQuAD 2.0, để đánh giáhiệu suất của mô hình hệ thống, chúng tôi cũng sử dụng Exact-match và F1-Scores làm

thước đo cho nhiệm vụ máy đọc hiểu tiếng Việt trên bộ dữ liệu UIT-ViQuAD 2.0

5 Kết quả mong đợi

Chúng tôi mong đợi rằng sau đồ án sẽ xây dựng thành công một hệ thống MRC

dành riêng cho tiếng Việt với độ chính xác lớn hơn 80% (độ đo F1), giải quyết đượcnhững hạn chế hiện tại và đóng góp vào sự phát triển cho NLP nói chung và lĩnh vựcMRC nói riêng Bên cạnh đó, chúng tôi cũng viết một paper về giải pháp cho bài toánMRC gửi đến VLSP và hi vọng được hội nghị chấp nhận Chúng tôi đánh giá đây là một

đồ án mang tính ứng dụng thực tế cao và kỳ vọng răng nó có thê góp phần thay đổi phát triển trên rất nhiều lĩnh vực đối với các doanh nghiệp và xã hội Việt Nam với gần 100

triệu dân Hiện tại chúng tôi đã phát triển được mô hình với độ chính xác 76,386% (độ

đo F1) Nếu mô hình dat được độ chính xác trên 80% sớm hơn dự kiến, chúng tôi sẽnghiên cứu phat trién thêm module truy xuất tài liệu dé phát triển trở thành bài toán trảlời câu hỏi mã nguồn mở

6 Tài liệu tham khảo

[1] Alexis Conneau and Kartikay Khandelwal, Naman Goyal,Vishrav Chaudhary,

Guillaume Wenzek, FranciscoGuzmán, Edouard Grave, Myle Ott, Luke Zettle-moyer,

Trang 12

and Veselin Stoyanov, "Unsupervisedcross-lingual representation learning at scale," arXivpreprint arXiv, p 1911.02116, 2019.

[2] Do, Phong Nguyen-Thuan and Nguyen, Nhat Duy and Huynh, Tin Van and Nguyen, Kiet Van and Nguyen, Anh Gia-Tuan and Nguyen, Ngan Luu-Thuy, "Sentence extraction-based machine reading comprehension for vietnamese," International Conference on Knowledge Science, Engineering and Management, 2021.

[3] Nguyen, Kiet and Nguyen, Vu and Nguyen, Anh and Nguyen, Ngan, "A

{V}ietnamese Dataset for Evaluating Machine Reading Comprehension," in Proceedings of the 28th International Conference on Computational Linguistics, International Committee on Computational Linguistics, 2020.

[4] Pranav Rajpurkar and Jian Zhang and Konstantin Lopyrev and Percy Liang,

"SQuAD: 100, 000+ Questions for Machine Comprehension of Text," CoRR, vol abs/1606.05250, 2016.

[5] Pranav Rajpurkar and Robin Jia and Percy Liang, "Know What You Don't Know:

Unanswerable Questions for SQUAD," CoRR, 2018.

[6] Kiet Van Nguyen and Duc{-}Vu Nguyen and Anh Gia{-}Tuan Nguyen and Ngan Luu{-}Thuy Nguyen, "New Vietnamese Corpus for Machine ReadingComprehension of

Health News," CoRR, 2020.

[7] Van Nguyen, Kiet and Duy Nguyen, Nhat and Do, Phong Nguyen-Thuan and Gia-Tuan Nguyen, Anh and Nguyen, Ngan Luu-Thuy},, "ViReader: A Wikipedia-Based Vietnamese Reading Comprehension System Using Transfer Learning,” 10.3233/JIFS-

210683, 2021.

[8] Van Nguyen, Kiet and Tran, Son Quoc and Nguyen, Luan Thanh and Van Huynh,

Tin and Luu, Son T and Nguyen, Ngan Luu-Thuy, "VLSP 2021-ViMRC Challenge: Vietnamese Machine Reading Comprehension.," CoRR, 2022.

[9] Lample, Guillaume and Conneau, Alexis, "Cross-lingual language model pretraining,” arXiv preprint arXiv:1901.07291, 2019.

[10] Liu, Yinhan and Ott, Myle and Goyal, Naman and Du, Jingfei and Joshi, Mandar and Chen, Danqi and Levy, Omer and Lewis, Mike and Zettlemoyer, Luke and Stoyanov, Veselin, "Roberta: A robustly optimized bert pretraining approach," arXiv preprint arXiv:1907.11692, 2019.

[11] Nguyen, Nguyen Luong Tran and Duong Minh Le and Dat Quoc, "BARTpho: Pre-trained Sequence-to-Sequence Models for Vietnamese," 2021.

[12] Stoyanov, Alexis Conneau and Kartikay Khandelwal and Naman Goyal and Vishrav Chaudhary and Guillaume Wenzek and Francisco Guzman and Edouard Grave and Myle Ott and Luke Zettlemoyer and Veselin, "Unsupervised Cross-lingual Representation Learning at Scale," 2020.

Trang 13

[13] Dat Quoc Nguyen and Tuan Anh, "PhoBERT: Pre-trained language models for {V }ietnamese," in Findings of the Association for Computational Linguistics: EMNLP

2020, Association for Computational Linguistics, 2020, pp 1037 1042.

[14] Baradaran, Razieh and Ghiasi, Razieh and Amirkhani, Hossein, "A survey on machine reading comprehension systems," Natural Language Engineering, 2020.

[15] Mervin, R, "An overview of question answering system," International Journal

Of Research In Advance Technology In Engineering (IJRATE), 2013.

[16] Shao, Taihua and Guo, Yupu and Chen, Honghui and Hao, Zepeng,

"Transformer-based neural network for answer selection in question answering," IEEE Access, 2019.

[17] Izacard, Gautier and Grave, Edouard, "Leveraging passage retrieval with generative models for open domain question answering," arXiv preprint arXiv:2007.01282, 2020.

[18] Saxena, Apoorv and Tripathi, Aditay and Talukdar, Partha, "Improving multi-hop question answering over knowledge graphs using knowledge base embeddings," Proceedings of the 58th annual meeting of the association for computational linguistics, 2020.

[19] Li, Xiaoya and Yin, Fan and Sun, Zijun and Li, Xiayu and Yuan, Arianna and

Chai, Duo and Zhou, Mingxin and Li, Jiwei, "Entity-relation extraction as multi-turn

question answering," arXiv preprint arXiv:1905.05529, 2019.

[20] Das, Rajarshi and Dhuliawala, Shehzaad and Zaheer, Manzil and McCallum, Andrew, "Multi-step retriever-reader interaction for scalable open-domain question answering," arXiv preprint arXiv: 1905.05733, 2019.

[21] Su, Lixin and Guo, Jiafeng and Fan, Yixing and Lan, Yanyan and Zhang, Ruqing

and Cheng, Xueqi, "An adaptive framework for conversational question answering," Proceedings of the AAAI Conference on Artificial Intelligence, 2019.

[22] Zhang, Zhuosheng and Yang, Junjie and Zhao, Hai, "Retrospective reader for machine reading comprehension," Proceedings of the AAAI Conference on Artificial Intelligence, 2021.

[23] Sadhuram, Machhirke Vinodkumar and Soni, Aparna, "Natural language processing based new approach to design factoid question answering system,” 2020 Second International Conference on Inventive Research in Computing Applications

(ICIRCA), 2020.

[24] McCann, Bryan and Keskar, Nitish Shirish and Xiong, Caiming and Socher, Richard, "The natural language decathlon: Multitask learning as question answering," arXiv preprint arXiv: 1806.08730, 2018.

Trang 14

[25] Singh, Sonit, "Natural language processing for information extraction,” arXiv preprint arXiv: 1807.02383, 2018.

[26] Yatskar, Mark, "A qualitative comparison of CoQA, SQuAD 2.0 and QuAC,"

arXiv preprint arXiv:1809.10735, 2018.

[27] Lee, Gyeongbok and Hwang, Seung-won and Cho, Hyunsouk, "SQuAD2-CR: Semi-supervised annotation for cause and rationales for unanswerability in SQUAD 2.0," Proceedings of The 12th Language Resources and Evaluation Conference, 2020.

[28] Van Nguyen, Kiet and Tran, Son Quoc and Nguyen, Luan Thanh and Van Huynh, Tin and Luu, Son T and Nguyen, Ngan Luu-Thuy, "Vlsp 2021 shared task: Vietnamese

machine reading comprehension," arXiv preprint arXiv:2203.11400, 2022.

[29] Van Nguyen, Kiet and Van Huynh, Tin and Nguyen, Duc-Vu and Nguyen, Anh Gia-Tuan and Nguyen, Ngan Luu-Thuy, "New vietnamese corpus for machine reading comprehension of health news articles," Transactions on Asian and Low-Resource

Language Information Processing, 2020.

[30] Van Nguyen, Kiet and Tran, Khiem Vinh and Luu, Son T and Nguyen, Anh Tuan and Nguyen, Ngan Luu-Thuy.

[31] Nguyen, Kiet Van and Tran, Khiem Vinh and Luu, Son T and Nguyen, Anh

Gia-Tuan and Nguyen, Ngan Luu-Thuy, "Enhancing Lexical-Based Approach With External Knowledge for Vietnamese Multiple-Choice Machine Reading Comprehension,"

pháp hiện dai giúp cải

thiện bài toán

Xây dựng mô hình x x x

dựa vào các phương

pháp tìm hiêu được

Trang 15

Chạy mô hình và phân

tích kêt quả

Đánh giá và cải thiện

chât lượng mô hình

Viết báo cáo và báo x x

cáo tiên độ

Báo cáo khóa luận x

e Phân công công viéc:

Xác nhận của CBHD TP HCM, ngày 15 tháng 12 năm 2021

(Ký tên và ghi rõ họ tên)

ThS Nguyễn Văn Kiệt

Sinh viên

(Ký tên và ghi rõ họ tên)

Trang 16

TS Nguyễn Lưu Thùy Ngân

Nguyễn Lê Minh

Đặng Văn Nhân

Trang 17

MỤC LỤC

Chương 1 TONG QUAN -¿- 5-5: SE EEEEEEEE1219E12121217121212111211111 111016 5

1.1 Giới thiệu hệ thống hỏi đáp dựa trên đọc hiểu tự động miền mở 51.2 Tổng quan về truy xuất tài liệu và đọc hiểu 2-2-2 ¿+5 >xezxez+zzzxzxree 7

1.2.1 Truy xuất tài liệu - + 22+ SE EEEEE121212112121121 111111 cte 7

1.2.2 Bài toán đọc hiểu tự động c5 c2 21211212111 te 71.3 Tính ứng dụng của đề tài -:- Set 1E 1 1E E12151111111111111 1111111 1xx, 8Chương 2 CÁC CONG VIỆC LIEN QUAN ccccscsccscsesesessescsesscsesesuescsesesscsesssseseseees 10

2.1 Bộ đữ liệu << att Uni, VO 10

2.1.1 Các bộ dit liệu nước NOI occ ecccessceseseesesessssessescsesecsesecsesessessseeeecees 10

2.1.2 Các bộ dữ liệu cho tiếng VIiỆt -¿-22- 5: 2x22E2E2EEEerxerxerrrrrvee 13

3.2.2 Mô đun trích xuất câu + ¿©+5£+E+St2EEEEEEEEEEEEEEEEEEkerrkerrkerrrei 26

3.2.3 Mô đun Re-ranker CĐ Đ SE 3333333181111 11 1111111 nen 30

4.3 Ñ€Ad€Y LLLQQQQ HT TT TK EU 33

Trang 18

3.3.1 Mô hình dựa trên XLM-R SG 2 11H như 35

3.3.2 Mô đun filter - 5 SE St E2 2121212121211 11112111 re 38

3.4 Kết hợp toàn hệ thống ¿+ ©tSE92E2E12E1232122122122121121121212121 21 re 40

3.5 Xây dựng giao diện cho hệ thống - - 2 ¿+2 +EE+E£E+E£EEEEZEeEEzEerkrrerkrree 43

3.5.1 Giao diện trang truy XUẤT - +: 2 E222 E211 1E Erree 433.5.2 Giao diện trang đọc hiỂU (11121215111 1511111115151 1111 E111 E111 rrr 453.5.3 Trang toàn bộ hệ thống - ¿+ +52 +E+E+E£EEEE+EEEEEEEEEEEEEEEEErrkrkrrrree 49Chương 4 THU NGHIỆM VA PHAN TÍCH - 2 2 + +E£+E+E£E££E+E+Ee£xzEzrree 52

4.1 Thử nghiệm - ch nh nh 52

4.1.1 Cai đặt thử nghiệm co.cc ccccscescesesscssessesssessesseesessssscsssessesssssssseaeeees 52

4.2 Phân tích phương phấp - - <6 1E E191 ng ngư 55

5.3 Hạn chế s 2c t 2x22 2E1211212712121121121121111121121121111111 1111.111 615.4 Hướng phat triỂn - 2 E29 EEEEEEEE12121211211171112111 1111111111 cxe 61

DANH MỤC CÔNG TRINH TÁC GIẢ - ¿2 ¿5252 2+2S22E£E+2EtEx+EExerrxerrrrerees 63

TÀI LIEU THAM KHẢO - 2-5: S552 SE9S22EEEE2EE21232121212121211 21112111212 tre, 64

0006 925 69

Trang 19

DANH MỤC HÌNH VE

Hình 1.1.1 Google truy xuất đoạn văn và in đậm câu trả lời - 2-5 <2 =s¿ 5

Hình 2.2.1 Mô dun Retriever của Đỗ và các cộng sự -5-++s+s+x+c+c+eces 20

Hình 2.2.2 Mô hình IDr(QA - 5G 2c 2311123111111 1931111111911 1011111 1H Hy 21

Hình 2.2.3 Mô hình ViR€ader - - - 2 1121119510 119 11119 11 19v thư 22

Hình 3.2.1 Minh hoa mô dun SCOTITE - - 5 1111133311111 9 11 ng re 28

Hình 3.2.2 Minh họa mô đun RetrIeVer - SE E88 8811111 E v5 32

Hình 3.3.1 Tổng quan mô dun Reader - 2 ¿5c x+2++£++E++E£xezxezxzzezxezxee 34Hình 3.3.2 Minh họa huấn luyện mô hình cho bài toán đọc hiểu tự động 36

Hình 3.3.3 Mô đun Reader - - .- c1 1219 TH ng kg 37

Hình 3.3.4 Minh hoa mô đun FIÏ€r + SE SE kE v35 38

Hình 3.4.1 Mô hình tong quan hệ thống -2- ¿5c + 5225+2S+2E£x+zx+zzz+zxezxez 42Hình 3.5.1 Mô hình tổng quan giao diỆn - + 2 + +E£E+E+E££E+EeEeEzE+Eersrxez 44Hình 3.5.2 Minh họa giao diện truy xuấtt +- + 2 + +EEE+E+EEEEzEEEeErkrrerrreee 44Hình 3.5.3 Minh họa kết quả câu hỏi - 2-2 52 S2+E+E££E£E+EvEEEzEeEerxrkrrerereee 45Hình 3.5.4 Tổng quan hệ thống và giao diện mô hình đọc hiểu 46Hình 3.5.5 Giao diện chức năng đọc hiỂU St v11 E1 EEEEEEEEEkrkrkrkekrkes 47Hình 3.5.6 Giao diện kết quả đọc hiỀu -¿- + 2 52+E+E£££E+E+EEEEzEeEeErkerersreee 48Hình 3.5.7 Giao diện không có câu trả lời đọc hiều - 2-52 s+cz>s5+2 49Hình 3.5.8 Tổng quan hệ thống đọc hiểu tự động . -:-5 25255+55+2 50

Hình 3.5.9 Minh hoa giao diện trả lời câu hỏi - - <5 + ++kessseeresee 50

Hình 3.5.10 Giao diện kết quả hệ thống hỏi đáp - - 252 +ceczzxz£z£zsxez 51

Trang 20

DANH MỤC BANG

Bảng 2.1.1 Minh họa dữ liệu SQuAD - cv ng ng ke 11

Bang 2.1.2 Minh họa bộ dữ liệu SQUAD 2.Ô - cay 13

Bang 2.1.3 Minh họa bộ dữ liệu UIT-VINewsQA Ă che re 14

Bang 2.1.4 Minh họa dữ liệu ViQuATD T.U - 2 c5 11+ Shin 16

Bang 2.1.5 Minh hoa bộ dữ liệu UIT-VIWIkIQA 2G se 17

Bảng 2.1.6 Số liệu tổng quát UIT-ViQuAD 2.0 -5255-522cccs+EszzEerxzrerxeree 18

Bang 2.1.7 Minh họa bộ dữ liệu UIT-VIQuAD 2.0 - - - Sssseisey 18

Bang 3.1.1 Ví dụ mô đun RuÌes -. 5 1139 1k vn ng ngư 25

Bảng 3.2.1 Ví dụ câu hỏi phụ thuộc ngữ cảnh - c5 c1 vvirseseeesre 29

Bảng 3.2.2 Phương pháp đánh giá giữa các câu - 55s ss++scessseereses 30

Bang 3.3.1 Minh hoa câu trả lời được chọn sau khi qua mô dun filter 40

Bang 4.1.1 Kết qua thử nghiệm mô hình Retriever - - ¿2-5 52+s+£z£z+sz2 54Bang 4.1.2 Kết qua thử nghiệm mô hình Reader 2-2-5 252 +£z£zz£+£z£z+xz2 54

Bang 4.1.3 Kết quả thử nghiệm hệ thống hỏi dap . - 2-5-5 2 22s+£s5s25+2 55 Bảng 4.2.1 So sánh kết quả các phương pháp . :- 2-52 +2s5++s+zszsezxzs+2 55

Bảng 4.3.1 Lỗi không có câu trả lời -¿-¿- 2552 5+2E+Sv£2E+EeEzvexexerxrrererervee 57

Bảng 4.3.2 Lỗi không nhận ra câu trả lời ¿- - 5 5 S22 £££££E+E+EzE+xexeeers 58 Bảng 4.3.3 Lỗi câu trả lời Sai 5-5-5 S5 S221 1212111111121 211121211111 e 59

Trang 21

DANH MỤC TU VIET TAT

CL Computational Linguistics

MRC Machine Reading Comprehension

NLP Natural Language Prosessing

QA Question Answering

STR Sentence Transformer

VLSP Vietnam language and Speech Processing

XLM-R XLM-RoBerta

Trang 22

TÓM TÁT KHÓA LUẬN

Hỏi đáp và Machine Reading Comprehension (MRC) là hai trong những bài toán

đang nổi lên trong những năm gan đây nhằm giải quyết kha năng đọc hiểu văn bản tựđộng Vấn đề đọc hiểu của máy đối với tiếng Việt có độ khó cao hơn so với tiếngAnh Vì tiếng Việt là ngôn ngữ có dấu, nên mô hình phải học từ nhiều ký tự hơn Hơn

nữa, nhiều từ khác nhau có nghĩa giống nhau hoặc những từ giống nhau nhưng trong

các ngữ cảnh khác nhau có nghĩa khác nhau rat dé làm cho mô hình dự đoán sai Đặcbiệt là đối với các câu hỏi sử dụng từ đồng âm hoặc từ đồng nghĩa Sự phức tạp của

bài toán này không chỉ là tìm câu trả lời cho câu hỏi mà còn phải xác định câu hỏi đó

có câu trả lời hay không Trọng tâm luận văn là tìm câu trả lời đúng cho câu hỏi, vì

đa số câu hỏi đều có câu trả lời Tuy nhiên, vẫn có một số trường hợp câu hỏi không

có câu trả lời thì mô hình cần dự đoán được các trường hợp như vậy Cũng như con

người, sẽ có trường hợp có những câu hỏi gây khó khăn khiến hệ thống không thể trả

lời được Câu hỏi không có câu trả lời năm trong những trường hợp sau đây:

e Trường hop 1: Khi hệ thống không truy xuất đến được đoạn văn có câu trả lời

(không tìm được đoạn văn có câu trả lời hoặc đoạn văn có câu trả lời không

ton tại trong dữ liệu được truy xuất)

e Trường hợp 2: Khi câu hỏi sai (không thể có câu trả lời chính xác), ví dụ như

"Lý do [+1 =3".

e Trường hợp 3: Khi con người chưa trả lời được câu hỏi đó, ví dụ như "Có bao

nhiêu chủng loại người ngoài hành tinh?".

Đối với câu hỏi có thê trả lời: hệ thống sẽ đưa ra đáp án phù hợp nhất Còn đốivới câu hỏi không trả lời được: dé trống câu trả lời thay vì đưa ra câu trả lời sai cho

câu hỏi đó.

Nhiệm vụ của chúng tôi đặt ra ở khóa luận là xây dựng một hệ thống hỏi đáp dựatrên đọc hiểu tiếng Việt với sự kết hợp giữa mô hình Retriever và mô hình MRC dànhcho tiếng Việt nhằm giải quyết những vấn đề trên

Trang 23

Chúng tôi đã đạt được một số kết quả nhất định như kế thừa và cải tiễn thành

công mô hình Retriever từ Đỗ và các cộng sự [2] Bên cạnh đó chúng tôi cũng đã kết

hợp mô hình mà chúng tôi xây dựng từ cuộc thi VLSP 2021 với mô hình trên đề tạo

thành một hệ thống hỏi đáp tiếng Việt hoàn chỉnh Cuối cùng, chúng tôi phát triển

một giao diện dé người dùng có thé tương tác và có trải nghiệm tốt hơn cũng như làm

cho hệ thống có tính ứng dụng thực tiễn

Trang 24

MỞ ĐẦU

Cuộc sông của mỗi người luôn gắn liền với các câu hỏi và câu trả lời Việc trả

lời câu hỏi diễn ra hàng ngày, hàng giờ trong đầu mỗi người dù họ có ý thức đượcviệc đó hay không Trả lời câu hỏi đôi khi chỉ để giải tỏa sự thắc mắc của mỗi người

như là: “Tại sao con chim lại biết bay?”, “Hôm nay ăn gì?” Nhưng trả lời câu hỏi đôikhi cũng có thể quyết định số phận của một người: “Tôi nên thi vào trường đại học

A hay B?” Có những câu hỏi có thể được giải đáp dé dàng chỉ với việc tra Google,hỏi bạn bè, thầy cô, nhưng cũng có những câu hỏi mãi vẫn chưa thé giải đáp đượcnhư là: “Có tồn tại người ngoài hành tinh hay không?” Google hiện nay là một công

cụ truy xuất những văn bản, tài liệu có khả năng chứa câu trả lời chứ không truy xuấtcâu trả lời Xuất phát từ nhu cầu đơn giản nhưng quan trọng là giải đáp thắc mắc củamỗi chúng ta, cộng thêm sự ra đời của bộ dữ liệu UIT-VIQuAD 2.0 [3], chúng tôithật sự mong muốn có thé xây dựng một hệ thống hỏi đáp có thé trả lời được các câu

hỏi đặt ra, đặc biệt hơn nữa là với tiếng Việt Thực tế, không phải câu hỏi nào cũng

có câu trả lời, và khi đó câu trả lời tốt nhất nên là “không biết”, ở đó mô hình đưa ra

dự đoán là chuỗi rỗng: “”’ Bộ dữ liệu UIT-ViQuAD 2.0 với 23.000 câu hỏi có đáp án

và 12.000 câu không thé trả lời sẽ giúp chúng tôi làm việc đó Đầu vào của bài toán

là một câu hỏi Hệ thống tiến hành truy xuất các tài liệu liên quan Đầu ra là câu trả

lời do mô hình dự đoán từ các tài liệu truy xuất được

Mục tiêu khóa luận của chúng tôi là xây dựng được một hệ thống hỏi đáphoàn chỉnh bao gồm mô hình truy xuất tài liệu và mô hình đọc hiểu tài liệu đạt được

độ chính xác cao Bên cạnh đó là xây dựng giao diện tương tác cho người dùng để

ứng dụng mang tính thực tiễn hơn.

Đối tượng nghiên cứu và phạm vi: Chúng tôi thực hiện xây dựng, đánh giátrước hết là trên bộ dit liệu UIT-ViQuAD 2.0 và sẽ mở rộng thêm các bộ dữ liệu khác

trong tương lai Đối tượng hướng đến là toàn bộ mọi người, những ai có nhu cầu giảiđáp những thắc mắc về kiến thức nhờ vào trí tuệ nhân tạo trên tiếng Việt

Trang 25

Qua luận văn chúng tôi đã đạt được một số kết quả nhất định như phát triểnđược hệ thống Retriever có độ chính xác cao, xây dựng mô hình doc hiểu tự động đạt

độ chính xác cao và tổng hợp thành một hệ thống hỏi dap hoàn chỉnh Ngoài ra, chúngtôi cũng xây dựng thành công giao diện cho từng mô hình và trên toàn hệ thống Cuối

cùng, chúng tôi đạt hạng 4 chung cuộc trong cuộc thi VLSP-MRC 2021 và có một

bài báo được chấp nhận tại tap chi VNU Journal

Bài báo cáo luận văn của chúng tôi gồm có 5 chương

> Chương 1 là chương tông quan nhằm giới thiệu và giúp người đọc có cái nhìn

khái quát về đề tài

> Chương 2 là các công việc, bộ dữ liệu, mô hình liên quan trong quá trình

chúng tôi thực hiện khóa luận.

> Chương 3 là chương mô tả chỉ tiết về hệ thông hỏi đáp của chúng tôi.

Vv Chương 4 nhằm phan tích, dua ra kết qua thử nghiệm và lỗi

> Chương 5 là kết luận và hướng phát triển trong tương lai

Trang 26

Chương 1 TONG QUAN

1.1 Giới thiệu hệ thống hỏi đáp dựa trên đọc hiểu tự động miền mở

Hệ thống hỏi đáp được xây dựng nhằm mục đích tìm kiếm câu trả lời cho người

dùng Hệ thống hỏi đáp là sự kết hợp của hai bài toán lớn trong lĩnh vực NLP là truy

xuât và đọc hiéu tự động.

Đối với bài toán truy xuất, hệ thống nổi tiếng nhất có thé ké đến là Google Chỉ

với thanh công cụ truy xuất đơn giản nhưng mạnh mẽ, Google truy xuất đến tất cảcác trang web chứa thông tin liên quan trong thời gian ngăn Điều đó giúp Google trở

thành trang web được truy cập nhiều nhất trong năm 2021 và có thể còn thống trị

trong nhiều năm tới vì nhu cầu tìm kiếm câu trả lời của con người diễn ra hàng ngày.Tuy nhiên, Google chỉ trả về các trang web có khả năng chứa câu trả lời và chỉ đưa

ra câu trả lời được bôi đậm trong đoạn văn đối với các câu hỏi đơn giản Hình 1.1.1minh họa câu trả lời bên trong đoạn văn do Google dự đoán, phần 1n đậm là câu trảlời cho câu hỏi người dùng nhập vào, trong NLP được biết đến là đọc hiểu tự động,

nghĩa là tìm ra câu trả lời dựa vào đoạn văn truy xuât được.

ai là người đầu tiên đặt chân lên mặt trăng xX mm 4$ Q

Q Tấtcả (8g Tintức ()Hinhanh E] Video : Thêm Công cụ

Khoảng 6.660.000 kết quả (0,48 giây)

Ngày 20/7/1969, Neil Armstrong cùng nhà du hành vũ trụ Buzz Aldrin trên tau vũ trụ

Apollo-11 đã đặt chân tới Mat Trăng trước sự chứng kiến của hàng trăm triệu khán giả xem

truyền hình trên toàn thế giới Ông đề lại câu nói nỗi tiếng: "Đây là bước chân nhỏ bé của

một con người, nhưng là bước nhảy vĩ đại của nhân loại".

Hình 1.1.1 Google truy xuất đoạn văn và in đậm câu trả lời

Hệ thống hỏi đáp có thê phân thành hai loại là hỏi đáp dựa trên miền mở vàhỏi đáp miền đóng Miền mở là nguồn kiến thức mà bat ky ai cũng có thé đóng gópnhư Wikipedia, ngược lại là miền đóng

Trang 27

Dựa trên nguồn kiến thức văn bản được đào tạo cho các hệ thống hoi dap, hệthong hỏi đáp được chia thành hai loại: hệ thống hỏi đáp dựa trên tri thức, hệ thốnghỏi đáp dạng văn bản và hệ thống kết hợp Thật không may, nền tảng kiến thức chotiếng Việt không được phát triển như vậy Hiện nay, các hệ thống hỏi đáp cho tiếngViệt chưa nhiều trong khi tiềm năng của bài toán này là rất lớn vì dân số người ViệtNam là gần 100 triệu người Đặc biệt, hệ thống hỏi đáp dựa trên đọc hiểu tự động

trên phiên bản có thê trả lời hoặc không thé trả lời vẫn chưa có Vì vậy, chúng tôi tập

trung nghiên cứu bài toán hỏi đáp cho tiếng Việt cho phiên bản này

Đối với các nguồn tri thức phi cấu trúc (văn bản của tài liệu), đọc hiểu bằng máy(Machine Reading Comprehension), vốn là thành phần cốt lõi của hệ thống hỏi đáphiện đại, đã thu được nhiều thành tựu Hệ thong doc hiéu tu động nhận một câu hoi

và một tài liệu, và nó được yêu cầu tìm câu trả lời trong tài liệu đó

Khác với hệ thống hỏi đáp truyền thống, hệ thống hỏi đáp hiện nay kết hợpnhiều thành phần như phân tích câu hỏi, truy xuất tài liệu, lựa chon câu trả lời từ cáctài liệu truy xuất được Với sự phát triển nhanh chóng của các mô hình đọc hiểu sử

dụng kiến trúc mạng neural, đã có nhiều mô hình đạt được độ chính xác ngang bằng,

thậm chí vượt qua con người trên ngôn ngữ tiếng Anh với các bộ dữ liệu như SQuAD

1.0 và SQuAD 2.0.

Trong khóa luận này, chúng tôi xây dựng một hệ thống hỏi đáp dựa trên các mô

hình đọc hiểu tự động sử dụng nguồn tài liệu miền mở cho tiếng Việt Cách tiếp cậndựa trên mô hình đọc hiểu tự động có lợi vì: các hệ thong có thé sử dụng một số lượnglớn các tài liệu có săn làm nguồn kiến thức cho việc biểu diễn từ hoặc token bằng

cách sử dụng các mô hình ngôn ngữ được đào tạo trước (Pretrained-Model) Đối vớicác nguồn tri thức tài nguyên và các mô hình (chắng hạn như thuật toán truy xuất

thông tin và mô hình ngôn ngữ dựa trên máy biến áp được đào tạo trước) có thê thích

ứng dé dàng và hiệu quả.

Trang 28

Dựa trên các công trình nghiên cứu từ trước về hệ thống hỏi đáp, chúng tôi kếthừa, nghiên cứu và phát triển thêm dé có thể xây dựng một hệ thống hỏi đáp mang

lại lợi ích cho người Việt.

1.2 Tổng quan về truy xuất tài liệu và đọc hiểu

1.2.1 Truy xuất tài liệu

Trước tiên, chúng ta nói đến một thuật ngữ quen thuộc trong NLP là trích xuất

thông tin Trong đó có nhiều bài toán con như trích xuất thời gian, địa điểm, tên riêng

từ một đoạn văn bản Hay trích xuất quan hệ (relation extraction) là bài toán tìm va

trích xuất dựa trên các quan hệ ngữ nghĩa trong văn bản Trích xuất quan hệ có liênkết chặt chẽ đến việc tìm ra các cơ sở dữ liệu liên quan, hay cấu trúc các nguồn trithức liên quan theo dạng đồ thị, là cách hữu ích đề các công cụ tìm kiếm tìm ra nguồnthông tin liên quan cho người dùng Truy xuất tài liệu là dạng bài toán như vậy Trong

đó, người dùng nhập vào thông tin cần tìm kiếm và nhiệm vụ của mô hình truy xuấttài liệu là trả về các tài liệu liên quan nhất đến người dùng Trong hệ thống của chúngtôi, các tài liệu là các đoạn văn từ Wikipedia tiếng Việt Nhiệm vụ của chúng tôi là

tối ưu hóa khả năng truy xuất dé tìm được các tài liệu liên quan nhất phục vụ cho bài

toán đọc hiểu

1.2.2 Bài toán đọc hiểu tự động

Bài toán đọc hiểu tự động (MRC), một thành phần quan trọng trong hệ thốnghỏi đáp đã có lịch sử ra đời từ lâu Có nhiều dạng bài toán đọc hiểu tự động như đọc

hiểu dựa trên cuộc hội thoại, đọc hiểu dé chọn đáp án trắc nghiệm, đọc hiểu dựa trên

tri thức (ví dụ như tính toán) và đọc hiểu tự động trích xuất khoảng (span-extraction

MRC) Hệ thống của chúng tôi được xây dựng dựa trên bộ dữ liệu MRC trích xuấtkhoảng vì đây là bộ dữ liệu phù hợp với bài toán truy xuất Hau hết các kiến thức cầntìm đều nằm trong các văn bản Chính vì vậy, việc truy xuất các văn bản chứa thôngtin liên quan và trích xuất câu trả lời từ văn bản rất phù hợp với một hệ thống hỏi đáp

có tính ứng dụng cao.

Trang 29

1.3 Tính ứng dụng của đề tài

Tuy chỉ là một công cụ nhìn có vẻ đơn giản với một đầu vào là câu hỏi và mộtđầu ra là câu trả lời, nhưng chúng tôi tin rằng hệ thông hỏi đáp là một ứng dụng khôngthê thiếu trong tương lai Trong bối cảnh lượng thông tin đang ngày càng gia tăng,việc tìm kiếm thông tin đúng trong thời gian ngắn là yêu cầu tối quan trọng Google

là một công cụ giúp chúng ta làm việc đó, vì nó truy xuất được các bài viết liên quantrong thời gian cực kỳ ngắn Năm 2021 Google là trang web được truy cập nhiều nhất

với khoảng 105 tỷ lượt, gấp gần 3 lần trang web đứng thứ hai là Youtube với khoảng36,4 tỷ lượt Và đáng ngạc nhiên rằng chỉ trong tháng 02 năm 2022 lượt truy cập

Google đã tăng lên đến 89,3 tỷ Điều đó cho thấy bên cạnh lượng dữ liệu không lồ

tăng rất nhanh theo cấp số nhân từng ngày thì nhu cầu tìm kiếm câu trả lời của conngười cũng nhiều hơn Tuy nhiên, Google không trả lời ngay lập tức mà con ngườivẫn phải tự đưa ra câu trả lời dựa vào các trang web trả về Trong thực tế điều này là

tốt, vì con người cần tự mình tư duy mà không nên quá phụ thuộc vào các công cụ

tìm kiếm Bên cạnh đó, các thông tin liên quan đôi khi cũng cần thiết dé bổ trợ chocâu trả lời Tuy nhiên, không phải lúc nào con người cũng cần tìm ra cả đoạn văn haybài viết mà thứ họ cần chỉ là tìm ra câu trả lời Chăng hạn, như khi đọc báo, nhữngngười viết báo thường đưa ra nhiều thông tin lan man và không tập trung vào thôngtin người đọc cần Như vậy, nếu có một hệ thống hỏi đáp sẽ giúp người dùng tiết kiệm

được rất nhiều thời gian mà vẫn đảm bảo tìm ra thông tin cần thiết.

Khi mà lượng thông tin trở nên lớn hơn, các tai liệu cho một câu hỏi cũng trở

nên nhiều hơn, nhưng câu trả lời cho một số câu hỏi ví dụ về chủ đề lịch sử thì chỉ cómột Do đó, hệ thống hỏi đáp giúp con người giảm tải các áp lực khi tìm kiếm câu trảlời trong bối cảnh có quá nhiều tài liệu liên quan

Trong cuộc sống, chúng ta đi học, đi làm cũng để tìm ra câu trả lời giúp pháttriển bản thân Một đứa trẻ hay hỏi được cho là thông minh, và người có thể trả lời

được nhiều câu hỏi được cho là hiểu biết rộng Hệ thống hỏi đáp cũng có thé giúp con

Trang 30

người học tập và tim hiệu một cách nhanh nhât mà không bi nhàm chán vì những nội

dung lan man.

Ngoài ra, đây cũng là nền tảng cho hệ thống chatbot Hệ thống hỏi đáp có thêphát triển thêm dé trả lời được đa dạng các trường hợp Khi đã phát triển đến một độchính xác cao và phản hồi trong thời gian ngăn Hệ thống hoàn toàn có thé thay thé

con người dé giao tiếp với khách hàng trong đa dạng các lĩnh vực

Khi kết hợp với các mô hình học máy khác, hệ thống có thể tạo ra các sảnpham mang tính tương lai như Robot hay chuyên viên tu van AI, ứng dụng học tập

Nhận biết sự thiết thực cao của đề tài Chúng tôi đánh giá đây là một đề tài cực

kỳ thực tế và hữu dụng đối với mọi ngành nghề, mọi tầng lớp trong xã hội

Trang 31

Chương 2 CAC CÔNG VIỆC LIÊN QUAN

2.1 Bộ dữ liệu

Dữ liệu đóng vai trò cực kỳ quan trọng cho bất kỳ bài toán NLP nào Dữ liệu

đúng và phù hợp thì các mô hình mới phát huy được hết khả năng của mình

Hệ thống của chúng tôi lay dữ liệu truy xuất từ nguồn Wikipedia tiếng Việt

Đây là miền dữ liệu mở với lượng thông tin lớn cho đa dạng các kiến thức khác nhau

Đối với phần đọc hiểu tự động (MRC), bài toán đã xuất hiện từ cách đây gần

80 năm Tuy nhiên, vì thiếu đữ liệu chất lượng nên bài toán không thé phát triển mạnh

cho tới thời gian gần đây, các bộ dit liệu liên quan đến MRC trên các ngôn ngữ ra đờiđóng góp quan trọng cho sự phát triển của của bài toán và có thé mở ra một kỷ nguyên

mới cho hướng đi của việc trả lời câu hỏi.

2.1.1 Các bộ dữ liệu nước ngoài

2.1.1.1 SQuAD

Có thé nói bộ dữ liệu trả lời câu hỏi được công bồ bởi đại hoc Stanford (SquAD[4]) là bộ đữ liệu hồi sinh cho bài toán đọc hiểu tự động trích xuất khoảng (span

extraction), tức câu trả lời là một khoảng liên tục bên trong đoạn văn đầu vào SQuAD

được công bố vào năm 2016 bao gồm các câu hỏi do cộng đồng đặt ra trên một tập

hợp các bài bao Wikipedia, trong đó câu trả lời cho mọi câu hỏi là một khoảng hoặc

một đoạn từ đoạn văn bản tương ứng Đây là một trong những bộ dữ liệu đọc hiểuthay déi MRC và ảnh hưởng rat lớn đến nhiều bộ dữ liệu đọc hiểu ra đời sau này baogồm cả ViQuAD 1.0 [3] va SQuAD 2.0 [4] Ở phiên bản SQuAD 1.1 chứa 107.785

cặp câu hỏi - trả lời trên 536 bài báo.

Ví dụ bộ dữ liệu SQuAD:

Doan văn ban: A prime number (or a prime) is a natrual number greater than 1

that has no positive divisors other than 1 and itself A natural number greater than

1 that is not a prime number is called a composite number For example, 5 is prime

10

Trang 32

because | and 5 are its only positive integer factors, whereas 6 is composite because

it has the divisors 2 and 3 in addition to 1 and 6 The fundamental theorem of

arithmetic establishes the central role of primes in number theory: any integer

greater than 1 can be expressed as a product of primes that is unique up to ordering.

The uniqueness in this theorem requires excluding | as a prime because one can

include arbitrarily many instances of | in any factorization, e.g., 3, 1-3, 1-1- 3,

etc are all valid factorizations of 3.

(Số nguyên tố (hay nguyên tô) là số tự nhiên lớn hơn 1 không có ước số dương nàokhác 1 và chính nó Số tự nhiên lớn hơn 1 không phải là số nguyên tố được gọi làhợp số Ví dụ, 5 là số nguyên tổ vì 1 và 5 là các thừa số nguyên đương duy nhấtcủa nó, trong khi 6 là hợp số vì nó có các ước số 2 và 3 ngoài 1 và 6 Dinh lý cơ

bản của số học thiết lập vai trò trung tâm của số nguyên tố trong lý thuyết số: bat

kỳ số nguyên nào lớn hon 1 đều có thé được biéu thị dưới dạng tích các số nguyên

tố duy nhất theo thứ tự Tính duy nhất trong định lý này yêu cầu loại trừ 1 như một

số nguyên tô vì người ta có thé bao gồm tùy ý nhiều trường hợp của | trong bat kỳ

phép thừa nao, ví dụ: 3, 1 - 3, I - I1 - 3, v.v đều là thừa số hợp lệ của 3.)

Câu hỏi: What is the only divisor besides 1 that a prime number can have?

(Ước số duy nhất ngoài 1 mà một số nguyên tô có thể có là gi?)

Câu trả lời: itself itself itself itself itself

(chính nó / chính nó / chính nó / chính nó / chính nó)

Câu hỏi: What are numbers greater than 1 that can be divided by 3 or more

numbers called?

(Số lớn hon 1 có thé chia cho 3 hay nhiều số được gọi là gì?)

Câu trả lời: composite number composite number composite number primes

(số tông hợp / số tổng hợp / số tong hợp / số nguyên tố)

Bảng 2.1.1 Minh họa dữ liệu SQuAD.

11

Trang 33

2.1.1.2 SQuAD 2.0

Phiên bản SQuAD 1.0 giải quyết được vấn đề trả lời câu hỏi có trong đoạn

văn, tức là đoạn văn đầu vào buộc phải chứa câu trả lời cho câu hỏi Nhưng dé ungdụng đến người dùng thì phải giải quyết cả trường hợp câu hỏi không thé trả lời được,

đôi khi do người dùng đặt câu hỏi sai hoặc đoạn văn đầu vào không chứa câu trả lờicho câu hỏi Dé giải quyết những điểm yếu này, tác giả giới thiệu SQuAD 2.0 [5] -phiên bản mới nhất của Bộ dữ liệu trả lời câu hỏi Stanford (SQuAD) SQuAD 2.0 kếthop dir liệu SQUAD hiện có với hơn 50.000 câu hỏi không thể trả lời được thêm bởi

những người gán nhãn dữ liệu, kèm theo đó là các câu trả lời gây nhiễu cho mô hình

(những câu mà con người có thé trả lời sai khi đọc không kỹ đoạn văn) Dé làm tốtSQuAD 2.0, hệ thống không chi trả lời câu hỏi khi có thé, mà còn phải xác định khinào thì câu hỏi không thê tìm ra câu trả lời trong đoạn văn và dự đoán là chuỗi rỗng.SQuAD 2.0 là một nhiệm vụ hiểu ngôn ngữ tự nhiên day thách thức đối với các môhình hiện có: một hệ thong neural manh mé dat 86% F1 trén SQUAD 1.1 chi dat 66%F1 trên SQUAD 2.0 Đây cũng là nguồn cảm hứng phát triển bộ dit liệu UIT-ViQuAD

2.0 được chúng tôi sử dụng dé huấn luyện mô hình đọc hiểu tự động

Ví dụ bộ dữ liệu SQuAD 2.0:

Tiêu dé: “Normans” (Nguoi Norman)

Doan van ban: “The Normans (Norman: Nourmands; French: Normands; Latin:

Normanni) were the people who in the 10th and 11th centuries gave their name to

Normandy, a region in France They were descended from Norse ("Norman" comes

from "Norseman") raiders and pirates from Denmark, Iceland and Norway who,

under their leader Rollo, agreed to swear fealty to King Charles II of West Francia.

Through generations of assimilation and mixing with the native Frankish and

Roman-Gaulish populations, their descendants would gradually merge with the

Carolingian-based cultures of West Francia The distinct cultural and ethnic

12

Trang 34

identity of the Normans emerged initially in the first half of the 10th century, and

it continued to evolve over the succeeding centuries.”

(Người Norman (tiếng Norman: Nourmands; tiếng Pháp: Normands; tiếng Latinh:Normanni) là những người vào thé ky 10 và 11 đã đặt tên cho Normandy, một vùng

ở Pháp Họ là hậu duệ của người Bắc Âu ("Norman" đến từ "Norseman") những kẻ

cướp biển và Cướp bién từ Đan Mach, Iceland và Na Uy, những người dưới sự lãnhđạo của họ Rollo, đã đồng ý thể trung thành với Vua Charles III của Tây Francia.Trải qua nhiều thế hệ đồng hóa và hòa trộn với các dân tộc Frankish và La Mã-

Gaulish bản địa, con cháu của họ sẽ dan dần hợp nhất với các nền văn hóa dựa trên

Carolingian của Tây Francia Bản sắc văn hóa và dân tộc khác biệt của ngườiNorman xuất hiện ban đầu vào nửa đầu thế kỷ 10, và nó tiếp tục phát triển trongnhững thế kỷ tiếp theo.)

Câu hỏi 1: In what country is Normandy located?

(Normandy nằm ở quốc gia nào?)

Câu trả lời: France (Pháp)

Câu hỏi 2: Who gave their name to Normandy in the 1000's and 1100's?

(Ai đã đặt tên của ho là Normandy vào những năm 1000 và 11002)

Câu trả lời hợp lí (sai): Normandy

Bảng 2.1.2 Minh họa bộ dữ liệu SQuAD 2.0

2.1.2 Các bộ dữ liệu cho tiếng Việt

2.1.2.1 UIT-ViNewsQA

Đây là bộ dữ liệu dành cho đọc hiểu tiếng Việt tổng hợp các bài báo về sứckhỏe UIT-ViNewsQA [6] được xuất bản vào tháng 1 năm 2020 ViNewsQA nhưmột kho ngữ liệu mới cho tiếng Việt dé đánh giá các mô hình đọc hiểu chăm sóc sứckhỏe Kho ngữ liệu bao gồm 22.057 cặp câu hỏi-câu trả lời do con người tạo ra

13

Trang 35

Những người gán dữ liệu tạo ra các câu hỏi và câu trả lời của họ dựa trên bộ sưu tập

hơn 4.416 bài trực tuyên về chăm sóc sức khỏe của Việt Nam, trong đó các câu trả lời bao gôm các khoảng được trích ra từ các bài báo tương ứng Đặc biệt, tác giả xây

dựng quy trình tạo kho ngữ liệu cho phan đọc hiểu tiếng Việt của máy

Ví dụ bộ dữ liệu UTT-VINewsQA:

Đoạn văn bản: Nghiên cứu cho thấy resveratrol trong rượu vang đỏ có khả nănglàm giảm huyết áp, khi thí nghiệm trên chuột Resveratrol là một hợp chất trong vỏ

nho có khả năng chống oxy hóa, chống nắm mốc và ký sinh trùng Trên Circulation,

các nhà khoa học từ King’s College London (Anh) công bồ kết quả thí nghiệm tìm

ra sự liên quan giữa chuột và resveratrol Cụ thé, resveratrol tác động đến huyết áp

của những con chuột này, làm giảm huyết áp của chúng

Câu hỏi 1: Chất bồ trong vỏ nho có tác dụng gì?

Câu trả lời: có khả năng chống oxy hóa, chống nắm mốc và ký sinh trùng

Câu hỏi 2: Các nhà khoa học từ trường King's tìm ra phát hiện gì về loài chuột và

Hàn Quốc, Trên tiếng Việt, Nguyễn va các cộng sự cũng xây dựng bộ dữ liệu đọc

hiểu tự động với cấu trúc tương tự Bộ dữ liệu này bao gồm hơn 23.000 cặp câu hỏi

- câu trả lời do con người tạo ra dựa trên 5.109 đoạn văn của 174 bài báo tiếng Việt

từ Wikipedia Đặc biệt, tác gia đề xuất một quy trình tạo bộ dữ liệu mới cho MRC

Việt Nam Các phân tích chuyên sâu của tác giả minh họa rằng bộ dit liệu của tác giả

14

Trang 36

yêu cầu các khả năng ngoài suy luận đơn giản như đối sánh từ và yêu cầu các suyluận một câu và nhiều câu Bên cạnh đó, tác giả tiễn hành thử nghiệm các phương

pháp MRC hiện đại cho tiếng Anh và tiếng Trung như mô hình thử nghiệm đầu tiên

trên UIT-ViQuAD Tác giả cũng ước tính hiệu suất của con người trên bộ dữ liệu và

so sánh nó với kết quả thử nghiệm của các mô hình học máy mạnh mẽ Do đó, sựkhác biệt đáng ké giữa hiệu suất của con người và hiệu suất của mô hình tốt nhất trên

bộ dữ liệu cho thay rằng các cải tiến có thé được thực hiện trên UIT-ViQuAD trong

nghiên cứu trong tương lai Bộ dữ liệu của tác giả được cung cấp miễn phí trên trang

web của tác giả để khuyến khích cộng đồng nghiên cứu vượt qua những thách thứctrong MRC Việt Nam Bộ dữ liệu đầu tiên lấy nguồn từ Wikipedia tiếng Việt được

xuất bản vào tháng 9 năm 2020 Độ chính xác của bài toán trong phiên bản 1.0 của

UIT-ViQuAD hiện đạt độ chính xác cao nhất là 89,54%.

Vi dụ bộ dữ liệu UIT-ViQuAD 1.0:

Doan văn bản: Thuật ngữ dé chỉ thực vật hạt kin là \"Angiosperm\", có nguồn gốc

từ tiếng Hy Lạp cô đại œyyetov (chỗ chứa) và øxepuơ (hat), được Paul Hermann tạo

thành dưới dạng thuật ngữ Angiospermae vào năm 1690, như là tên gọi của một

trong các ngành chính trong giới thực vật của ông, nó bao gồm thực vật có hoa và

tạo ra các hạt được bao phủ trong các bao vỏ (quả nang), ngược lại với

Gymnospermae của ông, hay thực vật có hoa với các quả thuộc loại quả bế hay quả

nứt - toàn bộ quả hay mỗi miếng riêng rẽ của nó được coi như là hạt và trần trụi

Thuật ngữ nay va từ trái nghĩa của nó đã được Carolus Linnaeus duy tri với cùng

ngữ cảnh, nhưng với các ứng dụng hạn hẹp hơn, như trong tên gọi của các bộ trong

lớp Didynamia của ông Việc sử dụng nó trong bất kỳ cách tiếp cận nào đối với

lĩnh vực hiện đại của nó chỉ trở thành có thé sau khi Robert Brown thiết lập vàonăm 1827 sự tồn tại của các noãn trần thực sự trong Cycadeae (Tuế) và Coniferae(Thông), cho phép gọi chúng một cách chính xác là thực vật hạt trần Từ thời điểm

này trở đi, cũng giống như Gymnosperm được dùng dé chỉ thực vật hat trần thi

15

Trang 37

thuật ngữ Angiosperm đã được nhiều nhà thực vật học dùng với ý nghĩa đối lập,

nhưng với giới hạn thay đôi, như là tên nhóm cho các thực vật hai lá mầm khác

Câu hỏi: Thuật ngữ thực vật hat kín Angioosperm được định nghĩa đầu tiên trên

ngôn ngữ nào?

Câu trả lời: tiếng Hy Lạp

Bảng 2.1.4 Minh họa dữ liệu ViQuAD 1.0.

đôi dé tạo tập dữ liệu cho việc đọc hiểu tự động dựa trên trích xuất câu và ba loại

phương pháp tiếp cận dé đọc hiéu tự động dựa trên trích xuất câu bang tiéng Việt

Bên cạnh đó, tác giả cũng phân tích kết quả thử nghiệm về loại câu hỏi trong tiếngViệt và ảnh hưởng của ngữ cảnh đến hiệu suất của các mô hình MRC, từ đó chỉ ra

những thách thức từ bộ dữ liệu UIT-ViWikiQA mà tác giả đề xuất với cộng đồng

xử lý ngôn ngữ Day là bộ dit liệu được chuyền đổi từ bộ dữ liệu UIT-ViQuAD dé

đánh giá khả năng đọc hiểu của máy dựa trên trích xuất câu bằng tiếng Việt Tập dữ

liệu được phát hành vào tháng 5 năm 2021.

Vi dụ bộ dữ liệu UIT-ViWikiQA:

Doan văn bản: Paris năm ở điểm gặp nhau của các hành trình thương mại đường

bộ và đường sông, và là trung tâm của một vùng nông nghiệp giàu có Vào thế kỷ

10, Paris đã là một trong những thành phó chính của Pháp cùng các cung điện

hoàng gia, các tu viện và nhà thờ Từ thế kỷ 12, Paris trở thành một trong những

trung tâm của châu Âu về giáo dục và nghệ thuật Thế kỷ 14, Paris là thành phố

quan trọng bậc nhất của Cơ Đốc giáo và trong các thế kỷ 16, 17, đây là nơi diễn

16

Trang 38

ra Cách mạng Pháp cùng nhiều sự kiện lịch sử quan trọng của Pháp và châu Âu.

Đến thế kỷ 19 và 20, thành phó trở thành một trong những trung tâm văn hóa của

thế giới, thủ đô của nghệ thuật và giải trí

Câu hỏi: VỊ trí địa lý của Paris có gì đặc biệt?

Câu trả lời: Paris nằm ở điểm gặp nhau của các hành trình thương mại đường bộ

và đường sông, và là trung tâm của một vùng nông nghiệp giàu có.

Bảng 2.1.5 Minh họa bộ dữ liệu UIT-ViWikiQA.

2.1.3 Bộ dữ liệu chính

Phiên bản đầu tiên của UIT-ViQuAD 2.0 là UIT-ViQuAD 1.0, một bộ dữ liệuđược phát triển dựa trên SQuAD 1.0 Bộ dữ liệu chứa hơn 23 000 cặp câu hoi-cau trảlời trên hơn 170 bài báo được trích xuất từ Wikipedia Các tiêu đề từ bộ dữ liệu đượclây từ các bài báo thứ hạng cao trên Wikipedia; mỗi tiêu đề chia thành nhiều đoạn,mỗi đoạn có nhiều câu hỏi Câu trả lời là một khoảng liên tục được trích từ đoạn văn

Bộ dữ liệu này được cung cấp lần đầu tại Proceedings of the 8" InternationalWorkshop on Vietnamese Language and Speech Processing (Hội thảo Quốc tế về Xử

lý Giọng nói và Ngôn ngữ Tiếng Việt lần thứ 8) (VLSP 2021) cho nhiệm vụ đọc hiểu

tự động UIT-ViQuAD 2.0 kết hợp 23 000 câu hỏi trong UIT-ViQuAD 1.0 với hơn

12 000 câu hỏi không thể trả lời Điểm khác biệt so với phiên bản 1.0 là mỗi câu hỏi

có thể trả lời hoặc không Tương tự như bộ UIT-ViQuAD 1.0, câu trả lời cho mỗi câu

hỏi là một khoảng được trích ra từ đoạn văn Câu trả lời là văn bản rỗng cho câu hỏi

không trả lời được và thêm trường câu trả lời gây nhiễu (con người và mô hình thường

chọn nhưng thực tế không phải câu trả lời đúng) Với bộ dữ liệu UIT-ViQuAD 2.0,

hệ thống MRC phải trả lời các câu hỏi khi có thể và xác định khi nào ngữ cảnh không

hỗ trợ câu trả lời Bảng 2.1.7 cho thấy tổng số câu hỏi trong UIT-ViQuAD 2.0 là35,990 Ngoài ra, bảng này cũng liệt kê số lượng bài báo, đoạn văn và câu hỏi không

trả lời được trong bộ dữ huấn luyện, đánh giá và thử nghiệm của bộ dữ liệu

17

Trang 39

Train Public Test Private Test All

Number of articles 138 19 19 176

Number of passages 4,101 557 515 5,173

Number of total questions 28,457 3,821 3,712 35,990

Number of unanswerable 9,217 1,168 1116 11,501 questions

Bang 2.1.6 Số liệu tổng quát UIT-ViQuAD 2.0

Ví dụ cho bộ dt liệu UIT-ViQuAD 2.0:

Đoạn văn bản: Mã máy nhị phân (khác với mã hợp ngữ) có thê được xem như làphương thức biểu diễn thấp nhất của một chương trình đã biên dịch hay hợp dịch,hay là ngôn ngữ lập trình nguyên thủy phụ thuộc vào phần cứng (ngôn ngữ lập trìnhthé hệ đầu tiên) Mac dù chúng ta hoàn toàn có thể viết chương trình trực tiếp bằng

mã nhị phân, việc này rất khó khăn và dễ gây ra những lỗi nghiêm trọng vì ta cần

phải quản lý từng bit đơn lẻ và tính toán các địa chỉ và hằng số học một cách thủcông Do đó, ngoại trừ những thao tác cần tối ưu và gỡ lỗi chuyên biệt, chúng ta rấthiểm khi làm điều này

Câu hỏi 1: Ngôn ngữ lập trình thế hệ đầu tiên là ngôn ngữ gì?

Câu trả lời: Mã máy nhị phân

Câu hỏi 2: Ngôn ngữ lập trình hợp ngữ đầu tiên là ngôn ngữ gi?

Câu trả lời: “”

Cau tra lời hợp lí (sai): Mã máy nhị phân

Bang 2.1.7 Minh họa bộ dữ liệu UIT-ViQuAD 2.0.

2.2 Các mô hình liên quan

Cùng với các bộ dữ liệu là các mô hình tiêu biêu đạt độ chính xác cao, đê từ

đó chúng tôi có thé so sánh và phát triển

18

Trang 40

2.2.1 ViQAS

Ở mô hình hệ thống, chúng tôi kế thừa phần lớn mô đun Retriever (hình 2.1.1)

từ công trình của Đỗ và các cộng sự [2], và phát triển thêm Mô đun Retriever sửdụng nên tảng là sự liên quan giữa các câu trong đoạn văn dai với câu hỏi Chúng tôiđánh giá phương pháp này có thé sử dụng trong nhiều trường hợp với mối liên hệ

giữa các câu trong đoạn văn hay giữa các câu với câu hỏi về mặt ngữ cảnh ở mức độ

đơn giản Điểm yêu của cách tiếp cận này sẽ bộc lộ ở những trường hợp có ngữ cảnhphức tạp liên quan với nhau hay câu hỏi cần câu trả lời kết hợp giữa nhiều câu trong

đoạn văn.

19

Ngày đăng: 03/11/2024, 18:32

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN