Tính đến hiện tại, hầu hết các bộ dữ liệu cho tác vụ đọc hiểu tự động trên ngôn ngữ tiếng Việt tập trung vào các hình thức văn bản chính quy, chẳng hạn như các bài viết trên nền tang bác
Trang 1NGO PHUGC THINH - 19520981
DANG TRAN ANH KHOA - 19520629
KHOA LUAN TOT NGHIEP
NGHIÊN CỨU DOC HIỂU TU DONG DUA TREN VAN BẢN NGON NGỮ
NOI VE CHU DE DU LICH VA AM THUC TIENG VIETMACHINE READING COMPREHENSION ON VIETNAMESE SPOKEN ILANGUAGE: UNDERSTANDING THE CONTEXT OF FOOD AND TRAVEL|
CONTENT
CU NHAN NGANH KHOA HOC DU LIEU
GIẢNG VIÊN HƯỚNG DẪN
ThS LƯU THANH SƠN
ThS NGUYEN VĂN KIỆT
TP HỒ CHÍ MINH, 2023
Trang 2LỜI CẢM ƠN
Trước tiên, chúng tôi xin gửi lời cảm ơn chân thành đến Thầy ThS Lưu ThanhSơn và Thầy Ths Nguyễn Văn Kiệt - những người đã hướng dẫn và hỗ trợ chúng tôitrong suốt quá trình thực hiện đề tài Nhờ sự truyền cảm hứng, ý tưởng và sự quantâm của hai thầy, chúng tôi đã hoàn thành đề tài một cách thành công
Chúng tôi cũng muốn gửi lời cảm ơn sâu sắc đến các giảng viên và nhân viên
trong Khoa Khoa học và Kĩ thuật Thông tin cũng như trường Đại học Công nghệ
Thông tin, những người đã trang bị cho chúng tôi kiến thức cần thiết và cung cấp cáccông cụ hỗ trợ để chúng tôi có thể thực hiện đề tài Chúng tôi cảm ơn các thầy cô đãcung cấp cho chúng tôi công cụ gán nhãn MRC Annotation Tool, và quyền truy cập
đến bộ dữ liệu UIT-ViQuAD Cảm ơn những người bạn đã đồng hành, hỗ trợ, dànhthời gian, công sức quý báu của mình để giúp chúng tôi xây dựng và hoàn thiện bộ
đữ liệu một cách khách quan nhất có thể
Ngoài ra, chúng tôi cũng muốn gửi lời cảm ơn đến Youtube và các YouTuber trênnên tảng, đã sáng tạo ra những nội dung đa dạng, thú vị, tạo tiền đề cho nghiên cứu
của chúng tôi.
Và cuối cùng, chúng tôi xin dành lời cảm ơn chân thành nhất đến các bậc cha mẹ
và gia đình đã tạo điều kiện, động viên và hỗ trợ tinh thần trước và cả trong quá trình
thực hiện khóa luận.
Cuối cùng, chúng tôi muốn nhắc lại rằng mặc dù đã cố gắng hết sức để hoàn
thành đề tài, nhưng chắc chắn sẽ còn có những thiếu sót và hạn chế Vì vậy, chúng tôimong muốn nhận được sự đóng góp ý kiến từ Quý Thay/Cé, các anh chị và các bạn
để chúng tôi có thể cải thiện và hoàn thiện đề tài của mình
Thành phô Hỗ Chí Minh, tháng 06 năm 2023
Sinh viên Ngô Phước Thịnh
Đặng Trần Anh Khoa
Trang 3Mục lục
Lời cảm ơn
Mục lục
Danh mục các bảng
Danh mục các hình ảnh và biểu đồ
Danh mục từ viết tắt
Tóm tắt khóa luận
Chương 1 Tổng quan đề tài
1.1 Động lực nghiên cứu
12 Tháchthức
1.2.1 Ngữâm vàphươngngữ
1.2.2 Chấtlượngâmthanh
1⁄23 Định dạng của transcript
1.2.4 Độ dài transcript
1.2.5 Nhập nhằng trong tiếng Việt
1.2.6 Khả năng diễn đạt của người trình bay
1.3 Định nghĩa táểvụ ẶẶẶ Chương 2 Giới thiệu Chương 3 Những công trình nghiên cứu liên quan Chương 4 Bộ dữ liệu cho tác vụ đọc hiểu trên dữ liệu nói 4.1 Hướng dẫn gán nhãn - Annotation guidelines
4.2 Các độ đo đánhgiá
4.2.1 Các độ đo dành cho tính toán độ đồng thuận giữa những người gán nhãn dữ liệu
4.2.2 Các độ do đánh giá mức độ trùng khớp của thông tin
ii
vi vii viii
Ww BW NY NY WN
wi ow
+
Trang 4MỤC LỤC
4.2.3 Các độ do đánh giá hiệu suất các mô hình ngôn ngữ trên tác
4.3 Quá trình xây dựng bộ dữ liệu - Corpus creation .
4.3.1 Thuthậpdữliệu
-4.3.2 Sinh cặp câuhỏi-đấáp
4.3.3 Hiệu chỉnh bộ dữliệu
.4.3.4 Kiểm nghiệm bộ dữ liệu
-Chương 5 Xử lí và phân tích bộ dữ liệu 5.1 Phân tích thống kê tổng quan
-5.2 Phân tích sơ bộ trên tập từ vựng
5.3 Phân tích thống kê dựa trên thời lượng
-5.4 Phân tích thống kê dựa trên loại câu hỏi
5.5 Độ đồng thuận giữa người gin nhãn - Inter-rater agreement
Chương 6 Mô hình ngôn ngữ 6.1 Mô hình đangônngữ
6.2 Mô hình đơn ngônngữ
Chương 7 Kết quả thực nghiệm 7.1 Môi trường thực nghiệm
7.2 Kết quả thực nghệm c
7.2.1 Huấn luyện trên bộ dữ liệu của chúng tôi
7.2.2 Huấn luyện chéo trên bộ dữ liệu UIT-ViQuAD
7.3 Phântíchlỗi ẶẶ ee Chương 8 Ứng dụng web cho mô hình ngôn ngữ §.1 Giới thiệu về ứng dụng web và chức năng chính
8.2 Luồng dữliệu c2 SẺ ca
Chương 9 Kết luận
9.1 KẾtluận ng vva
9.2 Thuận lợi oo eect eens
22 22
24 26
26
28
30 31 32 33
33 33 35
36
39 39
45
iii
Trang 5MỤC LỤC
93 Khókhăn Ặ ee ee
9.4 Phuong hướng phát
triển -Tài liệu tham khảo
iv
Trang 6Thụng tin về cỏc kờnh Youtube được chon để thu thập Transcript .
Cỏc số liệu thống kờ tổng quan của bộ dữ liệu chỳng tụi và bộ
UIT-ViQuAD Qua
Thống kờ độ dài video dựa trờn thể loại (đơn vị: giõy)
Phõn phối của video theo chủ đề dựa trờn độ dài (đơn vị: giõy)
Phõn phối của transcript dựa trờn độ dài
Tỉ lệ cỏc cõu hỏi trong bộ dữ liệu UIT-ViQuAD và bộ dữ liệu của
chỳng tụi Trong bộ dữ liệu của chỳng tụi, Ti lệ của cõu hỏi loại
How là kết quả tổng hợp từ loại cõu hỏi How-quantity (25.59%) và
How-quality (6.98%) ẶẶ ee
Kết quả đỏnh giỏ độ đồng thuận
Kết quả của cỏc mụ hỡnh ngụn ngữ Transformer khi được huấn luyện
trờn bộ dữ liệu của chỳng tụi và được kiểm trờn tập kiểm thử (test) và
tập phỏt triển (dev) trờn độ đo EM và F1, cựng với kết quả của con
người Âm ốeođ %.Š /ẻ ô@&@độ .ếỖ ỀỒệỘỒỘợ✠ees
Kết quả của cỏc mụ hỡnh ngụn ngữ Transformer ở 2 độ đo EM và
FI-score khi đó được huấn luyện trờn tập dữ liệu UIT-ViQuAD
Số lượng va ti lệ cõu trả lời sai trờn từng loại cõu hỏi của cỏc mụ hỡnh
ngụn ngữ Transformer ở độ đo EM
Một số lỗi cho từng loại cõu hỏi của mụ hỡnh XLM-Rjarge, cựng với
bản dịch (tương đối) tiếng
Anh -19
33 35
Trang 74.2
5.1
5.2
5.3
5.4
8.1
8.2
8.3
8.4
8.5
8.6
8.7
8.8
8.9
Danh sach hinh vé
Vi dụ được lay từ bộ dữ liệu, bao gồm cả những lỗi nhận dang giọng
nói được gạch chân Phần phiên dịch tiếng Anh tương ứng được trình
bày bằng chữ xanh .c ee 10
Quy trình xây dựng bộ dữ liệu 18
Đám mây từ của các từ riêng (đã được mã hóa thành token) trong bộ dữ liệu của chúng tôi so với tập từ vựng chung 25
Đám mây từ của các từ riêng (đã được mã hóa thành token) trong bộ dữ liệu UIT-ViQuAD so với tập từ vựng chung 25
Đám mây từ vựng trên bộ dữ liệu của chúng tôi (không có mã hóa thành token) z‹ c cv 25 Đám mây từ vựng trên bộ dữ liệu UIT-ViQuAD (không có mã hóa thành token), c c k cv 26 Trang chủ của ứng dụng web dành cho tiếng Anh-1 39
Trang chủ của ứng dụng web dành cho tiếng Anh-2 40
Trang chủ của ứng dụng web dành cho tiếng Viét-1 41
Trang chủ của ứng dụng web dành cho tiếng Việt-2 42
Giao diện mặc định của trang hỏi đáp 43
Một phản hồi thành công của mô hình đến với người dùng 44
Phản hồi của ứng dụng web trả về cho người dùng khi độ tin cậy cho phản hồi quá thấp 44 Luéng dữ liệu sau khi người dùng nhập đường dẫn đến một video
vi
Trang 8DANH MỤC TU VIET TAT
EM Exact match score
GPU Graphics Processing Unit
RAM Random Access Memory
SOTA state of the art
QA Question Answering
vii
Trang 9TÓM TẮT KHÓA LUẬN
Ở khóa luận này, chúng tôi trình bày về tác vụ, bộ dif liệu, và mô hình ngôn ngữ
trên ngôn ngữ nói tiếng Việt dành cho tác vụ đọc hiểu tự động Quá trình xây dựng
bộ dữ liệu của chúng tôi bao gồm các bước từ thu thập và xử lí transcript, xây dựng
bộ các câu hỏi-đáp, hiệu chỉnh bộ dữ liệu và đánh giá bộ dữ liệu Bên cạnh đó, chúng
tôi cũng sẽ trình bày tổng quan về những vấn đề, cơ hội, và thách thức mà chúng tôi gặp phải trong quá trình ứng dụng dữ liệu thực tế cho tác vụ đọc hiểu tự động.
Tính đến hiện tại, hầu hết các bộ dữ liệu cho tác vụ đọc hiểu tự động trên ngôn
ngữ tiếng Việt tập trung vào các hình thức văn bản chính quy, chẳng hạn như các bài
viết trên nền tang bách khoa toàn thư mở Wikipedia, các trang báo trực tuyến đến
từ các đơn vị uy tín, hoặc các văn bản lấy ra từ sách giáo khoa Tuy nhiên, yêu cầu cho tác vụ đọc hiểu tự động, trên thực tế không chỉ gói gọn ở các định dạng văn bản
thông thường Do đó, chúng tôi đã sử dụng một cách tiếp cận khác khác, trong đó bộ
dữ liệu của chúng tôi bao gồm 10.076 cặp câu hỏi-đáp được xây dựng từ 1.230 tập
tin transcript thu thập từ các vlog trên nền tảng trực tuyến YouTube.
YouTube là một nền tang chia sẻ video trực tuyến, có khối lượng lượng dif liệu da dạng, bao gồm nhiều loại hình nội dung khác nhau được tạo ra bởi người dùng như vlog, chương trình giải trí, phim xuất bản trên nền tảng web (web-drama), các video
ca nhạc và các loại hình giải trí khác Bộ dữ liệu của chúng tôi chủ yếu khai thác các
nội dung nằm ở các chủ đề Ẩm thực và Du lịch từ các vlog hướng dẫn nấu ăn và du
lịch khám phá.
Trên bộ dữ liệu của chúng tôi, các mô hình học sâu đã cho ra kết quả trên độ đo
F1 score cao nhất là 75,34%, thành tựu này đã thể hiện được tính khả dung và kha năng của bộ dữ liệu trong tác vụ đọc hiểu tự động trên dạng dữ liệu nói Tuy nhiên,
trên độ đo EM, kết quả khả quan nhất mà mô hình đạt được chỉ ở ngưỡng 53.97%, cách khá xa so với khả năng đánh giá trên độ đo F1 Kết quả này để lại cơ hội và thách thức cho những cải thiện, cải tiễn trong các nghiên cứu khoa học tiếp nối sau
này, cũng như khẳng định nhu cầu cho một bộ dữ liệu, và một mô hình ngôn ngữ
dành cho ngôn ngữ nói là hoàn toàn phù hợp.
Tổng quan, bộ dữ liệu của chúng tôi đã truyền tải được những đặc điểm của ngôn
Vili
Trang 10DANH SÁCH HÌNH VẼ
ngữ nói của người bản ngữ Việt Nam, trong các môi trường hết sức tự nhiên Đây là một chu đê chưa nhận được nhiều sự quan tâm từ giới nghiên cứu Chúng tôi tin rằng
đây sẽ là một nguồn tư liệu đáng giá cho những công trinh nghiên cứu trong lĩnh vực
đọc hiểu sau này, đặc biệt là trên ngôn ngữ có nguồn tư liệu hạn chế.
1X
Trang 11Chương 1 Tổng quan đề tài
Giới thiệu động lực cho bài nghiên cứu, đi kèm với những khó khăn trong quá nghiên cứu và phát biểu định nghĩa cho tác vụ.
1.1 Động lực nghiên cứu
Trong thời đại của nền tảng truyền thông hiện nay, lượng thông tin ngày càng tăng,
và việc phải liên tục cập nhật thông tin mới trở nên khó khăn đối với con người Việc
tìm kiếm, truy cập và xác định thông tin môt cach hiêu qua đang trở thành một thách
thức lớn, đặc biệt đối với các nguồn thông tin lớn, gây lãng phí thời gian và công sức Với sự phổ biến của các mạng xã hội, thông tin không chỉ được truyền tải dưới dạng văn bản mà còn là âm thanh (như podcast, radio, và âm nhạc) và hình ảnh kĩ thuật số
trên Internet Thậm chí, một lượng lớn thông tin trên Internet, đặc biệt là các trang
mạng xã hội, được truyền tải kết hợp cả âm thanh và hình ảnh, chẳng hạn như các
đoạn phim hoặc đoạn video ngắn.
Tuy nhiên, truy xuất thông tin trên video lại gặp phải nhiều khó khăn, đặc biệt là
trường hợp của các đoạn video dài Người dùng phải xem và nghe toàn bộ nội dung
của video để có thể nắm bắt được đầy đủ thông tin trong đó, việc này sẽ tốn rất nhiều
thời gian và công sức khi các đoạn ghi âm hội thoại hay video có thể kéo dài hàng
giờ liền Với sự phát triển của khoa học và kỹ thuật ngày nay, đa co nhiêu mô hinh
xuât hiên co kha năng xư ly cac tác vụ hỏi đáp tự động dựa trên đoạn văn và câu hỏi
mà chúng ta đưa vào Tuy nhiên, những mô hình này chỉ có thể xử lý tốt trên một
đoạn văn bản ngắn và trả lời trên các văn bản chính quy có mức độ chặt chẽ cao về
mặt ngôn từ lẫn hình thức Trong khi đó, ngôn ngữ trong các video thường sử dụng
ngôn ngữ nói, có nhiều điểm khác biệt và độc nhất so với ngôn ngữ viết Ngôn ngữ nói không chỉ chịu ảnh hưởng bởi ngữ nghĩa đơn thuần như văn bản của ngôn ngữ
viết, mà còn bởi nhiều yếu tô khác chang hạn như giọng địa phương, từ đồng âm, từ
trái âm, ngắt câu.
Văn bản chính quy thường có các quy tắc ngữ pháp cụ thể, các từ ngữ được sắp
xếp và kết hợp với nhau để tạo ra các câu hoàn chỉnh và chính xác Ngược lại, podcast
và vlog thường sử dụng ngôn ngữ tự nhiên và thông thường, không tuân theo các quy
Trang 121.2 THÁCH THUC
tac ngữ pháp cu thé Các từ ngữ thường được sử dung theo cảm tính và cách nói của
người nói, và có thể có sự lặp lại và ngắt quãng trong cách sử dụng.
Ngoài ra, vlog còn có thể sử dụng các từ ngữ địa phương, từ đồng âm, từ trái âm
và các từ lóng, đặc biệt là trong các video về văn hóa, giải trí và cuộc sống hàng ngày Điều này đôi khi có thể làm cho nội dung của vlog khó hiểu hoặc khó xử lý bởi các
mô hình xử lý ngôn ngữ tự động.
Do đó, việc xử lý và truy xuất thông tin trên các video trực tuyến, đặc biệt là những nguồn đậm chất ngôn ngữ nói, như vlog và podcast, đang trở thành một thách
thức lớn đối với các hệ thống xử lý ngôn ngữ tự động.
Đây là động lực của nhóm để xây dựng và đóng góp một bộ dữ liệu về hỏi đáp
trên ngôn ngữ nói, nhằm giúp huấn luyện các mô hình hiện đại phục vụ cho tác vụ
hỏi đáp tự động dựa trên văn bản được chuyển đổi từ giọng nói trong các video từ
mạng xã hội Việc này không chỉ hỗ trợ khả năng xử lý và truy xuất thông tin từ các
video, mà còn cải thiện mức độ hài lòng của người dùng khi tìm kiếm thông tin trên
các mạng xã hội.
1.2 Thách thức
1.2.1 Negi âm và phương ngữ
Tiếng Việt là một ngôn ngữ có thanh điệu với 3 vùng phương ngữ chính (và nhiều vùng con) tương ứng với ba miền Bắc, Trung, Nam Cùng với đo la những sự đa dạng
về ngữ âm, tiếng Việt rất đa dạng trong cách phát âm và cách dùng từ giữa các vùng.
Chính sự phong phú và phức tạp của tiếng Việt trong các tình huống thực tế này đã
tác động đến độ chính xác của hệ thống nhận diện giọng nói tự động của Youtube.
1.2.2 Chất lượng âm thanh
Nguồn âm thanh chất lượng thấp gây tác động đến độ chính xác của quá trình chuyển đổi từ giọng nói sang transcript, dẫn đến lỗi nhận diện của hệ thống và sự giảm đi tính nhất quán trong các tài liệu transcript Các lỗi này dễ dàng gặp ở các dạng video
có nhiều tạp âm đến từ ngoại cảnh như các nội dung khám phá, du lịch, những video
được ghi hình ở môi trường ôn ào, hay thậm chí là do nhạc nền quá lớn.
Trang 131.2 THÁCH THỨC
1.2.3 Định dang của transcript
Không giống với các văn bản chính quy thường thấy, định dạng transcript của Youtube
không sử dụng dấu câu để đánh dấu các đoạn ngắt nghỉ hợp lí trong văn bản transcript
mà Youtube phân chia transcript thành nhiều đoạn nhỏ theo các đơn vị thời gian Bên
cạnh đó, các transcript được nhận dạng tự động cũng sẽ có sự thiếu nhất quán trong
việc viết hoa, chẳng hạn giữa các danh từ bình thường và các thực thể tên sẽ có sự
thiếu chính xác Sự thiếu ổn định này mang đến những khó khăn lớn trong việc đọc
hiểu nội dung transcript.
1.2.4 Độ dài transcript
Transcript được sử dụng trong bộ dif liệu của chúng tôi có độ dài khá lớn so với các
văn bản trong các bộ dữ liệu dành cho tác vụ đọc hiểu tự động tương tự khác Các
video của chúng tôi sử dụng là một chuỗi dài các đoạn đối chuyện hay độc thoại.
Điều đó dẫn tới việc để truy xuất được một thông tin cho một câu hỏi nào đó thì ta phải lọc qua một lượng lớn thông tin không liên quan Việc này gây ra nhiều thách
thức trong việc đọc hiéu đối với cả người gán nhãn và các mô hình ngôn ngữ, cũng như quá trình huấn luyện mô hình đòi hỏi nhiều tài nguyên hơn.
1.2.5 Nhập nhang trong tiếng Việt
Trong tiếng Việt, một trong những khó khăn khi xử lí các cụm từ chính là sự nhập
nhằng Một từ có thể mang nhiều nghĩa khác nhau (từ “bò" có thể mang ý nghĩa là
một động từ, cũng có thể mang nghĩa là một danh từ chỉ động vật) Tình trạng này
gây nhiều khó khăn trong việc định vị cụm từ, phân loại từ loại và xác định đối tượng
liên quan trong các mô hình ngôn ngữ.
1.2.6 Khả năng diễn đạt của người trình bày
Một số vấn đề trong diễn đạt bằng lời như nói lắp, nói quá nhanh trong giao tiếp ảnh
hưởng đến các văn bản thu được Việc người diễn đạt cà lăm khiến một số từ ngữ bị
trùng lặp khá nhiều Một số đoạn người trình bày nói quá nhanh có thể sẽ làm ảnh
hưởng đến chất lượng ghi âm cũng như việc chuyển đổi thành văn bản của mô hình
Trang 141.3 ĐỊNH NGHĨA TÁC VỤ
speech-to-text của Youtube.
1.3 Định nghĩa tac vụ
Question Answering (QA) hay hỏi đáp tự động là một kĩ thuật được sử dụng nhằm
mục đích tìm kiếm câu trả lời dựa trên câu hỏi được cho trước Hiện nay hỏi đáp tự
động sử thường sử dụng một số kĩ thuật trong tìm kiếm và xử lí ngôn ngữ tự nhiên
(Natural Language Processing) như: Rút trích thông tin (Information Extraction),
Tìm kiếm thông tin (Information Retrieval).
Dua trên dữ liệu đầu vào va cách tim ra câu trả lời, các tác vụ hỏi đáp có thé được
phân loại khái quát thành những loại như sau:
¢ Extractive QA: Câu trả lời được xác định dựa vào câu hỏi và đoạn van ban được
đưa vào, mô hình thực hiện trích xuất câu trả trong văn bản.
¢ Open Generative QA: Câu trả lời được xác định từ câu hỏi và đoạn van bản,
đồng thời mô hình sẽ tự sinh ra câu trả lời tương ứng với ngữ cảnh của văn bản được đưa ra.
¢ Closed generative QA: Tương tự với Open Generate QA, tuy nhiên loại này
không cung cấp tài liệu hay văn bản đầu vào để trích xuất thông tin, thay vào
đó, câu trả lời sẽ do mô hình sinh ra dựa trên các dữ liệu đã được huấn luyện
trước.
Ngoài ra, tác vụ hỏi đáp tự động còn được phân loại theo lĩnh vực của dữ liệu mà
mô hình hướng đến, bao gồm:
* Closed Domain: Mô hình sẽ hướng đến một lĩnh vực nhất định, điểm mạnh của
các mô hình này chính là độ chính xác cao khi mô hình đã tập trung học và có được những đặc trưng trên lĩnh vực này.
* Open Domain: Khác với Closed Domain, mô hình Open Domain có khả năng
hỏi đáp trên nhiều dạng chủ dé khác nhau với độ chính xác cao Tuy nhiên để đạt được điều này, mô hình cần một lượng lớn dữ liệu trên nhiều chủ đề, nhiều
lĩnh vực để có thể đáp ứng được.
Trang 151.3 ĐỊNH NGHĨA TÁC VỤ
Hiện nay, tác vụ hỏi đáp đang dần nhận được nhiều sự chú ý vì tính ứng dụng cao
trong thực tế Các công ty, tập đoàn, nhà cung cấp dịch vụ lẫn doanh nghiệp hiện nay đang tìm kiếm giải pháp triển khai trợ lý ảo trò chuyện để có thể phản hồi các
câu hỏi từ khách hàng một cách tự động, nhanh chóng, chính xác và ít tốn kém nhất Nguồn thông tin để trả lời câu hỏi có thể được lấy từ các văn bản như chính sách, các bài viết, thông báo và các văn bản chính thức từ công ty Bên cạnh nhu cầu kể trên, thông tin cần thiết để trích xuất cũng có thể xuất hiện trong các cuộc họp, các buổi gap gỡ và trao đối, được trình bày dưới dạng đoạn phim hoặc các ghi âm Các nền tảng thông tin, mạng xã hội trực tuyến như YouTube, Facebook và TikTok cũng cung cấp một nguồn thông tin đáng kể về ngôn ngữ nói, bao gồm cả các video được cập
nhật hàng ngày có nội dung mới mẻ và ngữ cảnh đa dạng.
Với những video ngắn, việc trích xuất thông tin có thể đơn giản, nhưng với trường hợp với các video dài, người dùng có thể không muốn nghe hết video hay đoạn ghi
âm mà vẫn có thể có được thông tin cho các thắc mắc, câu hỏi của mình Quá trình
tìm kiếm và trích xuất thông tin từ các đoạn ghi âm và ghi hình có thể khó khăn do ảnh hưởng của điều kiện ngoại cảnh Các video được đăng tải ngày một nhiều với
nội dung đa dạng, ngữ cảnh phong phú, nhiều thể loại khác nhau và những video này
mang đến những đặc trưng riêng biệt do tồn tại nhiều sự khác biệt chẳng hạn như về
địa lí, lĩnh vực Những thông tin này mang những đặc trưng của ngôn ngữ nói, vốn có nhiều đặc điểm khác với ngôn ngữ viết trong các văn bản chính quy thường thấy.
Dựa trên nhu cầu về trích xuất thông tin trên những nguồn dữ liệu lớn, mất nhiều
thời gian để xem như video, chúng tôi hướng đến tác vụ hỏi đáp thuộc loại Extractive
ở nghiên cứu này Tương ứng với một transcript và một câu hỏi đầu vào, mô hình sẽ
tìm câu trả lời nằm trong đoạn văn bản transcript đó Và để huấn luyện và đánh giá
mô hình, chúng tôi sử dụng nguồn dữ liệu nói được thu thập từ các vlog YouTube
thuộc về chủ dé du lịch và ẩm thực Những vlog này có nội dung da dạng và ngôn ngữ nói có nhiều đặc trưng khác biệt với ngôn ngữ viết trong các văn bản chính quy thường thấy, đồng thời cũng giúp chúng tôi có thể tiếp cận với một lượng lớn dữ liệu
về ngôn ngữ nói.
Trang 16Chương 2 Giới thiệu
Giới thiệu một cách tổng quan về dé tài nghiên cứu đọc máy cho ngôn ngữ nói, bao gỗm phạm vi và ý nghĩa.
Đọc hiểu tự động (Machine reading comprehension - MRC) là một tác vụ kinh
điển trong lĩnh vực xử lí ngôn ngữ tự nhiên Tác vụ này yêu cầu máy tính phải hiểu được một văn cảnh cho sẵn để có thể đưa ra câu trả lời chính xác cho một câu hỏi có
liên quan đến đoạn văn cảnh Hiện tại có rất nhiều bộ dữ liệu chất lượng cao, quy mô
lớn dành cho tác vụ đọc hiểu trên tiếng Anh, đặc biệt là sau sự thành công của bộ
Tuy vậy, các bộ dữ liệu tương tự trên tiếng Việt khá hạn chế và chúng chủ yếu tập
trung ở tác vụ hỏi đáp trên văn bản viết, như các bài viết Wikipedia, thông tin ở sách giáo khoa, báo trực tuyến Bên cạnh những văn bản chính quy kể trên, ngôn ngữ nói cũng là một lĩnh vực tiềm năng chưa nhận được nhiều sự quan tâm từ những nhà
nghiên cứu Ngôn ngữ nói mang đến các khía cạnh đặc trưng như từ lóng, phương ngữ, các cấu trúc ngữ pháp không chính quy và các đặc trưng này có thể là một thách
thức lớn cho các mô hình ngôn ngữ hiện tại Vì thế, tác vụ đọc hiểu trên miền dữ liệu
đặc trưng như ngôn ngữ nói - loại ngôn ngữ tự nhiên, gan gũi với giao tiếp hằng ngày
và Giải tri), Autos and Vehicles(Xe), Beauty and Fitness (Lam đẹp và Sức khỏe),
Books and Literature (Sách và Văn học), Business and Industrial (Doanh nghiệp và
Công nghiệp), Computers and Electronics ( Máy tính và Điện tử), Finance (Kinh tế
"https://www.similarweb.com/top-websites/
*https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/
6
Trang 17CHƯƠNG 2 GIGI THIEU
tai chinh), Food and Drink (Am thực), Games (Trò chơi), Health (Sức khỏe), Hobbies
and Leisure (Sở thích), Home and Garden (Nhà cửa và Làm vườn), Internet and
Telecom (Mạng Internet và Viễn thông), Jobs and Educations (Hướng nghiệp và
Giáo dục), Law and Government (Luật pháp và Chính phủ), News (Tin tức), Online
Communities (Cộng đồng mạng), People and Society (Con người và Xã hội), Pets
and Animals (Thú cưng và Động vật), Real Estate (Bất động sản), Reference (Tham
khảo), Science (Khoa học), Shopping (Mua sắm), Sports (Thể thao), Travel(Du lịch)!.
Không chỉ đa dạng về chủ đề mà các video trên Youtube còn hướng đến nhiều độ tuổi khác nhau khi nội dung các video hướng đến các đối tượng từ thiếu nhi đến các nội dung hướng đến người lớn tuổi Các video được đăng tải lên Youtube cũng thay
đổi chủ dé rat da dạng, các nhà sáng tạo nội dung luôn cé gắng tạo dựng hoặc đuổi
theo các xu hướng trong xã hội thực lẫn Internet để thu hút người xem Các yếu tố trên đảm bảo cho nguồn dif liệu có thể truyền tải được sự da dạng trong ban chất tự
nhiên của ngôn ngữ nói và văn hóa hằng ngày.
Chủ dé mà chúng tôi lựa chọn để thực hiện chính là Du lịch và Ẩm thực Hai chủ
dé này được nhiều vlogger thực hiện và đã thu hút nhiều lượt quan tâm đến từ người xem trên nhiều nền tảng mạng xã hội Trong các video này, nội dung do người dẫn
vlog thường không có một kịch bản trước mà thường sẽ nói dựa trên điều kiện thực
tế, các cuộc hội thoại với người khác, mà không có sự chuẩn bị trước Điều này
giúp đảm bảo giữ được những đặc trưng của ngôn ngữ nói đời thường.
Nghiên cứu trên tác vụ đọc hiểu tự động cho miền ngôn ngữ cũng là tiền đề để
đóng góp cho một tác vụ lớn hơn, đó là rút trích thông tin (Information Extraction).
!https://trends.google.com/trends/explore?gprop=youtube
7
Trang 18Chương 3 Những công trình nghiên cứu liên quan
Ỏ chương này, chúng tôi sẽ giới thiệu một sô bộ dữ liệu dành cho tác vụ đọc hiểu
tự động trên Tiếng Việt và khảo sát một sô nghiên cứu có liên quan đến tác vụ đọc hiểu tự động dành riêng cho dit liệu nói trên thé giới.
UIT-ViQuAD[2] là bộ dữ liệu phát hiện đoạn (span-detection) dành cho tác vụ
đọc hiểu tự động trên tiếng Việt Bộ dữ liệu bao gồm 23074 câu hỏi trên 5019 đoạn văn, được lấy từ các bài viết Wikipedia tiếng Việt ! Bộ dữ liệu này đã được sử dụng khá rộng rãi như một quy chuẩn để so sánh trong các nghiên cứu có liên quan đến
đọc hiểu tự động trên tiếng Việt Ở phiên bản sau đó của bộ dữ liệu, UIT-ViQuAD
2.0[3], có thêm 9217 câu hỏi không có câu trả lời (unanswerable), mở rộng thêm kha
năng của bộ dữ liệu, giúp cho các mô hình ngôn ngữ cho tác vụ đọc hiểu tự động có
thể xác định được các câu hỏi không có câu trả lời nằm trong văn cảnh Xây dựng
từ nền tảng của bộ dữ liệu UIT-ViQuAD, bộ dữ liệu UIT-ViWikiQA[4] là một bộ
dữ liệu phát hiện câu (sentence detection), được xây dựng cho các tác vụ liên quan đến đọc hiểu ở mức độ câu Đối với miền thông tin chuyên ngành y học, sức khỏe,
ViNewsQA[5] là bộ dữ liệu với 22057 câu hỏi được xây dựng từ 4416 bài báo online
của trang thông tin điện tử VnExpress?.
Bên cạnh những bộ dữ liệu chuyên biệt cho tác vụ phát hiện đoạn, trên tiếng Việt
còn một số tập dữ liệu dành cho các tác vụ liên quan VIMMRC[6] là bộ dữ liệu hỏi
đáp dạng trắc nghiệm (multiple choice) đầu tiên trên tiếng Việt, bao gồm 2783 câu hỏi với bốn lựa chọn cho mỗi câu Bộ dữ liệu được xây dựng trên 417 bài đọc dựa trên sách giáo khoa Ngữ Văn tiếng Việt Phiên bản tiếp nối của bộ dữ liệu, VIMMRC
2.0[7] giới thiệu 699 đoạn văn và 5273 câu hỏi Ở phiên bản mới, số lượng đáp án để
chọn lựa cho mỗi câu hỏi không còn cô định ở con số bốn UIT-ViCoV19QA[8] là
bộ câu hỏi sử dung di liệu từ các câu hỏi thường gặp (online FQA documents) từ
các tổ chức y tế đáng tin để giải quyết những câu hỏi liên quan đến COVID-19, và đây cũng là bộ dif liệu hỏi đáp đến từ cộng đồng đầu tiên trên tiếng Việt với tổng
cộng 4500 câu hỏi Ngoài ra còn có bộ dữ liệu VIMQA[9], là bộ dữ liệu hỏi đáp đa
bước (multi-hop) dựa trên nguồn dữ liệu từ Wikipedia với hơn 10000 câu hỏi, được
"https://vi.wikipedia.org/wiki/
?https://vnexpress.net
Trang 19CHƯƠNG 3 NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
xây dựng để thách thức các mô hình ngôn ngữ ở tác vụ suy luận phức tạp, thông qua
nhiều bước suy luận, và yêu các cầu mô hình ngôn ngữ phải cung cấp dược dẫn chứng nhằm giải thích cho suy luận mà mô hình đưa ra.
Cùng với sự phát triển của các tác vụ về xử lí tín hiệu âm thanh giúp việc nghiên cứu liên quan đến ngôn ngữ nói được chú ý đến nhiều hơn Sự đa dạng và phong phú của các bộ dữ liệu hỏi đáp chất lượng cao là điều kiện thiết yêu để phát triển
những mô hình học máy hiệu quả cao cho các tác vụ xử lí ngôn ngữ tự nhiên Spoken
SQuAD[10] là bộ dữ liệu trên tiếng Anh hướng đến mục tiêu đọc hiểu tự động cho
các ngữ liệu dựa trên văn cảnh là các bài viết trên nền tang Wikipedia — bách khoa
toàn thư mở Bộ dữ liệu này sử dụng lại bộ SQuAD, sau đó sử dụng công cục chuyển đổi từ văn bản sang giọng nói để sinh tự động các đoạn âm thanh, sau đó lại được
chuyển đổi trở về dang văn bản Tương tự, trên tiếng Trung có bộ dữ liệu ODSQA[I 1]
dành cho ngôn ngữ nói, được xây dựng từ nền tảng của bộ DRCD[12], gồm hơn
30000 câu hỏi từ 2108 bài viết Wikipedia tiếng Trung Tuy nhiên, bộ ODSQA có
điểm mới so với bộ Spoken SQuAD là các tài liệu âm thanh được tạo ra bởi người
thật, không thông qua công cụ.
Nhìn chung, các bộ dữ liệu cho tác vụ đọc hiểu trên tiếng Việt hiện nay chỉ tập
trung trên những thông tin chính quy, chẳng hạn như Wikipedia, bài báo, sách giáo
khoa hay những trang thông tin trực tuyến Tuy ở các ngôn ngữ khác cũng đã xuất
hiện các bộ dữ liệu đọc hiểu tự động cho ngôn ngữ nói, như bộ Spoken SQuAD hay
bộ ODSQA, nhưng các bộ dữ liệu trên vẫn bị bó buộc ở các nội dung đến từ nền tang Wikipedia, chưa thực sự phản ánh được những khác biệt đặc trưng đến từ ngôn ngữ nói — gần gũi với đời thường, đa dạng, và có những đặc điểm khó có thể tìm thay
được trong văn bản chính quy.
Trang 20Chương 4 Bộ dữ liệu cho tác vụ đọc hiểu trên dữ liệu nói
Chương này được chúng tôi dùng để trình bày về hướng dẫn gán nhấn và quy
trình chúng tôi đã thực hiện để tạo nên bộ dữ liệu này.
4.1 Hướng dẫn gan nhãn - Annotation guidelines
[ ] thật nay minh sé xào cho nó chính
nhé thật này nó có vừa nac vừa mo đó
các bạn linh chi Man ăn thì nó sẽ có cái độ mềm mềm béo nhá chứ mình làm không mấy thì ăn nó rất khô [ ]
(we stir-fry the meat until it’s really done the meat should be fatty meat type When being cooked it will have a tender texture otherwise it will be dry)
Vi sao cai méo 1a
loại cải được trồng
[ là một trong những loại cải đó là đặc
trưng của Tây Bắc tại bị đất đá ở đây khá
là khô can và khó trồng những cái loại
rau khác tá nên chỉ ra còn là cái mèo nó
sẽ sóng là tốt và hầu như dân tộc nào người
dân trên đây họ dùng cái mèo là một trong
diffi-the "cải mèo" (a type of wild collard) can
thrive here and almost all ethnic groups
in this area use "cdi méo" as one of their
main and regular food sources.)
is quite arid
and _ difficult
to grow other types of veg- etables)
Hình 4.1 Ví dụ được lay từ bộ dữ liệu, bao gồm cả những lỗi nhận dang giọng nói
được gạch chân Phần phiên dịch tiếng Anh tương ứng được trình bày bằng chữ xanh.
Trước khi trình bày những giới thiệu về hướng dẫn gán nhãn dành cho người gán nhãn, chúng tôi sẽ trình bày về những thông tin cần có trong một dòng dữ liệu của
chúng tôi Với mỗi dòng dữ liệu (Vi dụ Bảng 4.1), thông tin được cấu thành từ một bộ
10
Trang 214.1 HƯỚNG DẪN GÁN NHÃN - ANNOTATION GUIDELINES
ba (q,t, a) Với mỗi văn ban transcript cho trước được thu thập từ một vlog Youtube
(q), để trích xuất được câu trả lời (a) cho một câu hỏi (q) tương ứng, một người (hoặc
mô hình ngôn ngữ) cần phải đọc và hiểu được văn bản transcript (t) Câu trả lời (a)
phải là một từ (hoặc cụm từ) có trong văn ban transcript (t).
Trong các bộ dữ liệu dành cho tác vụ học máy có giám sát nói chung và tác vụ
đọc hiểu tự động nói riêng, người gán nhãn dữ liệu là một nhân tố quan trọng, có ảnh
hưởng đến chất lượng của bộ dữ liệu Ở bộ dữ liệu này, mỗi người gán nhãn sẽ đọc,
hiểu và được yêu cầu đặt ra ít nhất 5 câu hỏi cho mỗi văn bản transcript Nếu nội dung của transcript không rõ ràng, hoặc chứa quá nhiều lỗi nhận dạng tự động thì
người gán nhãn được phép bỏ qua văn bản transcript đó.
Guideline hướng dẫn sẽ trình bày những quy tắc ý quan trọng giúp người gán
nhãn hiểu được chính xác công việc đang làm, như xác định câu hỏi, câu trả lời, các
quy tắc đặt câu hỏi như phải đặt rõ ngữ cảnh, những câu hỏi mang có độ khó hợp lí
như không quá khó nhưng phải mang tính suy luận, kết hợp nhiều thông tin từ nhiều
vị trí khác nhau trong đoạn, câu hỏi phải có dấu “?”, đáp án phải ngắn gọn nhất có
thể nhưng vẫn phải đảm bảo đầy đủ ý nghĩa và nội dung đáp ứng cho câu hỏi, hạn chế đặt nhiều câu hỏi cũng một loại (Các loại câu hỏi như Cái gì, khi nào, ở đâu, như thế nào, bao nhiêu, tại sao), cùng một cách đặt câu hỏi, sử dụng từ ngữ đa dạng, dùng
từ hoặc cụm từ đồng nghĩa, tránh đặt những câu hỏi chung chung, không rõ ràng, hạn
chế mắc lỗi chính tả.
Tương tự với các bộ dữ liệu đọc hiểu tự động theo kiểu trích xuất khác, mỗi câu trả lời cho câu hỏi phải nằm trong phạm vi văn cảnh được cung cấp, và là từ hoặc cụm từ duy nhất, liên tục và có nghĩa Người gán nhãn được khuyến khích sử dụng
vôn từ của riêng họ để đặt câu hỏi, tránh bị rập khuôn nhằm mang đến sự đa dạng tối
đa nhất có thể cho bộ dữ liệu Các câu hỏi nên phong phú về kiểu câu, về loại câu trả
lời và cách suy luận câu trả lời.
11
Trang 224.2 CÁC ĐỘ ĐO ĐÁNH GIA
4.2 Các độ đo đánh gia
Ở phần này, chúng tôi giới thiệu các độ đo được dùng để đánh giá quá trình gán nhãn
và hiệu suất của mô hình học máy trên bộ dữ liệu của chúng tôi Chi tiết về các độ đo
sẽ được trình bày ngay sau đây.
4.2.1 Các độ đo dành cho tính toán độ đồng thuận giữa những người gan nhãn
dữ liệu
Trong quá trình gán nhãn dữ liệu, độ đồng thuận giữa những người gán nhãn
(inter-annotator agreement) là một độ đo quan trong để đánh giá chất lượng của công việc.
Trong nghiên cứu này, chúng tôi thực hiện tính toán và đánh giá trên những độ đo
đồng thuận sau đây:
1 Thống kê Kappa của Cohen đại điện cho mức độ tổng thể của sự thống nhất
giữa hai người đánh giá khi phân loại các mục vào một tập hợp các danh mục
đã cho Nó là một hệ số độ tin cậy giữa các người đánh giá khi phân loại các
mục vào các danh mục nhât định.
Cohen’s Kappa đánh giá mức độ đồng nhất giữa hai người đánh giá bằng cách
so sánh tổng số các trường hợp mà họ đồng ý với số lượng các trường hợp mà
họ có thể đồng ý ngẫu nhiên Kappa có giá trị từ -1 đến 1, với giá trị 1 cho biết
sự đồng thuận hoàn toàn giữa hai người đánh giá, 0 cho biết sự thống nhất ngẫu nhiên và giá trị âm cho biết sự bất đồng thuận Độ đo Cohen’s Kappa có thé
được tính toán như sau
trong đó p, là sự thống nhất quan sát tương đối giữa các người đánh giá, và p„
là xác suất giả định của sự đồng ý ngẫu nhiên.
2 Fleiss’ Kappa là một chỉ số thống kê được sử dụng để đánh giá tính nhất quán
của sự thống nhất giữa một số lượng cô định người đánh giá khi gan các phân
loại danh mục cho một số lượng các mục hoặc phân loại chúng.
12
Trang 234.2 CÁC ĐỘ ĐO ĐÁNH GIA
Khác với Cohen’s Kappa chỉ áp dung để đánh giá sự thống nhất giữa hai người đánh giá, Fleiss’ Kappa được sử dung để đánh giá tính nhất quán giữa nhiều
người đánh giá, và thường được sử dụng trong các nghiên cứu y tế và xã hội để
đo độ đồng nhất giữa các nhà nghiên cứu đánh giá độ uy tín của các phân loại
danh mục.
Fleiss’ Kappa tính toán mức độ đồng nhất giữa các người đánh giá bằng cách
so sánh sự đồng ý giữa các người đánh giá với sự đồng ý ngẫu nhiên Tương tự
Cohen’s Kappa, Fleiss’ Kappa có giá trị từ -1 đến 1.
Mức độ « có thể được định nghĩa như
Nhân tử 1 — ø, cho biết mức độ thống nhất có thể đạt được vượt qua sự đồng ý
ngẫu nhiên, và p — ø„ cho biết mức độ thống nhất thực sự được đạt được vượt
qua sự đồng ý ngẫu nhiên.
3 Krippendorff’s alpha là hệ số độ tin cậy được phát triển để đo sự thống nhất
giữa các người đánh giá hoặc các công cụ đo lường trong việc phân biệt các
hiện tượng thường không có cấu trúc rõ ràng.
Krippendorff’s alpha tính toán sự thống nhất giữa các người đánh giá bằng cách
so sánh sự đồng ý quan sát thực tế với sự đồng ý ngẫu nhiên, và cho phép các
người nghiên cứu đánh giá mức độ đồng nhất giữa các người đánh giá hoặc các công cụ đo lường Công thức tổng quát có thể được biểu diễn như sau
— _—_ De a=1 In
trong đó D, là sự bất đồng thuận quan sát được và D, là sự bất đồng thuận được
mong đợi ngẫu nhiên.
13
Trang 244.2 CÁC ĐỘ ĐO ĐÁNH GIA
4.2.2 Các độ đo đánh giá mức độ trùng khớp của thông tin
Bên cạnh tính toán độ đồng thuận giữa những người gán nhãn, chúng tôi còn tính
toán độ trùng khớp (overlap degree) giữa các câu trả lời được đưa ra bởi ho Chúng
tôi sử dụng nhóm các độ đo ROUGE[13] (viết tắt của Recall-Oriented Understudy
for Gisting Evaluation) Các độ đo ROUGE đánh giá tính tương đồng cả về cấu trúc của câu và từ vựng, và được sử dụng rộng rãi trong các nghiên cứu tổng hợp văn bản
tự động và dịch máy để đánh giá chất lượng của các hệ thống tổng hợp văn bản và
dịch máy.
Các độ đo ROUGE được sử dụng trong nghiên cứ này bao gồm:
1 ROUGE-N tính toán dựa trên độ trùng khớp giữa các unigram, bigram, trigram,
hay n-gram, với n-gram là các chuỗi liên tiếp gồm n từ liên tiếp trong một văn
bản Công thức tính ROUGE-N được trình bày như sau:
Rougey = 2 * precisiony + recalla;
2 ROUGE-L là chi số đo dựa trên chuỗi con chung dài nhất (LCS) Nó xem xét
tính tương đồng cấu trúc ở mức câu một cách tự nhiên và tự động xác định chuỗi các n-gram xuất hiện liên tiếp dài nhất.
ROUGE-L được sử dụng để đánh giá mức độ tương đồng giữa hai văn bản,
chẳng hạn như một bản tóm tắt và văn bản gốc Nó so sánh các chuỗi con chung
dài nhất giữa hai văn bản để đo độ tương đồng giữa chúng Cách tính toán cho
ROUGE-L được trình bày như sau:
Với
os _ độ dài của LCS
precisiony, = số lượng unigram trong dự đoán °
recall, _ độ dài cua LCS
số lượng unigram trong tham chiêu
14
Trang 254.2 CÁC ĐỘ ĐO ĐÁNH GIA
Ta có
ROUGE, =2x presision, * recall;
precisiony + recall
4.2.3 Các độ do đánh giá hiệu suất các mô hình ngôn ngữ trên tác vụ hỏi đáp
Để đánh giá hiệu suất của các mô hình trên tác vụ hỏi đáp, chúng tôi sử dụng hai độ
đo là Exact Match (EM) và FI score.
F1 score là một chỉ số đánh giá thông dụng trong đánh giá máy học Đây là một
đo lường về độ chính xác của một mô hình, tính đến cả độ chính xác và độ phủ F1
score được tính bằng trung bình điều hòa của độ chính xác và độ phủ Trong ngữ
cảnh của tác vụ đọc hiểu tự động, độ chính xác chỉ phần trăm câu trả lời được dự đoán đúng, trong khi độ phủ chỉ phần trăm câu trả lời đúng được dự đoán bởi mô hình Do đó, F1 score cao hơn cho thấy mô hình hoạt động tốt hơn.
Exact Match, một chỉ số đánh giá nhị phân, đo lường phần trăm câu hỏi mà mô hình cung cấp câu trả lời chính xác và tông sô cac câu hoi Nói cách khác, nếu câu trả
lời được dự đoán của mô hình chính xác trùng khớp với câu trả lời đúng, thì nó được
coi là một câu trả lời chính xác Ngược lại, câu trả lời của mô hình được coi là không
chính xác Exact Match là một chỉ số khắt khe và yêu cầu mô hình cung cấp một câu
trả lời chính xác, làm cho nó là một chỉ số khó khăn hơn để đạt được.
Trong các tác vụ đọc hiểu tự động, F1 score và Exact Match thường được sử dụng
cùng nhau để đánh giá hiệu suất của một mô hình Trong khi F1 score cung cấp một đánh giá toàn diện hơn về hiệu suất của mô hình, Exact Match cung cấp một đánh giá nghiêm ngặt hơn, đảm bảo rằng mô hình đang dự đoán đúng câu trả lời.
Công thức tính toán F1 score và Exact Match như sau:
Trang 264.2 CÁC ĐỘ ĐO ĐÁNH GIA
Trong ngữ cảnh tác vụ đọc hiểu tự động, True Positives là số lượng câu trả lời
được dự đoán chính xác, False Positives là số lượng câu trả lời sai được dự đoán bởi
mô hình, và False Negatives là số lượng câu trả lời đúng mà mô hình không dự đoán được.
Exact Match:
Exact Match — Số câu hỏi có câu trả lời chính xác
Tổng số câu hỏi
Cả hai chỉ số F1 score và Exact Match đều là các chỉ số đánh giá phổ biến trong
các tác vụ đọc hiểu tự động, và việc tính toán chúng có thể giúp các nhà nghiên cứu
và chuyên gia đánh giá hiệu suất của các mô hình và thuật toán khác nhau Bên cạnh
F1 score và Exact Match, trong đọc hiểu tự động, human performance thường được
sử dụng làm tiêu chuẩn để đánh giá hiệu suất của các mô hình học máy Các chỉ số
đo lường của human performance có thể cung cấp một cái nhìn về mức độ hiệu suất
có thể đạt được bởi con người, và có thể được sử dụng như một tiêu chuẩn để đánh
giá hiệu suất của các mô hình học máy.
Chỉ số human performance có thể được đo bằng nhiều phương phap khác nhau Trong nghiên cưu nay, chúng tôi tính toán chỉ số này bằng cách đánh giá khả năng của của những người gán nhãn độc lập trên tập kiểm thử so với kết quả trên bộ dif liệu đã được gán nhãn trước đó Chúng có thể được sử dụng để đánh giá hiệu suất
của các mô hình học máy so với human performance, với mục tiêu đạt hoặc vượt qua
hiệu suất của con người Chúng cũng có thể được sử dụng để xác định các lĩnh vực
mà các mô hình học máy đang hoạt động kém hơn so với con người, và để hướng dẫn
phát triển các mô hình học máy mới có thể cải thiện trong những lĩnh vực đó.
Tuy nhiên, human performance không phải là các tiêu chuẩn hoàn hảo Hiệu suất
của con người có thé bi ảnh hưởng bởi các yếu tổ như mệt mỏi, độ lệch nhận thức va biến động trong chuyên môn và kiến thức Ngoài ra, chỉ số này còn bị giới hạn bởi số
lượng thời gian và tài nguyên có sẵn cho đánh giá con người, làm cho việc đạt được
các đánh giá quy mô lớn và toàn diện trở nên khó khăn.
Mặc dù có những hạn chế này, human performance vẫn là một tiêu chuẩn quan
trọng trong đọc hiểu tự động và có thể cung cấp thông tin có giá trị về khả năng và
giới hạn của các mô hình học máy Bằng cách so sánh các mô hình học máy với khả
16
Trang 274.2 CÁC ĐỘ ĐO ĐÁNH GIA
năng của con người, các nhà nghiên cứu và nhà thực hiện có thể phát triển các mô
hình học máy hiệu quả và đáng tin cậy hơn.
Để đạt được hiệu suất tốt nhất trong đọc hiểu tự động, các mô hình học máy cần được huấn luyện trên các tập dữ liệu lớn và đa dạng, bao gồm các loại câu hỏi và tác
vụ khác nhau Đồng thời, các mô hình cần được điều chỉnh và tối ưu để đạt được hiệu suất tốt nhất trên các tập dữ liệu kiểm thử Việc đánh giá hiệu suất của các mô hình
trên các tập dữ liệu kiểm thử là một quá trình quan trọng và phức tạp, và đòi hỏi sự
cân nhắc kỹ lưỡng của các nhà nghiên cứu và nhà thực hiện.
17
Trang 284.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION
4.3 Quá trình xây dựng bộ dữ liệu - Corpus creation
Ở mục này, chúng tôi đề xuất quá trình xây dựng bộ dữ liệu tiếng Việt trên các vlog
YouTube, bao gồm 4 bước chính: Thu thập transcript, Sinh cặp câu hỏi-đáp, Hiệu chỉnh bộ dữ liệu, và Kiểm nghiệm bộ dữ liệu Lưu ý rằng quá trình Kiểm nghiệm độ đồng thuận giữa những người gán nhãn của bộ dữ liệu được thực hiện sau khi hoàn tat bước 2 - Sinh cặp câu hỏi-đáp Quy trình thực hiện chi tiết sẽ được trình bày ngay
=_ || ——+*?* - Created |—7r*| slaf#an | >| Modified [7 soir
= :¡|_ creating corpus } |! validation corpus |}
Hình 4.2 Quy trình xây dựng bộ dữ liệu.
4.3.1 Thu thập dư liệu
Các văn ban transcript được thu thập từ các vlogs YouTube tiếng Việt trên các chủ dé liên quan đến du lịch và ẩm thực Các kênh được chọn để sử dụng cần phải đáp ứng được yêu cầu về số lượng người theo dõi, ở nghiên cứu này, chúng tôi chỉ sử dụng nội dung từ những người đóng góp nội dung có số lượt theo dõi trên 200 000 Điều này giúp phần nào đảm bảo được nội dung của các video có độ phổ thông nhất định, và được một số lượng khán giả ủng hộ.
Với mỗi vlog, transcript được thu thập thông qua sự hỗ trợ từ một thư viện Python!.
Kết quả trả về cho mỗi video YouTube là một danh sách các đoạn transcript ngắn
(được YouTube chia theo nhiều đoạn thời gian nhỏ trong 1 vlog) Sau khi thu thập
xong, chúng tôi sẽ tiến hành gộp lại thành một đoạn transcript hoàn chỉnh Ở phạm vi
!https://pypi.org/project/youtube-transcript-api/
18
Trang 294.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION
Chủ đề Tên kênh Số người đăng kí
Food Món ăn ngon 1.99M
Vanh Khuyên Lê 1M45
Cô Ba Bình Dương 1M49
NathaFood 845K
Nhamtran FV 397K
Bảng 4.1 Thông tin về các kênh Youtube được chon để thu thập Transcript
nghiên cứu này, chúng tôi sẽ giữ nguyên kích thước transcript mà không tiến hànhthêm các bước phân đoạn Chúng tôi cũng không lọc đi các từ đệm để giữ tối đa được
sự đa dạng của ngôn ngữ nói, cũng như mô phỏng được trọn vẹn thách thức và khác
biệt trong việc sử dụng nguồn dữ liệu ngôn ngữ nói
4.3.2 Sinh cặp câu hỏi-đáp
Để có thể sinh được các cặp câu hỏi đáp, chúng tôi tuyển một nhóm người gán nhãn
và hướng dẫn họ thực hiện việc sinh các cặp câu hỏi đáp dựa trên hướng dẫn hỏi đáp
Mỗi người gan nhãn sẽ được yêu cầu làm thử công việc trên 1 văn bản trước, thông
qua thảo luận chung và thống nhất chung thì sau đó sẽ chính thức bắt đầu gán nhãn.
Tương ứng với mỗi văn bản transcript, mỗi người gán nhãn sẽ được yêu cầu đọchiểu và đặt câu hỏi dựa trên hướng dẫn gán nhãn Sau khi hoàn thành bước này, các
câu hỏi của các người gán nhãn sẽ được tổng hợp lại và chọn ngẫu nhiên ra một tậpbao gồm 100 câu Các câu hỏi đã được chọn sẽ được dùng để đánh giá độ đồng thuận
giữa những người gán nhãn, cũng như đánh giá toàn bộ quá trình gán nhãn, chẳng
hạn những điểm bất đồng, thiếu nhất quán trong quá trình gán nhãn Đây cũng là cơ
sở cho quá trình hiệu chỉnh bộ dữ liệu tiếp theo
19
Trang 304.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION
4.3.3 Hiệu chỉnh bộ dữ liệu
Để đảm bảo tính thống nhất giữa các người gán nhãn và đảm bảo được tính hợp lýcủa bộ dữ liệu, những người gán được yêu cầu thực hiện các công việc sau:
1 Thống nhất lại về hướng dẫn: những người gán nhãn được phổ biến lại các
yêu cầu và tiêu chí của hướng dẫn gán nhãn
2 Tự đánh giá: Những người gán nhãn được yêu cầu tự kiểm tra lại các cặp câuhỏi-đáp mà họ đã thực hiện để tìm và sửa lại những lỗi hoặc những bất đồngtrong phần câu hỏi họ đã làm Các lỗi bao gồm các loại sau: câu hỏi chưa rõràng, sai câu trả lời, câu hỏi thiếu thông tin, vị trí câu trả lời sai
3 Đánh giá chéo: Sau khi tự kiểm tra lại sản phẩm của mình, những người gán
nhãn sẽ đánh giá chéo thành quả của nhau để bộ dữ liệu được thêm nhất quán
Sau khi hoàn thành công việc hiệu chỉnh, bộ dữ liệu được chia thành ba tập nhỏ
dựa trên số câu trả lời: tập huấn luyện, tập kiểm thử, và tập phát triển với tỉ lệ 8:1:1
Mỗi văn bản transcript trong bộ dữ liệu sẽ được được đảm bảo chỉ được chia vào mộttrong ba tập dữ liệu con để giảm thiểu việc trùng lập trong tập từ vựng
4.3.4 Kiểm nghiệm bộ dữ liệu
Để có thể đánh giá được sâu hơn độ tin cậy của bộ dữ liệu, chúng tôi đã thực hiện 2
bước đánh giá sau:
1 Inter-rater agreement - độ đồng thuận giữa các người gán nhãn: Thông
qua việc thực hiện bước đánh giá này, chúng tôi sẽ có cơ sở để ước lượng chất
lượng trong quá trình làm việc của những người gán nhãn Mỗi người gán nhãn
sẽ được yêu cầu thực hiện trả lời một cách độc lập cho các câu hỏi trong tập
100 câu hỏi ngẫu nhiên Trong suốt quá trình này, người gán nhãn không đượctham khảo kết quả có sẵn hoặc kết quả của những người gán nhãn khác
Để tính toán độ đồng thuận giữa những người gán nhãn, chúng tôi sử dụng 3 độ
đo sau: Cohen’s Kappa, Fleiss’ Kappa, và Krippendorff’s Alpha Bên cạnh đó,
chúng tôi tính toán độ trùng khớp của các câu trả lời bằng một độ đo khác ít
nghiêm ngặt hơn - ROUGE.
20
Trang 314.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION
2 Human Performance: Sau khi chia bộ dữ liệu, chúng tôi sẽ dùng thêm một
nhóm những người gán nhãn độc lập khác để thực hiện trả lời các câu hỏi
trên tập kiểm thử Human Performance được xác định bằng 2 độ đo là EM và
FI-score.
Kết quả chỉ tiết của bước đánh giá này sẽ được trình bày ở các phần sau
21
Trang 32Chương 5 Xử lí và phân tích bộ dữ liệu
O chương này, chúng tôi sẽ cung cáp những phân tích thông kê trên bộ dữ liệu,
từ tổng quan đến chỉ tiết cũng như so sánh với thông tin thông kê trên bộ dữ liệu
Độ dài câu hỏi 10.09 10.10 10.00 10.08 11.23 11.96 1229 11.40
Độ dài câu tra loi 3.22 SY 3.31 3.24 8.06 845 8.93 8.18
Tap từ vựng 34288 12639 13336 39211 36940 9746 10263 42545
Bảng 5.1 Các số liệu thông kê tổng quan của bộ dữ liệu chúng tôi và bộ UIT-ViQuAD
Tiếng Việt duoc xem là một ngôn ngữ đơn lập, phụ thuộc vào trật tự câu và các từ
chức năng để biểu đạt ngữ nghĩa và các quan hệ ngữ pháp thay vì sử dụng tiếp đầu
ngữ hay tiếp vị ngữ Đơn vị nhỏ nhất trong tiếng Việt là “tiếng”, đây là đơn vị cơ bản
để cấu tạo nên các từ có nghĩa Từ có thể là một tiếng, hoặc nhiều tiếng kết hợp vớinhau Diễn đạt trong tiếng Việt được biểu hiện thông qua rất nhiều từ phức, là những
từ được kết hợp từ hai hoặc nhiều từ đơn để tạo nên từ mới có nghĩa
Từ trong tiếng Việt có cấu tạo phức tap, do đó phan tách từ (segmentation) là tác
vụ quan trọng nhằm để phân biệt sắc thái nghĩa của các tiếng trong một từ, việc này
sẽ ảnh hưởng đến việc xác định nghĩa của từ cũng như nghĩa của toàn bộ câu văn
Tuy vậy, tiếng Việt thiếu đi một quy chuẩn cho việc phân tách từ Trong phạm vi bài
báo cáo này, chúng tôi ước lượng kích thước của bộ từ vựng dựa trên những từ đã phân tách được từ văn bản transcript và các câu hỏi Việc phân tách từ được thực hiện
tự động thông qua một công cụ dành cho xử lí ngôn ngữ tự nhiên tiếng Việt ! được
viết trên ngôn ngữ Python, tương tự với cách tiếp cận của bộ dữ liệu UIT-ViQuAD Ở
bài báo cáo này, chúng tôi cũng tính toán lại một số thống kê của bộ UIT-ViQuAD
'https://pypi-org/project/youtube-transcript-api/
22