1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Khoa học dữ liệu: Nghiên cứu đọc hiểu tự động dựa trên văn bản ngôn ngữ nói về chủ đề du lịch và ẩm thực tiếng Việt

64 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu đọc hiểu tự động dựa trên văn bản ngôn ngữ nói về chủ đề du lịch và ẩm thực tiếng Việt
Tác giả Ngô Phước Thịnh, Đặng Trần Anh Khoa
Người hướng dẫn ThS. Lưu Thanh Sơn, ThS. Nguyễn Văn Kiệt
Trường học Trường Đại học Công nghệ Thông tin
Chuyên ngành Khoa học Dữ liệu
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2023
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 64
Dung lượng 26,29 MB

Nội dung

Tính đến hiện tại, hầu hết các bộ dữ liệu cho tác vụ đọc hiểu tự động trên ngôn ngữ tiếng Việt tập trung vào các hình thức văn bản chính quy, chẳng hạn như các bài viết trên nền tang bác

Trang 1

NGO PHUGC THINH - 19520981

DANG TRAN ANH KHOA - 19520629

KHOA LUAN TOT NGHIEP

NGHIÊN CỨU DOC HIỂU TU DONG DUA TREN VAN BẢN NGON NGỮ

NOI VE CHU DE DU LICH VA AM THUC TIENG VIETMACHINE READING COMPREHENSION ON VIETNAMESE SPOKEN ILANGUAGE: UNDERSTANDING THE CONTEXT OF FOOD AND TRAVEL|

CONTENT

CU NHAN NGANH KHOA HOC DU LIEU

GIẢNG VIÊN HƯỚNG DẪN

ThS LƯU THANH SƠN

ThS NGUYEN VĂN KIỆT

TP HỒ CHÍ MINH, 2023

Trang 2

LỜI CẢM ƠN

Trước tiên, chúng tôi xin gửi lời cảm ơn chân thành đến Thầy ThS Lưu ThanhSơn và Thầy Ths Nguyễn Văn Kiệt - những người đã hướng dẫn và hỗ trợ chúng tôitrong suốt quá trình thực hiện đề tài Nhờ sự truyền cảm hứng, ý tưởng và sự quantâm của hai thầy, chúng tôi đã hoàn thành đề tài một cách thành công

Chúng tôi cũng muốn gửi lời cảm ơn sâu sắc đến các giảng viên và nhân viên

trong Khoa Khoa học và Kĩ thuật Thông tin cũng như trường Đại học Công nghệ

Thông tin, những người đã trang bị cho chúng tôi kiến thức cần thiết và cung cấp cáccông cụ hỗ trợ để chúng tôi có thể thực hiện đề tài Chúng tôi cảm ơn các thầy cô đãcung cấp cho chúng tôi công cụ gán nhãn MRC Annotation Tool, và quyền truy cập

đến bộ dữ liệu UIT-ViQuAD Cảm ơn những người bạn đã đồng hành, hỗ trợ, dànhthời gian, công sức quý báu của mình để giúp chúng tôi xây dựng và hoàn thiện bộ

đữ liệu một cách khách quan nhất có thể

Ngoài ra, chúng tôi cũng muốn gửi lời cảm ơn đến Youtube và các YouTuber trênnên tảng, đã sáng tạo ra những nội dung đa dạng, thú vị, tạo tiền đề cho nghiên cứu

của chúng tôi.

Và cuối cùng, chúng tôi xin dành lời cảm ơn chân thành nhất đến các bậc cha mẹ

và gia đình đã tạo điều kiện, động viên và hỗ trợ tinh thần trước và cả trong quá trình

thực hiện khóa luận.

Cuối cùng, chúng tôi muốn nhắc lại rằng mặc dù đã cố gắng hết sức để hoàn

thành đề tài, nhưng chắc chắn sẽ còn có những thiếu sót và hạn chế Vì vậy, chúng tôimong muốn nhận được sự đóng góp ý kiến từ Quý Thay/Cé, các anh chị và các bạn

để chúng tôi có thể cải thiện và hoàn thiện đề tài của mình

Thành phô Hỗ Chí Minh, tháng 06 năm 2023

Sinh viên Ngô Phước Thịnh

Đặng Trần Anh Khoa

Trang 3

Mục lục

Lời cảm ơn

Mục lục

Danh mục các bảng

Danh mục các hình ảnh và biểu đồ

Danh mục từ viết tắt

Tóm tắt khóa luận

Chương 1 Tổng quan đề tài

1.1 Động lực nghiên cứu

12 Tháchthức

1.2.1 Ngữâm vàphươngngữ

1.2.2 Chấtlượngâmthanh

1⁄23 Định dạng của transcript

1.2.4 Độ dài transcript

1.2.5 Nhập nhằng trong tiếng Việt

1.2.6 Khả năng diễn đạt của người trình bay

1.3 Định nghĩa táểvụ ẶẶẶ Chương 2 Giới thiệu Chương 3 Những công trình nghiên cứu liên quan Chương 4 Bộ dữ liệu cho tác vụ đọc hiểu trên dữ liệu nói 4.1 Hướng dẫn gán nhãn - Annotation guidelines

4.2 Các độ đo đánhgiá

4.2.1 Các độ đo dành cho tính toán độ đồng thuận giữa những người gán nhãn dữ liệu

4.2.2 Các độ do đánh giá mức độ trùng khớp của thông tin

ii

vi vii viii

Ww BW NY NY WN

wi ow

+

Trang 4

MỤC LỤC

4.2.3 Các độ do đánh giá hiệu suất các mô hình ngôn ngữ trên tác

4.3 Quá trình xây dựng bộ dữ liệu - Corpus creation .

4.3.1 Thuthậpdữliệu

-4.3.2 Sinh cặp câuhỏi-đấáp

4.3.3 Hiệu chỉnh bộ dữliệu

.4.3.4 Kiểm nghiệm bộ dữ liệu

-Chương 5 Xử lí và phân tích bộ dữ liệu 5.1 Phân tích thống kê tổng quan

-5.2 Phân tích sơ bộ trên tập từ vựng

5.3 Phân tích thống kê dựa trên thời lượng

-5.4 Phân tích thống kê dựa trên loại câu hỏi

5.5 Độ đồng thuận giữa người gin nhãn - Inter-rater agreement

Chương 6 Mô hình ngôn ngữ 6.1 Mô hình đangônngữ

6.2 Mô hình đơn ngônngữ

Chương 7 Kết quả thực nghiệm 7.1 Môi trường thực nghiệm

7.2 Kết quả thực nghệm c

7.2.1 Huấn luyện trên bộ dữ liệu của chúng tôi

7.2.2 Huấn luyện chéo trên bộ dữ liệu UIT-ViQuAD

7.3 Phântíchlỗi ẶẶ ee Chương 8 Ứng dụng web cho mô hình ngôn ngữ §.1 Giới thiệu về ứng dụng web và chức năng chính

8.2 Luồng dữliệu c2 SẺ ca

Chương 9 Kết luận

9.1 KẾtluận ng vva

9.2 Thuận lợi oo eect eens

22 22

24 26

26

28

30 31 32 33

33 33 35

36

39 39

45

iii

Trang 5

MỤC LỤC

93 Khókhăn Ặ ee ee

9.4 Phuong hướng phát

triển -Tài liệu tham khảo

iv

Trang 6

Thụng tin về cỏc kờnh Youtube được chon để thu thập Transcript .

Cỏc số liệu thống kờ tổng quan của bộ dữ liệu chỳng tụi và bộ

UIT-ViQuAD Qua

Thống kờ độ dài video dựa trờn thể loại (đơn vị: giõy)

Phõn phối của video theo chủ đề dựa trờn độ dài (đơn vị: giõy)

Phõn phối của transcript dựa trờn độ dài

Tỉ lệ cỏc cõu hỏi trong bộ dữ liệu UIT-ViQuAD và bộ dữ liệu của

chỳng tụi Trong bộ dữ liệu của chỳng tụi, Ti lệ của cõu hỏi loại

How là kết quả tổng hợp từ loại cõu hỏi How-quantity (25.59%) và

How-quality (6.98%) ẶẶ ee

Kết quả đỏnh giỏ độ đồng thuận

Kết quả của cỏc mụ hỡnh ngụn ngữ Transformer khi được huấn luyện

trờn bộ dữ liệu của chỳng tụi và được kiểm trờn tập kiểm thử (test) và

tập phỏt triển (dev) trờn độ đo EM và F1, cựng với kết quả của con

người Âm ốeođ %.Š /ẻ ô@&@độ .ếỖ ỀỒệỘỒỘợ✠ees

Kết quả của cỏc mụ hỡnh ngụn ngữ Transformer ở 2 độ đo EM và

FI-score khi đó được huấn luyện trờn tập dữ liệu UIT-ViQuAD

Số lượng va ti lệ cõu trả lời sai trờn từng loại cõu hỏi của cỏc mụ hỡnh

ngụn ngữ Transformer ở độ đo EM

Một số lỗi cho từng loại cõu hỏi của mụ hỡnh XLM-Rjarge, cựng với

bản dịch (tương đối) tiếng

Anh -19

33 35

Trang 7

4.2

5.1

5.2

5.3

5.4

8.1

8.2

8.3

8.4

8.5

8.6

8.7

8.8

8.9

Danh sach hinh vé

Vi dụ được lay từ bộ dữ liệu, bao gồm cả những lỗi nhận dang giọng

nói được gạch chân Phần phiên dịch tiếng Anh tương ứng được trình

bày bằng chữ xanh .c ee 10

Quy trình xây dựng bộ dữ liệu 18

Đám mây từ của các từ riêng (đã được mã hóa thành token) trong bộ dữ liệu của chúng tôi so với tập từ vựng chung 25

Đám mây từ của các từ riêng (đã được mã hóa thành token) trong bộ dữ liệu UIT-ViQuAD so với tập từ vựng chung 25

Đám mây từ vựng trên bộ dữ liệu của chúng tôi (không có mã hóa thành token) z‹ c cv 25 Đám mây từ vựng trên bộ dữ liệu UIT-ViQuAD (không có mã hóa thành token), c c k cv 26 Trang chủ của ứng dụng web dành cho tiếng Anh-1 39

Trang chủ của ứng dụng web dành cho tiếng Anh-2 40

Trang chủ của ứng dụng web dành cho tiếng Viét-1 41

Trang chủ của ứng dụng web dành cho tiếng Việt-2 42

Giao diện mặc định của trang hỏi đáp 43

Một phản hồi thành công của mô hình đến với người dùng 44

Phản hồi của ứng dụng web trả về cho người dùng khi độ tin cậy cho phản hồi quá thấp 44 Luéng dữ liệu sau khi người dùng nhập đường dẫn đến một video

vi

Trang 8

DANH MỤC TU VIET TAT

EM Exact match score

GPU Graphics Processing Unit

RAM Random Access Memory

SOTA state of the art

QA Question Answering

vii

Trang 9

TÓM TẮT KHÓA LUẬN

Ở khóa luận này, chúng tôi trình bày về tác vụ, bộ dif liệu, và mô hình ngôn ngữ

trên ngôn ngữ nói tiếng Việt dành cho tác vụ đọc hiểu tự động Quá trình xây dựng

bộ dữ liệu của chúng tôi bao gồm các bước từ thu thập và xử lí transcript, xây dựng

bộ các câu hỏi-đáp, hiệu chỉnh bộ dữ liệu và đánh giá bộ dữ liệu Bên cạnh đó, chúng

tôi cũng sẽ trình bày tổng quan về những vấn đề, cơ hội, và thách thức mà chúng tôi gặp phải trong quá trình ứng dụng dữ liệu thực tế cho tác vụ đọc hiểu tự động.

Tính đến hiện tại, hầu hết các bộ dữ liệu cho tác vụ đọc hiểu tự động trên ngôn

ngữ tiếng Việt tập trung vào các hình thức văn bản chính quy, chẳng hạn như các bài

viết trên nền tang bách khoa toàn thư mở Wikipedia, các trang báo trực tuyến đến

từ các đơn vị uy tín, hoặc các văn bản lấy ra từ sách giáo khoa Tuy nhiên, yêu cầu cho tác vụ đọc hiểu tự động, trên thực tế không chỉ gói gọn ở các định dạng văn bản

thông thường Do đó, chúng tôi đã sử dụng một cách tiếp cận khác khác, trong đó bộ

dữ liệu của chúng tôi bao gồm 10.076 cặp câu hỏi-đáp được xây dựng từ 1.230 tập

tin transcript thu thập từ các vlog trên nền tảng trực tuyến YouTube.

YouTube là một nền tang chia sẻ video trực tuyến, có khối lượng lượng dif liệu da dạng, bao gồm nhiều loại hình nội dung khác nhau được tạo ra bởi người dùng như vlog, chương trình giải trí, phim xuất bản trên nền tảng web (web-drama), các video

ca nhạc và các loại hình giải trí khác Bộ dữ liệu của chúng tôi chủ yếu khai thác các

nội dung nằm ở các chủ đề Ẩm thực và Du lịch từ các vlog hướng dẫn nấu ăn và du

lịch khám phá.

Trên bộ dữ liệu của chúng tôi, các mô hình học sâu đã cho ra kết quả trên độ đo

F1 score cao nhất là 75,34%, thành tựu này đã thể hiện được tính khả dung và kha năng của bộ dữ liệu trong tác vụ đọc hiểu tự động trên dạng dữ liệu nói Tuy nhiên,

trên độ đo EM, kết quả khả quan nhất mà mô hình đạt được chỉ ở ngưỡng 53.97%, cách khá xa so với khả năng đánh giá trên độ đo F1 Kết quả này để lại cơ hội và thách thức cho những cải thiện, cải tiễn trong các nghiên cứu khoa học tiếp nối sau

này, cũng như khẳng định nhu cầu cho một bộ dữ liệu, và một mô hình ngôn ngữ

dành cho ngôn ngữ nói là hoàn toàn phù hợp.

Tổng quan, bộ dữ liệu của chúng tôi đã truyền tải được những đặc điểm của ngôn

Vili

Trang 10

DANH SÁCH HÌNH VẼ

ngữ nói của người bản ngữ Việt Nam, trong các môi trường hết sức tự nhiên Đây là một chu đê chưa nhận được nhiều sự quan tâm từ giới nghiên cứu Chúng tôi tin rằng

đây sẽ là một nguồn tư liệu đáng giá cho những công trinh nghiên cứu trong lĩnh vực

đọc hiểu sau này, đặc biệt là trên ngôn ngữ có nguồn tư liệu hạn chế.

1X

Trang 11

Chương 1 Tổng quan đề tài

Giới thiệu động lực cho bài nghiên cứu, đi kèm với những khó khăn trong quá nghiên cứu và phát biểu định nghĩa cho tác vụ.

1.1 Động lực nghiên cứu

Trong thời đại của nền tảng truyền thông hiện nay, lượng thông tin ngày càng tăng,

và việc phải liên tục cập nhật thông tin mới trở nên khó khăn đối với con người Việc

tìm kiếm, truy cập và xác định thông tin môt cach hiêu qua đang trở thành một thách

thức lớn, đặc biệt đối với các nguồn thông tin lớn, gây lãng phí thời gian và công sức Với sự phổ biến của các mạng xã hội, thông tin không chỉ được truyền tải dưới dạng văn bản mà còn là âm thanh (như podcast, radio, và âm nhạc) và hình ảnh kĩ thuật số

trên Internet Thậm chí, một lượng lớn thông tin trên Internet, đặc biệt là các trang

mạng xã hội, được truyền tải kết hợp cả âm thanh và hình ảnh, chẳng hạn như các

đoạn phim hoặc đoạn video ngắn.

Tuy nhiên, truy xuất thông tin trên video lại gặp phải nhiều khó khăn, đặc biệt là

trường hợp của các đoạn video dài Người dùng phải xem và nghe toàn bộ nội dung

của video để có thể nắm bắt được đầy đủ thông tin trong đó, việc này sẽ tốn rất nhiều

thời gian và công sức khi các đoạn ghi âm hội thoại hay video có thể kéo dài hàng

giờ liền Với sự phát triển của khoa học và kỹ thuật ngày nay, đa co nhiêu mô hinh

xuât hiên co kha năng xư ly cac tác vụ hỏi đáp tự động dựa trên đoạn văn và câu hỏi

mà chúng ta đưa vào Tuy nhiên, những mô hình này chỉ có thể xử lý tốt trên một

đoạn văn bản ngắn và trả lời trên các văn bản chính quy có mức độ chặt chẽ cao về

mặt ngôn từ lẫn hình thức Trong khi đó, ngôn ngữ trong các video thường sử dụng

ngôn ngữ nói, có nhiều điểm khác biệt và độc nhất so với ngôn ngữ viết Ngôn ngữ nói không chỉ chịu ảnh hưởng bởi ngữ nghĩa đơn thuần như văn bản của ngôn ngữ

viết, mà còn bởi nhiều yếu tô khác chang hạn như giọng địa phương, từ đồng âm, từ

trái âm, ngắt câu.

Văn bản chính quy thường có các quy tắc ngữ pháp cụ thể, các từ ngữ được sắp

xếp và kết hợp với nhau để tạo ra các câu hoàn chỉnh và chính xác Ngược lại, podcast

và vlog thường sử dụng ngôn ngữ tự nhiên và thông thường, không tuân theo các quy

Trang 12

1.2 THÁCH THUC

tac ngữ pháp cu thé Các từ ngữ thường được sử dung theo cảm tính và cách nói của

người nói, và có thể có sự lặp lại và ngắt quãng trong cách sử dụng.

Ngoài ra, vlog còn có thể sử dụng các từ ngữ địa phương, từ đồng âm, từ trái âm

và các từ lóng, đặc biệt là trong các video về văn hóa, giải trí và cuộc sống hàng ngày Điều này đôi khi có thể làm cho nội dung của vlog khó hiểu hoặc khó xử lý bởi các

mô hình xử lý ngôn ngữ tự động.

Do đó, việc xử lý và truy xuất thông tin trên các video trực tuyến, đặc biệt là những nguồn đậm chất ngôn ngữ nói, như vlog và podcast, đang trở thành một thách

thức lớn đối với các hệ thống xử lý ngôn ngữ tự động.

Đây là động lực của nhóm để xây dựng và đóng góp một bộ dữ liệu về hỏi đáp

trên ngôn ngữ nói, nhằm giúp huấn luyện các mô hình hiện đại phục vụ cho tác vụ

hỏi đáp tự động dựa trên văn bản được chuyển đổi từ giọng nói trong các video từ

mạng xã hội Việc này không chỉ hỗ trợ khả năng xử lý và truy xuất thông tin từ các

video, mà còn cải thiện mức độ hài lòng của người dùng khi tìm kiếm thông tin trên

các mạng xã hội.

1.2 Thách thức

1.2.1 Negi âm và phương ngữ

Tiếng Việt là một ngôn ngữ có thanh điệu với 3 vùng phương ngữ chính (và nhiều vùng con) tương ứng với ba miền Bắc, Trung, Nam Cùng với đo la những sự đa dạng

về ngữ âm, tiếng Việt rất đa dạng trong cách phát âm và cách dùng từ giữa các vùng.

Chính sự phong phú và phức tạp của tiếng Việt trong các tình huống thực tế này đã

tác động đến độ chính xác của hệ thống nhận diện giọng nói tự động của Youtube.

1.2.2 Chất lượng âm thanh

Nguồn âm thanh chất lượng thấp gây tác động đến độ chính xác của quá trình chuyển đổi từ giọng nói sang transcript, dẫn đến lỗi nhận diện của hệ thống và sự giảm đi tính nhất quán trong các tài liệu transcript Các lỗi này dễ dàng gặp ở các dạng video

có nhiều tạp âm đến từ ngoại cảnh như các nội dung khám phá, du lịch, những video

được ghi hình ở môi trường ôn ào, hay thậm chí là do nhạc nền quá lớn.

Trang 13

1.2 THÁCH THỨC

1.2.3 Định dang của transcript

Không giống với các văn bản chính quy thường thấy, định dạng transcript của Youtube

không sử dụng dấu câu để đánh dấu các đoạn ngắt nghỉ hợp lí trong văn bản transcript

mà Youtube phân chia transcript thành nhiều đoạn nhỏ theo các đơn vị thời gian Bên

cạnh đó, các transcript được nhận dạng tự động cũng sẽ có sự thiếu nhất quán trong

việc viết hoa, chẳng hạn giữa các danh từ bình thường và các thực thể tên sẽ có sự

thiếu chính xác Sự thiếu ổn định này mang đến những khó khăn lớn trong việc đọc

hiểu nội dung transcript.

1.2.4 Độ dài transcript

Transcript được sử dụng trong bộ dif liệu của chúng tôi có độ dài khá lớn so với các

văn bản trong các bộ dữ liệu dành cho tác vụ đọc hiểu tự động tương tự khác Các

video của chúng tôi sử dụng là một chuỗi dài các đoạn đối chuyện hay độc thoại.

Điều đó dẫn tới việc để truy xuất được một thông tin cho một câu hỏi nào đó thì ta phải lọc qua một lượng lớn thông tin không liên quan Việc này gây ra nhiều thách

thức trong việc đọc hiéu đối với cả người gán nhãn và các mô hình ngôn ngữ, cũng như quá trình huấn luyện mô hình đòi hỏi nhiều tài nguyên hơn.

1.2.5 Nhập nhang trong tiếng Việt

Trong tiếng Việt, một trong những khó khăn khi xử lí các cụm từ chính là sự nhập

nhằng Một từ có thể mang nhiều nghĩa khác nhau (từ “bò" có thể mang ý nghĩa là

một động từ, cũng có thể mang nghĩa là một danh từ chỉ động vật) Tình trạng này

gây nhiều khó khăn trong việc định vị cụm từ, phân loại từ loại và xác định đối tượng

liên quan trong các mô hình ngôn ngữ.

1.2.6 Khả năng diễn đạt của người trình bày

Một số vấn đề trong diễn đạt bằng lời như nói lắp, nói quá nhanh trong giao tiếp ảnh

hưởng đến các văn bản thu được Việc người diễn đạt cà lăm khiến một số từ ngữ bị

trùng lặp khá nhiều Một số đoạn người trình bày nói quá nhanh có thể sẽ làm ảnh

hưởng đến chất lượng ghi âm cũng như việc chuyển đổi thành văn bản của mô hình

Trang 14

1.3 ĐỊNH NGHĨA TÁC VỤ

speech-to-text của Youtube.

1.3 Định nghĩa tac vụ

Question Answering (QA) hay hỏi đáp tự động là một kĩ thuật được sử dụng nhằm

mục đích tìm kiếm câu trả lời dựa trên câu hỏi được cho trước Hiện nay hỏi đáp tự

động sử thường sử dụng một số kĩ thuật trong tìm kiếm và xử lí ngôn ngữ tự nhiên

(Natural Language Processing) như: Rút trích thông tin (Information Extraction),

Tìm kiếm thông tin (Information Retrieval).

Dua trên dữ liệu đầu vào va cách tim ra câu trả lời, các tác vụ hỏi đáp có thé được

phân loại khái quát thành những loại như sau:

¢ Extractive QA: Câu trả lời được xác định dựa vào câu hỏi và đoạn van ban được

đưa vào, mô hình thực hiện trích xuất câu trả trong văn bản.

¢ Open Generative QA: Câu trả lời được xác định từ câu hỏi và đoạn van bản,

đồng thời mô hình sẽ tự sinh ra câu trả lời tương ứng với ngữ cảnh của văn bản được đưa ra.

¢ Closed generative QA: Tương tự với Open Generate QA, tuy nhiên loại này

không cung cấp tài liệu hay văn bản đầu vào để trích xuất thông tin, thay vào

đó, câu trả lời sẽ do mô hình sinh ra dựa trên các dữ liệu đã được huấn luyện

trước.

Ngoài ra, tác vụ hỏi đáp tự động còn được phân loại theo lĩnh vực của dữ liệu mà

mô hình hướng đến, bao gồm:

* Closed Domain: Mô hình sẽ hướng đến một lĩnh vực nhất định, điểm mạnh của

các mô hình này chính là độ chính xác cao khi mô hình đã tập trung học và có được những đặc trưng trên lĩnh vực này.

* Open Domain: Khác với Closed Domain, mô hình Open Domain có khả năng

hỏi đáp trên nhiều dạng chủ dé khác nhau với độ chính xác cao Tuy nhiên để đạt được điều này, mô hình cần một lượng lớn dữ liệu trên nhiều chủ đề, nhiều

lĩnh vực để có thể đáp ứng được.

Trang 15

1.3 ĐỊNH NGHĨA TÁC VỤ

Hiện nay, tác vụ hỏi đáp đang dần nhận được nhiều sự chú ý vì tính ứng dụng cao

trong thực tế Các công ty, tập đoàn, nhà cung cấp dịch vụ lẫn doanh nghiệp hiện nay đang tìm kiếm giải pháp triển khai trợ lý ảo trò chuyện để có thể phản hồi các

câu hỏi từ khách hàng một cách tự động, nhanh chóng, chính xác và ít tốn kém nhất Nguồn thông tin để trả lời câu hỏi có thể được lấy từ các văn bản như chính sách, các bài viết, thông báo và các văn bản chính thức từ công ty Bên cạnh nhu cầu kể trên, thông tin cần thiết để trích xuất cũng có thể xuất hiện trong các cuộc họp, các buổi gap gỡ và trao đối, được trình bày dưới dạng đoạn phim hoặc các ghi âm Các nền tảng thông tin, mạng xã hội trực tuyến như YouTube, Facebook và TikTok cũng cung cấp một nguồn thông tin đáng kể về ngôn ngữ nói, bao gồm cả các video được cập

nhật hàng ngày có nội dung mới mẻ và ngữ cảnh đa dạng.

Với những video ngắn, việc trích xuất thông tin có thể đơn giản, nhưng với trường hợp với các video dài, người dùng có thể không muốn nghe hết video hay đoạn ghi

âm mà vẫn có thể có được thông tin cho các thắc mắc, câu hỏi của mình Quá trình

tìm kiếm và trích xuất thông tin từ các đoạn ghi âm và ghi hình có thể khó khăn do ảnh hưởng của điều kiện ngoại cảnh Các video được đăng tải ngày một nhiều với

nội dung đa dạng, ngữ cảnh phong phú, nhiều thể loại khác nhau và những video này

mang đến những đặc trưng riêng biệt do tồn tại nhiều sự khác biệt chẳng hạn như về

địa lí, lĩnh vực Những thông tin này mang những đặc trưng của ngôn ngữ nói, vốn có nhiều đặc điểm khác với ngôn ngữ viết trong các văn bản chính quy thường thấy.

Dựa trên nhu cầu về trích xuất thông tin trên những nguồn dữ liệu lớn, mất nhiều

thời gian để xem như video, chúng tôi hướng đến tác vụ hỏi đáp thuộc loại Extractive

ở nghiên cứu này Tương ứng với một transcript và một câu hỏi đầu vào, mô hình sẽ

tìm câu trả lời nằm trong đoạn văn bản transcript đó Và để huấn luyện và đánh giá

mô hình, chúng tôi sử dụng nguồn dữ liệu nói được thu thập từ các vlog YouTube

thuộc về chủ dé du lịch và ẩm thực Những vlog này có nội dung da dạng và ngôn ngữ nói có nhiều đặc trưng khác biệt với ngôn ngữ viết trong các văn bản chính quy thường thấy, đồng thời cũng giúp chúng tôi có thể tiếp cận với một lượng lớn dữ liệu

về ngôn ngữ nói.

Trang 16

Chương 2 Giới thiệu

Giới thiệu một cách tổng quan về dé tài nghiên cứu đọc máy cho ngôn ngữ nói, bao gỗm phạm vi và ý nghĩa.

Đọc hiểu tự động (Machine reading comprehension - MRC) là một tác vụ kinh

điển trong lĩnh vực xử lí ngôn ngữ tự nhiên Tác vụ này yêu cầu máy tính phải hiểu được một văn cảnh cho sẵn để có thể đưa ra câu trả lời chính xác cho một câu hỏi có

liên quan đến đoạn văn cảnh Hiện tại có rất nhiều bộ dữ liệu chất lượng cao, quy mô

lớn dành cho tác vụ đọc hiểu trên tiếng Anh, đặc biệt là sau sự thành công của bộ

Tuy vậy, các bộ dữ liệu tương tự trên tiếng Việt khá hạn chế và chúng chủ yếu tập

trung ở tác vụ hỏi đáp trên văn bản viết, như các bài viết Wikipedia, thông tin ở sách giáo khoa, báo trực tuyến Bên cạnh những văn bản chính quy kể trên, ngôn ngữ nói cũng là một lĩnh vực tiềm năng chưa nhận được nhiều sự quan tâm từ những nhà

nghiên cứu Ngôn ngữ nói mang đến các khía cạnh đặc trưng như từ lóng, phương ngữ, các cấu trúc ngữ pháp không chính quy và các đặc trưng này có thể là một thách

thức lớn cho các mô hình ngôn ngữ hiện tại Vì thế, tác vụ đọc hiểu trên miền dữ liệu

đặc trưng như ngôn ngữ nói - loại ngôn ngữ tự nhiên, gan gũi với giao tiếp hằng ngày

và Giải tri), Autos and Vehicles(Xe), Beauty and Fitness (Lam đẹp và Sức khỏe),

Books and Literature (Sách và Văn học), Business and Industrial (Doanh nghiệp và

Công nghiệp), Computers and Electronics ( Máy tính và Điện tử), Finance (Kinh tế

"https://www.similarweb.com/top-websites/

*https://www.statista.com/statistics/272014/global-social-networks-ranked-by-number-of-users/

6

Trang 17

CHƯƠNG 2 GIGI THIEU

tai chinh), Food and Drink (Am thực), Games (Trò chơi), Health (Sức khỏe), Hobbies

and Leisure (Sở thích), Home and Garden (Nhà cửa và Làm vườn), Internet and

Telecom (Mạng Internet và Viễn thông), Jobs and Educations (Hướng nghiệp và

Giáo dục), Law and Government (Luật pháp và Chính phủ), News (Tin tức), Online

Communities (Cộng đồng mạng), People and Society (Con người và Xã hội), Pets

and Animals (Thú cưng và Động vật), Real Estate (Bất động sản), Reference (Tham

khảo), Science (Khoa học), Shopping (Mua sắm), Sports (Thể thao), Travel(Du lịch)!.

Không chỉ đa dạng về chủ đề mà các video trên Youtube còn hướng đến nhiều độ tuổi khác nhau khi nội dung các video hướng đến các đối tượng từ thiếu nhi đến các nội dung hướng đến người lớn tuổi Các video được đăng tải lên Youtube cũng thay

đổi chủ dé rat da dạng, các nhà sáng tạo nội dung luôn cé gắng tạo dựng hoặc đuổi

theo các xu hướng trong xã hội thực lẫn Internet để thu hút người xem Các yếu tố trên đảm bảo cho nguồn dif liệu có thể truyền tải được sự da dạng trong ban chất tự

nhiên của ngôn ngữ nói và văn hóa hằng ngày.

Chủ dé mà chúng tôi lựa chọn để thực hiện chính là Du lịch và Ẩm thực Hai chủ

dé này được nhiều vlogger thực hiện và đã thu hút nhiều lượt quan tâm đến từ người xem trên nhiều nền tảng mạng xã hội Trong các video này, nội dung do người dẫn

vlog thường không có một kịch bản trước mà thường sẽ nói dựa trên điều kiện thực

tế, các cuộc hội thoại với người khác, mà không có sự chuẩn bị trước Điều này

giúp đảm bảo giữ được những đặc trưng của ngôn ngữ nói đời thường.

Nghiên cứu trên tác vụ đọc hiểu tự động cho miền ngôn ngữ cũng là tiền đề để

đóng góp cho một tác vụ lớn hơn, đó là rút trích thông tin (Information Extraction).

!https://trends.google.com/trends/explore?gprop=youtube

7

Trang 18

Chương 3 Những công trình nghiên cứu liên quan

Ỏ chương này, chúng tôi sẽ giới thiệu một sô bộ dữ liệu dành cho tác vụ đọc hiểu

tự động trên Tiếng Việt và khảo sát một sô nghiên cứu có liên quan đến tác vụ đọc hiểu tự động dành riêng cho dit liệu nói trên thé giới.

UIT-ViQuAD[2] là bộ dữ liệu phát hiện đoạn (span-detection) dành cho tác vụ

đọc hiểu tự động trên tiếng Việt Bộ dữ liệu bao gồm 23074 câu hỏi trên 5019 đoạn văn, được lấy từ các bài viết Wikipedia tiếng Việt ! Bộ dữ liệu này đã được sử dụng khá rộng rãi như một quy chuẩn để so sánh trong các nghiên cứu có liên quan đến

đọc hiểu tự động trên tiếng Việt Ở phiên bản sau đó của bộ dữ liệu, UIT-ViQuAD

2.0[3], có thêm 9217 câu hỏi không có câu trả lời (unanswerable), mở rộng thêm kha

năng của bộ dữ liệu, giúp cho các mô hình ngôn ngữ cho tác vụ đọc hiểu tự động có

thể xác định được các câu hỏi không có câu trả lời nằm trong văn cảnh Xây dựng

từ nền tảng của bộ dữ liệu UIT-ViQuAD, bộ dữ liệu UIT-ViWikiQA[4] là một bộ

dữ liệu phát hiện câu (sentence detection), được xây dựng cho các tác vụ liên quan đến đọc hiểu ở mức độ câu Đối với miền thông tin chuyên ngành y học, sức khỏe,

ViNewsQA[5] là bộ dữ liệu với 22057 câu hỏi được xây dựng từ 4416 bài báo online

của trang thông tin điện tử VnExpress?.

Bên cạnh những bộ dữ liệu chuyên biệt cho tác vụ phát hiện đoạn, trên tiếng Việt

còn một số tập dữ liệu dành cho các tác vụ liên quan VIMMRC[6] là bộ dữ liệu hỏi

đáp dạng trắc nghiệm (multiple choice) đầu tiên trên tiếng Việt, bao gồm 2783 câu hỏi với bốn lựa chọn cho mỗi câu Bộ dữ liệu được xây dựng trên 417 bài đọc dựa trên sách giáo khoa Ngữ Văn tiếng Việt Phiên bản tiếp nối của bộ dữ liệu, VIMMRC

2.0[7] giới thiệu 699 đoạn văn và 5273 câu hỏi Ở phiên bản mới, số lượng đáp án để

chọn lựa cho mỗi câu hỏi không còn cô định ở con số bốn UIT-ViCoV19QA[8] là

bộ câu hỏi sử dung di liệu từ các câu hỏi thường gặp (online FQA documents) từ

các tổ chức y tế đáng tin để giải quyết những câu hỏi liên quan đến COVID-19, và đây cũng là bộ dif liệu hỏi đáp đến từ cộng đồng đầu tiên trên tiếng Việt với tổng

cộng 4500 câu hỏi Ngoài ra còn có bộ dữ liệu VIMQA[9], là bộ dữ liệu hỏi đáp đa

bước (multi-hop) dựa trên nguồn dữ liệu từ Wikipedia với hơn 10000 câu hỏi, được

"https://vi.wikipedia.org/wiki/

?https://vnexpress.net

Trang 19

CHƯƠNG 3 NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

xây dựng để thách thức các mô hình ngôn ngữ ở tác vụ suy luận phức tạp, thông qua

nhiều bước suy luận, và yêu các cầu mô hình ngôn ngữ phải cung cấp dược dẫn chứng nhằm giải thích cho suy luận mà mô hình đưa ra.

Cùng với sự phát triển của các tác vụ về xử lí tín hiệu âm thanh giúp việc nghiên cứu liên quan đến ngôn ngữ nói được chú ý đến nhiều hơn Sự đa dạng và phong phú của các bộ dữ liệu hỏi đáp chất lượng cao là điều kiện thiết yêu để phát triển

những mô hình học máy hiệu quả cao cho các tác vụ xử lí ngôn ngữ tự nhiên Spoken

SQuAD[10] là bộ dữ liệu trên tiếng Anh hướng đến mục tiêu đọc hiểu tự động cho

các ngữ liệu dựa trên văn cảnh là các bài viết trên nền tang Wikipedia — bách khoa

toàn thư mở Bộ dữ liệu này sử dụng lại bộ SQuAD, sau đó sử dụng công cục chuyển đổi từ văn bản sang giọng nói để sinh tự động các đoạn âm thanh, sau đó lại được

chuyển đổi trở về dang văn bản Tương tự, trên tiếng Trung có bộ dữ liệu ODSQA[I 1]

dành cho ngôn ngữ nói, được xây dựng từ nền tảng của bộ DRCD[12], gồm hơn

30000 câu hỏi từ 2108 bài viết Wikipedia tiếng Trung Tuy nhiên, bộ ODSQA có

điểm mới so với bộ Spoken SQuAD là các tài liệu âm thanh được tạo ra bởi người

thật, không thông qua công cụ.

Nhìn chung, các bộ dữ liệu cho tác vụ đọc hiểu trên tiếng Việt hiện nay chỉ tập

trung trên những thông tin chính quy, chẳng hạn như Wikipedia, bài báo, sách giáo

khoa hay những trang thông tin trực tuyến Tuy ở các ngôn ngữ khác cũng đã xuất

hiện các bộ dữ liệu đọc hiểu tự động cho ngôn ngữ nói, như bộ Spoken SQuAD hay

bộ ODSQA, nhưng các bộ dữ liệu trên vẫn bị bó buộc ở các nội dung đến từ nền tang Wikipedia, chưa thực sự phản ánh được những khác biệt đặc trưng đến từ ngôn ngữ nói — gần gũi với đời thường, đa dạng, và có những đặc điểm khó có thể tìm thay

được trong văn bản chính quy.

Trang 20

Chương 4 Bộ dữ liệu cho tác vụ đọc hiểu trên dữ liệu nói

Chương này được chúng tôi dùng để trình bày về hướng dẫn gán nhấn và quy

trình chúng tôi đã thực hiện để tạo nên bộ dữ liệu này.

4.1 Hướng dẫn gan nhãn - Annotation guidelines

[ ] thật nay minh sé xào cho nó chính

nhé thật này nó có vừa nac vừa mo đó

các bạn linh chi Man ăn thì nó sẽ có cái độ mềm mềm béo nhá chứ mình làm không mấy thì ăn nó rất khô [ ]

(we stir-fry the meat until it’s really done the meat should be fatty meat type When being cooked it will have a tender texture otherwise it will be dry)

Vi sao cai méo 1a

loại cải được trồng

[ là một trong những loại cải đó là đặc

trưng của Tây Bắc tại bị đất đá ở đây khá

là khô can và khó trồng những cái loại

rau khác tá nên chỉ ra còn là cái mèo nó

sẽ sóng là tốt và hầu như dân tộc nào người

dân trên đây họ dùng cái mèo là một trong

diffi-the "cải mèo" (a type of wild collard) can

thrive here and almost all ethnic groups

in this area use "cdi méo" as one of their

main and regular food sources.)

is quite arid

and _ difficult

to grow other types of veg- etables)

Hình 4.1 Ví dụ được lay từ bộ dữ liệu, bao gồm cả những lỗi nhận dang giọng nói

được gạch chân Phần phiên dịch tiếng Anh tương ứng được trình bày bằng chữ xanh.

Trước khi trình bày những giới thiệu về hướng dẫn gán nhãn dành cho người gán nhãn, chúng tôi sẽ trình bày về những thông tin cần có trong một dòng dữ liệu của

chúng tôi Với mỗi dòng dữ liệu (Vi dụ Bảng 4.1), thông tin được cấu thành từ một bộ

10

Trang 21

4.1 HƯỚNG DẪN GÁN NHÃN - ANNOTATION GUIDELINES

ba (q,t, a) Với mỗi văn ban transcript cho trước được thu thập từ một vlog Youtube

(q), để trích xuất được câu trả lời (a) cho một câu hỏi (q) tương ứng, một người (hoặc

mô hình ngôn ngữ) cần phải đọc và hiểu được văn bản transcript (t) Câu trả lời (a)

phải là một từ (hoặc cụm từ) có trong văn ban transcript (t).

Trong các bộ dữ liệu dành cho tác vụ học máy có giám sát nói chung và tác vụ

đọc hiểu tự động nói riêng, người gán nhãn dữ liệu là một nhân tố quan trọng, có ảnh

hưởng đến chất lượng của bộ dữ liệu Ở bộ dữ liệu này, mỗi người gán nhãn sẽ đọc,

hiểu và được yêu cầu đặt ra ít nhất 5 câu hỏi cho mỗi văn bản transcript Nếu nội dung của transcript không rõ ràng, hoặc chứa quá nhiều lỗi nhận dạng tự động thì

người gán nhãn được phép bỏ qua văn bản transcript đó.

Guideline hướng dẫn sẽ trình bày những quy tắc ý quan trọng giúp người gán

nhãn hiểu được chính xác công việc đang làm, như xác định câu hỏi, câu trả lời, các

quy tắc đặt câu hỏi như phải đặt rõ ngữ cảnh, những câu hỏi mang có độ khó hợp lí

như không quá khó nhưng phải mang tính suy luận, kết hợp nhiều thông tin từ nhiều

vị trí khác nhau trong đoạn, câu hỏi phải có dấu “?”, đáp án phải ngắn gọn nhất có

thể nhưng vẫn phải đảm bảo đầy đủ ý nghĩa và nội dung đáp ứng cho câu hỏi, hạn chế đặt nhiều câu hỏi cũng một loại (Các loại câu hỏi như Cái gì, khi nào, ở đâu, như thế nào, bao nhiêu, tại sao), cùng một cách đặt câu hỏi, sử dụng từ ngữ đa dạng, dùng

từ hoặc cụm từ đồng nghĩa, tránh đặt những câu hỏi chung chung, không rõ ràng, hạn

chế mắc lỗi chính tả.

Tương tự với các bộ dữ liệu đọc hiểu tự động theo kiểu trích xuất khác, mỗi câu trả lời cho câu hỏi phải nằm trong phạm vi văn cảnh được cung cấp, và là từ hoặc cụm từ duy nhất, liên tục và có nghĩa Người gán nhãn được khuyến khích sử dụng

vôn từ của riêng họ để đặt câu hỏi, tránh bị rập khuôn nhằm mang đến sự đa dạng tối

đa nhất có thể cho bộ dữ liệu Các câu hỏi nên phong phú về kiểu câu, về loại câu trả

lời và cách suy luận câu trả lời.

11

Trang 22

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

4.2 Các độ đo đánh gia

Ở phần này, chúng tôi giới thiệu các độ đo được dùng để đánh giá quá trình gán nhãn

và hiệu suất của mô hình học máy trên bộ dữ liệu của chúng tôi Chi tiết về các độ đo

sẽ được trình bày ngay sau đây.

4.2.1 Các độ đo dành cho tính toán độ đồng thuận giữa những người gan nhãn

dữ liệu

Trong quá trình gán nhãn dữ liệu, độ đồng thuận giữa những người gán nhãn

(inter-annotator agreement) là một độ đo quan trong để đánh giá chất lượng của công việc.

Trong nghiên cứu này, chúng tôi thực hiện tính toán và đánh giá trên những độ đo

đồng thuận sau đây:

1 Thống kê Kappa của Cohen đại điện cho mức độ tổng thể của sự thống nhất

giữa hai người đánh giá khi phân loại các mục vào một tập hợp các danh mục

đã cho Nó là một hệ số độ tin cậy giữa các người đánh giá khi phân loại các

mục vào các danh mục nhât định.

Cohen’s Kappa đánh giá mức độ đồng nhất giữa hai người đánh giá bằng cách

so sánh tổng số các trường hợp mà họ đồng ý với số lượng các trường hợp mà

họ có thể đồng ý ngẫu nhiên Kappa có giá trị từ -1 đến 1, với giá trị 1 cho biết

sự đồng thuận hoàn toàn giữa hai người đánh giá, 0 cho biết sự thống nhất ngẫu nhiên và giá trị âm cho biết sự bất đồng thuận Độ đo Cohen’s Kappa có thé

được tính toán như sau

trong đó p, là sự thống nhất quan sát tương đối giữa các người đánh giá, và p„

là xác suất giả định của sự đồng ý ngẫu nhiên.

2 Fleiss’ Kappa là một chỉ số thống kê được sử dụng để đánh giá tính nhất quán

của sự thống nhất giữa một số lượng cô định người đánh giá khi gan các phân

loại danh mục cho một số lượng các mục hoặc phân loại chúng.

12

Trang 23

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

Khác với Cohen’s Kappa chỉ áp dung để đánh giá sự thống nhất giữa hai người đánh giá, Fleiss’ Kappa được sử dung để đánh giá tính nhất quán giữa nhiều

người đánh giá, và thường được sử dụng trong các nghiên cứu y tế và xã hội để

đo độ đồng nhất giữa các nhà nghiên cứu đánh giá độ uy tín của các phân loại

danh mục.

Fleiss’ Kappa tính toán mức độ đồng nhất giữa các người đánh giá bằng cách

so sánh sự đồng ý giữa các người đánh giá với sự đồng ý ngẫu nhiên Tương tự

Cohen’s Kappa, Fleiss’ Kappa có giá trị từ -1 đến 1.

Mức độ « có thể được định nghĩa như

Nhân tử 1 — ø, cho biết mức độ thống nhất có thể đạt được vượt qua sự đồng ý

ngẫu nhiên, và p — ø„ cho biết mức độ thống nhất thực sự được đạt được vượt

qua sự đồng ý ngẫu nhiên.

3 Krippendorff’s alpha là hệ số độ tin cậy được phát triển để đo sự thống nhất

giữa các người đánh giá hoặc các công cụ đo lường trong việc phân biệt các

hiện tượng thường không có cấu trúc rõ ràng.

Krippendorff’s alpha tính toán sự thống nhất giữa các người đánh giá bằng cách

so sánh sự đồng ý quan sát thực tế với sự đồng ý ngẫu nhiên, và cho phép các

người nghiên cứu đánh giá mức độ đồng nhất giữa các người đánh giá hoặc các công cụ đo lường Công thức tổng quát có thể được biểu diễn như sau

— _—_ De a=1 In

trong đó D, là sự bất đồng thuận quan sát được và D, là sự bất đồng thuận được

mong đợi ngẫu nhiên.

13

Trang 24

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

4.2.2 Các độ đo đánh giá mức độ trùng khớp của thông tin

Bên cạnh tính toán độ đồng thuận giữa những người gán nhãn, chúng tôi còn tính

toán độ trùng khớp (overlap degree) giữa các câu trả lời được đưa ra bởi ho Chúng

tôi sử dụng nhóm các độ đo ROUGE[13] (viết tắt của Recall-Oriented Understudy

for Gisting Evaluation) Các độ đo ROUGE đánh giá tính tương đồng cả về cấu trúc của câu và từ vựng, và được sử dụng rộng rãi trong các nghiên cứu tổng hợp văn bản

tự động và dịch máy để đánh giá chất lượng của các hệ thống tổng hợp văn bản và

dịch máy.

Các độ đo ROUGE được sử dụng trong nghiên cứ này bao gồm:

1 ROUGE-N tính toán dựa trên độ trùng khớp giữa các unigram, bigram, trigram,

hay n-gram, với n-gram là các chuỗi liên tiếp gồm n từ liên tiếp trong một văn

bản Công thức tính ROUGE-N được trình bày như sau:

Rougey = 2 * precisiony + recalla;

2 ROUGE-L là chi số đo dựa trên chuỗi con chung dài nhất (LCS) Nó xem xét

tính tương đồng cấu trúc ở mức câu một cách tự nhiên và tự động xác định chuỗi các n-gram xuất hiện liên tiếp dài nhất.

ROUGE-L được sử dụng để đánh giá mức độ tương đồng giữa hai văn bản,

chẳng hạn như một bản tóm tắt và văn bản gốc Nó so sánh các chuỗi con chung

dài nhất giữa hai văn bản để đo độ tương đồng giữa chúng Cách tính toán cho

ROUGE-L được trình bày như sau:

Với

os _ độ dài của LCS

precisiony, = số lượng unigram trong dự đoán °

recall, _ độ dài cua LCS

số lượng unigram trong tham chiêu

14

Trang 25

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

Ta có

ROUGE, =2x presision, * recall;

precisiony + recall

4.2.3 Các độ do đánh giá hiệu suất các mô hình ngôn ngữ trên tác vụ hỏi đáp

Để đánh giá hiệu suất của các mô hình trên tác vụ hỏi đáp, chúng tôi sử dụng hai độ

đo là Exact Match (EM) và FI score.

F1 score là một chỉ số đánh giá thông dụng trong đánh giá máy học Đây là một

đo lường về độ chính xác của một mô hình, tính đến cả độ chính xác và độ phủ F1

score được tính bằng trung bình điều hòa của độ chính xác và độ phủ Trong ngữ

cảnh của tác vụ đọc hiểu tự động, độ chính xác chỉ phần trăm câu trả lời được dự đoán đúng, trong khi độ phủ chỉ phần trăm câu trả lời đúng được dự đoán bởi mô hình Do đó, F1 score cao hơn cho thấy mô hình hoạt động tốt hơn.

Exact Match, một chỉ số đánh giá nhị phân, đo lường phần trăm câu hỏi mà mô hình cung cấp câu trả lời chính xác và tông sô cac câu hoi Nói cách khác, nếu câu trả

lời được dự đoán của mô hình chính xác trùng khớp với câu trả lời đúng, thì nó được

coi là một câu trả lời chính xác Ngược lại, câu trả lời của mô hình được coi là không

chính xác Exact Match là một chỉ số khắt khe và yêu cầu mô hình cung cấp một câu

trả lời chính xác, làm cho nó là một chỉ số khó khăn hơn để đạt được.

Trong các tác vụ đọc hiểu tự động, F1 score và Exact Match thường được sử dụng

cùng nhau để đánh giá hiệu suất của một mô hình Trong khi F1 score cung cấp một đánh giá toàn diện hơn về hiệu suất của mô hình, Exact Match cung cấp một đánh giá nghiêm ngặt hơn, đảm bảo rằng mô hình đang dự đoán đúng câu trả lời.

Công thức tính toán F1 score và Exact Match như sau:

Trang 26

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

Trong ngữ cảnh tác vụ đọc hiểu tự động, True Positives là số lượng câu trả lời

được dự đoán chính xác, False Positives là số lượng câu trả lời sai được dự đoán bởi

mô hình, và False Negatives là số lượng câu trả lời đúng mà mô hình không dự đoán được.

Exact Match:

Exact Match — Số câu hỏi có câu trả lời chính xác

Tổng số câu hỏi

Cả hai chỉ số F1 score và Exact Match đều là các chỉ số đánh giá phổ biến trong

các tác vụ đọc hiểu tự động, và việc tính toán chúng có thể giúp các nhà nghiên cứu

và chuyên gia đánh giá hiệu suất của các mô hình và thuật toán khác nhau Bên cạnh

F1 score và Exact Match, trong đọc hiểu tự động, human performance thường được

sử dụng làm tiêu chuẩn để đánh giá hiệu suất của các mô hình học máy Các chỉ số

đo lường của human performance có thể cung cấp một cái nhìn về mức độ hiệu suất

có thể đạt được bởi con người, và có thể được sử dụng như một tiêu chuẩn để đánh

giá hiệu suất của các mô hình học máy.

Chỉ số human performance có thể được đo bằng nhiều phương phap khác nhau Trong nghiên cưu nay, chúng tôi tính toán chỉ số này bằng cách đánh giá khả năng của của những người gán nhãn độc lập trên tập kiểm thử so với kết quả trên bộ dif liệu đã được gán nhãn trước đó Chúng có thể được sử dụng để đánh giá hiệu suất

của các mô hình học máy so với human performance, với mục tiêu đạt hoặc vượt qua

hiệu suất của con người Chúng cũng có thể được sử dụng để xác định các lĩnh vực

mà các mô hình học máy đang hoạt động kém hơn so với con người, và để hướng dẫn

phát triển các mô hình học máy mới có thể cải thiện trong những lĩnh vực đó.

Tuy nhiên, human performance không phải là các tiêu chuẩn hoàn hảo Hiệu suất

của con người có thé bi ảnh hưởng bởi các yếu tổ như mệt mỏi, độ lệch nhận thức va biến động trong chuyên môn và kiến thức Ngoài ra, chỉ số này còn bị giới hạn bởi số

lượng thời gian và tài nguyên có sẵn cho đánh giá con người, làm cho việc đạt được

các đánh giá quy mô lớn và toàn diện trở nên khó khăn.

Mặc dù có những hạn chế này, human performance vẫn là một tiêu chuẩn quan

trọng trong đọc hiểu tự động và có thể cung cấp thông tin có giá trị về khả năng và

giới hạn của các mô hình học máy Bằng cách so sánh các mô hình học máy với khả

16

Trang 27

4.2 CÁC ĐỘ ĐO ĐÁNH GIA

năng của con người, các nhà nghiên cứu và nhà thực hiện có thể phát triển các mô

hình học máy hiệu quả và đáng tin cậy hơn.

Để đạt được hiệu suất tốt nhất trong đọc hiểu tự động, các mô hình học máy cần được huấn luyện trên các tập dữ liệu lớn và đa dạng, bao gồm các loại câu hỏi và tác

vụ khác nhau Đồng thời, các mô hình cần được điều chỉnh và tối ưu để đạt được hiệu suất tốt nhất trên các tập dữ liệu kiểm thử Việc đánh giá hiệu suất của các mô hình

trên các tập dữ liệu kiểm thử là một quá trình quan trọng và phức tạp, và đòi hỏi sự

cân nhắc kỹ lưỡng của các nhà nghiên cứu và nhà thực hiện.

17

Trang 28

4.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION

4.3 Quá trình xây dựng bộ dữ liệu - Corpus creation

Ở mục này, chúng tôi đề xuất quá trình xây dựng bộ dữ liệu tiếng Việt trên các vlog

YouTube, bao gồm 4 bước chính: Thu thập transcript, Sinh cặp câu hỏi-đáp, Hiệu chỉnh bộ dữ liệu, và Kiểm nghiệm bộ dữ liệu Lưu ý rằng quá trình Kiểm nghiệm độ đồng thuận giữa những người gán nhãn của bộ dữ liệu được thực hiện sau khi hoàn tat bước 2 - Sinh cặp câu hỏi-đáp Quy trình thực hiện chi tiết sẽ được trình bày ngay

=_ || ——+*?* - Created |—7r*| slaf#an | >| Modified [7 soir

= :¡|_ creating corpus } |! validation corpus |}

Hình 4.2 Quy trình xây dựng bộ dữ liệu.

4.3.1 Thu thập dư liệu

Các văn ban transcript được thu thập từ các vlogs YouTube tiếng Việt trên các chủ dé liên quan đến du lịch và ẩm thực Các kênh được chọn để sử dụng cần phải đáp ứng được yêu cầu về số lượng người theo dõi, ở nghiên cứu này, chúng tôi chỉ sử dụng nội dung từ những người đóng góp nội dung có số lượt theo dõi trên 200 000 Điều này giúp phần nào đảm bảo được nội dung của các video có độ phổ thông nhất định, và được một số lượng khán giả ủng hộ.

Với mỗi vlog, transcript được thu thập thông qua sự hỗ trợ từ một thư viện Python!.

Kết quả trả về cho mỗi video YouTube là một danh sách các đoạn transcript ngắn

(được YouTube chia theo nhiều đoạn thời gian nhỏ trong 1 vlog) Sau khi thu thập

xong, chúng tôi sẽ tiến hành gộp lại thành một đoạn transcript hoàn chỉnh Ở phạm vi

!https://pypi.org/project/youtube-transcript-api/

18

Trang 29

4.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION

Chủ đề Tên kênh Số người đăng kí

Food Món ăn ngon 1.99M

Vanh Khuyên Lê 1M45

Cô Ba Bình Dương 1M49

NathaFood 845K

Nhamtran FV 397K

Bảng 4.1 Thông tin về các kênh Youtube được chon để thu thập Transcript

nghiên cứu này, chúng tôi sẽ giữ nguyên kích thước transcript mà không tiến hànhthêm các bước phân đoạn Chúng tôi cũng không lọc đi các từ đệm để giữ tối đa được

sự đa dạng của ngôn ngữ nói, cũng như mô phỏng được trọn vẹn thách thức và khác

biệt trong việc sử dụng nguồn dữ liệu ngôn ngữ nói

4.3.2 Sinh cặp câu hỏi-đáp

Để có thể sinh được các cặp câu hỏi đáp, chúng tôi tuyển một nhóm người gán nhãn

và hướng dẫn họ thực hiện việc sinh các cặp câu hỏi đáp dựa trên hướng dẫn hỏi đáp

Mỗi người gan nhãn sẽ được yêu cầu làm thử công việc trên 1 văn bản trước, thông

qua thảo luận chung và thống nhất chung thì sau đó sẽ chính thức bắt đầu gán nhãn.

Tương ứng với mỗi văn bản transcript, mỗi người gán nhãn sẽ được yêu cầu đọchiểu và đặt câu hỏi dựa trên hướng dẫn gán nhãn Sau khi hoàn thành bước này, các

câu hỏi của các người gán nhãn sẽ được tổng hợp lại và chọn ngẫu nhiên ra một tậpbao gồm 100 câu Các câu hỏi đã được chọn sẽ được dùng để đánh giá độ đồng thuận

giữa những người gán nhãn, cũng như đánh giá toàn bộ quá trình gán nhãn, chẳng

hạn những điểm bất đồng, thiếu nhất quán trong quá trình gán nhãn Đây cũng là cơ

sở cho quá trình hiệu chỉnh bộ dữ liệu tiếp theo

19

Trang 30

4.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION

4.3.3 Hiệu chỉnh bộ dữ liệu

Để đảm bảo tính thống nhất giữa các người gán nhãn và đảm bảo được tính hợp lýcủa bộ dữ liệu, những người gán được yêu cầu thực hiện các công việc sau:

1 Thống nhất lại về hướng dẫn: những người gán nhãn được phổ biến lại các

yêu cầu và tiêu chí của hướng dẫn gán nhãn

2 Tự đánh giá: Những người gán nhãn được yêu cầu tự kiểm tra lại các cặp câuhỏi-đáp mà họ đã thực hiện để tìm và sửa lại những lỗi hoặc những bất đồngtrong phần câu hỏi họ đã làm Các lỗi bao gồm các loại sau: câu hỏi chưa rõràng, sai câu trả lời, câu hỏi thiếu thông tin, vị trí câu trả lời sai

3 Đánh giá chéo: Sau khi tự kiểm tra lại sản phẩm của mình, những người gán

nhãn sẽ đánh giá chéo thành quả của nhau để bộ dữ liệu được thêm nhất quán

Sau khi hoàn thành công việc hiệu chỉnh, bộ dữ liệu được chia thành ba tập nhỏ

dựa trên số câu trả lời: tập huấn luyện, tập kiểm thử, và tập phát triển với tỉ lệ 8:1:1

Mỗi văn bản transcript trong bộ dữ liệu sẽ được được đảm bảo chỉ được chia vào mộttrong ba tập dữ liệu con để giảm thiểu việc trùng lập trong tập từ vựng

4.3.4 Kiểm nghiệm bộ dữ liệu

Để có thể đánh giá được sâu hơn độ tin cậy của bộ dữ liệu, chúng tôi đã thực hiện 2

bước đánh giá sau:

1 Inter-rater agreement - độ đồng thuận giữa các người gán nhãn: Thông

qua việc thực hiện bước đánh giá này, chúng tôi sẽ có cơ sở để ước lượng chất

lượng trong quá trình làm việc của những người gán nhãn Mỗi người gán nhãn

sẽ được yêu cầu thực hiện trả lời một cách độc lập cho các câu hỏi trong tập

100 câu hỏi ngẫu nhiên Trong suốt quá trình này, người gán nhãn không đượctham khảo kết quả có sẵn hoặc kết quả của những người gán nhãn khác

Để tính toán độ đồng thuận giữa những người gán nhãn, chúng tôi sử dụng 3 độ

đo sau: Cohen’s Kappa, Fleiss’ Kappa, và Krippendorff’s Alpha Bên cạnh đó,

chúng tôi tính toán độ trùng khớp của các câu trả lời bằng một độ đo khác ít

nghiêm ngặt hơn - ROUGE.

20

Trang 31

4.3 QUÁ TRÌNH XÂY DỰNG BỘ DỮ LIỆU - CORPUS CREATION

2 Human Performance: Sau khi chia bộ dữ liệu, chúng tôi sẽ dùng thêm một

nhóm những người gán nhãn độc lập khác để thực hiện trả lời các câu hỏi

trên tập kiểm thử Human Performance được xác định bằng 2 độ đo là EM và

FI-score.

Kết quả chỉ tiết của bước đánh giá này sẽ được trình bày ở các phần sau

21

Trang 32

Chương 5 Xử lí và phân tích bộ dữ liệu

O chương này, chúng tôi sẽ cung cáp những phân tích thông kê trên bộ dữ liệu,

từ tổng quan đến chỉ tiết cũng như so sánh với thông tin thông kê trên bộ dữ liệu

Độ dài câu hỏi 10.09 10.10 10.00 10.08 11.23 11.96 1229 11.40

Độ dài câu tra loi 3.22 SY 3.31 3.24 8.06 845 8.93 8.18

Tap từ vựng 34288 12639 13336 39211 36940 9746 10263 42545

Bảng 5.1 Các số liệu thông kê tổng quan của bộ dữ liệu chúng tôi và bộ UIT-ViQuAD

Tiếng Việt duoc xem là một ngôn ngữ đơn lập, phụ thuộc vào trật tự câu và các từ

chức năng để biểu đạt ngữ nghĩa và các quan hệ ngữ pháp thay vì sử dụng tiếp đầu

ngữ hay tiếp vị ngữ Đơn vị nhỏ nhất trong tiếng Việt là “tiếng”, đây là đơn vị cơ bản

để cấu tạo nên các từ có nghĩa Từ có thể là một tiếng, hoặc nhiều tiếng kết hợp vớinhau Diễn đạt trong tiếng Việt được biểu hiện thông qua rất nhiều từ phức, là những

từ được kết hợp từ hai hoặc nhiều từ đơn để tạo nên từ mới có nghĩa

Từ trong tiếng Việt có cấu tạo phức tap, do đó phan tách từ (segmentation) là tác

vụ quan trọng nhằm để phân biệt sắc thái nghĩa của các tiếng trong một từ, việc này

sẽ ảnh hưởng đến việc xác định nghĩa của từ cũng như nghĩa của toàn bộ câu văn

Tuy vậy, tiếng Việt thiếu đi một quy chuẩn cho việc phân tách từ Trong phạm vi bài

báo cáo này, chúng tôi ước lượng kích thước của bộ từ vựng dựa trên những từ đã phân tách được từ văn bản transcript và các câu hỏi Việc phân tách từ được thực hiện

tự động thông qua một công cụ dành cho xử lí ngôn ngữ tự nhiên tiếng Việt ! được

viết trên ngôn ngữ Python, tương tự với cách tiếp cận của bộ dữ liệu UIT-ViQuAD Ở

bài báo cáo này, chúng tôi cũng tính toán lại một số thống kê của bộ UIT-ViQuAD

'https://pypi-org/project/youtube-transcript-api/

22

Ngày đăng: 02/10/2024, 03:55