1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khóa luận tốt nghiệp Công nghệ thông tin: Nghiên cứu phương pháp trình đọc hồi tưởng cho bài toán đọc hiểu tự động tiếng Việt

76 2 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu phương pháp trình đọc hồi tưởng cho bài toán đọc hiểu tự động tiếng Việt
Tác giả Lê Thị Thu Hằng, Hồ Việt Đức
Người hướng dẫn TS. Nguyễn Lưu Thuỳ Ngân, ThS. Nguyễn Đức Vũ
Trường học Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 76
Dung lượng 37,42 MB

Nội dung

Trước đó, chúng tôi đã tham gia VLSP share-task với nhiệm vụ Đọc hiểu tự động tiếng Việt, chúng tôi đã thực hiện một thực nghiệm chứng minh rằng các mô hình ngôn ngữ đào tạo trước cho kế

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHO HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

EE

LÊ THI THU HANG - 18520274

HO VIỆT ĐỨC - 18520610

NGHIÊN CỨU PHƯƠNG PHÁP TRÌNH DOC HOI TƯỞNG CHO

BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG TIENG VIỆT

RETROSPECTIVE READER FOR VIETNAMESE MACHINE READING

COMPREHENSION

KHÓA LUẬN TỐT NGHIỆP

CỬ NHÂN NGÀNH CÔNG NGHỆ THÔNG TIN

TP HỒ CHÍ MINH - NĂM 2022

Trang 2

LE THI THU HANG - 18520274

HO VIỆT ĐỨC - 18520610

NGHIÊN CUU PHƯƠNG PHAP TRÌNH ĐỌC HOI TƯỞNG CHO

BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG TIẾNG VIỆT

RETROSPECTIVE READER FOR VIETNAMESE MACHINE READING

COMPREHENSION

KHÓA LUẬN TỐT NGHIỆP

CỬ NHÂN NGÀNH CÔNG NGHỆ THÔNG TIN

GIẢNG VIÊN HƯỚNG DẪN

TS NGUYEN LƯU THUY NGAN

ThS NGUYEN ĐỨC VŨ

TP HO CHÍ MINH - NĂM 2022

Trang 3

DANH SÁCH HỘI ĐỒNG BẢO VỆ KHÓA LUẬN

Hội đồng chim khóa luận tốt nghiệp, thành lập theo Quyết định số ngày

của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

1 Chủ tịch:

2 Thư ký:

3 Ủy viên:

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực

tiếp của tiền sĩ Nguyễn Lưu Thuỳ Ngân và thạc sĩ Nguyễn Đức Vũ.

Mọi tham khảo trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công

trình, và thời gian công bố.

Moi sao chép không hợp lệ va vi phạm quy chế đào tạo tôi xin chịu hoàn toàn

Trang 5

LỜI CẮM ƠN

Đầu tiên, tôi xin chân thành cảm ơn cô Nguyễn Lưu Thuỳ Ngân đã giúp đỡ và định hướng cho tôi hoàn thành khóa luận tốt nghiệp này Đồng thời, tôi xin gửi lời cảm ơn đến ThS Nguyễn Đức Vũ đã luôn bên cạnh hỗ trợ, chỉ bảo và giúp đỡ cho tôi rất nhiều Cô và thầy đã hướng dẫn tôi tận tình, bổ sung cho tôi những kiến thức,

kỹ năng quan trọng để thực hiện các nghiên cứu trong đề tài này.

Bên cạnh đó, tôi xin gửi lời cảm ơn đến các thầy, cô khoa Khoa học và Kỹ thuật thông tin cùng các thầy cô Trường Đại học Công nghệ thông tin đã giảng dạy tận tình

và giúp đỡ tôi trong suốt 4 năm học tập Tôi cũng xin cảm ơn tập thể lớp CNCL2018,

họ luôn là mục tiêu để tôi phấn đấu Xin cảm ơn các bạn bè, anh chị em đã luôn đồng hành cùng tôi.

Dù đã nỗ lực cố gắng hoàn thiện Khóa luận tốt nghiệp này, song chắc chắn sẽ

không tránh khỏi những thiếu sót và hạn chế Tôi kính mong nhận được sự chỉ bảo

và góp ý tận tình từ quý Thay, Cô để đề tài được tốt hơn Một lần nữa, tôi xin chân

thành cảm ơn!

Thành pho Hô Chí Minh, tháng 7 năm 2022

Sinh viên Lê Thị Thu Hằng Sinh viên Hồ Việt Đức

11

Trang 6

TÓM TẮT

Đọc hiểu tự động là một trong những chủ đề nghiên cứu tiên tiến và phổ biến nhất trong xử lý ngôn ngữ tự nhiên Với đầu vào là một đoạn văn và một câu hỏi, đầu ra sẽ là một khoảng trả lời trong đoạn văn nếu câu hỏi đó có thể trả lời, ngược lại

sẽ nhận được câu trả lời rỗng Bài toán không chỉ nhận được nhiều sự quan tâm từ

cộng đồng các nhà nghiên cứu mà còn được ứng dụng rộng rãi bởi các doanh nghiệp,

cơ quan, tổ chức công nghệ lớn.

Các công trình nghiên cứu Đọc hiểu tự động trước đây hầu hết tập trung vào hai ngôn ngữ chính là tiếng Anh và tiếng Trung Đối với tiếng Việt, trong những năm

gần đây, Đọc hiểu tự động bắt đầu được quan tâm đến, với sự ra đời của các bộ dữ

liệu và những nghiên cứu liên quan Tuy nhiên hầu hết các nghiên cứu trước đây trên tiếng Việt chỉ sử dung lại các mô hình ngôn ngữ được huấn luyện trước vì thế chưa đạt được kết quả cao so với các công trình nghiên cứu của tiếng Anh và tiếng Trung.

Trước đó, chúng tôi đã tham gia VLSP share-task với nhiệm vụ Đọc hiểu tự động

tiếng Việt, chúng tôi đã thực hiện một thực nghiệm chứng minh rằng các mô hình

ngôn ngữ đào tạo trước cho kết quả không tốt đồi với việc phân loại khả năng trả lời của câu hỏi Vì vậy trong khóa luận lần này chúng tôi quyết định chọn bài toán Đọc hiểu tự động tiếng Việt làm đề tài chính để nguyên cứu và tập trung hơn vào việc

phân loại khả năng trả lời của câu hỏi.

Chúng tôi đã tập trung nghiên cứu vào mô hình Trình đọc hồi tưởng Day là một

mô hình được công bố vào năm 2020 và đạt được kết quả state-of-the-art đối với một

số bài toán Đọc hiểu tự động trên tiếng Anh Thêm vào đó, chúng tôi còn nghiên cứu thêm về phương pháp Tích hợp thông tin ngữ nghĩa, đây là phương pháp tận dụng

các nhãn của nhiệm vụ Gán nhãn vai nghĩa và tích hợp chúng vào mô hình biểu diễn

ngôn ngữ được đào tạo trước để thu được một biểu diễn đầu ra có chứa cả ngữ cảnh

và ngữ nghĩa của câu.

Trong phạm vi khóa luận này, chúng tôi tiến hành xây dựng mô hình Trình đọc hồi tưởng sử dụng mô hình Tích hợp thông tin ngữ nghĩa BERT làm biểu diễn ngôn

ngữ cho tác vụ phân loại trong Trình đọc hồi tưởng Chúng tôi sử dụng bộ dữ liệu

Đọc hiểu tự động ViQuAD2.0 của VLSP 2021, được kế thừa và cải thiện từ bộ dữ

liệu ViQuADvI.0.

iv

Trang 7

MỤC LỤC

Danh sách hội đồng bảo vệ khóa luận i

Lời cam đoan ii

Lời cảm ơn Hi

Tom tat iv

Muc luc v

Danh mục các bang viii

Danh mục các hình vẽ và đồ thị ix

Danh mục các ký hiệu va chữ viết tắt x

Chương 1 Mở đầu 1

11 Đặtvấnđề Ốc Q HQ xo 2

1.2 Mục tiêu khóa luận 4

1.3 Đối tượng và phạm vi nghiên cứu - 5

143.1 Đối tượng nghiéncttu 5

1.3.2 Pham vinghiêncứu - 5

14 Kết quả của đề tài eee 6 1.5 Cấu trúc khóa luận cSẶSSV 6 Chương 2 Tổng quan § 2.1 Bài toán Đọc hiểu tự động §

2.11 Môtảbàitoán ẶẶẶẶ 9 2.1.2 Khókhăn QQ QQ Q eee 10 2.1.2.1 Sự mơ hồ của ngôn ngữ - 1

2.1.2.2 Kỹ năng suy luận và nhận thức thông thường 12

2.1.2.3 Những câu hỏi dé gây nhằm lẫn 12

2.13 Những nghiên cứu liên quan 13

2.2 Bài toán Gan nhãn vai nghĩa 15

Trang 8

MỤC LỤC

2.2.1 Môtđbàitoán ẶẶ ee 16

2.2.2 Những nghiên cứu liên quan 18

Chương 3 Cơ sở lý thuyết 20 3.1 Mạng nơ-ron (NeuralNetwork) - 20

3.1.1 Mô hình mạng nơ-ron nhân tạo(ANN) 21

3.1.2 Mô hình mạng nơron hồi quy (Recurrent Neural Network -RNN) QQ ee 22 3.1.3 Nút hdi tiếp có cổng (Gated Recurrent Unit-GRU) 24

3.2 TransfOomers Ặ Ặ Q Q Q Q Q H 25 3.3 Tổng quan mô hình BERT - 26

3.3.1 Gidithidu Ặ Q.0 Q He 26 3.3.2 Kiến túc mOhinh BERT 27

3.3.2.1 Mô hình BERT đào tạo trước 28

3.3.2.2 Tinh chỉnh mô hình BERT 29

3.3.3 Một số biến thể của BERT 30

3/1 (NGHERTIa SÃ / - 30

33.32 XLM-RoBERTa 30

3.3.3.3 PhoBERT 31

Chương 4 Mô hình cho bài toán Đọc hiểu tự động 32 4.1 Mô hình Đọc hiểu tự động cơ s6- Baseline 32

4.2 Mô hình Trình đọc hồi tưởng 34

4.2.1 Mô-đun phân loại 35

4.2.2 Mô đun đọc chuyênsâu 36

4.2.3 Xác minh cuối cùng 2 0.0 ee 37 4.3 Mô hình Tích hợp thông tin ngữ nghĩa BERT 38

4.3.1 Gán nhãn vainghĩa 38

43.2 Mãhóa Q Q Q Q Q HQ nh va 40 4.3.2.1 Nhúng ngữ cảnh (Contextual Embedding) 40

4.3.2.2 Nhung ngữ nghĩa (Semantic Embedding) 40

4.3.3 Tíchhợp ee eee 41

vi

Trang 9

MỤC LỤC

Chương 5 Thí nghiệm và kết quả

5.1 Bộ dữliệu

5.11 UIT-ViQuAD 5.1.2 LORELEI 5.2 Phương pháp đánh giá

5.2.1 Flscore

5.22 ExactMatch(EM)

5.3 Cài đặt thí nghiệm.

5.3.1 Mô hình Trinh đọc hồi tưởng

5.3.2 Kết hợp Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ

nghĩa vào Trình đọc hồi tưởng

ưởng với mô-đun phân loại tích hợp thông tin

Chương 6 Kết luận và hướng phát triển

6.1 Kếtluận Q.2 ee ee

Chương 7 Công bố khoa học

Tài liệu tham khảo

in

BR awonrnn

>

49 5

52 52

52

54 64

vii

Trang 10

21

22

2.3

2.4

4.1

5.1

5.2

5.3

5.4

5.5

5.6

DANH MUC CAC BANG

Ví dụ về các nhãn vai nghĩa

-Vi dụ về câu hỏi trả lời được và không trả lời được .

Vi dụ về những câu hỏi dé gây nhằm lẫn

Một số nhãn được sử dụng trong gán nhãn vai nghĩa

Vi dụ về cách gan nhãn vai nghĩa theo dạng BIO

Vi dụ về phương pháp xử lý đầu ra Heuristic

Số lượng dữ liệu để huấn luyện và đánh giá mô hình

Danh sách các thành phần và các nhãn được gán trong từng thành Kết quả các mô hình Đọc hiểu tự động Trình đọc hồi tưởng + ngữ nghĩa (CLS) biểu thị cho việc sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của mô hình Trình đọc hồi tưởng ẤN ¬am - gr /

Kết quả mô hình Trình đọc hồi tưởng trên dữ liệu ViQuAD2.0

Kết quả khi sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa trong mô-đun phân loại của Trình đọc hồi tưởng

Kết quả của mô hình Gan nhãn vai nghĩa trên bộ dữ liệu LORELEI Kết quả các mô hình Đọc hiểu tự động trên tập đánh giá khác Trình đọc hôi tưởng + ngữ nghĩa (CLS) biểu thị cho việc sử dụng mô hình ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của mô hình Trình đọc hồi

tưởng -viii

43

48 49

Trang 11

3.2

3.3

3.4

3.5

3.6

3.7

4.1

4.2

4.3

4.4

4.5

4.6

5.1

DANH MỤC CÁC HÌNH VE VA ĐỒ THỊ

Một tế bào nơ-ron thần kinh cơ bản 20

Mô hình mạng nơ-ron nhan tao 21

Minh họa kiến trúc mô hình mạng nơ-ron hồi quy 23

Minh họa kiến trúc Nút hồi tiếp có cổng (GRU) 24

Kiến trúc Transformers[66] 26

Tổng quan quá trình tiền huấn luyện và tinh chỉnh mô hình BERT [3] 27 Sơ đồ kiến trúc BERT theo tac vụ MLM 28

Tổng quan mô hình Đọc hiểu tự động cơsở 33

Tổng quan mô hình Trình đọc hồi tưởng 35

Tổng quan về mô hình tích hợp ngữ nghĩa BERT-SemBERT 39

Chi tiết quá trình Nhúng ngữ nghĩa 39

Chi tiết quá trình Nhúng ngữ nghĩa 41

Chi tiết quá trình Tíchhợp - 42

Quá trình kết hợp Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ nghĩa vào mô-đun phân loại của Trình đọc hồi tưởng Gồm hai quá

trình: 1) Huấn luyện một mô hình Gán nhãn vai nghĩa, 2) Kết hợp

Mô hình biểu diễn ngôn ngữ tích hợp thông tin ngữ nghĩa vào Trình

1X

Trang 12

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

MRC Machine Reading Comprehesion

QA Question Answering

SRL Semantic Role Labling

VLSP Vietnamese Language and Speech Processing

PrLMs Pre-Trained Language Models

BERT Bidirectional Encoder Representations

from Transformers

SemBERT Semantic-aware BERT

CNN Convolutional Neural Network

GRU Gated Recurrent Unit

EM Exact Match

Trang 13

Chương 1 MỞ ĐẦU

Một trong những mong muốn mãnh liệt, xuất hiện từ rất sớm của các nhà khoa

học máy tính nói chung và trí tuệ nhân tạo nói riêng là xây dựng thành công các hệ

thống, chương trình máy tính có khả năng giao tiếp với con người thông qua ngôn

ngữ tự nhiên, tức thứ ngôn ngữ con người sử dụng hàng ngày thay vì các ngôn ngữ lập trình hay ngôn ngữ máy bậc thấp.

Xử lý ngôn ngữ tự nhiên nhằm giải quyết van đề hiểu và tạo ra ngôn ngữ tự nhiên

Ngôn ngữ tự nhiên là viên ngọc quý của trí tuệ nhân tạo Đó là một trong những

khả năng quan trọng nhất của máy tính, nhưng cũng là một hướng nghiên cứu đầy

thách thức Mỗi ngôn ngữ của con người đều có ngữ pháp riêng do các cách sử dụng

khác nhau, cùng với các yêu tố như phương ngữ và thành ngữ, các dạng ngôn ngữ

có nhiều biến thể Những biến thể này thường không ảnh hưởng nhiều vào giao tiếpgiữa con người với con người, nhưng đối với máy tính lại là một thách thức lớn để

máy tính có thể hiểu Điều này là do kiến trúc máy tính Von Neumann hiện tại có

khả năng xử lý thông tin tốt với các quy tắc rõ ràng, nhưng lại kém khả năng xử lý

các dạng thông tin liên tục phát triển.

Những năm qua, các nhà nghiên cứu đã đề xuất và phát triển nhiều phương pháp,

từ các kỹ thuật ngôn ngữ dựa trên quy tắc đến các mô hình dựa trên máy học thống

kê Trong những năm gan đây, các nhà nghiên cứu đã phát triển các mô hình học sâuend-to-end để xử lý ngôn ngữ tự nhiên, bao gồm nhúng từ, cơ chế chú ý, kiến trúc

bộ mã hóa va gần đây là các mô hình đào tạo trước [1, 2, 3, 4, 5, 6] Những kỹ thuật

này đã cải thiện đáng kể khả năng hiểu văn bản của các mô hình và mang lại những

ý tưởng mới cho xử lý ngôn ngữ tự nhiên.

Đọc hiểu tự động là một trong những chủ dé nghiên cứu tiên tiến và phổ biến

nhất trong xử lý ngôn ngữ tự nhiên Đọc là phương tiện cơ bản để mọi người có

được thông tin, không đọc thì con người không thể hiểu và nắm bắt được thông tin

Đã có nhiều chatbot trên thị trường, nhưng mọi người thường thấy chúng phản hồi

không chính xác Lý do là công nghệ hiện tại là cách tiếp cận dựa trên đối sánh văn

bản Vì vậy, chatbot không thực sự hiểu ý của mọi người Như chúng ta đã biết, con

người giao tiếp với nhau bằng ngữ cảnh, do đó chúng ta có thể dễ dàng hiểu những

gi người khác đang nói về thông qua việc tưởng tượng

Trang 14

Ngoài những giá trị nghiên cứu của nó, đọc hiểu bằng máy còn có nhiều ứng

dụng có ý nghĩa Điển hình như tóm tắt bài báo do máy tạo ra có thể tiết kiệm rất

nhiều thời gian đọc toàn văn và hệ thống QA có thể tìm chính xác câu trả lời cho

các câu hỏi của người dùng từ một số lượng lớn tài liệu Khả năng đọc hiểu của máycũng là cơ sở để phát triển dịch máy và hội thoại, có giá trị lớn đối với các dịch vụ

có máy tính hỗ trợ.

1.1 Đặt vấn đề

Đọc hiểu tự động nhằm mục đích dạy máy trả lời câu hỏi sau khi hiểu các đoạn

văn đã cho, đây là mục tiêu cơ bản và lâu dài của việc hiểu ngôn ngữ tự nhiên Đọc

hiểu tự động có nhiều ứng dụng quan trọng như hệ thống trả lời câu hỏi và hộp thoại

tự động Các nhiệm vụ trả lời câu hỏi đòi hỏi khả năng đọc và hiểu ở mức độ cao, do

đó yêu cầu mức độ hiểu biết về ngôn ngữ của mô hình lớn Đây là lý do tại sao các

nhiệm vụ trả lời câu hỏi thường sử dụng để đánh giá các mô hình ngôn ngữ trong các nhiệm vụ hiểu ngôn ngữ khác nhau.

Các hệ thống đọc hiểu tự động ban đầu [7, 8, 9, 10, 11] được thiết kế trên một

giả thuyết rằng tất cả các câu hỏi đều có thể được trả lời dựa trên đoạn văn đã cho,

trong thực tế điều này không phải lúc nào cũng đúng với các trường hợp Sự tiến

bộ gần đây của nhiệm vụ đọc hiểu văn bản đã yêu cầu rằng mô hình phải có khả

năng phân biệt những câu hỏi không thể trả lời được (là những câu hỏi có câu trả lời

không được đề cập trong đoạn văn) để tránh đưa ra những câu trả lời không hợp lý

Điều đó buộc mô hình không chỉ phải chỉ học cách nắm bắt ngữ nghĩa của đoạn văn

và đưa ra câu trả lời cho các câu hỏi mà phải học cách xác định những câu hỏi có thể

trả lời và các câu hỏi không thể trả lời Để giải quyết tốt được van dé này quả thật làmột thách thức lớn đối với mô hình Đọc hiểu tự động

Đây cũng là một trong những vấn đề nan giải mà VLSP 2021 share-task MRC yêucầu các nhóm tham gia phải giải quyết Trong Hội thảo quốc tế về xử lý giọng nói và

2

Trang 15

1.1 ĐẶT VẤN DE

ngôn ngữ tiếng Việt (VLSP) 2021, Vietnamese Machine Reading Comprehension

[12] yêu cầu người tham gia xây dựng mô hình MRC tiếng Việt từ bộ dữ liệu cho

trước bao gồm các câu hỏi có câu trả lời và các câu hỏi không thể trả lời được đặtbởi các chuyên gia ngôn ngữ để trông giống với những câu hỏi có thể trả lời được

Để mô hình có thể hoạt động tốt trên bộ dữ liệu này, hệ thống MRC không chỉ phải

trả lời các câu hỏi có câu trả lời mà còn phải xác định những câu hỏi không có câu trả và không trả lời.

Để phục vụ việc phân loại khả năng trả lời của câu hỏi trong VLSP 2021

share-task: MRC, chúng tôi đã phân tích kết quả trên tập thử nghiệm của cuộc thi và nhậnkết quả dự đoán của mô hình tồn tại trường hợp có nhiều câu trả lời giống nhau trảlời cho các câu hỏi khác nhau về nghĩa Sau khi đọc và so sánh các câu trả lời đó với

các câu trả lời đúng chúng tôi thấy trong số các câu trả lời giống nhau đó chỉ có từ 1-2 câu trả lời là đúng thật.

Vì vậy việc kiểm chứng các câu trả lời là thật sự cần thiết Chúng tôi đã đề xuất

sử dụng phương pháp xử lý đầu ra, bản chất của việc sử dụng phương pháp này giốngnhư việc cho máy xác nhận lại câu trả lời để đưa ra dự đoán cuối cùng nhằm giảiquyết van dé phân loại các trường hợp có nhiều câu trả lời giống nhau trả lời cho cáccâu hỏi khác nhau về nghĩa, việc xử lý đầu ra đã ban đầu đã đạt được kết quả cao,tăng 3-4% so với mô hình cơ sở (mô hình ngôn ngữ được đào tạo trước) ban đầu

Thông qua việc sử dụng phương pháp xử lý đầu ra này chúng tôi thấy rằng các

mô hình cơ sở chưa hoạt động tốt trong việc phân loại khả năng trả lời của câu hỏi

và việc xác định khả trả lời của một câu hỏi rất là quan trọng vì nó ảnh hưởng lớnđến điểm đánh giá của một mô hình đọc hiểu

Ngoài ra, trong quá trình tìm hiểu các phương pháp để cải thiện việc phân loại

khả năng trả lời câu hỏi của mô hình chúng tôi nhận thấy các nhãn vai nghĩa có thể

giúp mô hình đưa ra các dự đoán về câu trả lời chính xác và dé dàng hơn Xét ví dụ

như bảng 1.1.

Ví dụ trên chúng ta có thể thấy chúng ta có thể dựa vào các nhãn trong câu để dễ

dàng xác định được khả năng trả lời và câu trả lời của câu hỏi Tuy vậy việc sử dụng nhãn vai nghĩa để phục vụ bài toán QA hay MRC hiện nay chưa có nhiều nghiên cứu

về điều này Vì vậy trong khóa luận lần này chúng tôi sẽ thử nghiệm việc sử dụng

Trang 16

nhãn vai nghĩa vào trong bài toán Đọc hiểu tự động tiếng Việt Chúng tôi sử dụng

nhãn vai nghĩa để giúp mô hình có thể hiểu rõ hơn về ngữ nghĩa của câu, hỗ trợ cho

quá trình học ngữ cảnh và biểu diễn ngôn ngữ.

Trong khóa luận lần này chúng tôi sẽ tập trung đi giải quyết các vấn đề sau:

e Chứng minh việc xác định khả năng trả lời của câu hỏi rất quan trọng đối với

bài toán Đọc hiểu tự động.

e Tìm kiếm một phương pháp để giải quyết tốt van đề xác định khả năng trả lời

của câu hỏi

e Thử nghiệm thêm một số phương pháp để cải thiện việc phân loại đó.

1.2 Mục tiêu khóa luận

Trong khóa luận lần này chúng tôi sé đi giải quyết những vấn dé đã được nêu ở phan 1.1 Về khía cạnh học thuật chúng tôi đi xây dựng một mô hình Đọc hiểu tự

động có thể giải quyết tốt việc phân loại khả năng trả lời của câu hỏi một cách tổngquát Từ đó chúng tôi dé ra mục tiêu của nghiên cứu lần này là:

e Nghiên cứu, đánh giá mô hình Trình đọc hồi tưởng đã đạt được kết quả

state-of-the-art trên tiếng Anh trong nhiệm vụ Đọc hiểu tự động.

e Chúng tôi sẽ xây dựng lại mô hình Đọc hiểu tự động cơ sở và mô hình Đọc

hiểu được chúng tôi sử dụng trong VLSP 2021 share-task:MRC Dựa vào hai

mô hình này va mô hình Trình đọc hồi tưởng chúng tôi sẽ đi đánh giá, nhận xét

Trang 17

1.3 ĐỐI TƯỢNG VA PHAM VI NGHIÊN CỨU

một cách khách quan về tầm quan trọng của phân loại khả năng trả lời trong

Đọc hiểu tự động.

e Thử nghiệm tích hợp phương pháp biểu diễn ngôn ngữ SemBERT vào mô hình

Trình đọc hồi tưởng.

143 Đối tượng và phạm vỉ nghiên cứu

1.3.1 Doi tượng nghiên cứu

Đối tượng nghiên cứu của chúng tôi tập trung vào nghiên cứu mô hình Trình đọc hồitưởng việc để giải quyết vấn đề phân loại khả năng trả lời của câu hỏi trong nhiệm

vụ Đọc hiểu tự động.Chúng tôi thử nghiệm trên các mô hình biểu diễn ngôn ngữ

được đào tạo trước khác nhau như: mBỗERT, XLM-RoBERTa, PhoBERT Ngoài ra,

để các mô hình biểu diễn ngôn ngữ có thể học được cấu trúc ngữ nghĩa của câu phục

vụ việc trả lời câu hỏi chúng tôi sử dụng thêm phương pháp tích hợp thông tin ngữ nghĩa (semantic aware) vào các mô hình ngôn ngữ trên.

1.3.2 Phạm vi nghiên cứu

Trong phạm vi khóa luận này, chúng tôi tiến hành xây dựng hệ thống Đọc hiểu tự

động trên bộ dữ liệu tiếng Việt Chúng tôi sẽ đánh giá, phân tích các nghiên cứu, thực nghiệm của chúng tôi trên bộ div liệu UIT-ViQuAD2.0, bộ dif liệu nay là được

phát triển và kế thừa từ bộ dữ liệu UIT- ViQuADv1.0 được biết đến rộng rãi trongcộng đồng xử lý ngôn ngữ tự nhiên phát hành năm 2020

Ngoài ra, để thử nghiệm việc tích hợp mô hình thông tin ngữ nghĩa SemBERT

vào Trinh đọc hồi tưởng, chúng tôi sử dụng thêm bộ dữ liệu LORELEI Vietnamese

Representative Language Pack [13] Đối với bộ dit liệu LORELEI Vietnamese

Rep-resentative Language Pack chúng tôi sử dụng lượng dữ liệu đã được Gan nhãn vai

nghĩa vào việc đào tạo mô hình Gán nhãn vai nghĩa tự động nhằm phục vụ cho việc

đào tạo mô hình tích hợp thông tin ngữ nghĩa SemBERT.

Về phần nghiên cứu thực nghiệm, nhận thấy trong những năm qua chưa có nhiều

nghiên cứu về Đọc hiểu tự động tiếng Việt vì thế chúng tôi tiến hành nghiên cứu vàcài đặt lại mô hình Trình đọc hồi tưởng và dé xuất sử dụng phương pháp tích hợp

Trang 18

CHƯƠNG 1 MO ĐẦU

thông tin ngữ nghĩa (SemBERT) lên bài toán Đọc hiểu tự động Chúng tôi chấp

nhận kết quả dự đoán của mô hình có thể không cao vì đây là một thử nghiệm của chúng tôi để tìm hiểu về sử ảnh hưởng của việc Gán nhãn vai nghĩa lên khả năng đọc hiểu ngôn ngữ của mô hình (cụ thể ở đây chúng tôi lấy bài toán Đọc hiểu tự động để

đánh giá).

1.4 Kết quả của đề tài

Nghiên cứu của chúng tôi đã đạt được kết quả như sau:

e Đưa ra được các dẫn chứng về việc mô hình cơ sở hoạt động không tốt trong

nhiệm vụ phân loại khả năng trả lời của câu hỏi và xác định được tầm quan

trọng của nó trong đọc hiểu tự động.

e Cài đặt, thử nghiệm thành công phương pháp Trình đọc hồi tưởng và thu được

kết tốt trong nhiệm vụ xác định khả năng trả lời của câu hỏi.

e Huấn luyện được một mô hình SLR.

e Kết hợp thành công phương pháp tích hợp thông tin ngữ nghĩa vào mô hình

biểu diễn ngôn ngữ sử dụng cho mô-đun phân loại của Trình đọc hồi tưởng.

1.5 Cấu trúc khóa luận

Bồ cục khóa luận này gồm 6 chương, với các nội dung chính được liệt kê dưới đây:

Chương 1: Mở đầu Đặt vấn đề, trình bày lý do thực hiện khóa luận, đề tài của

khóa luận, mục tiêu, đối tượng và phạm vi nghiên cứu của khóa luận, kết quả đạt

được của khóa luận.

Chương 2: Tổng quan Chúng tôi giới thiệu về hai bài toán chính chúng tôi

nghiên cứu trong khóa luận này là Đọc hiểu tự động và Gán nhãn vai nghĩa, thêm

vào đó chúng tôi sẽ trình bày khó khăn và các nghiên cứu của từng bài toán.

Chương 3: Cơ sở lý thuyết Trình bày các cơ sở lý thuyết liên quan tới các

phương pháp mà chúng tôi sử dụng trong mô hình Đọc hiểu tự động

Chương 4: Mô hình Đọc hiểu tự động Trong chương này, chúng tôi tập trung

trình bày kiến trúc mô hình cơ sở và mô hình Trình đọc hồi tưởng Thêm vào đó,

6

Trang 19

1.5 CẤU TRÚC KHÓA LUẬN

chúng tôi sẽ giới thiệu phương pháp Tích hợp thông tin ngữ nghĩa BERT (SemBERT)

cho bài toán Đọc hiểu tự động.

Chương 5: Thí nghiệm và kết quả Trình bay các bước cài đặt mô hình đã dé

xuất, giới thiệu về bộ dữ liệu và những khó khăn, thách thức của bộ dữ liệu Cuốicùng, đưa ra kết quả thu được và phân tích, đánh giá dựa trên các kết quả đó

Chương 6: Kết luận và hướng phát triển Trong phần cuối cùng, chúng tôi

tổng kết những điều đã đạt được trong khóa luận này, chỉ ra những điểm hạn chế và

đưa ra hướng phát triển trong tương lai.

Trang 20

Chương 2 TỔNG QUAN

Trong phần này chúng tôi giới thiệu về hai bài toán là Đọc hiểu tự động và Gán

nhãn vai nghĩa Cùng với đó chúng tôi sẽ trình bày những khó khăn, thách thức của

bài toán Đọc hiểu tự động và Gán nhãn vai nghĩa trong xử lý ngôn ngữ tự nhiên đang

gặp phải Cuối cùng là giới thiệu một số công trình nghiên cứu có ảnh hưởng lớn

dén hai bài toán trên.

2.1 Bài toán Doc hiểu tự động

Với rất nhiều dữ liệu văn bản được tạo ra từ các ngành khác nhau, cách xử lý

dữ liệu thủ công theo kiểu truyền thống đã trở thành nút thắt cổ chai của nhiều ứng

dụng do tốc độ chậm và chi phí lớn Do đó, công nghệ Đọc hiểu tự động có thé tự

động xử lý và phân tích dữ liệu văn bản cũng như trích xuất các thông tin ngữ nghĩa

từ nó, ngày càng trở nên phổ biến hơn Ví dụ như công cụ tìm kiếm truyền thống chỉ

có thể trả về tài liệu liên quan đến truy vấn của người dùng, trong khi mô hình Đọc

hiểu tự động có thể xác định chính xác câu trả lời trong tài liệu, do đó cải thiện trải

ra nguyên nhân có thể xảy ra và đưa ra chẩn đoán Tóm lại, Đọc hiểu tự động có thể

giúp tiết kiệm nhân lực và thời gian to lớn trong các lĩnh vực yêu cầu xử lý và phân

tích tự động một lượng lớn văn bản.

Ngay cả khi chất lượng của một mô hình đọc hiểu không hoàn toàn đạt đến trình

độ của con người, nó có thể tiết kiệm chi phí bằng cách giải quyết một phần khônggian của vấn dé Ví du, trong dịch vụ khách hàng, máy tính có thể giải quyết cácvan dé thường gặp nhất với độ chính xác cao, trong khi phải nhờ đến nhân viên chocác van dé còn lại Do các ứng dụng rộng rãi của nó trong các lĩnh vực khác nhau,MRC đã trở thành một trong những hướng phổ biến nhất trong nghiên cứu Trí tuệ

nhân tạo tiên tiến.

Trang 21

2.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG

Đọc hiểu tự động tương tự như nhiệm vụ đọc hiểu của con người Do đó, nó

cần được đánh giá bằng khả năng hiểu nội dung của các bài viết mẫu Không giống

như các van dé toán học, đọc hiểu yêu cầu các thước đo đánh giá cụ thể để hiểu ngữ

nghĩa Ai cũng biết rằng việc đánh giá khả năng đọc hiểu của con người được thựchiện dưới hình thức câu hỏi và trả lời, trong đó người đọc được yêu cầu trả lời cáccâu hỏi liên quan đến đoạn văn Vì vậy việc đánh giá mô hình Đọc hiểu tự động có

thể có cùng một dạng: mô hình trả lời các câu hỏi liên quan của đoạn văn và được

đánh giá bằng chất lượng câu trả lời

Tiêu chí đánh giá phụ thuộc vào hình thức trả lời Dưới đây là một số mẫu câutrả lời phổ biến:

e Multiple choice, nghĩa là, mô hình cần chọn câu trả lời đúng từ một số tùy

chọn.

e Trích xuât, nghĩa là, câu trả lời bị ràng buộc là một đoạn văn bản trong bài

việt, vì vậy mô hình cân đánh dâu vị trí bắt đầu và kêt thúc chính xác của câu

trả lời trong bài viết

e Tự do, nghĩa là, không có giới hạn về văn bản của câu trả lời, cho phép mô

hình tự do tạo ra các câu trả lời.

e Kiểm tra Cloze, nghĩa là, một số từ khóa nhất định bị xóa khỏi bài viết và mô

hình cần điền từ hoặc cụm từ chính xác vào chỗ trống.

Ngoài ra, một số bộ dữ liệu thiết kế các câu hỏi “không thể trả lời được”, tức là

câu hỏi không có câu trả lời phù hợp trong đoạn văn Trong trường hợp này, mô hình

sẽ xuất ra câu trả lời là rỗng.

2.1.1 Mô ta bài toán

Trong nghiên cứu này chúng tôi dựa theo cách trả lời trích xuất để đánh giá mô

hình Đọc hiểu tự động của chúng tôi Cụ thể, bài toán của chúng tôi trong nghiên cứu này có thể được phát biểu như sau:

e Đâu vào: Đoạn văn và câu hỏi.

Trang 22

CHƯƠNG 2 TỔNG QUAN

e Đầu ra: Câu trả lời của câu hỏi là một khoảng trong đoạn văn hoặc là rỗng đối

với câu hỏi không trả lời được.

Với các bộ dữ liệu có chứa những câu hỏi không trả lời được, mô hình sẽ dự

đoán thêm một nhãn “is_impossible”, nếu câu hỏi có thể trả lời được thì đầu ra sẽ

là nhãn “is_impossible” mang giá trị là False cùng với câu trả lời của câu hỏi đó Ngược lại, đối với những câu hỏi có không thể trả lời, đầu ra của mô hình sẽ là nhãn

“is_impossible” mang giá tri True và câu trả lời là rỗng Cu thể, xét ví dụ bên dưới:

Doan van: Sao Kim hay Kim tinh, còn gọi là sao Thái Bạch, Thái Bạch Kim

tinh, là hành tính thứ hai trong hệ Mặt Trời, tự quay quanh nó với chu kỳ 224,7

ngày Trái Đất Xếp sau Mặt Trăng, nó là thiên thể tự nhiên sáng nhất trong bầu

trời tối, với cap sao biểu kiến bằng -4.6, đủ sáng để tạo nên bóng trên mặt nước

Bởi vì Sao Kim là hành tinh phía trong tính từ Trái Đất, nó không bao giờ xuất

hiện trên bầu trời mà quá xa Mặt Trời: góc ly giác đạt cực đại bằng 47,8 Sao

Kim đạt độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh, do vậy

mà dân gian còn gọi là sao Hôm, khi hành tinh nay mọc lên lúc hoàng hôn, và

sao Mai, khi hành tinh nay mọc lên lúc bình minh.

Câu hỏi: Tại sao sao Kim được gọi là sao Hôm?

Câu trả lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh

is_impossible: False

Câu hoi: Tại sao Mặt Trời được gọi là sao Hôm?

Câu trả lời: []

is_impossible: True

Bảng 2.1 Ví dụ về câu hỏi tra lời được va không trả lời được.

Đối với câu hỏi thứ nhất: “Tại sao sao Kim được gọi là sao Hôm?” kết quả dự

đoán sé là “is_impossible: False” và câu trả lời tương ứng với câu hỏi đó “Câu trả

lời: Độ sáng lớn nhất ngay sát thời điểm hoàng hôn hoặc bình minh” Và ngược lạivới câu hỏi thứ hai: “Tại sao Mặt Trời được gọi là sao Hôm?” kết quả dự đoán sẽ là

“is_impossible: True” và “Câu trả lời: []” Ở đây hai dấu ngoặc vuông tượng trưng

cho đó là một câu trả lời rỗng.

2.1.2 Kho khan

Mặc dù chúng ta đã đạt được những thành tựu đáng kể trong nhiều nhiệm vu xử

lý ngôn ngữ tự nhiên, nhưng vẫn còn nhiều van dé chưa được giải quyết tốt, bao gồm

cả sự hiểu biết về cấu trúc ngôn ngữ và ngữ nghĩa Nhiều vấn dé chưa được giải

10

Trang 23

2.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG

quyết này cũng liên quan mật thiết đến Đọc hiểu tự động

Dưới đây chúng tôi sẽ trình bày một số van dé, khó khăn của Đọc hiểu tự động

nói riêng và xử lý ngôn ngữ nói chung đang gặp phải:

2.1.2.1 Su mơ hồ của ngôn ngữ

Một trong những đặc điểm của ngôn ngữ là nó có thể diễn đạt những ý tưởng phức

tạp với những câu nói ngắn gọn Do đó, thường có sự mơ hồ trong một câu, tức là

có nhiều cách hiểu hợp lý Dưới đây là một số ví dụ.

Ví dụ 1: Cá đã sẵn sàng để ăn.

Câu trên có thể có nghĩa là “cá có thể bắt đầu ăn” hoặc “ca đã sẵn sàng để cung

cấp cho một người nào đó để ăn” Sự mơ hồ đến từ các cách hiểu khác nhau về vai

trò cua từ “cá” trong câu: phụ thuộc vào ý nghĩa của hành động "an" trong câu là

chủ động hay bị động.

Vi dụ 2: Tôi nhìn thay một người đàn ông trên đôi với kính viễn vọng.

Kính viễn vọng có thể nằm trong tay tôi (tôi sử dụng kính viễn vọng và thấy một

người đàn ông) hoặc người đàn ông (tôi đã nhìn thấy người đàn ông và kính viễn

vọng của anh ta), vì cả hai nghĩa của câu đều hợp lệ.

Đây chỉ là một số trong vô số ví dụ về sự mơ hồ trong ngôn ngữ Ngay cả đốivới con người, rất khó để đánh giá ý định thực sự của người nói Tuy nhiên, nếu có

đủ thông tin theo ngữ cảnh, hầu hết sự mơ hồ có thể được loại bỏ Ví dụ 1, nếu mộtngười đầu bếp nói "cá đã sẵn sàng để ăn", chúng ta sẽ hiểu rằng ở đây cá đóng vai

trò là món ăn và đã sẵn sàng để ăn.

Nhiều mô hình NLP vẫn gặp khó khăn trong việc hiểu ngữ nghĩa của ngữ cảnh

Bằng cách phân tích kết quả của các mô hình khác nhau về các nhiệm vụ như MRC,các nhà nghiên cứu nhận thấy rằng các mô hình hiện có phần lớn phụ thuộc vào đối

sánh từ khóa hoặc cụm từ, điều này hạn chế đáng kể khả năng hiểu ngữ cảnh và xử

lý sự mơ hồ Đó là lý do chúng tôi đề xuất sử dụng mô hình tích hợp thông tin ngữ

nghĩa (SemBERT) lên bài toán Đọc hiểu tự động trong nghiên cứu này Đó là lý do

chúng tôi đề xuất sử dụng mô hình tích hợp thông tin ngữ nghĩa (SemBERT) lên bàitoán Đọc hiểu tự động trong nghiên cứu này.Chúng tôi tin rằng việc sử dụng tích

hợp thông tin ngữ nghĩa sẽ giải quyết được phần nào vấn đề này.

11

Trang 24

CHƯƠNG 2 TỔNG QUAN

2.1.2.2 Kỹ năng suy luận và nhận thức thông thường

Trong nhiều trường hợp, con người có thể suy luận từ các cuộc trò chuyện để đưa rakết luận mà không cần giải thích rõ ràng Dưới đây là một đoạn hội thoại ví dụ về

Tổng đài viên: Vâng , Anh muốn bay khi nào a?

Khách hàng: A, tôi sẽ đến Ha Nội để tham dự một hội nghị, diễn ra từ ngày 6

đến ngày 9.

Tổng đài viên: Vâng, em gửi anh thông tin chuyến bay thẳng từ Tp.Hồ Chi Minh

đến Hà Nội vào ngày 5 tháng 5,

Ở đây, khách hàng không trả lời trực tiếp câu hỏi của nhân viên về ngày khởihành Thay vào đó, anh ta đưa ra ngày bắt đầu và kết thúc của hội nghị mà anh ta sẽtham dự Vì chuyến bay phải đến Hà Nội trước khi cuộc họp bắt đầu, đại lý thôngbáo rằng ngày khởi hành là ngày 5 tháng 5 Và nếu khách hàng cũng cần một chuyến

bay trở lại Tp.Hồ Chí Minh từ Hà Nội, nhân viên nên cung cấp thông tin về các

chuyến bay khởi hành trong tối ngày 9/5 hoặc ngày 10/5 Do đó, một mô hình dịch

vụ khách hàng tự động cần phải suy ra giống như ngày khởi hành từ các câu trước

đó Suy luận này đòi hỏi mô hình phải mang một ý thức rằng chuyến bay phải đến

trước hội nghị Trong những năm gần đây, đã có nhiều nỗ lực trong việc áp dụng

lý lẽ và nhận thức thông thường vào NLP Tuy nhiên, đó vẫn là một câu hỏi mở về

việc làm thế nào để trang bị cho một mô hình có tầm nhìn quy mô lớn và khả năng

lý luận hiệu quả.

2.1.2.3 Những câu hỏi dễ gây nhầm lẫn

Ngoài hai thách thức nói trên trong quá trình tham gia VLSP, chúng tôi đã đi

tiến hành phân tích kết quả dự đoán của mô hình và nhận ra trong bộ dữ liệu ViQuAD2.0 có tồn tại một số câu hỏi khó dễ gây nhầm lẫn cho mô hình Thường

UIT-12

Trang 25

2.1 BÀI TOÁN ĐỌC HIỂU TỰ ĐỘNG

đối với những câu hỏi này mô hình sẽ dự đoán ra những câu trả lời giống nhau vàchỉ có một đến hai câu trả lời đó cho kết quả đúng hầu hết các câu còn lại là không

có câu trả lời Dưới đây là một số ví dụ về những câu hỏi khó dễ gây nhầm lẫn.

Đoạn văn: Đoạn văn: Theo như biên niên sử về triều đại của Henry viết bởi

Roger Hoveden thì phần lớn lâu đài thuộc sở hữu của những người nổi loạn phải

được trả lại trạng thái ban đầu 15 ngày trước khi cuộc chiến nổ ra, trong khi

những tòa lâu đài khác sẽ bị san bằng Nếu xét trên việc lâu đài thời bấy giờ

thường được xây bằng đá và nhiều nam tước đã mở rộng hoặc củng cố lại lâu

đài của mình, đây không phải là điều dễ dàng

Câu hỏi: Những lâu đài thời bây giờ thường được xây bằng nguyên liệu gì ?

Câu trả lời: Thường được xây bằng đá

Câu hỏi: Những lâu đài thời bây giờ thường được xây bằng nguyên liệu gì ?

Câu trả lời: []

Bảng 2.2 Ví dụ về những câu hỏi dễ gây nhầm lẫn

Như ví dụ trên ta thấy hai câu hỏi có nội dung và cách diễn đạt gần như là tươngđồng nhau chỉ khác ở duy nhất một từ, tuy vậy một trong hai câu đó chỉ có duy nhất

một câu có thể trả lời được Phương pháp xử lý đầu ra của chúng tôi đã giải quyết

phần nào được vấn đề nói trên, tuy nhiên để mô hình Đọc hiểu tự động có thể tự học

và xác định được khả năng trả lời của các câu hỏi này vẫn là một nhiệm vụ tương

đối là khó khăn

Trên tiếng Anh, mô hình Trình đọc hồi tưởng đã giải quyết tốt van dé phân loại

các câu hỏi không thể trả lời được, vì thế trong khóa luận lần này chúng tôi quyếtđịnh áp dụng phương pháp này cho Đọc hiểu tự động tiếng Việt, hi vọng sẽ phầnnào giải quyết được khó khăn trên Ngoài ra chúng tôi cũng hi vọng ý tưởng tích hợpphương pháp biểu diễn ngôn ngữ SemBERT vào mô hình Trình đọc hồi tưởng của

chúng tôi cũng sẽ giúp ích phần nào khả năng phân loại các câu trên.

2.1.3 Những nghiên cứu liên quan

Đọc hiểu tự động là một hướng quan trong trong xử lý ngôn ngữ tự nhiên (NLP).

Xử lý ngôn ngữ tự nhiên phân tích các mẫu và cấu trúc của ngôn ngữ con người, với mục tiêu thiết kế các mô hình máy tính để hiểu ngôn ngữ và giao tiếp với con người.

Lịch sử của xử lý ngôn ngữ tự nhiên có thể bắt nguồn từ sự ra đời của trí tuệ nhân

13

Trang 26

CHƯƠNG 2 TỔNG QUAN

tạo Qua nhiều thập kỷ, chúng ta đã đạt được những tiến bộ to lớn trong nhiều lĩnh

vực xử lý ngôn ngữ tự nhiên, chẳng hạn như hiểu biết và tạo lập, điều này đã đặt nền

tảng vững chắc cho nghiên cứu đọc hiểu tự động Dưới đây tôi sẽ trình bày một số

nghiên cứu trước về đọc hiểu tự động.

Các mô hình ngôn ngữ được đào tạo trước (PrLM) như BERT (Devlin và cộng

sự 2019) và XLNet (Yang và cộng sự 2019) đã đạt được thành công trên các nhiệm

vụ xử lý ngôn ngữ tự nhiên khác nhau được biết đến rộng rãi và đóng vai trò như một bộ mã hóa mạnh mẽ [14, 15, 16] Tuy nhiên, việc truyền đạt một lượng lớn kiến thức tổng quát từ kho ngữ liệu vào một mô hình ngôn ngữ học sâu thông qua đào tạo

trước là khá tốn thời gian và đòi hỏi nguồn lực lớn

Gần đây, hầu hết nhà nghiên cứu MRC đều tập trung chủ yếu vào khía cạnh bộ

mã hóa, tức là PrLM (mô hình ngôn ngữ đào tạo trước) học sâu [3, 4, 6], vì các nhà

nghiên cứu có thể đơn giản hóa và dễ dàng hưởng lợi từ một bộ mã hoá Trong khi

đó, người ta ít chú ý đến bộ giải mã (bộ giải mã ở đây là bộ phận dành riêng cho

nhiệm vụ trong hệ thống MRC, chang hạn như tương tác đoạn văn, câu hỏi và xác

minh câu trả lời) của các mô hình MRC [17, 18, 19], mặc dù nó đã được chứng minh

rằng bộ giải mã tốt hơn hoặc cách sử dụng bộ mã hóa tốt hơn vẫn có tác động đáng

kể đến hiệu suất của MRC, bat kể bộ mã hóa đó mạnh đến mức nào [20, 21, 22, 23,

241.

Để giải quyết nhiệm vụ MRC với những câu hỏi không trả lời được hầu hết các

cách xử lý là áp dụng thêm một lớp xác minh câu trả lời, dự đoán khoảng câu trả lời

và xác minh câu trả lời được đào tạo cùng với việc học đa tác vụ Cơ chế xác minh

được triển khai như vậy cũng có thể đơn giản như cài đặt ngưỡng có thể trả lời được

sử dụng rộng rãi bởi các mô hình ngôn ngữ được đào tạo trước (PrLM) đủ mạnh để

nhanh chóng xây dựng trình đọc [3, 25].

Liu và cộng sự [26] đã thêm một mã thông báo từ trống vào ngữ cảnh và thêm

một lớp phân loại đơn giản cho trình đọc Hu và cộng sự [17] sử dụng hai hàm mất

mát phụ trợ là mat mát khoảng trả lời tập trung vào trích xuất câu trả lời và mat mát

không có câu trả lời tập trung vào việc phân loại kha nang trả lời của câu hỏi Tác

giả còn sử dụng thêm một trình xác minh bổ sung để xác thực lại câu trả lời Back

và cộng sự [18] đã phát triển một điểm số hài lòng dựa trên sự chú ý để so sánh các

14

Trang 27

2.2 BÀI TOÁN GAN NHÂN VAI NGHĨA

nhúng câu hỏi với nhúng câu trả lời ứng viên Zhang và cộng sự [27] đã đề xuất một

lớp trình xác minh, là một lớp tuyến tính được áp dụng cho việc nhúng ngữ cảnh có

trọng số theo phân phối bắt đầu và kết thúc trên các đại diện từ ngữ cảnh được nối

với biểu diễn mã thông báo [CLS] cho BERT.

Khác so với các nghiên cứu trước, Trình đọc hồi tưởng lấy cảm hứng từ cách conngười giải quyết các câu hỏi về đọc hiểu, Zhang và cộng sự [2§] đã đề xuất mộttrình đọc hồi tưởng (Retro-Reader) tích hợp hai giai đoạn của chiến lược đọc và xácminh: 1) đọc sơ lược để điều tra các tương tác tổng thể của đoạn văn và câu hỏi,đồng thời đưa ra phán đoán ban đầu; 2) đọc chuyên sâu xác minh câu trả lời và đưa

ra dự đoán cuối cùng Mô hình đọc được đề xuất được đánh giá trên hai bộ dữ liệuđọc hiểu tự động chuẩn là SQUAD 2.0 [12] va NewsQA [29] đã thu được được kết

quả state-of-the-art Và trong nghiên cứu lần này chúng tôi sẽ tập trung vào nghiên cứu mô hình Trình đọc hồi tưởng này để giải quyết vẫn đề phân loại khả năng trả lời

trong bài toán Đọc hiểu tự động tiếng Việt

Các nghiên cứu về Đọc hiểu tiếng cũng đang phát triển rất mạnh mẽ với việc

phát hành các bộ dữ liệu dành riêng cho nhiệm vu này như là UIT-ViNewsQA [29],

UIT-ViQuAD1.0 [30], UIT-ViSQuaD2.0[12] Hơn thé nửa các nghiên cứu về Doc

hiểu tiếng Việt cũng được các nhà nghiên cứu quan tâm đến với nhiều nghiên cứuđược công bố [31, 32, 33, 34]

2.2 Bài toán Gan nhãn vai nghĩa

Các trình phân tích cú pháp mạnh mẽ [35, 36, 37, 38] đã có tác động lớn đến lĩnh

vực xử lý ngôn ngữ tự nhiên trong những năm gần đây Tuy nhiên, các phân tích cú pháp được tạo ra bởi các trình phân tích cú pháp không thể hiểu được thể hiện được

ý nghĩa đầy đủ của các câu được phân tích cú pháp Đặc biệt, họ không nêu rõ "Ai

đã làm gì với ai, và như thế nào, khi nào và ở đâu?" Đối với máy tính để sử dụnghiệu quả thông tin được mã hóa trong văn bản, điều cần thiết là chúng có thể phát

hiện các sự kiện đang được mô tả và những người tham gia sự kiện.

Gan nhãn vai nghĩa lần đầu tiên được Gildea và Jurafsky (2000) [39] khởi xướng

dựa trên dự án gắn nhãn ngữ nghĩa FrameNet [40] và PropBank [41] là một trong

những chương trình ghi nhãn được sử dụng phổ biến nhất cho nhiệm vụ này Điều

15

Trang 28

CHƯƠNG 2 TỔNG QUAN

này liên quan đến hai biến thể: gắn nhãn dựa trên nhịp (span SRL), trong đó cácđối s6 được mô tả là các khoảng từ [42]; [43] và nhãn dựa trên phần đầu (phụ thuộc

SRL).

2.2.1 Mô tả bài toán

Bài toán Gán nhãn vai nghĩa là một bài toán trong xử lý ngôn ngữ tự nhiên bao

gôm hai nhiệm vụ chính:

e Phát hiện các đối ngữ nghĩa liên hệ với vị ngữ hay động từ của câu và phân

loại chúng vào các vai trò riêng Ví dụ, câu "Hương đã bán quyển sách cho

Hùng", bài toán đặt ra là cần nhận ra động từ "bán" là vị từ, "Hương" là người

bán, "quyển sách" là vật được đem bán, và "Hùng" là người mua.

e Đây là một bước quan trọng để hiểu nghĩa của một câu Một biểu diễn ngữ

nghĩa như vậy là dạng trừu tượng bậc cao hơn cây cú pháp Ví dụ, câu "Quyển sách đã được bán bởi Hương cho Hùng" có dạng cú pháp khác, nhưng có cùng

vai trò ngữ nghĩa.

Mục tiêu của bài toán là phân tích ngữ nghĩa nông của các văn bản ngôn ngữ tự nhiên tìm ra cấu trúc vị ngữ - đối số (Predicate - Argument) của câu Trong đó vị ngữ mang ý nghĩa trung tâm của một tình huống được văn bản thể hiện Trong hầu

hết các ngữ nghĩa lý thuyết, vị ngữ là động từ, danh từ nguyên thể và một số dạngđộng từ khác Đối số là những cum từ điền vào các chỗ trống nghĩa của một tình

huống được vị ngữ diễn đạt và xác định các chi tiết quan trọng của nó Họ trả lời

những câu hỏi như “ai?”, “Đã làm gì?”, “Cho ai?”, “Với cái gì?”, “Ở đâu?”, “Khi

nào?”, v.v Các nhãn thông thường trong bài toán Gán nhãn vai nghĩa trong bảng

2.3.

Bài toán Gán nhãn vai nghĩa thuộc lớp bài toán Gán nhãn chuỗi (Sequence ing), một cách tổng quát bài toán có thể được phát biểu như sau:

label-Đầu vào: X = {z¡,z›,za tn} trong đó là z; từng từ trong câu.

Đầu ra: Y = {Y1, 9a, 93, , Yn} trong đó y; là nhãn tương ứng của từ 2;

trong câu.

16

Trang 29

2.2 BÀI TOÁN GÁN NHÂN VAI NGHĨA

Trong đó với mỗi từ x; € X ta có tương ứng một nhãn y; € Y là chuỗi các nhãn,

sao cho độ dai của X và Y bang nhau.

Vai trò Mô tả Ví dụ Agent Nguyên nhân của một sự | Người phục vụ làm đổ súp.

kiện.

Patient Người trải nghiệm một sự | John bị đau đầu.

kiện.

Force Nguyên nhân phi điều kiện | Gió thổi lá khô từ cây vào sân

của sự kiện của chúng tôi.

Theme Người tham gia bị ảnh hưởng | Tôi đã ném trái bóng cho

trực tiếp nhất bởi một sự kiện | Hằng

Result Sản phẩm cuối cùng của một | Thành phố đã xây một trung

sự kiện tâm thương mại lớn nhất cả

nước.

Content Mệnh dé hoặc nội dung của | Mona hỏi: "Bạn đã gap Mary

một sự kiện mệnh đề Ann ở siêu thị?".

Instrument | Một công cụ được sử dụng | Anh ta đã leo qua bức tường

trong một sự kiện đó bằng thang

Beneficiary | Người thụ hưởng một sự | Tôi đã đặt lịch khách sạn cho

Bảng 2.3 Một số nhãn được sử dụng trong gán nhãn vai nghĩa

Một cách tiếp cận tiêu chuẩn để giải quyết van đề gán nhãn chuỗi cho bài toán

có dạng biểu diễn theo cụm từ (span) như Nhận dạng thực thể định danh đó là

phương pháp gán nhãn BIO [44] (Begin - Inside - Outside) Bằng cách này, ta có thể

xem bài toán Nhận dạng thực thể định danh như một bài toán gán nhãn chuỗi theo từng từ (word by word) thông qua các nhãn mang cả hai giá trị: ranh giới từ (word

boundary)- vị trí bắt đầu và kết thúc của một từ - và loại thực thể định danh

Trong cách gan nhãn BIO, ta gan tất cả những từ bắt đầu một cụm từ được quan

tâm bằng B, các từ xuất hiện trong cụm từ đó bằng nhãn I, và tất cả những từ nằm

ngoài cụm từ đang được quan tâm đều được gán nhãn O Biểu diễn câu văn theo các

nhãn BIO tận dụng được ưu điểm của phương pháp gán nhãn từ loại (part-of-speech tagging) trong bài toán gán nhãn chuỗi, đó là: gán mỗi nhãn y; tương ứng với một từ

z¿ Ví dụ như bảng 2.4.

17

Trang 30

CHƯƠNG 2 TỔNG QUAN

Công nhân vận chuyển vật tư sang | Indonesia

B-AGENT | I-AGENT | B-VERB | I-VERB | B-THEME | I-THEME | O | B-GOAL

Bảng 2.4 Ví dụ về cách gán nhãn vai nghĩa theo dạng BIO

2.2.2 Những nghiên cứu liên quan

Một trong những thách thức đối với việc hiểu văn bản là học ngữ nghĩa Mặc dù học

sâu đã được áp dụng cho các nhiệm vụ xử lý ngôn ngữ tự nhiên (NLP) và đạt được

hiệu suất đáng kể [45, 46, 47, 48, 49, 50], các nghiên cứu gần đây đã phát hiện ra

các mô hình học sâu có thể không thực sự hiểu các văn bản ngôn ngữ tự nhiên [51]

và dễ bị đánh lừa bởi các câu gây nhiễu [52].

Gắn nhãn vai trò ngữ nghĩa (SRL) là một nhiệm vụ phân tích ngữ nghĩa nôngnhằm khám pha xem ai đã làm gi với ai, khi nào và tại sao [53, 23, 22], cung cấp

ngữ nghĩa theo ngữ cảnh rõ ràng, phù hợp với mục tiêu của nhiệm vụ hiểu văn bản.

Ngữ nghĩa rõ ràng đã được chứng minh là có lợi cho một loạt các nhiệm vụ NLP,

bao gồm phân loại ý thức quan hệ diễn ngôn [54], dịch máy [55], và trả lời câu hỏi[56] Tất cả các công trình thành công trước đây chỉ ra răng ngữ nghĩa theo ngữ cảnh

rõ ràng có thể giúp ích cho các nhiệm vụ đọc hiểu và suy luận ngôn ngữ tự nhiên.

Đối với MRC, các câu hỏi thường được dat ra là: với ai, cái gì, như thế nào, khinào và tại sao, mối quan hệ vị ngữ-đối số được cho là từ SRL cũng có đi giải quyếtcác vấn đề tương tự Vì vậy sử dụng các nhãn vai nghĩa để phục nhiệm vụ đọc hiểu

tự động là một việc hiển nhiên Trong bài toán trả lời câu hỏi nói riêng và đọc hiểu

tự động nói chung, đã có một số nghiên cứu về việc sử dụng các nhãn vai nghĩa vào

việc trả lời câu hỏi Việt sử dụng ngữ nghĩa vào nhiệm vụ đọc hiểu động không phải

là một phương pháp mới, ban đầu các nhãn vai nghĩa được sử dụng như một phương

pháp cốt lõi trong quá trình QA.

Nghiên cứu của Narayanan và Harabagiu [57] là một trong những nghiên cứu đầutiên đề xuất sử dụng vai trò ngữ nghĩa trong hệ thống QA và chúng được áp dụng

để xác định loại câu trả lời cho các câu hỏi phức tap.[58] đề xuất biểu diễn cả câuhỏi và đoạn văn có chứa câu trả lời khả thi dưới dạng cấu trúc kiểu FrameNet Câu

trả lời có được nhờ một quá trình ánh xạ giữa cả hai cấu trúc Kết quả cho các câu

hỏi miền mở đạt được độ chính xác là 66% và khả năng nhớ lại là 33%.Ngoài ra, hệ

18

Trang 31

2.2 BÀI TOÁN GAN NHÂN VAI NGHĨA

thống được trình bày bởi [59] thiết lập một bộ quy tắc liên quan một số loại câu hỏi

(ai, khi nào, ở đâu hoặc cái gì) với loại vai trò cho câu trả lời mong đợi Moschitti

và cộng sự [60] đã đề xuất một thuật toán học có giám sát bằng cách sử dụng thông

tin từ một cây phân tích ngữ nghĩa bao gồm vị từ câu và các đối số của nó được gắn

thẻ với vai trò ngữ nghĩa Các nghiên cứu trên đã đạt được kết quả state-of-the-art sovới các mô hình QA thời bấy giờ đã cho thấy tiềm năng việc sử dụng của các nhãn

vai nghĩa vào bài toán QA.

Hiện nay, với sự phát triển của các mô hình ngôn ngữ được đào tạo trước, không

còn nhiều nghiên cứu đến vấn đề này Tuy nhiên, vào năm 2020 Zhang và cộng sự

[25] đã đề xuất kết hợp ngữ nghĩa theo ngữ cảnh rõ ràng từ việc gắn nhãn vai trò

ngữ nghĩa được đào tạo trước và giới thiệu một mô hình biểu diễn ngôn ngữ cải tiến,

Semantics Aware BERT (SemBERT), có khả năng hiểu rõ ràng ngữ nghĩa theo ngữ

cảnh qua mô hình cốt lõi BERT SemBERT giữ cho khả năng sử dụng thuận tiện

của tiền thân BERT của nó theo cách tinh chỉnh nhẹ mà không có những sửa đổiđáng kể về nhiệm vụ cụ thể Trong nghiên cứu này các nhãn vai nghĩa được sử dụng

để bổ sung ngữ nghĩa cho phương pháp biểu diễn ngôn ngữ BERT So với BERT,

SemBERT đơn giản về khái niệm nhưng mạnh hơn về khả năng Nó dat được

state-of-the-art và cải thiện đáng kể kết quả trên mười nhiệm vụ đọc hiểu và suy luận ngônngữ trong tiếng Anh Chúng tôi sẽ thử nghiệm việc sử dụng mô hình SemBERT nàyvào phương pháp Trình đọc hồi tưởng để xem sự ảnh hưởng của các nhãn vai nghĩalên bài toán Đọc hiểu tự động tiếng Việt

Trong tiếng Việt bài toán Gán nhãn vai nghĩa chưa được phổ biến, [61] Phuong

Le-Hong và cộng sự đã cho rằng nhãn vai trò ngữ nghĩa (SRL) là một nhiệm vụ phụ

phân tích ngữ nghĩa của các câu ngôn ngữ tự nhiên và ứng dụng của nó đối với tiếng

Việt là rất cao Vì vậy họ đã xây dựng PropBank tiếng Việt, kho ngữ liệu SRL tiếng

Việt đầu tiên và một hệ thống phần mềm để gắn nhãn các vai trò ngữ nghĩa của văn

bản tiếng Việt Đặc biệt, nhóm tác giả đã trình bày một thuật toán trích xuất cầuthành mới trong bước xác định ứng viên đối số phù hợp hơn và chính xác hơn so với

phương pháp ánh xạ nút thông thường.

19

Trang 32

Chương 3 CƠ SỞ LÝ THUYET

Trong chương này, chúng tôi trình bày cơ sở lý thuyết của các phương pháp chúng

tôi đã sử dụng để xây dựng mô hình Đọc hiểu tự động Tiếng Việt

3.1 Mạng no-ron (Neural Network)

Bộ não của con người được coi là vật thể phức tạp nhất trong vũ trụ Giả thuyết nàymột phần là do mạng lưới thần kinh của não hoặc cách hệ thần kinh sinh học củachúng ta xử lý thông tin, các mạng nơ ron bao gồm nhiều nơ-ron xử lý kết nối vớinhau và cùng nhau giải quyết một vấn đề cụ thể

Nơ-ron (neuron) là đơn vị cơ bản cấu tạo nên hệ thần kinh và là thành phần quantrọng nhất của não bộ Phần thân của nơ ron là soma, chứa nhân (nucleus) sẽ chịutrách nhiệm tiếp nhận thông tin đầu vào từ thế giới bên ngoài thông qua các sợinhánh (dendrites), sau đó xử lý và đưa ra các thông tin đầu ra thông qua các sợi trục(axon) và truyền đến sợi nhánh của no ron khác Hình 3.1 mô tả cấu tạo của một nơron thần kinh cơ bản

Hình 3.1 Một tế bao nơ-ron thần kinh co ban

Các nơ-ron thần kinh thực hiện việc truyền dẫn tín hiệu qua lại lẫn nhau dựa vào

việc lan truyền xung điện, hay còn gọi là xung thần kinh Nếu các xung điện này đủ

lớn, các nơ-ron sẽ kích hoạt để cho phép tín hiệu đi từ các sợi nhánh của mình đến

sợi trục và lan truyền qua các sợi nhánh của các nơ-ron khác.

20

Trang 33

3.1 MẠNG NƠ-RON (NEURAL NETWORK)

Lay cảm hứng từ cấu trúc mạng nơ-ron thần kinh va cách thức hoạt động của não

bộ trong việc lan truyền xung thần kinh giúp con người có thể xử lý những thông tin

nhận được từ môi trường bên ngoài, các nhà nghiên cứu [62] đã mô hình hóa mạng

nơ-ron với hi vọng máy tính cũng có thể thực hiện xử lý các tác vụ mà con người

hiện tại có thể thực hiện một cách dễ dàng.

3.1.1 M6 hình mạng nơ-ron nhân tạo (ANN)

Mạng Neural network bao gồm nhiều lớp (layer) được kết nối với nhau, được chia thành 3 nhóm chính như hình 3.2, với lớp ngoài cùng bên trái được gọi là lớp đầu

vào (input layer), lớp ngoài cùng bên phải được gọi là lớp đầu ra (output layer), vànhóm các layer ở giữa gọi là các lớp ẩn (hidden layer) Bat kỳ mạng nơ-ron nào cũng

có 1 lớp đầu vào và 1 lớp đầu ra, tuy nhiên số lượng lớp ẩn tùy thuộc vào mức độ

phức tạp của vẫn đề, có thể có một, nhiều hoặc không có lớp ẩn nào.

Input Layer

(Lớp đầu vào)

Output Layer

(Lớp đầu ra)

Hình 3.2 Mô hình mạng nơ-ron nhân tạo

Các lớp trong mạng nơ-ron biến đổi dữ liệu bằng cách tính tổng tuyến tính của

các đầu vào và sau đó chuẩn hóa nó bằng cách sử dụng hàm kích hoạt, quá trình

21

Trang 34

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT

này được diễn ra tại mỗi node Mỗi node trong lớp đầu ra và các lớp ẩn đều liên kếtvới tất cả các node ở tầng liên trước với các trọng số w riêng, và ngoài ra mỗi node

cũng mang một hệ số bias b riêng.

e Tính tổng tuyến tính: Tính tổng tất cả các node ở tầng liền trước, nhân với

trọng số w và cộng với hệ số bias b tương ứng

e Sử dụng hàm kích hoạt (activation function) cho tổng tuyến tính.

Hàm kích hoạt là một phép biến đổi đầu vào tuyến tính thành phi tuyến tính, được

thực hiện trên dữ liệu đầu vào tại mỗi node và kết quả đầu ra được dùng làm đầu vàocủa node tiếp theo, giúp mô hình hóa được những bài toán phức tạp hơn Hàm kích

hoạt quyết định thông tin tại node đó có nên được tiếp tục đưa vào các lớp phía sau hay không, giống như việc các nơ-ron thông thường quyết định có nên lan truyền xung thần kinh đến các nơ-ron khác hay không Công thức của hàm kích hoạt được

biểu diễn một cách tổng quát như sau:

fO(wT a +b) (3.1)

Trong đó, ae) là hàm kích hoạt tai node thứ i trong lớp /, +? là ma trận hệ số

với b là vec-tơ hệ số độc lập

Ngoài ra, hàm kích hoạt còn hỗ trợ cơ chế lan truyền ngược (backpropogation)

với việc cung cấp các hệ số đối với hàm chí phi (loss function), qua đó có thể cập

nhật được weight va bias, giúp cải thiện mô hình.

3.1.2 Mô hình mạng nơ-ron hoi quy (Recurrent Neural Network - RNN)

Vi dụ xét câu “chưa ăn tôi cơm”, chúng ta có thể thấy câu này hoàn toàn không có

nghĩa Vậy thử xét thêm một câu “tôi chưa ăn cơm”, nó dễ hiểu và có ý nghĩa hơn

phải không? Cùng là 4 từ như sau nhưng cách sắp xếp khác nhau sẽ làm cho ý nghĩacủa các câu khác nhau Vì vậy, có thể nói trình tự của một câu hay một đoạn văn rấtquan trọng Tuy nhiên các mạng nơ-ron truyền thống thường nhận các giá trị đầu vàđầu ra độc lập với nhau, không quan tâm đến cách sắp xếp của câu, mạng nơ-ron hồi

quy (RNN) đã được ra đời để giải quyết van dé đó.

22

Trang 35

3.1 MẠNG NƠ-RON (NEURAL NETWORK)

Mạng nơ-ron hồi quy (Recurrent Neural Network - RNN) [63] là một loại đặcbiệt của mạng nơ-ron nhân tạo được điều chỉnh để làm việc cho dữ liệu chuỗi thời

gian hoặc dữ liệu liên quan đến trình tự Ý tưởng chính của RNN là sử dụng thông

tin dạng chuỗi, cùng với việc dùng một bộ nhớ cho phép lưu lại thông tin những

bước tính toán trước đó để đưa ra dự đoán cho bước hiện tại Hình 3.4 là một minh

Hình 3.3 Minh họa kiến trúc mô hình mạng nơ-ron hồi quy

Mô hình RNN hoạt động như sau:

e Giá trị đầu vào tại thời điểm ¿ là 2;

e s¿ là trạng thái ẩn tại thời điểm t, được tính toán dựa trên tất cả các trạng thái

ẩn trước đó và giá trị đầu vào z;, sử dụng một hàm kích hoạt phi tuyến tính

(thường là Tanh hoặc Sigmoid) cho tổng cuối cùng Ở thời điểm đầu tiên sẽ

khởi tao trạng thái ẩn s_¡, thường được gan bằng 0

e o¿ là giá trị đầu ra tại thời điểm t Với V là một hệ số lớp đầu ra, f(.) là một

hàm phi tuyến (thường là softmax), giá tri đầu ra 0; có công thức: o; = ƒ(Vh;¿)

Về lý thuyết, các mạng nơ-ron hồi quy (RNN) có thể sử dụng thông tin theo chuỗidài tùy ý, nhưng thực tế đã cho thấy rằng, các mạng RNN truyền thống đã gặp khókhăn khi độ dài của chuỗi tuần tự bắt đầu tăng lên Theo nghiên cứu của Hochreiter

và Bengo cùng các cộng sự, các mô hình RNN đã gặp phải hai vấn dé là mat mát

đạo hàm (vanishing gradient) và bùng nổ đạo hàm (exploding gradient).

Có nhiều phương pháp được đề xuất để giải quyết van dé trên Một trong nhữngphương pháp ra đời sớm nhất là Bộ nhớ ngắn hạn dài hạn (LSTM) [64], và sau đó[65] đã cho ra đời Nút hồi tiếp có cổng (Gated Recurrent Unit - GRU) là một biến

23

Trang 36

CHƯƠNG 3 CƠ SỞ LÝ THUYẾT

thể gọn hơn của LSTM, thường có chất lượng tương đương và tính toán nhanh hơnđáng kể Chúng tôi sẽ giới thiệu rõ hơn về GRU trong phần 3.1.3

3.1.3 Nút hồi tiếp có cổng (Gated Recurrent Unit - GRU)

Năm 2014, Cho và cộng sự [65] đã giới thiệu GRU, như một biến thể của RNN giảiquyết được van dé của mạng nơ-ron hồi quy như Sự khác biệt chính giữa RNN

thông thường và GRU là GRU hỗ trợ việc kiểm soát trạng thái ẩn thông qua cổng

xóa (reset gate) và cổng cập nhật (update gate), giúp quyết định khi nào nên cập nhật

và khi nào nên xóa trạng thái ẩn.

Hình 3.4 Minh họa kiến trúc Nút hồi tiếp có cổng (GRU)

Tại mỗi thời gian t, ô nhớ GRU sẽ nhận một đầu vào x, và một trạng thái ẩn h;_ ¡

từ điểm thời gian trước t — 1 Sau đó một số phép tính và đề xuất ra một trang thái

ẩn h;, và trạng thái ẩn này được đưa tới 6 nhớ ở thời điểm tiếp theo Có hai cổngchính trong ô nhớ là cổng xóa và cổng cập nhật, cổng xóa chịu trách nhiệm về trạng

thái ngắn hạn của mạng trong khi cổng cập nhật lại chịu trách nhiệm về trạng thái

dài hạn, được tính theo công thức sau:

ry, = o(a, # U, + hy-1 * W,)

2t — ơ( * U, + hịT— 1 * W;)

r; là giá trị đầu ra của cổng xóa, z là giá trị đầu ra của cổng cập nhật, cả hai giá

trị đều nằm trong khoảng từ 0 đến 1, sử dụng hàm kích hoạt sigmoid Ur, Wr và

24

Trang 37

3.2 TRANSFOMERS

Uz, W z lần lượt là trọng số và độ lệch của cổng xóa và cổng cập nhật

Để tim được trạng thái ẩn h; trong GRU, cần phải tuân theo quy trình sau Dautiên, tao ra trạng thái ẩn hiện tại bằng cách lấy đầu vào và trang thái ẩn trước đó h;_ ¡nhân với giá trị của cổng xóa r;, rồi chuyển toàn bộ thông tin này đến hàm tanh:

ht = tanh(az * Ug + (rị 0 he-1) * Wg)

Phan quan trong nhất trong quá trình này là việc sử dung giá tri của cổng xóa đểkiểm soát mức độ ảnh hưởng của trạng thái ẩn trước đó đối với trạng thái ẩn ứngviên Nếu giá trị r; bằng 1 có nghĩa là toàn bộ thông tin từ trạng thái ẩn trước đó

hy dang được xem xét, ngược lại nếu r; bằng 0 thì thông tin của trạng thái ẩn trước

đó hoàn toàn bị bỏ qua.

Sau khi có được trạng thái hiện tại, kết hợp với cổng cập nhật để xác định được

trạng thái ẩn mới Nhiệm vụ của cổng cập nhật là xác định khía cạnh nào của nội dung hiện tại được sử dụng và khía cạnh nội dung thông tin nào của trạng thái ẩn

trước đó cần loại bỏ cho trạng thái ẩn kế tiếp, được mô bằng công thức sau:

3.2 Transfomers

Transformer [66] là một mô hình học sâu được thiết kế để phục vụ giải quyết nhiềubài toán trong xử lý ngôn ngữ tự nhiên Kiến trúc Transformer sử dụng hai phần

Encoder và Decoder khá giống với RNNs Điểm khác biệt là mô hình hoàn toàn

không sử dụng các kiến trúc Recurrent Neural Network mà chỉ sử dụng các layersAttention để embedding các từ trong câu Kiến trúc cụ thể của mô hình trong hình

3.5

Mô hình sẽ bao gồm hai giai đoạn:

e Encoder: Bao gồm 6 layers liên tiếp nhau Mỗi một layer sẽ bao gồm một

sublayer là Multi-Head Attention kết hợp với fully-connected layer như mô tả

ở nhánh Encoder bên trái của hình vẽ Kết thúc quá trình Encoder ta thu được

một vector embedding output cho mỗi từ.

25

Trang 38

CHƯƠNG 3 CƠ SỞ LÝ THUYET

Add & Norm

Add & Norm

Multi-Head Attention

¿Ạ _ J

Add & Norm

Add & Norm

e Decoder: Kiến trúc cũng bao gồm các layers liên tiếp nhau Mỗi một layer của

Decoder cũng có các sub-layers gần tương tự như layer của Encoder nhưng bổsung thêm sub-layer đầu tiên là Masked Multi-Head Attention có tác dụng loại

bỏ các từ trong tương lai khỏi quá trình Attention.

3.3 Tổng quan mô hình BERT

3.3.1 Giới thiệu

BERT [3] là viết tắt của cụm từ Bidirectional Encoder Representation from

former có nghĩa là mô hình biểu diễn từ theo hai chiều ứng dụng kỹ thuật former BERT được thiết kế để huấn luyện trước các biểu diễn hai chiều từ văn bản

Trans-26

Ngày đăng: 03/11/2024, 19:10

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN